Naar inhoud springen

Gebruiker:PMMajoor/Kladblok

Uit Wikipedia, de vrije encyclopedie

Corpus Gesproken Nederlands[bewerken | brontekst bewerken]

Het Corpus Gesproken Nederlands (CGN) is een verzameling van bijna 9 miljoen woorden in de huidige Nederlandse taal, afkomstig uit Nederland en Vlaanderen. Het CGN bestaat uit 900 uur opgenomen spraakfragmenten, waarbij ongeveer twee derde afkomstig is uit Nederland, en een derde uit Vlaanderen. De spraakfragmenten zijn voorzien van diverse transcripties (onder andere orthografisch, fonetisch) en annotaties (syntactisch, POS-tags).

Oprichting en aanleiding[bewerken | brontekst bewerken]

Het Nederlands wordt door miljoenen mensen in verschillende delen van de wereld gesproken (onder andere Nederland, Vlaanderen, Suriname, Nederlandse Antillen). Elke regio heeft zo weer zijn eigen varianten in dezelfde taal. Door het opzetten het CGN kunnen deze verschillen vergeleken worden op verschillende gebiede zoals de syntaxis, de morfologie, de fonetiek en het lexicon.[1]

Moderne taal- en spraaktechnologie[bewerken | brontekst bewerken]

In het veeltalige Europa moet het Nederlands concurreren met veel andere talen. Met name de invloed van het Engels neemt de afgelopen tijd steeds meer toe. De belangrijke rol van het Engels in de moderne taal- en spraaktechnologie, is grotendeels te verklaren door de grote hoeveelheid Engelse bronnen. Met behulp van het CGN wordt het mogelijk om dergelijke technologieën die in het Engels zijn ontwikkeld, ook in het Nederlands toe te passen. In de lange termijn kan dit positieve economische en culturele gevolgen hebben voor de Nederlandse taal binnen Europa.[2]

Taalkunde en onderwijs[bewerken | brontekst bewerken]

Daarnaast is het corpus naast ontwikkelingen in de taal- en spraaktechnologie ook belangrijk voor de taalkunde. Voorheen waren er alleen maar corpora van geschreven Nederlands beschikbaar. Tot nu toe lag vooral de focus op de beschrijving van aspecten van de geschreven taal. Hierdoor was er bijna geen systematische kennis beschikbaar over het gesproken Nederlands. Tenslotte kan het CGN belangrijk zijn voor het onderwijs. Door meer inzichten te krijgen in het dagelijks taalgebruik kan deze kennis gebruikt worden voor het verbeteren van Nederlands in het basis- en middelbaar onderwijs en voor taalcursussen Nederlands als tweede taal.

  1. ivdnt.org, Corpus Gesproken Nederlands (CGN). INT Taalmaterialen. Geraadpleegd op 12 oktober 2023.
  2. Project informatie. lands.let.ru.nl. Geraadpleegd op 12 oktober 2023.