Gebruiker:Jdanoe/Kladblok

Uit Wikipedia, de vrije encyclopedie

Eindhoven-corpus[bewerken | brontekst bewerken]

Het Eindhoven-corpus is een verzameling Nederlandstalige geschreven en (uitgeschreven) gesproken teksten uit de periode van 1960 tot 1976. Het bevat materiaal uit kranten en tijdschriften en correspondentie tussen de regering en de Staten-Generaal, en diverse gesproken bronnen. Het is in diverse fases verbeterd en inmiddels bruikbaar gemaakt in een hedendaagse corpusapplicatie.[1]

Geschiedenis[bewerken | brontekst bewerken]

Het Eindhoven-corpus – ook wel Corpus Uit den Boogaart (1975) genoemd – is de eerste verzameling van Nederlandstalige geschreven en (getranscribeerde) gesproken teksten die voor onderzoeksdoeleinden is gemaakt. Het corpus dateert uit de periode 1960-1973. Het geschreven deel bevat tekstfragmenten van in totaal 600.000 woorden uit de periode 1964-1971. Het gesproken deel is aanzienlijk kleiner en bevat circa 120.000 woorden. In 1989 is aan het Eindhoven-corpus het Renkema-corpus toegevoegd, een corpus met tekstfragmenten van correspondentie tussen de regering en de Staten-Generaal uit het parlementaire jaar 1975-1976.[2]

Versiegeschiedenis[bewerken | brontekst bewerken]

Het oorspronkelijke corpus is gebruikt als bron voor het in 1975 verschenen Woordfrequenties in geschreven en gesproken Nederlands. De versie 2.0.1, beschikbaar via de taalmaterialenwebsite van het Instituut voor de Nederlandse Taal (INT), is aan de Vrije Universiteit Amsterdam (VU) tot stand gekomen. In de VU-versie is niet alleen het Renkema-corpus toegevoegd, ook is de weergave van de morfosyntactische codering gewijzigd en zijn er correcties uitgevoerd. Bij de ontwikkeling van de WOTAN 2-tagset heeft Hans van Halteren gedeeltes van het Eindhoven-corpus een upgrade gegeven.[3]

Versie 2.5[bewerken | brontekst bewerken]

Het INT heeft een nieuwe versie van het Eindhoven-corpus gemaakt, waarbij het corpus is omgezet naar TEI-XML en van gestructureerde metadata is voorzien. Daarnaast is de lemmatisering aangevuld en is er een reconstructie van het hoofdlettergebruik en de diakritisch tekens gedaan met behulp van de Van Halterenversie en GiGaNT-Molex. De PoS-tagging (verrijking met woordsoort) is omgezet naar een met de CGN-tagset nauw verwante tagging, waarbij sommige kenmerken automatisch zijn toegevoegd, en daarna weer gedeeltelijk handmatig gecorrigeerd.[4]

Referenties[bewerken | brontekst bewerken]

  1. rob, Eindhoven-corpus. Instituut voor de Nederlandse Taal (11 december 2019). Geraadpleegd op 24 september 2022.
  2. rob, Eindhoven-corpus. Instituut voor de Nederlandse Taal (11 december 2019). Geraadpleegd op 24 september 2022.
  3. rob, Eindhoven-corpus. Instituut voor de Nederlandse Taal (11 december 2019). Geraadpleegd op 24 september 2022.
  4. rob, Eindhoven-corpus. Instituut voor de Nederlandse Taal (11 december 2019). Geraadpleegd op 24 september 2022.