Gebruiker:Pollevanraalte/Kladblok

Uit Wikipedia, de vrije encyclopedie

Eindhoven corpus[bewerken | brontekst bewerken]

Het Eindhoven corpus is de eerste verzameling van geschreven en gesproken tekst dat Nederlandstalig is en voor onderzoeksdoeleinde gemaakt is. Het Eindhoven corpus wordt ook wel Corpus uit den Booghaard genoemd. Deze naam dateert uit 1975 en het corpus komt uit de periode tussen 1960 en 1973.

Er zijn twee onderdelen waar het corpus uit bestaat, het geschreven en het gesprokendeel. Het geschreven deel van de corpus bestaat uit ongeveer zeshonderdduizend woorden uit verschillende stukken tekst die uit de periode van 1964 tot 1971 komen. Het tweede gedeelte is het gesproken gedeelte. Dit gedeelte bevat ongeveer vijf keer zo weinig woorden met een totale woorden schatting van ongeveer 120.000 woorden.

Een ander corpus genaamd het Renkema corpus is in het jaar 1989 toegevoegd aan het Eindhoven corpus. Het Renkema corpus bevatte tekstfragmenten van het parlementaire jaar van 1975 tot 1976. Deze tekstfragmenten bestonden uit de briefwisselingen tussen de regering en de Staten-Generaal van dat jaar.

Versiegeschiedenis[bewerken | brontekst bewerken]

Origineel[bewerken | brontekst bewerken]

Het is niet bekend of de originele tekstbestanden nog bestaan maar in 2005 is er een tape gegeven aan de TST-Centrale door Eric Akkerman met de gedachte dat op deze tape de originele versie van het corpus zou staan maar dit bleek niet waar te zijn. Na een zoektocht bleek dat de originele geluidsbanden en de daar bij horende transcripties opgeslagen zijn bij het Meertens Instituut.

Vrije Universiteit[bewerken | brontekst bewerken]

De VU-versie is een opgeschoonde versie die gemaakt is door Dave van Grootheest en deze kan gedownload worden bij de TST-Centrale. Deze versie is door de VU onderhouden en uitgegeven voordat deze bij de TST-Centrale in handen kwam. "In de bijbehorende gebruikershandleiding staat uitgebreid beschreven in welk opzicht deze versie verschilt van de oorspronkelijke: het gaat voornamelijk om verbeteringen van de morfosyntactische annotatie en om verandering van weergave van de codering. Daarnaast is het Renkema Corpus als component toegevoegd."[1] Dit zijn de grootste veranderingen volgens de TST-Centrale.

Er zijn ook nog overige versies beschikbaar en te vinden bij andere onderzoeksinstituten en bedrijven in zowel Nederland als in België.

Bronnen[bewerken | brontekst bewerken]

https://ivdnt.org/wp-content/uploads/2020/06/ehc_documentatie_nl.pdf https://ivdnt.org/corpora-lexica/eindhoven-corpus/