Corpustaalkunde

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

Corpustaalkunde of corpuslinguïstiek is de studie van bepaalde taalverschijnselen met behulp van een verzameling geannoteerde teksten. Zulke verzamelingen van teksten worden corpora genoemd.

Zaken die vaak worden onderzocht zijn de frequentie van bepaalde woorden en de typische contexten waarin ze opduiken. Dit gebeurt tegenwoordig over het algemeen digitaal. Voordat de computer werd uitgevonden maakte men hiervoor gebruik van concordanties, in de vorm van handmatig opgestelde overzichten van de contexten waarin een bepaald woord werd aangetroffen. Aan het eind van de 17e eeuw deed Abraham Trommius bijvoorbeeld iets dergelijks voor de bijbel.

Bekende corpora[bewerken]

  • Brown: 1 miljoen woorden, gevarieerde genres, origineel opgeslagen op 100 000 ponskaarten, Brown University (Kucera en Francis, 1967)
  • British National Corpus: 100 miljoen woorden
  • Penn: geannoteerd met syntactische relaties
  • CHILDES: kindertaal in verschillende talen
  • CGN: Corpus Gesproken Nederlands, 1,000 uur aan spraak van Vlaanderen en Nederland, 10 miljoen woorden.
  • Eindhoven Corpus
  • Volkskrant/TwNC
  • De Alpino Dependency Treebank
  • Het World Wide Web (WWW): bijna een oneindig aantal aan woorden dat elke dag groeit.
  • Parallel corpora: Scania, BAF, CRATER en anderen