Corpuslinguïstiek

Uit Wikipedia, de vrije encyclopedie
(Doorverwezen vanaf Corpustaalkunde)
Ga naar: navigatie, zoeken

Corpuslinguïstiek of corpustaalkunde is de studie van bepaalde taalverschijnselen met behulp van een verzameling geannoteerde teksten. Zulke verzamelingen van teksten worden corpora genoemd.

Zaken die vaak worden onderzocht zijn de frequentie van bepaalde woorden en de typische contexten waarin ze opduiken. Dit gebeurt tegenwoordig over het algemeen digitaal. Voordat de computer werd uitgevonden, maakte men hiervoor gebruik van concordanties, in de vorm van handmatig opgestelde overzichten van de contexten waarin een bepaald woord werd aangetroffen. Aan het eind van de 17e eeuw deed Abraham Trommius bijvoorbeeld iets dergelijks voor de Bijbel.

Bekende corpora[bewerken]

  • Brown: 1 miljoen woorden, gevarieerde genres, origineel opgeslagen op 100 000 ponskaarten, Brown University (Kucera en Francis, 1967)
  • British National Corpus: 100 miljoen woorden
  • Penn: geannoteerd met syntactische relaties
  • CHILDES: kindertaal in verschillende talen
  • CGN: Corpus Gesproken Nederlands, 1000 uur aan spraak van Vlaanderen en Nederland, 10 miljoen woorden
  • Eindhoven Corpus
  • Volkskrant/TwNC (Twente Nieuws of News Corpus)
  • Alpino Dependency Treebank
  • Internet: bijna een oneindig aantal woorden dat elke dag groeit
  • Parallel corpora: Scania, BAF, CRATER en andere
  • Dutch Parallel Corpus (DPC)
  • Namur Corpus