Corpustaalkunde

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

Corpustaalkunde is de studie van taal met behulp van een verzameling van geannoteerde tekst. Zulke verzamelingen van teksten worden corpora genoemd.

Bekende Corpora[bewerken]

  • Brown: 1 miljoen woorden, gevarieerde genres, origineel opgeslagen op 100 000 ponskaarten, Brown University (Kucera en Francis, 1967)
  • British National Corpus: 100 miljoen woorden
  • Penn: geannoteerd met syntactische relaties
  • CHILDES: kindertaal in verschillende talen
  • CGN: Corpus Gesproken Nederlands, 1,000 uur aan spraak van Vlaanderen en Nederland, 10 miljoen woorden.
  • Eindhoven Corpus
  • Volkskrant/TwNC
  • De Alpino Dependency Treebank
  • Het World Wide Web (WWW): bijna een oneindig aantal aan woorden dat elke dag groeit.
  • Parallel corpora: Scania, BAF, CRATER en anderen