Corpustaalkunde
Uit Wikipedia, de vrije encyclopedie
Corpustaalkunde is de studie van taal met behulp van een verzameling van geannoteerde tekst. Zulke verzamelingen van teksten worden corpora genoemd.
Bekende Corpora [bewerken]
- Brown: 1 miljoen woorden, gevarieerde genres, origineel opgeslagen op 100 000 ponskaarten, Brown University (Kucera en Francis, 1967)
- British National Corpus: 100 miljoen woorden
- Penn: geannoteerd met syntactische relaties
- CHILDES: kindertaal in verschillende talen
- CGN: Corpus Gesproken Nederlands, 1,000 uur aan spraak van Vlaanderen en Nederland, 10 miljoen woorden.
- Eindhoven Corpus
- Volkskrant/TwNC
- De Alpino Dependency Treebank
- Het World Wide Web (WWW): bijna een oneindig aantal aan woorden dat elke dag groeit.
- Parallel corpora: Scania, BAF, CRATER en anderen