Corpus (taalkunde)

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

Een corpus (meervoud corpora) is in de taalkunde een verzameling teksten of mondelinge uitingen (klankopnames) in een bepaalde taal, die gebruikt wordt om onderzoek van linguïstische of statistische aard op te verrichten. In het onderzoek naar de kindertaalverwerving refereert men ook aan de (totale) taalproductie van een kind als een corpus.

Frequentie als maatstaf[bewerken]

Corpora worden gebruikt om synchrone of diachrone studies omtrent een veelvoud aan fenomenen te analyseren; veelal hanteert men de frequentie als maatstaf. Men kan bijvoorbeeld het aantal malen dat een bepaald woord voorkomt vergelijken tussen verschillende corpora, teneinde vervolgens conclusies met betrekking tot bepaalde tendensen in de taal te trekken. De frequentie van een lexeem kan met behulp van een speciaal programma worden opgezocht, dat de collocaties registreert.

Men maakt een onderscheid tussen de type frequency en de token frequency. De token frequency is het zuiver statistische aantal malen dat een bepaalde vorm voorkomt: men kan in een Nederlandstalig corpus bijvoorbeeld zoeken hoe dikwijls het bijwoord 'middelerwijl' voorkomt. De type frequency staat daarentegen voor de frequentie van een bepaalde constructie: men kan in datzelfde corpus ook nagaan hoeveel maal 'middelerwijl' of 'middelertijd' voorkomt, door te zoeken naar alle samenstellingen met 'middeler-'. Dit geeft dan een idee over de courantheid of schaarste van dergelijke woorden.

De context waarin een token voorkomt, is eveneens relevant; de 'aanpalende' woorden worden de collocaten genoemd. Een reeks opgezochte tokens met bijhorende collocaten noemt men een concordantie.

Soorten corpora[bewerken]

Er bestaan, naar gelang van de functie, verschillende soorten corpora:

Diachrone corpora[bewerken]

Diachrone corpora zijn tekstbestanden uit verschillende periodes: zo is een verzameling die bijvoorbeeld teksten uit de twaalfde, dertiende, veertiende, vijftiende, zestiende en zeventiende eeuw bevat, een diachroon corpus, omdat men aan de hand van deze teksten kan vergelijken hoe sommige woorden of patronen in onbruik raken, geïntroduceerd worden of anderszins evolueren. De teksten hoeven in principe niet aan hetzelfde genre te beantwoorden, alhoewel dit uiteraard mooi meegenomen is.

Synchrone corpora[bewerken]

Synchrone corpora zijn verzamelingen van teksten uit ongeveer dezelfde periode, bijvoorbeeld alle geschreven in 1986. Bij dit soort corpus worden teksten van verschillende stijlen, genres en niveaus vergeleken, zodat men kan onderzoeken welke patronen en woordkeuzes typerend zijn voor welke doelgroepen.

Gesproken corpora[bewerken]

Naast geschreven corpora bestaan er gesproken corpora van gesproken taal: in zo'n geval registreert men gesprekken, dialogen, interviews, conferenties enzovoorts.

In veel gevallen zijn gesproken corpora geannoteerd met een transcriptie, dat wil zeggen, met een tekstbestand waarin is opgeslagen wat er in het gesproken corpus gezegd wordt. De meest gebruikelijke vormen van transcriptie zijn ortografische en fonetische transcriptie.

Gesproken corpora zijn veelal gealigneerd met hun transcriptie. Dat wil zeggen dat het corpus niet alleen bestaat uit het geluidsbestand en het bestand met de transcriptie-informatie, maar dat ook aangegeven is welk deel van het geluidsbestand correspondeert met welk deel van het transcriptiebestand. De meest bekende vorm van gealigneerde ortografische transcriptie van tekst zijn de ondertitelingsbestanden van films.

De fonetische transcriptie maakt gebruik van een fonetisch alfabet om de klanken in tekst weer te geven. Daarnaast worden vaak ook andere aspecten van de spraak in de transcriptie aangegeven: men maakt gebruik van een speciale notatie om aan te duiden waar de sprekers van volume veranderden, hun intonatie wijzigden en elkaar onderbraken. Gesproken corpora met een rijke transcriptie zijn doorgaans zo accuraat mogelijke weergaves van de spreeksituatie en in sommige gevallen worden ook achtergrondgeluiden, versprekingen, aarzelingen en andere niet-verbale geluiden opgenomen in de transcriptie.

Het internet als corpus[bewerken]

In wezen is uiteindelijk elke verzameling teksten een corpus: men kan reeds een (oppervlakkig) taalkundig onderzoek uitvoeren met behulp van een zoekmachine, vermits het internet op zich ook een corpus is. Weliswaar biedt het geen garantie dat de teksten representatief zijn, en daarenboven zal onvermijdelijk een aantal niet door moedertaalsprekers geschreven zijn. Een bijzonder laag aantal 'Google-hits' kan echter een krachtige en bruikbare indicatie voor de frequentie van een patroon of lexeem vormen.

Meertalige corpora[bewerken]

Meertalige (of gemengde) corpora zijn corpora waarin teksten in verschillende talen zijn opgenomen. Er zijn verschillende soorten meertalige corpora:

  • vergelijkbare corpora zijn corpora waarin de teksten uit de verschillende talen vergelijkbaar zijn in grootte en inhoud, maar waarbij niet noodzakelijkerwijs iedere taal precies dezelfde teksten bevat
  • parallelle corpora zijn corpora waarin dezelfde teksten in alle talen aanwezig zijn. Een bekend meertalig corpus is de tekst van de bijbel in alle talen waarin ze vertaald is.
  • gealigneerde corpora zijn parallelle corpora waarin niet alleen alle talen dezelfde teksten bevatten, maar waarin ook is aangegeven welk deel uit de tekst uit de ene taal correspondeert met welk deel van de tekst uit een andere taal. Deze correspondentie is vaak ofwel op het niveau van de paragrafen aangegeven, ofwel op het niveau van de zinnen.

Meertalige corpora zijn nuttig voor contrasteren van talen: men kan werken met teksten die georiënteerd zijn naar het genre, bijvoorbeeld krantenartikelen met betrekking tot streeknieuws in het Fins en Portugees, of men kan met teksten werken die onderling vertalingen van elkaar zijn, bijvoorbeeld farmaceutische bijsluiters. Dit soort corpus vertelt vaak veel over hoe bepaalde constructies zich, qua frequentie, ten opzichte van elkaar verhouden in verschillende talen. Veel hedendaagse automatische vertaalsystemen zijn gebaseerd op grote meertalige corpora.

Specialistische corpora[bewerken]

Verschillende universiteiten hebben in de loop der jaren corpora aangelegd met het oog op bepaalde onderzoeken. Zo bestaan er corpora die uitsluitend teksten van mensen bevatten die de desbetreffende taal nog aan het leren zijn en dus nog fouten maken; dit verschaft waardevolle inzichten over welk soort fouten vaak voorkomt bij het verwerven van een bepaalde taal. Andere corpora bestaan uitsluitend uit telefoongesprekken. Specialistische corpora ontspruiten vaak aan universiteitsvakgroepen en zijn niet vrij toegankelijk: er bestaat echter een klein aantal corpora die vrij consulteerbaar zijn op het Internet, zoals de LOB- en Brown-corpora, die beide formele teksten uit 1961 bevatten, de eerste Brits, de tweede Amerikaans. Grote corpora, met een breed gamma aan genres en periodes, bevatten vaak miljoenen woorden: een van de gezaghebbendste is de British National Corpus.

Voor de (studie van de) kindertaal is "CHILDES" (Child Language Data Exchange System) een bekende en veelgebruikte (digitale) verzameling.

Treebank[bewerken]

Een treebank (Engels, 'bomenbank') is een corpus van zinnen met syntactische annotatie. Treebanks worden gebruikt voor syntactisch onderzoek en voor het trainen van automatische ontleedprogramma's.

Externe links[bewerken]