Gebruiker:ReinoutVrielink/Kladblok

Uit Wikipedia, de vrije encyclopedie

Statistische Taalkunde[bewerken | brontekst bewerken]

Statistische taalkunde, een deelgebied van mathematische taalkunde, is een tak van de taalkunde die zich bezighoudt met het toepassen van statistische methoden en computertechnieken op de analyse van taalgegevens. Het verzamelen van statistieken over taalgegevens is een van de oudste toepassingsgebieden van de computationele taalkunde.[1] Met behulp van wiskundige en statistische modellen kunnen er patronen in taal geïdentificeerd worden.

Methode[bewerken | brontekst bewerken]

Binnen de statistische taalkunde wordt er gekeken naar de frequentie van een woord of woordcombinatie. Geschreven en gedrukte tekst wordt met een scanner omgezet in een digitale versie, die vervolgens verwerkt kan worden in een corpus. Deze corpora zijn een van de belangrijkste bronnen voor de statistische taalkunde. De corpora worden geanalyseerd, en er wordt duidelijk gemaakt wat de frequenties van bepaalde woordcombinaties binnen deze corpora zijn. Deze statistieken worden gebruikt voor o.a. machine learning en voor het ontwikkelen van spraak- en schriftherkenning. Een van de manieren om deze statistieken te analyseren is het gebruik van N-Gram modellen, een van de bekendste N-Gram modellen is de Ngram-Viewer van Google.

Bigram- en trigramstatistieken.

Bij de analyse van bepaalde corpora wordt er veel gekeken naar bigram- en trigramstatistieken.[1]Aan de hand van deze statistieken kunnen onderzoekers een indruk krijgen van woordcombinaties die vaak voorkomen. De bigram en trigram zijn woordcombinaties van respectievelijk twee en drie woorden. De bigram-en trigramfrequenties worden veel gebruikt bij het ontwikkelen van spraak- en schriftherkenning.[1] Het vastleggen van deze combinaties is nuttig om de context van een woord te begrijpen, iets wat bij spraak- en schriftherkenning belangrijk is. Ook zijn bigram- en trigramfrequenties belangrijk voor het opstellen van waarschijnlijkheidsverdelingen. Deze verdelingen worden toegepast om de kans te bepalen dat bepaalde taalconstructies of woordsequenties optreden, een belangrijke toepassing op het gebied van spraakherkenning en machinevertaling.

  1. a b c G. Bouma, Statistische Taalkunde. www.let.rug.nl (19 mei 2000). Geraadpleegd op 12 oktober 2023.