Gebruiker:StijnSchreven/Kladblok

Uit Wikipedia, de vrije encyclopedie

Ngrams[bewerken | brontekst bewerken]

Definitie[bewerken | brontekst bewerken]

Ngrams is een concept dat gebruikt wordt in de NLP (Natural Language Processing). Een ngram is een verzameling groepen tekens gescheiden door een spatie. Een ngram kan een woord zijn ‘appel’ of een getal ‘1878’ of een combinatie ‘aardbei123’.  De ‘n’ in ngrams staat voor de hoeveelheid groepen. Voorbeelden van n-grams zijn een unigram (één groep), bigrams (twee groepen of trigrams (drie groepen)[1].

Voorbeelden[bewerken | brontekst bewerken]

  • 1-grams: ‘aap’, ‘noot’, ‘mies'.
  • 2-grams: ‘in Groningen’, ‘frisse wind’.
  • 3- grams: ‘op de heuvel’, ’20 verse peren’.

Gebruik van ngrams:[bewerken | brontekst bewerken]

Ngrams kunnen voor meerdere doeleinden in de taaltechnologie gebruikt worden. Een voorbeeld hiervan is voor taalkundig of cultureel onderzoek in corpus van tekstdocumenten. Aan de hand van de frequentie van bepaalde ngrams kan bijvoorbeeld een taalkundige trend over tijd ontdekt worden. Een ander gebruik is voor het voorspellen van een volgend woord in de zin. Bij een gegeven woord is het mogelijk het meest logische volgende woord te voorspellen aan de hand van veelvoorkomende ngrams. Dit is handig voor het maken van taalmodellen als Chatgpt. Ten slotte kunnen ngrams ook gebruikt worden om spelfouten te ontdekken. ‘Gezond eetn’ kan bijvoorbeeld gecorrigeerd worden naar ‘gezond eten’ aan de hand van de waarschijnlijkheid dat ‘eten’ volgt op ‘gezond’ en de overlap van letters tussen ‘eetn’ en ‘eten’.

Enkele databases van ngrams zijn de google ngrams viewer[2] en de nederlandse twitter database[3].

  1. (en) Michel, Jean-Baptiste, Shen, Yuan Kui, Aiden, Aviva Presser, Veres, Adrian, Gray, Matthew K. (14 januari 2011). Quantitative Analysis of Culture Using Millions of Digitized Books. Science 331 (6014): 176–182. ISSN:0036-8075. PMID: 21163965. PMC: PMC3279742DOI:10.1126/science.1199644.
  2. Google ngrams viewer.
  3. Dutch Twitter Ngram Trends. www.let.rug.nl. Geraadpleegd op 11 oktober 2023.