Karakterfrequentie

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

Karakterfrequentie of letterfrequentie geeft aan hoe vaak een karakter of letter wordt gebruikt in een gegeven context. Binnen de context van Nederlandse woorden zal de karakterfrequentie van de letter e hoger zijn dan die van de letter x. Studies op het gebied van karakterfrequentie spelen een belangrijke rol bij het samenstellen van een zo praktisch mogelijke spellingcontrole.

Een Nederlands onderzoek[bewerken]

De stichting OpenTaal heeft onderzoek gedaan naar de karakterfrequentie in Nederlandse woorden.[1] De resultaten zijn hier zowel in de vorm van een histogram en een tabel weergegeven. Hierin is de telling van karakters uit een door de Nederlandse Taalunie goedgekeurde woordenlijst (zonder eigennamen) [versie 2.00 van OpenTaal] uitgezet per karakter. De resultaten zeggen daarom niets over de frequentie waarmee karakters werkelijk gebruikt worden, alleen hoe vaak een karakter in de lijst voorkomt.

Histogram van Nederlandse karakters

Histogram van karakters in 315.779 Nederlandse woorden zonder eigennamen - OpenTaal 2.00 2011-01-24. De frequentie geeft aan hoeveel woorden het karakter één of meer keer bevatten.

Karakter Frequentie
e 281.536
r 201.598
n 196.655
i 177.801
t 176.453
s 167.339
a 162.193
o 150.436
l 137.916
d 123.618
g 111.562
k 86.300
u 77.625
p 77.094
m 73.700
c 67.385
h 66.074
b 66.020
v 62.374
j 46.099
w 39.207
f 37.757
z 27.460
y 5.464
- 5.107
x 3.114
' 2.212
ë 1.852
1.623
q 902
ï 680
é 562
è 330
ö 235
. 196
ê 86
ü 75
1 55
2 34
6 34
3 33
5 27
4 25
0 25
7 22
ç 22
à 21
8 17
û 12
9 11
î 11
ñ 8
ä 5
ô 3

Zie ook[bewerken]

Referenties[bewerken]

  1. van Geloven, Sander, Karakterfrequentie, OpenTaal, 3 september 2011