Woordlengte

Uit Wikipedia, de vrije encyclopedie
Voor het begrip uit de informatica zie woordbreedte

Woordlengte kan worden gedefinieerd naar het aantal letters, klanken, morfemen of lettergrepen per woord. In al deze gevallen is te verwachten dat de woordlengtes in een tekst of in het lexicon wetmatig verdeeld zullen zijn. Zo'n wetmatige verdeling van woordlengtes wordt gehanteerd in de toegepaste en kwantitatieve linguïstiek.

Type/token[bewerken | brontekst bewerken]

Bij de analyse van een taalcorpus maakt men een onderscheid tussen de type frequency en de token frequency. De token frequency is het zuiver statistische aantal malen dat een bepaalde vorm voorkomt: men kan in een Nederlandstalig corpus bijvoorbeeld zoeken hoe dikwijls het bijwoord 'middelerwijl' voorkomt. De type frequency staat daarentegen voor de frequentie van een bepaalde constructie: men kan in datzelfde corpus ook nagaan hoeveel maal 'middelerwijl' of 'middelertijd' voorkomt, door te zoeken naar alle samenstellingen met 'middeler-'. Dit geeft dan een idee over de courantheid of schaarste van dergelijke woorden. Ook woordlengte kan men als een type opvatten.

Leesbaarheid[bewerken | brontekst bewerken]

Woordlengte is naast zinslengte een belangrijke factor die de leesbaarheid van zinnen en teksten beïnvloedt. Formele aspecten van leesbaarheid zijn objectief meetbaar met een index die de moeilijkheidsgraad van een tekst weergeeft. Op Nederlandse basisscholen wordt bijvoorbeeld gebruikgemaakt van het AVI-systeem voor het formeel classificeren van teksten.

Voorbeeld van een samenstelling: spoorstaafconditioneringssysteem

Omdat het Nederlands veel samenstellingen kent, in tegenstelling tot bijvoorbeeld Frans en Engels, heeft het Nederlands veel lange woorden, waardoor de woordlengte gemiddeld ongeveer 11,5 letters per woord is. Een lang samengesteld woord wordt door een automatische spellingscontrole vaak onterecht als onjuist aangeduid. Omdat lange samenstellingen ook nog eens lastig leesbaar zijn, worden dergelijke woorden vaak opgehakt door het tussenvoegen van spaties. Dit is echter onjuist en kan zelfs onbedoelde betekenisveranderingen tot gevolg hebben.[1]

Voorbeelden van onderzoek[bewerken | brontekst bewerken]

Woordlengtenverdeling in het Duits[bewerken | brontekst bewerken]

Een empirische bevinding voor het Duits is, dat in teksten altijd en overal de eenlettergrepige woorden het frequentst zijn, dat als naast-frequentste de tweelettergrepige volgen, enz. Bij bijna 2000 teksten werd steeds ditzelfde resultaat gevonden. Alle teksten op vijf na vertonen de hyperpoissonverdeling.

Een voorbeeld van een woordlengtenverdeling (gemeten als aantal lettergrepen per woord) zoals gevonden in een brief van Kurt Tucholsky:[2]

x
n(x)
NP(x)
1
522
521.4
2
250
247.56
3
87
92.69
4
32
28.64
5
7
7.53
6
2
2.18

Hierbij is x: aantal lettergrepen per woord, n(x): het in deze tekst waargenomen aantal lettergrepen per woord; NP(x): het aantal lettergrepen per woord dat berekend wordt als men de hyperpoissonverdeling aanpast aan de waargenomen data. Resultaat: de hyperpoissonverdeling is voor deze tekst een goed model met het testcriterium P = 0.85, waarbij P als goed wordt beschouwd als het groter dan / gelijk aan 0.05 is (zie voor details de literatuuropgave).

De woordlengtenverdeling bij deze tekst is zeer typisch voor het Duits: het frequentst zijn de woorden die maar uit één lettergreep bestaan, vervolgens de twee-, dan de drielettergrepige, enz. Alleen bij de zeldzame klassen van lange woorden treden onregelmatigheden op.

Een Nederlands onderzoek[bewerken | brontekst bewerken]

Histogram van Nederlandse woordlengtes

OpenTaal heeft onderzoek gedaan naar de woordlengte van Nederlandse woorden.[3] De resultaten zijn hier zowel in de vorm van een histogram en een tabel weergegeven. Hierin is de telling van woorden uit een door de Nederlandse Taalunie goedgekeurde woordenlijst (zonder eigennamen) [versie 2.00 van OpenTaal] uitgezet ten opzichte van de woordlengte. De resultaten zeggen daarom niets over de frequentie waarmee woorden van die lengtes gebruikt worden, alleen hoeveel woorden er van die lengte in de lijst voorkomen.

Het langste woord gevonden in de deze lijst is ontwikkelingssamenwerkingsorganisaties met in totaal 38 letters. Er zijn langere correcte woorden te bedenken maar niet alle mogelijke woorden staan in de gebruikte versie van die lijst, zo ontbreekt bijvoorbeeld ook het woord vierentwintigletterwoord dat 24 letters heeft. Inmiddels is de lijst van OpenTaal uitgebreid en zullen in toekomstige versies meer langere woorden te vinden zijn.

Tabel van woordlengtes in 315779 Nederlandse woorden zonder eigennamen - OpenTaal 2.00 2011-01-24
Woordlengte Aantal
1 22
2 163
3 1027
4 3046
5 5897
6 12135
7 19049
8 26537
9 33537
10 37843
11 36529
12 31767
13 26089
14 20852
15 15889
16 12502
17 9560
18 7116
19 5225
20 3780
21 2530
22 1713
23 1139
24 708
25 503
26 239
27 153
28 84
29 54
30 37
31 25
32 13
33 6
34 2
35 3
36 3
37 1
38 1

Een recenter onderzoek van OpenTaal had aansprakelijkheidswaardevaststellingsveranderingen als langste woord. Langste woorden door alleen met de linkerhand te typen zijn aardgasreserves, gebastaardeerde en secretaressedag. Het langste woord met typen met rechts is minimumloon.[4]

Literatuur[bewerken | brontekst bewerken]

Met betrekking tot het Nederlands en/of het Duits

  • Best, Karl-Heinz (2006): 'Wortlängen im Deutschen.' In: Göttinger Beiträge zur Sprachwissenschaft 13, 23-49.
  • Best, Karl-Heinz (2006): 'Quantitative Untersuchungen zum Niederdeutschen und Niederländischen'. In: Göttinger Beiträge zur Sprachwissenschaft 13, 51-71.
  • Martin, Willy (1976): 'On the Evolution of Word-Length in Dutch.' In: A. Jones, R.F. Churchhouse (eds.): 'The Computer and Literary and Linguistic Studies'. Cardiff: The University of Cardiff Press, pp. 271-284. (Zie ook: Rheinländer 2001, 148-151.)
  • Rheinländer, Nicole (2001): 'Die Wortlängenhäufigkeit im Niederländischen'. In: Best, Karl-Heinz (Hrsg.), Häufigkeitsverteilungen in Texten (S. 142-152). Göttingen: Peust & Gutschmidt. ISBN 3-933043-08-5.

Algemeen

  • Karl-Heinz Best (Hrsg.): Glottometrika 16. The Distribution of Word and Sentence Length. Wissenschaftlicher Verlag Trier, Trier 1997. ISBN 3-88476-276-1
  • [Karl-Heinz Best]: LinK – Linguistik in Kürze mit einem Ausblick auf die Quantitative Linguistik. Skript, 2002 (5e editie): RAM, Lüdenscheid .
  • Karl-Heinz Best: Quantitative Linguistik. Eine Annäherung. 3., stark überarb. u. erg. Aufl. Peust & Gutschmidt, Göttingen 2006. ISBN 3-933043-17-4
  • Karl-Heinz Best: 'Wortlänge'. In: Reinhard Köhler, Gabriel Altmann, & Rajmund G. Piotrowski (Hrsg.): Quantitative Linguistik - Quantitative Linguistics. Ein internationales Handbuch. de Gruyter, Berlin/ N.Y. 2005, S. 260-273. ISBN 3-11-015578-8
  • Peter Grzybek: 'History and Methodology of Word Length Studies. The State of the Art.' In: Peter Grzybek (Hrsg.): Contributions to the Theory of Text and Language. Word Length Studies and Related Issues. Springer, Dordrecht (NL), 2006, S. 15-90. ISBN 1-4020-4067-9 (HB)
  • Ioan-Iovitz Popescu, et alii: Word length: aspects and languages. In: Reinhard Köhler, Gabriel Altmann (eds.): Issues in Quantitative Linguistics 3. Dedicated to Karl-Heinz Best on the occasion of his 70th birthday. Lüdenscheid: RAM-Verlag 2013, p. 224–281. ISBN 978-3-942303-12-5.
  • Ioan-Iovitz Popescu, Karl-Heinz Best, Gabriel Altmann: Unified Modeling of Length in Language. RAM-Verlag, Lüdenscheid 2014. ISBN 978-3-942303-26-2. (Kapitel Word length p. 14–86, Length of compounds p. 87–88.)
  • Peter Schmidt (Hrsg.): Glottometrika 15. Issues in General Linguistic Theory and the Theory of Word Length. Wissenschaftlicher Verlag Trier, Trier 1996, S. 102-111. ISBN 3-88476-228-1
  • Gejza Wimmer, Gabriel Altmann: Thesaurus of univariate discrete probability distributions. Stamm, Essen 1999. ISBN 3-87773-025-6
  • Gejza Wimmer, Gabriel Altmann: Towards a Unified Derivation of Some Linguistic Laws'. In: Peter Grzybek (ed.): Contributions to the Science of Text and Language: Word length studies and related issues. Springer, Dordrecht 2006, S. 329-337. ISBN 1-4020-4067-9 (HB)
  • Gejza Wimmer, Viktor Witkovský, Gabriel Altmann: 'Modification of Probability Distributions Applied to Word Length Research'. In: Journal of Quantitative Linguistics 6, 1999, 257-268.

Zie ook[bewerken | brontekst bewerken]

Noten[bewerken | brontekst bewerken]

  1. Signalering Onjuist Spatiegebruik
  2. Stefan Ammermann: Zur Wortlängenverteilung in deutschen Briefen über einen Zeitraum von 500 Jahren. In: Karl-Heinz Best (red.): Häufigkeitsverteilungen in Texten. Peust & Gutschmidt , Göttingen 2001, 59-91, p. 81
  3. van Geloven, Sander, Woordlengte, OpenTaal, 27 januari 2011
  4. van Geloven, Sander, Lange woorden, OpenTaal, 20 augustus 2013