Wet van Zipf: verschil tussen versies

Verwijderde inhoud Toegevoegde inhoud

In de regel

Versie van 18 nov 2020 15:20

Een log-log-plot van de woordfrequentietabel van de Engelstalige wikipedia, op 27 november 2006. De verdeling volgt de wet van Zipf (de groene lijn) voor de acht- à negenduizend meest voorkomende woorden.

De wet van Zipf is oorspronkelijk de door George Kingsley Zipf^[1] geconstateerde en naar hem genoemde wetmatigheid in de taalkunde, dat in natuurlijke taal de frequentie van voorkomen van een woord ruwweg omgekeerd evenredig is met de rang van het woord in de frequentietabel, en wel zo dat het meest frequente woord ongeveer twee keer zo vaak voorkomt als het op een na frequentste woord, drie keer zo vaak als het derde frequentste, enz. Met de Wet van Zipf worden tegenwoordig kansverdelingen aangeduid die de vorm van een machtswet hebben. De wet kan gekarakteriseerd worden door het lineaire verband tussen de logaritmen van rangnummer en kans of frequentie. In dubbellogaritmische weergave is het verband een rechte lijn.

De constatering door Zipf markeert het begin van de kwantitatieve linguïstiek. Buiten de linguïstiek duikt dit verband evenwel ook in uiteenlopende andere domeinen op. Zo blijkt het verband tussen de rang en de bevolking van de grootste steden in de Verenigde Staten en verschillende andere landen overeen te komen met de wet van Zipf. De "wetenschappelijke productiviteit" (aantal publicaties of referenties naar publicaties van wetenschappers) en het aantal maal per maand dat de webpagina's van een website worden bezocht zijn andere voorbeelden van data die de wet van Zipf volgen.^[2] Alfred Lotka vond dat de vorm van deze verdeling weinig of niets zegt over de onderliggende, fysische verbanden: "Frequency distributions of this general type have a wide range of applicability to a variety of phenomena, and the mere form of such a distribution throws little or no light on the underlying physical relations."^[3]

Definitie

Onder een verdeling volgens de wet van Zipf, of kort een Zipf-verdeling, verstaat men een discrete kansverdeling met parameters $\lambda$ en $N$ , voor $n=1,\ldots ,N$ gedefinieerd door

p(n;\lambda ,N)={\frac {1}{n^{\lambda }\sum _{k=1}^{N}k^{-\lambda }}}

Ze is later gebruikt voor onder meer de wet van Bradford (sociale wetenschappen) en het Paretoprincipe (economie).^[bron?]

Zie ook

Bron

Newman, M.E.J. (2005). Power laws, Pareto distributions and Zipf's law. Contemporary Physics 46: 323–351. DOI: 10.1080/00107510500052444.

Voetnoten

↑ (en) G.K. Zipf, Selected Studies of the Principle of Relative Frequency in Language, Harvard University Press, 1932.
↑ (en) Wentian Li (2003). Zipf's Law Everywhere. Glottometrics 5: 14-21. (PDF ram-verlag.eu)
↑ (en) Alfred J. Lotka, Science, Vol. 94 No. 2433 (15 augustus 1941), blz.164 (oorspronkelijk vermeld in een artikel in het Journal of the Washington Academy of Sciences, 1926, Vol. 16, blz. 317)

[1] (en) G.K. Zipf, Selected Studies of the Principle of Relative Frequency in Language, Harvard University Press, 1932.

[2] (en) Wentian Li (2003). Zipf's Law Everywhere. Glottometrics 5: 14-21. (PDF ram-verlag.eu)

[3] (en) Alfred J. Lotka, Science, Vol. 94 No. 2433 (15 augustus 1941), blz.164 (oorspronkelijk vermeld in een artikel in het Journal of the Washington Academy of Sciences, 1926, Vol. 16, blz. 317)

[1]

[2]

[3]

@@ Regel 1: / Regel 1: @@
 [[Bestand:Zipfcurve.png|miniatuur|Een Zipfdistributie]]
 [[Bestand:Wikipedia-n-zipf.png|miniatuur|320px|Een [[log-log-plot]] van de woordfrequentietabel van de Engelstalige wikipedia, op 27 november 2006. De verdeling volgt de wet van Zipf (de groene lijn) voor de acht- à negenduizend meest voorkomende woorden.]]
-De '''wet van Zipf''' is oorspronkelijk de door [[George Zipf|George Kingsley Zipf]]<ref>{{en}}G.K. Zipf, ''Selected Studies of the Principle of Relative Frequency in Language'', Harvard University Press, 1932.</ref> geconstateerde en naar hem genoemde wetmatigheid in de [[taalkunde]], dat in natuurlijke taal de frequentie van voorkomen van een woord ruwweg dalend exponentieel is met de rang van het woord in de frequentietabel, en wel zo dat het meest frequente woord ongeveer twee keer zo vaak voorkomt als het op een na frequentste woord, drie keer zo vaak als het derde frequentste, enz. Met de Wet van Zipf worden tegenwoordig kansverdelingen aangeduid die de vorm van een [[machtswet]] hebben. De wet kan gekarakteriseerd worden door het lineaire verband tussen de [[logaritme]]n van rangnummer en kans of frequentie. In [[dubbellogaritmische weergave]] is het verband een rechte lijn.
+De '''wet van Zipf''' is oorspronkelijk de door [[George Zipf|George Kingsley Zipf]]<ref>{{en}}G.K. Zipf, ''Selected Studies of the Principle of Relative Frequency in Language'', Harvard University Press, 1932.</ref> geconstateerde en naar hem genoemde wetmatigheid in de [[taalkunde]], dat in natuurlijke taal de frequentie van voorkomen van een woord ruwweg omgekeerd evenredig is met de rang van het woord in de frequentietabel, en wel zo dat het meest frequente woord ongeveer twee keer zo vaak voorkomt als het op een na frequentste woord, drie keer zo vaak als het derde frequentste, enz. Met de Wet van Zipf worden tegenwoordig kansverdelingen aangeduid die de vorm van een [[machtswet]] hebben. De wet kan gekarakteriseerd worden door het lineaire verband tussen de [[logaritme]]n van rangnummer en kans of frequentie. In [[dubbellogaritmische weergave]] is het verband een rechte lijn.
 De constatering door Zipf markeert het begin van de kwantitatieve linguïstiek. Buiten de linguïstiek duikt dit verband evenwel ook in uiteenlopende andere domeinen op. Zo blijkt het verband tussen de rang en de bevolking van de grootste steden in de Verenigde Staten en verschillende andere landen overeen te komen met de wet van Zipf. De "wetenschappelijke productiviteit" (aantal publicaties of referenties naar publicaties van wetenschappers) en het aantal maal per maand dat de webpagina's van een website worden bezocht zijn andere voorbeelden van data die de wet van Zipf volgen.<ref>{{Citeer journal