Empirische verdelingsfunctie

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

In de statistiek is de empirische verdelingsfunctie, ook wel aangeduid als cumulatieve relatieve-frequentieverdeling, de trapfunctie die telkens een sprong ter grootte 1/n maakt in elk van de n waarnemingen van een aselecte steekproef. Het is de verdelingsfunctie die, in bepaalde zin, zo goed mogelijk bij de gevonden data past. Theoretisch gezien is de empirische verdelingsfunctie, in afhankelijkheid van de steekproef, een steekproeffunctie, dus een stochastische variabele, die voor elke mogelijke steekproefuitkomst bepaald wordt door de genoemde trapfunctie. De empirische verdelingsfunctie kan gezien worden als een schatter van de (cumulatieve) verdelingsfunctie die de verdeling beschrijft waaruit de data afkomstig zijn.

Definitie[bewerken]

De empirische verdelingsfunctie F_n van een aselecte steekproef X_1,\ldots,X_n van X is gedefinieerd als:

F_n(x)=\frac 1n\,\mathrm{aantal} \{i|X_i\leq x\}.

De empirische verdelingsfunctie telt het relatieve aantal waarden X_i in de steekproef die kleiner of gelijk zijn aan x.

Een meer formele formulering van de definitie is:

F_n(x)=\frac 1n \sum_{i=1}^n I(X_i \le x),

waarin gebruikgemaakt is van de indicatorfunctie \!I die de waarde 1 of 0 aanneemt al naar gelang het i-de steekproefelement X_i kleiner of gelijk is aan x.

Verdeling[bewerken]

Uit de definitie blijkt dat de empirische verdelingsfunctie F_n(x), een steekproeffunctie is, en dus voor elke x een stochastische variabele.

Voor elke x is het n-voud van de empirische verdelingsfunctie, n\,F_n(x), binomiaal verdeeld met parameters n en succeskans F_X(x):

n\,F_n(x) \sim {\rm B}(n,F_X(x))

Dus geldt voor de verwachtingswaarde en de variantie:

{\rm E} F_n(x)= F_X(x)

en

{\rm var}\big(F_n(x)\big)= \tfrac 1n F_X(x)\big(1-F_X(x)\big)

Geordende steekproef[bewerken]

Er is een eenvoudige relatie tussen de empirische verdelingsfunctie en de geordende steekproef X_{(1)},\ldots,X_{(n)}. De empirische verdelingsfunctie maakt namelijk steeds een sprong ter grootte 1/n in de elementen van de geordende steekproef. Dus:

X_{(k)}\leq x \Larr\Rarr F_n(x)\geq \frac kn

of

X_{(k)}\leq x < X_{(k+1)} \Larr\Rarr F_n(x)= \frac kn

Asymptotiek[bewerken]

Bij toenemende omvang van de aselecte steekproef benadert de empirische verdelingsfunctie in bepaalde zin steeds beter de werkelijke verdelingsfunctie van de verdeling waaruit de steekproef afkomstig is. Volgens de sterke wet van de grote getallen geldt namelijk voor iedere x:

F_n(x)\ \xrightarrow{a.s.}\ F_X(x),

d.w.z. dat de empirische verdelingsfunctie puntsgewijs bijna zeker (a.s.) convergeert naar de verdelingsfunctie.

Een sterkere uitspraak is de stelling van Glivenko–Cantelli die zegt dat de puntsgewijs bijna zekere convergentie uniform is, dus

\sup_x \big|F_n(x)-F(x)\big|\ \xrightarrow{a.s.}\ 0 .

Op grond van deze eigenschap is het zinvol de waarnemingen door de empirische verdelingsfunctie te beschrijven.

De centrale limietstelling zegt verder dat puntsgewijs de empirische verdelingsfunctie asymptotisch een normale verdeling heeft:


\sqrt{n}\big(F_n(x) - F_X(x)\big)\ \xrightarrow{d}\ N\big(0,F_X(x)(1-F_X(x))\big).

Ogief[bewerken]

De empirische verdelingsfunctie geeft de cumulatieve relatieve frequentie (CRF) weer. Een variant van de empirische verdelingsfunctie geeft de cumulatieve absolute frequenties (CAF) weer. De grafische voorstelling van de CRF noemt men het ogief, vanwege zijn vormovereenkomst met de architectonische ogief- of ojiefboog.

Cumulatieve frequentieverdeling van de doorlatendheid van de bodem gemeten met de boorgatmethode

Toepassing[bewerken]

De empirische verdelingsfunctie kan gebruikt worden om na te gaan of de data uit een specifieke kansverdeling afkomstig zijn. Om bijvoorbeeld na te gaan of de onderliggende verdeling een normale verdeling is, kunnen de cumulatieve (relatieve) frequenties uitgezet worden op normaal waarschijnlijkheidspapier. Ontstaat een min of meer rechte lijn, dan mag worden aangenomen dat er van een normale verdeling sprake is.

Referenties[bewerken]

  • van der Vaart, A.W., Asymptotic statistics, Cambridge University Press, 1998 ISBN 0-521-78450-6.

Externe link[bewerken]