Kolmogorov-Smirnovtoets: verschil tussen versies

Verwijderde inhoud Toegevoegde inhoud

In de regel

Versie van 13 jun 2019 13:25

De kolmogorov-smirnovtoets is een statistische toets gebaseerd op een maat voor het verschil in twee verdelingen. In de vorm voor één steekproef, is het een aanpassingstoets, waarmee onderzocht wordt of de verdeling waaruit de steekproef getrokken is, afwijkt van een bekende verdeling zoals de normale verdeling, de uniforme verdeling, de poissonverdeling, de exponentiële verdeling, en dergelijke. In de vorm voor twee steekproeven wordt nagegaan of de verdelingen waaruit de steekproeven afkomstig zijn, van elkaar verschillen.

De toetsingsgrootheid is in het geval van één steekproef de grootste afstand tussen de empirische verdelingsfunctie en de verdelingsfunctie van de in het geding zijnde bekende verdeling, en in het geval van twee steekproeven de grootste afstand tussen de beide empirische verdelingsfuncties.

De kolmogorov-smirnovtoets is parametervrij omdat ervoor geen aannamen voor parameters in de steekproef worden gedaan.

De vorm voor twee steekproeven is een zeer geschikte parametervrije toets om na te gaan of twee steekproeven uit dezelfde verdeling afkomstig zijn, aangezien de toets gevoelig is voor zowel verschillen in plaats als in vorm van de verdelingen.

Definitie

Voor één steekproef

Zij $X_{1},\dots ,X_{n}$ een aselecte steekproef uit een verdeling met onbekende verdelingsfunctie $F$ en $F_{0}$ een bekende verdelingsfunctie. De Kolmogorov-Smirnovtoets voor het toetsen van de nulhypothese

H_{0}:F=F_{0}

tegen de alternatieve hypothese

H_{1}:F\neq F_{0}

is de toets met toetsingsgrootheid

D_{n}=\sup _{x}|F_{n}(x)-F_{0}(x)|

,

waarin $F_{n}$ de empirische verdelingsfunctie is.

Onder de nulhypothese convergeert

{\sqrt {n}}D_{n}{\xrightarrow {n\to \infty }}\sup _{t}|B(F_{0}(t))|

in verdeling. Daarin is $B(t)$ de Brownse brug.

Als $F_{0}$ continu is, convergeert ${\sqrt {n}}D_{n}$ onder de nulhypothese naar de kolmogorovverdeling (zie onder), die niet afhankelijk is van $F_{0}$ .

Voor twee steekproeven

Zij $X_{1},\dots ,X_{n}$ en $Y_{1},\dots ,Y_{m}$ aselecte steekproeven uit verdelingen met onbekende verdelingsfuncties $F_{X}$ resp. $F_{Y}$ . De kolmogorov-smirnovtoets voor het toetsen van de nulhypothese

H_{0}:F_{X}=F_{Y}

tegen de alternatieve hypothese

H_{1}:F_{X}\neq F_{Y}

is de toets met toetsingsgrootheid

D_{n,m}=\sup _{x}|F_{X,n}(x)-F_{Y,m}(x)|

,

waarin $F_{X,n}$ en $F_{Y,m}$ de empirische verdelingsfuncties van de beide steekproeven zijn.

De verdeling van deze toetsingsgrootheid hangt onder de nulhypothese niet af van de veronderstelde verdeling mits deze continu is.

De kolmogorov-smirnovtoetsen vergelijken de experimenteel gevonden empirische verdelingsfunctie met de veronderstelde verdelingsfunctie of de beide empirische verdelingsfuncties onderling, door als toetsingsgrootheid een bepaalde afstandsmaat tussen beide te berekenen. De stelling van Glivenko–Cantelli garandeert dat de toetsingsgrootheid onder de nulhypothese bijna zeker naar 0 convergeert. De nulhypothese wordt verworpen voor (te) grote waarden van de toetsingsgrootheid.

Kolmogorovverdeling

De kolmogorovverdeling is de verdeling van de stochastische variabele

K=\sup _{t\in [0,1]}|B(t)|

,

waarin B(t) de Brownse brug is. De verdelingsfunctie van K wordt gegeven door^[1]

P(K\leq x)=1-2\sum _{i=1}^{\infty }(-1)^{i-1}e^{-2i^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\sum _{i=1}^{\infty }e^{-(2i-1)^{2}\pi ^{2}/(8x^{2})}

.

Zowel de toetsingsgrootheid van de kolmogorov–smirnovtoets als de asymptotische verdeling daarvan onder de nulhypothese zijn gepubliceerd door Kolmogorov^[2]. Een tabel van de verdeling is gepubliceerd door Nikolai Vasilyevich Smirnov.^[3] Voor de verdeling van de toetsingsgrootheid onder de nulhypothese voor eindige steekproefomvang bestaan er recurrente betrekkingen^[2].

Bronnen, noten en/of referenties

↑ Marsaglia, G., Tsang, W. W., Wang, J. (2003) "Evaluating Kolmogorov’s Distribution", Journal of Statistical Software, 8 (18), 1-4. jstor
↑ ^a ^b Kolmogorov, A. (1933) "Sulla determinazione empirica di una legge di distribuzione" G. Inst. Ital. Attuari, 4, 83
↑ Smirnov, N.V. (1948) "Tables for estimating the goodness of fit of empirical distributions", Annals of Mathematical Statistics, 19, 279

[1] Marsaglia, G., Tsang, W. W., Wang, J. (2003) "Evaluating Kolmogorov’s Distribution", Journal of Statistical Software, 8 (18), 1-4. jstor

[AK-2] Kolmogorov, A. (1933) "Sulla determinazione empirica di una legge di distribuzione" G. Inst. Ital. Attuari, 4, 83

[3] Smirnov, N.V. (1948) "Tables for estimating the goodness of fit of empirical distributions", Annals of Mathematical Statistics, 19, 279

[1]

[2]

[3]

Versie van 20 sep 2018 18:25 bewerken Geerlings' robot (overleg \| bijdragen) uitgebreid bevestigde gebruikers, Uitgezonderden van IP-adresblokkades 182.037 bewerkingen k →‎Kolmogorovverdeling: -/- spaties voor ref (verzoek op WP:VPB) ← Oudere bewerking		Versie van 13 jun 2019 13:25 bewerken ongedaan maken 84.28.59.73 (overleg) Geen bewerkingssamenvatting Nieuwere bewerking →
Regel 1:		Regel 1:
	De '''kolmogorov-smirnovtoets''' is een [[statistische toets]] gebaseerd op een maat voor het verschil in twee verdelingen. In de vorm voor één steekproef, is het een aanpassingstoets, waarmee onderzocht wordt of de verdeling waaruit de [[steekproef]] getrokken is, afwijkt van een bekende [[verdelingsfunctie\|verdeling]] zoals de [[normale verdeling]], de [[uniforme verdeling (continu)\|uniforme verdeling]], de [[poissonverdeling]], de [[exponentiële verdeling]], en dergelijke In de vorm voor twee steekproeven wordt nagegaan of de verdelingen waaruit de steekproeven afkomstig zijn, van elkaar verschillen.		De '''kolmogorov-smirnovtoets''' is een [[statistische toets]] gebaseerd op een maat voor het verschil in twee verdelingen. In de vorm voor één steekproef, is het een aanpassingstoets, waarmee onderzocht wordt of de verdeling waaruit de [[steekproef]] getrokken is, afwijkt van een bekende [[verdelingsfunctie\|verdeling]] zoals de [[normale verdeling]], de [[uniforme verdeling (continu)\|uniforme verdeling]], de [[poissonverdeling]], de [[exponentiële verdeling]], en dergelijke. In de vorm voor twee steekproeven wordt nagegaan of de verdelingen waaruit de steekproeven afkomstig zijn, van elkaar verschillen.

	De toetsingsgrootheid is in het geval van één steekproef de grootste afstand tussen de empirische verdelingsfunctie en de verdelingsfunctie van de in het geding zijnde bekende verdeling, en in het geval van twee steekproeven de grootste afstand tussen de beide empirische verdelingsfuncties.		De toetsingsgrootheid is in het geval van één steekproef de grootste afstand tussen de empirische verdelingsfunctie en de verdelingsfunctie van de in het geding zijnde bekende verdeling, en in het geval van twee steekproeven de grootste afstand tussen de beide empirische verdelingsfuncties.