Kruskal-Wallistoets

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

De Kruskal-Wallistoets, genoemd naar William Kruskal en Allen Wallis, is een verdelingsvrije toets in de statistiek, waarmee getoetst wordt of er verschil is tussen de verdelingen waaruit twee of meer steekproeven afkomstig zijn. De nulhypothese die getoetst wordt, is eigenlijk dat de steekproeven uit verdelingen (populaties) zijn getrokken met dezelfde "ligging". De toets is gebaseerd op de rangnummers van de data. De Kruskal-Wallistoets is te beschouwen als een eenweg-ANOVA gebaseerd op de rangnummers. De Kruskal-Wallistoets is een uitbreiding van de Mann-Whitney-Wilcoxon rangsomtoets, die enkel geschikt is om twee groepen onderling te vergelijken.

Procedure[bewerken]

Gegeven zijn m onderling onafhankelijke aselecte steekproeven uit continue verdelingen. De j-de waarneming in de i-de steekproef, die omvang ni heeft, is X_{ij}. Het rangnummer hiervan in het totaal van de data is R_{ij}. De toets verloopt verder in principe als een variantie-analyse uitgevoerd op deze rangnummers.

De toetsingsgrootheid K is:

K = \frac{12}{n(n+1)}\sum_{i=1}^m n_i\left(R_{i\cdot} - \frac{n+1}{2}\right)^2=\frac{12}{n(n+1)}\sum_{i=1}^m n_i R_{i\cdot }^2 - 3(n+1),

waarin

n = \sum_{i=1}^m n_i

het totaal aantal waarnemingen is en

R_{i\cdot} = \frac 1{n_i} \sum_{j=1}^{n_i} R_{ij}

het gemiddelde rangnummer in de ie steekproef.

Merk op dat de toetsingsgrootheid ook met kwadratensommen geschreven kan worden als:

K = (n-1)\frac{\sum_{i=1}^m n_i(R_{i\cdot} - R_{\cdot\cdot})^2}{\sum_{i=1}^m\sum_{j=1}^{n_i}(R_{ij} - R_{\cdot\cdot})^2} ,

waaruit de bovenstaande formule volgt door de substituties:

R_{\cdot\cdot}=(n+1)/2

en

\sum_{i=1}^m\sum_{j=1}^{n_i} (R_{ij} - R_{\cdot\cdot})^2=(n-1)n(n+1)/12.

Als de steekproeven niet te klein van omvang zijn, is K onder de nulhypothese bij benadering chi-kwadraatverdeeld met m vrijheidsgraden.

Knopen[bewerken]

In principe mogen er geen knopen (gelijke waarnemingen) zijn. Zijn er te veel knopen, dan wordt de toetsingsgrootheid wel gecorrigeerd:

K_{adj} = \frac{K}{1-\sum_{k=1}^n(t_k^3 - t_k))/(n^3 - n)},

waarin t_k het aantal data is met rangnummer k.

Zie ook[bewerken]