Runstoets

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

De runstoets of Wald-Wolfowitztoets is een verdelingsvrije toets, waarmee men beoordeelt of er een significante trend is te zien in een reeks meetwaarden. Evenals bij de tekentoets, wordt alleen naar de tekens gekeken, waarbij + staat voor een toename en voor een afname van de meetwaarde ten opzichte van de vorige.

De naam Wald-Wolfowitztoets is afgeleid van de statistici Abraham Wald en Jacob Wolfowitz.

In de reeks meetwaarden wordt gekeken naar de runs. Een run is een opeenvolgende serie gelijke tekens. Bijvoorbeeld, in de reeks

+ + + + – – – + + + – – + + + + + + – – – –

kunnen de volgende zes runs worden onderscheiden:

(+ + + +) (– – –) (+ + +) (– –) (+ + + + + +) (– – – –)

Een serie tekens wordt geacht toevallig te zijn, als het aantal runs niet te groot en niet te klein is, ten opzichte van het totale aantal plussen en minnen. Het minimale en maximale aantal toegelaten runs kan in een tabel worden opgezocht.

Voorbeelden[bewerken]

Een voorbeeld van een reeks met 4 plussen en 5 minnen en twee runs:

+ + + + – – – – –

Volgens de tabel heeft deze reeks te weinig runs om als toevallig beschouwd te worden. De reeks heeft kennelijk een bepaalde regelmatigheid.

Een ander voorbeeld met evenveel plussen en minnen als in het vorige voorbeeld, maar met veel meer runs, is:

– + – + – + – + –

Dit voorbeeld heeft te veel groepen om als toevallig beschouwd te worden. Ook deze reeks heeft een bepaalde regelmatigheid.

De volgende reeks heeft ook 4 plussen en 5 minnen, waarmee zes runs worden gevormd:

+ + – + – – – + –

In deze reeks is geen regelmatigheid te vinden. Door het vergelijken van het aantal runs met de waarden in de tabel kan worden vastgesteld dat er vermoedelijk onvoldoende bewijs is om aan de toevalligheid van deze reeks te twijfelen.

Verdeling[bewerken]

Als de plussen en minnen elkaar volkomen willekeurig opvolgen, vormt het aantal runs R een stochastische variabele met de volgende kansverdeling, waarin n_1 het aantal +'en en n_2 het aantal –'en voorstelt:

 P(R=2k) = 2\frac{ {n_1 - 1 \choose k-1}{n_2 - 1 \choose k-1} }{ {n_1+n_2 \choose n_1} }

en

 P(R=2k+1)= \frac{ {n_ 1 -1 \choose k} {n_2 - 1 \choose k-1 } + {n_1 - 1 \choose k-1}{n_2 - 1 \choose k } }{ {n_1+n_2 \choose n_1} }

Voor de verwachting en de variantie van R geldt:

ER=\mu=2\ \frac{n_1n_2}{n_1+n_2}+1

en

\mathrm{var}\,R=\frac{2\ n_1n_2\ (2\ n_1n_2-n_1-n_2)}{(n_1+n_2)^2\ (n_1+n_2-1)}=\frac{(\mu-1)(\mu-2)}{n_1+n_2-1}

Afleiding van de verdeling[bewerken]

Er zijn \scriptstyle {n \choose n_1} willekeurige rijtjes van n_1 +'en en n_2 -'en.

Een rijtje met r=2k runs kan als volgt gerealiseerd worden. Het rijtje begint met een run van +'en of met een run van -'en. In beide gevallen zijn er k runs met +'en, met \scriptstyle {n_1 -1\choose k-1} mogelijkheden, en ook k runs met -'en, met \scriptstyle {n_2 -1\choose k-1} mogelijkheden.

Een rijtje met r=2k+1 runs kan als volgt gerealiseerd worden. Het rijtje begint met een run van +'en of met een run van -'en. Als het begint met +'en, zijn er k+1 runs met +'en, met \scriptstyle {n_1 -1\choose k} mogelijkheden, en k runs met -'en, met \scriptstyle {n_2 -1\choose k-1} mogelijkheden. Analoog als het rijtje begint met -'en.

Toepassingen[bewerken]

Runtoetsen kunnen worden gebruikt voor de volgende toepassingen:

  • Om de willekeurigheid (toevalligheid) van een verdeling te toetsen, door de data in de gegeven volgorde te markeren met + als een waarde boven de mediaan is en de rest met -.
  • Om te toetsen of een functie (wiskunde) goed op een dataset past, door de waarden die boven de functie liggen te markeren met "+" en de waarden die onder de functie liggen met een "-". Voor deze toepassing is de runstoets, die het teken maar niet de grootte van de afwijking van de waarden in beschouwing neemt, op te vatten als complementair aan de Chi-kwadraattoets, die de grootte van de afwijking gebruikt, maar niet het teken.

De Kolmogorov-Smirnovtoets en de Chi-kwadraattoets zijn krachtiger, maar kunnen in sommige situaties niet worden gebruikt.