Chi-kwadraattoets
Een chi-kwadraattoets is in de statistiek een toets om na te gaan of twee of meer verdelingen (populaties) van elkaar verschillen. Het kan daarbij gaan om een bekende verdeling en een onbekende waaraan waarnemingen zijn gedaan of om twee onbekende verdelingen waaraan waarnemingen zijn gedaan, De toets gaat na of waargenomen aantallen systematisch afwijken van verwachte (of gemiddelde) aantallen, en berekent daartoe het totaal van de gewogen kwadratische afwijkingen tussen deze aantallen. Een chi-kwadraattoets wordt veel gebruikt om kruistabellen te analyseren. Omdat er geen aannamen over gemiddelden of over de populatie worden gedaan is dit een parametervrije toets. Ook het meetniveau is niet van belang omdat er alleen naar aantallen wordt gekeken. De chi-kwadraattoets vindt toepassing als:
- aanpassingstoets, waarbij getoetst wordt of de gevonden data passen bij een veronderstelde verdeling;
- onafhankelijkheidstoets, waarbij getoetst wordt of de simultane verdeling waaruit de data komen bestaat uit twee onafhankelijke.
- homogeniteitstoets, waarbij getoetst wordt of verschillende steekproeven uit dezelfde verdeling afkomstig zijn.
Inhoud |
Chi-kwadraattoetsingsgrootheid [bewerken]
Een chi-kwadraattoetsingsgrootheid heeft de volgende vorm:
waarin
de verwachte (of gemiddelde) en
de waargenomen frequentie is, en gesommeerd wordt over alle mogelijkheden.
Aanpassingstoets [bewerken]
Zij
een aselecte steekproef van omvang
uit een discrete verdeling, bepaald door de onbekende kansen
op de waarden
. De chi-kwadraataanpassingstoets voor het toetsen van de nulhypothese:
voor alle 
is gebaseerd op de toetsingsgrootheid:
waarin
het aantal keren is dat in de steekproef de waarde
voorkomt.
is de kans op het voorkomen van
volgens de nulhypothese en dus is
het aantal keer dat
zou voorkomen op basis van de nulhypothese.
Voor voldoend grote
is de toetsingsgrootheid onder de nulhypothese bij benadering chi-kwadraatverdeeld met
vrijheidsgraden. De nulhypothese wordt verworpen voor te grote waarden van de toetsingsgrootheid.
Merk op dat deze test eigenlijk de relatieve euclidische afstand meet tussen de twee functies.
Voorbeeld [bewerken]
Iemand krijgt een dobbelsteen in handen die er niet erg symmetrisch uitziet. Zou de dobbelsteen wel zuiver zijn? Hij gooit er 60 keer mee en verwacht elk van de ogenaantallen ongeveer 10 keer te gooien. Met Ni geven we het aantal keren aan dat het ogenaantal i boven kwam. Hij vindt als uitkomst voor de ogenaantallen 1 tot en met 6 resp. de waarden:
. Hij toetst de nulhypothese:
"de dobbelsteen is zuiver"
met de chi-kwadraattoets en gaat zo na of de gevonden aantallen passen bij de verdeling van een zuivere dobbelsteen. De toetsingsgrootheid is:
deze meet de "afstand" tussen de gevonden frequenties
en de verwachte
. Onder de nulhypothese heeft de toetsingsgrootheid bij benadering een chi-kwadraatverdeling met 5 vrijheidsgraden. De waarde die de toetsingsgrootheid in de steekproef aanneemt is:
.
We zullen de nulhypothese verwerpen als deze "afstand" te groot is. Daarom bepalen we de p-waarde (overschrijdingskans) van de gevonden uitkomst:
- p-waarde =
.
Er is dus absoluut geen reden om, gezien de uitkomst van de 60 worpen, aan de zuiverheid van de dobbelsteen te twijfelen, want er is 34,7% kans om dit resultaat uit te komen met een zuivere dobbelsteen.
Onafhankelijkheidstoets [bewerken]
Zij
een aselecte steekproef van omvang
uit een simultane discrete verdeling van de stochastische variabelen
en
, bepaald door de onbekende kansen
op de waarden
voor i=1,...,k en j=1,...,r. De chi-kwadraat-onafhankelijkheidstoets voor het toetsen van de nulhypothese dat
en
onderling onafhankelijk zijn:
voor alle
en
,
waarin
,
is gebaseerd op de toetsingsgrootheid:
Daarin is
het aantal keren dat in de steekproef het paar
voorkomt, zijn
de verschillende randtotalen en is:
Voor voldoend grote
is de toetsingsgrootheid onder de nulhypohese bij benadering chi-kwadraatverdeeld met
vrijheidsgraden. De nulhypothese wordt verworpen voor te grote waarden van de toetsingsgrootheid.
Voorbeeld [bewerken]
Iemand gooit uit de hand 100 keer met twee dobbelstenen en wil nagaan of de worpen mogelijk afhankelijk zijn. In de onderstaande tabel staan de uitkomsten, geaccumuleerd tot het aantal keren
dat de ogencombinatie
gegooid werd, met de randtotalen:
![]() |
1 | 2 | 3 | 4 | 5 | 6 | ![]() |
|---|---|---|---|---|---|---|---|
| 1 | 2 | 4 | 3 | 6 | 1 | 3 | 19 |
| 2 | 4 | 6 | 2 | 4 | 3 | 3 | 22 |
| 3 | 3 | 2 | 1 | 3 | 3 | 4 | 16 |
| 4 | 2 | 3 | 0 | 2 | 2 | 2 | 11 |
| 5 | 5 | 1 | 4 | 3 | 2 | 5 | 20 |
| 6 | 0 | 6 | 0 | 1 | 2 | 3 | 12 |
![]() |
16 | 22 | 10 | 19 | 13 | 20 | 100 |
De volgende tabel toont de waarden van
:
| (i,j) | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| 1 | 3,04 | 4,18 | 1,90 | 3,61 | 2,47 | 3,80 |
| 2 | 3,52 | 4,84 | 2,20 | 4,18 | 2,86 | 4,40 |
| 3 | 2,56 | 3,52 | 1,60 | 3,04 | 2,08 | 3,20 |
| 4 | 1,76 | 2,42 | 1,10 | 2,09 | 1,43 | 2,20 |
| 5 | 3,20 | 4,40 | 2,00 | 3,80 | 2,60 | 4,00 |
| 6 | 1,92 | 2,64 | 1,20 | 2,28 | 1,56 | 2,40 |
Vervolgens is voor elke i en j de term
berekend:
| 1 | 2 | 3 | 4 | 5 | 6 | ||
|---|---|---|---|---|---|---|---|
| 1 | 0,36 | 0,01 | 0,64 | 1,58 | 0,87 | 0,17 | 3,63 |
| 2 | 0,07 | 0,28 | 0,02 | 0,01 | 0,01 | 0,45 | 0,82 |
| 3 | 0,08 | 0,66 | 0,23 | 0,00 | 0,41 | 0,20 | 1,56 |
| 4 | 0,03 | 0,14 | 1,10 | 0,00 | 0,23 | 0,02 | 1,52 |
| 5 | 1,01 | 2,63 | 2,00 | 0,17 | 0,14 | 0,25 | 6,20 |
| 6 | 1,92 | 4,28 | 1,20 | 0,72 | 0,12 | 0,15 | 8,39 |
| 3,46 | 7,98 | 5,18 | 2,48 | 1,78 | 1,23 | 22,12 |
met als totaal:
.
Onder de nulhypothese van onafhankelijkheid is de toetsingsgrootheid bij benadering chi-kwadraatverdeeld met (6-1)(6-1) = 25 vrijheidsgraden. De overschrijdingskans van de gevonden waarde 22,12 is groter dan 0,5, zodat er geen reden is om aan de onafhankelijkheid te twijfelen.
Opgemerkt moet worden dat voor een goede benadering de waargenomen aantallen
niet te klein mogen zijn. In de literatuur worden grenzen van 1 tot 5 genoemd. In dit voorbeeld is aan deze eis niet voldaan, maar het toont wel het principe van de toets.
Homogeniteitstoets [bewerken]
Voor
zijn de
onderling onafhankelijk aselecte steekproeven
van omvang
gegeven, elk afkomstig uit een discrete verdeling, bepaald door de onbekende kansen
op de waarden
voor
. De chi-kwadraat-homogeniteitstoets voor het toetsen van de nulhypothese dat steekproeven uit dezelfde verdeling afkomstig zijn:
voor alle
en
,
is gebaseerd op de toetsingsgrootheid:
Daarin is
het aantal keren dat in de
-de steekproef de waarde
voorkomt, zijn
randtotalen en is:
Voor voldoend grote
is de toetsingsgrootheid onder de nulhypohese bij benadering chi-kwadraatverdeeld met
vrijheidsgraden. De nulhypothese wordt verworpen voor te grote waarden van de toetsingsgrootheid.
Voorbeeld [bewerken]
Iemand heeft drie valse dobbelstenen gemaakt door in de zijde met 1 oog een gat te boren en dat te vullen met lood. Om na te gaan of de dobbelstenen in dezelfde mate vals zijn, gooit hij met elke dobbelsteen een groot aantal keren. In de onderstaande tabel staan voor elk van de drie dobbelstenen de uitkomsten, geaccumuleerd tot het aantal keren
dat met dobbelsteen
het ogenaantal
gegooid werd, met de randtotalen:
![]() |
1 | 2 | 3 | 4 | 5 | 6 | ![]() |
|---|---|---|---|---|---|---|---|
| 1 | 5 | 8 | 4 | 6 | 4 | 23 | 50 |
| 2 | 13 | 7 | 14 | 15 | 4 | 47 | 100 |
| 3 | 14 | 6 | 11 | 10 | 11 | 98 | 150 |
![]() |
32 | 21 | 29 | 31 | 19 | 168 | 300 |
De volgende tabel toont de waarden van
:
| (i,j) | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| 1 | 5,33 | 3,50 | 4,83 | 5,17 | 3,17 | 28,00 |
| 2 | 10,67 | 7,00 | 9,67 | 10,33 | 6,33 | 56,00 |
| 3 | 16,00 | 10,50 | 14,50 | 15,50 | 9,50 | 84,00 |
Vervolgens is voor elke i en j de term
berekend:
| 1 | 2 | 3 | 4 | 5 | 6 | |||
|---|---|---|---|---|---|---|---|---|
| 1 | 0,02 | 5,79 | 0,14 | 0,13 | 0,22 | 0,89 | 7,20 | |
| 2 | 0,51 | 0,00 | 1,94 | 2,11 | 0,86 | 1,45 | 6,87 | |
| 3 | 0,25 | 1,93 | 0,84 | 1,95 | 0,24 | 2,33 | 7,55 | |
| sub | 0,78 | 7,71 | 2,93 | 4,19 | 1,32 | 4,67 | 21,61 |
met als totaal:
.
Onder de nulhypothese van homogeniteit is de toetsingsgrootheid bij benadering chi-kwadraatverdeeld met (3-1)(6-1) = 10 vrijheidsgraden. De overschrijdingskans van de gevonden waarde 21,61 is kleiner dan 0,025, zodat er reden is om te twijfelen aan de homogeniteit.
| Toetsen |
|---|
|
statistische toets · schatten · t-toets · F-toets · chi-kwadraattoets · Rangsomtoets · Rangtekentoets · verdelingsvrije toets · Kolmogorov-Smirnovtoets · Kruskall-Wallistoets · kleinste-kwadratenmethode · lineaire regressie |

voor alle 

"de dobbelsteen is zuiver"
.
.
voor alle
,





voor alle 

