Variantieanalyse: verschil tussen versies

Uit Wikipedia, de vrije encyclopedie
Verwijderde inhoud Toegevoegde inhoud
Madyno (overleg | bijdragen)
Geen bewerkingssamenvatting
Regel 9: Regel 9:


== Formules ==
== Formules ==
Als [[wiskundig model|model]] nemen we aan dat de lichaamslengte in elk van de a=3 groepen een [[normale verdeling]] heeft, met [[verwachtingswaarde]]n resp. <math>\mu_1</math>, <math>\mu_2</math> en <math>\mu_3</math> en voor elke groep dezelfde [[variantie]] <math>\sigma^2</math>.
Als [[wiskundig model|model]] nemen we aan dat de lichaamslengte in elk van de <math>a=3</math> groepen een [[normale verdeling]] heeft, met [[verwachtingswaarde]]n resp. <math>\mu_1,\ \mu_2</math> en <math>\mu_3</math> en voor elke groep dezelfde [[variantie]] <math>\sigma^2.</math>


Het is gebruikelijk om het gemiddelde niveau van de a groepen met μ aan te duiden en de afwijkingen daarvan met <math>\alpha_i</math>, dus:
Het is gebruikelijk om het gemiddelde niveau van de <math>a</math> groepen met <math>\mu</math> aan te duiden en de afwijkingen daarvan met <math>\alpha_i,</math> dus:


:<math>\mu_i = \mu + \alpha_i</math>,
:<math>\mu_i = \mu + \alpha_i</math>,
Regel 19: Regel 19:
:<math>\sum \alpha_i=0</math>.
:<math>\sum \alpha_i=0</math>.


De systematische verschillen komen dan tot uiting in de <math>\alpha_i's</math>.
De systematische verschillen komen dan tot uiting in de <math>\alpha_i</math>'s.


Uit de groepen nemen we (onafhankelijke, aselecte) [[steekproef|steekproeven]], voor het gemak alle van dezelfde omvang ''m'':
Uit de groepen nemen we (onafhankelijke, aselecte) [[steekproef|steekproeven]], voor het gemak alle van dezelfde omvang <math>m:</math>


:<math>X_{11},...,X_{1m},X_{21},...,X_{2m},X_{31},...,X_{3m}</math>.
:<math>X_{11},\ldots,X_{1m},X_{21},\ldots,X_{2m},X_{31},\ldots,X_{3m}</math>.


Voor een zo'n element kunnen we schrijven:
Voor een zo'n element kunnen we schrijven:
Regel 35: Regel 35:


Voor de berekeningen nemen we de volgende eenvoudige, fictieve getallen als uitkomst van de steekproef:
Voor de berekeningen nemen we de volgende eenvoudige, fictieve getallen als uitkomst van de steekproef:
<br />Friezen: 171,181,191
:Friezen: 171,181,191<br />
<br />Hollanders: 169,179,189
:Hollanders: 169,179,189<br />
<br />Limburgers: 161,171,181
:Limburgers: 161,171,181


De totale kwadratensom SST van afwijkingen tov. het algemeen gemiddelde ''X''.. (het is gebruikelijk om gemiddelden aan te geven door de index waarover gemiddeld is te vervangen door een stip) kan als volgt uiteengelegd worden:
De totale kwadratensom <math>SST</math> van afwijkingen t.o.v. het algemeen gemiddelde <math>X..</math> (het is gebruikelijk om gemiddelden aan te geven door de index waarover gemiddeld is, te vervangen door een stip) kan als volgt uiteengelegd worden:


:<math>SST=\sum(X_{ij}-X..)^2=\sum_{i,j}(X_{ij}-X_i.+X_i.-X..)^2=\sum_{i,j}(X_{ij}-X_i.)^2+m\sum_i(X_i.-X..)^2</math>.
:<math>SST=\sum(X_{ij}-X..)^2=</math>
:::<math>=\sum_{i,j}(X_{ij}-X_i.+X_i.-X..)^2=</math>
:::<math>=\sum_{i,j}(X_{ij}-X_i.)^2+m\sum_i(X_i.-X..)^2</math>


In onze steekproef is ''X..=177'', zodat ''SST=36+16+196+64+4+144+256+36+16=768''.
In onze steekproef is <math>X..=177,</math> zodat :<math>SST=36+16+196+64+4+144+256+36+16=768.</math>


De eerste component,
De eerste component,
Regel 55: Regel 57:
In onze steekproef is:
In onze steekproef is:


:<math>X_1.=181</math>, <math>X_2.=179</math> en <math>X_3.=171</math>, zodat ''SSE=600'' en ''SSA=168''.
:<math>X_1.=181,\ X_2.=179</math> en <math>X_3.=171</math>,
zodat
:<math>SSE=600</math> en <math>SSA=168</math>.


Onder de nulhypothese van geen verschillen geldt voor de verdelingen:
Onder de nulhypothese van geen verschillen geldt voor de verdelingen:
:<math>SSE/\sigma^2</math> is [[Chi-kwadraatverdeling|chi-kwadraat]]verdeeld met a(m-1) vrijheidsgraden
:<math>SSE/\sigma^2</math> is [[Chi-kwadraatverdeling|chi-kwadraat]]verdeeld met <math>a(m-1)</math> vrijheidsgraden
en
en
:<math>SSA/\sigma^2</math> is chi-kwadraatverdeeld met a-1 vrijheidsgraden.
:<math>SSA/\sigma^2</math> is chi-kwadraatverdeeld met <math>a-1</math> vrijheidsgraden.


Onder de gemiddelde kwadratensom verstaat men de kwadratensom gedeeld door de bijbehorende vrijheidsgraden:
Onder de gemiddelde kwadratensom verstaat men de kwadratensom gedeeld door de bijbehorende vrijheidsgraden:
Regel 67: Regel 71:
:<math>MSA=SSA/(a-1)</math>.
:<math>MSA=SSA/(a-1)</math>.


In de steekproef: ''MSA=168/2=84'' en ''MSE=600/6=100''.
In de steekproef: <math>MSA=168/2=84</math> en <math>MSE=600/6=100.</math>


Als toetsingsgrootheid ''F'' neemt men het quotiënt van deze gemiddelde kwadratensommen:
Als toetsingsgrootheid <math>F</math> neemt men het quotiënt van deze gemiddelde kwadratensommen:


:<math>F=MSA/MSE</math>.
:<math>F=MSA/MSE</math>.


Als de nulhypothese waar is, heeft ''F'' een [[F-verdeling]] met a-1 vrijheidsgraden in de teller en a(m-1) in de noemer. Merk op dat de onbekende parameter <math>\sigma^2</math> bij het delen is weggevallen. Is de nulhypothese niet waar, dan kan men vrij eenvoudig inzien dat ''F'' statistisch grotere waarden zal aannemen. De nulhypothese wordt dus verworpen voor grote waarden van ''F''.
Als de nulhypothese waar is, heeft <math>F</math> een [[F-verdeling]] met <math>a-1</math> vrijheidsgraden in de teller en a(m-1) in de noemer. Merk op dat de onbekende parameter <math>\sigma^2</math> bij het delen is weggevallen. Is de nulhypothese niet waar, dan kan men vrij eenvoudig inzien dat <math>F</math> statistisch grotere waarden zal aannemen. De nulhypothese wordt dus verworpen voor grote waarden van <math>F.</math>


In ons voorbeeld is dus: ''F=84/100=0.84''. Aangezien ''F<1'', is de overschrijdingskans ''p>0.5''; geen reden om de nulhypothese te verwerpen.
In ons voorbeeld is dus: <math>F=84/100=0{,}84.</math> Aangezien <math>F<1</math> is de overschrijdingskans <math>p>0{,}5</math>; dus is er geen reden om de nulhypothese te verwerpen.


== Tabel ==
== Tabel ==
Regel 86: Regel 90:
| width="80" align="center" | kwadr.som
| width="80" align="center" | kwadr.som
| width="80" align="center" | gem.kwadr.som
| width="80" align="center" | gem.kwadr.som
| width="80" align="center" | F
| width="80" align="center" | <math>F</math>
| width="80" align="center" | p-waarde
| width="80" align="center" | p-waarde
|-----
|-----
Regel 95: Regel 99:
| width="80" align="center" | 168
| width="80" align="center" | 168
| width="80" align="center" | 84
| width="80" align="center" | 84
| width="80" align="center" | 0.84
| width="80" align="center" | 0,84
| width="80" align="center" | >0.5
| width="80" align="center" | > 0,5
|-----
|-----
| width="80" | error
| width="80" | error
Regel 113: Regel 117:


Verkleinen we de variatie binnen de groepen als volgt:
Verkleinen we de variatie binnen de groepen als volgt:
<br />Friezen: 180,181,182
:Friezen: 180,181,182<br />
<br />Hollanders: 178,179,180
:Hollanders: 178,179,180<br />
<br />Limburgers: 170,171,172
:Limburgers: 170,171,172


dan blijven de groepsgemiddelden gelijk, en dus is weer:
dan blijven de groepsgemiddelden gelijk, en dus is weer:
:''SSA'' = 3*(16+4+36)=168
:<math>SSA= 3\cdot(16+4+36)=168</math>


Maar nu is:
Maar nu is:
:''SST'' = 9+16+25+1+4+9+49+36+25 = 174
:<math>SST = 9+16+25+1+4+9+49+36+25 = 174</math>


en
en


:''SSE'' = 6.
:<math>SSE=6</math>


De verschillen tussen de groepen zijn nu veel groter dan binnen de groepen.
De verschillen tussen de groepen zijn nu veel groter dan binnen de groepen.
Regel 137: Regel 141:
| width="80" align="center" | kwadr.som
| width="80" align="center" | kwadr.som
| width="80" align="center" | gem.kwadr.som
| width="80" align="center" | gem.kwadr.som
| width="80" align="center" | F
| width="80" align="center" | <math>F</math>
| width="80" align="center" | p-waarde
| width="80" align="center" | p-waarde
|-----
|-----
Regel 145: Regel 149:
| width="80" align="center" | 168
| width="80" align="center" | 168
| width="80" align="center" | 84 || width="80" align="center" | 84
| width="80" align="center" | 84 || width="80" align="center" | 84
| width="80" align="center" | ≈0
| width="80" align="center" | ≈ 0
|-----
|-----
| width="80" | error || width="80" align="center" | 6
| width="80" | error || width="80" align="center" | 6
Regel 164: Regel 168:
We bespreken een voorbeeld van een tweeweg-variantieanalyse.
We bespreken een voorbeeld van een tweeweg-variantieanalyse.


In een onderzoek naar de opbrengst van tarwesoorten in relatie met de bodemgesteldheid, worden 4 soorten tarwe vergeleken elk groeiend op 3 grondsoorten. Er zijn dus twee factoren: soort op 4 niveaus en grond op 3 niveaus. De opbrengst X van een tarwe-aar wordt gemodelleerd als:
In een onderzoek naar de opbrengst van tarwesoorten in relatie met de bodemgesteldheid, worden 4 soorten tarwe vergeleken elk groeiend op 3 grondsoorten. Er zijn dus twee factoren: soort op 4 niveaus en grond op 3 niveaus. De opbrengst <math>X</math> van een tarwe-aar wordt gemodelleerd als:


:<math>X_{ijk}= \mu+\alpha_i+\beta_j+ \alpha\beta_{ij}+U_{ijk}</math>.
:<math>X_{ijk}= \mu+\alpha_i+\beta_j+ \alpha\beta_{ij}+U_{ijk}</math>.


Daarin is:
Daarin is:
:<math>X_{ijk}</math> de opbrengst van aar nummer k van soort i op grond j
:<math>X_{ijk}</math> de opbrengst van aar nummer <math>k</math> van soort <math>i</math> op grond <math>j</math>
:<math>\mu</math> de verwachte opbrengst gemiddeld over alle soorten en gronden
:<math>\mu</math> de verwachte opbrengst gemiddeld over alle soorten en gronden
:<math>\alpha_i</math> de bijdrage aan de opbrengst van soort i
:<math>\alpha_i</math> de bijdrage aan de opbrengst van soort <math>i</math>
:<math>\beta_j</math> de bijdrage aan de opbrengst van grond j
:<math>\beta_j</math> de bijdrage aan de opbrengst van grond <math>j</math>
:<math>U_{ijk}</math> de eigen specifieke bijdrage van aar k van soort i op grond j; onderling onafhankelijk en <math>N(0,\sigma^2)-</math>verdeeld verondersteld.
:<math>U_{ijk}</math> de eigen specifieke bijdrage van aar <math>k</math> van soort <math>i</math> op grond <math>j;</math> onderling onafhankelijk en <math>N(0,\sigma^2)-</math>verdeeld verondersteld.
De term
De term
:<math>\alpha\beta_{ij}</math>
:<math>\alpha\beta_{ij}</math>
de zogenaamde interactieterm behoeft nog wat nadere verklaring. Niet altijd nemen we deze op in het model. Als er reden is om aan te nemen dat een bepaalde soort tarwe het beter doet op de ene grondsoort en een andere soort weer beter groeit op een andere grondsoort, is er sprake van interactie tussen de tarwesoort en de grondsoort. Om het effect daarvan in het model te beschrijven, nemen we de bovengenoemde interactieterm op. Het is gebruikelijk deze weer te geven met de symbolen van de interagerende factoren, hier dus α en β (dus niet te lezen als het product van beide!)
de zogenaamde interactieterm behoeft nog wat nadere verklaring. Niet altijd nemen we deze op in het model. Als er reden is om aan te nemen dat een bepaalde soort tarwe het beter doet op de ene grondsoort en een andere soort weer beter groeit op een andere grondsoort, is er sprake van interactie tussen de tarwesoort en de grondsoort. Om het effect daarvan in het model te beschrijven, nemen we de bovengenoemde interactieterm op. Het is gebruikelijk deze weer te geven met de symbolen van de interagerende factoren, hier dus <math>\alpha</math> en <math>\beta</math> (dus niet te lezen als het product van beide!)


De analyse van de variantie houdt nu in dat de totale kwadratensom als volgt uiteengelegd wordt (ook hier wordt weer door een . aangegeven dat over de betrokken index gemiddeld is):
De analyse van de variantie houdt nu in dat de totale kwadratensom als volgt uiteengelegd wordt (ook hier wordt weer door een . aangegeven dat over de betrokken index gemiddeld is):


:<math>SS_T=SS_A+SS_B+SS_{AB}+SS_E</math>,
:<math>SS_\text{T}=SS_\text{A}+SS_\text{B}+SS_\text{AB}+SS_\text{E}</math>,


waarin:
waarin:


:<math>SS_T=\sum(X_{ijk}-X...)^2</math> de totale kwadratensom is
:<math>SS_\text{T}=\sum(X_{ijk}-X...)^2</math> de totale kwadratensom is
:<math>SS_E=\sum(X_{ijk}-X_{ij}.)^2</math> de kwadratensom van de residuen
:<math>SS_\text{E}=\sum(X_{ijk}-X_{ij}.)^2</math> de kwadratensom van de residuen
:<math>SS_{AB}=\sum(X_{ij}.-X_i..-X._j.+X...)^2</math> de kwadratensom van de interactie
:<math>SS_\text{AB}=\sum(X_{ij}.-X_i..-X._j.+X...)^2</math> de kwadratensom van de interactie
:<math>SS_A=\sum(X_i..-X...)^2</math> de kwadratensom van de factor A, "soort"
:<math>SS_\text{A}=\sum(X_i..-X...)^2</math> de kwadratensom van de factor A, "soort"
:<math>SS_B=\sum(X._j.-X...)^2</math> de kwadratensom van de factor B, "grond".
:<math>SS_\text{B}=\sum(X._j.-X...)^2</math> de kwadratensom van de factor B, "grond".


[[Categorie:Statistiek]]
[[Categorie:Statistiek]]

Versie van 17 apr 2018 00:29

Variantieanalyse, een begrip uit de statistiek, vaak aangeduid als ANOVA (van het Engelse Analysis of variance), is een toetsingsprocedure om na te gaan of de populatiegemiddelden van meer dan 2 groepen van elkaar verschillen. Het is in die zin een generalisatie van de t-toets voor twee steekproeven. De term variantieanalyse verwijst naar de uiteenlegging (analyse) van de totale variantie van de gemeten grootheid in twee delen, de variantie binnen de groepen (binnenvariantie) en de variantie tussen de groepen (tussenvariantie) die met elkaar vergeleken worden. De analysetechniek is bedacht door de Britse statisticus en geneticus Ronald Aylmer Fisher in de jaren 1920 - 1930.

Voorbeeld

Een eenvoudig voorbeeld, met drie groepen, zal de gedachtegang verduidelijken.

We vragen ons af of er tussen drie verschillende groepen wat de lichaamslengte van de personen uit die groepen betreft, systematische verschillen zijn of dat eventuele verschillen zuiver op toeval berusten. We vergelijken Friezen, Hollanders en Limburgers. Is de lichaamslengte in deze groepen gemiddeld genomen dezelfde, of zijn er systematische verschillen? Duidelijk is dat binnen elke groep verschillen in lengte zijn. Niet alle Hollanders zijn even lang en ook niet alle Friezen en Limburgers. De vraag is of er ook tussen de groepen verschillen zijn. Of bijvoorbeeld de gemiddelde lengte van Friezen anders is dan de gemiddelde lengte van Limburgers. Of de verschillende groepen een bron van variatie zijn. Natuurlijk zullen de gemiddelden van de drie groepen niet precies aan elkaar gelijk zijn. We vragen ons daarom af of deze verschillen tussen de groepen vergelijkbaar zijn met, of veel groter zijn dan de verschillen binnen de groepen. Daartoe worden steekproeven genomen en de totale "variantie", die een maat is voor de variatie, uiteengelegd, geanalyseerd, in twee componenten, de variantie binnen de groepen en de variantie tussen de groepen. Door vergelijken van deze twee componenten kan beslist worden of de groepsgemiddelden als verschillend beschouwd mogen worden of niet.

Het bovenstaande is een voorbeeld van een eenweg-variantieanalyse. Er is sprake van één factor (afkomst), en drie niveaus (de drie groepen, Friezen, Hollanders en Limburgers). Er wordt gekeken naar of de gemiddelde waarden voor de variabele (in dit geval lengte) significant meer verschillen tussen de individuele niveaus van de factor dan dat ze verschillen binnen de individuele niveaus.

Formules

Als model nemen we aan dat de lichaamslengte in elk van de groepen een normale verdeling heeft, met verwachtingswaarden resp. en en voor elke groep dezelfde variantie

Het is gebruikelijk om het gemiddelde niveau van de groepen met aan te duiden en de afwijkingen daarvan met dus:

,

zodat:

.

De systematische verschillen komen dan tot uiting in de 's.

Uit de groepen nemen we (onafhankelijke, aselecte) steekproeven, voor het gemak alle van dezelfde omvang

.

Voor een zo'n element kunnen we schrijven:

.

Zo is de lengte van de eerste gemeten Fries:

,

dus de som van het algemeen gemiddelde , de afwijking daarvan voor Friezen in het algemeen, en een persoonlijke bijdrage . De persoonlijke bijdragen (storingstermen) () zijn onderling onafhankelijk en alle -verdeeld.

Voor de berekeningen nemen we de volgende eenvoudige, fictieve getallen als uitkomst van de steekproef:

Friezen: 171,181,191
Hollanders: 169,179,189
Limburgers: 161,171,181

De totale kwadratensom van afwijkingen t.o.v. het algemeen gemiddelde (het is gebruikelijk om gemiddelden aan te geven door de index waarover gemiddeld is, te vervangen door een stip) kan als volgt uiteengelegd worden:

In onze steekproef is zodat :

De eerste component,

,

beschrijft de variatie binnen de groepen als gevolg van de afwijkingen binnen elke groep ten opzichte van het groepsgemiddelde.

De tweede component,

,

beschrijft de variatie tussen de groepen als gevolg van de afwijkingen van de groepsgemiddelden ten opzichte van het algemeen gemiddelde.

In onze steekproef is:

en ,

zodat

en .

Onder de nulhypothese van geen verschillen geldt voor de verdelingen:

is chi-kwadraatverdeeld met vrijheidsgraden

en

is chi-kwadraatverdeeld met vrijheidsgraden.

Onder de gemiddelde kwadratensom verstaat men de kwadratensom gedeeld door de bijbehorende vrijheidsgraden:

en

.

In de steekproef: en

Als toetsingsgrootheid neemt men het quotiënt van deze gemiddelde kwadratensommen:

.

Als de nulhypothese waar is, heeft een F-verdeling met vrijheidsgraden in de teller en a(m-1) in de noemer. Merk op dat de onbekende parameter bij het delen is weggevallen. Is de nulhypothese niet waar, dan kan men vrij eenvoudig inzien dat statistisch grotere waarden zal aannemen. De nulhypothese wordt dus verworpen voor grote waarden van

In ons voorbeeld is dus: Aangezien is de overschrijdingskans ; dus is er geen reden om de nulhypothese te verwerpen.

Tabel

De resultaten van de berekeningen worden meestal weergegeven in een variantieanalysetabel:

factor vrijheidsgraden kwadr.som gem.kwadr.som p-waarde

groep 2 168 84 0,84 > 0,5
error 6 600 100

totaal 8 768

Dat de steekproef niet significant is, hadden we vrij direct kunnen zien, aangezien binnen de groepen afwijkingen van 10 tov. het groepsgemiddelde voorkomen en de verschillen tussen de groepsgemiddelden niet groter dan 10 zijn.

Verkleinen we de variatie binnen de groepen als volgt:

Friezen: 180,181,182
Hollanders: 178,179,180
Limburgers: 170,171,172

dan blijven de groepsgemiddelden gelijk, en dus is weer:

Maar nu is:

en

De verschillen tussen de groepen zijn nu veel groter dan binnen de groepen.

De variantieanalysetabel wordt nu:

factor vrijheidsgraden kwadr.som gem.kwadr.som p-waarde

groep 2 168 84 84 ≈ 0
error 6 6 1

totaal 8 174

Er is dus alle reden om aan te nemen dat de groepsgemiddelden onderling verschillen.

Meerweg-variantieanalyse

Een soortgelijke analyse kan ook gedaan worden met meer factoren. We spreken dan van meerweg-variantieanalyse, of naar het aantal beschouwde factoren van bijvoorbeeld drieweg-, vierweg-variantieanalyse. Een complicatie daarbij is dat de factoren elkaar kunnen beïnvloeden, wat aangeduid wordt als interactie. Ook worden met toenemend aantal factoren de formules ingewikkelder en minder overzichtelijk. Een belangrijk praktisch nadeel van veel factoren is de noodzakelijk grote steekproefomvang voor een betrouwbare analyse.

Voorbeeld

We bespreken een voorbeeld van een tweeweg-variantieanalyse.

In een onderzoek naar de opbrengst van tarwesoorten in relatie met de bodemgesteldheid, worden 4 soorten tarwe vergeleken elk groeiend op 3 grondsoorten. Er zijn dus twee factoren: soort op 4 niveaus en grond op 3 niveaus. De opbrengst van een tarwe-aar wordt gemodelleerd als:

.

Daarin is:

de opbrengst van aar nummer van soort op grond
de verwachte opbrengst gemiddeld over alle soorten en gronden
de bijdrage aan de opbrengst van soort
de bijdrage aan de opbrengst van grond
de eigen specifieke bijdrage van aar van soort op grond onderling onafhankelijk en verdeeld verondersteld.

De term

de zogenaamde interactieterm behoeft nog wat nadere verklaring. Niet altijd nemen we deze op in het model. Als er reden is om aan te nemen dat een bepaalde soort tarwe het beter doet op de ene grondsoort en een andere soort weer beter groeit op een andere grondsoort, is er sprake van interactie tussen de tarwesoort en de grondsoort. Om het effect daarvan in het model te beschrijven, nemen we de bovengenoemde interactieterm op. Het is gebruikelijk deze weer te geven met de symbolen van de interagerende factoren, hier dus en (dus niet te lezen als het product van beide!)

De analyse van de variantie houdt nu in dat de totale kwadratensom als volgt uiteengelegd wordt (ook hier wordt weer door een . aangegeven dat over de betrokken index gemiddeld is):

,

waarin:

de totale kwadratensom is
de kwadratensom van de residuen
de kwadratensom van de interactie
de kwadratensom van de factor A, "soort"
de kwadratensom van de factor B, "grond".