Variantie

De variantie is in de statistiek een maat voor de spreiding van een reeks waarden, dat wil zeggen de mate waarin de waarden onderling verschillen. Hoe groter de variantie, hoe meer de afzonderlijke waarden onderling verschillen, en dus ook hoe meer de waarden van het "gemiddelde" afwijken.

De variantie meet min of meer het gemiddelde van het kwadraat van deze afwijkingen. Die waarden kunnen de waarden van een populatie zijn, dan spreekt men van de populatievariantie. Betreft het de waarden van een verdeling, dan is de variantie een maat voor de "breedte" van deze verdeling, en spreekt men meestal gewoon van de variantie van deze verdeling. Is de betrokken verdeling de kansverdeling van een stochastische variabele $X$ , dan spreekt men over de variantie van $X$ .

Betreft het de uitkomsten van een steekproef, dan spreekt men van steekproefvariantie.

De populatievariantie is een parameter (eigenschap) van de populatie; de steekproefvariantie $s^{2}$ is een steekproeffunctie, een schatter van de populatievariantie. De wortel uit de variantie wordt standaardafwijking, standaarddeviatie of spreiding genoemd.

Populatie[bewerken | brontekst bewerken]

De formule voor de populatievariantie, meestal aangeduid met $\sigma ^{2}$ is:

\sigma ^{2}={\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-\mu )^{2}

met $\mu$ het populatiegemiddelde, $N$ de populatieomvang, en $x_{1},\ldots ,x_{N}$ de populatie-elementen.

Er is een kortere rekenformule:

\sigma ^{2}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}-\mu ^{2}

Deze wordt als volgt afgeleid:

\sum (x_{i}-\mu )^{2}=\sum (x_{i}^{2}-2x_{i}\mu +\mu ^{2})=\sum x_{i}^{2}-2\mu \sum x_{i}+\sum \mu ^{2}=\sum x_{i}^{2}-2\mu N\mu +N\mu ^{2}=

\quad \quad =\sum x_{i}^{2}-N\mu ^{2}

Links en rechts delen door $N$ geeft het gezochte resultaat.

Bij het werpen met een (eerlijke) dobbelsteen kunnen de ogenaantallen 1 t/m 6 met gelijke kans van 1/6 als uitkomst optreden. Het verwachte ogenaantal (populatiegemiddelde) van een worp is daarom:

\mu ={\tfrac {1}{6}}\cdot 1+{\tfrac {1}{6}}\cdot 2+{\tfrac {1}{6}}\cdot 3+{\tfrac {1}{6}}\cdot 4+{\tfrac {1}{6}}\cdot 5+{\tfrac {1}{6}}\cdot 6=3{\tfrac {1}{2}}

De mogelijke afwijkingen van het verwachte ogenaantal zijn:

1-3{\tfrac {1}{2}}=-2{\tfrac {1}{2}}

2-3{\tfrac {1}{2}}=-1{\tfrac {1}{2}}

3-3{\tfrac {1}{2}}=-{\tfrac {1}{2}}

4-3{\tfrac {1}{2}}={\tfrac {1}{2}}

5-3{\tfrac {1}{2}}=1{\tfrac {1}{2}}

6-3{\tfrac {1}{2}}=2{\tfrac {1}{2}}

die elk met kans 1/6 voorkomen. De (populatie)variantie $\sigma ^{2}$ is dus:

\sigma ^{2}={\tfrac {1}{6}}(-2{\tfrac {1}{2}})^{2}+{\tfrac {1}{6}}(-1{\tfrac {1}{2}})^{2}+{\tfrac {1}{6}}(-{\tfrac {1}{2}})^{2}+{\tfrac {1}{6}}({\tfrac {1}{2}})^{2}+{\tfrac {1}{6}}(1{\tfrac {1}{2}})^{2}+{\tfrac {1}{6}}(2{\tfrac {1}{2}})^{2}={\tfrac {35}{12}}.

De (populatie)standaardafwijking $\sigma$ is dan:

\sigma ={\sqrt {\tfrac {35}{12}}}\approx 1{,}71

,

een waarde tussen de mogelijke positieve afwijkingen.

Steekproef[bewerken | brontekst bewerken]

Om de variantie in een populatie of kansverdeling te berekenen, zijn alle waarden nodig. Vaak zijn die echter niet beschikbaar en wordt de variantie geschat aan de hand van een aselecte steekproef. Men berekent als schatting de steekproefvariantie, aangeduid door $s^{2}$ en gedefinieerd door:

s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}

Hierin is $n$ de steekproefgrootte, $x_{i}$ de steekproefelementen en ${\bar {x}}$ het steekproefgemiddelde.

Ook voor $s^{2}$ is er een praktischer rekenformule:

s^{2}={\frac {1}{n-1}}\sum x_{i}^{2}-{\frac {n}{n-1}}{\bar {x}}^{2}

Het voordeel van deze versie dat men bij het verwerken van de steekproefresultaten het gemiddelde en de variantie in een moeite door kan berekenen (met de eerste formule zou men de reeks waarden tweemaal langs moeten lopen).

De zo gedefinieerde steekproefvariantie is een zogeheten zuivere schatter van de variantie. Dat houdt in dat bij veel herhalingen, het gemiddelde van de schattingen convergeert naar de te schatten variantie.

In de Nederlandse statistische terminologie wordt echter ook de schatter:

s_{n}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}

als steekproefvariantie aangeduid. Deze schatter die daadwerkelijk het gemiddelde van de kwadratische afwijkingen van het steekproefgemiddelde berekent, kan opgevat worden als de populatievariantie van de steekproef als populatie. Zoals gemakkelijk te zien is, scheelt deze schatter slechts een factor $(n-1)/n$ van de eerder genoemde. Praktisch gezien, en zeker als de steekproefomvang $s^{2}$ groot is, is er weinig verschil tussen beide schatters. De schatter $s_{n}$ is natuurlijk niet meer zuiver. Echter is het de zogenaamde meest aannemelijke schatter van de variantie in het geval van een normale verdeling.

Omdat zowel zuiverheid als meest aannemelijkheid van een schatter theoretisch belangrijke eigenschappen zijn, heeft verschil van opvatting daarover tussen de hoogleraren statistiek destijds, ertoe geleid dat beide schatters de naam steekproefvariantie hebben.

Voorbeelden[bewerken | brontekst bewerken]

Voorbeeld 1[bewerken | brontekst bewerken]

Gooien we 10 keer met de 6 kantige dobbelsteen, met als resultaat de ogenaantallen:

3,\ 5,\ 3,\ 1,\ 6,\ 4,\ 1,\ 3,\ 2,\ 4,

dan is het steekproefgemiddelde:

{\bar {x}}={\tfrac {1}{10}}(3+5+3+1+6+4+1+3+2+4)=3{,}2

De afwijkingen van het gemiddelde ogenaantal zijn:

3-3{,}2=-0{,}2

5-3{,}2=+1{,}8

3-3{,}2=-0{,}2

1-3{,}2=-2{,}2

6-3{,}2=+2{,}8

4-3{,}2=+0{,}8

1-3{,}2=-2{,}2

3-3{,}2=-0{,}2

2-3{,}2=-1{,}2

4-3{,}2=+0{,}8

De (steekproef)variantie is dus:

s^{2}={\tfrac {1}{9}}\left((-0{,}2)^{2}+1{,}8^{2}+(-0{,}2)^{2}+(-2{,}2)^{2}+2{,}8^{2}+0{,}8^{2}+(-2{,}2)^{2}+(-0{,}2)^{2}+(-1{,}2)^{2}+0{,}8^{2}\right)\approx 2{,}62

en de (steekproef)standaardafwijking $s$ is:

s\approx {\sqrt {2{,}62}}\approx 1{,}62

Voorbeeld 2[bewerken | brontekst bewerken]

Een steekproef ter grootte van $n=5$ levert de resultaten 1, 2, 3, 4, 5. Dus ${\bar {x}}=3$ . De variantie is

s^{2}={\frac {1}{5-1}}\left((1-3)^{2}+(2-3)^{2}+(3-3)^{2}+(4-3)^{2}+(5-3)^{2}\right)

={\tfrac {1}{4}}\left(4+1+0+1+4\right)=2{\tfrac {1}{2}}

en de (steekproef)standaardafwijking s is:

s={\sqrt {2{,}5}}\approx 1{,}58

Kansverdeling[bewerken | brontekst bewerken]

Als de populatieverdeling gegeven is als kansverdeling van een stochastische variabele $X$ , is de variantie (van $X$ ) gedefinieerd als de verwachtingswaarde van de kwadratische afwijkingen van de verwachtingswaarde van $X$ :

\operatorname {var} (X)=\operatorname {E} [(X-\operatorname {E} [X])^{2}]

.

Ook hier is weer een alternatieve rekenformule:

\operatorname {var} (X)=\operatorname {E} [X^{2}]-\operatorname {E} [X]^{2}

.

Analogie[bewerken | brontekst bewerken]

In de mechanica is het analogon van de variantie het traagheidsmoment van een voorwerp, dus van een massaverdeling.

Het elektrische vermogen van een zuivere wisselstroom, dus gemiddeld 0, is evenredig met het gemiddelde kwadraat van de spanning, dus een constante maal de variantie van dat signaal.

Zie ook[bewerken | brontekst bewerken]

Gemiddelden:	rekenkundig gemiddelde · meetkundig gemiddelde · harmonisch gemiddelde · kwadratisch gemiddelde · gewogen gemiddelde · getrimd gemiddelde · Winsorgemiddelde
Andere liggingsmaten:	mediaan · modus · kwartiel · deciel · percentiel
Spreidingsmaten:	variantie · standaardafwijking · variatiecoëfficiënt · interkwartielafstand
Grafische beschrijvingen:	histogram · boxplot · Q-Q plot
Overig:	moment · scheefheid · kurtosis · vijf-getallensamenvatting