Variantie

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken
Voorbeeld voor twee verzamelingen van 19 getallen (0, 5, ..., 90 en 0, 37, 38, ..., 53, 90).

De variantie is in de statistiek een maat voor de spreiding van een reeks waarden, dat wil zeggen de mate waarin de waarden onderling verschillen. Hoe groter de variantie, hoe meer de afzonderlijke waarden onderling verschillen, en dus ook hoe meer de waarden van het "gemiddelde" afwijken.

De variantie meet min of meer het gemiddelde van het kwadraat van deze afwijkingen. Die waarden kunnen de waarden van een populatie zijn, dan spreekt men van de populatievariantie. Betreft het de waarden van een verdeling, dan is de variantie een maat voor de "breedte" van deze verdeling, en spreekt men meestal gewoon van de variantie van deze verdeling. Is de betrokken verdeling de kansverdeling van een stochastische variabele X, dan spreekt men over de variantie van X.

Betreft het de uitkomsten van een steekproef, dan spreekt men van steekproefvariantie.

De populatievariantie is een parameter (eigenschap) van de populatie; de steekproefvariantie s2 is een steekproeffunctie, een schatter van de populatievariantie. De wortel uit de variantie wordt standaardafwijking genoemd.

Populatie[bewerken]

De formule voor de populatievariantie, meestal aangeduid met σ2 is:

\sigma^2 =\frac 1N \sum_{i=1}^N (x_i - \mu)^2,

met μ het populatiegemiddelde, N de populatieomvang, en xi de populatie-elementen.

Er is een kortere rekenformule:

\sigma^2 = \frac 1N \sum_{i=1}^N x_i^2 - \mu^2,

De berekening hieronder toont dat dit gelijk is:

\sum (x_i - \mu)^2 = 
\sum (x_i^2 - 2 x_i \mu + \mu^2) = 
(\sum x_i^2) - (2 \mu \sum x_i) + (\sum \mu^2) = 
(\sum x_i^2) - 2 \mu N \mu + N \mu^2 = 
\sum x_i^2 - N \mu^2

Links en rechts delen door N geeft het gezochte resultaat.

Bij het werpen met een (eerlijke) dobbelsteen kunnen de ogenaantallen 1 t/m 6 met gelijke kans van 1/6 als uitkomst optreden. Het verwachte ogenaantal (populatiegemiddelde) van een worp is daarom:

\mu=\tfrac16 \cdot 1 +\tfrac16 \cdot 2 +\tfrac16 \cdot 3 +\tfrac16 \cdot 4 +\tfrac16 \cdot 5 +\tfrac16 \cdot 6 = 3\tfrac12.

De mogelijke afwijkingen van het verwachte ogenaantal zijn:

1-3\tfrac12 = -2\tfrac12,
2-3\tfrac12 = -1\tfrac12,
3-3\tfrac12 = -\tfrac12,
4-3\tfrac12 = \tfrac12,
5-3\tfrac12 = 1\tfrac12,
6-3\tfrac12 = 2\tfrac12,

die elk met kans 1/6 voorkomen. De (populatie)variantie σ2 is dus:

\sigma^2= \tfrac16 (-2\tfrac12)^2 +\tfrac16 (-1\tfrac12)^2 +\tfrac16  (-\tfrac12)^2 +\tfrac16 (\tfrac12)^2 +\tfrac16 (1\tfrac12)^2 +\tfrac16 (2\tfrac12)^2 = \tfrac{35}{12}.

De (populatie)standaardafwijking σ is dan:

\sigma = \sqrt{\tfrac{35}{12}}\approx 1{,}71,

een waarde tussen de mogelijke positieve afwijkingen.

Steekproef[bewerken]

Om de variantie in een populatie of kansverdeling te berekenen, zijn alle waarden nodig. Vaak zijn die echter niet beschikbaar en wordt de variantie geschat aan de hand van een aselecte steekproef. Men berekent als schatting de steekproefvariantie, aangeduid door s2 en gedefinieerd door:

s^2 = \frac 1{n-1}\sum_{i=1}^n (x_i - \bar{x})^2

Hierin is n de steekproefgrootte, xi de steekproefelementen en het steekproefgemiddelde.

Ook voor s2 is er een kortere rekenformule:

s^2 = \frac 1{n-1}\sum x_i^2 - \frac n{n-1}\bar{x}^2

De zo gedefinieerde steekproefvariantie is een zogeheten zuivere schatter van de variantie. Dat houdt in dat bij veel herhalingen, het gemiddelde van de schattingen convergeert naar de te schatten variantie.

In de Nederlandse statistische terminologie wordt echter ook de schatter:

s_n^2 = \frac 1n\sum_{i=1}^n (x_i - \bar{x})^2

als steekproefvariantie aangeduid. Deze schatter die daadwerkelijk het gemiddelde van de kwadratische afwijkingen van het steekproefgemiddelde berekent, kan opgevat worden als de populatievariantie van de steekproef als populatie. Zoals gemakkelijk te zien is, scheelt deze schatter slechts een factor (n-1)/n van de eerder genoemde. Praktisch gezien, en zeker als de steekproefomvang n groot is, is er weinig verschil tussen beide schatters. De schatter sn is natuurlijk niet meer zuiver. Echter is het de zogenaamde meest aannemelijke schatter van de variantie in het geval van een normale verdeling.

Omdat zowel zuiverheid als meest aannemelijkheid van een schatter theoretisch belangrijke eigenschappen zijn, heeft verschil van opvatting daarover tussen de hoogleraren statistiek destijds, ertoe geleid dat beide schatters de naam steekproefvariantie hebben.

Voorbeelden[bewerken]

Voorbeeld 1[bewerken]

Gooien we 10 keer met de dobbelsteen, met als resultaat de ogenaantallen:

\scriptstyle 3,\ 5,\ 3,\ 1,\ 6,\ 4,\ 1,\ 3,\ 2,\ 4,

dan is het steekproefgemiddelde:

\scriptstyle  \bar{x}=\tfrac1{10}(3+5+3+1+6+4+1+3+2+4)=3{,}2.

De afwijkingen van het gemiddelde ogenaantal zijn:

3-3{,}2 = -0{,}2,
5-3{,}2 = +1{,}8,
3-3{,}2 = -0{,}2,
1-3{,}2 = -2{,}2,
6-3{,}2 = +2{,}8,
4-3{,}2 = +0{,}8,
1-3{,}2 = -2{,}2,
3-3{,}2 = -0{,}2,
2-3{,}2 = -1{,}2,
4-3{,}2 = +0{,}8.

De (steekproef)variantie is dus:

\scriptstyle s^2=\tfrac19 \left( (-0{,}2)^2 + 1{,}8^2 + (-0{,}2)^2 + (-2{,}2)^2 + 2{,}8^2 + 0{,}8^2 + (-2{,}2)^2+ (-0{,}2)^2+ (-1{,}2)^2+ 0{,}8^2 \right) =2{,}62

en de (steekproef)standaardafwijking s is:

\scriptstyle s = \sqrt{2{,}62} = 1{,}62.

Voorbeeld 2[bewerken]

Een steekproef ter grootte van n = 5 levert de resultaten 1, 2, 3, 4, 5. Dus = 3. De variantie is

s^2 = \frac{1}{5-1}\left((1-3)^2+(2-3)^2+(3-3)^2+(4-3)^2+(5-3)^2\right)

 = \tfrac 14\left(4+1+0+1+4\right)=2\tfrac12.

Kansverdeling[bewerken]

Als de populatieverdeling gegeven is als kansverdeling van een stochastische variabele X, is de variantie (van X) gedefinieerd als de verwachtingswaarde van de kwadratische afwijkingen van de verwachtingswaarde van X:

 \operatorname{var}(X) = E(X-EX)^2\,.

Ook hier is weer een alternatieve rekenformule:

 \operatorname{var}(X) = EX^2-(EX)^2\,.

Analogie[bewerken]

In de mechanica is het analogon van de variantie het traagheidsmoment van een voorwerp, dus van een massaverdeling.

Het elektrische vermogen van een zuivere wisselstroom, dus gemiddeld 0, is evenredig met het gemiddelde kwadraat van de spanning, dus een constante maal de variantie van dat signaal.

Zie ook[bewerken]