Stelling van Cochran

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

De stelling van Cochran is in de statistiek een stelling die voornamelijk toegepast wordt in de variantie-analyse. De stelling is geformuleerd door de Schotse wiskundige William Gemmell Cochran.

In de variantie-analyse wordt veelvuldig een som van kwadraten uiteengelegd in andere kwadraatsommen zoals in het volgende voorbeeld. Stel X1, ..., Xn is een aselecte steekproef uit een normale verdeling met verwachtingswaarde \mu en standaardafwijking \sigma. Dan kan geschreven worden:


\sum_{i=1}^n (X_i-\mu)^2=\sum_{i=1}^n (X_i-\bar{X}+\bar{X}-\mu)^2 =

=\sum_{i=1}^n (X_i-\bar{X})^2+\sum_{i=1}^n (\bar{X}-\mu)^2+2\sum_{i=1}^n (X_i-\bar{X})(\bar{X}-\mu)=

=\sum_{i=1}^n (X_i-\bar{X})^2+\sum_{i=1}^n (\bar{X}-\mu)^2

Deelt men beide leden door \sigma^2 dan ontstaat:


\sum_{i=1}^n \left(\frac{X_i-\mu}{\sigma} \right)^2=
\sum_{i=1}^n \left(\frac{X_i-\bar{X}}{\sigma} \right)^2
+n\left(\frac{\bar{X}-\mu}{\sigma} \right)^2,

een uitdrukking waarvan het linkerlid bestaat uit de som van kwadraten van standaardnormaal verdeelde toevalsvariabelen, en het rechterlid bestaat uit twee termen waarvan elk de som van kwadraten is van lineaire combinaties van de toevalsvariabelen uit het linkerlid.

De stelling van Cochran gaat over zulke uitdrukkingen.

Stelling[bewerken]

Zij Z1, ..., Zn onderling onafhankelijke, standaard normaal verdeelde toevalsvariabelen en

\sum_{i=1}^n Z_i^2=Q_1+\cdots + Q_k,

waarin elke Qi de som is van kwadraten van lineaire combinaties van de Z 's, waarvoor geldt dat de som van de rangen van de Q 's gelijk is aan n. D.w.z. als ri de rang is van Qi, wordt verondersteld dat:

r_1+\cdots +r_k=n.

De stelling van Cochran zegt nu dat Q1, ..., Qk onderling onafhankelijk zijn en elke Qi chi-kwadraatverdeeld is met ri vrijheidsgraden.

NB. De kwadraatsom Qi kan geschreven worden als de kwadratische vorm:

\!Q_i=Z^TA_iZ,

waarin Z de vector is van de Z 's en A een n×n-matrix is. De rang van Qi is de rang van de matrix Ai

Alternatieve formulering[bewerken]

Zij Z1, ..., Zn onderling onafhankelijke, standaard normaal verdeelde toevalsvariabelen en A1, ..., Ak symmetrische n×n-matrices waarvoor geldt:

A_1+\cdots +A_k=I_n.

Noem r_i=\mathrm{rang}(A_i), dan impliceert elk van de volgende uitspraken de overige twee.

  • r_1+\cdots +r_k=n
  • \tfrac 1{\sigma ^2}Z^TA_iZ is chi-kwadraat-verdeeld met r_i vrijheidsgraden (A_i is dus positief semidefiniet)
  • \!Z^TA_iZ en \!Z^TA_jZ zijn onderling onafhankelijk voor i\neq j

Voorbeeld[bewerken]

In het voorbeeld hierboven is de rang van

Q_1=n\left(\frac{\bar{X}-\mu}{\sigma} \right)^2=Z^TA_1Z

gelijk aan 1, en de rang van

Q_2=\sum_{i=1}^n \left(\frac{X_i-\bar{X}}{\sigma} \right)^2=Z^TA_2Z

gelijk aan n-1 zodat aan de voorwaarden van de stelling voldaan is. In deze uitdrukkingen is:

Z_i=\frac{X_i-\mu}{\sigma},
A_1=\begin{bmatrix}
 \frac 1n& \frac 1n & \cdots & \frac 1n \\
 \frac 1n& \frac 1n & \cdots & \frac 1n \\
 \vdots & \vdots & \ddots & \vdots \\
\frac 1n& \frac 1n & \cdots & \frac 1n \\
 \end{bmatrix}

en

\!A_2=I_n-A_1

Volgens de stelling zijn beide uitdrukkingen dus onderling onafhankelijk en elk chi-kwadraatverdeeld, met respectievelijk 1 en n-1 vrijheidsgraden. Dit betekent onder meer dat voor een aselecte steekproef uit een normale verdeling, het steekproefgemiddelde en de steekproefvariantie onderling onafhankelijk zijn.