Betrouwbaarheidsinterval

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

Een betrouwbaarheidsinterval is in de statistiek een intervalschatting voor een parameter. In tegenstelling tot een puntschatting geeft een betrouwbaarheidsinterval een heel interval van betrouwbare waarden (schattingen) van de parameter. Een betrouwbaarheidsinterval is een realisatie van een stochastisch interval, dat overigens zelf ook met betrouwbaarheidsinterval wordt aangeduid. De ondergrens en de bovengrens van het stochastische interval zijn stochastische variabelen, die dus bij elke herhaling van het experiment een (mogelijk) andere waarde aannemen. De te schatten parameter daarentegen heeft een, weliswaar onbekende, maar vaste waarde. Van alle realisaties van het interval zullen sommige de parameter wel bevatten, maar sommige ook niet. Hoe groter de betrouwbaarheid, hoe "vaker" het interval de parameter bevat. De kans dat het stochastische interval de parameter bevat heet de betrouwbaarheid van het interval. De onder- en de bovengrens worden berekend uit de steekproefgegevens, en wel zo dat we een sterk vermoeden hebben dat de echte waarde van de populatieparameter zich ertussen bevindt.

Wat een betrouwbaarheidsinterval is wordt vaak verkeerd begrepen ten gevolge van een subtiliteit. De te schatten parameter heeft een, weliswaar onbekende, maar vaste waarde. Van alle berekende realisaties van het interval zullen sommige de parameter wel bevatten, maar sommige ook niet. Hoe groter de betrouwbaarheid, hoe meer van de berekende intervallen de parameter zullen bevatten. De betrouwbaarheid van het interval geeft aan welk percentage dat is.

Als we op grond van een steekproef een 95%-betrouwbaarheidsinterval voor een populatiegemiddelde µ berekend hebben, kunnen we niet zeggen dat er 95% kans is dat µ in dat interval ligt. Immers: µ ligt er in of µ ligt er niet in, een van beide. De betekenis is dat we bij herhaling van de procedure, met steeds nieuwe (aselecte) steekproeven uit dezelfde populatie, mogen verwachten dat 95% van de zo berekende intervallen de parameter µ zullen bevatten.

Voorbeeld[bewerken]

Om een beeld te krijgen van de opkomst bij de naderende verkiezingen, is een enquête onder 1000 aselect gekozen stemgerechtigden gehouden. Van deze steekproef zeiden 700 te zullen gaan stemmen. Het opkomstpercentage is natuurlijk een nog onbekende parameter, die we 100p zullen noemen. Een voor de hand liggende (punt)schatting van p is: 0,70. Maar het kan ook wat meer of minder zijn. Mogelijk 0,75 of 0,60. Is het aannemelijk dat het 0,50 zou zijn? Om deze vraag te beantwoorden zoeken we een interval [ponder, pboven], waarvan we met een zekere mate van betrouwbaarheid kunnen zeggen dat p daarin zal liggen. Met 100%-betrouwbaarheid kunnen we zeggen dat p tussen 0 en 1 zal liggen; maar daar hebben we niet veel aan. Maar wat is de betrouwbaarheid van het interval [0.65, 0.75]? En hoe moeten we de grenzen kiezen als we een betrouwbaarheid van 95% willen hebben?

Definitie[bewerken]

De stochastische variabelen \,X_1,...,X_n vormen een steekproef uit een verdeling met onbekende parameter θ. Als voor de steekproeffuncties U en V geldt:

\,P(U < \theta < V) = \gamma,

heet het (stochastische) interval (U,V) een betrouwbaarheidsinterval voor θ met betrouwbaarheid γ (of: een γ-betrouwbaarheidsinterval).

Voor de realisaties u en v van resp. U en V geldt uiteraard die kansuitspraak niet. We zeggen daarom:

"met betrouwbaarheid γ geldt: u < θ < v".

Voorbeeld (vervolg)[bewerken]

We noemen X het aantal stemgerechtigden die zeggen te zullen gaan stemmen. X is een stochastische variabele met een binomiale verdeling met parameters n=1000 en succeskans p. Voor de steekproeffuncties:

U =\hat{p} - 2\sqrt{\frac {\hat{p}(1-\hat{p})}{1000}}

en

V =\hat{p} + 2\sqrt{\frac {\hat{p}(1-\hat{p})}{1000}},

waarin \hat{p} = X/1000 de steekproeffractie is, geldt:

\,P(U < p < V) \approx 0{,}95.

Het interval (U,V) is dus een 0,95-betrouwbaarheidsinterval voor p. Omdat we voor X de waarde 700 gevonden hebben, kunnen we de realisaties u en v van resp. U en V berekenen.

 u = 0{,}70 - 2\sqrt{\frac {{0{,}70}(1-0{,}70)}{1000}} = 0{,}70 - 0{,}03 = 0{,}67

en

 v = 0{,}70 + 2\sqrt{\frac {{0{,}70}(1-0{,}70)}{1000}} = 0{,}70 + 0{,}03 = 0{,}73

We zeggen daarom dat met betrouwbaarheid 0,95 geldt dat 0,67 < p < 0,73.

NB. Een veel voorkomend misverstand is dat men zegt dat p met kans 0,95 tussen de berekende grenzen ligt, en eventueel schrijft P(0,65 < p < 0,75) = 0,95. Dit is onjuist: of p ligt inderdaad in het interval, of p ligt er niet in; van tweeën een, we weten het mogelijk na de verkiezingen.

Nog een voorbeeld[bewerken]

Een machine vult kuipjes margarine, en is zo ingesteld dat in elk kuipje 250 gram margarine moet komen. Natuurlijk is het niet mogelijk om ieder kuipje met precies 250 gram te vullen. Het vulgewicht is een toevalsvariabele X, waarvan we aannemen dat hij normaal verdeeld is met verwachting μ en (voor de eenvoud) bekende standaardafwijking σ = 2,5 gram. Om de afstelling van de machine te controleren nemen we een steekproef van n = 25 aselect gekozen kuipjes en wegen die. De gewichten aan margarine zijn X_1,...,X_{25}, een aselecte steekproef van X.

Om alleen maar een indruk te krijgen van de verwachting μ, is het voldoende een schatting te geven. Het steekproefgemiddelde

\hat \mu =\bar X =\frac{1}{n}\sum_{i=1}^n X_i

is daarvoor geschikt. De actuele gewichten in de steekproef zijn x_1,...,x_{25}, met gemiddelde:

\bar x=\frac 1n \sum_{i=1}^n x_i = 250{,}2 (gram).

Het is duidelijk dat deze waarde tamelijk willekeurig is. We zouden ook 250,4 of 251,1 gram gevonden kunnen hebben. Een waarde van 280 gram is daarentegen weer onwaarschijnlijk. Er is een heel interval rond het waargenomen gemiddelde van 250,2 met schattingen die we ook betrouwbaar vinden, dat wil zeggen waarvan we tamelijk zeker zijn dat de parameter in dat interval ligt. Tamelijk zeker, want absoluut zeker zijn we alleen van het interval (0,∞), en dat is niet erg informatief. Zo'n interval heet een betrouwbaarheidsinterval voor de parameter μ. Hoe bepalen we zo'n interval? De grenzen van het interval moeten berekend kunnen worden uit de steekproef, het zijn dus steekproeffuncties, functies van X_1,...,X_{25} en daarom zelf ook toevalsvariabelen.

In ons geval kunnen we de grenzen bepalen door te bedenken dat het steekproefgemiddelde \bar X van een normaal verdeelde steekproef, zelf ook normaal verdeeld is, met dezelfde verwachting μ, maar met standaardafwijking \sigma/\sqrt{n} = 0{,}5 (gram). Door het gemiddelde te standaardiseren krijgen we:

Z = \frac {\bar X-\mu}{\sigma/\sqrt{n}} =\frac {\bar X-\mu}{0{,}5}

die zelf van μ afhangt, maar standaardnormaal verdeeld is, dus met een verdeling onafhankelijk van de te schatten parameter μ. We kunnen daarom getallen -z en z vinden, onafhankelijk van μ, waartussen Z met een voorgeschreven kans 1−α ligt. De betrouwbaarheid 1−α geeft aan hoe betrouwbaar we het interval vinden. We nemen hier 1−α = 0,95 en krijgen:

P(-z\le Z\le z) = 1-\alpha = 0,95.

Het getal z volgt uit:

P(Z \le z) = 1 - \frac{\alpha}2 = 0{,}975\,,

dus: z = 1,96, en er geldt:

0{,}95 = 1-\alpha=P(-z \le Z \le z)=P \left(-1{,}96 \le \frac {\bar X-\mu}{\sigma/\sqrt{n}} \le 1{,}96 \right) =
=P \left( \bar X - 1{,}96 \frac{\sigma}{\sqrt{n}} \le \mu \le \bar X + 1{,}96 \frac{\sigma}{\sqrt{n}}\right) =
=P\left(\bar X - 1{,}96 \times 0{,}5 \le \mu \le \bar X + 1{,}96 \times 0{,}5\right)=
=P \left( \bar X - 0{,}98 \le \mu \le \bar X + 0{,}98 \right)= .

Dit kunnen we zo interpreteren: met kans 0,95 zullen we een interval vinden met stochastische grenzen

 \bar X - 0{,}98

en

 \bar X + 0{,}98 ,

waar μ tussenin ligt.

Elke keer dat de metingen worden herhaald, zullen we een andere waarde voor het steekproefgemiddelde \bar X vinden. In 95% van de gevallen zal μ tussen de met dit gemiddelde berekende grenzen liggen, in 5% van de gevallen echter ook niet. Het actuele betrouwbaarheidsinterval wordt berekend door de waarden van de gevonden gewichten in te vullen. Zo vinden wij het 0,95-betrouwbaarheidsinterval:

(\bar x - 0{,}98;\bar x + 0{,}98) = (250{,}2 - 0{,}98; 250{,}2 + 0{,}98) = (249{,}22; 251{,}18)\,.

Dit interval heeft vaste getallen als grenzen, waartussen μ al dan niet zal liggen. Er is geen sprake van een kans daarop. We kunnen niet zeggen: "met kans 1−α ligt μ in het betrouwbaarheidsinterval." We weten alleen dat bij herhaling in 100(1−α) % van de gevallen μ in het berekende interval ligt. In 100α % van de gevallen is dat niet zo. We weten niet welke gevallen dat zijn. Daarom zeggen we: met betrouwbaarheid 100(1−α) % ligt μ in het betrouwbaarheidsinterval."

In de onderstaande figuur zijn 50 realisaties van een betrouwbaarheidsinterval met betrouwbaarheid 95% voor een onbekende parameter μ aangegeven.

NYW-confidence-interval.png

De meeste, in doorsnee 95%, van deze intervallen bevatten de parameter. Enkele daarentegen ook niet. In de praktijk hebben we te maken met een van deze intervallen. Welke dat is weten we niet. Toen we de steekproef namen, hadden we een kans van 95% om een interval te vinden waarin zich de parameter bevindt. Nadat we de steekproef genomen hebben, resteert ons een van deze intervallen. We kunnen niet meer spreken van de kans dat de parameter in dit ene interval ligt. De parameter ligt erin, of hij ligt er niet in. Daarom zeggen we dat de parameter met betrouwbaarheid 95% in dit interval ligt. En daarmee bedoelen we niets anders dan het bovenstaande.

Betrouwbaarheidsintervallen[bewerken]

Normale verdeling[bewerken]

Laat X_1,\ldots,X_n een aselecte steekproef zijn uit de N(\mu,\sigma^2)-verdeling, \overline X het steekproefgemiddelde en S^2 de steekproefvariantie.

Bij bekende variantie \sigma^2 wordt een (1-\alpha)-betrouwbaarheidsinterval voor \mu gegeven door:

\mu=\overline X \pm z_{\alpha/2}\frac{\sigma}{\sqrt n},

met z_{\alpha/2} het (1-\alpha/2)-fractiel van de standaardnormale verdeling, dus \Phi(z_{\alpha/2})=1-\tfrac 12 \alpha.


Als \sigma^2 niet bekend is, wordt deze geschat, en wordt het (1-\alpha)-betrouwbaarheidsinterval voor \mu:

\mu=\overline X \pm t_{n-1,\alpha/2}\frac{S}{\sqrt n},

met t_{n-1,\alpha/2} het (1-\alpha/2)-fractiel van de {\rm t}(n-1)-verdeling.


Een (1-\alpha)-betrouwbaarheidsinterval voor \sigma^2 is:

\frac{n-1}{c_2}S^2<\sigma^2<\frac{n-1}{c_1}S^2

met c_1 en c_2 respectievelijk het \alpha/2- en het (1-\alpha/2)-fractiel van de \chi^2(n-1)-verdeling.

Exponentiële verdeling[bewerken]

Laat X_1,\ldots,X_n een aselecte steekproef zijn uit de exponentiële verdeling met verwachtingswaarde \mu, en \overline X het steekproefgemiddelde.

Een (1-\alpha)-betrouwbaarheidsinterval voor \mu wordt gegeven door:

\frac{2n}{c_2}\,\overline X<\mu<\frac{2n}{c_1}\,\overline X ,

met c_1 en c_2 respectievelijk het \alpha/2- en het (1-\alpha/2)-fractiel van de \chi^2(2n)-verdeling.

Binomiale verdeling[bewerken]

Laat X binomiaal verdeeld zijn met parameters n en p, en \hat p=X/n een schatter van p.

Voor relatief grote n wordt een benaderend (1-\alpha)-betrouwbaarheidsinterval voor p gegeven door:

p=\hat p \pm z_{\alpha/2}\,\sqrt{\frac{\hat p(1-\hat p)}{n}},

met z_{\alpha/2} het (1-\alpha/2)-fractiel van de standaardnormale verdeling, dus \Phi(z_{\alpha/2})=1-\tfrac 12 \alpha.

Poissonverdeling[bewerken]

Laat X Poisson-verdeeld zijn met verwachtingswaarde \mu. Uit de relatie tussen de verdelingsfuncties van de Poissonverdeling en de chi-kwadraatverdeling kan het volgende (1-\alpha)-betrouwbaarheidsinterval voor \mu afgeleid worden:

\tfrac 12\chi^2(\tfrac 12\alpha, 2X) \le \mu \le \tfrac 12 \chi^2(1-\tfrac 12\alpha, 2X+2),

met \chi^2(p,m) het p-fractiel van de \chi^2(m)-verdeling.