p-waarde

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

De p-waarde of overschrijdingskans (van een gegeven steekproefuitkomst) is de kans dat in de verdeling gegeven door de nulhypothese de waarde van de toetsingsgrootheid wordt behaald of overschreden (links, rechts dan wel tweezijdig). De p-waarde is dus gebaseerd op de specifieke steekproefuitkomst.

De p-waarde geeft aan hoe extreem de gevonden waarde voor de toetsingsgrootheid in de verdeling onder de nulhypothese is. Hoe kleiner de p-waarde, hoe extremer de uitkomst. In de praktijk worden waarden van 5% en 1% aangehouden als grens; is de p-waarde kleiner, dan spreekt men van een significante, resp. sterk significante uitkomst.

De p-waarde vat als het ware de bewijskracht van de steekproefuitkomst in gestandaardiseerde vorm samen. Als T de toetsingsgrootheid is en de steekproef daarvoor de waarde t oplevert, is:

de linker overschrijdingskans:

de rechter overschrijdingskans:

en de tweezijdige overschrijdingskans:

De p-waarde is alleen geschikt om een nulhypothese te toetsen tegen een alternatieve hypothese en doet geen uitspraak over de waarschijnlijkheid van de nulhypothese of alternatieve hypothese.

Statistische toetsen die gebruikmaken van p-waarden, komt men veel tegen in wetenschap, met name sociale wetenschappen, medische wetenschappen en economie.

Voorbeeld[bewerken]

Iemand heeft het vermoeden dat een dobbelsteen minder vaak zes gooit dan 1 op de 6 keer. Hij heeft 180 keer met de dobbelsteen gegooid en daarbij kwam 20 keer zes boven. Het aantal keren zes is de toetsingsgrootheid T. De nulhypothese is dat de kans op zes gewoon 1/6 is. Onder de nulhypothese is T binomiaal verdeeld met parameters n = 180 en succeskans 1/6. De nulhypothese wordt verworpen wanneer voor T een te kleine waarde wordt gevonden; de p-waarde is dus (linkseenzijdig):

.

Deze kans kan berekend worden door een normale benadering van de binomiale verdeling. Onder de nulhypothese kan T als normaal verdeeld beschouwd worden met verwachting 30 en standaardafwijking

Dan volgt, met Z N(0,1)-verdeeld:

.

Als de vooropgestelde grenswaarde op 5% gezet is, is de gevonden waarde van 2,3% kleiner dan het significantieniveau en dus reden om aan de zuiverheid van de dobbelsteen te twijfelen.

In verband met de hierna volgende kritiek op de p-waarde is het van belang zich te realiseren dat de p-waarde ook afhankelijk is van het aantal worpen. Bij 90 worpen met de dobbelsteen is de p-waarde van 10 keer 6, ondanks dezelfde verhouding (10/90 = 20/180), gelijk aan 9,72%, dus groter dan 5%, en dus niet significant.


Kritiek op het gebruik van p-waarden[bewerken]

Er wordt recentelijk veel kritiek geleverd op het gebruik van p-waarden in wetenschappelijke publicaties die relevante verbanden aan zouden tonen. Bij een bepaalde set waarnemingen kunnen veel hypothesen geformuleerd worden die vervolgens getoetst worden. Het jagen op een vraag die een significant resultaat oplevert noemt men wel "p-hacking" en leidt vaak tot foute conclusies.[1] Dit ligt besloten in de betekenis van de p-waarde. Een p-waarde van bijvoorbeeld 5% voor een steekproefresultaat, betekent dat in 1 op de 20 steekproeven de conclusie dat het veronderstelde effect daadwerkelijk aanwezig is, niet correct is. Door op p-waardes te jagen, worden vaak resultaten gevonden die niet herhaalbaar blijken. [2]

Significant = interessant[bewerken]

In de Proceedings of the Society for Psychical Research van 1929 wijst Ronald Aylmer Fisher, de bedenker van de hypothesestoets, al op het frequente foutieve gebruik van zijn hypothesetoets. [3]

Een grote p-waarde kan op van alles duiden: misschien is de steekproefgrootte te klein gekozen (zie het voorbeeld hierboven), misschien is de nulhypothese onjuist, misschien is het statistisch effect zo klein dat we het niet hebben waargenomen, enzovoorts.

Een grote p-waarde betekent uitsluitend dat we een waarde van de toetsingsgrootheid hebben gevonden in het niet-kritieke gebied. Deze benaming lijkt beter dan het gebruikelijk “acceptatiegebied”, omdat het woord “acceptatie” te sterk duidt op een conclusie die men echter niet mag trekken. Een grote p-waarde betekent niet dat we zonder meer mogen concluderen dat de nulhypothese juist is. Het enige dat we kunnen concluderen is dat we geen resultaat hebben gevonden dat doet twijfelen aan de juistheid van de nulhypothese.

Maar wat zegt een kleine p-waarde? Fisher waarschuwt: “The test of significance only tells him (de onderzoeker) what to ignore, namely all experiments in which significant results are not obtained. He should only claim that a phenomenon is experimentally demonstrable when he knows how to design an experiment so that it will rarely fail to give a significant result. Consequently, isolated significant results which he does not know how to reproduce are left in suspense pending further investigation.”

Dus, volgens Fisher is een significantietoets alleen zinvol binnen de context van een serie experimenten. Eén significant resultaat zegt niet veel; het zou zomaar het resultaat van toeval kunnen zijn. In dit verband wijst de historicus van de statistiek Salsburg nog op een betekenisverschuiving van het woord “significant”: dat betekende eind 19e eeuw zoiets als “duidt op iets”, maar is in de 20e eeuw langzamerhand “is belangrijk” geworden. Fisher gebruikte significant in de 19e eeuwse betekenis.

Een waarde van de toetsingsgrootheid in het kritieke gebied, en dus een kleine p-waarde, duidt volgens Fisher mogelijk op iets interessants. Nader onderzoek, met meer experimenten, is gewenst.

Helaas veroorzaakt het veelvuldig gebruikte woord “rejectiegebied” voor het kritieke gebied dat men vaak meent dat een waarde van de toetsingsgrootheid in het kritieke gebied (kleine p-waarde) het verwerpen van de nulhypothese inhoudt. De toetsingsprocedure gaat echter uit van de juistheid van de nulhypothese, en die sluit kleine p-waarden niet uit. Een kleine p-waarde is dus pertinent geen bewijs voor de onjuistheid van de nulhypothese; één kleine p-waarde is interessant, meer ook niet.

Foute interpretaties van de p-waarde[bewerken]

We gaan voor het gemak uit van het veel gebruikte significantieniveau van 5%. We veronderstellen dat we een p-waarde van 4% hebben gevonden. Voorbeelden van FOUTE interpretaties zijn:

Die 4% bewijst dat de nulhypothese onjuist is.

Die 4% duidt erop dat de nulhypothese moet worden verworpen.

De kans dat de nulhypothese juist is, is slechts 4%. (De nulhypothese is juist, of onjuist)

De kans dat een alternatieve hypothese juist is, is minimaal 96%.