Q-Q plot

Uit Wikipedia, de vrije encyclopedie
Naar navigatie springen Naar zoeken springen
Een Q–Q plot die een willekeurige gegenereerde, onafhankelijk standaardnormaal verdeelde dataset op de verticale as vergelijkt met een standaard normale verdeling op de horizontale as. De punten liggen rondom y=x, wat suggereert dat de data inderdaad standaardnormaal verdeeld is.

Een Q-Q plot (Afkorting uit het Engels: quantile-quantile plot) is een grafiek waarin twee continue of discrete kansverdelingen worden vergeleken in de beschrijvende statistiek. Deze methode is voor het eerst gebruikt in 1968 door M. B. Wilk en R. Gnanadesikan.[1] In een Q-Q plot worden de kwantielen van beide kansverdelingen tegen elkaar uitgezet; als beide datasets uit dezelfde verdeling komen, liggen de punten op de lijn .

Andere grafische methoden zoals een histogram of een boxplot zijn eenvoudiger interpreteerbaar dan een Q-Q plot, maar de vergelijking tussen twee verdelingen komt in een Q-Q plot beter uit de verf.

Definitie[bewerken]

Gegeven twee datasets en , niet noodzakelijk even groot, met bijbehorende empirische verdelingsfuncties en , en kwantielfuncties en . In een Q-Q plot wordt het q-de kwantiel van tegen het q-de kwantiel van getekend voor een aantal waarden van . Een Q-Q plot is dus een parametrische kromme .

Varianten[bewerken]

In een Q-Q plot worden twee datasets met elkaar vergeleken. Daar zijn de volgende mogelijkheden voor:[2]

  1. Data wordt vergeleken met een bekende kansverdeling. Er wordt grafisch getoetst of de data uit deze verdeling komt.
  2. Data uit twee verzamelingen wordt vergeleken om te kijken of ze uit dezelfde verdeling komen. Hiervoor moet de data op de lijn liggen. Welke verdeling dat is, valt niet te concluderen.
  3. Data uit twee verzamelingen wordt vergeleken om te kijken of ze lineair afhankelijk zijn. Hiervoor ligt de data op een lineaire lijn, maar niet per se op .

Voor- en nadelen[bewerken]

Ten opzichte van andere grafische methoden heeft de Q-Q plot een aantal voordelen.[3]

  • De te vergelijken datasets hoeven niet even groot te zijn.
  • Meerdere verschillen tussen de verdelingen kunnen tegelijk worden onderzocht, waaronder translatie, spreiding, symmetrie en het gedrag in de limieten.

Er zijn ook een aantal nadelen:

  • Bij het vergelijken van twee verschillende datasets is niet te concluderen welke verdeling ze uiteindelijk hebben.
  • De methode is grafisch, er is een maat nodig om met bijvoorbeeld hypothesetoetsen te concluderen of de hypothese juist is.

Methode in de praktijk[bewerken]

De meeste wiskundige programmeertalen bieden de mogelijkheid om Q-Q plots te tekenen, zoals R en Matlab.[4][5]

Met de hand kan ook een Q-Q plot getekend worden voor kleine datasets. Voor het vergelijken van twee datasets of deze uit dezelfde verdeling komen, moet de volgende procedure worden toegepast.

  1. Sorteer alle data (per dataset) van klein naar groot.
  2. Kies een aantal kwantielen die onderzocht worden (bijvoorbeeld 5%, 10%, 15%, ..., 95%).
  3. Bereken welke waarde van de data hoort bij deze kwantielen.
  4. Teken deze waarden in een Q-Q plot.
Q-Q plot bij voorbeeld 1.

Voorbeeld 1[bewerken]

Van een onbekend radioactief materiaal is bekend dat deze alleen alfastraling uitzendt. In een experiment is de halfwaardetijd van dit materiaal 50 keer bepaald. Men verwacht dat het materiaal Cesium-131 is met een halfwaardetijd van 9,7 dagen. Er wordt gekozen voor het maken van een Q-Q plot tussen de data en een Poissonverdeling met .

Er is duidelijk te zien dat de lijn verschoven is ten opzichte van de lijn . Er is dus een translatie zichtbaar, wat impliceert dat het onderzochte materiaal waarschijnlijk geen Cesium-131 is.

Voorbeeld 2[bewerken]

Q-Q plot bij voorbeeld 2.

Van 100 volwassen mannen en 95 volwassen vrouwen is het gewicht (in kg) bepaald. Op basis hiervan worden de 5%, 10%, 15%, enz. kwantielen berekend voor beide datasets. Er zijn nu voor beide 19 waardes beschikbaar, deze zijn weergegeven in onderstaande tabel.

kwantiel 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95
mannen 64,9 67,1 69,6 72,0 74,0 75,5 76,7 77,6 78,5 79,2 80,2 81,7 83,6 86,5 87,6 89,7 91,5 96,2 98,3
vrouwen 65,0 67,2 69,0 71,0 74,0 74,6 75,5 76,7 78,2 79,7 81,0 82,7 84,5 86,6 87,2 88,2 90,1 92,6 96,8

Uit de Q-Q plot zien we dat de datapunten rondom de lijn liggen. Zodoende is het gewicht van mannen en vrouwen waarschijnlijk gelijk verdeeld.

Referenties[bewerken]

  1. Wilk, M.B. (1968). Probability plotting methods for the analysis of data. Biometrika 55 (1): 1–17 (Biometrika Trust). PMID: 5661047. DOI: 10.1093/biomet/55.1.1.
  2. Thode, Henry C., [1], Marcel Dekker, Inc., Section 2.2.2, Quantile-Quantile Plots, 2002, p. 21.
  3. NIST/SEMATECH, e-Handbook of Statistical Methods. Geraadpleegd op 7 november 2018.
  4. Ford, Clay, Understanding Q-Q Plots (26 augustus 2015). Geraadpleegd op 14 november 2018.
  5. The Mathworks, Inc., Quantile-quantile plot. Geraadpleegd op 19 november 2018.