Percentiel

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

In de statistiek is een percentiel van een dataset een van de in principe 99 punten die de geordende dataset in 100 delen van gelijke grootte verdelen. Het k-de percentiel is dan een getal dat de k% kleinere data van de (100−k)% grotere scheidt. Het 95e percentiel is bijvoorbeeld een getal zodanig dat 95% van de data kleiner is of eraan gelijk en 5% groter of eraan gelijk. Veelal zal een percentiel een van de data zelf zijn, maar in sommige gevallen is het percentiel het gemiddelde van twee opeenvolgende data. Percentielen zijn op soortgelijke wijze ook gedefinieerd voor kansverdelingen.

Definitie[bewerken]

Laat p een reëel getal tussen 0 en 1 zijn.

Het 100p-de percentiel van de dataset bestaande uit de n getallen x1,...,xn, is het getal xp dat voldoet aan:

  • ten minste pn van de n getallen zijn niet groter dan xp
  • ten minste (1−p)n van de n getallen zijn niet kleiner dan xp.

Het 100p-de percentiel van de kansverdeling van de stochastische variabele X is het getal xp dat voldoet aan:

  • P(X\le x_p)\ge p;
  • P(X\ge x_p)\ge 1-p.

Gerelateerde termen[bewerken]

Percentielen zijn kwantielen die bij een percentage behoren. Percentielen verdelen een dataset in 100 ongeveer gelijke delen. Het 50e percentiel wordt ook de mediaan genoemd. Het 25e, 50e en 75e percentiel worden ook respectievelijk het 1e, 2e en 3e kwartiel genoemd. Decielen zijn de percentielen die bij de percentages 10, 20, ... , 90 behoren.

Berekening[bewerken]

De bovenstaande definitie leidt niet in alle gevallen tot een eenduidige bepaling van de percentielen. Er worden verschillende berekeningswijzen gehanteerd. Hieronder worden tien verschillende methoden besproken. Een voorbeeld laat zien hoe divers de uitkomsten van de berekeningen kunnen zijn.

Dichtstbijzijnde rangnummer[bewerken]

De geordende steekproef x_{(1)}\le x_{(2)}\le \ldots \le x_{(n)} bestaat uit de van klein naar groot geordende n data. Voor het 100p-de percentiel neemt men het element in de dataset met het rangnummer dat "het dichtst" bij pn ligt, en wel, met k=\lceil pn \rceil:

x_p=x_{(k)}.

Verschillende softwarepakketten: verschillende percentielen[bewerken]

Hoewel de bovenstaande geijkte crf-definitie van het pe percentiel een eenduidig bepaalde waarde oplevert, blijken softwarepakketten en rekenmachines, afhankelijk van de specifieke dataset, verschillende waarden voor hetzelfde percentiel te geven. De percentielcalculator op de website (1) biedt maar liefst acht verschillende methoden voor het berekenen van percentielen.

TI-83 en TI-84: Exclusief de mediaan[bewerken]

Iets van de problematiek van praktische percentielberekeningen zien we bij de berekening van kwartielen door de TI-83 en TI-84 rekenmachines, die veel in het middelbaar onderwijs worden gebruikt. Voor de dataset 1, 2, … , 9 geven deze rekenmachines Q1 = 2,5 en Q3 = 7,5, terwijl volgens de crf-definitie x0,25 = 3 en x0,75 = 7. Datzelfde verschijnsel treedt op bij alle datasets met n = 4i + 1. Dat probleem is op te lossen door in voorkomende gevallen de kwartielen te berekenen, waarbij de mediaan inclusief zowel tot de linkerhelft als de rechterhelft van de dataset wordt gerekend.

Het instructieboekje van de TI-83 vermeldt dat Q1 de mediaan is van de punten tussen Xmin en Med, en dat Q3 de mediaan is van de punten tussen Med en Xmax. Bij oneven n wordt echter de mediaan niet meegerekend, noch in de linker-, noch in de rechterhelft. Wel worden de kleinste en de grootste waarde in de rij meegerekend. De relatie tussen de geijkte percentielen en Q1 en Q3 is zwak. Bij bijvoorbeeld de dataset 1, 2, … , 11 vallen drie punten uit de dataset: 3, 6 en 9, die immers medianen van een oneven aantal getallen zijn. Daardoor ligt links van Q1 slechts 18,2% van de getallen en niet 25%. We zien dat door bepaalde keuzes percentielpunten (in dit geval kwartielen) anders berekend worden dan volgens de hierboven besproken geijkte crf-methode.

Referentiepunten[bewerken]

In softwarepakketten worden diverse methoden gebruikt om percentielen van niet-geklasseerde data te berekenen. Dat er voor verschillende berekeningen wordt gekozen, heeft te maken met een eigenaardigheid van de crf-definitie. Alle pe percentielen, met \frac{k}{n}<p<\frac{k+1}{n} zijn volgens deze definitie {{x}_{p}}={{x}_{k+1}}. Voor veel percentages p vallen de percentielen dus samen met hetzelfde datapunt. Dat is een gevolg van het discrete karakter van een eindige dataset. Als de dataset een steekproef is uit een continue stochast en een percentiel van de dataset een schatting is van de percentiel van de populatie, dan is dat samenvallen van percentielen ongewenst. Dat is de reden dat percentielen vaak via lineaire interpolatie worden berekend. Feitelijk vervangt men dan de discontinue crf-grafiek door een continue polygoon. Men kan daarbij echter op verschillende manieren te werk gaan, waarbij verschillende methoden ook verschillende waarden voor hetzelfde percentiel kunnen opleveren.

Om verschillende methoden om percentielen te berekenen te kunnen onderscheiden, gebruiken we een referentiepunt, een getal, zoals np, dat is afgeleid van p en n. We onderscheiden van het betreffende referentiepunt het gehele deel k en de fractie f, zodat referentiepunt = k + f. Zie ook websites (1) en (2).

Methode A: np = k + f[bewerken]

Submethode A1: \left\{ \begin{matrix}
   f=0\to {{x}_{p}}=\tfrac{1}{2}({{x}_{k}}+{{x}_{k+1}})  \\
   f>0\to {{x}_{p}}={{x}_{k+1}}  \\
\end{matrix} \right. (bovenstaande geijkte crf-methode)

Submethode A2: \left\{ \begin{matrix}
   f=0\to {{x}_{p}}={{x}_{k}}  \\
   f>0\to {{x}_{p}}={{x}_{k+1}}  \\
\end{matrix} \right. (variant op geijkte crf-methode, zonder gemiddelde)

Submethode A3: {{x}_{p}}=(1-f)\cdot {{x}_{k}}+f\cdot {{x}_{k+1}} (gewogen gemiddelde)

Methode B: (n + 1)p = k + f[bewerken]

Submethode B1: {{x}_{p}}=(1-f)\cdot {{x}_{k}}+f\cdot {{x}_{k+1}} (PERCENTIEL.EXC in Microsoft Excel 2013)

Submethode B2: \left\{ \begin{matrix}
   f=0\to {{x}_{p}}={{x}_{k}})  \\
   f>0\to {{x}_{p}}=f\cdot {{x}_{k}}+(1-f)\cdot {{x}_{k+1}}  \\
\end{matrix} \right.(gewogen gemiddelde)

Submethode B3: \left\{ \begin{matrix}
   f=0\to {{x}_{p}}={{x}_{k}}  \\
   0<f<0,5\to {{x}_{p}}={{x}_{k}}  \\
   f=0,5\to {{x}_{p}}=\frac{1}{2}({{x}_{k}}+{{x}_{k+1}})  \\
   0,5<f<1\to {{x}_{p}}={{x}_{k+1}}  \\
\end{matrix} \right. (Excel 2007 en oudere versies)

Methode C: np + ½ = k + f[bewerken]

np+\tfrac{1}{2}=k+f\to {{x}_{p}}={{x}_{k}} (dichtstbijzijnde datapunt, geen lineaire interpolatie)

Het afronden van deze methode vindt op de gebruikelijke wijze plaats, maar om statistische vertekening te voorkomen, is afronden op even hier aan te raden.

Methode D: (n – 1)p = k + f[bewerken]

\left\{ \begin{matrix}
   f=0\to {{x}_{p}}={{x}_{k+1}}  \\
   f>0\to {{x}_{p}}={{x}_{k+1}}+f\cdot ({{x}_{k+2}}-{{x}_{k+1}})  \\
\end{matrix} \right.

Methode E: (n – 1)p + 1= k + f[bewerken]

{{x}_{p}}=(1-f)\cdot {{x}_{k}}+f\cdot {{x}_{k+1}} (PERCENTIEL.INC in Microsoft Excel 2013)

Voorbeeld[bewerken]

Gegeven de volgende dataset van 13 geordende getallen:

Rangnummer 1 2 3 4 5 6 7 8 9 10 11 12 13
Data 1 2 3 5 8 13 21 34 35 45 58 66 77

Met behulp van de negen besproken methoden en de TI-83 berekenen we de drie kwartielen en het 40e percentiel:

Methode: A1 A2 A3 B1 B2 B3 C D E TI-83
x25% 5 5 3,5 4 4 4 3 5 5 4
x40% 13 13 9 11 10 13 8 12 12 -
x50% 21 21 17 21 21 21 21 21 21 21
x75% 45 45 42,5 51,5 51,5 51,5 45 45 45 51,5

We zien dat afhankelijk van de berekeningsmethode, voor bovenstaande dataset, het 40e percentiel kan variëren van 8 tot 13. Opmerkelijk is dat methode A3 een mediaan oplevert die niet het middelste datapunt is.

Microsoft Excel: Inclusieve en exclusieve percentielen[bewerken]

De versie 2013 van Excel kent zowel methode B1 als methode E voor het berekenen van percentielpunten. Het verschil tussen de rangnummers van een exclusief berekende percentiel en een inclusief berekende percentiel is: #EXC#INC = 2p -1. Het inclusief berekende percentiel ligt daardoor dichter bij de mediaan dan het exclusief berekende percentiel, maar het verschil neemt toe met de afstand tot de mediaan. Hoe groter deze afstand, des te meer ‘trekt’ de mediaan aan het percentiel.

Nemen we als voorbeeld het percentiel x25% van de dataset in het voorbeeld. Het rangnummer van het 1e kwartiel volgens de exclusieve methode (B1) is 3,5 en het bijbehorende 1e kwartiel is dus 4. Het rangnummer van het 1e kwartiel volgens de inclusieve methode (E) is 4 en het bijbehorende 1e kwartiel is 5. De inclusieve kwartielen liggen een half rangnummer dichter bij de mediaan dan de exclusieve kwartielen.

Waarschuwing[bewerken]

Zoals uit het bovenstaande blijkt berekenen softwarepakketten percentielen van niet over klassen verdeelde data met verschillende methoden. Men mag dus niet zeggen dat de percentielwaarde die een pakket produceert ‘het’ percentiel is. De gebruiker van het pakket dient zich bewust te zijn van de methode waarmee de berekening wordt uitgevoerd. Statistische software kan niet blindelings worden gebruikt.

Percentielen van continue stochasten[bewerken]

Als f(x) de kansdichtheidsfunctie is van een continue stochast X en F(x) de bijbehorende verdelingsfunctie, dan kunnen we voor 0<p<1 het pe percentiel xp berekenen via de inverse van de verdelingsfunctie: F({{x}_{p}})=\int\limits_{-\infty }^{{{x}_{p}}}{f(u)du}=p\to {{x}_{p}}={{F}^{inv}}(p). De oppervlakte onder de kansdichtheidsfunctie wordt verdeeld in een linkerdeel met oppervlakte p en een rechterdeel met oppervlakte 1 – p.

Statistische software en de grafische rekenmachines bevatten rekenroutines voor het berekenen van waarden van de inverse van de verdelingsfunctie van diverse continue stochasten en dus van het pe percentiel.

Voorbeeld[bewerken]

Het 40e percentiel van de standaard normale verdeling N(0,1) is x0,40 = x40% =-0,2533.

Percentielen van discrete stochasten[bewerken]

Bij het berekenen van percentielen van discrete stochasten gaan we op dezelfde wijze te werk als bij het berekenen van percentielen van niet-gegroepeerde data. Als F(x) de verdelingsfunctie is van de discrete stochast X, dan volgt uit de definitie van percentiel voor niet-gegroepeerde data: \left\{ \begin{matrix}
   P(X\le {{x}_{p}})\ge p\to F({{x}_{p}}+0)\ge p  \\
   P(X\ge {{x}_{p}})\ge 1-p\to P(X<{{x}_{p}})\le p\to F({{x}_{p}}-0)\le p  \\
\end{matrix} \right.

Als xk en xk+1 twee opeenvolgende waarden zijn van X, en als F({{x}_{k}})<p<F({{x}_{k+1}}) dan is xp = xk+1. Als daarentegen p=F({{x}_{p}}) dan kan elk getal in het interval [xk,xk+1] het percentiel xp zijn. Men zou in dat geval het percentiel gelijk kunnen kiezen aan het midden van het interval: {{x}_{p}}=\frac{1}{2}({{x}_{k}}+{{x}_{k+1}}).

Percentielen van gegroepeerde data[bewerken]

Zijn de n datawaarden verdeeld over m klassen [{{x}_{k}},{{x}_{k+1}}), is fk de frequentie van de ke klasse, zijn {{F}_{k}}=F({{x}_{k}}-0) en {{F}_{k+1}}=F({{x}_{k+1}}-0) de cumulatieve frequenties op de linker-, respectievelijk rechtergrens van de ke klasse, is {{F}_{k}}\le np<{{F}_{k+1}}, dan kunnen we het pe percentiel berekenen door toepassing van lineaire interpolatie: {{x}_{p}}={{x}_{k}}+\frac{1}{{{f}_{k}}}({{x}_{k+1}}-{{x}_{k}})(pn-{{F}_{k}})

Voorbeeld[bewerken]

Dit is een voorbeeld dat men kan vinden op website (2). Zeven studenten beoordelen hun leraar op een schaal van 1 tot en met 5. Als de scores 3, 3, 3, 3, 4, 4, 4 zijn, dan is de mediaan van de niet-gegroepeerde data 3; als de scores 3, 3, 3, 4, 4, 4, 4 zijn, dan is de mediaan van de niet-gegroepeerde data 4. Men kan zich afvragen of het verschil tussen deze twee medianen wel realistisch is. Als we daarentegen de scores over twee klassen verdelen vinden we de medianen 3,375 en 3,675. Gezien de twee rijen scores lijken dit ‘eerlijker’ medianen.

Ook hier zien we dat onze keuze voor een specifieke methode bepalend is voor het antwoord dat we krijgen.

Externe Links[bewerken]

1. http://www.wessa.net/rwasp_percentiles.wasp#output

2. http://www.amstat.org/publications/jse/v14n3/langford.html

       (Langford, E, Quartiles in Elementary Statistics, Journal of Statistics Education Volume 14, Number 3 (2006)