Percentiel

Uit Wikipedia, de vrije encyclopedie

In de statistiek is een percentiel van een geordende dataset een van de in principe 99 punten die de dataset in 100 delen van gelijke grootte verdelen. Het -de percentiel is dan een getal dat de % kleinste data van de % grootste scheidt. Het 95e percentiel is bijvoorbeeld een getal zodanig dat 95% van de data kleiner is of eraan gelijk en 5% groter of eraan gelijk. Veelal zal een percentiel een van de data zelf zijn, maar in sommige gevallen is het percentiel het gemiddelde van twee opeenvolgende data. Percentielen zijn op soortgelijke wijze ook gedefinieerd voor kansverdelingen.

Definitie[bewerken | brontekst bewerken]

Laat een reëel getal tussen 0 en 1 zijn.

Het -de percentiel van de dataset bestaande uit de getallen , is het getal dat voldoet aan:

  • ten minste van de getallen zijn niet groter dan
  • ten minste van de getallen zijn niet kleiner dan .

Het -de percentiel van de kansverdeling van de stochastische variabele is het getal dat voldoet aan:

en

Gerelateerde termen[bewerken | brontekst bewerken]

Percentielen zijn kwantielen die bij een percentage behoren. Percentielen verdelen een dataset in 100 ongeveer gelijke delen. Het 50e percentiel wordt ook de mediaan genoemd. Het 25e, 50e en 75e percentiel worden ook respectievelijk het 1e, 2e en 3e kwartiel genoemd. Decielen zijn de percentielen die bij de percentages 10, 20, ... , 90 behoren.

Berekening[bewerken | brontekst bewerken]

De bovenstaande definitie leidt niet in alle gevallen tot een eenduidige bepaling van de percentielen. Er worden verschillende berekeningswijzen gehanteerd. Hieronder worden tien verschillende methoden besproken. Een voorbeeld laat zien hoe divers de uitkomsten van de berekeningen kunnen zijn.

Dichtstbijzijnde rangnummer[bewerken | brontekst bewerken]

De geordende steekproef bestaat uit de van klein naar groot geordende data. Voor het -de percentiel neemt men het element in de dataset met het rangnummer dat "het dichtst" bij ligt, en wel, met :

Verschillende softwarepakketten: verschillende percentielen[bewerken | brontekst bewerken]

Hoewel de bovenstaande geijkte crf-definitie van het -de percentiel een eenduidig bepaalde waarde oplevert, blijken softwarepakketten en rekenmachines, afhankelijk van de specifieke dataset, verschillende waarden voor hetzelfde percentiel te geven. Een percentielcalculator kan op maar liefst acht verschillende methoden de percentielen berekenen.[1]

TI-83 en TI-84[bewerken | brontekst bewerken]

Iets van de problematiek van praktische percentielberekeningen ziet men bij de berekening van kwartielen door de rekenmachines TI-83 en TI-84, die veel in het middelbaar onderwijs worden gebruikt. Voor de dataset 1, 2, ... , 9 geven deze rekenmachines en , terwijl volgens de crf-definitie en . Datzelfde verschijnsel treedt op bij alle datasets met .

Dat probleem is op te lossen door in voorkomende gevallen de kwartielen te berekenen, waarbij de mediaan inclusief zowel tot de linkerhelft als de rechterhelft van de dataset wordt gerekend.

Het instructieboekje van de TI-83 vermeldt dat de mediaan is van de punten tussen en , en dat de mediaan is van de punten tussen en . Bij oneven wordt echter de mediaan niet meegerekend, noch in de linker-, noch in de rechterhelft. Wel worden de kleinste en de grootste waarde in de rij meegerekend. De relatie tussen de geijkte percentielen en en is zwak. Bij bijvoorbeeld de dataset 1, 2, ... , 11 vallen drie punten uit de dataset: 3, 6 en 9, die immers medianen van een oneven aantal getallen zijn. Daardoor ligt links van slechts 18,2% van de getallen en niet 25%. We zien dat door bepaalde keuzes percentielpunten, in dit geval kwartielen, anders berekend worden dan volgens de hierboven besproken geijkte crf-methode.

Referentiepunten[bewerken | brontekst bewerken]

In softwarepakketten worden diverse methoden gebruikt om percentielen van niet-geklasseerde data te berekenen. Dat er voor verschillende berekeningen wordt gekozen, heeft te maken met een eigenaardigheid van de crf-definitie. Alle -de percentielen, met zijn volgens deze definitie . Voor veel percentages vallen de percentielen dus samen met hetzelfde datapunt. Dat is een gevolg van het discrete karakter van een eindige dataset. Als de dataset een steekproef is uit een continue stochast en een percentiel van de dataset een schatting is van de percentiel van de populatie, dan is dat samenvallen van percentielen ongewenst. Dat is de reden dat percentielen vaak via lineaire interpolatie worden berekend. Feitelijk vervangt men dan de discontinue crf-grafiek door een continue polygoon. Men kan daarbij echter op verschillende manieren te werk gaan, waarbij verschillende methoden ook verschillende waarden voor hetzelfde percentiel kunnen opleveren.

Om verschillende methoden om percentielen te berekenen te kunnen onderscheiden, gebruiken we een referentiepunt, een getal, zoals , dat is afgeleid van en . We onderscheiden van het betreffende referentiepunt het gehele deel en de fractie , zodat .[1]

Methode A[bewerken | brontekst bewerken]

Bij deze methode is .

Submethode A1: , bovenstaande geijkte crf-methode

Submethode A2: , variant op geijkte crf-methode, zonder gemiddelde

Submethode A3: , gewogen gemiddelde

Methode B[bewerken | brontekst bewerken]

Bij deze methode is .

Submethode B1: [2]

Submethode B2: , gewogen gemiddelde

Submethode B3:

Methode C[bewerken | brontekst bewerken]

Bij deze methode is .

, dichtstbijzijnde datapunt, geen lineaire interpolatie

Het afronden van deze methode vindt op de gebruikelijke wijze plaats, maar om statistische vertekening te voorkomen, is 'afronden op even' hier aan te raden.

Methode D[bewerken | brontekst bewerken]

Bij deze methode is .

Methode E[bewerken | brontekst bewerken]

Bij deze methode is .

[2]

Voorbeeld[bewerken | brontekst bewerken]

Gegeven de volgende dataset van 13 geordende getallen:

Rangnummer 1 2 3 4 5 6 7 8 9 10 11 12 13
Data 1 2 3 5 8 13 21 34 35 45 58 66 77

Met behulp van de negen besproken methoden en de TI-83 berekenen we de drie kwartielen en het 40e percentiel:

Methode: A1 A2 A3 B1 B2 B3 C D E TI-83
5 5 3,5 4 4 4 3 5 5 4
13 13 9 11 10 13 8 12 12 -
21 21 17 21 21 21 21 21 21 21
45 45 42,5 51,5 51,5 51,5 45 45 45 51,5

We zien dat afhankelijk van de berekeningsmethode, voor bovenstaande dataset, het 40e percentiel kan variëren van 8 tot 13. Opmerkelijk is dat methode A3 een mediaan oplevert die niet het middelste datapunt is.

Microsoft Excel: Inclusieve en exclusieve percentielen[bewerken | brontekst bewerken]

De versie 2013 van Excel kent zowel methode B1 als methode E voor het berekenen van percentielpunten. Het verschil tussen de rangnummers van een exclusief berekende percentiel en een inclusief berekende percentiel is: . Het inclusief berekende percentiel ligt daardoor dichter bij de mediaan dan het exclusief berekende percentiel, maar het verschil neemt toe met de afstand tot de mediaan. Hoe groter deze afstand, des te meer ‘trekt’ de mediaan aan het percentiel.

Nemen we als voorbeeld het percentiel van de dataset in het voorbeeld. Het rangnummer van het eerste kwartiel volgens de exclusieve methode (B1) is 3,5 en het bijbehorende eerste kwartiel is dus 4. Het rangnummer van het eerste kwartiel volgens de inclusieve methode (E) is 4 en het bijbehorende eerste kwartiel is 5. De inclusieve kwartielen liggen een half rangnummer dichter bij de mediaan dan de exclusieve kwartielen.

Waarschuwing[bewerken | brontekst bewerken]

Zoals uit het bovenstaande blijkt berekenen softwarepakketten percentielen van niet over klassen verdeelde data met verschillende methoden. Men mag dus niet zeggen dat de percentielwaarde die een pakket produceert ‘het’ percentiel is. De gebruiker van het pakket dient zich bewust te zijn van de methode waarmee de berekening wordt uitgevoerd. Statistische software kan niet blindelings worden gebruikt.

Percentielen van continue toevalsvariabelen[bewerken | brontekst bewerken]

Als de kansdichtheid is van een continue toevalsvariabele en de bijbehorende verdelingsfunctie, dan kunnen we voor het e percentiel berekenen via de inverse van de verdelingsfunctie: . De oppervlakte onder de kansdichtheidsfunctie wordt verdeeld in een linkerdeel met oppervlakte en een rechterdeel met oppervlakte .

Statistische software en de grafische rekenmachines bevatten rekenroutines voor het berekenen van waarden van de inverse van de verdelingsfunctie van diverse continue stochasten en dus van het e percentiel.

Voorbeeld[bewerken | brontekst bewerken]

Het 40e percentiel van de standaardnormale verdeling is .

Percentielen van discrete toevalsvariabelen[bewerken | brontekst bewerken]

Bij het berekenen van percentielen van discrete toevalsvariabelen gaan we op dezelfde wijze te werk als bij het berekenen van percentielen van niet-gegroepeerde data. Als de verdelingsfunctie is van de discrete toevalsvariabele , volgt uit de definitie van percentiel voor niet-gegroepeerde data:

Als en twee opeenvolgende waarden zijn van , en , dan is . Als daarentegen , kan elk getal in het interval het percentiel zijn. Men zou in dat geval het percentiel gelijk kunnen kiezen aan het midden van het interval: .

Percentielen van gegroepeerde data[bewerken | brontekst bewerken]

Zijn de data verdeeld over klassen , is de frequentie van de -de klasse, zijn en de cumulatieve frequenties op de linker-, respectievelijk rechtergrens van de -de klasse, en is , dan kunnen we het -de percentiel berekenen door toepassing van lineaire interpolatie:

Voorbeeld[bewerken | brontekst bewerken]

Zeven studenten beoordelen hun leraar op een schaal van 1 tot en met 5. Als de scores 3, 3, 3, 3, 4, 4, 4 zijn, dan is de mediaan van de niet-gegroepeerde data 3. Als de scores 3, 3, 3, 4, 4, 4, 4 zijn, dan is de mediaan van de niet-gegroepeerde data 4. Men kan zich afvragen of het verschil tussen deze twee medianen wel realistisch is. Als men daarentegen de scores over twee klassen verdeelt, vindt men de medianen 3,375 en 3,675. Gezien de twee rijen scores lijken dit ‘eerlijker’ medianen.

Men ziet ook hier dat de keuze voor een specifieke methode bepalend is voor het verkregen antwoord.