Boxplot

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken
Boxplot van data van het Michelson-Morley-experiment

In de beschrijvende statistiek is een boxplot (of snorredoos, of doosdiagram) een grafische weergave van de vijf-getallensamenvatting. Deze vijf-getallensamenvatting bestaat uit het minimum, het eerste kwartiel, de mediaan (of tweede kwartiel), het derde kwartiel en het maximum van de waargenomen data. Een boxplot is daarmee een weliswaar sterk vereenvoudigde, maar zeer bruikbare, voorstelling van de verdeling van de data. De boxplot is in 1977 geïntroduceerd door de wiskundige John Tukey.

Schema van een boxplot[bewerken]

Schema van een boxplot

Vaak worden in een boxplot eventuele uitschieters weergegeven en soms ook het rekenkundig gemiddelde.

Constructie[bewerken]

  • Bepaal de vijf-getallensamenvatting.
  • Bereken de interkwartielafstand IKA (Engels: IQR)
  • Teken boven een horizontale of naast een verticale getallenrechte een doos begrensd door het eerste en derde kwartiel. De hoogte van de doos is willekeurig, maar wordt zo gekozen dat de doos er redelijk uitziet.
  • Deel de doos in tweeën door een lijn bij de mediaan.
  • Geef eventueel de plaats van het gemiddelde aan door een + of een stip.
  • Data die meer dan 1,5xIKA van de einden van de doos verwijderd liggen, worden als uitschieters beschouwd.
  • Geef de kleinste en grootste data die niet als uitschieter beschouwd worden, aan door een streepje en verbind dit door een lijn met de box.

Voorbeeld[bewerken]

Het voorbeeld toont een eenvoudige tekstversie van een boxplot.

                            +-----+-+
  x           o     |-------|   * | |---|
                            +-----+-+
                                         
+---+---+---+---+---+---+---+---+---+---+---+--   Getallenrechte
0   1   2   3   4   5   6   7   8   9  10   11

Uit deze boxplot lezen we (bij benadering) af:

  • kleinste waarneming (minimum of min) = 0,5
  • eerste kwartiel (Q1) = 7
  • tweede kwartiel (Q2) of mediaan (Med) = 8,5
  • derde kwartiel (Q3) = 9
  • grootste waarneming (maximum of max) = 10
  • gemiddelde = 8
  • interkwartielafstand, IKA = Q3-Q1 = 2
  • de waarde 3,5 is een "zwakke" uitschieter omdat hij tussen 1,5×IKA and 3×IKA onder Q1 ligt
  • de waarde 0,5 is een "extreme" uitschieter omdat hij meer dan 3×IKA onder Q1 ligt
  • de kleinste waarde die geen uitschieter is, is 5
  • de data zijn scheef naar links (negatief scheef) verdeeld

De horizontale lijnen (de "whiskers") strekken zich uit van de onder- resp. bovengrens van de box tot maximaal 1,5 keer de breedte van de box (de interkwartielafstand). De whiskers eindigen in een waargenomen waarde. Een afstand van drie keer de boxbreedte (= 3xIKA) vanaf de box is de grens tussen zwakke en extreme uitschieters.

Er zijn echter alternatieve implementaties van dit laatste detail van een boxplot. Zo kiezen verschillende softwarepakketten ervoor om de whiskers te verlengen tot het 5e en 95ste percentiel. Deze benaderingen stroken niet met John Tukeys definitie die de nadruk legt op de mediaan. Ervoor kiezen om de lengte vast te leggen op het 5e en 95ste percentiel, brengt met zich mee dat er in iedere dataset met meer dan 10 waarden uitschieters zullen voorkomen, ongeacht de vorm van de verdeling. Daarom wordt meestal standaard John Tukeys methode, zoals hierboven beschreven, gebruikt.