Kwartet van Anscombe

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken
Het kwartet van Anscombe

Het kwartet van Anscombe bestaat uit vier datasets die dezelfde statistische eigenschappen hebben, maar die toch heel verschillend zijn, wat blijkt als ze grafisch worden weergegeven. Elke dataset bestaat uit 11 punten in het platte vlak, bestaande uit het paar variabelen (x,y). De statisticus Francis Anscombe stelde dit kwartet op om het belang van grafische data-analyse aan te tonen en het effect van uitbijters voordat men op grond van de kenmerkende eigenschappen tot een bepaalde statistische analyse besluit. De datasets laten zien dat de eenvoudige statistische kenmerken niet altijd voldoende zijn om de data te beschrijven.

Voor alle datasets geldt:

Eigenschap Waarde
Gemiddelde van elke x variabele 9,0
Variantie van elke x variabele 10,0
Gemiddelde van elke y variabele 7,5
Variantie van elke y variabele 3,75
Correlatie tussen elke x en y variabele 0,816
Lineaire regressielijn y=3 + 0{,}5 x

De vier datasets zijn:

Anscombe's Quartet
I II III IV
x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89
  1. Het eerste spreidingsdiagram (linksboven) vertoont een eenvoudige lineaire samenhang met spreiding; de beide variabelen zouden normaal verdeeld kunnen zijn.
  2. Het tweede spreidingsdiagram (rechtsboven) laat zeker geen normale verdeling zien. Er is een duidelijke samenhang tussen de beide variabelen, maar die is niet lineair. Aan de voorwaarden voor het berekenen van de Pearsons product-momentcorrelatiecoëfficiënt is niet voldaan.
  3. Het derde spreidingsdiagram (linksonder) toont een sterke lineaire samenhang met een ernstige uitbijter, waardoor de correlatiecoëfficiënt van praktisch 1 gedaald is tot 0,816.
  4. Het vierde spreidingsdiagram (rechtsonder) toont ook een uitbijter, die hier tot een grote correlatiecoëfficiënt leidt, hoewel tussen de variabelen verder weinig lineaire samenhang lijkt te bestaan.