Kwartet van Anscombe

Uit Wikipedia, de vrije encyclopedie
Het kwartet van Anscombe

Het kwartet van Anscombe bestaat uit vier datasets die dezelfde statistische eigenschappen hebben, maar die toch heel verschillend zijn, wat blijkt als ze grafisch worden weergegeven. Elke dataset bestaat uit 11 punten in het platte vlak, bestaande uit het paar variabelen . De statisticus Francis Anscombe stelde dit kwartet op om het belang van grafische data-analyse aan te tonen en het effect van uitbijters voordat men op grond van de kenmerkende eigenschappen tot een bepaalde statistische analyse besluit. De datasets laten zien dat de eenvoudige statistische kenmerken niet altijd voldoende zijn om de data te beschrijven.

Voor alle datasets geldt:

Eigenschap Waarde
Gemiddelde van elke variabele 9
Variantie van elke variabele 11
Gemiddelde van elke variabele 7,50
Variantie van elke variabele 4,125 ± 0,003
Correlatie tussen elke en variabele 0,816
Lineaire regressielijn
Determinatiecoëfficiënt van de lineaire regressielijn  : 0,67

De vier datasets zijn:

Kwartet van Anscombe
I II III IV
x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89
  1. Het eerste spreidingsdiagram (linksboven) vertoont een eenvoudige lineaire samenhang met spreiding; de beide variabelen zouden normaal verdeeld kunnen zijn.
  2. Het tweede spreidingsdiagram (rechtsboven) laat zeker geen normale verdeling zien. Er is een duidelijke samenhang tussen de beide variabelen, maar die is niet lineair. Aan de voorwaarden voor het berekenen van Pearsons product-momentcorrelatiecoëfficiënt is niet voldaan.
  3. Het derde spreidingsdiagram (linksonder) toont een sterke lineaire samenhang met een ernstige uitbijter, waardoor de correlatiecoëfficiënt van praktisch 1 gedaald is tot 0,816.
  4. Het vierde spreidingsdiagram (rechtsonder) toont ook een uitbijter, die hier tot een grote correlatiecoëfficiënt leidt, maar verder is de eerste variabele constant.