Simpsons paradox

Simpsons paradox (ook wel de Yule-Simpson-paradox) is een paradox uit de statistiek, genoemd naar de statisticus E.H. Simpson en G.U. Yule, die daar resp. in 1951 en 1903 over publiceerden. De paradox kan het beste gedemonstreerd worden met een voorbeeld.

Stel er zijn twee ziekenhuizen, een academisch (AZ) en een plaatselijk ziekenhuis (PZ). In beide worden operaties verricht. De meeste van deze operaties zijn succesvol (+), maar in sommige gevallen zijn er complicaties (–).

Simpsons paradox zegt nu dat het kan voorkomen dat als ziekenhuis AZ beter is in het uitvoeren van gemakkelijke operaties dan ziekenhuis PZ, en ziekenhuis AZ ook beter is dan ziekenhuis PZ bij moeilijke operaties, het toch kan voorkomen dat het lijkt dat ziekenhuis PZ beter is als gekeken wordt naar alle operaties.

In het volgende stukje staat dit cijfermatig uitgelegd. In de tabel staan de aantallen operaties van het vorige kalenderjaar uitgesplitst.

ziekenhuis	+	–	totaal
AZ	2110	90	2200
PZ	677	23	700
totaal	2787	113	2900

Men is nu geneigd te concluderen dat het PZ een betere score heeft dan het AZ, immers de fracties succes bedragen voor

{\text{AZ}}:\quad {\tfrac {2110}{2200}}=0{,}959

{\text{PZ}}:\quad {\tfrac {677}{700}}=0{,}967

Maar is die conclusie wel terecht? We maken nog een onderscheid tussen lichte (L) en zware (Z) operaties. Bekend is namelijk dat het AZ meer met zware, meer risicovolle operaties geconfronteerd wordt dan het PZ.

Voor de lichte operaties zijn de aantallen:

ziekenhuis	+	–	totaal
AZ	685	15	700
PZ	584	16	600
totaal	1269	31	1300

De fracties succes bedragen voor de lichte operaties dus voor:

{\text{AZ}}:\quad {\tfrac {685}{700}}=0{,}9786

{\text{PZ}}:\quad {\tfrac {584}{600}}=0{,}9733

Nu blijkt dat voor de lichte operaties het AZ beter scoort dan het PZ. Men zou nu denken dat voor de zware gevallen dat wel anders zal zijn.

Echter, voor de zware operaties zijn de aantallen:

ziekenhuis	+	–	totaal
AZ	1425	75	1500
PZ	93	7	100
totaal	1518	82	1600

De fracties succes bedragen voor de zware operaties dus voor:

{\text{AZ}}:\quad {\tfrac {1425}{1500}}=0{,}95

{\text{PZ}}:\quad {\tfrac {93}{100}}=0{,}93

Dus ook voor de zware operaties scoort het AZ beter.

Dit klinkt paradoxaal en de verklaring moet gezocht worden in wat boven al is aangegeven. Het AZ wordt meer met zware operaties geconfronteerd dan het PZ. De volgende tabel geeft de verdeling van de operaties over de beide ziekenhuizen:

ziekenhuis	zwaar	licht	totaal
AZ	1500	700	2200
PZ	100	600	700
totaal	1600	1300	2900

De fracties zware operaties bedragen voor:

{\text{AZ}}:\quad {\tfrac {1500}{2200}}=0{,}68

{\text{PZ}}:\quad {\tfrac {100}{700}}=0{,}14

Nu kan voor de successcores teruggerekend worden:

{\text{AZ}}:\quad {\tfrac {2110}{2200}}={\tfrac {1425}{1500}}\times {\tfrac {1500}{2200}}+{\tfrac {685}{700}}\times {\tfrac {700}{2200}}

{\text{PZ}}:\quad {\tfrac {677}{700}}={\tfrac {93}{100}}\times {\tfrac {100}{700}}+{\tfrac {584}{600}}\times {\tfrac {600}{700}}

anders geschreven:

{\text{AZ}}:\quad 0{,}959=0{,}95\times 0{,}6818+0{,}979\times (1-0{,}6818)

{\text{PZ}}:\quad 0{,}967=0{,}93\times 0{,}1429+0{,}973\times (1-0{,}1429)

Daaraan is te zien dat hoewel het AZ zowel voor de zware (0,950 tegen 0,930) als de lichte (0,979 tegen 0,973) operaties beter scoort dan het PZ, door het grotere aantal zware operaties (68%) bij het AZ de overall score (0,959) meer bepaald wordt door de lagere prestatie (0,95) voor de zware operaties en bij het PZ , waar veel minder zware operaties worden gedaan (14%) de overall score (0,967) vooral bepaald wordt door de prestatie (0,973) voor de lichte operaties.

Literatuur[bewerken | brontekst bewerken]

Simpson, E.H. (1951), "The Interpretation of Interaction in Contingency Tables," Journal of the Royal Statistical Society, Ser. B, 13, 238-241

Yule, G.U. (1903), "Notes on the theory of association of attributes in statistics," Biometrika, 2(2), 121-134