Correlatiecoëfficiënt

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

Een correlatiecoëfficiënt is een maat voor de correlatie tussen twee stochastische grootheden (of stochastische variabelen).

Men spreekt van correlatie als er tussen de beide grootheden een zekere lineaire samenhang is, in die zin dat waarden van de beide grootheden dezelfde of een tegengestelde tendens vertonen. Zo is er sprake van correlatie tussen de grootheden lengte en gewicht bij (volwassen) mensen. Met toenemende lengte neemt gemiddeld gezien ook het gewicht toe.

Correlatie kan, maar hoeft niet op een causaal verband te duiden. Zo is er correlatie tussen sociale klasse en inkomen, berustend op de genoten opleiding. Ook is er de zogenaamde nonsenscorrelatie, zoals tussen de schade bij een brand en het aantal ingezette brandweerlieden.

Afhankelijk van de soort grootheden zijn er verschillende correlatiecoëfficiënten om de correlatie te meten. Ook dient weer goed onderscheid gemaakt te worden tussen populatie en steekproef.

Pearsons product-momentcorrelatiecoëfficiënt[bewerken]

De meestgebruikte correlatiecoëfficiënt is die van Karl Pearson. Als beide grootheden, X en Y, op intervalschaal of ratioschaal zijn gemeten, wordt hun correlatie uitgedrukt in de (gewone) correlatiecoëfficiënt ρ, gedefinieerd door:

\rho(X,Y) = \frac{\mathrm{cov}(X,Y)}{\sigma(X)\sigma(Y)};

daarin is

\mathrm{cov}(X,Y) = E\left[(X-E(X))(Y-E(Y))\right]\!

de covariantie van X en Y, en zijn

\sigma(X)\! en \sigma(Y)\!

resp. de standaardafwijkingen van X en Y.

Deze correlatiecoëfficiënt is een maat voor de sterkte van de lineaire samenhang tussen X en Y. De waarde kan variëren van -1 tot 1. Een correlatiecoëfficiënt van +1 of -1 betekent dat er een lineair verband is tussen de beide stochastische variabelen, wat wil zeggen dat de ene variabele volledig uit de andere is te herleiden via een lineaire relatie. Een correlatiecoëfficiënt van 0 wil zeggen dat er totaal geen lineaire samenhang is. Er kan echter wel een kwadratisch of ander verband zijn.

Uit een steekproef wordt een schatting van de correlatiecoëfficiënt ρ verkregen door de Pearson correlatiecoëfficiënt, ook wel aangeduid als Pearsons r of uitgebreider als Pearsons product-momentcorrelatiecoëfficiënt, gedefinieerd door:

r = \frac{\sum_i(x_i-\bar x)(y_i-\bar y)/(n-1)}{s(x)s(y)}.

De correlatiecoëfficiënt wordt geschat door afzonderlijk de covariantie en de beide standaardafwijkingen te schatten. Als schatter voor de covariantie wordt de momentschatter

\frac 1{n-1}\sum_i(x_i-\bar x)(y_i-\bar y)

gebruikt, waarin \bar x en \bar y de steekproefgemiddelden in de twee steekproeven zijn. De standaardafwijkingen worden geschat door de standaardafwijkingen s(x) en s(y) in de steekproeven.

Overige correlatiecoëfficiënten[bewerken]

Wanneer er wel een verband verwacht wordt, maar men geen lineariteit kan/wil aannemen, kan men een rangcorrelatiecoëfficiënt gebruiken. Deze is dus ook geschikt voor grootheden op ordinale schaal. De meest voorkomende rangcorrelatiecoëfficiënten zijn Spearmans rho (geïntroduceerd door Charles Spearman in 1904) en Kendalls tau (geïntroduceerd door Maurice Kendall in 1938).

Spearmans rho (r_{S}) is normaal gesproken te berekenen via de formule

r_{S} = 1-\frac{6\Sigma d^2_{i}}{n^3-n}

(d_{i} staat voor het verschil in rangorde tussen X_{i} en Y_{i}, en n staat hier symbool voor het aantal objecten/personen). Wanneer er 'knopen' optreden, dat wil zeggen wanneer er verschillende metingen zijn met exact dezelfde waarde, dient een correctie hiervoor uitgevoerd te worden. De interpretatie van r_{S} is analoog aan die van Pearsons r: een waarde van 0 duidt op geen verband, +1 op een perfect positief verband, -1 op een perfect negatief verband. De berekening van Kendalls tau is lastiger om handmatig te doen.

Toepassingen[bewerken]

De correlatiecoëfficiënt wordt soms berekend bij metingen aan dynamische processen, zoals bij het meten van trillingen. Bij een complex trillend systeem is het van belang de bron van een trilling vast te stellen. Dit kan door na te gaan of er correlatie is tussen het trillende onderdeel en de vermoedelijke bron.

Ook bij sociologische studies wordt een oorzaak-effect relatie vaak door een niet-parametrische correlatie gemeten.

In de wetenschappelijke psychologie en psychodiagnostiek komen correlatieberekeningen vaak voor, als men bijvoorbeeld het verband wil kennen tussen prestatie op een test en op een criteriummeting. Ook het verband tussen (psychologische) kenmerken van ouders en hun kinderen wordt vaak via correlatie-onderzoek in kaart gebracht.

In de ecologie wordt er niet direct een monotoon verband verwacht tussen verklarende milieufactoren (bijvoorbeeld pH, voedselrijkdom of vochtgehalte van het substraat) en de soortrespons (bijvoorbeeld abundantie, afmeting, zaadopbrengst, biomassa). Om deze reden is de berekening van correlaties vaak niet zinvol, en moet er gezocht worden naar andere maten, zoals optimum en tolerantie voor deze milieufactoren en amplitude voor de responsvariabele.

In de analytische scheikunde wordt veelvuldig gebruikgemaakt van lineaire ijklijnen om de gevoeligheid van een meting vast te stellen. Wanneer men van zo'n ijklijn gebruik maakt om onbekende monsters te kwantificeren streeft men naar een correlatiecoëfficiënt die meer dan drie negens heeft: 0.999 of hoger. Zo'n hoge correlatie betekent naast de goede herleidbaarheid ook dat de meting een reproduceerbaar resultaat zal opleveren.

Valkuilen[bewerken]

Wanneer bij een onderzoek een hoge correlatie tussen twee variabelen wordt gevonden kan niet direct worden geconcludeerd dat de een oorzaak en de ander gevolg is (cum hoc ergo propter hoc). Ook een gemeenschappelijke oorzaak zou de grondslag kunnen zijn, of een algemene trend. Een bekend voorbeeld is de correlatie in de 20e eeuw tussen het vóórkomen van kanker en het aantal antennes op de daken van de huizen: beide namen gedurende enkele decennia sterk toe, maar er was geen enkel bewezen oorzakelijk verband.
Een (significante) correlatie drukt dus niet noodzakelijk ook een oorzakelijk verband uit. Stel dat er een verband wordt gevonden tussen verhoogde agressiviteit bij kinderen en het aantal uren dat ze naar TV kijken. Dan is daarmee niet bewezen dat kinderen "agressief worden" van het televisiekijken. Net zo goed kan men beweren dat kinderen die in aanleg meer neigen tot agressiviteit ook vaker het televisiekijken als vrijetijdsbesteding kiezen. Er is in dit geval dus slechts sprake van een statistisch verband, en niet van een oorzakelijk verband.

Zelfs al wordt er een significante correlatie gevonden tussen twee verschijnselen en al is het verband oorzakelijk, zelfs dan moet men zich afvragen hoe groot dat verband is en of het wel relevant is. Dit laatste is afhankelijk van de context waarin het onderzoek wordt gedaan.

Een andere valkuil is het zoeken naar een correlatie. Wanneer men enkele tientallen variabelen bestudeert en paarsgewijze correlaties uitrekent, komt men eenvoudig aan honderden correlatiecoëfficiënten. Zelfs wanneer de variabelen allemaal niets met elkaar te maken hebben kan er toevallig best een goede correlatie voorkomen. Een mooi voorbeeld is de correlatie tussen het vóórkomen van de ooievaar en het aantal baby's dat wordt geboren dat soms wordt gevonden voor bepaalde periodes van jaren in een bepaald land: er zijn heel veel jaren in heel veel landen waar deze correlatie niet opgaat, maar het is eenvoudig om deze even te vergeten en alleen naar het interessante resultaat te kijken.