Correspondentieanalyse

Uit Wikipedia, de vrije encyclopedie
(Doorverwezen vanaf Reciprocal Averaging)
Naar navigatie springen Jump to search

Correspondentieanalyse (afkorting: CA, ook Reciprocal Averaging, RA) is een methode voor ordinatie, verwant aan hoofdcomponentenanalyse. Correspondentieanalyse en varianten daarvan, en dan vooral de detrended correspondence analysis, worden in de biologie veel toegepast in het onderzoek van levensgemeenschappen. De soortensamenstelling kan daarbij in verband gebracht worden met de milieufactoren.[1][2][3]

Standaard correspondentieanalyse[bewerken]

Tabel met geïdealiseerde ecologische gradiënt
met één verklarende variabele.
monsterpunt nr.
soort nr. ↓ 01 02 03 04 05 06 07 08 09 10
Spec 01 5 3 1 . . . . . . .
Spec 02 3 5 3 1 . . . . . .
Spec 03 1 3 5 3 1 . . . . .
Spec 04 . 1 3 5 3 1 . . . .
Spec 05 . . 1 3 5 3 1 . . .
Spec 06 . . . 1 3 5 3 1 . .
Spec 07 . . . . 1 3 5 3 1 .
Spec 08 . . . . . 1 3 5 3 1
Spec 09 . . . . . . 1 3 5 3
Spec 10 . . . . . . . 1 3 5
milieufactor
Var 01 20 19 18 17 16 15 14 13 12 11
Correspondentieanalyse van een geïdealiseerde ecologische gradiënt, met duidelijke boogvorming:
Correspondence Analysis Arch PvdK.PNG
Ordinogram is gemaakt met het programma Canoco 4.5

Correspondentieanalyse kan worden beschreven in termen van chi-kwadraatafstanden, op dezelfde manier waarop hoofdcomponentenanalyse kan worden beschreven in termen van euclidische afstanden.

Reciprocal Averaging (wederzijdse middeling, ook wel 'two-way weighted averaging') bestaat uit twee iteratieve stappen:

  1. een regressiestap: de scores voor de responsvariabelen (attributen) worden berekend als een gewogen gemiddelde van het scores van de objecten,
  2. een calibratiestap: de scores voor de objecten worden berekend als een gewogen gemiddelde van de scores van de responsvariabelen (attributen).

De iteraties worden voortgezet totdat er geen veranderingen meer optreden. Het is ook mogelijk nog meer ordinatieassen te berekenen.

De methode is een heuristische benadering van een ordinatie die op een eentoppig (Gaussisch) responsmodel is gebaseerd (ter Braak 1985). Er zijn een aantal verschillende algoritmen voor CA. De eigenwaarde van een as is gelijk de correlatiecoëfficiënt tussen attributen scores en scores steekproef. Correspondentieanalyse van de gegevens van levensgemeenschappen heeft twee problemen:

  1. Als eerste probleem is er het "boogeffect": de tweede ordinatieas kan een kwadratische vervorming zijn van de eerste as. Het boogeffect wordt ook veroorzaakt door unimodale verdeling langs gradiënten. Omdat de uiteinden van de gradiënt niet zijn ingebogen is het boogeffect niet zo ernstig als het "hoefijzereffect" bij de hoofdcomponentenanalyse.
  2. Het tweede probleem bij de correspondentieanalyse is dat aan de uiteinden van de ordinateassen de objecten te dicht op elkaar liggen en daardoor samengedrukt lijken. Dit heeft te maken met het feit dat de responsvariabelen (attributen) die voorkomen in de objecten (monsterpunten) die aan het einde van de gradiënt liggen in het gegevensmateriaal niet meer een unimodale respons vertonen, maar monotoon of dalend of stijgend zijn.

Ondanks deze nadelen wordt toch vaak gekozen voor correspondentieanalyse boven hoofdcomponentenanalyse omdat daar "hoefijzereffect" optreedt: de vorm lijkt op de boog maar de uiteinden van de grafiek krullen naar binnen. Daarnaast is het onderliggende model van hoofdcomponentenanalyse vaak niet relevant in ecologisch onderzoek: een lineair verband tussen onderliggende milieuvariabelen en responsies kan niet zonder meer verwacht worden.

Canonische correspondentieanalyse[bewerken]

Van correspondentieanalyse bestaat ook een gebonden (canonische) vorm: canonische correspondentieanalyse (CCA). Canonische ordinatie is een combinatie van ordinatie en multipele regressie. De canonische ordinatie-assen worden samengesteld als een lineaire combinatie van verklarende variabelen: de milieufactoren. Ze worden daaruit berekend door meervoudige lineaire regressie.

Gewoonlijk blijkt het boogeffect niet meer op te treden bij het gebruik van milieufactoren als verklarende variabelen.

Soms is men bij bepaalde milieuvariabelen, de zogenaamde covariabelen, niet geïnteresseerd in hun effect op de afhankelijke variabelen, maar worden ze wel gemeten. In dit geval kan door "partiële ordinatie" hun effect statistisch worden verwijderd uit de resultaten. Dit gaat op vergelijkbare wijze als bij partiële regressie.

Dit geeft de mogelijkheid de responsies van soorten direct in verband te brengen met milieuvariabelen. Ook kan deze analysetechniek gebruikt worden bij experimenteel onderzoek.

Canonische correspondentieanalyse is het equivalent van redundantieanalyse (een canonische variant van hoofdcomponentenanalyse, PCA), waar het onderliggende model lineair is en niet gaussisch.

Detrended correspondence analysis[bewerken]

1rightarrow blue.svg Zie Detrended correspondence analysis voor het hoofdartikel over dit onderwerp.

Bij detrended correspondence analysis worden deze twee tekortkomingen van correspondentieanalyse op kunstmatige verholpen.

  • Als de tweede ordinatieas een kwadratische vervorming is van de eerste ordinatieas kan door middel van 'detrending' het kwadratische verband verwijderd worden.
  • Daarnaast treedt het verschijnsel op dat de uiteinden van de ordinatieassen gecomprimeerd zijn. Door middel van 'nonlinear rescaling' worden de uiteinden van de ordinatieassen opgerekt.

In de ecologie wordt detrended correspondence analysis veelvuldig toegepast, omdat de lengte van de ordinatie-as een schatting is voor de beta-diversiteit. De lengte van de as wordt vaak uitgedrukt in SD (naar de term "Standard Deviation"). Als bij exploratief onderzoek blijkt dat de ordinatie-assen slechts kort zijn (SD kleiner dan ongeveer 4), kan gekozen worden voor hoofdcomponentenanalyse, omdat het dan blijkbaar niet nodig is van een unimodaal (Gaussisch) model uit te gaan en kan een lineair model gebruikt worden.