Ordinatie

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

Ordinatie, ook wel (multivariate) gradiëntanalyse of multidimensional scaling, is het rangschikken van objecten langs gradiënten op grond van waarnemingen (waarden, responsies) aan meerdere afhankelijke variabelen. Door middel van geometrische afbeeldingen probeert men een idee te krijgen van de structuur van de onderzochte gegevensverzameling.

In Christelijke kerken en in het Jodendom is ordinatie of wijding een godsdienstige handeling, waarmee gelovigen in een religieus ambt worden gewijd.

Het resultaat is een ordinogram, een diagram waar de op elkaar gelijkende objecten dicht bij elkaar staan en de onderling sterk verschillende objecten staan ver van elkaar af. De plaatsing van de objecten vindt plaats in een plat vlak of in een drie of meer dimensies. Ordinatiemethoden maken meestal impliciet of expliciet gebruik van distantie-maten, zoals euclidische afstand of chi-kwadraatafstand.

Ordinatie kan gebruikt worden voor de analyse van elke verzameling multivariate objecten, zowel bij beschrijvend, exploratief onderzoek als bij experimenteel onderzoek, bijvoorbeeld ten behoeve van de datareductie. Door ordinatie wordt ruis onderdrukt, de redundantie opgespoord en samengevat, en kunnen uitbijters snel herkend worden. De ordinatietechnieken worden veelal toegepast om samenhang en "onderliggende patronen" (latente variabelen) in grote meerdimensionale gegevensverzamelingen op te sporen, te visualiseren en zelfs te verklaren.

In de synecologie of gemeenschapsecologie ((en) "Community ecology") worden ordinatietechnieken daartoe vaak gebruikt toegepast.[1] Hoewel het gaat om tientallen tot enkele honderden afhankelijke variabelen, blijkt het dat hier de meeste spreiding in de gegevens gewoonlijk verklaard kan worden met 2 tot 4 ordinatieassen. Ordinatietechnieken, in combinatie met regressie-analyse (gebonden of canonische ordinatie en partiële ordinatie) en statistische toetsen (Monte-Carlo permutatieprocedure, MCPP) worden tegenwoordig ook gebruikt in experimenteel veldwerk en onderzoek.[2]

Termen en achtergrond[bewerken]

Ordinatietechnieken als hoofdcomponentenanalyse (acroniem: PCA), correspondentieanalyse (acroniem: CA) en de canonische vormen daarvan als redundantieanalyse (acroniem: RDA) en canonische correspondentieanalyse (acroniem: CCA), worden evenals clusteranalyse tot de multivariate statistiek of multivariate analyse gerekend. Er kunnen zes typen problemen van data-analyse worden onderscheiden:

  1. Regressie, zoals (meervoudige) lineaire regressie;
  2. Calibratie, zoals gewogen gemiddelde;
  3. Ordinatie, zoals hoofdcomponentenanalyse en correspondentieanalyse;
  4. Canonische ordinatie of gebonden ordinatie, zoals redundantie-analyse en canonische correspondentieanalyse;
  5. Partiële ordinatie;
  6. Partiële canonische ordinatie.

Begrippen[bewerken]

Een definitie van "ordinatie" is: het rangschikken van objecten langs gradiënten op grond van waargenomen responsies voor meerdere soorten (de afhankelijke variabelen) in een zogenaamd "ordinogram". Onder rangschikken of ordenen wordt verstaan het positioneren of het ordenen van objecten.

  1. Rangschikken of ordenen is het positioneren of het ordenen van objecten langs een as.
  2. Objecten (entiteiten, stalen of steekproeven) zijn de operationele eenheden (instanties) die in de analyse beschreven, geclassificeerd of geordend moeten worden.
  3. Gradiënten en ordinatieassen zijn:
  4. Een respons of responsie is in dit verband de waargenomen waarden voor de afhankelijke variabele op grond van waarnemingen.
  5. Afhankelijke variabelen of responsvariabelen zijn de variabelen voor de eigenschappen, kwaliteiten of kenmerken van de attributen.

Ordinatie wordt onder andere veelvuldig toegepast bij ecologisch gemeenschapsonderzoek (community ecology). Objecten zijn de operationele eenheden die in de analyse beschreven of geclassificeerd moeten worden, bijvoorbeeld vegetatieopnamen, vangsten in vallen, steekproefnamen of tellingen van de soorten op een bepaald moment of periode of over een reeks van tijdstippen en op een bepaalde of op meerdere te vergelijken plaatsen. De afhankelijke variabelen bij ecologisch onderzoek zijn de waargenomen soorten. De waarde van de afhankelijke variabele per object is de respons, met andere woorden: de mate van aanwezigheid, de abundantie, biomassa of de dichtheid van de soorten per opname of telling. Een gradiënt in het kader van de ordinatie kan zijn:

  1. een gemeenschapsgradiënt, een systematische verloop in soortensamenstelling van de opnamen of tellingen; een hypothetische variabele die indirect wordt afgeleid uit de gegevens betreffende de soortensamenstellingen van de opnames.
    berekende systematische verschillen in soortensamenstelling over een reeks van monsters, "onderliggende variabelen", hypothetische assen, geabstraheerde variabelen, latente variabelen, of
  2. een ecologische gradiënt, een verloop in de waarden van de milieufactoren; deze kunnen worden worden gemeten of experimenteel worden beïnvloed;
    milieugradienten; over een reeks van veldwaarnemingen aangetroffen geleidelijke veranderingen in de waarden van milieufactoren, bijvoorbeeld waterdiepte, hoogte boven zeeniveau, intensiteit van betreding, beschaduwing, of zelfs
  3. combinaties van een of meer gemeten experimentele variabelen, verklarende variabelen, onafhankelijke variabelen of "factoren"

Ordinatie kan zowel worden toegepast op de objecten als op de attributen. Bij een aantal ordinatiemethoden (zoals hoofdcomponentenanalyse en correspondentieanalyse) kan dit gelijktijdig gebeuren en kunnen de resultaten worden weergegeven in een biplot of een triplot. De ordinatiescores van de objecten kunnen achteraf vergeleken worden met de waarden van verklarende variabelen, bijvoorbeeld door berekening van correlatiecoëfficiënten of door meervoudige lineaire regressie van de ordinatie-as op de verklarende variabelen.

"Canonische ordinatie" is een combinatie van ordinatie en multipele regressie. De canonische ordinatie-assen zijn dan een lineaire combinatie van verklarende variabelen en worden daaruit berekend door multipele lineaire regressie. Een voorbeeld is de canonische correspondentieanalyse en redundantieanalyse.

Gegevensverzameling[bewerken]

Multivariate gegevens (data) bestaan uit waarnemingen (observaties) van een aantal afhankelijke variabelen, gemaakt op een verzameling van objecten: responsies. De term 'multivariaat' slaat op het grotere aantal variabelen. Over het algemeen worden ordinatiemethoden gebruikt om te relaties beschrijven tussen de responsies (de waarden voor de afhankelijke variabelen) en de onderliggende variabelen. De onderliggende variabelen zijn de verklarende variabelen en de factoren die de patronen in de responsies beïnvloeden.

In sommige gevallen is er bij de ruwe data op voorhand al een duidelijk onderscheid te maken tussen afhankelijke en onafhankelijke variabelen. Deze laatste kunnen dan gebruikt worden voor de statistische verklaring van de gegevensstructuur.

Objecten, indicatorvariabelen, afhankelijke en onafhankelijk variabelen
variabelen: objecten, monsters of waarnemingen indicatorvariabelen
typen ↓ namen ↓ Object1 Object2 Object3 Object4 ... Objectk ... Indic_var1 Indic_var2 ...
afhankelijke
variabelen

of
respons-
variabelen
Y1 y11 y12 y13 y14 ... y1k ... z11 z12 ...
Y2 y21 y22 y23 y24 ... y2k ... z21 z22 ...
Y3 y31 y32 y33 y34 ... y3k ... z31 z32 ...
Y4 y41 y42 y43 y44 ... y4k ... z41 z42 ...
... ... ... ... ... ... ... ... ... ... ...
Yj yj1 yj2 yj3 yj4 ... yjk ... zj1 zj2 ...
... ... ... ... ... ... ... ... ... ... ...
onafhankelijke
variabelen
,
verklarende
variabelen

of factoren
X1 x11 x12 x13 x14 ... x1k ...
... ... ... ... ... ... ... ...
Xk xk1 xk2 xk3 xk4 ... xkk ...
... ... ... ... ... ... ... ...

Een gegevensverzameling = dataset bestaat meestal uit een rechthoekige matrix of tabel. Deze tabel bestaat uit:

Omdat het aantal rijen en kolommen hoog kan zijn (van tientallen tot enkele honderden), wordt visualisatie geholpen door een reductie in dimensies door middel van ordinatie.

In exploratief onderzoek ontbreken vaak de waarden voor de onafhankelijke variabelen. In bijzondere gevallen zijn uit de literatuur gemiddelde of kenmerkende waarden bekend voor bepaalde variabelen, de zogenaamde indicatorwaarden voor bepaalde indicatorvariabelen. Ook deze kunnen weer gebruikt worden bij de analyse met behulp van multivariate kalibratie. Deze techniek wordt met behulp van indicatorsoorten en Ellenberggetallen veel toegepast in het vegetatiekundig onderzoek.

Typen variabelen[bewerken]

De variabelen zijn onder te verdelen in verschillende typen, afhankelijk van de rol die ze hebben in de ordinatie:

Meetschalen[bewerken]

Er kunnen verschillende meetschalen worden onderscheiden:

Transformaties[bewerken]

Het is bij sommige ordinatietechnieken nodig de variabelen eerst te transformeren, afhankelijk van de gebruikte meetschaal.

    • Nominale en ordinale variabelen worden getransformeerd naar binaire "dummyvariabelen", zodat ermee gerekend kan worden.
    • Circulaire variabelen moet naar twee dummyvariabelen worden omgezet.
    • Normalisatie van numerieke variabelen, wat de waarden herschaalt: in het bereik [0, 1] met c=1, of een met andere constante.
    • Het is echter ook mogelijk de gegevensverzameling te standaardiseren naar z-scores, zodat het gemiddelde 0 en de variantie = 1: .

Voorbeelden:

  1. De nominale variabele "oogkleur" met de mogelijke waarden [bruin, blauw, groen] moet getransformeerd worden naar drie (elkaar uitsluitende) variabelen:
    • "Oogkleur bruin" met de waarden 0 en 1,
    • "Oogkleur blauw" met de waarden 0 en 1,
    • "Oogkleur groen" met de waarden 0 en 1.
  2. De circulaire variabele "windrichting" met de waarden van [0° - 360°] kan getransformeerd worden naar twee variabelen
    • "CosWindrichting" met de waarde cos(windrichting)
    • "SinWindrichting" met de waarde sin(windrichting)

Distantie en similariteit (verschil en overeenkomst)[bewerken]

1rightarrow blue.svg Zie Distantie en similariteit voor het hoofdartikel over dit onderwerp.

Objecten kunnen overeenkomen of verschillen van elkaar op grond van de waarden van de responsvariabelen. Op grond van de onderlinge verschillen (distanties, dissimilariteit, afstanden) tussen de objecten kunnen deze door ordinatie in een meerdimensionale ruimte worden geplaatst, of worden geclusterd[3][4][5]. De onderlinge afstanden kunnen met verschillende distantiematen worden aangegeven, zoals euclidische afstand, chikwadraat-afstand en verschillende correlatiematen.

Sommige ordinatietechnieken, zoals Nonmetric multidimensional scaling (NMDS) hebben een maat nodig voor de distantie. Door het berekenen van de distanties tussen de objecten gaat de informatie van de variabelen verloren. Methoden gebaseerd op afstand geven niet simultaan de scores voor de objecten en de attributen, in tegenstelling tot eigenanalysemethoden.

In bijvoorbeeld de ecologie en de psychologie zijn een zeer groot aantal andere maten voor distantie of voor overeenkomst in omloop. Maten voor overeenkomst kunnen vaak eenvoudig worden omgerekend in maten voor verschil, en omgekeerd. Objecten met overeenkomstige waarden voor de attributen krijgen in een ordinatie waarden op de ordinatie-assen die vlak bij elkaar liggen. Als er echter de verschillen groter zijn komen de objecten verder bij elkaar vandaan te liggen.

De eigenanalysemethoden kunnen ordinatieassen voor de objecten en de attributen simultaan berekenen zonder de tussenstap van het vooraf berekenen van distanties. Toch blijken deze methoden indirect verband te houden met distanties, zoals de euclidische afstand (bij hoofdcomponentenanalyse) of chi-kwadraatafstand (bij correspondentieanalyse).

Responsmodellen[bewerken]

Lineair en gaussisch responsiemodel in de ecologie.
Lineair Unimodaal.PNG
Lineair responsiemodel, met
  • gradiënt = onafhankelijk variabele
  • respons = afhankelijk variabele
Gaussisch responsiemodel, met
  • Opt. = optimum, optimale waarde (hier: 3,0)
  • Ampl. = amplitude (hier: 10)
  • Tol. = tolerantie (hier: 0,1)

Afhankelijk van het toepassingsgebied moet er een verwacht verband worden geformuleerd tussen de de ordinatieas en de respons. Niet altijd mag een lineair verband worden verwacht tussen de onafhankelijke variabele en de responsvariabele.

Het unimodale model stelt dat responsiefuncties van attributen (dat wil zeggen het verband tussen de responsies als functie van positie langs een ordinatiegradiënt) unimodaal of eentoppig is (gaussische functie). Een dergelijk model wordt door drie waarden vastgelegd:

  1. het optimum (Opt.), de ligging van de top, hier bij 3,0
  2. de tolerantie (Tol), de breedte van de curve, soms standaard deviatie (sd) genoemd; hier 0,1
  3. de amplitude (Ampl.), de hoogte van de curve, hier 10

Eigenanalyse[bewerken]

Eigenanalyse staat centraal in de wiskundige discipline van lineaire (matrix) algebra. Eigenanalyse is een techniek die leidt tot een lineaire reductie in dimensionaliteit (singulierewaardenontbinding). Eigenanalyse kan worden uitgevoerd op een vierkante, symmetrische distantiematrix, of direct op de gegevensmatrix. Er is een unieke oplossing ongeacht de volgorde van de gegevens. Bij grote matrices vereist eigenanalyse een iteratieve aanpak voor benadering van het antwoord.

De ordinatie-assen zijn de eigenvectoren, die bestaan uit de scores voor de objecten en voor de attributen. De assen zijn ongecorreleerd door orthogonalisatie.

De eigenwaarden, die met een eigenvector samenhangen, vormen een maat voor de sterkte van de as. Ze hebben wiskundige betekenis, die kan helpen bij de interpretatie. In de hoofdcomponentenanalyse en redundantie-analyse zijn eigenwaarden de 'verklaarde variantie'; bij correspondentieanalyse en verwante methoden zijn eigenwaarden 'verklaarde inertia'. De eerste as heeft de hoogste eigenwaarde, de volgende assen hebben een steeds lagere eigenwaarde.

Eigenanalyse-methoden pogen zo getrouw mogelijk attributen langs assen (gradiënten) te plaatsen. Sommige op eigenanalyse gebaseerde ordinatiemethoden zijn bijzondere gevallen van op distanties gebaseerde methoden, waar de distantie is gebaseerd op de euclidische afstand of op de chi-kwadraat afstand.

Objecten en attributen worden gelijktijdig geordineerd, en kunnen dus zowel worden weergegeven in hetzelfde ordinogram (dit wordt een biplot genoemd).

Indirecte of directe, canonische ordinatie[bewerken]

Men spreekt van indirecte ordinatie of ongebonden gradiëntanalyse als bij de ordinatie geen verklarende variabelen zijn betrokken. De gradiënten worden berekend uit de gegevensmatrix (tabel) met de onderlinge verschillen tussen de objecten (distantiematrix), of als latente variabelen uit de gegevens van de responsvariabelen. Veel gebruikte indirecte ordinatiemethoden zijn hoofdcomponentenanalyse (PCA), correspondentieanalyse (CA) en detrended correspondence analysis (DCA).

Men spreek van directe ordinatie, gebonden gradiëntanalyse of van canonische ordinatie (constrained ordination) als de gradiënten bestaan uit combinaties van verklarende variabelen. De gradiënten worden berekend uit de gegevensmatrix van de objecten en responsvariabelen en door regressie uit de verklarende variabelen. Hiervoor is ook een gegevensmatrix van de objecten en de verklarende variabelen nodig. De in de ecologie meest gebruikte directe ordinatiemethoden zijn de redundantieanalyse (RDA) en vooral de canonische correspondentieanalyse (CCA).

In partiële ordinatie worden de effecten van bepaalde verklarende variabelen, de covariabelen, door middel van partiële regressie geëlimineerd. Partiële ordinatie kan zowel worden toegepast bij de indirecte als bij de directe ordinatie. Een reden kan zijn dat men niet geïnteresseerd is in deze variabele af dat het effect reeds bekend is.

Overzicht van methoden[bewerken]

Overzicht van analysemethoden en variabelen en plaats van ordinatiemethoden
responsvariabelen,
afhankelijke variabelen
geen covariabelen ≥ 1 covariabele
aantal responsiemodel geen verklarende
variabelen
≥ 1 verklarende
variabele
geen verklarende
variabele
≥ 1 verklarende
variabelen
1 responsvariabele
(univariaat)
onbekend samenvatting van de
verdeling
regressie partiële regressie
lineair lineaire regressie,
GLM, GAM
unimodaal niet-lineaire regressie,
GLM, GAM
veel
responsvariabelen
(multivariaat)
onbekend clusteranalyse, NMDS Discriminantanalyse -
lineair PCA RDA partiële PCA partiële RDA
unimodaal CA, DCA WA, CCA, DCCA partiële CA,
partiële DCA
partiële CCA
partiële DCCA
+ indicatorvariabelen WA, Kalibratie,
Multivariate kalibratie
-

De te kiezen analysemethode hangt in de eerste plaats af van de te analyseren afhankelijke variabele: van het aantal, maar ook van het te verwachten verband met de onderliggende, verklarende variabelen. Dat kan onbekend zijn, er kan een lineair (monotoon) verband verwacht worden of een optimimcurve (Gaussische kromme).

Samenhangend met de onderzoeksopzet is daarnaast de aanwezigheid van verklarende variabelen van grote invloed op de te gebruiken analysemethode. De verklarende factoren, waarvan men weet dat ze invloed hebben op de onderzoeksresultaten, maar waarin men verder niet geïnteresseerd is moeten constant gehouden worden, of als covariabele behandeld worden waardoor hun effect weggerekend kan worden.

Eigenschappen van de technieken[bewerken]

Eigenschappen van ordinatiemethoden
Acroniem Naam Methode Distantiemaat Onderliggend
model
Ordinatie-
assen
Vervorming
2de as
Opmerking
PO Polaire ordinatie,
Bray-Curtis Ordination,
Wisconsin Ordination
distantie expliciet onbekend indirect onbekend bijzonder geval:
→ PCO
PCoA Principal Coordinates Analysis
"Metric Multidimensional Scaling"
distantie expliciet onbekend indirect onbekend
NMDS Nonmetric Multidimensional Scaling
"Multidimensional Scaling"
distantie expliciet onbekend indirect onbekend
PCA Principal Component Analysis
hoofdcomponentenanalyse
eigenwaarde impliciet,
euclidische afstand  
lineair indirect hoefijzer
CA Correspondence Analysis
Reciprocal Averaging
Correspondentieanalyse
eigenwaarde impliciet,
chi-kwadraat afstand
unimodaal indirect boog
DCA Detrended correspondence analysis eigenwaarde impliciet,
chi-kwadraat afstand
unimodaal direct,
canonisch
detrending
RDA Redundancy Analysis
Redundantieanalyse
eigenwaarde impliciet,
euclidische afstand
lineair direct,
canonisch
onbekend
CCA Canonical Correspondence Analysis
Canonische correspondentieanalyse
eigenwaarde impliciet,
chi-kwadraat afstand
unimodaal direct,
canonisch
onbekend
DCCA Detrended Canonical Correspondence Analysis eigenwaarde impliciet,
chi-kwadraat afstand
unimodaal direct,
canonisch
detrending

Gewogen gemiddelden[bewerken]

Het ordenen of rangschikken van objecten volgens de waarden van gemeten onafhankelijke (verklarende) variabelen valt onder de informele methoden. Voor de attributen kunnen gewogen gemiddelden worden berekend aan de hand van:

  • de waarden van een verklarende variabele voor de objecten
  • de waarden van de afhankelijk variabelen voor de objecten, die daarbij als gewicht dienen (deze mogen niet negatief zijn)

Deze methode is in de ecologie bekend geworden onder de naam Weighted Averaging (WA). Door deze eenvoudige methode kan in de ecologie op snelle wijze goed communiceerbare resultaten worden verkregen.

Op distanties gebaseerde methoden[bewerken]

Een aantal ordinatietechnieken gebruiken een vooraf berekende matrix met distanties.[6]

Polaire ordinatie (PO)[bewerken]

Polaire ordinatie, Bray-Curtis ordinatie of Wisconsin ordinatie is een eenvoudigste techniek om de ordinatie te visualiseren, en kan eventueel met de hand worden uitgevoerd. PO wordt uitgevoerd op grond van een matrix met distanties tussen de objecten. De ordinatie begint met de keuze van 2 objecten met een grote onderlinge distantie voor de eerste ordinatie-as. De plaats van de overige objecten op deze as wordt berekend met de distanties ten opzichte van beide eindpunten. Op deze as worden twee bij elkaar liggende objecten met desondanks grote distantie gezocht voor de volgende as.

Principal coordinates analysis (PCoA)[bewerken]

Principal coordinates analysis (PCoA), vroeger ook metric multidimensional scaling, maximaliseert de lineaire correlatie tussen afstandsmaten en afstand tussen de punten in de ordinatie. Als men alleen beschikt over een distantiematrix of een similariteitsmatrix is dit een geschikte methode. Het onderliggende is dat er een vast aantal van gradiënten is. Meestal worden er 2 of 3 assen geselecteerd. De methode maximaliseert de lineaire correlatie tussen de afstanden in de distantie matrix en de afstanden in een ruimte met een lage dimensie. Als de euclidische afstand als distantie wordt gekozen, dan is PCoA gelijk aan PCA.

Nonmetric multidimensional scaling (NMDS)[bewerken]

1rightarrow blue.svg Zie Nonmetric multidimensional scaling voor het hoofdartikel over dit onderwerp.

Nonmetric multidimensional scaling (NMDS) heet soms multidimensional scaling (MDS), hoewel deze term eigenlijk gebruikt wordt voor PCoA. Als men alleen beschikt over een distantiematrix of een similariteitsmatrix is dit een geschikte methode. Het onderliggende model is dat er een vast aantal van gradiënten is. NMDS maximaliseert rangordecorrelatie tussen afstandsmaten en afstand in de ordinatieruimte. Punten worden zodanig verplaatst dat de "stress" geminimaliseerd wordt. Stress is een maat voor de discrepantie tussen de twee attributen (soorten) afstand. Vooraf wordt het aantal dimensies opgeven. Dit kan op grond van een grafiek van de stress als functie van het aantal assen.

Indirecte gradiëntanalyse op basis van eigenanalyse[bewerken]

De belangrijkste methoden voor indirecte gradiëntanalyse op basis van eigenanalyse zijn: hoofdcomponentenanalyse en correspondentieanalyse.[7]

Tabel met geïdealiseerde ecologische gradiënt
met één verklarende variabele
monsterpunt nr.
soort nr. ↓ 01 02 03 04 05 06 07 08 09 10
Spec 01 5 3 1 . . . . . . .
Spec 02 3 5 3 1 . . . . . .
Spec 03 1 3 5 3 1 . . . . .
Spec 04 . 1 3 5 3 1 . . . .
Spec 05 . . 1 3 5 3 1 . . .
Spec 06 . . . 1 3 5 3 1 . .
Spec 07 . . . . 1 3 5 3 1 .
Spec 08 . . . . . 1 3 5 3 1
Spec 09 . . . . . . 1 3 5 3
Spec 10 . . . . . . . 1 3 5
milieufactor
Var 01 20 19 18 17 16 15 14 13 12 11
Principal Components Analysis Horseshoe Effect PvdK.PNG
Hoofdcomponentenanalyse met hoefijzereffect van ecologische gradiënt.
Correspondence Analysis Arch PvdK.PNG
Correspondentieanalyse met boogvorming van ecologische gradiënt
en compressie aan de uiteinden van de eerste as.

Hoofdcomponentenanalyse (PCA)[bewerken]

1rightarrow blue.svg Zie Hoofdcomponentenanalyse voor het hoofdartikel over dit onderwerp.

Hoofdcomponentenanalyse is relatief objectief en biedt een redelijke, maar grove indicatie van relaties. Het is de eenvoudigste en oudste eigenanalyse-gebaseerde methode. Het is voor veel doeleinden gebruikt, ook als een ordinatie-methode. Hoofdcomponentenanalyse was een van de eerste op ecologische gegevens toegepast ordinatiemethoden.[8]

Wiskundig is hoofdcomponentenanalyse een eigenanalyse. Meetkundig is PCA een starre rotatie van de oorspronkelijke gegevensmatrix, en kan gedefinieerd worden als een projectie van de objecten (monsters) op een nieuwe set van assen, zodanig dat de maximale variantie wordt geprojecteerd of "geëxtraheerd" langs de eerste as, het maximale verschil met niet-gecorreleerde as 1 is geprojecteerd op de tweede as, de maximale variatie ongecorreleerd met de eerste en tweede as is geprojecteerd op de derde as, enz. Zo wordt er een hoog-dimensionale ruimte geproduceerd, waarbij de afstanden tussen de objecten hun euclidische afstand wordt.

De eerste PCA-ordinatieas kan men zich voorstellen als een regressielijn in de n-dimensionale ruimte van attributen (soorten) en/of monsterpunten, waarbij de afstand tussen elk der punten en de lijn zo klein mogelijk is (kleinste kwadraten methode, lineaire regressie). De tweede en volgende PCA-assen worden op dezelfde wijze berekend als de eerste, waarbij echter een stap is ingebouwd waardoor de as ongecorreleerd wordt gemaakt aan de voor-gaande as(sen): zodat de loodrechte afstand van elk object naar de ordinatie assen tot een minimum wordt beperkt. De assen zijn lineaire combinaties van variabelen (attributen). De gewichten staan bekend als 'coëfficiënten' of 'lading'.

De eigenvalues vertegenwoordigen de door elke as geëxtraheerde variantie of verklaarde variantie. De som van de eigenvalues zal de som van de variantie van alle variabelen.

In de meeste toepassingen van hoofdcomponentenanalyse worden variabelen vaak gemeten in verschillende eenheden. De gegevens worden dan gestandaardiseerd, met gemiddelde van nul en variantie-eenheid (hoofdcomponentenanalyse met een correlatiematrix). De variabelen kunnen negatieve waarden aannemen. Indien uitgevoerd op een correlatiematrix is de som van de eigenvalues gelijk aan het aantal variabelen. Indien uitgevoerd op een covariantiematrix zal de som van de eigenvalues gelijk aan de som van de varianties van alle attributen.

Hoofdcomponentenanalyse is een methode die gebaseerd is op een lineair responsie model van de attributen. Deze benadering werkt in de ecologie alleen als een beperkt traject van de milieugradiënten wordt bekeken. Als hoofdcomponentenanalyse wordt toegepast op gegevens van uiteenlopende milieus, treedt het hoefijzereffect op. Dit komt doordat hoofdcomponentenanalyse is gebaseerd op een lineair responsmodel. Voor de vegetatie gegevens is dit een serieus probleem . Dit wordt veroorzaakt door de curvilinearity van attributen (soorten) langs gradiënten, vooral bij een matig tot hoge beta-diversiteit (lange milieugradiënt).

Correspondentieanalyse (CA)[bewerken]

1rightarrow blue.svg Zie Correspondentieanalyse voor het hoofdartikel over dit onderwerp.

Correspondentieanalyse is een methode voor ordinatie en kwantitatieve analyse van de gegevens van levensgemeenschappen. Correspondentieanalyse (acroniem CA, ook wel Reciprocal Averaging, acronym RA of Two-way weighted averaging) kan worden beschreven in termen van chi-kwadraat afstanden, op dezelfde manier waarop hoofdcomponentenanalyse kan worden beschreven in termen van euclidische afstanden.[9]

Reciprocal Averaging (wederzijdse middeling) betekent dat scores van de objecten worden berekend als een gewogen gemiddelde van de scores van de responsvariabelen (attributen) en van de scores van de responsvariabelen worden berekend als een gewogen gemiddelde van de (gestandaardiseerde) scores van de objecten. De iteraties worden voortgezet totdat er geen verandering meer optreedt. De iteraties worden voortgezet totdat er geen verandering meer optreedt. De methode is een heuristische benadering van een ordinatie die op een eentoppig (Gaussisch) responsmodel is gebaseerd (ter Braak 1985). Er zijn een aantal verschillende algoritmen voor CA. De eigenwaarde van een as is gelijk de correlatiecoëfficiënt tussen attributen scores en scores steekproef.

Correspondentieanalyse heeft twee problemen bij analyse van gegevens van ecologische gradiënten (zie tabel):

  1. als eerste probleem is er het "boogeffect": de tweede ordinatie-as kan een kwadratische vervorming zijn van de eerste as. Het boogeffect wordt ook veroorzaakt door unimodale verdeling langs gradiënten. Omdat de uiteinden van de gradiënt niet zijn ingebogen is het boogeffect niet zo ernstig als het "hoefijzereffect" bij de hoofdcomponentenanalyse.
  2. het tweede probleem bij de correspondentieanalyse is dat aan de uiteinden van de ordinatie-assen de objecten te dicht op elkaar liggen en daardoor samengedrukt lijken. Dit heeft te maken met het feit dat de responsvariabelen (attributen) die voorkomen in de objecten (monsterpunten) die aan het einde van de gradiënt liggen in het gegevensmateriaal niet meer een unimodale respons vertonen, maar monotoon of dalend of stijgend zijn. Door middel van 'nonlinear rescaling' (niet-lineaire herschaling) worden de uiteinden van de ordinatie-assen opgerekt. Dat is onder andere toegepast in detrended correspondence analysis (DCA).

Detrended correspondence analysis (DCA)[bewerken]

Bij detrended correspondence analysis worden twee tekortkomingen van correspondentieanalyse op kunstmatige verholpen.[10]

  • De tweede ordinatieas is vaak een kwadratische vervorming van de eerste ordinatieas (Jongman et al. 1995). Door middel van 'detrending' wordt het kwadratische verband verwijderd.
  • Daarnaast treedt het verschijnsel da de uiteinden van de ordinatieassen gecomprimeerd zijn waardoor de objecten of attributen daar te dicht op elkaar liggen. Dit heeft te maken met het feit dat de attributen die voorkomen in de objecten (monsterpunten) die aan het einde van de gradiënt liggen in het gegevensmateriaal niet meer een unimodale respons vertonen, maar monotoon of dalend of stijgend zijn. Door middel van 'nonlinear rescaling' worden de uiteinden van de ordinatieassen opgerekt.

In de ecologie wordt deze techniek veelvuldig toegepast, omdat de lengte van de ordinatieas een schatting is voor de beta-diversiteit. Bij korte ordinatieassen kan dan gekozen worden voor hoofdcomponentenanalyse, omdat het dan blijkbaar niet nodig is van een unimodaal model uit te gaan.

Directe gradiëntanalyse op basis van eigenanalyse[bewerken]

Tabel met geïdealiseerde ecologische gradiënt
met één verklarende variabele
monsters
soorten ↓ 01 02 03 04 05 06 07 08 09 10
Spec 01 5 3 1 . . . . . . .
Spec 02 3 5 3 1 . . . . . .
Spec 03 1 3 5 3 1 . . . . .
Spec 04 . 1 3 5 3 1 . . . .
Spec 05 . . 1 3 5 3 1 . . .
Spec 06 . . . 1 3 5 3 1 . .
Spec 07 . . . . 1 3 5 3 1 .
Spec 08 . . . . . 1 3 5 3 1
Spec 09 . . . . . . 1 3 5 3
Spec 10 . . . . . . . 1 3 5
variabelen ↓
Var 01 20 19 18 17 16 15 14 13 12 11

Redundantieanalyse (RDA)[bewerken]

Redundantieanalyse is de canonische uitvoering van hoofdcomponentenanalyse. De (canonische) ordinatieassen zijn lineaire combinaties van de verklarende variabelen. RDA is nuttig wanneer er korte gradiënten zijn. Redundantieanalyse is een geschikte methode bij korte termijn experimentele studie. De behandelingen (treatments) vormen de verklarende variabelen (en zijn meestal dummyvariabelen).

Canonische correspondentieanalyse (CCA)[bewerken]

Canonische correspondentieanalyse is de gebonden (canonische) uitvoering van hoofdcomponentenanalyse. De canonische ordinatieassen zijn lineaire combinaties van de verklarende variabelen. RDA is nuttig wanneer er korte gradiënten zijn. Evenals RDA is Canonische correspondentieanalyse een geschikte methode bij korte termijn experimentele studie. De behandelingen (treatments) vormen de verklarende variabelen (en zijn meestal dummyvariabelen).CCA is ook toepasbaar onder een lineair model, zolang men geïnteresseerd is in attributen-presenties in plaats van absolute waarden voor de attributen (ter Braak en Šmilauer).

De keuze van de milieu/verklarende variabelen van grote invloed op de uitkomst van CCA en andere gebonden ordinaties.

Detrended canonical correspondence analysis (DCCA)[bewerken]

Detrended canonical correspondence analysis is de gebonden (canonische) uitvoering van detrended correspondence analysis (DCA). De canonische ordinatieassen zijn lineaire combinaties van de verklarende variabelen.

Toepassingen[bewerken]

In de toepassing van ordinatietechnieken zijn voorbeelden van objecten: kwadraten, relevés of vegetatieopnamen, archeologische sites, locaties, monsters, geografische locaties, stroomsedimenten, sedimentmonsters, pollenvallen; de variabelen of kenmerken zijn abundanties, dichtheid, biomassa, frequentie, voorkomen, aan-en afwezigheid van plantensoorten, artefacten, deeltjesgrootte klassen, morfometrische kenmerken, sporenelementen, pollentypen, diatomeeën typen, fossiele taxa e.a.

Toepassingen in de ecologie[bewerken]

Geschiedenis[bewerken]

In 1930 begon Ramensky voor vegetatieonderzoek informele ordinatietechnieken te gebruiken. Deze informele en grotendeels subjectieve methoden werd bekend in de vroege jaren 1950 door Whittaker. Naar aanleiding van deze onderzoeken kwam men tot een beter beeld van de responsiecurven van planten en van ecologische gradiënten. Curtis en McIntosh (1951) ontwikkelden de continuüm-index, die later leidden tot conceptuele verbanden tussen soortresponsies op de gradiënten en multivariate methoden. Kort daarna introduceerde Goodall (1954) de term ordinatie in een ecologische context voor de hoofdcomponentenanalyse. Bray en Curtis (1957) ontwikkelden de polaire ordinatie, die de eerste veel gebruikte ordinatietechniek werd in de ecologie. Austin (1968) gebruikt canonische correlatie om de relaties tussen plant en milieu te beoordelen in wat misschien het eerste voorbeeld van een multivariate analyse van de directe gradiënt in ecologie.

Een grote doorbraak kwam met de correspondentieanalyse, zoals door Hill (1973) is geïmplementeerd in het programma DECORANA. Hill introduceerde bij de ecologen de correspondentieanalyse, die een techniek is uit de jaren 1930. Correspondentieanalyse heeft geleidelijk de polaire ordinatie verdrongen, die vandaag de dag nog maar weinig beoefenaars heeft.

Fasham (1977) en Prentice (1977) ontdekten en toonden onafhankelijk het nut aan van Kruskal's (1964) metric multidimensional scaling voor de gemeenschapsecologie. Metric multidimensional scaling oorspronkelijk bedoeld als een psychometrische techniek.

Hill (1979) corrigeerde een aantal van de gebreken van correspondentieanalyse. Daardoor ontstond de "detrended correspondence analysis", tegenwoordig de meest gebruikte techniek voor indirecte gradiëntanalyse. DECORANA, de software die detrended correspondence analysis uit voert, werd de ruggengraat van vele latere softwarepakketten.

Gauch's boek "Multivariate Analysis in Community Ecology" (1982)[11] beschreef ordinatie in niet-technische termen voor de gemiddelde beoefenaar, waardoor verdere toepassing van ordinatiemethoden werd sterk bevorderd.

De fuzzy set theory, door Roberts (1986) ingevoerd bij de ecologen, is een veelbelovende aanpak die samenhangt met polaire ordinatie, maar moet nog veel aanhangers winnen.

In 1986 luidde Ter Braak (1986)[12] het begin in van de grootste revolutie in de moderne ordinatiemethoden met canonische correspondentieanalyse. Deze techniek koppelde correspondentie-analyse aan regressiemethoden, en voorziet in het testen van hypothesen. De canonische correspondentieanalyse is een hybride van correspondentieanalyse en regressie-analyse. Deze werd ontwikkeld door Ter Braak (1986) en geïmplementeerd in het programma CANOCO.[13] Daarin werd tevens de bruikbaarheid van de redundantieanalyse, een hybride van hoofdcomponentenanalyse en regressie-analyse, aangetoond. Ook was het mogelijk de relatie tussen een externe variabele (verklarende variabele) en de responsies van soorten (afhankelijke variabele) te testen door middel van Monte Carlo tests. Tevens ontstond de mogelijk tot calibratie: het inschatten van de waarden van de verklarende variabelen op grond van de waarden voor de afhankelijke variabelen. Ordinatiemethoden werden nu bruikbaar voor de analyse van multivariate gegevens van (veld-)experimenten.

Ter Braak en Prentice (1988)[14] ontwikkelden een theoretisch basis van de ordinatietechnieken door een unificerende theorie en wiskundige onderbouwing van een familie de ordinatiemethoden. Zo voorzagen ze met de laatste, revolutionaire stap de gradiëntanalyse van een stevige theoretische fundering.

Organismen en milieu[bewerken]

In de ecologie is het bekend dat ieder organismen een beperkte tolerantie met betrekking tot de de milieufactoren: er is een minimumwaarde waaronder het organisme niet kunnen voorkomen (de respons = 0) en een maximumwaarde waarboven het niet meer kan voorkomen. Tussen het minimum en het maximum ligt een optimum, waar de mate van voorkomen (respons, bijvoorbeeld gemeten als talrijkheid of frequentie) maximaal is. In het ideale geval heeft de responsecurve een symmetrische vorm en is eentoppig, maar in de praktijk komen andere vormen ook voor, zoals een bimodale respons. Veel ordinatiemethoden blijken in de ecologie goed te werken met het optimum-model als er voldoende spreiding is voor de waarden van de verklarende milieuvariabelen en door de aanwezigheid van een groot aantal soorten. Op de ordinatieas is er voor elke soort een unieke set van optimale waarden, waarbij de soort maximale respons bereikt.

Organismen hebben zo een beperkte tolerantie voor de milieufactoren. Zij vertonen gewoonlijk geen lineair maar een unimodaal verband tussen de milieugradiënt en de mate van voorkomen (bijvoorbeeld abundantieof frequentie). Tolerantie wordt soms standaard deviatie genoemd, en op vergelijkbare manier berekend. In andere gevallen wordt het verschil tussen maximum en minimum als tolerantie genomen. Tolerantiegrenzen bepalen verspreidingsgebied (areaal, het gebied waar van nature soort voorkomt) van een soort. Soorten met een kleine tolerantie (gevoelige soorten) kunnen als indicatorsoort gebruikt worden.

De beperkende factor is de abiotische factor waarvan de waarde het verst weg ligt van de optimumwaarde. Bepaalt de levenskansen en de groei. Als de beperkende factor het optimum meer nadert, zal dat een toename geven is de respons (mate van voorkomen).

Relaties tussen soorten (zoals concurrentie, predatie, parasitisme) kunnen invloed hebben op het effect van de milieufactoren, dus op de vorm van de optimimcurve. De curve kan daardoor een andere vorm krijgen, bijvoorbeeld afgeplat, scheef of tweetoppig.

Plantkunde en deelgebieden
Bijzondere plantkunde: algologie · bryologie · dendrologie · fycologie · lichenologie · mycologie · pteridologie
Paleobotanie: archeobotanie · dendrochronologie · fossiele planten · gyttja · palynologie · pollenzone · varens · veen
Plantenmorfologie & -anatomie: beschrijvende plantkunde · apoplast · blad · bladgroenkorrel · bladstand · bloeiwijze · bloem · bloemkroon · boomkruin · celwand · chloroplast · collenchym · cortex · cuticula · eicel · epidermis · felleem · fellogeen · felloderm · fenologie · floëem · fytografie · gameet · gametofyt · groeivorm · haar · houtvat · huidmondje · hypodermis · intercellulair · intercellulaire ruimte · kelk · kroonblad · kurk · kurkcambium · kurkschors · levensduur · levensvorm · merg · meristeem · middenlamel · palissadeparenchym · parenchym · periderm · plantaardige cel · plastide · schors · sclereïde · sclerenchym · spermatozoïde · sponsparenchym · sporofyt · stam · steencel · stengel · stippel · symplast · tak · thallus · topmeristeem · trachee · tracheïde · tylose · vaatbundel · vacuole · vrucht · wortel · xyleem · zaad · zaadcel · zeefvat · zygote
Plantenfysiologie: ademhaling · bladzuigkracht · evapotranspiratie · fotoperiodiciteit · fotosynthese · fototropie · fytochemie · gaswisseling · geotropie · heliotropisme · nastie · plantenfysiologie · plantenhormoon · rubisco · stikstoffixatie · stratificatie · transpiratie · turgordruk · vernalisatie · winterhard · worteldruk
Plantengeografie: adventief · areaal · beschermingsstatus · bioom · endemisme · exoot · flora · floradistrict · floristiek · hoogtezonering · invasieve soort · status · stinsenplant · uitsterven · verspreidingsgebied
Plantensystematiek: taxonomie · botanische nomenclatuur · APG II-systeem · APG III-systeem · algen · botanische naam · cladistiek · Cormophyta · cryptogamen · classificatie · embryophyta · endosymbiontentheorie · endosymbiose · evolutie · fanerogamen · fylogenie · generatiewisseling · groenwieren · hauwmossen · kernfasewisseling · korstmossen · kranswieren · landplanten · levenscyclus · levermossen · mossen · roodalgen · varens · zaadplanten · zeewier
Vegetatiekunde & plantenoecologie: abundantie · associatie · bedekking · biodiversiteit · biotoop · boomlaag · bos · Braun-Blanquet (methode) · broekbos · climaxvegetatie · clusteranalyse · concurrentie · constante soort · differentiërende soort · ecologische gradiënt · ecologische groep · Ellenberggetal · gemeenschapsgradiënt · grasland · heide · kensoort · kruidlaag · kwelder · minimumareaal · moeras · moslaag · ordinatie · pioniersoort · plantengemeenschap · potentieel natuurlijke vegetatie · presentie · regenwoud · relevé · ruigte · savanne · schor · steppe · struiklaag · struweel · successie · syntaxon · syntaxonomie · Tansley (methode) · toendra · tropisch regenwoud · trouw · veen · vegetatie · vegetatieopname · vegetatiestructuur · vegetatietype · vergrassing · verlanding