Distantie en similariteit
Met distantie en similariteit wordt de mate van verschil en van overeenkomst in kenmerken bedoeld zoals deze berekend kunnen worden op grond van de gemeten variabelen (attributen of kenmerken) van multivariate objecten zoals steekproeven, vegetatieopnamen, vogeltellingen.
Distanties of dissimilariteiten zijn de verschillen die bepaald worden op grond van waarden (of responsies) van de variabelen of attributen bij verschillende objecten. De meest bekende distantie is de euclidische afstand.
Similariteiten zijn juist de overeenkomsten tussen variabelen of tussen objecten. Dergelijke gegevens ten behoeve van de berekening worden weergegeven in tabellen (matrix) met rijen en kolommen voor de variabelen en de objecten. De meest bekende similariteit-maten zijn de correlatiecoëfficienten.
Gebruik[bewerken | brontekst bewerken]
Distanties en similariteiten worden wel gebruikt bij multivariate statistische methoden als clusteranalyse en bij ordinatie. Voorafgaand aan de gegevensverwerking is het vaak nodig eerst de distanties of similariteiten tussen de objecten te berekenen. Bij een dergelijke berekening gaan de oorspronkelijke data van de variabelen verloren. Er zijn ook 'directe' analysemethoden beschikbaar, waar deze voorafgaande berekeningen niet nodig zijn.
Indexen[bewerken | brontekst bewerken]
variabelen ↓ |
m objecten, monsters | rand- totalen ↓ | ||||||||
---|---|---|---|---|---|---|---|---|---|---|
Object1 | Object2 | Object3 | Object4 | ... | Objectk | ... | Objectm | |||
n afhankelijke variabelen voor de attributen |
Y1 | y11 | y12 | y13 | y14 | ... | y1k | .. | y1m | |
Y2 | y21 | y22 | y23 | y24 | ... | y2k | ... | y2mk | ||
… | … | … | … | … | … | … | … | … | … | |
Yi | yi1 | yi2 | yi3 | yi4 | ... | yik | ... | yim | ||
… | … | … | … | … | … | … | … | … | … | |
Yj | yj1 | yj2 | yj3 | yj4 | ... | yjk | ... | yjm | ||
… | … | … | … | … | … | … | … | … | … | |
Yn | yn1 | yn2 | yn3 | yn4 | ... | ynk | ... | ynm | ||
randtotalen van de → monsters |
… | … |
Voor het berekenen van deze "indices" of "coëfficiënten" voor distantie en similariteit zijn een groot aantal verschillende formules beschikbaar. Daarnaast kunnen similariteiten vaak worden omgerekend tot distanties en omgekeerd. De rol van objecten en variabelen kan in sommige gevallen worden omgewisseld, zodat ook de distanties en similariteiten tussen de objecten kunnen worden berekend.
De keuze van de index voor distantie of similariteit hangt af van de meetschaal van de responsies.
-
- kwantitatieve meetschaal, ook wel continu, kardinaal, numeriek, metrisch
- als er ook negatieve waarden zijn, kunnen bepaalde indices niet gebruikt worden
- niet-negatieve waarden, zoals tellingen, frequenties
- kwalitatieve meetschaal, ook wel categorisch
- ordinale variabelen moet worden getransformeerd voordat de berekening van de indices mogelijk is
- nominale variabelen moet worden getransformeerd voordat de berekening van de indices mogelijk is
- binaire variabelen worden omgezet tot 0/1 waarden (= afwezig/aanwezig)
- kwantitatieve meetschaal, ook wel continu, kardinaal, numeriek, metrisch
Binaire variabelen[bewerken | brontekst bewerken]
Een binaire variabele is een variabele die slechts twee, elkaar uitsluitende waarden kan aannemen, zoals 0 - 1, Ja - Nee, Positief - Negatief, of Aanwezig - Afwezig. Bij vergelijking van objecten met binaire variabelen kunnen de formules vereenvoudigd worden, afhankelijk van het al of niet meerekenen van de 'dubbel-afwezige' overeenkomsten.
Similariteit bij objecten met binaire variabelen | |||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| |||||||||||||||||||||||||||||||||||||||||||||||||||
|
Onder 'dubbel-afwezig' verstaat men de situatie dat beide binaire variabelen de waarde 0 (—, Afwezig, Nee) hebben. In sommige gevallen hebben deze geen zinvolle betekenis. Een voorbeeld is een ecologische gegevenstabel met abundanties van aangetroffen soorten. Het ontbreken van soorten in twee te vergelijken objecten (bijvoorbeeld tellingen, monsters, vegetatieopnamen) geeft geen zinvolle informatie.
Similariteiten[bewerken | brontekst bewerken]
Voorbeelden van similariteiten zijn correlaties en cosinus. Correlatiecoëfficiënten nemen waarden aan van -1 tot +1, waarbij bij de hoogste waarde staat voor de hoogste mate van overeenkomst (similariteit) en de kleinste distantie (dissimilariteit). Om als distantiemaat te kunnen fungeren moeten ze dus getransformeerd worden.
afko | naam | formule | waarin: | range |
---|---|---|---|---|
r | Pearsons product-moment correlatiecoëfficiënt |
rik = correlatie yik = waarde voor object i en variabele k yjk = waarde voor object j en variabele k m = aantal variabelen |
[-1,+1] | |
rS | Spearmans rangcorrelatiecoëfficiënt |
yik en yjk zijn rangnummers binnen de variabelen Yi en Yj |
[-1,+1] | |
phi, φ | puntcorrelatie, associatiecoëfficiënt |
yik en yjk zijn presenties: 0 of 1 | [-1,+1] | |
Cos | cosinus van de hoek α tussen de vectoren door de oorsprong |
voor binaire variabelen wordt de formule: |
rik = correlatie yik = waarde voor object i en variabele k yjk = waarde voor object j en variabele k m = aantal variabelen |
[-1,+1] |
Een andere correlatiecoëfficiënt is de punt-biseriële correlatiecoëfficiënt, evenals de puntcorrelatie een variant van de Pearsons product-momentcorrelatiecoëfficiënt.
Overige maten voor similariteit, zoals de coëfficiënten van Jaccard, Sörensen, Whittaker en Motyka worden besproken bij de distanties.
Distanties[bewerken | brontekst bewerken]
Voorbeelden van distanties
afkorting | naam coëfficiënt | formule | waarin: | range |
---|---|---|---|---|
MD | Minkowski distance, geïnduceerd door de Lr-norm |
MDij = distantie tussen objecten i en j yik = waarde voor object i en variabele k yjk = waarde voor object j en variabele k m = aantal variabelen r is een constante (1 of 2) |
||
CBD | City Block Distance, Manhattan-metriek |
yik en yjk zijn numerieke waarden m = aantal variabelen r=1 |
[0, ∞) | |
ED | Euclidische afstand | 'yik en yjk zijn numerieke waarden m = aantal variabelen r=2 |
[0, ∞) | |
MCD | Mean Character Distance | yik en yjk zijn numerieke waarden m = aantal variabelen r=1 |
[0, ∞) | |
GE | Gemiddelde euclidische afstand (euclidische vorm van MCD) |
yik en yjk zijn numerieke waarden m = aantal variabelen r=2 |
[0, ∞) | |
DM | Distance Metric |
yik en yjk zijn numerieke waarden m = aantal variabelen r is een constante (1 of 2) |
[0, 1] | |
CM | Canberra Metric | yik en yjk zijn numerieke waarden m = aantal variabelen r=1 |
[0, ∞) | |
HM | Hodson's Metric, euclidische vorm van CM |
yik en yjk zijn numerieke waarden m = aantal variabelen r=2 |
[0, ∞) | |
CD | Coefficient of Divergence | yik en yjk zijn numerieke waarden m = aantal variabelen r=2 |
[0, 1] | |
M | distantie naar Motyka, distantie naar Czekanowsky, Percentage Dissimilarity kwantitatieve vorm van Sørensen |
yik en yjk zijn numerieke waarden m = aantal variabelen |
[0, 1] | |
W | distantie naar Whittaker, kwantitatieve vorm van Jaccard |
yik en yjk zijn numerieke waarden m = aantal variabelen |
[0, 1] | |
H | Heterogeniteit | yik en yjk zijn numerieke waarden m = aantal variabelen |
[0, ∞) | |
a, b en c: zie hierbovenstaande tabel | ||||
J | distantie naar Jaccard | a, b en c: zie hierbovenstaande tabel | [0, 1] | |
S | distantie naar Sørensen, distantie naar Dice, 1-Coefficient of Community |
a, b en c: zie hierbovenstaande tabel | [0, 1] | |
SM' | complement van Simple Matching Coefficient |
A, B, C en D: zie hierbovenstaande tabel | [0, 1] | |
YC | Yule-Coefficient | A, B, C en D: zie hierbovenstaande tabel | [-1, 1] |
Distantiematrix[bewerken | brontekst bewerken]
Een distantiematrix is een vierkante, symmetrische matrix met voor elk paar van objecten de onderlinge distanties. Een dergelijke matrix is symmetrisch, omdat de distantie tussen objecten a en b gelijk is aan de distanties tussen de objecten b en a. Op de diagonaal staan de distanties van de objecten tot zichzelf: 0.
Distantiematrices worden onder andere gebruikt bij ordinatietechnieken op basis van een distantiematrix[1] , zoals polaire ordinatie (PO), principal coordinates analysis (PCoA of "metric multidimensional scaling") en nonmetric multidimensional scaling (NMDS).
Een matrix met similariteiten in plaats van distanties wordt ook wel "Resemblance Matrix" genoemd.
Bronnen, noten en/of referenties
Literatuur:
|