Distantie en similariteit

Uit Wikipedia, de vrije encyclopedie
Naar navigatie springen Jump to search

Met distantie en similariteit wordt de mate van verschil en van overeenkomst bedoeld zoals deze berekend kunnen worden op grond van de gemeten variabelen (attributen, kenmerken) van multivariate objecten zoals steekproeven, vegetatieopnamen, vogeltellingen.

Distanties (ook wel: dissimilariteiten) zijn de verschillen op grond van waarden (of responsies) van de variabelen of attributen bij verschillende objecten. Similariteiten zijn juist de overeenkomsten tussen variabelen of tussen objecten. Dergelijke gegevens ten behoeve van de berekening worden weergegeven in tabellen (matrix) met rijen en kolommen voor de variabelen en de objecten.

De meest bekende distantie is de euclidische afstand, de meest bekende similariteit is de correlatie.

Bij multivariate statistische methoden als clusteranalyse en bij ordinatie worden wel distanties of similariteiten gebruikt. Voorafgaand aan de analyse is het vaak nodig eerst de distanties of similariteiten te berekenen. Bij een dergelijke berekening gaan de oorspronkelijke gegevens van de variabelen verloren. Er zijn ook analysemethoden beschikbaar waar dit niet het geval is.

Indexen[bewerken]

Tabel met objecten (kolommen), attributen (rijen) en met responsies (cellen)

variabelen
m objecten, monsters rand-
totalen
Object1 Object2 Object3 Object4 ... Objectk ... Objectm
n
afhankelijke
variabelen

voor de
attributen
Y1 y11 y12 y13 y14 ... y1k .. y1m
Y2 y21 y22 y23 y24 ... y2k ... y2mk
... ... ... ... ... ... ... ... ... ...
Yi yi1 yi2 yi3 yi4 ... yik ... yim
... ... ... ... ... ... ... ... ... ...
Yj yj1 yj2 yj3 yj4 ... yjk ... yjm
... ... ... ... ... ... ... ... ... ...
Yn yn1 yn2 yn3 yn4 ... ynk ... ynm
randtotalen → ... ...

Voor het berekenen van deze "indices" of "coëfficiënten" voor distantie en similariteit zijn een groot aantal verschillende formules beschikbaar. Daarnaast kunnen similariteiten vaak worden omgerekend tot distanties en omgekeerd. De rol van objecten en variabelen kan in sommige gevallen worden omgewisseld, zodat ook de distanties en similariteiten tussen de objecten kunnen worden berekend.

De keuze van de index voor distantie of similariteit hangt af van de meetschaal van de responsies.

    • kwantitatieve meetschaal,
      • als er ook negatieve waarden zijn, kunnen bepaalde indices niet gebruikt worden
      • niet-negatieve waarden, zoals tellingen, frequenties
    • kwalitatieve meetschaal
      • ordinale variabelen moet worden getransformeerd voordat de berekening van de indices mogelijk is
      • nominale variabelen moet worden getransformeerd voordat de berekening van de indices mogelijk is
      • binaire variabelen worden omgezet tot 0/1 waarden (= afwezig/aanwezig)

Binaire variabelen[bewerken]

Vergelijking van twee objecten i en j met binaire variabelen met meerekenen van de "dubbel-negatieven"
Objecten Object(j)
variabelen
waarden
+ / Aanwezig / Ja / 1 — / Afwezig / Nee / 0 rand-
totalen
Object(i) + / Aanwezig / Ja / 1 A = Σ yikΣ yjk B = Σ yikΣ (1 - yjk) A + B = Σ yik
— / Afwezig / Nee / 0 C = Σ (1 - yik) • Σ yjk D = Σ (1 - yik) • Σ (1 - yjk) C + D
rand-
totalen
A + C = Σ yjk B + D N = A + B + C + D
Vergelijking van twee objecten i en j met binaire variabelen zonder meerekenen van de "dubbel-negatieven"
Objecten Object(j)
variabelen
waarden
+ / Aanwezig / Ja / 1 — / Afwezig / Nee / 0 rand-
totalen
Object(i) + / Aanwezig / Ja / 1 c = Σ yikΣ yjk a - c = Σ yikΣ (1 - yjk) a = Σ yik
— / Afwezig / Nee / 0 b - c = Σ (1 - yik) • Σ yjk ø
rand-
totalen
b = Σ yjk m = a + b - c

Een binaire variabele is een variabele die slechts twee, elkaar uitsluitende waarden kan aannemen, zoals Ja / Nee, of 0 / 1. Bij vergelijking van objecten met binaire variabelen kunnen de formules vereenvoudigd worden, afhankelijk van het al of niet meerekenen van de "dubbel-negatieve" overeenkomsten.

Onder dubbel negatieven verstaat men de situatie dat beide binaire variabelen de waarde , Afwezig, Nee of 0 hebben. In sommige gevallen hebben deze geen zinvolle betekenis. Een voorbeeld is een ecologische gegevenstabel met abundanties van aangetroffen soorten. Het ontbreken van soorten is twee te vergelijken objecten (bijvoorbeeld tellingen, monsters, vegetatieopnamen) geeft geen zinvolle informatie.

Similariteiten[bewerken]

Voorbeelden van similariteiten zijn correlaties en cosinus. Correlatiecoëfficiënten nemen waarden aan van -1 tot +1, waarbij bij de hoogste waarde staat voor de hoogste mate van overeenkomst (similariteit) en de kleinste distantie (dissimilariteit). Om als distantiemaat te kunnen fungeren moeten ze dus getransformeerd worden.

afko naam formule waarin: range
r Pearsons
product-moment
correlatiecoëfficiënt

 
(ALGEMENE FORMULE)
rik = correlatie
yik = waarde voor object i en variabele k
yjk = waarde voor object j en variabele k
m = aantal variabelen
[-1,+1]
rS Spearmans rangcorrelatiecoëfficiënt yik en yjk zijn rangnummers
binnen de variabelen Yi en Yj
[-1,+1]
phi, φ puntcorrelatie,
associatiecoëfficiënt
yik en yjk zijn presenties: 0 of 1 [-1,+1]
Cos cosinus
van de hoek α tussen
de vectoren door de oorsprong

voor binaire variabelen wordt de formule:
rik = correlatie
yik = waarde voor object i en variabele k
yjk = waarde voor object j en variabele k
m = aantal variabelen
[-1,+1]

Een andere correlatiecoëfficiënt is de punt-biseriële correlatiecoëfficiënt, evenals de puntcorrelatie een variant van de Pearsons product-momentcorrelatiecoëfficiënt.

Overige maten voor similariteit, zoals de coëfficiënten van Jaccard, Sörensen, Whittaker en Motyka worden besproken bij de distanties.

Distanties[bewerken]

Voorbeelden van distanties

afkorting naam coëfficiënt formule waarin: range
MD Minkowski distance,
 geïnduceerd door de Lr-norm
 
(ALGEMENE FORMULE)
dij = distantie tussen objecten i en j
yik = waarde voor object i en variabele k
yjk = waarde voor object j en variabele k
m = aantal variabelen
r is een constante
CBD City Block Distance,
Manhattan-metriek
yik en yjk zijn numerieke waarden [0, ∞)
ED Euclidische afstand yik en yjk zijn numerieke waarden [0, ∞)
MCD Mean Character Distance yik en yjk zijn numerieke waarden [0, ∞)
GE Gemiddelde euclidische afstand,
euclidische vorm van MCD
yik en yjk zijn numerieke waarden [0, ∞)
DM Distance Metric
 
(ALGEMENE FORMULE)
yik en yjk zijn numerieke waarden [0, 1]
CM Canberra Metric yik en yjk zijn numerieke waarden [0, ∞)
HM Hodson's Metric,
euclidische vorm van CM
yik en yjk zijn numerieke waarden [0, ∞)
CD Coefficient of Divergence yik en yjk zijn numerieke waarden [0, 1]
M distantie naar Motyka,
distantie naar Czekanowsky,
Percentage Dissimilarity
kwantitatieve vorm van S
yik en yjk zijn numerieke waarden [0, 1]
W distantie naar Whittaker,
kwantitatieve vorm van J
yik en yjk zijn numerieke waarden [0, 1]
H Heterogeniteit

yik en yjk zijn numerieke waarden
a, b en c: zie hierbovenstaande tabel
[0, ∞)
J distantie naar Jaccard a, b en c: zie hierbovenstaande tabel [0, 1]
S distantie naar Sørensen,
distantie naar Dice,
1-Coefficient of Community
a, b en c: zie hierbovenstaande tabel [0, 1]
SM' complement van
Simple Matching Coefficient
A, B, C en D: zie hierbovenstaande tabel [0, 1]
YC Yule-Coefficient A, B, C en D: zie hierbovenstaande tabel [-1, 1]

Distantiematrix[bewerken]

Een distantiematrix is een vierkante, symmetrische matrix met voor elk paar van objecten de onderlinge distanties. Een dergelijke matrix is symmetrisch, omdat de distantie tussen objecten a en b gelijk is aan de distanties tussen de objecten b en a. Op de diagonaal staan de distanties van de objecten tot zichzelf: 0.

Distantiematrices worden onder andere gebruikt bij ordinatietechnieken op basis van een distantiematrix[1] , zoals polaire ordinatie (PO), principal coordinates analysis (PCoA of "metric multidimensional scaling") en nonmetric multidimensional scaling (NMDS).

Een matrix met similariteiten in plaats van distanties wordt ook wel "Resemblance Matrix" genoemd.