Distantie en similariteit

Uit Wikipedia, de vrije encyclopedie

Met distantie en similariteit wordt de mate van verschil en van overeenkomst in kenmerken of attributen van multivariate objecten bedoeld zoals deze berekend kunnen worden op grond van de gemeten variabelen, dus van attributen of kenmerken, van multivariate objecten zoals steekproeven, vegetatieopnamen, vogeltellingen.

Distanties of dissimilariteiten zijn de verschillen die bepaald worden op grond van waarden (of responsies) van de variabelen of attributen bij verschillende objecten. De meest bekende distantie is de euclidische afstand.

Similariteiten zijn juist de overeenkomsten tussen variabelen of tussen objecten. Dergelijke gegevens ten behoeve van de berekening worden weergegeven in tabellen (matrix) met rijen en kolommen voor de variabelen en de objecten. De meest bekende similariteit-maten zijn de correlatiecoëfficienten.

Gebruik[bewerken | brontekst bewerken]

Distanties en similariteiten worden wel gebruikt bij multivariate statistische methoden als clusteranalyse en bij ordinatie. Voorafgaand aan de gegevensverwerking is het vaak nodig eerst de distanties of similariteiten tussen de objecten te berekenen. Bij een dergelijke berekening gaan de oorspronkelijke data van de variabelen verloren. Er zijn ook 'directe' analysemethoden beschikbaar, waar deze voorafgaande berekeningen niet nodig zijn.

Indexen[bewerken | brontekst bewerken]

Tabel met objecten (kolommen), attributen (rijen) en met responsies (cellen)

variabelen
m objecten, monsters rand-
totalen
object1 object2 object3 object4 ... objectk ... objectm
n
afhankelijke
variabelen

voor de
attributen
y1 y11 y12 y13 y14 ... y1k .. y1m
y2 y21 y22 y23 y24 ... y2k ... y2mk
yi yi1 yi2 yi3 yi4 ... yik ... yim
yj yj1 yj2 yj3 yj4 ... yjk ... yjm
yn yn1 yn2 yn3 yn4 ... ynk ... ynm
randtotalen
van de →
objecten
(monsters)

Voor het berekenen van deze indices of coëfficiënten voor distantie en similariteit zijn een groot aantal verschillende formules beschikbaar. Daarnaast kunnen similariteiten vaak worden omgerekend tot distanties en omgekeerd. De rol van objecten en variabelen kan in sommige gevallen worden omgewisseld, zodat ook de distanties en similariteiten tussen de objecten kunnen worden berekend.

De keuze van de index voor distantie of similariteit hangt af van de meetschaal van de responsies.

    • kwantitatieve meetschaal, ook wel continu, kardinaal, numeriek, metrisch
      • als er ook negatieve waarden zijn, kunnen bepaalde indices niet gebruikt worden
      • niet-negatieve waarden, zoals tellingen, frequenties
    • kwalitatieve meetschaal, ook wel categorisch
      • ordinale variabelen moet worden getransformeerd voordat de berekening van de indices mogelijk is
      • nominale variabelen moet worden getransformeerd voordat de berekening van de indices mogelijk is
      • binaire variabelen worden omgezet tot 0/1 waarden (= afwezig/aanwezig)

Waarnemingen binaire variabelen[bewerken | brontekst bewerken]

Een binaire variabele is een variabele die slechts twee, elkaar uitsluitende waarden kan aannemen, zoals 0 - 1, Ja - Nee, positief - negatief, of aanwezig - afwezig. Bij vergelijking van objecten met binaire variabelen kunnen de formules vereenvoudigd worden, afhankelijk van het al of niet meerekenen van de 'dubbel-afwezige' (dubbel 0, dubbel negatief, dubbel Nee) overeenkomsten.

Similariteit bij objecten met binaire variabelen
Vergelijking van twee objecten i en j met binaire variabelen met meerekenen van de 'dubbel-afwezigen'
objecten object(j) randtotalen
object(j) randtotalen
waarden
1
(+, aanwezig, ja)
0
(—, afwezig, nee)
waarden
1
(+, aanwezig, ja)
0
(—, afwezig, nee)
object(i) 1
(+, aanwezig, ja)
Σ [ yik • yjk) Σ [ yik • (1 - yjk) ] Σ yik 1
(+, aanwezig, ja)
A B A + B
0
(—, afwezig, nee)
Σ [ (1 - yik) • yjk ] Σ [ (1 - yik) • (1 - yjk) ] Σ (1 - yik) 0
(—, afwezig, nee)
C D C + D
randtotalen → Σ yjk Σ (1 - yjk) N randtotalen → A + C B + D N = A + B + C + D
Vergelijking van twee objecten i en j met binaire variabelen met uitsluiting van de 'dubbel-afwezigen'
Objecten object(j) randtotalen
object(j) randtotalen
waarden
1
(+, aanwezig, ja)
0
(—, afwezig, nee)
waarden
1
(+, aanwezig, ja)
0
(—, afwezig, nee)
Object(i) 1
(+, aanwezig, Ja)
Σ [ yik • yjk ] Σ [ yik • (1 - yjk) ] Σ yik 1
(+, aanwezig, ja)
c a - c a
0
(—, afwezig, nee)
Σ [ (1 - yik) • yjk ] ø
('dubbel-afwezig')
0
(—, afwezig, nee)
b - c ø
('dubbel-afwezig')
b - c
randtotalen → Σ yjk m randtotalen → b a - c m = a + b - c

Onder 'dubbel-afwezig' verstaat men de situatie dat beide binaire variabelen de waarde 0 (—, Afwezig, Nee) hebben. In sommige gevallen hebben deze geen zinvolle betekenis. Een voorbeeld is een ecologische gegevenstabel met abundanties van aangetroffen soorten. Het ontbreken van soorten in twee te vergelijken objecten (bijvoorbeeld tellingen, monsters, vegetatieopnamen) geeft meestal geen zinvolle informatie.

Similariteiten[bewerken | brontekst bewerken]

Voorbeelden van similariteiten zijn correlaties en cosinus. Correlatiecoëfficiënten nemen waarden aan van -1 tot +1, waarbij bij de hoogste waarde staat voor de hoogste mate van overeenkomst (similariteit) en de kleinste distantie (dissimilariteit). Om als distantiemaat te kunnen fungeren moeten ze dus getransformeerd worden.

afko naam formule waarin: range
r Pearsons
product-moment
correlatiecoëfficiënt

 
algemene formule
rik = correlatie
yik = waarde voor object i en variabele k
yjk = waarde voor object j en variabele k
m = aantal variabelen
[-1,+1]
rS Spearmans
rangcorrelatiecoëfficiënt
yik en yjk zijn rangnummers
binnen de variabelen Yi en Yj
[-1,+1]
phi, φ puntcorrelatie,
associatiecoëfficiënt
yik en yjk zijn presenties: 0 of 1 [-1,+1]
Cos cosinus van de hoek α
tussen de vectoren
door de oorsprong

voor binaire variabelen wordt de formule:
rik = correlatie
yik = waarde voor object i en variabele k
yjk = waarde voor object j en variabele k
m = aantal variabelen
[-1,+1]

Een andere correlatiecoëfficiënt is de punt-biseriële correlatiecoëfficiënt, evenals de puntcorrelatie een variant van de Pearsons product-momentcorrelatiecoëfficiënt.

Overige maten voor similariteit, zoals de coëfficiënten van Jaccard, Sörensen, Whittaker en Motyka worden besproken bij de distanties.

Distanties[bewerken | brontekst bewerken]

Voorbeelden van distanties

afkorting naam coëfficiënt formule waarin:
m = aantal variabelen
range
MD Minkowski distance,
 geïnduceerd door de Lr-norm
 
algemene formule
MDij = distantie tussen objecten i en j
yik = waarde voor object i en variabele k
yjk = waarde voor object j en variabele k
r is een constante (1 of 2)
CBD city block distance,
Manhattan-metriek
yik en yjk zijn numerieke waarden
r=1
[0, ∞)
ED euclidische afstand yik en yjk zijn numerieke waarden
r=2
[0, ∞)
MCD mean character distance yik en yjk zijn numerieke waarden
r=1
[0, ∞)
GE gemiddelde euclidische afstand
euclidische vorm van MCD
yik en yjk zijn numerieke waarden

r=2
[0, ∞)
DM distance metric
 
algemene formule
yik en yjk zijn numerieke waarden

r is een constante (1 of 2)
[0, 1]
CM Canberra metric yik en yjk zijn numerieke waarden

r=1
[0, ∞)
HM Hodson's metric,
euclidische vorm van CM
yik en yjk zijn numerieke waarden

r=2
[0, ∞)
CD coefficient of divergence yik en yjk zijn numerieke waarden
r=2
[0, 1]
M distantie naar Motyka,
distantie naar Czekanowsky,
Percentage Dissimilarity
kwantitatieve vorm van Sørensen
yik en yjk zijn numerieke waarden [0, 1]
W distantie naar Whittaker,
kwantitatieve vorm van Jaccard
yik en yjk zijn numerieke waarden [0, 1]
H heterogeniteit yik en yjk zijn numerieke waarden [0, ∞)
a, b en c: zie hierbovenstaande tabel
J distantie naar Jaccard a, b en c: zie hierbovenstaande tabel [0, 1]
S distantie naar Sørensen,
distantie naar Dice,
1-coefficient of community
a, b en c: zie hierbovenstaande tabel [0, 1]
SM' complement van
simple matching coefficient
A, B, C en D: zie hierbovenstaande tabel [0, 1]
YC Yule-coefficient A, B, C en D: zie hierbovenstaande tabel [-1, 1]

Distantiematrix[bewerken | brontekst bewerken]

Een distantiematrix is een vierkante, symmetrische matrix met voor elk paar van objecten de onderlinge distanties. Een dergelijke matrix is symmetrisch, omdat de distantie tussen objecten en gelijk is aan de distanties tussen de objecten en . Op de diagonaal staan de distanties van de objecten tot zichzelf: 0.

Distantiematrices worden onder andere gebruikt bij ordinatietechnieken op basis van een distantiematrix,[1] zoals polaire ordinatie (PO), principal coordinates analysis, PCoA of metric multidimensional scaling, en nonmetric multidimensional scaling (NMDS).

Een matrix met similariteiten in plaats van distanties wordt ook wel resemblance matrix genoemd.