Naar inhoud springen

Mahalanobis-afstand

Uit Wikipedia, de vrije encyclopedie

De mahalanobis-afstand is binnen de statistiek een afstandsmaat, ontwikkeld in 1936[1] door de Indiase wetenschapper Prasanta Chandra Mahalanobis. De maat is gebaseerd op correlaties tussen variabelen en het is een bruikbare maat om samenhang tussen twee multivariate steekproeven te bestuderen. De maat verschilt met de euclidische afstand doordat de mahalanobis-afstand afhangt van de correlaties in de dataset. Hierdoor is de maat schaal-invariant.

De mahalanobis-afstand tussen de realisaties van twee als kolomvectoren opgevatte vectoren en uit verdelingen met gelijke covariantiematrix is gedefinieerd door:

De mahalanobis-afstand van de realisatie van een als kolomvector opgevatte vector tot een multivariate verdeling met vector van verwachtingswaarden en covariantiematrix is gedefinieerd als de mahalanobis-afstand tot dus:


Anders dan de gewone euclidische afstand, meet de mahalanobis-afstand de afstand als het ware in termen van de spreidingen in de verschillende richtingen.

Verband met normale verdeling

[bewerken | brontekst bewerken]

De mahalanobis-afstand vindt zijn oorsprong in de multivariate normale verdeling. De dichtheid daarvan wordt gegeven door:

Een punt uit de verdeling ligt dus dichter bij het midden naarmate de exponent groter is, dus in essentie naarmate de uitdrukking

kleiner is. Omdat deze uitdrukking kwadratisch is in ligt het voor de hand om voor de afstand de vierkantswortel te gebruiken.

Mahalanobis ontwikkelde deze metriek na het bestuderen van een probleem waarbij overeenkomsten tussen schedelmetingen bestudeerd moesten worden[2], een klassiek voorbeeld in de discriminantanalyse. De metriek wordt verder toegepast in clusteranalyse, classificatiemethoden en multidimensionaal schalen. De mahalanobis-afstand is nauw verbonden met Hotellings T-kwadraat en Cooks afstand.