Mahalanobis-Abstand

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Der Mahalanobis-Abstand, auch Mahalanobis-Distanz genannt (nach Prasanta Chandra Mahalanobis) ist ein Distanzmaß zwischen Punkten in einem mehrdimensionalen Vektorraum. Der Mahalanobis-Abstand wird speziell in der Statistik verwendet, zum Beispiel im Zusammenhang mit multivariaten Verfahren.

Definition[Bearbeiten | Quelltext bearbeiten]

Bei multivariaten Verteilungen werden die m Koordinaten eines Punktes als m-dimensionaler Spaltenvektor dargestellt. Man fasst ihn als Realisierung eines Zufallsvektors mit der Kovarianzmatrix auf. Der Abstand zweier so verteilter Punkte und wird dann durch den Mahalanobis-Abstand

bestimmt. Der Mahalanobis-Abstand ist skalen- und translationsinvariant.

Graphisch bilden die Punkte mit gleichem Mahalanobis-Abstand von einem Zentrum im Zweidimensionalen eine Ellipse (deren Achsen nicht notwendigerweise in Richtung der Koordinatenachsen zeigen), während es beim euklidischen Abstand ein Kreis ist. Ist die Kovarianzmatrix die Einheitsmatrix (dies ist genau dann der Fall, wenn die einzelnen Komponenten des Zufallsvektors paarweise unkorreliert sind und jeweils Varianz 1 besitzen), so entspricht der Mahalanobis-Abstand dem euklidischen Abstand. Die Flächen konstanten Abstandes von einem Punkt können bei dem Mahalanobis-Abstand beliebige Kegelschnitte sein.

Mathematisch ergibt sich der Mahalanobis-Abstand aus der m-dimensionalen Normalverteilung mit Erwartungswertvektor und Kovarianzmatrix , wobei gilt. Diese Verteilung besitzt nämlich die Dichte

Durch Logarithmieren dieses Ausdrucks erhält man

für eine Konstante , was bis auf die fehlende Wurzel, den Vorfaktor und den Summanden dem Mahalanobis-Abstand entspricht.

Anwendungen[Bearbeiten | Quelltext bearbeiten]

In der Diskriminanzanalyse wird die Zuordnung eines Punktes zu einer bestimmten gegebenen Population unter anderem mit dem Mahalanobis-Abstand bestimmt. Ein weiteres Anwendungsgebiet ist die Erkennung von Ausreißern mit Hilfe vom Mahalanobis-Abstand, wobei der Punkt y durch einen (robusten) Lageparameter ersetzt wird. Kritisch ist dabei anzumerken, dass sowohl die Kovarianzmatrix als auch die Lageparameter durch Ausreißer verzerrt sein können. Sie werden in den meisten Fällen durch robuste Verfahren geschätzt, z. B. mit Hilfe der MCD-Schätzer (Minimum Covariance Determinant). Weiterhin können bei der Verwendung des Mahalanobis-Abstandes als Abstandsklassifikator zwei Fälle unterschieden werden:

  1. Die Kovarianzmatrix ist für alle Klassen gleich oder gemittelt.
  2. Es werden unterschiedliche Kovarianzmatrizen für die einzelnen Klassen verwendet.

Die Entscheidung für eine Alternative ist durch empirische Analysen zu begründen.

Siehe auch[Bearbeiten | Quelltext bearbeiten]

Literatur[Bearbeiten | Quelltext bearbeiten]

  • P. C. Mahalanobis: On the generalised distance in statistics. In: Proceedings of the National Institute of Science of India. Vol. 2, Nr. 1, 1936, S. 49–55.