Multikollinearität

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Konditionsindex)
Zur Navigation springen Zur Suche springen

Multikollinearität liegt vor, wenn zwei oder mehr erklärende Variablen eine sehr starke Korrelation miteinander haben. Mit zunehmender Multikollinearität wird in der Regressionsanalyse die Schätzung der Regressionskoeffizienten instabil. Aussagen zur Schätzung der Regressionskoeffizienten sind zunehmend ungenau und die Modellinterpretation ist nicht mehr eindeutig. Dies ist das Problem nicht identifizierbarer Parameter.

Ein Symptom starker Multikollinearität ist ein hohes Bestimmtheitsmaß einhergehend mit niedrigen t-Werten für die einzelnen Regressionsparameter.

Probleme der Multikollinearität[Bearbeiten | Quelltext bearbeiten]

Perfekte Kollinearität macht die rechnerische Durchführung der linearen Regressionsanalyse unmöglich und tritt meist als Folge der Fehlspezifikation des zu Grunde liegenden Modells (wahres Modell) auf. Im Falle von Multikollinearität kommt es zu nicht identifizierbarer Parametern.

Numerische Instabilität[Bearbeiten | Quelltext bearbeiten]

Die Regressionsparameter werden korrekt geschätzt, falls und unkorreliert sind (schwarz, wahre Parameter: ). Falls und korreliert sind (rot), dann ist die Schätzung der Parameter kompromittiert.

Mathematisch lässt sich die, mittels der Methode der kleinsten Quadrate gewonnene, Lösung des multiplen linearen Regressionsproblems für die Regressionskoeffizienten in Vektor-Matrix-Schreibweise darstellen als

.

Der Vektor enthält die geschätzten Regressionskoeffizienten, den Vektor und die Datenmatrix

die -dimensionalen Beobachtungswerte. Das Problem liegt in der Berechnung der Inversen von der Produktsummenmatrix ; je stärker die Multikollinearität ist, desto mehr nähert sich einer singulären Matrix an, d. h. es existiert keine Inverse.

Modellinterpretation[Bearbeiten | Quelltext bearbeiten]

Wenn das Regressionsmodell ist und perfekte Multikollinearität vorliegt, d. h.

oder umgestellt

und setzt beide Gleichungen jeweils in das Regressionsmodell ein, so erhält man

(1)
(2)

Im Modell (1) hängt nur noch von ab und im Modell (2) hängt nur noch von ab. Es stellt sich nun die Frage, welches Modell ist das „Richtige“? In der Ökonomie spricht man von nicht identifizierbaren Modellen.

Identifikation von Multikollinearität[Bearbeiten | Quelltext bearbeiten]

Weil empirische Daten immer einen gewissen Grad an Multikollinearität aufweisen, wurden Kennzahlen entwickelt, die Hinweise auf Multikollinearität liefern. Einen eindeutigen Richtwert gibt es jedoch nicht.

Korrelation[Bearbeiten | Quelltext bearbeiten]

Zur Aufdeckung von Multikollinearität dient z. B. die Analyse der Korrelationskoeffizienten der Regressoren. Sehr hohe positive oder negative Korrelationskoeffizienten zeigen einen starken Zusammenhang zwischen den Regressoren und damit Multikollinearität an. Eine niedrige Korrelation zwischen den Regressoren bedeutet jedoch nicht automatisch die Abwesenheit von Multikollinearität (Beispiel [1]); auch lineare Kombinationen von Regressoren, die eine hohe positive oder negative Korrelation aufweisen, z. B. zwischen und , führen zu den oben genannten Problemen. Eine hohe Korrelation zwischen den Regressoren kann durch die Korrelationsmatrix identifiziert werden.

Bestimmtheitsmaß[Bearbeiten | Quelltext bearbeiten]

Ein hohes Bestimmtheitsmaß der linearen Regressionen

,

d. h. der -te Regressor wird durch alle anderen Regressoren gut vorhergesagt, zeigt Multikollinearität an.

Toleranz[Bearbeiten | Quelltext bearbeiten]

Die Toleranz wird zur Einschätzung der Multikollinearität benutzt. Ein Wert von deutet auf eine starke Multikollinearität hin.

Varianzinflationsfaktor (VIF)[Bearbeiten | Quelltext bearbeiten]

Je größer der Varianzinflationsfaktor

, (mit als Bestimmtheitsmaß der Regression von auf alle übrigen Einflussgrößen),

desto stärker sind die Hinweise auf Multikollinearitäten. Einen definitiven Wert, ab wann der VIF eine (zu) hohe Multikollinearität anzeigt, gibt es nicht. Als Daumenregel werden häufig VIF-Werte von über 10 als „zu hoch“ eingestuft.[2]

Konditionsindex[Bearbeiten | Quelltext bearbeiten]

Die Produktsummenmatrix ist positiv semidefinit, d. h. alle Eigenwerte der Matrix sind positiv oder Null. Wird die Matrix singulär, dann ist mindestens ein Eigenwert gleich Null. Ist der Konditionsindex

für ein größer als 30 spricht man ebenfalls von starker Multikollinearität.

Siehe auch[Bearbeiten | Quelltext bearbeiten]

Literatur[Bearbeiten | Quelltext bearbeiten]

  • L. von Auer: Ökonometrie – Eine Einführung. 7. Auflage. Springer, Berlin 2016, ISBN 978-3-662-47868-4, S. 561–588.

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. https://www.sgipt.org/wisms/EWA/EWA0.htm#Unauffaellige%20Korrelationsmatrix
  2. Siehe für die Daumenregel und eine Diskussion dazu: Wooldridge, Introductory Econometrics:A Modern Approach, 2013, S. 98.