Multikollinearität

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Multikollinearität ist ein Problem der Regressionsanalyse und liegt vor, wenn zwei oder mehr erklärende Variablen eine sehr starke Korrelation miteinander haben. Zum einen wird mit zunehmender Multikollinearität das Verfahren zur Schätzung der Regressionskoeffizienten instabil und Aussagen zur Schätzung der Regressionskoeffizienten zunehmend ungenau. Zum anderen ist die Modellinterpretation nicht mehr eindeutig.

Probleme der Multikollinearität[Bearbeiten | Quelltext bearbeiten]

Perfekte Kollinearität macht die rechnerische Durchführung der linearen Regressionsanalyse unmöglich und tritt meist als Folge der Fehlspezifikation des zu Grunde liegenden Modells auf.

Numerische Instabilität[Bearbeiten | Quelltext bearbeiten]

Mathematisch lässt sich die Lösung des linearen Regressionsproblems y_i = b_0 + b_1 x_{i,1} + \dots + b_p x_{i,p} für die Regressionskoeffizienten der mit der Kleinste-Quadrate-Methode darstellen als

\hat{b} = (X^\prime X)^{-1}X^\prime y.

Der Vektor \hat{b}=(\hat{b}_0, \dots, \hat{b}_p) enthält die geschätzten Regressionsparameter, der Vektor y=(y_1, \dots, y_n) und die Matrix

X=\begin{pmatrix} 1 & x_{1,1} & \cdots & x_{1,p} \\  \vdots &  \vdots & &  \vdots\\ 1 & x_{n,1} & \cdots & x_{n,p} \end{pmatrix}

die n p-dimensionalen Beobachtungswerte. Das Problem ist die Berechnung der Inversen von X^\prime X; je stärker die Multikollinearität ist, desto mehr nähert sich X^\prime X einer singulären Matrix an, d. h. es existiert keine Inverse.

Modellinterpretation[Bearbeiten | Quelltext bearbeiten]

Wenn das Regressionsmodell y=b_0+b_1 x_1 + b_2 x_2 ist und perfekte Multikollinearität vorliegt, d. h.

x_2=c_0+c_1 x_1\, oder umgestellt
 x_1 = \frac{1}{c_1} x_2 - \frac{c_0}{c_1}

und setzt beide Gleichungen jeweils in das Regressionsmodell ein, so erhält man

(1) y = b_0+b_1 x_1 + b_2 (c_0+c_1 x_1) = (b_0 + b_2 c_0) + (b_1 +b_2 c_1) x_1\,
(2) y = b_0+b_1 \left(\frac{1}{c_1} x_2 - \frac{c_0}{c_1}\right) + b_2 x_2 = \left(b_0+\frac{b_1c_0}{c_1}\right) + \left(\frac{b_1}{c_1}+b_2\right) x_2

Im Modell (1) hängt y nur noch von x_1 ab und im Modell (2) hängt y nur noch von x_2 ab. Es stellt sich nun die Frage, welches Modell ist das „Richtige“? In der Ökonomie spricht man von nicht identifizierbaren Modellen.

Identifikation von Multikollinearität[Bearbeiten | Quelltext bearbeiten]

Weil empirische Daten immer einen gewissen Grad an Multikollinearität aufweisen, wurden Kennzahlen entwickelt, die Hinweise auf Multikollinearität liefern. Einen eindeutigen Richtwert gibt es jedoch nicht.

Korrelation[Bearbeiten | Quelltext bearbeiten]

Zur Aufdeckung von Multikollinearität dient z. B. die Analyse der Korrelationskoeffizienten der Regressoren. Sehr hohe positive oder negative Korrelationskoeffizienten zeigen einen starken Zusammenhang zwischen den Regressoren und damit Multikollinearität an. Eine niedrige Korrelation zwischen den Regressoren bedeutet jedoch nicht automatisch die Abwesenheit von Multikollinearität; auch lineare Kombinationen von Regressoren, die eine hohe positive oder negative Korrelation aufweisen, z. B. zwischen d_1 x_1 + d_2 x_2 und d_3 x_3 + d_4 x_4, führen zu den oben genannten Problemen.

Bestimmtheitsmaß[Bearbeiten | Quelltext bearbeiten]

Ein hohes Bestimmtheitsmaß R_i^2 der linearen Regressionen

x_i = d_{i0} + \sum_{j=1\atop j\neq i}^p d_{ji} x_j,

d. h. der i-te Regressor wird durch alle anderen Regressoren gut vorhergesagt, zeigt Multikollinearität an.

Toleranz[Bearbeiten | Quelltext bearbeiten]

Die Toleranz T_i = 1-R_i^2 wird zur Einschätzung der Multikollinearität benutzt. Ein Wert von T_i < 0{,}2 deutet auf eine starke Multikollinearität hin.

Varianzinflationsfaktor (VIF)[Bearbeiten | Quelltext bearbeiten]

Je größer der Varianzinflationsfaktor VIF_i = \frac{1}{1-R_i^2}, desto stärker sind die Hinweise auf Multikollinearitäten. Einen definitiven Wert, ab wann der VIF eine (zu) hohe Multikollinearität anzeigt, gibt es nicht. Als Daumenregel werden häufig VIF-Werte von über 10 als "zu hoch" eingestuft.[1]

Konditionsindex[Bearbeiten | Quelltext bearbeiten]

Die Matrix X^\prime X ist positiv semi-definit, d. h. alle Eigenwerte \lambda_i der Matrix sind positiv oder Null. Wird die Matrix singulär, dann ist mindestens ein Eigenwert gleich Null. Ist der Konditionsindex

KI_j = \sqrt{\frac{\lambda_j}{\min_i \lambda_i}}

für ein KI_j größer als 30 spricht man ebenfalls von starker Multikollinearität.

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. Siehe für die Daumenregel und eine Diskussion dazu: Wooldridge, Introductory Econometrics:A Modern Approach, 2013, S. 98.

Literatur[Bearbeiten | Quelltext bearbeiten]

  • Backhaus, K., Erichson, B., Plinke, W., Weiber, R.: Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. Berlin u. a., 13. Auflage 2013, S.93-96. ISBN 978-3-642-16490-3

Siehe auch[Bearbeiten | Quelltext bearbeiten]