Logistische Regression

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Unter logistischer Regression oder Logit-Modell versteht man Regressionsanalysen zur (meist multivariaten) Modellierung der Verteilung diskreter abhängiger Variablen. Wenn logistische Regressionen nicht näher als multinomiale oder geordnete logistische Regressionen gekennzeichnet sind, ist zumeist die binomiale logistische Regression für dichotome abhängige Variablen gemeint. Die unabhängigen Variablen können dabei ein beliebiges Skalenniveau aufweisen, wobei diskrete Variablen mit mehr als zwei Ausprägungen in eine Serie binärer Dummy-Variablen zerlegt werden.

Im binomialen Fall hat man Daten der Art (Y_i,x_i), i=1,\ldots,n vorliegen, wobei Y_i eine binäre abhängige Variable (den so genannten Regressanden) bezeichnet, die mit x_i, einem bekannten und festen Kovariablenvektor von Regressoren, auftritt. n bezeichnet die Anzahl der Beobachtungen.

Motivation[Bearbeiten]

Die Einflüsse auf diskrete Variablen können nicht mit dem Verfahren der klassischen linearen Regressionsanalyse untersucht werden, da wesentliche Anwendungsvoraussetzungen, insbesondere eine Normalverteilung der Residuen und Homoskedastizität, nicht gegeben sind. Ferner kann ein lineares Regressionsmodell bei einer solchen Variablen zu unzulässigen Vorhersagen führen: Wenn man die beiden Ausprägungen der abhängigen Variablen mit 0 und 1 kodiert, so kann man zwar die Vorhersage eines linearen Regressionsmodells als Vorhersage der Wahrscheinlichkeit auffassen, dass die abhängige Variable den Wert 1 annimmt – formal: P(Y_i=1) –, doch kann es dazu kommen, dass Werte außerhalb dieses Bereichs vorhergesagt werden. Die logistische Regression löst dieses Problem durch eine geeignete Transformation der abhängigen Variablen P(Y_i=1).

Die Relevanz des Logit-Modells wird auch dadurch deutlich, dass Daniel McFadden und James Heckman im Jahr 2000 für ihren Beitrag zu seiner Entwicklung den Nobelpreis für Wirtschaftswissenschaften verliehen bekamen.

Anwendungsvoraussetzungen[Bearbeiten]

Neben der Beschaffenheit der Variablen, wie sie in der Einleitung dargestellt wurde, gibt es eine Reihe von Anwendungsvoraussetzungen. So sollten die Regressoren keine hohe Multikollinearität aufweisen.

Modellspezifikation[Bearbeiten]

Das (binomiale) logistische Regressionsmodell lautet

\mathrm{P}(Y=1|X=x_i)=\mathrm{P}(Y_i=1)=\frac{\exp(\beta_0+x_i^T \beta)}{1+\exp(\beta_0+x_i^T \beta)}=\frac{1}{1+\exp(-(\beta_0+x_i^T \beta))},

hierbei gilt \beta=(\beta_1,\ldots,\beta_n).

Es geht aus von der Idee der Odds, d. h. dem Verhältnis von P(Y_i=1) zur Gegenwahrscheinlichkeit 1-P(Y_i=1) bzw. P(Y_i=0) (bei Kodierung der Alternativkategorie mit 0)

\mathrm{Odds}(Y_{1/0})=\frac{\mathrm{P}(Y_i=1)}{1-\mathrm{P}(Y_i=1)}=\frac{\mathrm{P}(Y_i=1)}{\mathrm{P}(Y_i=0)}

Die Odds können zwar Werte größer 1 annehmen, doch ist ihr Wertebereich nach unten beschränkt (er nähert sich asymptotisch 0 an). Ein unbeschränkter Wertebereich wird durch die Transformation der Odds in die sog. Logits

\mathrm{Logit}(Y_{1/0})=\ln(\mathrm{Odds}(Y_{1/0}))=\ln\frac{\mathrm{P}(Y_i=1)}{1-\mathrm{P}(Y_i=1)}

erzielt; diese können Werte zwischen minus und plus unendlich annehmen.

In der logistischen Regression wird dann die Regressionsgleichung

\mathrm{Logit}(Y_{1/0}|X_i=x_i)=\beta_0+\beta_1 X_1+\dots+\beta_n X_n

geschätzt; es werden also Regressionsgewichte bestimmt, nach denen die geschätzten Logits für eine gegebene Matrix von unabhängigen Variablen X berechnet werden können. Die folgende Grafik zeigt, wie Logits (y-Achse) mit den Ausgangswahrscheinlichkeiten P(Y_i=1) (x-Achse) zusammenhängen:

Mplwp logit.svg

Die Regressionkoeffizienten der logistischen Regression sind nicht einfach zu interpretieren. Daher bildet man häufig die sog. Effektkoeffizienten durch Exponenzieren; die Regressionsgleichung bezieht sich dadurch auf die Odds:

\mathrm{Odds}(Y_{1/0}|X_i=x_i)=\exp(\beta_0+\beta_1 X_1+\dots+\beta_n X_n)

Die Koeffizienten exp(\beta_n) werden oft auch als Effektkoeffizienten bezeichnet. Hier bezeichnen Koeffizienten kleiner 1 einen negativen Einfluss auf die Odds, ein positiver Einfluss ist gegeben, wenn exp(\beta_n) > 1.

Durch eine weitere Transformation lassen sich die Einflüsse der logistischen Regression auch als Einflüsse auf die Wahrscheinlichkeiten P(Y_i=1) ausdrücken:

\mathrm{P}(Y=1|X_i=x_i)=\frac{\exp(\beta_0+\beta_1 X_1+\dots+\beta_n X_n)}{1+\exp(\beta_0+\beta_1 X_1+
      \dots+\beta_n X_n)}

Schätzmethode[Bearbeiten]

Anders als bei der linearen Regressionsanalyse ist eine direkte Berechnung der besten Regressionskurve nicht möglich. Deshalb wird zumeist mit einem iterativen Algorithmus[1] eine Maximum-likelihood-Lösung geschätzt.

Modelldiagnose[Bearbeiten]

Die Regressionsparameter werden auf der Grundlage des Maximum-Likelihood-Verfahrens geschätzt. Inferenzstatistische Verfahren stehen sowohl für die einzelnen Regressionskoeffizienten als auch für das Gesamtmodell zur Verfügung (siehe Wald-Test und Likelihood-Quotienten-Test); in Analogie zum linearen Regressionsmodell wurden auch Verfahren der Regressionsdiagnostik entwickelt, anhand derer einzelne Fälle mit übergroßem Einfluss auf das Ergebnis der Modellschätzung identifiziert werden können. Schließlich gibt es auch einige Vorschläge zur Berechnung einer Größe, die in Analogie zum R^2 der linearen Regression eine Abschätzung der "erklärten Varianz" erlaubt; man spricht hier von sog. Pseudo-Bestimmtheitsmaß. Auch das AIC und das BIC werden in diesem Kontext gelegentlich herangezogen.

Insbesondere bei Modellen zur Risikoadjustierung wird häufig der Hosmer-Lemeshow-Test zur Bewertung der Anpassungsgüte verwendet. Dieser Test vergleicht die vorhergesagten mit den beobachteten Raten von Ereignissen in nach Auftretenswahrscheinlichkeit geordneten Untergruppen der Grundgesamtheit, häufig den Dezilen. Die Teststatistik wird wie folgt berechnet:

 H = \sum_{g=1}^{n} \frac{(O_g - E_g)^2}{N_g \pi_g (1-\pi_g)} .\,\!

Dabei repräsentieren Og die beobachteten (observed) Ereignisse, Eg die erwarteten Ereignisse, Ng die Anzahl der Beobachtungen und πg die Auftretenswahrscheinlichkeit der gten Quantile. Die Anzahl der Gruppen beträgt n.

Ebenfalls werden ROC-Kurven zur Beurteilung der Vorhersagekraft logistischer Regressionen verwendet, wobei die ROC AUC als Gütekriterium fungiert.

Alternativen und Erweiterungen[Bearbeiten]

Als (im Wesentlichen gleichwertige) Alternative kann das Probitmodell herangezogen werden, bei dem eine Normalverteilung zugrunde gelegt wird.

Eine Übertragung der logistischen Regression (und des Probit-Modells) auf eine abhängige Variable mit mehr als zwei diskreten Merkmalen ist möglich (siehe multinomiale oder geordnete logistische Regressionen).

Literatur[Bearbeiten]

  • Hans-Jürgen Andreß, J.-A. Hagenaars, Steffen Kühnel: Analyse von Tabellen und kategorialen Daten Springer Berlin 1997, ISBN 3-540-62515-1
  • Dieter Urban: Logit Analyse, Lucius & Lucius Stuttgart 1998, ISBN 3-8282-4306-1
  • David Hosmer, Stanley Lemeshow: Applied logistic regression, Wiley New York 2. Auflage 2000, ISBN 0-471-35632-8
  • Alan Agresti: Categorical Data Analysis, Wiley New York 2. Auflage 2002, ISBN 0-471-36093-7
  • Scott J. Long: Regression Models for Categorical and Limited Dependent Variables, Sage 1997, ISBN 0-803-97374-8

Weblinks[Bearbeiten]

Belege[Bearbeiten]

  1. Allison, Paul David. 1999. Logistic regression using the SAS system theory and application. Cary, N.C.: SAS Institute, S 48.