Lineares Modell

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Dieser Artikel beschreibt lineare Modelle in der Statistik. Siehe mathematisches Modell für die lineare Modellierung von Vorgängen in der Welt.

Das (Allgemeine) Lineare Modell ist eines der am häufigsten untersuchten (mathematischen) Modelle in der Statistik. Viele statistische Verfahren wie Mittelwertsvergleiche und varianzanalytische Verfahren, Korrelations- und Regressionsrechnung kann man als Spezialfälle linearer Modelle ansehen.

Modellbeschreibung[Bearbeiten]

Grundvoraussetzung für die Anwendung solcher Modelle in der statistischen Praxis ist die Annahme, dass ein linearer Zusammenhang zwischen den beobachteten Daten und den bekannten Einflussvariablen besteht. Die Methoden der Statistik (prominent ist vor allem die Methode der kleinsten Quadrate) liefern dann rein quantitative Resultate über den konkreten Zusammenhang zwischen Beobachtungen und Einflüssen.

Damit solche Modelle überhaupt statistisch beobachtet werden können, wird zusätzlich angenommen, dass die Daten nicht direkt beobachtet werden können, sondern mit Fehlern behaftet sind. Formal lassen sich allgemeine lineare Modelle dann durch Matrixgleichungen der Form

\vec y = \mathbf{X}\vec{\beta} + \vec{\varepsilon}

darstellen, dabei ist

\vec y = \begin{pmatrix} y_1 \\ \vdots \\ y_n \end{pmatrix}

der Vektor der abhängigen Variablen,

\mathbf{ X} = \begin{pmatrix}
 x_{11} & \dots & x_{1k}\\
\vdots & \ddots & \vdots \\
x_{n1} & \dots & x_{nk} \end{pmatrix}

die Matrix der unabhängigen Variablen,

\vec{\beta} = \begin{pmatrix} \beta_1 \\ \vdots \\ \beta_k \end{pmatrix}

der Vektor der Regressionskoeffizienten der mit X beschriebenen Variablen sowie

\vec{\varepsilon} = \begin{pmatrix} \varepsilon_1 \\ \vdots \\ \varepsilon_n \end{pmatrix}

der Vektor der Störgröße.

Voraussetzungen[Bearbeiten]

Die wesentliche Voraussetzung an das lineare Modell ist, dass es bis auf den Fehlerterm \vec{\varepsilon} das „wirkliche“ Modell beschreibt. Dabei wird in der Regel nicht genau spezifiziert, von welcher Art der Fehler ist; er kann beispielsweise von zusätzlichen Faktoren oder Messfehlern herrühren. Jedoch nimmt man als Grundvoraussetzung an, dass dessen Erwartungswert (in allen Komponenten) 0 ist. Diese Annahme bedeutet, dass das Modell

\vec y = \mathbf{X}\vec{\beta}

grundsätzlich für korrekt gehalten wird und die beobachtete Abweichung als zufällig angesehen wird oder von vernachlässigbaren äußeren Einflüssen herrührt.

Über diese grundlegende Annahme hinaus sind grundsätzlich alle Verteilungsannahmen an \vec{\varepsilon} erlaubt. Typisch ist die Annahme, dass die Komponenten des Vektors unkorreliert sind und dieselbe Varianz \sigma^2 besitzen, wodurch sich mit Hilfe klassischer Verfahren wie der Methode der kleinsten Quadrate einfache Schätzer für \vec{\beta} und \sigma^2 ergeben. Wird zudem vorausgesetzt, dass der Vektor \vec{\varepsilon} multivariat normalverteilt ist, lässt sich ferner zeigen, dass die beiden Schätzer Lösungen der Maximum-Likelihood-Gleichungen sind (Satz von Gauß-Markow). In diesem Modell ist die Unabhängigkeit der Fehler dann gleichbedeutend mit der der y_i.

In der Realität ergeben sich oft Situationen, in denen die Annahme der identisch normalverteilten und unabhängigen Fehler nicht haltbar ist. Dieser Fall liegt vor, wenn einige der unabhängigen Variablen und somit auch die Fehler teilweise korreliert sind. Diese notwendige Abweichung von der Annahme der Unabhängigkeit bringt erhebliche methodische Probleme mit sich, da einige der üblichen Schätzverfahren nicht mehr anwendbar sind.

Ziel[Bearbeiten]

Mit Methoden der Regressionsanalyse lassen sich in vielen Fällen aus den Daten sinnvolle Schätzungen und Grenzwertsätze für \vec{\beta} herleiten. Ob tatsächlich ein linearer Zusammenhang zwischen \vec{y} und der Matrix \mathbf{X} besteht, wird dabei nicht untersucht. Lineare Modelle lassen sich immer „hinschreiben“, nur: Ob sie für den konkreten Fall wirklich geeignet sind, muss vorher theoretisch geklärt werden. In den meisten Fällen wird diese Untersuchung jedoch nicht vorgenommen – in bestimmten Situationen liegen überhaupt keine Informationen über die Struktur des Zusammenhangs vor, in anderen Situationen wird ein lineares Modell aufgrund der vergleichsweise einfachen mathematischen Behandlung gewählt.

Die Frage nach der Güte des linearen Zusammenhangs zwischen den beobachteten Daten \vec y und den Regressoren \mathbf{X} wird üblicherweise mit Hilfe des (korrigierten) Bestimmtheitsmaßes R^2 beantwortet. Mit dessen Hilfe lässt sich klären, welcher Anteil der Variabilität im Modell durch die gewählten Regressoren erklärt werden kann. Ist dieses Maß klein, so werden üblicherweise weitere Regressoren hinzugenommen.

Varianten[Bearbeiten]

Lineare Modelle lassen sich dahingehend erweitern, dass keine feste Designmatrix untersucht wird, sondern auch diese zufallsbehaftet ist. Die Untersuchungsmethoden ändern sich in diesem Fall nicht substantiell, werden aber deutlich komplizierter und damit rechenaufwendiger.

Sonstiges[Bearbeiten]

Lineare statistische Modelle lassen sich bei entsprechender Umformung im Rahmen einer allgemein gültigen Regressionsgleichung darstellen. Entsprechend können aus der allgemeinen Form (neue) spezielle lineare Verfahren abgeleitet werden.

Literatur[Bearbeiten]

  • Andres, J.: Das allgemeine lineare Modell. In Edgar Erdfelder, Rainer Mausfeld, Thorsten Meiser & Georg Rudinger (Hrsg.), Handbuch quantitative Methoden, 1996 (S.185-200); Weinheim: Belz.
  • Moosbrugger, H.: Lineare Modelle: Regressions- und Varianzanalysen (4. Auflage), 2011; Bern, Göttingen, Toronto, Seattle: Verlag Hans Huber
  • Werner, J.: Lineare Statistik, 1997, Weinheim: Belz.

Weblinks[Bearbeiten]