Störgröße und Residuum

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Residuum (Statistik))
Zur Navigation springen Zur Suche springen
Theoretische wahre Gerade und geschätzte Regressionsgerade . Der Restfehler (das Residuum) stellt die Differenz zwischen dem Messwert und Schätzwert dar.

In der Statistik sind Störgröße und Residuum zwei eng verwandte Konzepte. Die Störgrößen, auch Fehlerterme oder kurz Fehler genannt, sind unbeobachtbare Zufallsvariablen, die den vertikalen Abstand zwischen Beobachtungspunkt und wahrer Gerade messen. Für sie nimmt man für gewöhnlich an, dass sie unkorreliert sind, einen Erwartungswert von Null und eine homogene Varianz aufweisen (Gauß-Markow-Annahmen). Im Gegensatz zu den Störgrößen sind Residuen berechnete Größen und messen den vertikalen Abstand zwischen Beobachtungspunkt und der geschätzten Regressionsgerade. Sie stellen also eine Schätzung bzgl. der Störgröße dar. Die Problematik bei der sogenannten Regressionsdiagnostik ist, dass sich die Gauß-Markow-Annahmen nur auf die Störgrößen, nicht aber auf die Residuen beziehen. Die Residuen haben zwar ebenfalls einen Erwartungswert von Null, sind aber nicht unkorreliert und weisen auch keine homogene Varianz auf. Um diesem Missstand Rechnung zu tragen, werden die Residuen meist modifiziert, um die geforderten Annahmen zu erfüllen, z. B studentisierte Residuen. Die Quadratsumme der Residuen spielt in der Statistik in vielen Anwendungen eine große Rolle, z. B bei der Methode der kleinsten Quadrate. Die Notation der Störgrößen als bzw. ist an das lateinische Wort erratum (Irrtum) angelehnt. Die Residuen können mit Hilfe der residuenerzeugenden Matrix generiert werden.

Störgröße und Residuum[Bearbeiten | Quelltext bearbeiten]

Störgrößen, Störterme, Fehlerterme oder auch kurz Fehler genannt sind nicht mit den Residuen zu verwechseln. Man unterscheidet die beiden Konzepte wie folgt:

  • : Unbeobachtbare zufällige Fehler bzw. Störgrößen, deren Existenz man annimmt
  • : Geschätzte Störgrößen bzw. Residuen

Einfache lineare Regression[Bearbeiten | Quelltext bearbeiten]

Hauptartikel: Einfache lineare Regression

In der einfachen lineare Regression sind die gewöhnlichen Residuen gegeben durch

.

Hierbei handelt es sich um Residuen, da vom wahren Wert ein geschätzter Wert abgezogen wird. Genauer gesagt wird vom Beobachtungswert die geschätzte Gerade abgezogen. In der einfachen linearen Regression werden an die Störgrößen für gewöhnlich zahlreiche Annahmen getroffen (siehe Annahmen über die Fehlerterme).

Residualvarianz[Bearbeiten | Quelltext bearbeiten]

Die Varianz der Residuen (auch Residualvarianz genannt) ist in der einfachen lineare Regression gegeben durch

.

Multiple lineare Regression[Bearbeiten | Quelltext bearbeiten]

Hauptartikel: multiple lineare Regression
Regressionsebene, die bei zwei Regressoren durch eine Punktwolke verläuft.

Da die Residuen im Gegensatz zu den Störgrößen beobachtbar und berechnete Größen sind, können sie graphisch dargestellt oder auf andere Weise untersucht werden. Im Gegensatz zur einfachen linearen Regression, bei der eine Gerade bestimmt wird, bestimmt man bei der multiplen linearen Regression (Erweiterung der einfachen linearen Regression auf Regressoren) eine Hyperebene, die durch die Punktwolke verläuft. Falls zwei Regressoren vorliegen, liegen die Beobachtungen bildlich gesprochen über beziehungsweise unter der Regressionsebene. Die Differenzen der beobachteten und der prognostizierten, auf der Hyperebene liegenden -Werte, stellen die Residuen dar.[1] Für sie gilt:

.

Die Residuen, die durch die Kleinste-Quadrate-Schätzung gewonnen werden, werden gewöhnlichen Residuen genannt. Wenn zusätzlich Beobachtungen vorliegen, dann sind die gewöhnlichen Residuen in der multiplen linearen Regression gegeben durch[2][3]

,

wobei eine Projektionmatrix, oder genauer gesagt die idempotente und symmetrische residuenerzeugende Matrix darstellt und den KQ-Schätzer im multiplen Fall darstellt.

Eigenschaften[Bearbeiten | Quelltext bearbeiten]

Die gewöhnlichen Residuen sind im Mittel , d. h.

Die Kovarianzmatrix der gewöhnlichen Residuen ist gegeben durch

.

Die gewöhnlichen Residuen sind also heteroskedastisch, da

.

Dies impliziert, dass für die gewöhnlichen Residuen die Gauß-Markov-Annahmen nicht erfüllt sind.

Mithilfe einer Projektionsmatrix lässt sich zeigen, dass die Residuen mit den prognostizierten Werten unkorreliert sind[4]

.

Partielle Residuen[Bearbeiten | Quelltext bearbeiten]

Partielle Residuen-Streudiagramme werden mithilfe von partiellen Residuen erstellt, die definiert sind durch

.

Studentisierte Residuen[Bearbeiten | Quelltext bearbeiten]

Für dieses einfache Modell sei die Datenmatrix

gegeben. Die Prädiktionsmatrix ist die Matrix der Orthogonalprojektion auf den Spaltenraum der Designmatrix. ist gegeben durch

.

Die statistischen Hebelwerte sind die -ten Diagonalelemente der Prädiktionsmatrix. Die Varianz des -ten Residuums ist gegeben durch

.

In diesem Fall hat die Designmatrix nur zwei Spalten, was zu folgender Varianz führt

.

Die dazugehörigen studentisierten Residuen sind dann

.

Die studentisierten Residuen sind identisch (aber nicht unabhängig) verteilt und damit insbesondere homoskedastisch. Sie könnten somit eine Lösung für die Verletzung der Homoskedastizitätsannahme darstellen.

Siehe auch[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. Rainer Schlittgen: Regressionsanalysen mit R., ISBN 978-3-486-73967-1, S. 25 (abgerufen über De Gruyter Online).
  2. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 77.
  3. Rainer Schlittgen: Regressionsanalysen mit R., ISBN 978-3-486-73967-1, S. 27 (abgerufen über De Gruyter Online).
  4. Rainer Schlittgen: Regressionsanalysen mit R., ISBN 978-3-486-73967-1, S. 27 (abgerufen über De Gruyter Online).