Bestimmtheitsmaß

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Das Bestimmtheitsmaß, auch Determinationskoeffizient (von lat. determinatio „Abgrenzung“), ist ein Gütemaß der Statistik. In der multiplen linearen Regression ist es definiert als Quotient der durch die Regression erklärten Variation und der gesamten zu erklärenden Variation und zeigt somit, wie viel Variation in den Daten durch ein vorliegendes Regressionsmodell erklärt werden kann. Das Bestimmtheitsmaß entspricht bei Anwendung der einfachen linearen Regression und der multiplen linearen Regression dem Quadrat des Bravais-Pearson-Korrelationskoeffizienten. Ansonsten existieren meist mehrere unterschiedliche Definitionen, wie zum Beispiel bei den Pseudo-Bestimmtheitsmaßen. Die Konstruktion des Bestimmtheitsmaßes erfolgt mittels der Streuungszerlegung, bei der die gesamte Variation der abhängigen Variablen in die (durch das Regressionsmodell) erklärte Variation, und in die Variation der Residuen zerlegt wird. Da das Bestimmtheitsmaß automatisch durch die Aufnahme zusätzlicher Variablen wächst und somit die Gefahr der Überanpassung besteht, wird für praktische Anwendungen meist das korrigierte Bestimmtheitsmaß verwendet. Das korrigierte Bestimmtheitsmaß „bestraft“ im Gegensatz zum unkorrigierten Bestimmtheitsmaß die Aufnahme jeder neu hinzugenommenen unabhängigen Variable.

Einführung in die Problemstellung[Bearbeiten | Quelltext bearbeiten]

Regressiongerade als Schätzer (Modellfunktion) für den Zusammenhang von Alter und Gewicht der Probanden. ist das geschätzte Gewicht des Probanden bei einem gegebenen Alter . Das Residuum (hier: ) ist durch die rote vertikale Linie gekennzeichnet und der Fehlterm (hier: ) durch die blaue vertikale Linie.

Gegeben sind Messungen , d.h. bei dem -ten Wertepaar wird einem Wert (z. B. Alter einer Person) ein Messwert (z. B. das gemessene Gewicht der Person) zugeordnet.

Dazu berechnet man das arithmetische Mittel (z. B. das mittlere Gewicht der Probanden). Ferner gibt es einen Schätzer (Modellfunktion), der jedem Wert (z. B. Alter) einen Schätzwert (vorhergesagtes Gewicht für eine Person mit Alter ) zuordnet. Eine wichtige Eigenschaft der Schätzwerte ist, dass ihr arithmetisches Mittels dem der beobachteten Messwerte entspricht, also . Die Abweichung einer Schätzung von der zugehörigen Messung ist durch gegeben und wird als „Residuum“ bezeichnet. Bei der einfachen linearen Regression wird der Schätzer anschaulich durch die Regressionsgerade beschrieben und mathematisch durch definiert.[A 1] Fraglich ist, wie gut die durch die Schätzung gefundene Modellfunktion zu den Daten passt, d.h. wie gut sich die geschätzte Gerade einer angenommenen wahren Gerade annähert. Ein Maß zur Beurteilung der Anpassungsgüte sollte die Streuung der Messwerte und die der geschätzten Werte berücksichtigen. Die Streuung der Werte um ihren Mittelwert kann z.B. mithilfe der „Variation“ gemessen werden, die das -fache der Varianz darstellt (). Die Streuung der Schätzwerte um ihren Mittelwert ist durch gegeben und die Streuung der Messwerte um ihren Mittelwert durch . Erstere stellt die „durch die Regression erklärte Variation“ und letztere stellt die „Gesamtvariation“ dar. Der Quotient dieser beiden Größen wird auch als Bestimmtheitsmaß bezeichnet.

Das Bestimmtheitsmaß[Bearbeiten | Quelltext bearbeiten]

Definition[Bearbeiten | Quelltext bearbeiten]

Die durch die einfache lineare Regression gewonnene Gerade (hier: ) (rechts) liefert eine bessere Anpassung an die Daten im Vergleich zum einfachen arithmetischen Mittel der Messwerte (links). Die Flächen der blauen Quadrate stellen die quadrierten Residuen dar. Die Flächen der roten Quadrate stellen die quadrierten Abweichungen der Messwerte von ihrem arithmetischen Mittel dar. Da die Summe der roten Quadrate ergibt und die Summe der blauen Quadrate ist das Bestimmtheitsmaß gegeben durch .

Das Bestimmtheitsmaß ist definiert als Quotient der durch die Regression erklärten Variation und der Gesamtvariation:[1]

.

In der Literatur findet man auch folgende Notation für die

  • Gesamtvariation (Variation der Messwerte ): (total sum of squares),
  • nicht erklärte Variation (Variation der Residuen ): (residual sum of squares) und
  • durch die Regression erklärte Variation (Variation der Schätzwerte ): (explained sum of squares).

Im Falle der einfachen linearen Regression entspricht das Bestimmtheitsmaß dem Quadrat des Bravais-Pearson-Korrelationskoeffizienten . Dieser Umstand ist dafür verantwortlich, dass das Bestimmtheitsmaß meist als (lies: R Quadrat) oder auch notiert wird. In deutschsprachiger Literatur findet sich auch der Buchstabe als Bezeichnung für das Bestimmtheitsmaß. In den Anfängen der Statistik wurde mit dem Buchstaben ein Schätzer des Populationskorrelationskoeffizienten notiert und in der Regressionsanalyse wird diese Notation noch heute verwendet.[2]

Das Bestimmtheitsmaß dient als einfache Maßzahl zur Beurteilung der Anpassungsgüte eines Regressionsmodells. Mit dieser Gleichung können die Extremwerte für aufgezeigt werden. Für das gilt, dass es näher am Wert ist, desto kleiner die Residuenquadratsumme ist und es wird maximal gleich , wenn ist, also alle Residuen Null sind. In diesem Fall ist die Anpassung an die Daten perfekt. Dies ist dann der Fall, wenn für jede Beobachtung ist, d. h. dass alle Beobachtungspunkte des Streudiagramms auf der Regressionsgeraden liegen und die Residuenwerte damit gleich sind. nimmt hingegen den Wert an, wenn beziehungsweise ist. Diese Gleichung besagt, dass die „nicht erklärte Variation“ der „gesamten zu erklärenden Variation“ entspricht und die erklärenden Variablen somit keinen Beitrag zur Erklärung der Gesamtvariation leisten. Die gesamte zu erklärende Variation wird in diesem Fall durch die Residuen hervorgerufen und die Regressionsgleichung erklärt in diesem Fall gar nicht.[3] Als Ergebnis daraus folgt . Wenn das Regressionsmodell keinen Achsenabschnitt enthält, dann kann das Bestimmtheitsmaß sogar negativ werden.[4] Mit dem Bestimmtheitsmaß wird auch indirekt der Zusammenhang zwischen der abhängigen und den unabhängigen Variablen gemessen (siehe Fehlerreduktionsmaße).[5][6]

Interpretation[Bearbeiten | Quelltext bearbeiten]

Bei der Interpretation wird das für gewöhnlich mit multipliziert, um es in Prozent anzugeben: ist dann der prozentuale Anteil der Variation in , der durch die lineare Regression erklärt wird, und liegt daher zwischen:[7]

  • (oder ): kein linearer Zusammenhang und
  • (oder ): perfekter linearer Zusammenhang.

Bei ist der lineare Schätzer im Regressionsmodell völlig unbrauchbar für die Vorhersage des Zusammenhangs zwischen und (z. B. kann man das tatsächliche Gewicht der Person überhaupt nicht mit dem Schätzer vorhersagen). Ist , dann lässt sich die abhängige Variable vollständig durch das lineare Regressionsmodell erklären. Anschaulich liegen dann die Messpunkte alle auf der Regressionsgeraden. Somit liegt bei diesem Fall kein stochastischer Zusammenhang vor, sondern ein deterministischer.

Aus einem kann man im Allgemeinen nicht schließen, ob das angenommene Regressionsmodell auch dem tatsächlichen funktionalen Zusammenhang in den Messpunkten entspricht (siehe auch Abschnitt zu Grenzen und Kritik). Der Vergleich des Bestimmtheitsmaßes über Modelle hinweg ist nur sinnvoll, wenn eine gemeinsame abhängige Variable vorliegt und wenn die Modelle die gleiche Anzahl von Regressionskoeffizienten und einen Achsenabschnitt aufweisen.

Konstruktion[Bearbeiten | Quelltext bearbeiten]

Ausgangspunkt für die Konstruktion des Bestimmtheitsmaßes ist die Streuungszerlegung auch Quadratsummenzerlegung genannt. Dazu betrachtetet man zunächst die Variation von , die ein Maß der Streuung der abhängigen Variablen um ihren Mittelwert darstellt. Die Variation von (die Gesamtvariation) kann in die Variation der Residuen (durch das Modell nicht erklärte Variation) und die Variation der Schätzwerte (durch das Modell erklärte Variation) zerlegt werden. Diese Zerlegung folgt in zwei Schritten:

  1. Da gewöhnliche Residuen vorliegen gilt

und somit ergibt sich die folgende Streuungszerlegungsformel

.

Hierbei stellt das arithmetische Mittel der observierten Datenpunkte dar und die sind die Schätzwerte aus dem multiplen Regressionsmodell

.

Im zweiten Schritt wurde die Eigenschaft benutzt, dass die Residuen mit den prognostizierten Werten unkorreliert sind, d.h. . Diese Unkorreliertheit der prognostizierten Werte mit den Residuen kann so interpretiert werden, dass in der Prognose bereits alle relevante Information der erklärenden Variablen bezüglich der abhängigen Variablen steckt.[8] Zudem wurde die Eigenschaft verwendet, dass die Summe und damit das arithmetische Mittel der Residuen Null ist (wenn das Modell den Achsenabschnitt enthält) (siehe Geometrische Eigenschaften der Kleinste-Quadrate-Schätzer).[9]

Wenn man die obige Streuungszerlegungsformel durch beziehungsweise durch die Anzahl der Freiheitsgrade dividiert, dann erhält man die Varianzzerlegungsformel:

.

Die Varianzzerlegung stellt eine additive Zerlegung der Varianz der abhängigen Variablen in die Varianz der vorhergesagten Werte (erklärte Varianz) und die nicht erklärte Varianz (Residualvarianz) dar.[10]

Als quadrierter Korrelationskoeffizient[Bearbeiten | Quelltext bearbeiten]

Hauptartikel: Einfache lineare Regression
Zusammenhang von Korrelationskoeffizient und Bestimmtheitsmaß

Bei einer einfachen linearen Regression (nur eine unabhängige Variable) entspricht dem Quadrat des Bravais-Pearson-Korrelationskoeffizienten und lässt sich aus der empirischen Kovarianz und den empirischen Varianzen und berechnen:

,

wobei

den Kleinste-Quadrate-Schätzer für den Steigungsparameter darstellt. Da sich das Bestimmtheitsmaß, in der einfachen linearen Regression, als quadrierter Korrelationskoeffizient darstellen lässt, gilt: Wenn der Korrelationskoeffizient gleich null ist, wird also auch das Bestimmtheitsmaß null.

Im Gegensatz zur einfachen linearen Regression ist in der multiplen linearen Regression (mehr als eine unabhängige Variable) das gerade gleich dem Quadrat des Korrelationskoeffizienten zwischen und den Schätzwerten , also [11].

Beispiel[Bearbeiten | Quelltext bearbeiten]

Folgendes Beispiel soll die Berechnung des Bestimmtheitsmaßes zeigen. Es wurden zufällig zehn Kriegsschiffe ausgewählt und zwei Merkmale, Länge () und Breite (), analysiert. Das Streudiagramm zeigt, dass zwischen Länge und Breite eines Schiffs offensichtlich ein linearer Zusammenhang besteht. Eine mittels der Methode der kleinsten Quadrate durchgeführte lineare Regression ergibt für die geschätzte Breite als Funktion der Länge

,

d. h. die Breite der ausgewählten Kriegsschiffe entspricht grob einem Sechstel der Länge.

Streudiagramm von Längen und Breiten von zehn zufällig ausgewählten Kriegsschiffen
Beobachtung Länge (m) Breite (m) Abweichung vom Mittelwert Quadrierte Abweichung Geschätzte Breite Residuum Quadriertes Residuum
1 208 21,6 3,19 10,1761 24,8916 -3,2916 10,8347
2 152 15,5 -2,91 8,4681 15,8625 -0,3625 0,1314
3 113 10,4 -8,01 64,1601 9,5744 0,8256 0,6817
4 227 31,0 12,59 158,5081 27,9550 3,045 9,2720
5 137 13,0 -5,41 29,2681 13,4440 -0,4440 0,1971
6 238 32,4 13,99 195,7201 29,7286 2,6714 7,1362
7 178 19,0 0,59 0,3481 20,0546 -1,0546 1,1122
8 104 10,4 -8,01 64,1601 8,1233 2,2767 5,1835
9 191 19,0 0,59 0,3481 22,1506 -3,1506 9,9265
10 130 11,8 -6,61 43,6921 12,3154 -0,5154 0,2656
1678 184,1 574,8490 0,0000 44,7405
167,8 18,41 57,48490 0,0000 4,47405

Der Mittelwert der Breite ist , die Variation von ist gleich und die Variation der Residuen . Daher ergibt sich das Bestimmtheitsmaß zu

,

d. h. circa der Variation der Breite der ausgewählten Kriegsschiffe kann mit Hilfe der Länge der ausgewählten Kriegsschiffe erklärt werden. Nur knapp der Variation der Breite bleiben unerklärt, d. h. hier könnte man z. B. nach weiteren Faktoren suchen, die die Breite eines Kriegsschiffes beeinflussen.

Auch mithilfe des Standardfehlers der Residuen, welcher sich als Wurzel der Residualvarianz ergibt, könnte die Qualität der Regression beurteilt werden. Der Standardfehler der Residuen ergibt einen Wert von

.

Es ist jedoch zu beachten, dass dies eine verzerrte Schätzung darstellt, da der verwendete Varianzschätzer nicht erwartungstreu ist. Wenn man statt durch durch die Anzahl der Freiheitsgrade dividiert erhält man die unverzerrte Darstellung

.

Zum Vergleich ist jedoch die Kenntnis der Variation der -Werte notwendig. Beim normierten Bestimmtheitsmaß kann man, ohne Kenntnis der Variation der -Werte, aufgrund des Wertes von sehen, dass die lineare Regression sehr gut ist.

Grenzen und Kritik[Bearbeiten | Quelltext bearbeiten]

Beispiele für Daten mit einem hohen (pink) und einem niedrigen (blau) Bestimmtheitsmaß bei einem zugrundegelegten linearen Modell
  • Das Bestimmtheitsmaß zeigt zwar die „Qualität“ der linearen Approximation, jedoch nicht, ob das Modell richtig spezifiziert wurde. Modelle, die mittels der Kleinste-Quadrate-Schätzung geschätzt wurden, werden daher die höchsten -Werte aufweisen.
  • Übliche Missverständnisse sind:
    • Bei einem hohen für einen Schätzer kann man auch folgern, dass der tatsächliche Zusammenhang linear ist. Die pinken Daten in der Grafik wurden mit einer nicht-linearen Funktion generiert[A 2]:
Durch die Betragsfunktion im Term nimmt die Funktion an der Stelle ihr Maximum an. Für höhere Werte von fällt die Funktion dann streng monoton mit der Steigung . Damit wäre der tatsächliche Zusammenhang in den Daten auch bei dem hohem nach Konstruktion natürlich nicht linear. Dennoch legt das hohe nahe, dass es sich um einen linearen Zusammenhang handelt.
  • Ein hohes gebe an, dass die geschätzte Regressionslinie überall eine gute Approximation an die Daten darstellt; die pinken Daten legen auch hier etwas anderes nahe.
  • Ein nahe bei Null zeigt an, dass es keinen Zusammenhang zwischen der abhängigen und den unabhängigen Variablen gibt. Die blauen Daten in der Grafik wurden mit der folgenden quadratischen Funktion generiert und besitzen daher einen deterministischen funktionalen Zusammenhang, der allerdings nicht linear ist[A 3].
Obwohl gleich Null ist, kann man also nicht daraus schließen, dass es keinen Zusammenhang zwischen der abhängigen und den unabhängigen Variablen für die konstruierten Datenpunkte gibt. Eine Regressionsanalyse für nichtlineare Fälle verallgemeinert die lineare Regression auf andere Klassen von Funktionen und mehrdimensionale Definitionsbereiche von .
  • Wählt man aus den dem Daten mit quadratischem Zusammenhang (Parabel ) nur die Datenpunkte mit positivem -Werten aus, dann kann auch das sehr hoch sein und bei einem nach Konstruktion der Daten immer noch gegebenen quadratischem Zusammenhang durch in den Messdaten dennoch eine lineare Modellannahme suggerieren (z. B. wenn man nur die Daten aus der Parabel wählt, in der die Funktion positive Steigung besitzt).
  • (Korrellation/Kausaler Zusammenhang) Das Bestimmtheitsmaß sagt nichts darüber aus, ob die unabhängige Variable der Grund (die kausale Ursache) für die Änderungen in sind. Z. B. könnte das Bestimmtheitsmaß zwischen der Anzahl der Störche und der Anzahl der neugeborenen Kinder in untersuchten Gebieten hoch sein. Einen kausalen Zusammenhang zwischen Störchen und Neugeborenen daraus herzuleiten, ist mit grundlegenden biologischen Kenntnissen natürlich nicht haltbar.[12]
Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen (beispielsweise Einzelnachweisen) ausgestattet. Die fraglichen Angaben werden daher möglicherweise demnächst entfernt. Bitte hilf der Wikipedia, indem du die Angaben recherchierst und gute Belege einfügst.
  • Außerdem sagt es nichts über die statistische Signifikanz des ermittelten Zusammenhangs und der einzelnen Regressoren aus. Dazu müsste die Stichprobengröße bekannt sein und ein Signifikanztest durchgeführt werden.
  • Es macht keine Aussage über Multikollinearität zwischen den unabhängigen Variablen .
  • Es macht keine Aussage, ob eine Transformation der Daten die Erklärungskraft der Regression verbessert.
  • Ein weiterer Nachteil liegt in der Empfindlichkeit gegenüber Trends: Wenn sich eine exogene Variable parallel zu einer erklärenden entwickelt, werden unabhängig von der wahren Erklärungskraft des Modells hohe ausgewiesen.

Das korrigierte Bestimmtheitsmaß[Bearbeiten | Quelltext bearbeiten]

Definition[Bearbeiten | Quelltext bearbeiten]

Das Bestimmtheitsmaß hat die Eigenschaft, dass es umso größer wird, je größer die Zahl der unabhängigen Variablen ist. Und zwar unabhängig davon, ob weitere unabhängige Variablen wirklich einen Beitrag zur Erklärungskraft liefern. Daher ist es ratsam, das korrigierte Bestimmtheitsmaß (auch bereinigtes, adjustiertes oder angepasstes Bestimmtheitsmaß genannt) zu Rate zu ziehen. Es berechnet sich wie folgt:[13]

.

Hierbei wird die Erklärungskraft des Modells, repräsentiert durch , ausbalanciert mit der Komplexität des Modells, repräsentiert durch , die Anzahl der unabhängigen Variablen (ohne Konstante). Je komplexer das Modell ist, desto mehr „bestraft“ jede neu hinzugenommene unabhängige Variable.

Das angepasste Bestimmtheitsmaß steigt nur, wenn ausreichend steigt, um den gegenläufigen Effekt des Quotienten auszugleichen und kann auch sinken. Auf diese Weise lässt sich als Entscheidungskriterium bei der Auswahl zwischen zwei alternativen Modellspezifikationen (etwa einem restringierten und einem unrestringierten Modell) verwenden.

Das korrigierte Bestimmtheitsmaß kann auch negative Werte annehmen und ist kleiner als das unbereinigte, außer falls , dann ist auch .

Konstruktion[Bearbeiten | Quelltext bearbeiten]

Aus der obigen Definition von folgt, dass

Wir wissen jedoch, dass und keine unverzerrten Schätzer für die Varianzen sind. Setzt man oben und unten unverzerrte Schätzer ein, so erhält man das korrigierte Bestimmtheitsmaß:

.

Anpassungsgüte-Test[Bearbeiten | Quelltext bearbeiten]

Beim F-Test der Gesamtsignifikanz des Modells (auch Overall-F-Test genannt) wird geprüft, ob mindestens eine Variable einen Erklärungsgehalt für das Modell liefert. Falls diese Hypothese verworfen wird ist somit das Modell nutzlos. Dieser Test lässt sich so interpretieren als würde man die gesamte Güte des Modells, also das des Modells, testen. Aus diesem Grund wird der F-Test der Gesamtsignifikanz des Modells auch als Anpassungsgüte-Test bezeichnet. Die Nullhypothese des F-Test der Gesamtsignifikanz des Modells sagt aus, dass alle erklärenden Variablen keinen Einfluss auf die abhängige Variable haben. Sowohl die abhängige Variable als auch die unabhängigen Variablen können binär (kategoriell) oder metrisch sein. Der Wald-Test kann dann die Hypothesen testen (ohne Einbezug des Achsenabschnittes):

  gegen  

Die Teststatistik dieses Tests lautet

.

Die Teststatistik ist F-verteilt mit und Freiheitsgraden. Überschreitet der empirische F-Wert einen kritischen F-Wert, der zu einem a priori festgelegten Signifikanzniveau , so verwirft man die Nullhypothese . Das ist dann ausreichend groß und mindestens ein Regressor trägt also vermutlich genügend viel Information zur Erklärung von bei. Es ist naheliegend bei hohen F-Werten die Nullhypothese zu verwerfen, da ein ein hohes Bestimmtheitsmaß zu einem hohen F-Wert führt. Wenn der Wald-Test für eine oder mehrere unabhängige Variablen die Nullhypothese ablehnt, dann kann man davon ausgehen, dass die zugehörigen Parameter ungleich Null sind, so dass die Variable(n) in das Modell mit einbezogen werden sollten.

Matrixnotation für das Bestimmtheitsmaß[Bearbeiten | Quelltext bearbeiten]

Unkorrigierte Streuungszerlegung[Bearbeiten | Quelltext bearbeiten]

Eine Streuungszerlegung, die nicht Mittelwertbereinigt beziehungsweise nicht zentriert ist nennt man unkorrigierte Streuungszerlegung. Beispielsweise lässt sich die Gesamte Variation der abhängigen Variablen (durch das Modell erklärte Variation) zerlegen in:

.

Korrigierte Streuungszerlegung[Bearbeiten | Quelltext bearbeiten]

In der multiplen linearen Regression, mit dem multiplen linearen Modell in Matrixnotation , ergibt sich das Bestimmtheitsmaß durch die korrigierte (um den Mittelwert bereinigte) Streuungszerlegung

, wobei ein Vektor mit den Elementen ist und definiert ist durch . Das Bestimmtheitsmaß ist dann gegeben durch:[14]

Alternativ lässt es sich auch darstellen als

,[15]

wobei den Kleinste-Quadrate-Schätzer darstellt. Im Gegensatz zur unkorrigierten Streuungszerlegung beinhaltet die korrigierte Streuungszerlegung nicht den Achsenabschnitt.

Bei der multiplen linearen Regression (mehr als eine unabhängige Variable) entspricht der maximalen Korrelation von mit allen Linearkombinationen :

.

Bestimmtheitsmaß bei Heteroskedastizität[Bearbeiten | Quelltext bearbeiten]

Das Bestimmtheitsmaß bei Heteroskedastizität ist gegeben durch:

.[16]

(für eine Erläuterung der Notation siehe Methode der verallgemeinerten kleinsten Quadrate)

Pseudo-Bestimmtheitsmaß[Bearbeiten | Quelltext bearbeiten]

Hauptartikel: Pseudo-Bestimmtheitsmaß

Im Falle einer (linearen) Regression mit einer abhängigen metrischen Variablen wird die Varianz von benutzt um die Güte des Regressionsmodells zu beschreiben. Bei einem nominalen oder ordinalen Skalenniveau von existiert jedoch kein Äquivalent, da man die Varianz und damit ein nicht berechnen kann. Für diese wurden verschiedene Pseudo-Bestimmtheitsmaße vorgeschlagen.

Prognose-Bestimmtheitsmaß[Bearbeiten | Quelltext bearbeiten]

Hauptartikel: PRESS-Statistik

Während das Bestimmtheitsmaß, das korrigierte Bestimmtheitsmaß oder auch die Pseudo-Bestimmtheitsmaße eine Aussage über die Modellgüte machen, zielt das Prognose-Bestimmtheitsmaß auf die Vorhersagequalität des Modells. Im Allgemeinen wird das Prognose-Bestimmtheitsmaß kleiner als das Bestimmtheitsmaß sein.

Zunächst wird der PRESS-Wert (engl.: Predicted Residual Error Sum of Squares) berechnet

ist der beobachtete Wert und der Wert, der sich als Schätzung von ergibt, wenn alle Beobachtungen außer der iten in das Regressionsmodell einfließen. D. h. zur Berechnung des PRESS Wertes müssten lineare Regressionsmodelle mit jeweils Beobachtungen berechnet werden.

Es lässt sich jedoch zeigen, dass das Residuum aus den Regressionsresiduen (bei Benutzung aller Beobachtungen) berechnet werden kann.

Das Prognose-Bestimmtheitsmaß ergibt sich dann als

mit der Mittelwert aller -Werte.

Weblinks[Bearbeiten | Quelltext bearbeiten]

 Wikibooks: Einführung in die Regressionsrechnung – Lern- und Lehrmaterialien
 Commons: Bestimmtheitsmaß – Sammlung von Bildern, Videos und Audiodateien

Literatur[Bearbeiten | Quelltext bearbeiten]

  • Neter, J., Kutner, M.H., Nachtsheim, C.J., Wasserman, W. (1996), Applied linear statistical models (Fourth edition), McGraw-Hill

Anmerkungen[Bearbeiten | Quelltext bearbeiten]

  1. Die durch die Kleinste-Quadrate-Schätzung gewonnenen Schätzer und werden oft auch als und notiert
  2. Bestimmung der Funktion auf Grundlage der verwendeten Abbildung, Engelbert Niehaus (2017) - Koeffizienten und Typ der Abbildung wurden aus dem Diagramm abgelesen, um Abbildung und Funktionsterm konsistent zu halten. Bestimmung der Koeffizienten von dem Funktionsterm erfolgte, um die nebenstehende Abbildung nicht verändern zu müssen.
  3. Bestimmung der quadratischen Funktion auf Grundlage der verwendeten Abbildung, Engelbert Niehaus (2017) - Koeffizienten und Typ der Abbildung wurden aus dem Diagramm abgelesen, um Abbildung und Funktionsterm konsistent zu halten. Bestimmung der Koeffizienten von dem Funktionsterm erfolgte, um die nebenstehende Abbildung nicht verändern zu müssen.

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. L. Fahrmeir, R. Künstler u. a.: Statistik. Der Weg zur Datenanalyse. 8. Auflage. Springer 2016, S. 151.
  2. Wooldridge, Jeffrey M.: Introductory econometrics: A modern approach. 4. Auflage. Nelson Education 2015, S. 40.
  3. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Models, Methods and Applications., S. 113
  4. Von Auer: Ökonometrie. Eine Einführung. 6. Auflage, S. 69.
  5. Yule, G.U. (1897), On the theory of correlation, Journal of the Royal Statistical Society, 62, S. 249–295.
  6. Pearson, K., Lee, A. (1897), On the Distribution of Frequency (Variation and Correlation) of the Barometric Height at Divers Stations, Philosophical Transactions of the Royal Society of London. Series A, Vol. 190, S. 423–469.
  7. Wooldridge, Jeffrey M.: Introductory econometrics: A modern approach. 4. Auflage. Nelson Education 2015, S. 40.
  8. Rainer Schlittgen: Regressionsanalysen mit R., ISBN 978-3-486-73967-1, S. 27 (abgerufen über De Gruyter Online).
  9. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Models, Methods and Applications., S. 112
  10. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Models, Methods and Applications., S. 113
  11. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Models, Methods and Applications., S. 1.15
  12. J. Neyman et al.: Lectures and conferences on mathematical statistics and probability (1952).
  13. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Models, Methods and Applications., S. 147 ff.
  14. G. Judge und R. Carter Hill: Introduction to the Theory and Practice of Econometrics. 1998, S. 845.
  15. Rainer Schlittgen: Regressionsanalysen mit R., ISBN 978-3-486-73967-1, S. 29 (abgerufen über De Gruyter Online).
  16. Rainer Schlittgen: Regressionsanalysen mit R., ISBN 978-3-486-73967-1, S. 52 (abgerufen über De Gruyter Online).