Bestimmtheitsmaß

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Das Bestimmtheitsmaß, auch Determinationskoeffizient (von lat. determinatio „Abgrenzung, Bestimmung“ und coefficere „mitwirken“) ist in der Statistik eine wichtige Kennzahl zur Beurteilung der Anpassungsgüte einer Regression. In der multiplen linearen Regression ist es definiert als Quotient der durch die Regression erklärten Variation und der gesamten zu erklärenden Variation und zeigt somit, wie viel Variation in den Daten durch ein vorliegendes Regressionsmodell erklärt werden kann. Das Bestimmtheitsmaß entspricht bei Anwendung der einfachen linearen Regression und der multiplen linearen Regression dem Quadrat des Bravais-Pearson-Korrelationskoeffizient. Ansonsten existieren meist mehrere unterschiedliche Definitionen, wie zum Beispiel bei den Pseudo-Bestimmtheitsmaßen. Die Konstruktion des Bestimmtheitsmaßes erfolgt mittels der Streuungszerlegung, bei der die gesamte Variation der abhängigen Variablen in die (durch das Regressionsmodell) erklärte Variation, und in die Variation der Residuen zerlegt wird. Da das Bestimmtheitsmaß automatisch durch die Aufnahme zusätzlicher Variablen wächst und somit die Gefahr der Überanpassung besteht, wird für praktische Anwendungen meist das korrigierte Bestimmtheitsmaß verwendet. Das korrigierte Bestimmtheitsmaß „bestraft“ im Gegensatz zum unkorrigierten Bestimmtheitsmaß die Aufnahme jeder neu hinzugenommenen unabhängigen Variable.

Einführung in die Problemstellung[Bearbeiten | Quelltext bearbeiten]

Regressiongerade als Schätzer (Modellfunktion) für den Zusammenhang von Alter und Gewicht der Probanden. ist das geschätzte Gewicht des Probanden bei einem gegebenen Alter . Das Residuum (hier: ) ist durch die rote vertikale Linie gekennzeichnet und der Fehlterm (hier: ) durch die blaue vertikale Linie.

Gegeben sind Messungen , d. h. bei dem -ten Wertepaar wird einem Wert (z. B. Alter einer Person) ein Messwert (z. B. das gemessene Gewicht der Person) zugeordnet.

Dazu berechnet man das arithmetische Mittel (z. B. das mittlere Gewicht der Probanden). Ferner gibt es einen Schätzer (Modellfunktion), der jedem Wert (z. B. Alter) einen Schätzwert (vorhergesagtes Gewicht für eine Person mit Alter ) zuordnet. Eine wichtige Eigenschaft der Schätzwerte ist, dass ihr arithmetisches Mittels dem der beobachteten Messwerte entspricht, also . Die Abweichung einer Schätzung von der zugehörigen Messung ist durch gegeben und wird als „Residuum“ bezeichnet. Bei der einfachen linearen Regression wird der Schätzer anschaulich durch die Regressionsgerade beschrieben und mathematisch durch definiert.[A 1] Fraglich ist, wie gut die durch die Schätzung gefundene Modellfunktion zu den Daten passt, d. h. wie gut sich die geschätzte Gerade einer angenommenen wahren Gerade annähert. Ein Maß zur Beurteilung der Anpassungsgüte sollte die Streuung der Messwerte und die der geschätzten Werte berücksichtigen. Die Streuung der Werte um ihren Mittelwert kann z.B. mithilfe der „Variation“ gemessen werden, die das -fache der Varianz darstellt (). Die Streuung der Schätzwerte um ihren Mittelwert ist durch gegeben und die Streuung der Messwerte um ihren Mittelwert durch . Erstere stellt die „durch die Regression erklärte Variation“ (explained sum of squares kurz ESS) und letztere stellt die „Gesamtvariation“ (total sum of squares kurz TSS) dar. Der Quotient dieser beiden Größen wird auch als Bestimmtheitsmaß bezeichnet. Die durch die Regression „nicht erklärte Variation“ bzw. die „Variation der Residuen“ (residual sum of squares kurz RSS) ist durch gegeben.

Das Bestimmtheitsmaß[Bearbeiten | Quelltext bearbeiten]

Definition[Bearbeiten | Quelltext bearbeiten]

Die durch die einfache lineare Regression gewonnene Gerade (hier: ) (rechts) liefert eine bessere Anpassung an die Daten im Vergleich zum einfachen arithmetischen Mittel der Messwerte (links). Die Flächen der blauen Quadrate stellen die quadrierten Residuen dar. Die Flächen der roten Quadrate stellen die quadrierten Abweichungen der Messwerte von ihrem arithmetischen Mittel dar. Da die Summe der roten Quadrate ergibt und die Summe der blauen Quadrate ist das Bestimmtheitsmaß gegeben durch .

Das Bestimmtheitsmaß ist definiert als Quotient der durch die Regression erklärten Variation und der Gesamtvariation:[1]

,

wobei angenommen wird, dass für die Gesamtvariation gilt. Dies ist praktisch immer erfüllt, außer für den seltenen Fall, dass keinerlei Variabilität aufweist, d. h. . In diesem Falle ist das Bestimmtheitsmaß nicht definiert.

Bei der einfachen linearen Regression entspricht das Bestimmtheitsmaß dem Quadrat des Bravais-Pearson-Korrelationskoeffizienten (siehe auch Abschnitt Als quadrierter Korrelationskoeffizient). Dieser Umstand ist dafür verantwortlich, dass das Bestimmtheitsmaß meist als (lies: R Quadrat) oder auch notiert wird. In deutschsprachiger Literatur findet sich auch der Buchstabe als Bezeichnung für das Bestimmtheitsmaß. In den Anfängen der Statistik wurde mit dem Buchstaben ein Schätzer des Populationskorrelationskoeffizienten notiert und in der Regressionsanalyse wird diese Notation noch heute verwendet.[2]

Eigenschaften[Bearbeiten | Quelltext bearbeiten]

Extremwerte[Bearbeiten | Quelltext bearbeiten]

Das Bestimmtheitsmaß dient als einfache Maßzahl zur Beurteilung der Anpassungsgüte eines Regressionsmodells. Mit dieser Gleichung können die Extremwerte für das Bestimmtheitsmaß aufgezeigt werden. Für das das Bestimmtheitsmaß gilt, dass es näher am Wert ist, desto kleiner die Residuenquadratsumme ist und es wird maximal gleich , wenn ist, also alle Residuen Null sind. In diesem Fall ist die Anpassung an die Daten perfekt. Dies ist dann der Fall, wenn für jede Beobachtung ist, d. h. dass alle Beobachtungspunkte des Streudiagramms auf der Regressionsgeraden liegen und die Residuenwerte damit gleich sind. Das Bestimmtheitsmaß nimmt hingegen den Wert an, wenn beziehungsweise ist. Diese Gleichung besagt, dass die „nicht erklärte Variation“ der „gesamten zu erklärenden Variation“ entspricht und die erklärenden Variablen somit keinen Beitrag zur Erklärung der Gesamtvariation leisten. Die gesamte zu erklärende Variation wird in diesem Fall durch die Residuen hervorgerufen und die Regressionsgleichung erklärt in diesem Fall gar nicht.[3] Als Ergebnis daraus folgt . Wenn das Regressionsmodell keinen Achsenabschnitt enthält, dann kann das Bestimmtheitsmaß sogar negativ werden.[4]

Als quadrierter Korrelationskoeffizient[Bearbeiten | Quelltext bearbeiten]

Bei einer einfachen linearen Regression (nur eine unabhängige Variable) entspricht das Bestimmtheitsmaß dem Quadrat des Bravais-Pearson-Korrelationskoeffizienten und lässt sich aus der empirischen Kovarianz und den empirischen Varianzen und berechnen:

,[1]

wobei den Kleinste-Quadrate-Schätzer für den Steigungsparameter darstellt. Da sich das Bestimmtheitsmaß, in der einfachen linearen Regression, als quadrierter Korrelationskoeffizient darstellen lässt, gilt: Wenn der Korrelationskoeffizient gleich null ist, wird also auch das Bestimmtheitsmaß null.

Im Gegensatz zur einfachen linearen Regression ist in der multiplen linearen Regression (hierbei ist die Anzahl der zu schätzenden Parameter und die Anzahl der erklärenden Variablen) das gerade gleich dem Quadrat des Korrelationskoeffizienten zwischen den Messwerten und den Schätzwerten , also .[5]

Genestetes Modell[Bearbeiten | Quelltext bearbeiten]

Sei der der Vektor der erklärenden Variablen. Ferner wird angenommen, dass in zwei Subvektoren und partitioniert wird, d. h. . Sei weiterhin das volle Modell und das Submodell , dann gilt . D. h. für genestete Modelle ist das des Submodells immer kleiner oder gleich dem des vollen Modells.[6]

Interpretation[Bearbeiten | Quelltext bearbeiten]

Residualplot ohne Struktur, der liefert
Residualplot der ein nahe bei liefert

Mit dem Bestimmtheitsmaß wird auch indirekt der Zusammenhang zwischen der abhängigen und den unabhängigen Variablen gemessen (siehe Fehlerreduktionsmaße).[7][8] Bei der Interpretation wird das das Bestimmtheitsmaß für gewöhnlich mit multipliziert, um es in Prozent anzugeben: ist dann der prozentuale Anteil der Variation in , der durch die lineare Regression erklärt wird, und liegt daher zwischen:[9]

  • (oder ): kein linearer Zusammenhang und
  • (oder ): perfekter linearer Zusammenhang.

Bei ist der lineare Schätzer im Regressionsmodell völlig unbrauchbar für die Vorhersage des Zusammenhangs zwischen und (z. B. kann man das tatsächliche Gewicht der Person überhaupt nicht mit dem Schätzer vorhersagen). Ist , dann lässt sich die abhängige Variable vollständig durch das lineare Regressionsmodell erklären. Anschaulich liegen dann die Messpunkte alle auf der Regressionsgeraden. Somit liegt bei diesem Fall kein stochastischer Zusammenhang vor, sondern ein deterministischer.

Aus dem Bestimmtheitsmaß kann man im Allgemeinen nicht schließen, ob das angenommene Regressionsmodell auch dem tatsächlichen funktionalen Zusammenhang in den Messpunkten entspricht (siehe auch Abschnitt zu Grenzen und Kritik). Der Vergleich des Bestimmtheitsmaßes über Modelle hinweg ist nur sinnvoll, wenn eine gemeinsame abhängige Variable vorliegt und wenn die Modelle die gleiche Anzahl von Regressionskoeffizienten und einen Achsenabschnitt aufweisen.[10]

Konstruktion[Bearbeiten | Quelltext bearbeiten]

Hauptartikel: Variation und Kovariation

Ausgangspunkt für die Konstruktion des Bestimmtheitsmaßes ist die Streuungszerlegung auch Quadratsummenzerlegung genannt. Dazu betrachtetet man zunächst die Variation von , die ein Maß der Streuung der abhängigen Variablen um ihren Mittelwert darstellt. Die Variation von (die Gesamtvariation) kann in die Variation der Residuen (durch das Modell nicht erklärte Variation) und die Variation der Schätzwerte (durch das Modell erklärte Variation) zerlegt werden. Diese Zerlegung folgt in zwei Schritten:

  1. Da gewöhnliche Residuen vorliegen gilt

Hierbei stellt das arithmetische Mittel der observierten Datenpunkte dar und die sind die Schätzwerte aus dem multiplen Regressionsmodell. Im zweiten Schritt wurde die Eigenschaft benutzt, dass die Residuen mit den prognostizierten Werten unkorreliert sind, d. h. . Diese Unkorreliertheit der prognostizierten Werte mit den Residuen kann so interpretiert werden, dass in der Prognose bereits alle relevante Information der erklärenden Variablen bezüglich der abhängigen Variablen steckt.[11] Zudem wurde die Eigenschaft verwendet, dass die Summe und damit das arithmetische Mittel der Residuen Null ist (wenn das Modell den Achsenabschnitt enthält) (siehe Geometrische Eigenschaften der Kleinste-Quadrate-Schätzer).[12] Da der Ausdruck in zweiten Schritt Null ist ergibt sich die folgende Streuungszerlegungsformel

oder kürzer

.

Aus der Streuungszerlegungsformel wird ersichtlich, dass man das Bestimmtheitsmaß auch als

.

darstellen kann. Werden die Regressionskoeffizienten mittels der Methode der kleinsten Quadrate (engl. ordinary least squares kurz OLS) geschätzt, dann wird der Wert für automatisch maximiert, da die Methode der kleinste Quadrate die Variation der Residuen minimiert.

Wenn man die obige Streuungszerlegungsformel durch beziehungsweise durch die Anzahl der Freiheitsgrade dividiert, dann erhält man die Varianzzerlegungsformel: . Die Varianzzerlegung stellt eine additive Zerlegung der Varianz der abhängigen Variablen in die Varianz der vorhergesagten Werte (erklärte Varianz) und die nicht erklärte Varianz (auch Residualvarianz genannt) dar.[3] Aufgrund der Varianzzerlegung lässt sich das Bestimmtheitsmaß wie folgt interpretieren: Das gibt an, wieviel Varianzaufklärung alle erklärenden Variablen an der Varianz der abhängigen Variablen leisten.

Beispiel[Bearbeiten | Quelltext bearbeiten]

Folgendes Beispiel soll die Berechnung des Bestimmtheitsmaßes zeigen. Es wurden zufällig zehn Kriegsschiffe ausgewählt und zwei Merkmale, Länge () und Breite (), analysiert. Das Streudiagramm zeigt, dass zwischen Länge und Breite eines Schiffs offensichtlich ein linearer Zusammenhang besteht. Eine mittels der Methode der kleinsten Quadrate durchgeführte lineare Regression ergibt für die geschätzte Breite als Funktion der Länge

,

d. h. die Breite der ausgewählten Kriegsschiffe entspricht grob einem Sechstel der Länge.

Streudiagramm von Längen und Breiten von zehn zufällig ausgewählten Kriegsschiffen
Beobachtung Länge (m) Breite (m) Abweichung vom Mittelwert Quadrierte Abweichung Geschätzte Breite Residuum Quadriertes Residuum
1 208 21,6 3,19 10,1761 24,8916 −3,2916 10,8347
2 152 15,5 −2,91 8,4681 15,8625 −0,3625 0,1314
3 113 10,4 −8,01 64,1601 9,5744 0,8256 0,6817
4 227 31,0 12,59 158,5081 27,9550 3,045 9,2720
5 137 13,0 −5,41 29,2681 13,4440 −0,4440 0,1971
6 238 32,4 13,99 195,7201 29,7286 2,6714 7,1362
7 178 19,0 0,59 0,3481 20,0546 −1,0546 1,1122
8 104 10,4 −8,01 64,1601 8,1233 2,2767 5,1835
9 191 19,0 0,59 0,3481 22,1506 −3,1506 9,9265
10 130 11,8 −6,61 43,6921 12,3154 −0,5154 0,2656
1678 184,1 574,8490 0,0000 44,7405
167,8 18,41 57,48490 0,0000 4,47405

Der Mittelwert der Breite ist , die Variation von ist gleich und die Variation der Residuen . Daher ergibt sich das Bestimmtheitsmaß zu

,

d. h. circa der Variation der Breite der ausgewählten Kriegsschiffe kann mit Hilfe der Länge der ausgewählten Kriegsschiffe erklärt werden. Nur knapp der Variation der Breite bleiben unerklärt, d. h. hier könnte man z. B. nach weiteren Faktoren suchen, die die Breite eines Kriegsschiffes beeinflussen.

Vergleich mit dem Standardfehler der Residuen[Bearbeiten | Quelltext bearbeiten]

Auch mithilfe des geschätzten Standardfehlers der Residuen (engl. residual standard error), welcher sich als Wurzel der Residualvarianz ergibt, könnte die „Qualität“ der Regression beurteilt werden. Der geschätzte Standardfehler der Residuen ist mit dem und dem korrigierten vergleichbar und auch ähnlich zu interpretieren. Der geschätzte Standardfehler der Residuen, der sich aus der obigen Tabelle berechnen lässt, ergibt einen Wert von:

.

Es ist jedoch zu beachten, dass dies eine verzerrte Schätzung darstellt, da der verwendete Varianzschätzer nicht erwartungstreu ist. Wenn man berücksichtigt, dass man durch die Schätzung der beiden Regressionskoeffizienten zwei Freiheitsgrade verliert und somit statt durch durch die Anzahl der Freiheitsgrade dividiert, erhält man die unverzerrte Darstellung:

.

Dies eine unverzerrte Darstellung, da durch Einbezug der Freiheitsgerade der Varianzschätzer, wegen , unter den Gauss-Markov-Annahmen erwartungstreu ist (siehe auch Schätzer für die Fehlervarianz).[13]

Zum Vergleich ist jedoch die Kenntnis der Variation der -Werte notwendig. Beim normierten Bestimmtheitsmaß kann man, ohne Kenntnis der Variation der -Werte, aufgrund des Wertes von sehen, dass die lineare Regression sehr gut ist.

Grenzen und Kritik[Bearbeiten | Quelltext bearbeiten]

Beispiele für Daten mit einem hohen (pink) und einem niedrigen (blau) Bestimmtheitsmaß bei einem zugrundegelegten linearen Modell
  • Das Bestimmtheitsmaß zeigt zwar die „Qualität“ der linearen Approximation, jedoch nicht, ob das Modell richtig spezifiziert wurde. Zum Beispiel könnte ein nicht-linearer Zusammenhang bei einer der unabhängigen Variablen vorliegen. In einem solchen Fall könnten die unabhängigen Variablen unentdeckte Erklärungskraft enthalten, auch dann wenn das Bestimmtheitsmaß einen Wert nahe bei Null aufweist.[3] Modelle, die mittels der Kleinste-Quadrate-Schätzung geschätzt wurden, werden daher die höchsten -Werte aufweisen.
  • Übliche Missverständnisse sind:
    • Bei einem hohen für einen Schätzer kann man auch folgern, dass der tatsächliche Zusammenhang linear ist. Die pinken Daten in der Grafik wurden mit einer nicht-linearen Funktion generiert:[A 2]
Durch die Betragsfunktion im Term nimmt die Funktion an der Stelle ihr Maximum an. Für höhere Werte von fällt die Funktion dann streng monoton mit der Steigung . Damit wäre der tatsächliche Zusammenhang in den Daten auch bei dem hohem nach Konstruktion natürlich nicht linear. Dennoch legt das hohe nahe, dass es sich um einen linearen Zusammenhang handelt.
  • Ein hohes gebe an, dass die geschätzte Regressionslinie überall eine gute Approximation an die Daten darstellt; die pinken Daten legen auch hier etwas anderes nahe.
  • Ein nahe bei Null zeigt an, dass es keinen Zusammenhang zwischen der abhängigen und den unabhängigen Variablen gibt. Die blauen Daten in der Grafik wurden mit der folgenden quadratischen Funktion generiert und besitzen daher einen deterministischen funktionalen Zusammenhang, der allerdings nicht linear ist.[A 3]
Obwohl gleich Null ist, kann man also nicht daraus schließen, dass es keinen Zusammenhang zwischen der abhängigen und den unabhängigen Variablen für die konstruierten Datenpunkte gibt. Eine Regressionsanalyse für nichtlineare Fälle verallgemeinert die lineare Regression auf andere Klassen von Funktionen und mehrdimensionale Definitionsbereiche von .
  • Wählt man aus den dem Daten mit quadratischem Zusammenhang (Parabel ) nur die Datenpunkte mit positivem -Werten aus, dann kann auch das sehr hoch sein und bei einem nach Konstruktion der Daten immer noch gegebenen quadratischem Zusammenhang durch in den Messdaten dennoch eine lineare Modellannahme suggerieren (z. B. wenn man nur die Daten aus der Parabel wählt, in der die Funktion positive Steigung besitzt).
  • (Korrelation/Kausaler Zusammenhang) Das Bestimmtheitsmaß sagt nichts darüber aus, ob die unabhängige Variable der Grund (die kausale Ursache) für die Änderungen in sind. Z. B. könnte das Bestimmtheitsmaß zwischen der Anzahl der Störche und der Anzahl der neugeborenen Kinder in untersuchten Gebieten hoch sein. Einen kausalen Zusammenhang zwischen Störchen und Neugeborenen daraus herzuleiten, ist mit grundlegenden biologischen Kenntnissen natürlich nicht haltbar.[14]
Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen (beispielsweise Einzelnachweisen) ausgestattet. Die fraglichen Angaben werden daher möglicherweise demnächst entfernt. Bitte hilf der Wikipedia, indem du die Angaben recherchierst und gute Belege einfügst.
  • Außerdem sagt es nichts über die statistische Signifikanz des ermittelten Zusammenhangs und der einzelnen Regressoren aus. Dazu müsste die Stichprobengröße bekannt sein und ein Signifikanztest durchgeführt werden.
  • Es macht keine Aussage über Multikollinearität zwischen den unabhängigen Variablen .
  • Es macht keine Aussage, ob eine Transformation der Daten die Erklärungskraft der Regression verbessert.
  • Ein weiterer Nachteil liegt in der Empfindlichkeit gegenüber Trends: Wenn sich eine exogene Variable parallel zu einer erklärenden entwickelt, werden unabhängig von der wahren Erklärungskraft des Modells hohe ausgewiesen.

Das korrigierte Bestimmtheitsmaß[Bearbeiten | Quelltext bearbeiten]

Definition[Bearbeiten | Quelltext bearbeiten]

Das Bestimmtheitsmaß hat die Eigenschaft, dass es umso größer wird, je größer die Zahl der unabhängigen Variablen ist. Und zwar unabhängig davon, ob weitere unabhängige Variablen wirklich einen Beitrag zur Erklärungskraft liefern. Daher ist es ratsam, das korrigierte Bestimmtheitsmaß (auch bereinigtes, adjustiertes oder angepasstes Bestimmtheitsmaß genannt) zu Rate zu ziehen. Das korrigierte Bestimmtheitsmaß wird mit (lies: R Quer Quadrat) oder notiert und berechnet sich wie folgt:[15]

.

Hierbei wird die Erklärungskraft des Modells, repräsentiert durch , ausbalanciert mit der Komplexität des Modells, repräsentiert durch , die Anzahl der Parameter. Je komplexer das Modell ist, desto mehr „bestraft“ jede neu hinzugenommene unabhängige Variable.

Das korrigierte Bestimmtheitsmaß steigt nur, wenn ausreichend steigt, um den gegenläufigen Effekt des Quotienten auszugleichen und kann auch sinken. Auf diese Weise lässt sich als Entscheidungskriterium bei der Auswahl zwischen zwei alternativen Modellspezifikationen (etwa einem restringierten und einem unrestringierten Modell) verwenden.

Das korrigierte Bestimmtheitsmaß kann auch negative Werte annehmen und ist kleiner als das unbereinigte, außer falls , dann ist auch . Als Ergebnis daraus folgt .

Konstruktion[Bearbeiten | Quelltext bearbeiten]

Aus der obigen Definition von folgt, dass

Wir wissen jedoch, dass und keine unverzerrten Schätzer für die Varianzen sind. Setzt man oben und unten unverzerrte Schätzer ein, d. h. teilt man die jeweiligen Quadratsummen durch ihre Freiheitsgrade, so erhält man das korrigierte Bestimmtheitsmaß:

.

Anpassungsgüte-Test[Bearbeiten | Quelltext bearbeiten]

Hauptartikel: Multiples Testen

Beim F-Test der Gesamtsignifikanz des Modells (auch Overall-F-Test genannt) wird geprüft, ob mindestens eine Variable einen Erklärungsgehalt für das Modell liefert. Falls diese Hypothese verworfen wird ist somit das Modell nutzlos. Dieser Test lässt sich so interpretieren als würde man die gesamte Güte des Modells, also das des Modells, testen. Aus diesem Grund wird der F-Test der Gesamtsignifikanz des Modells auch als Anpassungsgüte-Test bezeichnet. Die Nullhypothese des F-Test der Gesamtsignifikanz des Modells sagt aus, dass alle erklärenden Variablen keinen Einfluss auf die abhängige Variable haben. Sowohl die abhängige Variable als auch die unabhängigen Variablen können binär (kategoriell) oder metrisch sein. Der Wald-Test kann dann die Hypothesen testen (ohne Einbezug des Achsenabschnittes):

  gegen  

Die Teststatistik dieses Tests lautet

.

Die Teststatistik ist F-verteilt mit und Freiheitsgraden. Überschreitet der empirische F-Wert einen kritischen F-Wert, der zu einem a priori festgelegten Signifikanzniveau , so verwirft man die Nullhypothese . Das ist dann ausreichend groß und mindestens ein Regressor trägt also vermutlich genügend viel Information zur Erklärung von bei. Es ist naheliegend bei hohen F-Werten die Nullhypothese zu verwerfen, da ein hohes Bestimmtheitsmaß zu einem hohen F-Wert führt. Wenn der Wald-Test für eine oder mehrere unabhängige Variablen die Nullhypothese ablehnt, dann kann man davon ausgehen, dass die zugehörigen Regressionskoeffizienten ungleich Null sind, so dass die Variable(n) in das Modell mit einbezogen werden sollten.

Matrixnotation für das Bestimmtheitsmaß[Bearbeiten | Quelltext bearbeiten]

Unkorrigierte Streuungszerlegung[Bearbeiten | Quelltext bearbeiten]

Eine Streuungszerlegung, die nicht Mittelwertbereinigt beziehungsweise nicht zentriert ist nennt man unkorrigierte Streuungszerlegung. Beispielsweise lässt sich die Gesamte Variation der abhängigen Variablen (durch das Modell erklärte Variation) zerlegen in:

.

Korrigierte Streuungszerlegung[Bearbeiten | Quelltext bearbeiten]

In der multiplen linearen Regression, mit dem multiplen linearen Modell in Matrixnotation , ergibt sich das Bestimmtheitsmaß durch die korrigierte (um den Mittelwert bereinigte) Streuungszerlegung

, wobei ein Vektor mit den Elementen ist und definiert ist durch . Das Bestimmtheitsmaß ist dann gegeben durch:[16]

Alternativ lässt es sich auch darstellen als

,[17]

wobei den Kleinste-Quadrate-Schätzer darstellt. Im Gegensatz zur unkorrigierten Streuungszerlegung beinhaltet die korrigierte Streuungszerlegung nicht den Achsenabschnitt.

Bei der multiplen linearen Regression (mehr als eine unabhängige Variable) entspricht der maximalen Korrelation von mit allen Linearkombinationen :

.

Bestimmtheitsmaß bei Heteroskedastizität[Bearbeiten | Quelltext bearbeiten]

Wenn die Anpassung durch die Methode der verallgemeinerten kleinsten Quadrate erfolgt, können alternative Versionen des entsprechend dieses statistischen Rahmenwerkes berechnet werden, während das „einfache“ immer noch nützlich sein kann, da es einfacher zu interpretieren ist. Das Bestimmtheitsmaß bei Heteroskedastizität, also bei Vorliegen einer nicht-konstanten Fehlerkovarianzmatrix , ist gegeben durch:

.[18]

(für eine Erläuterung der Notation siehe Multiples lineares Modell mit allgemeiner Fehlerstruktur)

Pseudo-Bestimmtheitsmaß[Bearbeiten | Quelltext bearbeiten]

Hauptartikel: Pseudo-Bestimmtheitsmaß

Im Falle einer (linearen) Regression mit einer abhängigen metrischen Variablen wird die Varianz von benutzt um die Güte des Regressionsmodells zu beschreiben. Bei einem nominalen oder ordinalen Skalenniveau von existiert jedoch kein Äquivalent, da man die Varianz und damit ein nicht berechnen kann. Für diese wurden verschiedene Pseudo-Bestimmtheitsmaße vorgeschlagen.

Prognose-Bestimmtheitsmaß[Bearbeiten | Quelltext bearbeiten]

Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen (beispielsweise Einzelnachweisen) ausgestattet. Die fraglichen Angaben werden daher möglicherweise demnächst entfernt. Bitte hilf der Wikipedia, indem du die Angaben recherchierst und gute Belege einfügst.
Hauptartikel: PRESS-Statistik

Während das Bestimmtheitsmaß, das korrigierte Bestimmtheitsmaß oder auch die Pseudo-Bestimmtheitsmaße eine Aussage über die Modellgüte machen, zielt das Prognose-Bestimmtheitsmaß auf die Vorhersagequalität des Modells. Im Allgemeinen wird das Prognose-Bestimmtheitsmaß kleiner als das Bestimmtheitsmaß sein.

Zunächst wird der PRESS-Wert (engl.: Predicted Residual Error Sum of Squares) berechnet

Hierbei ist der beobachtete Wert und der Wert, der sich als Schätzung von ergibt, wenn alle Beobachtungen außer der -ten in das Regressionsmodell einfließen. D. h. zur Berechnung des PRESS-Wertes müssten lineare Regressionsmodelle mit jeweils Beobachtungen berechnet werden.

Es lässt sich jedoch zeigen, dass das Residuum aus den Regressionsresiduen (bei Benutzung aller Beobachtungen) berechnet werden kann.

Das Prognose-Bestimmtheitsmaß ergibt sich dann als

.

Weblinks[Bearbeiten | Quelltext bearbeiten]

 Wikibooks: Einführung in die Regressionsrechnung – Lern- und Lehrmaterialien
 Commons: Bestimmtheitsmaß – Sammlung von Bildern, Videos und Audiodateien

Literatur[Bearbeiten | Quelltext bearbeiten]

  • Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Modelle, Methoden und Anwendungen. 2. Auflage. Springer Verlag, 2009, ISBN 978-3-642-01836-7.
  • Neter, J., Kutner, M.H., Nachtsheim, C.J., Wasserman, W. (1996), Applied linear statistical models (Fourth edition), McGraw-Hill
  • Judge, G. G., Hill, R. C., Griffiths, W., Lütkepohl, H., & Lee, T. C. (1988). Introduction to the Theory and Practice of Econometrics.

Anmerkungen[Bearbeiten | Quelltext bearbeiten]

  1. Die durch die Kleinste-Quadrate-Schätzung gewonnenen Schätzer und werden oft auch als und notiert
  2. Bestimmung der Funktion auf Grundlage der verwendeten Abbildung, Engelbert Niehaus (2017) - Koeffizienten und Typ der Abbildung wurden aus dem Diagramm abgelesen, um Abbildung und Funktionsterm konsistent zu halten. Bestimmung der Koeffizienten von dem Funktionsterm erfolgte, um die nebenstehende Abbildung nicht verändern zu müssen.
  3. Bestimmung der quadratischen Funktion auf Grundlage der verwendeten Abbildung, Engelbert Niehaus (2017) - Koeffizienten und Typ der Abbildung wurden aus dem Diagramm abgelesen, um Abbildung und Funktionsterm konsistent zu halten. Bestimmung der Koeffizienten von dem Funktionsterm erfolgte, um die nebenstehende Abbildung nicht verändern zu müssen.

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. a b L. Fahrmeir, R. Künstler u. a.: Statistik. Der Weg zur Datenanalyse. 8. Auflage. Springer 2016, S. 151.
  2. Wooldridge, Jeffrey M.: Introductory econometrics: A modern approach. 4. Auflage. Nelson Education 2015, S. 40.
  3. a b c Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Models, Methods and Applications., S. 113.
  4. Von Auer: Ökonometrie. Eine Einführung. 6. Auflage, S. 69.
  5. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Models, Methods and Applications., S. 115
  6. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Models, Methods and Applications., S. 115
  7. Yule, G.U. (1897), On the theory of correlation, Journal of the Royal Statistical Society, 62, S. 249–295.
  8. Pearson, K., Lee, A. (1897), On the Distribution of Frequency (Variation and Correlation) of the Barometric Height at Divers Stations, Philosophical Transactions of the Royal Society of London. Series A, Vol. 190, S. 423–469.
  9. Wooldridge, Jeffrey M.: Introductory econometrics: A modern approach. 4. Auflage. Nelson Education 2015, S. 40.
  10. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Models, Methods and Applications., S. 114
  11. Rainer Schlittgen: Regressionsanalysen mit R., ISBN 978-3-486-73967-1, S. 27 (abgerufen über De Gruyter Online).
  12. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Models, Methods and Applications., S. 112
  13. Wooldridge, Jeffrey M.: Introductory econometrics: A modern approach. 4. Auflage. Nelson Education 2015, S. 110.
  14. J. Neyman et al.: Lectures and conferences on mathematical statistics and probability (1952).
  15. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Models, Methods and Applications., S. 147 ff.
  16. G. Judge und R. Carter Hill: Introduction to the Theory and Practice of Econometrics. 1998, S. 845.
  17. Rainer Schlittgen: Regressionsanalysen mit R., ISBN 978-3-486-73967-1, S. 29 (abgerufen über De Gruyter Online).
  18. Rainer Schlittgen: Regressionsanalysen mit R., ISBN 978-3-486-73967-1, S. 52 (abgerufen über De Gruyter Online).