Bestimmtheitsmaß

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Das Bestimmtheitsmaß (auch Determinationskoeffizient) ist ein Gütemaß der Statistik. Es zeigt, wieviel Variation in den Daten durch ein vorliegendes Regressionsmodell erklärt werden kann. Damit wird auch indirekt der Zusammenhang zwischen der abhängigen und den unabhängigen Variablen gemessen (siehe Fehlerreduktionsmaße).[1][2] Das Bestimmtheitsmaß wird meist als oder auch notiert, da es im Falle der einfachen linearen Regression und der multiplen linearen Regression das Quadrat des Korrelationskoeffizienten darstellt. Ansonsten existieren meist mehrere unterschiedliche Definitionen (siehe Pseudo-Bestimmtheitsmaß). Die Konstruktion des Bestimmtheitsmaßes erfolgt mittels der Quadratsummenzerlegung, bei der die gesamte Variation der abhängigen Variablen in die Variation der Residuen und in die Variation des Regressionsmodells zerlegt wird.

Das Bestimmtheitsmaß[Bearbeiten | Quelltext bearbeiten]

Regressiongerade als Schätzer (Modellfunktion) für den Zusammenhang von Längen und Breiten von Kriegsschiffen. ist die geschätzte Breite des Kriegsschiffes bei einer gegebenen Länge .
Zusammenhang von Korrelationskoeffizient und Bestimmtheitsmaß

Interpretation[Bearbeiten | Quelltext bearbeiten]

Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen (beispielsweise Einzelnachweisen) ausgestattet. Die fraglichen Angaben werden daher möglicherweise demnächst entfernt. Bitte hilf der Wikipedia, indem du die Angaben recherchierst und gute Belege einfügst.

Gegeben sind Messungen , d.h. bei dem -ten Wertepaar wird einem Wert (z.B. Alter einer Person) ein Messwert (z.B. das gemessene Gewicht der Person) zugeordnet.

Dazu berechnet man das arithmetische Mittel (z.B. das mittlere Gewicht der Probanden). Ferner gibt es einen Schätzer (Modellfunktion), der jedem Wert (z.B. Alter) einen Schätzwert (vorhergesagtes Gewicht für eine Person mit Alter ) zuordnet. Bei der Linearen Regression wird der Schätzer anschaulich durch die Regressionsgerade beschrieben und mathematisch durch definiert.

Der Abweichung einer Schätzung zu von der zugehörigen Messung wird mit notiert.

Die Maßzahl ist der Anteil der Variation der abhängigen Variablen (oder auch der Varianz von , da gilt ), der durch die lineare Regression erklärt wird, und liegt daher zwischen

  • 0 (oder 0 %): kein linearer Zusammenhang und
  • 1 (oder 100 %): perfekter linearer Zusammenhang.

Bei ist der lineare Schätzer im Regressionsmodell völlig unbrauchbar für die Vorhersage des Zusammenhangs zwischen und (z.B. man kann das tatsächliche Gewicht der Person überhaupt nicht mit dem Schätzer vorhersagen). Ist , dann lässt sich die abhängige Variable vollständig durch das lineare Regressionsmodell erklären. Anschaulich liegen dann die Messpunkte alle auf der Regressionsgeraden. Somit liegt bei diesem Fall kein stochastischer Zusammenhang vor, sondern ein deterministischer.

Aus einem kann man im Allgemeinen nicht schließen, ob das angenommene Regressionsmodell auch dem tatsächlichen funktionalen Zusammenhang in den Messpunkten entspricht (siehe auch Abschnitt zu Grenzen und Kritik).

Konstruktion[Bearbeiten | Quelltext bearbeiten]

Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen (beispielsweise Einzelnachweisen) ausgestattet. Die fraglichen Angaben werden daher möglicherweise demnächst entfernt. Bitte hilf der Wikipedia, indem du die Angaben recherchierst und gute Belege einfügst.

Die Variation von kann in die Variation der Residuen (durch das Modell nicht erklärte Variation) und die Variation der Regresswerte (durch das Modell erklärte Variation) zerlegt werden:

mit dem Mittelwert der observierten Datenpunkte, die geschätzten Regresswerte aus dem Regressionsmodell (). Dies folgt in zwei Schritten

  1. Falls gewöhnliche Residuen vorliegen, dann gilt
und
Dass alle Ausdrücke Null sind, folgt aus den verwendeten Schätzverfahren (Maximum-Likelihood-Methode mit normalverteilten Fehlern oder Kleinste-Quadrate-Methode). Denn die ersten Ableitungen nach müssen gleich Null gesetzt werden um das Maximum bzw. Minimum zu finden, also für : bzw. für mit : .

Damit wird das Bestimmtheitsmaß definiert als:

Mit dieser Gleichung können die Extremwerte für aufgezeigt werden. wird maximal gleich 1, wenn ist. Dies ist dann der Fall, wenn für jede Beobachtung ist, d. h. dass alle Beobachtungspunkte des Streudiagramms auf der Regressionsgeraden liegen und die Residuenwerte damit gleich 0 sind. nimmt hingegen den Wert 0 an, wenn bzw. ist. Diese Bedingung besagt, dass die nicht erklärte Variation der gesamten zu erklärenden Variation entspricht. Die Regressionsgleichung erklärt in diesem Fall gar nicht. Als Ergebnis daraus folgt:

In der Literatur findet man auch folgende Notation für die

  • Variation von : (total sum of squares),
  • nicht erklärte Variation: (regression sum of squares) und
  • erklärte Variation: (explained sum of squares).

Zusammenhang mit Korrelationskoeffizienten[Bearbeiten | Quelltext bearbeiten]

Bei einer einfachen linearen Regression (nur eine unabhängige Variable) entspricht dem Quadrat des Pearson’schen Korrelationskoeffizienten und lässt sich aus der empirischen Kovarianz und den empirischen Varianzen und berechnen:

Streudiagramm von Längen und Breiten von zehn zufällig ausgewählten Kriegsschiffen

In der einfachen linearen Regression entspricht das Bestimmtheitsmaß dem quadrierten Korrelationskoeffizient (nach Bravias-Pearson), also

Bei der multiplen linearen Regression (mehr als eine unabhängige Variable) entspricht dem Quadrat des Korrelationskoeffizienten zwischen der und den Schätzwerten , also [3]

Beispiel[Bearbeiten | Quelltext bearbeiten]

Folgendes Beispiel soll die Berechnung des Bestimmtheitsmaßes zeigen. Es wurden zufällig zehn Kriegsschiffe ausgewählt und zwei Merkmale, Länge (m) und Breite (m), analysiert. Das Streudiagramm zeigt, dass zwischen Länge und Breite eines Schiffs offensichtlich ein linearer Zusammenhang besteht. Lineare Regression ergibt für die geschätzte Breite als Funktion der Länge

,

d. h. die Breite der ausgewählten Kriegsschiffe entspricht grob einem Sechstel der Länge.

Nummer Länge (m) Breite (m) Abweichung vom Mittelwert Quadrierte Abweichung Geschätzte Breite Residuum Quadriertes Residuum
i
1 208 21,6 3,19 10,1761 24,8916 -3,2916 10,8347
2 152 15,5 -2,91 8,4681 15,8625 -0,3625 0,1314
3 113 10,4 -8,01 64,1601 9,5744 0,8256 0,6817
4 227 31,0 12,59 158,5081 27,9550 3,045 9,2720
5 137 13,0 -5,41 29,2681 13,4440 -0,4440 0,1971
6 238 32,4 13,99 195,7201 29,7286 2,6714 7,1362
7 178 19,0 0,59 0,3481 20,0546 -1,0546 1,1122
8 104 10,4 -8,01 64,1601 8,1233 2,2767 5,1835
9 191 19,0 0,59 0,3481 22,1506 -3,1506 9,9265
10 130 11,8 -6,61 43,6921 12,3154 -0,5154 0,2656
1678 184,1 574,8490 0,0000 44,7405
167,8 18,41 57,48490 0,0000 4,47405

Der Mittelwert der Breite ist  m, die Variation von ist gleich  m² und die Variation der Residuen  m². Daher ergibt sich das Bestimmtheitsmaß zu

,

d. h. ca. 92 % der Variation der Breite der ausgewählten Kriegsschiffe kann mit Hilfe der Länge der ausgewählten Kriegsschiffe erklärt werden. Nur knapp 8 % der Variation der Breite bleiben unerklärt, d. h. hier könnte man z. B. nach weiteren Faktoren suchen, die die Breite eines Kriegsschiffes beeinflussen.

Auch mit der Schätzung der Standardabweichung der Residuen könnte die Qualität der Regression eingeschätzt werden:

Zum Vergleich ist jedoch die Kenntnis der Variation der y-Werte notwendig. Beim normierten Bestimmtheitsmaß kann man, ohne Kenntnis der Variation der y-Werte, aufgrund des Wertes von 92 % sehen, dass die lineare Regression sehr gut ist.

Grenzen und Kritik[Bearbeiten | Quelltext bearbeiten]

Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen (beispielsweise Einzelnachweisen) ausgestattet. Die fraglichen Angaben werden daher möglicherweise demnächst entfernt. Bitte hilf der Wikipedia, indem du die Angaben recherchierst und gute Belege einfügst.
Beispiele für Daten mit einem hohen (pink) und einem niedrigen (blau) Bestimmtheitsmaß bei einem zugrundegelegten linearen Modell
  • Das Bestimmtheitsmaß zeigt zwar die Qualität der linearen Approximation, jedoch nicht, ob das Modell richtig spezifiziert wurde. Modelle, die mittels der Methode der kleinsten Quadrate geschätzt wurden, werden daher die höchsten erhalten.
  • Übliche Missverständnisse sind:
    • Bei einem hohen für einen Schätzer kann man auch folgern, dass der tatsächliche Zusammenhang linear ist. Die pinken Daten in der Grafik wurden mit einer nicht-linearen Funktion generiert[4]:
Durch die Betragsfunktion im Term nimmt die Funktion an der Stelle 0,9 ihr Maximum 1,4 an. Für höhere Werte von fällt die Funktion dann streng monoton mit der Steigung . Damit wäre der tatsächliche Zusammenhang in den Daten auch bei dem hohem nach Konstruktion natürlich nicht linear. Dennoch legt das hohe nahe, dass es sich um einen linearen Zusammenhang handelt.
  • Ein hohes gebe an, dass die geschätzte Regressionslinie überall eine gute Approximation an die Daten darstellt; die pinken Daten legen auch hier etwas anderes nahe.
  • Ein nahe bei Null zeigt an, dass es keinen Zusammenhang zwischen der abhängigen und den unabhängigen Variablen gibt. Die blauen Daten in der Grafik wurden mit der folgenden quadratischen Funktion generiert und besitzen daher einen deterministischen funktionalen Zusammenhang, der allerdings nicht linear ist.
Obwohl gleich Null ist, kann man also nicht daraus schließen, dass es keinen Zusammenhang zwischen der abhängigen und den unabhängigen Variablen für die konstruierten Datenpunkte gibt. Eine Regressionsanalyse für nichtlineare Fälle verallgemeinert die lineare Regression auf andere Klassen von Funktionen und mehrdimensionale Definitionsbereiche von .
  • Wählt man aus den dem Daten mit quadratischem Zusammenhang (Parabel ) nur die Datenpunkte mit positivem x-Werten aus, dann kann auch das sehr hoch sein und bei einem nach Konstruktion der Daten immer noch gegebenen quadratischem Zusammenhang durch in den Messdaten dennoch eine lineare Modellannahme suggerieren (z.B. wenn man nur die Daten aus der Parabel wählt, in der die Funktion positive Steigung besitzt).
  • Es sagt nichts darüber aus, ob die unabhängigen Variablen der Grund (die kausale Ursache) für die Änderungen in sind. Z. B. gibt es tatsächlich einen statistischen Zusammenhang zwischen der Anzahl der Störche und der Anzahl der neugeborenen Kinder in einem Gebiet. Der Grund für den Zusammenhang könnte sein, dass in einem mehr ländlichen Gebiet sowohl die Zahl der Störche als auch die Zahl der neugeborenen Kinder größer ist als in einem mehr städtisch geprägten Gebiet (empirisch ist dies allerdings nicht der Fall). Eine solche, den Zusammenhang vermittelnde Variable, wird als intervenierende Variable (oder Mediatorvariable) bezeichnet. Sinnvollerweise würde man dann statt einer Regression eine Regression durchführen, oder die intervenierende Variable aus dem Zusammenhang herauspartialisieren.
  • Außerdem sagt es nichts über die statistische Signifikanz des ermittelten Zusammenhangs und der einzelnen Regressoren aus. Dazu müsste die Stichprobengröße bekannt sein und ein Signifikanztest durchgeführt werden.
  • Es macht keine Aussage über Multikollinearität der unabhängigen Variablen .
  • Es macht keine Aussage, ob eine Transformation der Daten die Erklärungskraft der Regression verbessert.
  • Ein weiterer Nachteil liegt in der Empfindlichkeit gegenüber Trends: Wenn sich eine exogene Variable parallel zu einer erklärenden entwickelt, werden unabhängig von der wahren Erklärungskraft des Modells hohe ausgewiesen.

Das korrigierte Bestimmtheitsmaß[Bearbeiten | Quelltext bearbeiten]

Definition[Bearbeiten | Quelltext bearbeiten]

Das Bestimmtheitsmaß hat die Eigenschaft, dass es umso größer wird, je größer die Zahl der unabhängigen Variablen ist. Und zwar unabhängig davon, ob weitere unabhängige Variablen wirklich einen Beitrag zur Erklärungskraft liefern. Daher ist es ratsam, das korrigierte Bestimmtheitsmaß (auch bereinigtes, adjustiertes oder angepasstes Bestimmtheitsmaß genannt) zu Rate zu ziehen. Es berechnet sich wie folgt:[5]

.

Hierbei wird die Erklärungskraft des Modells, repräsentiert durch , ausbalanciert mit der Komplexität des Modells, repräsentiert durch , die Anzahl der unabhängigen Variablen (ohne Konstante). Je komplexer das Modell ist, desto mehr "bestraft" jede neu hinzugenommene unabhängige Variable.

Das angepasste Bestimmtheitsmaß steigt nur, wenn ausreichend steigt, um den gegenläufigen Effekt des Quotienten auszugleichen und kann auch sinken. Auf diese Weise lässt sich als Entscheidungskriterium bei der Auswahl zwischen zwei alternativen Modellspezifikationen (etwa einem restringierten und einem unrestringierten Modell) verwenden.

Das korrigierte Bestimmtheitsmaß kann auch negative Werte annehmen und ist kleiner als das unbereinigte, außer falls , dann ist auch .

Konstruktion[Bearbeiten | Quelltext bearbeiten]

Aus der obigen Definition von folgt, dass

Wir wissen jedoch, dass und keine unverzerrten Schätzer für die Varianzen sind. Setzt man oben und unten unverzerrte Schätzer ein, so erhält man das korrigierte Bestimmtheitsmaß:

.

Matrixnotation für das Bestimmtheitsmaß[Bearbeiten | Quelltext bearbeiten]

In der multiplen linearen Regression ergibt sich das Bestimmtheitsmaß durch die korrigierte Quadratsummenzerlegung

zu

,

wobei den KQ-Schätzer darstellt.

Pseudo-Bestimmtheitsmaß[Bearbeiten | Quelltext bearbeiten]

Hauptartikel: Pseudo-Bestimmtheitsmaß

Im Falle einer (linearen) Regression mit einer abhängigen metrischen Variablen wird die Varianz von benutzt um die Güte des Regressionsmodells zu beschreiben. Bei einem nominalen oder ordinalen Skalenniveau von existiert jedoch kein Äquivalent, da man die Varianz und damit ein nicht berechnen kann. Für diese wurden verschiedene Pseudo-Bestimmtheitsmaße vorgeschlagen.

Prognose-Bestimmtheitsmaß[Bearbeiten | Quelltext bearbeiten]

Hauptartikel: PRESS-Statistik

Während das Bestimmtheitsmaß, das korrigierte Bestimmtheitsmaß oder auch die Pseudo-Bestimmtheitsmaße eine Aussage über die Modellgüte machen, zielt das Prognose-Bestimmtheitsmaß auf die Vorhersagequalität des Modells. Im Allgemeinen wird das Prognose-Bestimmtheitsmaß kleiner als das Bestimmtheitsmaß sein.

Zunächst wird der PRESS Wert (engl.: Predicted Residual Error Sum of Squares) berechnet

ist der beobachtete Wert und der Wert, der sich als Schätzung von ergibt, wenn alle Beobachtungen außer der iten in das Regressionsmodell einfließen. D. h. zur Berechnung des PRESS Wertes müssten lineare Regressionsmodelle mit jeweils Beobachtungen berechnet werden.

Es lässt sich jedoch zeigen, dass das Residuum aus den Regressionsresiduen (bei Benutzung aller Beobachtungen) berechnet werden kann.

Das Prognose-Bestimmtheitsmaß ergibt sich dann als

mit der Mittelwert aller y Werte.

Literatur[Bearbeiten | Quelltext bearbeiten]

  • Neter, J., Kutner, M.H., Nachtsheim, C.J., Wasserman, W. (1996), Applied linear statistical models (Fourth edition), McGraw-Hill

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. Yule, G.U. (1897), On the theory of correlation, Journal of the Royal Statistical Society, 62, S. 249–295.
  2. Pearson, K., Lee, A. (1897), On the Distribution of Frequency (Variation and Correlation) of the Barometric Height at Divers Stations, Philosophical Transactions of the Royal Society of London. Series A, Vol. 190, S. 423–469.
  3. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Models, Methods and Applications., S. 1.15
  4. Bestimmung der Funktion auf der Grundlage der verwendeten Wikipediaabbildung, Engelbert Niehaus (2017) - Bestimmung von Funktionstermen erfolgte, um die Abbildung nicht verändern zu müssen
  5. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Models, Methods and Applications., S. 147 ff.