Lineare Regression

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Die lineare Regression ist ein Spezialfall des allgemeinen Konzepts der Regressionsanalyse, mit der versucht wird, eine abhängige Variable durch eine oder mehrere unabhängige Variablen zu erklären – das Beiwort „linear“ ergibt sich dabei daraus, dass die Regressionskoeffizienten (nicht unbedingt auch die Variablen selbst) in diesem Fall in erster Potenz in das Regressionsmodell eingehen.

Einfache lineare Regression[Bearbeiten]

Ein Spezialfall von Regressionsmodellen sind lineare Modelle. Hierbei spricht man von der einfachen linearen Regression, und die Daten liegen in der Form (y_i, x_i), i=1,\ldots, n vor. Als Modell wählt man

Y_i = \alpha + \beta x_i + \varepsilon_i\; ,

man nimmt somit einen linearen Zusammenhang zwischen x_i und Y_i an. Die Daten y_i werden als Realisierungen der Zufallsvariablen Y_i angesehen, die x_i sind nicht stochastisch, sondern Messstellen. Ziel der Regressionsanalyse ist in diesem Fall die Bestimmung der unbekannten Parameter \alpha und \beta.

Annahmen[Bearbeiten]

Damit die Regressionsschätzungen inferentiell analysiert werden können, müssen für das lineare Regressionsmodell bestimmte Annahmen erfüllt sein:

1. Bezüglich der Störgröße \varepsilon_i

  1. Der Zufallsvektor \underline{\varepsilon}=(\varepsilon_1,\ldots,\varepsilon_n)^T ist verteilt mit dem Erwartungswertvektor 0, d. h. \operatorname{E}(\underline{\varepsilon})=0 .
  2. Die Zufallsvariablen \varepsilon_i sind unkorreliert und besitzen alle die gleiche Varianz \sigma^2, d. h. für ihre Kovarianzmatrix gilt \Sigma_\varepsilon=\mbox{Cov}(\underline{\varepsilon})= \sigma^2I_n, wobei I_n die n-dimensionale Einheitsmatrix bezeichnet. Dies kann man ausführlicher auch schreiben als
\mbox{Cov}(\varepsilon_i,\varepsilon_j)=\delta_{ij} \sigma^2, i=1,\ldots, n\; ,
wobei \delta_{ij} das Kronecker-Delta bezeichnet, also
\delta_{ij} = \begin{cases}
                            1 & \mbox{falls} \ i=j \\
                            0 & \mbox{sonst}
                            \end{cases}.

2. Die Datenmatrix \underline{X}, welche im Abschnitt zur multiplen Regression explizit angegeben ist, ist fest vorgegeben.

3. Die Datenmatrix \underline{X} hat den Rang (p+1), wobei p die Anzahl der Regressionskoeffizienten angibt.

  • In der ersten Annahme haben also alle \varepsilon_i die gleiche Varianz (Homoskedastizität) und sie sind paarweise unkorreliert. Man interpretiert dies so, dass die Störgröße keinerlei Information enthalten darf und nur zufällig streut. Deshalb kann Y nur durch Informationen aus \underline{X} erklärt werden.
  • Die zweite Annahme hält \underline{X} konstant.
  • Die dritte Annahme ist für eine eindeutige Lösung des Regressionsproblems erforderlich.

Beispiel[Bearbeiten]

Hier wird die einfache lineare Regression anhand eines Beispiels dargestellt.

Eine renommierte Sektkellerei möchte einen hochwertigen Rieslingsekt auf den Markt bringen. Für die Festlegung des Abgabepreises soll zunächst eine Preis-Absatz-Funktion ermittelt werden. Dazu wird in n = 6 Geschäften ein Testverkauf durchgeführt, und man erhält sechs Wertepaare mit dem jeweiligen Ladenpreis einer Flasche \ x (in Euro) sowie der Zahl der jeweils verkauften Flaschen \ y:

Geschäft \ i 1 2 3 4 5 6
Flaschenpreis \ x_i 20 16 15 16 13 10
verkaufte Menge \ y_i 0 3 7 4 6 10

Als Streudiagramm von Preis und abgesetzter Menge an Sektflaschen ergibt sich folgende Grafik.

Streudiagramm von Preis und abgesetzter Menge an Sektflaschen

Berechnung der Regressionsgeraden[Bearbeiten]

Man geht von folgendem statistischen Modell aus:

Man betrachtet zwei Variablen Y und x, die vermutlich ungefähr in einem linearen Zusammenhang

Y \approx \alpha + \beta x

stehen. Auf die Vermutung des linearen Zusammenhangs kommt man, wenn man das obige Streudiagramm betrachtet, dort erkennt man, dass die eingetragenen Punkte nahezu auf einer Linie liegen. Im Weiteren sind x als unabhängige und Y als abhängige Variable definiert. Es existieren von x und y je n Beobachtungen x_i und y_i, wobei i von 1 bis n geht. Der funktionale Zusammenhang Y = f(x) zwischen x und Y kann nicht exakt festgestellt werden, da \alpha + \beta x von einer Störgröße \varepsilon überlagert wird. Diese Störgröße ist als Zufallsvariable (der Grundgesamtheit) konzipiert, die nichterfassbare Einflüsse (menschliches Verhalten oder Messungenauigkeiten oder ähnliches) darstellt. Es ergibt sich also das Modell

Y = \alpha + \beta x + \varepsilon\; oder genauer y_i = \alpha + \beta x_i + \varepsilon_i \,.

Da \alpha und \beta nicht bekannt sind, kann y nicht in die Komponenten \alpha + \beta x und \varepsilon zerlegt werden. Des Weiteren soll eine mathematische Schätzung für die Parameter \alpha und \beta durch a und b gefunden werden, damit ergibt sich

y_i = a + bx_i + e_i\,

mit dem Residuum e_i der Stichprobe. Das Residuum gibt die Differenz zwischen der Regressionsgerade a + bx_i und den Messwerten y_i an. Des Weiteren bezeichnet man mit \hat{y}_i den Schätzwert für y_i und es gilt

\hat{y}_i = a + bx_i und somit kann man das Residuum schreiben als e_i = y_i - \hat{y}_i.

Es gibt verschiedene Möglichkeiten, die Gerade zu schätzen. Man könnte eine Gerade so durch den Punkteschwarm legen, dass die Quadratsumme der Residuen, also der senkrechten Abweichungen e_i der Punkte von dieser Ausgleichsgeraden minimiert wird. Trägt man die wahre unbekannte und die geschätzte Regressionsgerade in einer gemeinsamen Grafik ein, dann ergibt sich folgende Abbildung.

Wahre unbekannte und geschätzte Regressionsgerade

Diese herkömmliche Methode ist die Minimum-Quadrat-Methode oder Methode der kleinsten Quadrate. Man minimiert die summierten Quadrate der Residuen,

RSS = SS_\mathrm{Res} = \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - (a + bx_i))^2 \rightarrow \mathrm{min!}

bezüglich a und b. Durch partielles Differenzieren und Nullsetzen der Ableitungen erster Ordnung erhält man ein System von Normalengleichungen.

Die gesuchten Regressionskoeffizienten sind die Lösungen

b = \frac{SS_{xy}}{SS_{xx}} = \frac{\frac{1}{n} \sum_{i=1}^n (x_i- \bar x)(y_i- \bar y)}{\frac{1}{n} \sum_{i=1}^n (x_i- \bar x)^2} = \frac{\sum_{i=1}^n (x_i- \bar x)(y_i- \bar y)}{\sum_{i=1}^n (x_i- \bar x)^2} = \frac{n\sum_{i=1}^n x_i y_i - \sum_{i=1}^n x_i \sum_{i=1}^n y_i}{n \sum_{i=1}^n x_i^2 - (\sum_{i=1}^n x_i)^2}

und

a = \bar y - b \bar x = \frac{\sum_{i=1}^n x_i^2 \sum_{i=1}^n y_i - \sum_{i=1}^n x_i \sum_{i=1}^n x_i y_i}{n \sum_{i=1}^n x_i^2 - (\sum_{i=1}^n x_i)^2}

mit \bar x als arithmetischem Mittel der x-Werte und \bar y als arithmetischem Mittel der y-Werte. SS_{xy} stellt die empirische Kovarianz zwischen den x_i und y_i dar. SS_{xx} bezeichnet die empirische Varianz der x_i. Man nennt diese Schätzungen auch Kleinste-Quadrate-Schätzer (KQ) (englisch: Ordinary Least Squares-Schätzer (OLS)).

Für das folgende Zahlen-Beispiel ergibt sich \bar{x}=15 und \bar{y}=5. Somit erhält man die Schätzwerte für a und b durch einfaches Einsetzen in obige Formeln. Zwischenwerte in diesen Formeln sind in folgender Tabelle dargestellt.

\ i Flaschenpreis \ x_i verkaufte Menge \ y_i \ x_i-\bar x \ y_i-\bar y \ (x_i-\bar x)(y_i-\bar y) (x_i-\bar x)^2 (y_i-\bar y)^2 \ \hat{y}_i
1 20 0 5 -5 -25 25 25 0,09
2 16 3 1 -2 -2 1 4 4,02
3 15 7 0 2 0 0 4 5,00
4 16 4 1 -1 -1 1 1 4,02
5 13 6 -2 1 -2 4 1 6,96
6 10 10 -5 5 -25 25 25 9,91
Summe 90 30 0 0 -55 56 60 30,00

Es ergibt sich in dem Beispiel

b = \frac{-55}{56} = -0{,}98 \; und a = 5 - (-0{,}98) \cdot 15 = 19{,}73 \;.

Die geschätzte Regressionsgerade lautet somit

\hat{y}_i = 19{,}73 + (- 0{,}98) \cdot x_i \;,

so dass man vermuten kann, dass bei jedem Euro mehr der Absatz im Durchschnitt um ungefähr eine Flasche sinkt.

Bildliche Darstellung und Interpretation[Bearbeiten]

Regressionsgeraden für y=gx(x) [rot] und x=gy(y) [blau]

Wie in der statistischen Literatur immer wieder betont wird, ist ein hoher Wert des Korrelationskoeffizienten zweier Zufallsvariablen X und Y allein noch kein hinreichender Beleg für den kausalen (d. h. ursächlichen) Zusammenhang von X und Y, ebenso wenig für dessen mögliche Richtung.

Anders als gemeinhin beschrieben, sollte man es daher bei der linearen Regression zweier Zufallsvariablen X und Y stets mit nicht nur einer, sondern zwei voneinander unabhängigen Regressionsgeraden zu tun haben: der ersten für die vermutete lineare Abhängigkeit y=g_x(x), der zweiten für die nicht minder mögliche Abhängigkeit x=g_y(y). [1]

Bezeichnet man die Richtung der x-Achse als Horizontale und die der y-Achse als Vertikale, läuft die Berechnung des Regressionskoeffizienten also im ersten Fall auf das üblicherweise bestimmte Minimum der vertikalen quadratischen Abweichungen hinaus, im zweiten Fall dagegen auf das Minimum der horizontalen quadratischen Abweichungen.

Rein äußerlich betrachtet bilden die beiden Regressionsgeraden y=g_x(x) und x=g_y(y) eine Schere, deren Schnitt- und Angelpunkt der Schwerpunkt der untersuchten Punktwolke P(\bar x|\bar y) ist – je weiter sich diese Schere öffnet, desto geringer die Korrelation beider Variablen, bis hin zur Orthogonalität beider Regressionsgeraden, zahlenmäßig ausgedrückt durch den Korrelationskoeffizienten 0 bzw. Schnittwinkel 90°.

Umgekehrt nimmt die Korrelation beider Variablen umso mehr zu, je mehr sich die Schere schließt – bei Kollinearität der Richtungsvektoren beider Regressionsgeraden schließlich, also dann, wenn beide bildlich übereinander liegen, nimmt r_{xy} je nach Vorzeichen der Kovarianz den Maximalwert +1 oder -1 an, was bedeutet, dass zwischen X und Y ein streng linearer Zusammenhang besteht und sich – wohlgemerkt nur in diesem einen einzigen Fall – die Berechnung einer zweiten Regressionsgeraden erübrigt.

Wie der nachfolgenden Tabelle zu entnehmen, haben die Gleichungen der beiden Regressionsgeraden große formale Ähnlichkeit, etwa, was ihre Anstiege b_x bzw. b_y angeht, die gleich den jeweiligen Regressionskoeffizienten sind und sich nur durch ihre Nenner unterscheiden: im ersten Fall die Varianz von X, im zweiten die von Y:

Regressionskoeffizientx Korrelationskoeffizient Regressionskoeffizienty
\beta_x = \frac{\operatorname{Cov}(X;Y)}{\operatorname{Var}(X)} \varrho(X;Y) = \frac{\operatorname{Cov}(X;Y)}{\sqrt {\operatorname{Var}(X)\cdot \operatorname{Var}(Y)}} \beta_y = \frac{\operatorname{Cov}(X;Y)}{\operatorname{Var}(Y)}
Empirischer Regressionskoeffizientx Empirischer Korrelationskoeffizient Empirischer Regressionskoeffizienty
\begin{align} b_x &= \frac{SS_{xy}}{SS_{xx}} \\ &= \frac{\sum_{i=1}^n (x_i- \bar x)(y_i- \bar y)}{\sum_{i=1}^n (x_i- \bar x)^2}\end{align} \begin{align} r_{xy} &= \frac{SS_{xy}}{\sqrt {SS_{xx} \cdot SS_{yy}}} \\ &= \frac {\sum_{i=1}^n (x_i- \bar x)(y_i- \bar y)}
 {\sqrt
  {
   \sum_{i=1}^n(x_i-\bar x)^2\cdot
   \sum_{i=1}^n(y_i-\bar y)^2
  }
 }\end{align} \begin{align} b_y &= \frac{SS_{xy}}{SS_{yy}} \\ &= \frac{\sum_{i=1}^n (x_i- \bar x)(y_i- \bar y)}{\sum_{i=1}^n (y_i- \bar y)^2}\end{align}
Regressionsgeradex Bestimmtheitsmaß Regressionsgeradey
y = a_x + b_x \cdot x R^2 = \frac {SS_{xy}^2}{SS_{xx} \cdot SS_{yy}} = r_{xy}^2 = b_x b_y x = a_y + b_y \cdot y
y = \bar y + b_x \cdot (x - \bar x) y = \bar y + \frac {1} {b_y} \cdot (x - \bar x)

Zu erkennen ist außerdem die mathematische Mittelstellung des Korrelationskoeffizienten sowie seines Quadrats, des sogenannten Bestimmtheitsmaßes, gegenüber den beiden Regressionskoeffizienten, dadurch entstehend, dass man anstelle der Varianzen von X bzw. Y deren geometrisches Mittel \sqrt {\operatorname{Var}(X)\cdot \operatorname{Var}(Y)} in den Nenner setzt.

Betrachtet man die Differenzen (x_i- \bar x) als Komponenten eines n-dimensionalen Vektors \vec{x} und die Differenzen (y_i- \bar y) als Komponenten eines n-dimensionalen Vektors \vec{y}, lässt sich der Korrelationskoeffizient schließlich auch als Kosinus des von beiden Vektoren eingeschlossenen Winkels \theta interpretieren:

\ r_{xy} = \frac {\sum_{i=1}^n (x_i- \bar x) \cdot (y_i- \bar y)}
 {\sqrt {\sum_{i=1}^n(x_i-\bar x)^2} \cdot \sqrt {\sum_{i=1}^n(y_i-\bar y)^2}
 } = \frac { \vec{x} \cdot \vec{y} } { |\vec{x}| \cdot |\vec{y}| } = \cos \theta

Beispiel in Kurzdarstellung[Bearbeiten]

Für das vorangegangene Sektkellerei-Beispiel ergab sich folgende Tabelle:

\ i Flaschenpreis \ x_i verkaufte Menge \ y_i \ x_i-\bar x \ y_i-\bar y \ (x_i-\bar x)(y_i-\bar y) (x_i-\bar x)^2 (y_i-\bar y)^2 \ \hat{y}_i
1 20 0 5 -5 -25 25 25 0,09
2 16 3 1 -2 -2 1 4 4,02
3 15 7 0 2 0 0 4 5,00
4 16 4 1 -1 -1 1 1 4,02
5 13 6 -2 1 -2 4 1 6,96
6 10 10 -5 5 -25 25 25 9,91
Summe 90 30 0 0 -55 56 60 30,00

Und daraus folgende Werte:

Koeffizient Allgemeine Formel Wert im Beispiel
Steigung der Regressionsgerade b b = \frac{\sum_{i=1}^n (x_i- \bar x)(y_i- \bar y)}{\sum_{i=1}^n (x_i- \bar x)^2} b = \frac{-55}{56} = -0{,}98
Achsenabschnitt der Regressionsgerade a a = \bar y - b \bar x a = \frac{30}{6} - (-0{,}98)\cdot \frac{90}{6} = 19{,}73
Empirische Korrelation r_{xy} r_{xy} = \frac {\sum_{i=1}^n (x_i- \bar x)(y_i- \bar y)} 
 {\sqrt
  {
   \sum_{i=1}^n(x_i-\bar x)^2\cdot
   \sum_{i=1}^n(y_i-\bar y)^2
  }
 } r_{xy} = \frac{-55}{\sqrt{56\cdot 60}}=-0{,}95
Bestimmtheitsmaß R^2 R^2=r_{xy}^2 R^2=(-0{,}95)^2=0{,}90

Die geschätzte Regressiongerade ist \hat{y} = a + (b \cdot x) =19{,}73 + (-0{,}98 \cdot x) mit einem Bestimmtheitsmaß R^2 von etwa 0,9.

Multiple Regression[Bearbeiten]

Im Folgenden wird ausgehend von der einfachen linearen Regression die multiple Regression eingeführt. Der Response Y hängt linear von mehreren fest vorgegebenen Kovariablen x_1,\ldots, x_p ab, somit erhält man die Form

Y = \beta_1 x_1 + \beta_2 x_2+ \dotsb +\beta_p x_p + \varepsilon\ ,

wobei \varepsilon wieder die Störgröße repräsentiert. Es ist also \varepsilon eine Zufallsvariable und daher ist Y als lineare Transformation von \varepsilon ebenfalls eine Zufallsvariable. Es liegen für die x_j, wobei j= 1,\ldots,p, und Y je n viele Beobachtungen vor, so dass sich für die Beobachtungen i, wobei i=1,\ldots, n, das Gleichungssystem

 Y_i = \beta_1 x_{i1} + \beta_2 x_{i2}+ \dotsb+\beta_p x_{ip} + \varepsilon_i

ergibt. p gibt somit die Anzahl der zu schätzenden Parameter oder die Dimension des Kovariablenvektors \underline{x}=(x_{i1},\ldots, x_{ip})^T an. In der einfachen linearen Regression wurde nur der Fall p=2 betrachtet, ausgehend davon wird nun die multiple Regression als Verallgemeinerung dessen mit p \geq 3 präsentiert. Wie bei der einfachen linearen Regression ist x_{i1} in Anwendungen konstant gleich 1. Als stichprobentheoretischer Ansatz wird jedes Stichprobenelement \varepsilon_i als eine eigene Zufallsvariable interpretiert und ebenso jedes Y_i.

Da es sich hier um ein lineares Gleichungssystem handelt, können die Elemente des Systems in Matrix-Schreibweise zusammengefasst werden. Man erhält die (n \times 1) Spaltenvektoren der abhängigen Variablen Y und der Störgröße \varepsilon als Zufallsvektoren und den (p \times 1) Spaltenvektor der Regressionskoeffizienten \beta_j, wobei j=1,\ldots,p,

\underline Y=
  \begin{pmatrix}
    Y_1 \\
    Y_2 \\
    \vdots \\
    Y_i \\
    \vdots\\
    Y_n
  \end{pmatrix} \in \mathbb{R}^{n \times 1}
\;,  \underline \varepsilon=
  \begin{pmatrix}
    \varepsilon_1 \\
    \varepsilon_2 \\
    \vdots\\
    \varepsilon_i \\
    \vdots\\
    \varepsilon_n
  \end{pmatrix} \in \mathbb{R}^{n \times 1}
 \; und 
\underline \beta=
  \begin{pmatrix}
    \beta_1 \\
    \beta_2 \\
    \vdots\\
    \beta_j \\
    \vdots\\
    \beta_p
  \end{pmatrix} \in \mathbb{R}^{p \times 1}
   \;.

Die Datenmatrix \underline{X} lautet in ausgeschriebener Form

\underline X=
\begin{pmatrix}
x_{11} & x_{12} & \cdots & x_{1j} & \cdots & x_{1p}\\
x_{21} & x_{22} & \cdots & x_{2j} & \cdots & x_{2p}\\
\vdots & \vdots & \ddots & \vdots & \ddots & \vdots \\
x_{i1} & x_{i2} & \cdots & x_{ij} & \cdots & x_{ip}\\
\vdots & \vdots &\ddots  & \vdots & \ddots & \vdots \\
x_{n1} & x_{n2} & \cdots & x_{nj} & \cdots & x_{np}
\end{pmatrix} \in \mathbb{R}^{n \times p}
.

Des Weiteren trifft man, wie bereits im Abschnitt zur einfachen linearen Regression erwähnt, die Annahmen

\operatorname{E}(\underline{\varepsilon}) = 0 \ und \mbox{Cov}(\underline{\varepsilon})=\sigma^2 I_n.

Somit gilt für \underline{Y}

\operatorname{E}(\underline{Y}) = \underline{X} \underline{\beta} und \mbox{Cov}(\underline{Y})=\sigma^2 I_n.

Ferner lässt sich das Gleichungssystem nun erheblich einfacher darstellen als

\underline Y = \underline X \underline \beta + \underline \varepsilon.

Schätzung der Regressionskoeffizienten[Bearbeiten]

Auch im multiplen linearen Regressionsmodell wird die Quadratsumme der Residuen nach der Methode der kleinsten Quadrate minimiert. Man erhält als Lösung eines Minimierungsproblems den Vektor der geschätzten Regressionskoeffizienten als

 \underline b =
  \begin{pmatrix}
   b_1 \\
   b_2 \\
\vdots\\
b_j \\
\vdots\\
    b_p
  \end{pmatrix} = (\underline {X}^T \underline X )^{-1} \underline {X}^T \underline Y
.

Dieser Schätzer ist nach dem Gauß-Markow-Theorem der BLUE (Best Linear Unbiased Estimator), also der beste (erwartungstreu mit kleinster Varianz) lineare unverzerrte Schätzer. Für die Eigenschaften der Schätzfunktion \underline{b} muss also keine Verteilungsinformation der Störgröße vorliegen.

Man erhält mit Hilfe des Minimum-Quadrat-Schätzers \underline{b} das Gleichungssystem

 \underline Y = \underline X \underline b + \underline e = \hat{\underline{Y}} + \underline e \;,

wobei \underline{e} der Vektor der Residuen und \hat{\underline{Y}} die Schätzung für \underline{Y} ist. Das Interesse der Analyse liegt vor allem in der Schätzung \hat{\underline{Y}}_0 oder in der Prognose der abhängigen Variablen \underline{Y} für ein gegebenes Tupel von \underline{x}_0. Diese berechnet sich als

\hat{\underline{Y}}_0 = b_1 x_{01} + b_2 x_{02}+ \dotsb + b_p x_{0p}=\underline{x}_0^T \underline{b}.

Ausgewählte Schätzfunktionen[Bearbeiten]

Die Schätzwerte der Y_i berechnen sich als

\hat{\underline Y} = \underline {Xb} = \underline X (\underline X ^T \underline X )^{-1} \underline X ^T \underline Y
 ,

wobei man dies auch kürzer als

\hat{\underline Y} = \underline H \underline Y mit \underline{H} \in \mathbb{R}^{n \times n}

schreiben kann. Die Matrix \underline{H} ist idempotent und maximal vom Rang p+1. Sie wird auch Hat-Matrix genannt, weil sie \underline{Y} den „Hut“ aufsetzt.

Die Residuen werden ermittelt als

\underline e = \underline{Y}-\hat{\underline{Y}} = \underline Y - \underline {Xb} = \underline Y - \underline H \underline Y = (I_n - \underline H) \underline Y
,

wobei (I_n - \underline H) mit \underline{H} vergleichbare Eigenschaften hat.

Die Prognose \underline{\hat{Y}}_0 wird ermittelt als

 \underline{\hat{Y}}_0 = (x_{01}, \ldots, x_{0p}) (\underline X ^T \underline X )^{-1} \underline X ^T \underline Y.

Da \underline{X} fest vorgegeben ist, kann man alle diese Variablen als lineare Transformation von \underline{Y} und damit von \underline{\varepsilon} darstellen, und deshalb können auch ihr Erwartungswertvektor und ihre Kovarianzmatrix unproblematisch ermittelt werden.

Die Quadratsumme SS_\mathrm{Res} (von engl. „residual sum of squares“) der Residuen ergibt in Matrix-Notation

 SS_\mathrm{Res} = \underline {e}^T \underline e = \underline {Y}^T (I_n - \underline H)^T (I_n - \underline H) \underline Y = \underline Y^T (I_n - \underline H) \underline Y.

Dies kann ferner auch geschrieben werden als

SS_\mathrm{Res} = \underline {e}^T \underline e = ||Y-\hat{Y} ||_2^2=\sum\limits_{i=1}^{n}(Y_i-\hat{Y}_i)^2.

Die Varianz wird mit Hilfe der Residuen geschätzt, und zwar als mittlere Quadratsumme der Residuen

 s^2 = \hat \sigma^2 = \frac{SS_\mathrm{Res}}{(n-p)}=\frac{\sum\limits_{i=1}^{n}(Y_i-\hat{Y}_i)^2}{(n-p)} \; .

Schätzen und Testen[Bearbeiten]

Für die inferentielle Regression (Schätzen und Testen) wird noch die Information über die Verteilung der Störgröße \varepsilon gefordert. Zusätzlich zu den bereits weiter oben aufgeführten Annahmen hat man hier als weitere Annahme:

4. Die Störgröße \varepsilon_i ist normalverteilt.

Zusammen mit der 1. Annahme erhält man für die Verteilung des Vektors der Störgröße:

\underline \varepsilon\sim \mathcal{N}(\underline 0, \sigma^2 I_n) ,

wobei \underline{0} den Nullvektor bezeichnet. Hier sind unkorrelierte Zufallsvariablen auch stochastisch unabhängig. Da die interessierenden Schätzer zum größten Teil lineare Transformationen von \underline{\varepsilon} sind, sind sie ebenfalls normalverteilt mit den entsprechenden Parametern. Ferner ist die Quadratsumme der Residuen als nichtlineare Transformation χ2-verteilt mit n-p Freiheitsgraden.

Beweisskizze: Sei

\underline{w}=\underline{Y}-\underline{X}\underline{\beta},

damit erhält man

\underline{w}^T(I_n-\underline{H})\underline{w}/\sigma^2=(\underline{Y}-\underline{X}\underline{\beta})^T (I_n-\underline{H}) (I_n-\underline{H}) (\underline{Y}-\underline{X}\underline{\beta}) / \sigma^2
=\underline{Y}^T (I_n-\underline{H})\underline{Y}/\sigma^2
=SS_\mathrm{Res} / \sigma^2 \sim \chi^2_{n-p}.

Wobei

(I_n - \underline{H})\underline{X}=0 und der Satz von Cochran verwendet wurde.
            

Ferner gilt ebenso

SS_\mathrm{Reg} / \sigma^2 \sim \chi^2_{n-1}.

Betrachte hierzu auch den Artikel Bestimmtheitsmaß.

Güte des Regressionsmodells[Bearbeiten]

Hat man eine Regression ermittelt, ist man auch an der Güte dieser Regression interessiert. Häufig verwendet wird als Maß für die Güte das Bestimmtheitsmaß R^2. Generell gilt, je näher der Wert des Bestimmtheitsmaßes bei 1 liegt, desto größer ist die Güte der Regression. Ist das Bestimmtheitsmaß klein, kann man seine Signifikanz durch die Hypothese H0: R2 = 0 mit der Prüfgröße

F = \frac{SS_\mathrm{Reg}/p}{SS_\mathrm{Res}/(n-p)}=\frac{\frac{SS_\mathrm{Reg}}{SS_\mathrm{Total}}/p}
          {\frac{SS_\mathrm{Res}}{SS_\mathrm{Total}}/(n-p)}=\frac{R^2/p}{(1-R^2)/(n-p)} \sim F_{p, n-p}

testen. F ist F-verteilt mit p und n-p Freiheitsgraden. Überschreitet die Prüfgröße bei einem Signifikanzniveau α den kritischen Wert F(1-\alpha; p; n-p), das (1-α)-Quantil der F-Verteilung mit p und n-p Freiheitsgraden, wird H0 abgelehnt. R2 ist dann ausreichend groß, X trägt also vermutlich genügend viel Information zur Erklärung von Y bei.

Unter den Voraussetzungen des klassischen linearen Regressionsmodells ist der Test ein Spezialfall der einfaktoriellen ANOVA. Für jeden Beobachtungswert x_i (= jede Gruppe) ist die Störgröße \varepsilon_i\sim N(0, \sigma^2) und damit Y_i \sim N(\mu_i=\beta_1 x_{i1} + \beta_2 x_{i2}+ \dotsb+\beta_p x_{ip}, \sigma^2)\, verteilt (mit \mu_i der wahre Regressionswert in der Grundgesamtheit), d. h. die Voraussetzungen der ANOVA sind erfüllt. Sind alle \beta_i Koeffizienten gleich Null, so ist dies äquivalent zur Nullhypothese der ANOVA: \mu_1= \ldots =\mu_n.

Die Residualanalyse, bei der man die Residuen über den unabhängigen Variablen aufträgt, gibt Aufschluss über

Ein Ziel bei der Residualanalyse ist es, dass man die Voraussetzung der unbeobachteten Residuen \varepsilon_i überprüft. Hierbei ist es wichtig zu beachten, dass

e_i \neq \varepsilon_i

gilt. e_i ist mit der Formel e_i = y_i - \hat{y}_i berechenbar. Im Gegensatz hierzu ist die Störgröße \varepsilon_i nicht berechenbar oder beobachtbar. Nach den oben getroffenen Annahmen soll für das Modell gelten

\operatorname{Var}(\varepsilon_i) = \sigma^2 \;,

es liegt somit eine Varianzhomogenität vor. Dieses Phänomen wird auch als Homoskedastie bezeichnet und ist auf die Residuen übertragbar. Dies bedeutet, dass, wenn man die unabhängigen Variablen x gegen die Residuen e aufträgt, dann keine systematischen Muster erkennbar sein sollten.

In den obigen drei Grafiken wurden die unabhängigen Variablen x gegen die Residuen e geplottet, und im Beispiel 1 sieht man, dass hier tatsächlich kein erkennbares Muster in den Residuen vorliegt, d.h. die Annahme der Varianzhomogenität erfüllt ist. In den Beispielen 2 und 3 dagegen ist diese Annahme nicht erfüllt: Man erkennt ein Muster. Zur Anwendung der linearen Regression sind daher hier zunächst geeignete Transformationen durchzuführen. So ist im Beispiel 2 ein Muster zu erkennen, das an eine Sinus-Funktion erinnert, womit hier eine Daten-Transformation der Form a \sin(t x_i + c)\; denkbar wäre, während im Beispiel 3 ein Muster zu erkennen ist, das an eine Parabel erinnert, in diesem Fall also eine Daten-Transformation der Form a(x_i-c)^2\; angebracht sein könnte.

Beitrag der einzelnen Regressoren zur Erklärung von y[Bearbeiten]

Man ist daran interessiert, ob man einzelne Parameter oder Kovariablen aus dem Regressionsmodell entfernen kann, also eine Kovariable nicht (oder nur gering) zur Erklärung von Y beiträgt. Dies ist dann möglich, falls ein Parameter \beta_j gleich Null ist, somit testet man die Nullhypothese H0: βj = 0. Das heißt man testet, ob der j-te Parameter gleich Null ist, falls dies der Fall ist, kann die zugehörige j-te Kovariable X_j aus dem Modell entfernt werden. Der Vektor b ist als lineare Transformation von Y verteilt wie

\underline b \sim \mathcal{N}\left(\underline \beta; \sigma^2 {(\underline X^T \underline X)}^{-1}\right).

Wenn man die Varianz der Störgröße schätzt, erhält man für die geschätzte Kovarianzmatrix

\underline S = se(b_j)^2 (\underline X^T \underline X)^{-1} .

Die geschätzte Varianz se(bj)2 eines Regressionskoeffizienten bj steht als j-tes Diagonalelement in der geschätzten Kovarianzmatrix. Es ergibt sich die Prüfgröße

t_j = \frac {b_j}{se(b_j)} \sim t_{n-p},

die t-verteilt ist mit n-p Freiheitsgraden. Ist |t_j| größer als der kritische Wert t(1-α/2; n-p), dem (1-α/2)-Quantil der t-Verteilung mit n-p Freiheitsgraden, wird die Hypothese abgelehnt. Somit wird die Kovariable Xj im Modell beibehalten und der Beitrag des Regressors Xj zur Erklärung von Y ist signifikant groß, d. h. signifikant von Null verschieden.

Prognose[Bearbeiten]

Ermittelt man einen Prognosewert, möchte man möglicherweise wissen, in welchem Intervall sich die prognostizierten Werte mit einer festgelegten Wahrscheinlichkeit bewegen. Man wird also ein Konfidenzintervall für den durchschnittlichen Prognosewert E(Y0) ermitteln. Es ergibt sich als Varianz der Prognose

 \operatorname{Var} (\underline{\hat{Y}}_0) = \sigma^2 (x_{01}; x_{02}; \ldots) (\underline X ^T \underline X )^{-1}
\begin{pmatrix}
x_{01}\\
x_{02}\\
\vdots
\end{pmatrix}=\sigma^2 \underline{x}_0^T (\underline X ^T \underline X )^{-1} \underline{x}_0
.

Man erhält dann als (1-α)-Konfidenzintervall für den durchschnittlichen Prognosewert mit geschätzter Varianz

[\underline{\hat{Y}}_0 - s \cdot t_{1-\alpha /2; n-p} \; ; \; \underline{\hat{Y}}_0 + s \cdot t_{1-\alpha /2; n-p}] .

Speziell für den Fall der einfachen linearen Regression ergibt das

\left[ \underline{\hat{Y}}_0 - t_{1- \alpha/2 ; n-2} \cdot s \cdot \sqrt {\frac {1}{n} + \frac {(x_0 - \bar x)^2} { \sum_{i=1}^n (x_i - \bar x)^2 }} \; ; \; \underline{\hat{Y}}_0 + t_{1- \alpha/2 ; n-2} \cdot s \cdot \sqrt {\frac {1}{n} + \frac {(x_0 - \bar x)^2} { \sum_{i=1}^n (x_i - \bar x)^2 }} \right]

Speziell aus dieser Form des Konfidenzintervalls erkennt man sofort, dass das Konfidenzintervall breiter wird, wenn die exogene Prognosevariable x0 sich vom „Zentrum“ der Daten entfernt. Schätzungen der endogenen Variablen sollten also im Beobachtungsraum der Daten liegen, sonst werden sie sehr unzuverlässig.

Beispiel[Bearbeiten]

Zur Illustration der multiplen Regression wird im folgenden Beispiel untersucht, wie die abhängige Variable Y: Bruttowertschöpfung (in Preisen von 95; bereinigt, Mrd. Euro) von den unabhängigen Variablen „Bruttowertschöpfung nach Wirtschaftsbereichen Deutschland (in jeweiligen Preisen; Mrd. EUR)“ abhängt. Die Daten sind im Portal Statistik zu finden. Da man in der Regel die Berechnung eines Regressionsmodells am Computer durchführt, wird in diesem Beispiel exemplarisch dargestellt, wie eine multiple Regression mit der Statistik-Software R durchgeführt werden kann.

Variable Beschreibung der Variablen
BWSb95 Bruttowertschöpfung in Preisen von 95 (bereinigt)
BBLandFF Bruttowertschöpfung von Land- und Forstwirtschaft, Fischerei
BBProdG Bruttowertschöpfung des produzierenden Gewerbes ohne Baugewerbe
BBBau Bruttowertschöpfung im Baugewerbe
BBHandGV Bruttowertschöpfung von Handel, Gastgewerbe und Verkehr
BBFinVerm Bruttowertschöpfung durch Finanzierung, Vermietung und Unternehmensdienstleister
BBDienstÖP Bruttowertschöpfung von öffentlichen und privaten Dienstleistern

Zunächst lässt man sich ein Streudiagramm ausgeben, in diesem erkennt man, dass die gesamte Wertschöpfung offensichtlich mit den Wertschöpfungen der wirtschaftlichen Bereiche positiv korreliert ist. Dies erkennt man daran, dass die Datenpunkte in der ersten Spalte der Grafik in etwa auf einer Geraden mit einer positiven Steigung liegen. Auffällig ist, dass die Wertschöpfung im Baugewerbe negativ mit den anderen Sektoren korreliert. Dies erkennt man daran, dass in der vierten Spalte die Datenpunkte näherungsweise auf einer Geraden mit einer negativen Steigung liegen.

Streudiagramm der Regressionsvariablen

In einem ersten Schritt gibt man das Modell mit allen Kovariablen in R ein

lm(BWSb95~BBLandFF+BBProdG+BBBau+BBHandGV+BBFinVerm+BBDienstÖP)

Anschließend lässt man sich in R ein Summary des Modells mit allen Kovariablen ausgeben, dann erhält man folgende Auflistung.

Residuals:
    Min     1Q      Median  3Q     Max
    -1.5465 -0.8342 -0.1684 0.5747 1.5564

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept) 145.6533 30.1373 4.833 0.000525 ***
BBLandFF      0.4952  2.4182 0.205 0.841493
BBProdG       0.9315  0.1525 6.107 7.67e-05 ***
BBBau         2.1671  0.2961 7.319 1.51e-05 ***
BBHandGV      0.9697  0.3889 2.494 0.029840 *
BBFinVerm     0.1118  0.2186 0.512 0.619045
BBDienstÖP    0.4053  0.1687 2.402 0.035086 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.222 on 11 degrees of freedom
Multiple R-Squared: 0.9889, Adjusted R-squared: 0.9828
F-statistic: 162.9 on 6 and 11 DF, p-value: 4.306e-10

Der Test auf Güte des gesamten Regressionsmodells ergibt eine Prüfgröße von F = 162.9. Diese Prüfgröße hat einen p-Wert von 4.306 \cdot 10^{-10}, somit ist die Anpassung signifikant gut.

Die Analyse der einzelnen Beiträge der Variablen (Tabelle Coefficients) des Regressionsmodells ergibt bei einem Signifikanzniveau von 0.05, dass die Variablen BBLandFF und BBFinVerm offensichtlich die Variable BWSB95 nur unzureichend erklären können. Dies erkennt man daran, dass die zugehörigen t-Werte zu diesen beiden Variablen verhältnismäßig klein sind, und somit die Hypothese, dass die Koeffizienten dieser Variablen Null sind, nicht verworfen werden kann.

Die Variablen BBHandGV und BBDienstÖP sind gerade noch signifikant. Besonders stark korreliert ist Y (in diesem Beispiel also BWSb95) mit den Variablen BBProdG und BBBau, was man an den zugehörigen hohen t-Werten erkennen kann.

Im nächsten Schritt werden die insignifikanten Kovariablen BBLandFF und BBFinVerm aus dem Modell entfernt.

lm(BWSb95~BBProdG+BBBau+BBHandGV+BBDienstÖP)

Anschließend lässt man sich wiederum ein Summary des Modells ausgeben, dann erhält man folgende Auflistung.

Residuals:
     Min      1Q       Median   3Q      Max
     -1.34447 -0.96533 -0.05579 0.82701 1.42914

Coefficients:
             Estimate Std. Error t value Pr(>|t|)
(Intercept) 158.00900 10.87649 14.528 2.05e-09 ***
BBProdG       0.93203  0.14115  6.603 1.71e-05 ***
BBBau         2.03613  0.16513 12.330 1.51e-08 ***
BBHandGV      1.13213  0.13256  8.540 1.09e-06 ***
BBDienstÖP    0.36285  0.09543  3.802 0.0022 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.14 on 13 degrees of freedom
Multiple R-Squared: 0.9886, Adjusted R-squared: 0.985
F-statistic: 280.8 on 4 and 13 DF, p-value: 1.783e-12

Dieses Modell liefert eine Prüfgröße von F = 280.8. Diese Prüfgröße hat einen p-Wert von 1.783 \cdot 10^{-12}, somit ist die Anpassung besser als im ersten Modell. Dies ist vor allem darauf zurückzuführen, dass in dem jetzigen Modell alle Kovariablen signifikant sind.

Spezielle Anwendungen der Regressionsanalyse[Bearbeiten]

Spezielle Anwendungen der Regressionsanalyse beziehen sich auch auf die Analyse von diskreten und im Wertebereich eingeschränkten abhängigen Variablen. Hierbei kann unterschieden werden nach Art der abhängigen Variablen und Art der Einschränkung des Wertebereichs. Im Folgenden werden die Regressionsmodelle, die an dieser Stelle angewandt werden können, aufgeführt. Nähere Angaben hierzu finden sich bei Frone (1997)[2] sowie Long (1997) [3].

Modelle für unterschiedliche Arten abhängiger Variablen (Generalisierte Lineare Modelle):

Modelle für unterschiedliche Arten eingeschränkter Wertebereiche:

Anwendung in der Ökonometrie[Bearbeiten]

Für quantitative Wirtschaftsanalysen im Rahmen der Regressionsanalyse, beispielsweise der Ökonometrie, sind besonders geeignet:

Anwendung in der Geologie[Bearbeiten]

Die lineare Regression wird auch in der Geologie verwendet. Folgendes Beispiel zeigt dies an der Geologie der Altmark.

Grafik a: Schematisches Modell der Strukturstockwerke der Altmark

Im Jahre 1968 wurde die Erdgasbohrung Peckensen 4 im Rotliegenden der Altmark fündig.[4] Die Lagersstätten des Rotliegenden sind in den obersten Formationen des subsalinaren Strukturstockwerks (siehe Grafik a) ausgebildet. Die im Zuge der Exploration der Lagerstätte auftretenden geologischen Erkundungsprobleme in der Erkenntnis des Strukturbaus führten zur Idee, mathematische Verfahren anzuwenden.[5] Die Suche nach weiterführenden Beweisen zur Nutzung und Anwendung der Mathematik in der Geologie führte bereits früh zur Untersuchung der Salztektonik mit der mathematischen Methode der linearen Regression und Korrelation.[6]

Im Jahre 1974 war der Top der Lagerstätte durch 79 Tiefbohrungen erschlossen. Der weitaus größere Teil in erschlossenen Bereichen außerhalb von Salzstöcken, sieben Bohrungen waren direkt im Körper von Salzdiapiren abgeteuft. Aus dem geologischen Profil eines Diapirs ist visuell folgende Relation ablesbar: Die Mächtigkeit des Salinars (m) nimmt im gleichen Maß zu wie die Teufe des Suprasalinars (h) abnimmt und umgekehrt. Es waren die Fragen zu klären, ob die beobachtbare Relation linear sei und wie hoch der Grad des Zusammenhangs ist.

Grafik b: Der lineare Zusammenhang der Strukturstockwerke (M) und (H) der Altmark

Die Grafik b zeigt die Darstellung der Veränderlichen (h) und (m) und die errechnete Ausgleichsgerade im kartesischen Koordinatenkreuz. Zur Berechnung wurden die Messdaten der Veränderlichen (h),(m) und Teufe (MB) der einzelnen Bohrungen aus den geologischen Schichtenverzeichnissen herausgezogen, tabellarisch erfasst und maschinell ausgewertet.

Die Ergebnisse der Berechnungen sind in der Tabelle zusammengefasst.

Grafik c: Die linearen Zusammenhänge der Residuen (d)

Die geologischen Zusammenhänge sind durch folgende Regressionsgeraden beschrieben:

h=3241{,}3 -0{,}99m
m=3264-1{,}006h

Rechnerisch ergeben sich zwei Geraden, die eine Schere bilden. Die zwei Geraden liegen quasi übereinander, was mit dem Korrelationskoeffizienten von 0,997 übereinstimmt. Es liegt ein sehr enger Zusammenhang der untersuchten geologischen Parameter vor. Auch das Bestimmtheitsmaß mit einem Wert von 0,994 bestätigt diese Aussage.

„Je enger diese Schere ist, desto straffer ist der stochastische Zusammenhang zwischen den Zufallsgrößen x und y. Sie schließt sich, wenn ein streng linearer, also funktionaler Zusammenhang besteht.“[7]

Die ursprüngliche Streuung von 744–750 m wurde durch die Regression auf einen Restwert von 51–52 m reduziert. Fällt man in Grafik b auf einer beliebigen Stelle auf der Abszisse, die eine Skala der Teufen des Suprasalinars darstellt, das Lot auf die Ausgleichsgerade, so kann man auf der Ordinate den zugehörigen Wert der Mächtigkeit des Salinars abgreifen. Zu jeder Teufe des Suprasalinars gehört eine entsprechende Mächtigkeit des Salinars. Man kann eine Tabelle der zugehörigen Wertepaare aufstellen, es entsteht eine wohlgeordnete Folge von Wertepaaren. Der Differenz von Variablen auf der Abszisse steht eine entsprechend geordnete Differenz auf der Ordinate gegenüber. Man kann formulieren:

\frac{h_2-h_1}{m_2-m_1}=-1  \qquad \Rightarrow \qquad \frac{h_2-h_1}{t_2-t_1}=- \frac{m_2-m_1}{t_2-t_1}

Somit ist die Identität der Bewegungen der geologischen Strukturen der Altmark mit der gleichförmig geradlinigen Bewegung der Physik hergestellt.

Grafik d: Schema zur Ableitung der Resultate

Die Summe der einzelnen zugehörigen Wertepaare bildet auf Grund der Steigung der Ausgleichsgeraden mit einem Wert von −1 eine zur Normalnull parallele Fläche mit dem Abstand von C2. Man kann formulieren:

h_B+m=const.

Es interessierte die Frage, ob die restliche Streuung noch eine geologische Aussage besaß. Deshalb wurden die Residuen errechnet. Die Auftragung der Residuen über die Teufe Salinarbasis ist in Grafik c dargestellt. Sie liefert eine Aufspaltung des gesamten Stichprobenumfangs von 79 untersuchten Tiefbohrungen in zwei Gruppen, deren rechnerische Werte in der Tabelle der Residuen zusammengefasst wurden. Man kann interpretieren, dass sich Gruppe II sekundär aus der Grundgesamtheit von 79 Objekten durch tektonische Vorgänge herausgelöst hat. Die Gruppe I mit 72 Tiefbohrungen umfasst alle Bohrobjekte, die außerhalb von Salzstöcken geteuft worden sind (siehe Grafik a), die Tiefbohrungen der Gruppe II sind Salzstockbohrungen. Die Regressionen der Residuen sind mit den Korrelationskoeefizienten von 1 und 0,997 eng korreliert. Allerdings ist der Abstand der signifikanten Geraden mit 23 m so gering, dass keine sichere Aussage möglich ist, ob die Parameter der einzelnen Gruppen auch mehrere Grundgesamtheiten charakterisieren und nicht aus einer Grundgesamtheit stammen. Die ursprüngliche Streuung des Salinar und des Suprasalinar der Altmark von 744–750 m weist bis auf einen Rest von 1–3,8 m streng lineare Zusammenhänge auf. Die untersuchten Zusammenhänge sind funktional, d. h., man kann bei Kenntnis eines Parameters exakt auf die Größe des zweiten dazugehörigen Parameters schließen.

Die Anwendung der linearen Regression liefert in der Geologie der Altmark eine Erklärung des geologischen Phänomens der Salztektonik und der Halokinese. Durch die Untersuchungen konnten mehrere Gleichungen ermittelt werden, die den gesamten geologischen Sedimentkomplex, angefangen von einer Sedimentationsebene in der Höhe von Normalnull bis zur Absenkung in eine Tiefe von 3500 m einschließlich der tektonischen Deformation des aufgebauten Sedimentpakets bis zur heute vorliegenden Form, vollständig beschreiben. Die algebraisch formulierten geologischen Aussagen bilden das natürlich geschlossene System.[8]

Die traditionellen geologischen Methoden der Paläotektonik und der palinspastischen Rekonstruktion besitzen den Rang geophysikalischer Gesetze. Es wurde vorgeschlagen, dieses als das Gesetz der Strukturgenese zu bezeichnen.[9] Die bislang in der Geologie gebräuchliche geometrische Relation bildet zusammen mit der arithmetischen Relation das geologische Binärsystem.[10] Die Grundlagen der Geologie werden durch einen einfachen, bisher unerkannten Zusammenhang ergänzt. Die dargestellten geologischen Zusammenhänge sind mit mathematischen und physikalischen Grundlagen in voller Übereinstimmung. Sie können als Grundlage der Bestätigung oder zur Ablehnung von wissenschaftlichen Aussagen und Thesen in der Geologie oder zur logisch-deduktiven Entwicklung in der geologischen Forschung heran gezogen werden. Dennoch wird die Anwendung mathematischer Mittel zur Untersuchung und Darstellung geologischer Zusammenhänge von Geologen vielfach konsequent abgelehnt.[11]

Einzelnachweise[Bearbeiten]

  1. Walter Gellert, Herbert Küstner, Manfred Hellwich, Herbert Kästner (Hrsg.): Kleine Enzyklopädie Mathematik. Leipzig 1970, S. 669–670.
  2. Frone, M.R. (1997). Regression models for discrete and limited dependent variables. Research Methods Forum No. 2. online
  3. Long, J. S. (1997). Regression models for categorical and limited dependent variables. Thousand Oaks, CA: Sage.
  4. W. Kunitz: Chronik. Eine Zeitgeschichte. Der Natur abgerungen. Erdöl- und Erdgasgewinnung von der Ostsee bis zum Thüringer Becken in den Jahren von 1945 bis 1990. IGT Colordruck GmbH Leipzig.
  5. H. E. Offhaus: Veränderte Darstellung der Rotliegndoberkante der Struktur Salzwedel-Peckensen unter besonderer Brücksichtigung des Einflusses tektonischer Störungen und der Projektion der Schnittlinie von Störung und Oberkante in die Ebene. Thema der Seminararbeit der Universität Leipzig 1972.
  6. H. E. Offhaus: Beitrag zur Tektonik des suprasalinaren Deckgebirges der Altmark. Thema der Diplomarbeit der Universität Leipzig 1974.
  7. Kleine Enzyklopädie Mathematik Bibliographisches Instut Leipzig 1965, S. 670.
  8. H. E. Offhaus: Zur Möglichkeit natürlich geschlossener Systeme in der Geologie. Zeitschrift für geologische Wissenschaften, 27(1/2), S. 77–90, Berlin, Juli 1999.
  9. H. E. Offhaus: Zur Einordnung des Gesetzes der Strukturgenese in die Naturwissenschaften. Einflüsse GALILEO Galileis auf wissenschaftliche Entdeckungen bis heute. Beiträge zur Geophysik und Physik, Band VI, Heft 2, S. 76–84, 2005.
  10. H. E. Offhaus: Über das geologische Binärsystem. Arbeitskreis Geschichte der Geophysik und Kosmischen Physik, Spezialausgabe 2006/2.
  11. D. Benox, A. O. Ludwi, W. Schulze, G. Schwab,H. Hartmann, G. Knebel, I. Januszewski: Struktur und Entwicklung mesozoischer Störungszonen in der Südwest-Altmark. Hallesches Jahrbuch Geowissenschaften, Band 19, S. 83–114, Halle (Saale) 1997.

Siehe auch[Bearbeiten]

Literatur[Bearbeiten]

Weblinks[Bearbeiten]

 Wikibooks: Einführung in die Regressionsrechnung – Lern- und Lehrmaterialien