Lineare Regression
Die lineare Regression ist ein Spezialfall des allgemeinen Konzepts der Regressionsanalyse, mit der versucht wird, eine abhängige Variable durch eine oder mehrere unabhängige Variablen zu erklären – das Beiwort „linear“ ergibt sich dabei daraus, dass die Regressionskoeffizienten (nicht unbedingt auch die Variablen selbst!) in diesem Fall in erster Potenz in das Regressionsmodell eingehen.
Inhaltsverzeichnis |
Einfache Lineare Regression [Bearbeiten]
Ein Spezialfall von Regressionsmodellen sind lineare Modelle. Hierbei spricht man von der einfachen linearen Regression, und die Daten liegen in der Form
vor. Als Modell wählt man
man nimmt somit einen linearen Zusammenhang zwischen
und
an. Die Daten
werden als Realisierungen der Zufallsvariablen
angesehen, die
sind nicht stochastisch, sondern Messstellen. Ziel der Regressionsanalyse ist in diesem Fall die Bestimmung der unbekannten Parameter
und
.
Annahmen [Bearbeiten]
Damit die Regressionsschätzungen inferentiell analysiert werden können, müssen für das lineare Regressionsmodell bestimmte Annahmen erfüllt sein:
1. Bezüglich der Störgröße 
- Der Zufallsvektor
ist verteilt mit dem Erwartungswertvektor
, d. h.
. - Die Zufallsvariablen
sind unkorreliert und besitzen alle die gleiche Varianz
, d. h. für ihre Kovarianzmatrix gilt
, wobei
die
-dimensionale Einheitsmatrix bezeichnet. Dies kann man ausführlicher auch schreiben als
-
-
-
,
-
-
-
-
- wobei
das Kronecker-Delta bezeichnet, also
- wobei
-
-
-
-
.
-
-
2. Die Datenmatrix
, welche im Abschnitt zur multiplen Regression explizit angegeben ist, ist fest vorgegeben.
3. Die Datenmatrix
hat den Rang
, wobei
die Anzahl der Regressionskoeffizienten angibt.
- In der ersten Annahme haben also alle
die gleiche Varianz (Homoskedastizität) und sie sind paarweise unkorreliert. Man interpretiert dies so, dass die Störgröße keinerlei Information enthalten darf und nur zufällig streut. Deshalb kann
nur durch Informationen aus
erklärt werden. - Die zweite Annahme hält
konstant. - Die dritte Annahme ist für eine eindeutige Lösung des Regressionsproblems erforderlich.
Beispiel [Bearbeiten]
Hier wird die einfache lineare Regression anhand eines Beispiels dargestellt.
Eine renommierte Sektkellerei möchte einen hochwertigen Rieslingsekt auf den Markt bringen. Für die Festlegung des Abgabepreises soll zunächst eine Preis-Absatz-Funktion ermittelt werden. Dazu wird in
Geschäften ein Testverkauf durchgeführt, und man erhält sechs Wertepaare mit dem jeweiligen Ladenpreis einer Flasche
(in Euro) sowie der Zahl der jeweils verkauften Flaschen
:
Geschäft ![]() |
1 | 2 | 3 | 4 | 5 | 6 |
Flaschenpreis ![]() |
20 | 16 | 15 | 16 | 13 | 10 |
verkaufte Menge ![]() |
0 | 3 | 7 | 4 | 6 | 10 |
Als Streudiagramm von Preis und abgesetzter Menge an Sektflaschen ergibt sich folgende Grafik.
Berechnung der Regressionsgeraden [Bearbeiten]
Man geht von folgendem statistischen Modell aus:
Man betrachtet zwei Variablen
und
, die vermutlich ungefähr in einem linearen Zusammenhang
stehen. Auf die Vermutung des linearen Zusammenhangs kommt man, wenn man das obige Streudiagramm betrachtet, dort erkennt man, dass die eingetragenen Punkte nahezu auf einer Linie liegen. Im Weiteren sind
als unabhängige und
als abhängige Variable definiert. Es existieren von
und
je
Beobachtungen
und
, wobei
von 1 bis
geht. Der funktionale Zusammenhang
zwischen
und
kann nicht exakt festgestellt werden, da
von einer Störgröße
überlagert wird. Diese Störgröße ist als Zufallsvariable (der Grundgesamtheit) konzipiert, die nichterfassbare Einflüsse (menschliches Verhalten oder Messungenauigkeiten oder ähnliches) darstellt. Es ergibt sich also das Modell
oder genauer 
Da
und
nicht bekannt sind, kann
nicht in die Komponenten
und
zerlegt werden. Des Weiteren soll eine mathematische Schätzung für die Parameter
und
durch
und
gefunden werden, damit ergibt sich
mit dem Residuum
der Stichprobe. Das Residuum gibt die Differenz zwischen der Regressionsgerade
und den Messwerten
an. Des Weiteren bezeichnet man mit
den Schätzwert für
und es gilt
und somit kann man das Residuum schreiben als
.
Es gibt verschiedene Möglichkeiten, die Gerade zu schätzen. Man könnte eine Gerade so durch den Punkteschwarm legen, dass die Quadratsumme der Residuen, also der senkrechten Abweichungen
der Punkte von dieser Ausgleichsgeraden minimiert wird. Trägt man die wahre unbekannte und die geschätzte Regressionsgerade in einer gemeinsamen Grafik ein, dann ergibt sich folgende Abbildung.
Diese herkömmliche Methode ist die Minimum-Quadrat-Methode oder Methode der kleinsten Quadrate. Man minimiert die summierten Quadrate der Residuen,
bezüglich
und
. Durch partielles Differenzieren und Nullsetzen der Ableitungen erster Ordnung erhält man ein System von Normalgleichungen.
Die gesuchten Regressionskoeffizienten sind die Lösungen
und
mit
als arithmetischem Mittel der
-Werte und
als arithmetischem Mittel der
-Werte.
stellt die empirische Kovarianz zwischen den
und
dar.
bezeichnet die empirische Varianz der
. Man nennt diese Schätzungen auch Kleinste-Quadrate-Schätzer (KQ) oder Ordinary Least Squares-Schätzer (OLS).
Für das folgende Zahlen-Beispiel ergibt sich
und
. Somit erhält man die Schätzwerte für
und
durch einfaches Einsetzen in obige Formeln. Zwischenwerte in diesen Formeln sind in folgender Tabelle dargestellt.
![]() |
Flaschenpreis ![]() |
verkaufte Menge ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
| 1 | 20 | 0 | 5 | -5 | -25 | 25 | 25 | 0,09 |
| 2 | 16 | 3 | 1 | -2 | -2 | 1 | 4 | 4,02 |
| 3 | 15 | 7 | 0 | 2 | 0 | 0 | 4 | 5,00 |
| 4 | 16 | 4 | 1 | -1 | -1 | 1 | 1 | 4,02 |
| 5 | 13 | 6 | -2 | 1 | -2 | 4 | 1 | 6,96 |
| 6 | 10 | 10 | -5 | 5 | -25 | 25 | 25 | 9,91 |
| Summe | 90 | 30 | 0 | 0 | -55 | 56 | 60 | 30,00 |
Es ergibt sich in dem Beispiel
und
.
Die geschätzte Regressionsgerade lautet somit
,
so dass man vermuten kann, dass bei jedem Euro mehr der Absatz im Durchschnitt um ungefähr eine Flasche sinkt.
Bildliche Darstellung und Interpretation [Bearbeiten]
Wie in der statistischen Literatur immer wieder betont wird, ist ein hoher Wert des Korrelationskoeffizienten zweier Zufallsvariablen X und Y allein noch kein hinreichender Beleg für den kausalen (d.h. ursächlichen) Zusammenhang von X und Y, ebenso wenig für dessen mögliche Richtung.
Anders als gemeinhin beschrieben, sollte man es daher bei der linearen Regression zweier Zufallsvariablen X und Y stets mit nicht nur einer, sondern zwei voneinander unabhängigen Regressionsgeraden zu tun haben: der ersten für die vermutete lineare Abhängigkeit
, der zweiten für die nicht minder mögliche Abhängigkeit
. [1]
Bezeichnet man die Richtung der x-Achse als Horizontale und die der y-Achse als Vertikale, läuft die Berechnung des Regressionskoeffizienten also im ersten Fall auf das üblicherweise bestimmte Minimum der vertikalen quadratischen Abweichungen hinaus, im zweiten Fall dagegen auf das Minimum der horizontalen quadratischen Abweichungen.
Rein äußerlich betrachtet bilden die beiden Regressionsgeraden
und
eine Schere, deren Schnitt- und Angelpunkt der Schwerpunkt der untersuchten Punktwolke
ist - je weiter sich diese Schere öffnet, desto geringer die Korrelation beider Variablen, bis hin zur Orthogonalität beider Regressionsgeraden, zahlenmäßig ausgedrückt durch den Korrelationskoeffizienten 0 bzw. Schnittwinkel 90°.
Umgekehrt nimmt die Korrelation beider Variablen umso mehr zu, je mehr sich die Schere schließt – bei Kollinearität der Richtungsvektoren beider Regressionsgeraden schließlich, also dann, wenn beide bildlich übereinander liegen, nimmt
je nach Vorzeichen der Kovarianz den Maximalwert +1 oder -1 an, was bedeutet, dass zwischen X und Y ein streng linearer Zusammenhang besteht und sich – wohlgemerkt nur in diesem einen einzigen Fall! – die Berechnung einer zweiten Regressionsgeraden erübrigt.
Wie der nachfolgenden Tabelle zu entnehmen, haben die Gleichungen der beiden Regressionsgeraden große formale Ähnlichkeit, etwa, was ihre Anstiege
bzw.
angeht, die gleich den jeweiligen Regressionskoeffizienten sind und sich nur durch ihre Nenner unterscheiden: im ersten Fall die Varianz von X, im zweiten die von Y:
Zu erkennen ist außerdem die mathematische Mittelstellung des Korrelationskoeffizienten sowie seines Quadrats, des sogenannten Bestimmtheitsmaßes, gegenüber den beiden Regressionskoeffizienten, dadurch entstehend, dass man anstelle der Varianzen von X bzw. Y deren geometrisches Mittel
in den Nenner setzt.
Betrachtet man die Differenzen
als Komponenten eines n-dimensionalen Vektors
und die Differenzen
als Komponenten eines n-dimensionalen Vektors
, lässt sich der Korrelationskoeffizient schließlich auch als Kosinus des von beiden Vektoren eingeschlossenen Winkels
interpretieren:
Beispiel in Kurzdarstellung [Bearbeiten]
Für das vorangegangene Sektkellerei-Beispiel ergab sich folgende Tabelle:
![]() |
Flaschenpreis ![]() |
verkaufte Menge ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
| 1 | 20 | 0 | 5 | -5 | -25 | 25 | 25 | 0,09 |
| 2 | 16 | 3 | 1 | -2 | -2 | 1 | 4 | 4,02 |
| 3 | 15 | 7 | 0 | 2 | 0 | 0 | 4 | 5,00 |
| 4 | 16 | 4 | 1 | -1 | -1 | 1 | 1 | 4,02 |
| 5 | 13 | 6 | -2 | 1 | -2 | 4 | 1 | 6,96 |
| 6 | 10 | 10 | -5 | 5 | -25 | 25 | 25 | 9,91 |
| Summe | 90 | 30 | 0 | 0 | -55 | 56 | 60 | 30,00 |
Und daraus folgende Werte:
| Koeffizient | Allgemeine Formel | Wert im Beispiel |
|---|---|---|
Steigung der Regressionsgerade ![]() |
![]() |
![]() |
Achsenabschnitt der Regressionsgerade ![]() |
![]() |
![]() |
Empirische Korrelation ![]() |
![]() |
![]() |
Bestimmtheitsmaß ![]() |
![]() |
![]() |
Die geschätzte Regressiongerade ist
mit einem Bestimmtheitsmaß
von etwa
.
Multiple Regression [Bearbeiten]
Im Folgenden wird ausgehend von der einfachen linearen Regression die multiple Regression eingeführt. Der Response
hängt linear von mehreren fest vorgegebenen Kovariablen
ab, somit erhält man die Form
wobei
wieder die Störgröße repräsentiert.
ist eine Zufallsvariable und daher ist
als lineare Transformation von
ebenfalls eine Zufallsvariable. Es liegen für die
, wobei
, und
je
viele Beobachtungen vor, so dass sich für die Beobachtungen
, wobei
, das Gleichungssystem
ergibt.
gibt somit die Anzahl der Kovariablen oder die Dimension des Kovariablenvektors
an. In der einfachen linearen Regression wurde nur der Fall
betrachtet, ausgehend davon wird nun die multiple Regression als Verallgemeinerung dessen mit
präsentiert. Als stichprobentheoretischer Ansatz wird jedes Stichprobenelement
als eine eigene Zufallsvariable interpretiert und ebenso jedes
.
Da es sich hier um ein lineares Gleichungssystem handelt, können die Elemente des Systems in Matrix-Schreibweise zusammengefasst werden. Man erhält die
Spaltenvektoren der abhängigen Variablen
und der Störgröße
als Zufallsvektoren und den
Spaltenvektor der Regressionskoeffizienten
, wobei
,
und
.
Die Datenmatrix
lautet in ausgeschriebener Form
.
Die Einsen in der ersten Spalte gehören zum Absolutglied
. Des Weiteren trifft man, wie bereits im Abschnitt zur einfachen linearen Regression erwähnt, die Annahmen
und
.
Somit gilt für 
und
.
Ferner lässt sich das Gleichungssystem nun erheblich einfacher darstellen als
.
Schätzung der Regressionskoeffizienten [Bearbeiten]
Auch im multiplen linearen Regressionsmodell wird die Quadratsumme der Residuen nach der Methode der kleinsten Quadrate minimiert. Man erhält als Lösung eines Minimierungsproblems den Vektor der geschätzten Regressionskoeffizienten als
.
Dieser Schätzer ist nach dem Gauß-Markow-Theorem der BLUE (Best Linear Unbiased Estimator), also der beste (erwartungstreu mit kleinster Varianz) lineare unverzerrte Schätzer. Für die Eigenschaften der Schätzfunktion
muss also keine Verteilungsinformation der Störgröße vorliegen.
Man erhält mit Hilfe des Minimum-Quadrat-Schätzers
das Gleichungssystem
wobei
der Vektor der Residuen und
die Schätzung für
ist. Das Interesse der Analyse liegt vor allem in der Schätzung
oder in der Prognose der abhängigen Variablen
für ein gegebenes Tupel von
. Diese berechnet sich als
.
Ausgewählte Schätzfunktionen [Bearbeiten]
Die Schätzwerte der
berechnen sich als
,
wobei man dies auch kürzer als
mit 
schreiben kann. Die Matrix
ist idempotent und maximal vom Rang
. Sie wird auch Hat-Matrix genannt, weil sie
den „Hut“ aufsetzt.
Die Residuen werden ermittelt als
,
wobei
mit
vergleichbare Eigenschaften hat.
Die Prognose
wird ermittelt als
.
Da
fest vorgegeben ist, kann man alle diese Variablen als lineare Transformation von
und damit von
darstellen, und deshalb können auch ihr Erwartungswertvektor und ihre Kovarianzmatrix unproblematisch ermittelt werden.
Die Quadratsumme
(von engl. „residual sum of squares“) der Residuen ergibt in Matrix-Notation
.
Dies kann ferner auch geschrieben werden als
.
Die Varianz wird mit Hilfe der Residuen geschätzt, und zwar als mittlere Quadratsumme der Residuen
.
Schätzen und Testen [Bearbeiten]
Für die inferentielle Regression (Schätzen und Testen) wird noch die Information über die Verteilung der Störgröße
gefordert. Zusätzlich zu den bereits weiter oben aufgeführten Annahmen hat man hier als weitere Annahme:
4. Die Störgröße
ist normalverteilt.
Zusammen mit der 1. Annahme erhält man für die Verteilung des Vektors der Störgröße:
,
wobei
den Nullvektor bezeichnet. Hier sind unkorrelierte Zufallsvariablen auch stochastisch unabhängig. Da die interessierenden Schätzer zum größten Teil lineare Transformationen von
sind, sind sie ebenfalls normalverteilt mit den entsprechenden Parametern. Ferner ist die Quadratsumme der Residuen als nichtlineare Transformation χ2-verteilt mit
Freiheitsgraden.
-
Beweisskizze: Sei
,
damit erhält man
.
Wobei
und der Satz von Cochran verwendet wurde.
Ferner gilt ebenso
.
Betrachte hierzu auch den Artikel Bestimmtheitsmaß.
Güte des Regressionsmodells [Bearbeiten]
Hat man eine Regression ermittelt, ist man auch an der Güte dieser Regression interessiert. Häufig verwendet wird als Maß für die Güte das Bestimmtheitsmaß
. Generell gilt, je näher der Wert des Bestimmtheitsmaßes bei 1 liegt, desto größer ist die Güte der Regression. Ist das Bestimmtheitsmaß klein, kann man seine Signifikanz durch die Hypothese H0: R2 = 0 mit der Prüfgröße
testen. F ist F-verteilt mit p+1 und n-p-1 Freiheitsgraden. Überschreitet die Prüfgröße bei einem Signifikanzniveau α den kritischen Wert
, das (1-α)-Quantil der F-Verteilung mit p+1 und n-p-1 Freiheitsgraden, wird H0 abgelehnt. R2 ist dann ausreichend groß,
trägt also vermutlich genügend viel Information zur Erklärung von
bei.
Unter den Voraussetzungen des klassischen linearen Regressionsmodells ist der Test ein Spezialfall der einfaktoriellen ANOVA. Für jeden Beobachtungswert
(= jede Gruppe) ist die Störgröße
und damit
verteilt (mit
der wahre Regressionswert in der Grundgesamtheit), d.h. die Voraussetzungen der ANOVA sind erfüllt. Sind alle
Koeffizienten gleich Null, so ist dies äquivalent zur Nullhypothese der ANOVA:
.
Die Residualanalyse, bei der man die Residuen über den unabhängigen Variablen aufträgt, gibt Aufschluss über
- die Richtigkeit des angenommenen linearen Zusammenhangs,
- mögliche Ausreißer,
- Homoskedastizität, Heteroskedastizität.
Ein Ziel bei der Residualanalyse ist es, dass man die Voraussetzung der unbeobachteten Residuen
überprüft. Hierbei ist es wichtig zu beachten, dass
gilt.
ist mit der Formel
berechenbar. Im Gegensatz hierzu ist die Störgröße
nicht berechenbar oder beobachtbar. Nach den oben getroffenen Annahmen soll für das Modell gelten
,
es liegt somit eine Varianzhomogenität vor. Dieses Phänomen wird auch als Homoskedastie bezeichnet und ist auf die Residuen übertragbar. Dies bedeutet, dass, wenn man die unabhängigen Variablen
gegen die Residuen
aufträgt, dann keine systematischen Muster erkennbar sein sollten.
In den obigen drei Grafiken wurden die unabhängigen Variablen
gegen die Residuen
geplottet, und im Beispiel 1 sieht man, dass hier tatsächlich kein erkennbares Muster in den Residuen vorliegt, d.h. die Annahme der Varianzhomogenität erfüllt ist. In den Beispielen 2 und 3 dagegen ist diese Annahme nicht erfüllt: Man erkennt ein Muster. Zur Anwendung der linearen Regression sind daher hier zunächst geeignete Transformationen durchzuführen. So ist im Beispiel 2 ein Muster zu erkennen, das an eine Sinus-Funktion erinnert, womit hier eine Daten-Transformation der Form
denkbar wäre, während im Beispiel 3 ein Muster zu erkennen ist, das an eine Parabel erinnert, in diesem Fall also eine Daten-Transformation der Form
angebracht sein könnte.
Beitrag der einzelnen Regressoren zur Erklärung von y [Bearbeiten]
Man ist daran interessiert, ob man einzelne Parameter oder Kovariablen aus dem Regressionsmodell entfernen kann. Dies ist dann möglich, falls ein Parameter
gleich Null ist, somit testet man die Nullhypothese H0: βj = 0. Das heißt man testet, ob der
-te Parameter gleich Null ist, falls dies der Fall ist, kann die zugehörige
-te Kovariable
aus dem Modell entfernt werden. Der Vektor b ist als lineare Transformation von
verteilt wie
.
Wenn man die Varianz der Störgröße schätzt, erhält man für die geschätzte Kovarianzmatrix
.
Die geschätzte Varianz se(bj)2 eines Regressionskoeffizienten bj steht als j-tes Diagonalelement in der geschätzten Kovarianzmatrix. Es ergibt sich die Prüfgröße
,
die t-verteilt ist mit n-p Freiheitsgraden. Ist
größer als der kritische Wert t(1-α/2; n-p), dem (1-α/2)-Quantil der t-Verteilung mit n-p Freiheitsgraden, wird die Hypothese abgelehnt. Somit wird die Kovariable Xj im Modell beibehalten und der Beitrag des Regressors Xj zur Erklärung von Y ist signifikant groß.
Prognose [Bearbeiten]
Ermittelt man einen Prognosewert, möchte man möglicherweise wissen, in welchem Intervall sich die prognostizierten Werte mit einer festgelegten Wahrscheinlichkeit bewegen. Man wird also ein Konfidenzintervall für den durchschnittlichen Prognosewert E(Y0) ermitteln. Es ergibt sich als Varianz der Prognose
.
Man erhält dann als (1-α)-Konfidenzintervall für den durchschnittlichen Prognosewert mit geschätzter Varianz
.
Speziell für den Fall der einfachen linearen Regression ergibt das
Speziell aus dieser Form des Konfidenzintervalls erkennt man sofort, dass das Konfidenzintervall breiter wird, wenn die exogene Prognosevariable x0 sich vom „Zentrum“ der Daten entfernt. Schätzungen der endogenen Variablen sollten also im Beobachtungsraum der Daten liegen, sonst werden sie sehr unzuverlässig.
Beispiel [Bearbeiten]
Zur Illustration der multiplen Regression wird im folgenden Beispiel untersucht, wie die abhängige Variable Y: Bruttowertschöpfung (in Preisen von 95; bereinigt, Mrd. Euro) von den unabhängigen Variablen „Bruttowertschöpfung nach Wirtschaftsbereichen Deutschland (in jeweiligen Preisen; Mrd. EUR)“ abhängt. Die Daten sind im Portal Statistik zu finden. Da man in der Regel die Berechnung eines Regressionsmodells am Computer durchführt, wird in diesem Beispiel exemplarisch dargestellt, wie eine multiple Regression mit der Statistik-Software R durchgeführt werden kann.
| Variable | Beschreibung der Variablen |
|---|---|
| BWSb95 | Bruttowertschöpfung in Preisen von 95 (bereinigt) |
| BBLandFF | Bruttowertschöpfung von Land- und Forstwirtschaft, Fischerei |
| BBProdG | Bruttowertschöpfung des produzierenden Gewerbes ohne Baugewerbe |
| BBBau | Bruttowertschöpfung im Baugewerbe |
| BBHandGV | Bruttowertschöpfung von Handel, Gastgewerbe und Verkehr |
| BBFinVerm | Bruttowertschöpfung durch Finanzierung, Vermietung und Unternehmensdienstleister |
| BBDienstÖP | Bruttowertschöpfung von öffentlichen und privaten Dienstleistern |
Zunächst lässt man sich ein Streudiagramm ausgeben, in diesem erkennt man, dass die gesamte Wertschöpfung offensichtlich mit den Wertschöpfungen der wirtschaftlichen Bereiche positiv korreliert ist. Dies erkennt man daran, dass die Datenpunkte in der ersten Spalte der Grafik in etwa auf einer Geraden mit einer positiven Steigung liegen. Auffällig ist, dass die Wertschöpfung im Baugewerbe negativ mit den anderen Sektoren korreliert. Dies erkennt man daran, dass in der vierten Spalte die Datenpunkte näherungsweise auf einer Geraden mit einer negativen Steigung liegen.
In einem ersten Schritt gibt man das Modell mit allen Kovariablen in R ein
lm(BWSb95~BBLandFF+BBProdG+BBBau+BBHandGV+BBFinVerm+BBDienstÖP)
Anschließend lässt man sich in R ein Summary des Modells mit allen Kovariablen ausgeben, dann erhält man folgende Auflistung.
Residuals:
Min 1Q Median 3Q Max
-1.5465 -0.8342 -0.1684 0.5747 1.5564
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 145.6533 30.1373 4.833 0.000525 ***
BBLandFF 0.4952 2.4182 0.205 0.841493
BBProdG 0.9315 0.1525 6.107 7.67e-05 ***
BBBau 2.1671 0.2961 7.319 1.51e-05 ***
BBHandGV 0.9697 0.3889 2.494 0.029840 *
BBFinVerm 0.1118 0.2186 0.512 0.619045
BBDienstÖP 0.4053 0.1687 2.402 0.035086 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.222 on 11 degrees of freedom
Multiple R-Squared: 0.9889, Adjusted R-squared: 0.9828
F-statistic: 162.9 on 6 and 11 DF, p-value: 4.306e-10
Der Test auf Güte des gesamten Regressionsmodells ergibt eine Prüfgröße von F = 162.9. Diese Prüfgröße hat einen p-Wert von
, somit ist die Anpassung signifikant gut.
Die Analyse der einzelnen Beiträge der Variablen (Tabelle Coefficients) des Regressionsmodells ergibt bei einem Signifikanzniveau von 0.05, dass die Variablen BBLandFF und BBFinVerm offensichtlich die Variable BWSB95 nur unzureichend erklären können. Dies erkennt man daran, dass die zugehörigen t-Werte zu diesen beiden Variablen verhältnismäßig klein sind, und somit die Hypothese, dass die Koeffizienten dieser Variablen Null sind, nicht verworfen werden kann.
Die Variablen BBHandGV und BBDienstÖP sind gerade noch signifikant. Besonders stark korreliert ist Y (in diesem Beispiel also BWSb95) mit den Variablen BBProdG und BBBau, was man an den zugehörigen hohen t-Werten erkennen kann.
Im nächsten Schritt werden die insignifikanten Kovariablen BBLandFF und BBFinVerm aus dem Modell entfernt.
lm(BWSb95~BBProdG+BBBau+BBHandGV+BBDienstÖP)
Anschließend lässt man sich wiederum ein Summary des Modells ausgeben, dann erhält man folgende Auflistung.
Residuals:
Min 1Q Median 3Q Max
-1.34447 -0.96533 -0.05579 0.82701 1.42914
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 158.00900 10.87649 14.528 2.05e-09 ***
BBProdG 0.93203 0.14115 6.603 1.71e-05 ***
BBBau 2.03613 0.16513 12.330 1.51e-08 ***
BBHandGV 1.13213 0.13256 8.540 1.09e-06 ***
BBDienstÖP 0.36285 0.09543 3.802 0.0022 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.14 on 13 degrees of freedom
Multiple R-Squared: 0.9886, Adjusted R-squared: 0.985
F-statistic: 280.8 on 4 and 13 DF, p-value: 1.783e-12
Dieses Modell liefert eine Prüfgröße von F = 280.8. Diese Prüfgröße hat einen p-Wert von
, somit ist die Anpassung besser als im ersten Modell. Dies ist vor allem darauf zurückzuführen, dass in dem jetzigen Modell alle Kovariablen signifikant sind.
Spezielle Anwendungen der Regressionsanalyse [Bearbeiten]
Spezielle Anwendungen der Regressionsanalyse beziehen sich auch auf die Analyse von diskreten und im Wertebereich eingeschränkten abhängigen Variablen. Hierbei kann unterschieden werden nach Art der abhängigen Variablen und Art der Einschränkung des Wertebereichs. Im Folgenden werden die Regressionsmodelle, die an dieser Stelle angewandt werden können, aufgeführt. Nähere Angaben hierzu finden sich bei Frone (1997)[2] sowie Long (1997) [3].
Modelle für unterschiedliche Arten abhängiger Variablen (Generalisierte Lineare Modelle):
- Binär: logistische Regression und Probit-Regression
- Ordinal: ordinale logistische Regression und ordinale Probit-Regression
- Absolut: Poisson-Regression, negative binomiale Regression
- Nominal: multinomiale logistische Regression
Modelle für unterschiedliche Arten eingeschränkter Wertebereiche:
- zensiert: Tobit-Modell
- trunkiert: trunkierte Regression
- stichproben-selegiert: (sample-selected) stichproben-selegierte Regression
Anwendung in der Ökonometrie [Bearbeiten]
Für quantitative Wirtschaftsanalysen im Rahmen der Regressionsanalyse, beispielsweise der Ökonometrie, sind besonders geeignet:
- Wachstumsfunktionen, wie zum Beispiel das Gesetz des organischen Wachstums oder die Zinseszinsrechnung,
- Abschwingfunktionen, wie zum Beispiel die hyperbolische Verteilungsfunktion oder die Korachsche Preisfunktion,
- Schwanenhalsfunktionen, wie zum Beispiel die im Rahmen der logistischen Regression verwendete logistische Funktion, die Johnson-Funktion oder die Potenzexponentialfunktion,
- degressive Saturationsfunktionen, wie zum Beispiel die Gompertz-Funktion oder die Törnquist-Funktion.
Einzelnachweise [Bearbeiten]
- ↑ W.Gellert, H.Küstner, M.Hellwich, H.Kästner: Kleine Enzyklopädie Mathematik; Leipzig 1970, S.669-670.
- ↑ Frone, M.R. (1997). Regression models for discrete and limited dependent variables. Research Methods Forum No. 2. online
- ↑ Long, J. S. (1997). Regression models for categorical and limited dependent variables. Thousand Oaks, CA: Sage.
Siehe auch [Bearbeiten]
- Korrelationskoeffizient
- Messfehler
- Dummy-Variable
- Faktorenanalyse
- Ausgleichsrechnung
- Diskrete lineare L1-Approximation
- Response (Mathematik)
- Generalisierte Lineare Modelle
- Doppelsummenanalyse
- Chow-Test
Literatur [Bearbeiten]
- Draper, Norman R. und Smith Harry: Applied Regression Analysis, 1998, New York: Wiley
- Fahrmeir, Ludwig/ Kneib, Thomas/ Lang, Stefan: Regression: Modelle, Methoden und Anwendungen, Springer Verlag Berlin Heidelberg New York 2007, ISBN 978-3-540-33932-8.
- Opfer, Gerhard: Numerische Mathematik für Anfänger, 2. Auflage, 1994, Vieweg Verlag
- Oppitz, Volker/Nollau, Volker: Taschenbuch Wirtschaftlichkeitsrechnung, Carl Hanser Verlag 2003, 400 S., ISBN 3-446-22463-7
- Oppitz, Volker: Gabler Lexikon Wirtschaftlichkeitsrechnung, Gabler-Verlag 1995, 629 S., ISBN 3-409-19951-9
- Schönfeld, Peter: Methoden der Ökonometrie, Berlin, Frankfurt, 1969
- Urban, Dieter/ Mayerl, Jochen: Regressionsanalyse: Theorie, Technik und Anwendung, 2. überarb. Auflage, 2006, Wiesbaden: VS Verlag, ISBN 3-531-33739-4
- Zeidler E. (Hrsg.): Taschenbuch der Mathematik (bekannt als Bronstein und Semendjajew), Stuttgart, Leipzig, Wiesbaden 2003
- Backhaus, K./ Erichson, B./ Plinke, W./ Weiber, R.: Multivariate Analysemethoden - Eine anwendungsorientierte Einführung. 12. Auflage, Berlin et al. 2008'

ist verteilt mit dem
, d. h.
.
, d. h. für ihre
, wobei
die
,
das
.



oder genauer 

und somit kann man das Residuum schreiben als 








und
.
,
























und
.
.
und
.
und
.
.
.
.
,
mit 
,
.
.
.
.
,
,

.
und der
.

,
.
.
,
.
.![\left[ \underline{\hat{Y}}_0 - t_{1- \alpha/2 ; n-2} \cdot s \cdot \sqrt {\frac {1}{n} + \frac {(x_0 - \bar x)^2} { \sum_{i=1}^n (x_i - \bar x)^2 }} \; ; \; \underline{\hat{Y}}_0 + t_{1- \alpha/2 ; n-2} \cdot s \cdot \sqrt {\frac {1}{n} + \frac {(x_0 - \bar x)^2} { \sum_{i=1}^n (x_i - \bar x)^2 }} \right]](http://upload.wikimedia.org/math/1/f/c/1fcf901c380c0b0341fc02106b2f0448.png)