Benutzer:JonskiC/Kleinste-Quadrate-Schätzer

Die gewöhnliche Kleinste-Quadrate-Schätzung (englisch ordinary least squares, kurz: OLS), gewöhnliche MKQ-Schätzung (MKQ für Methode der kleinsten Quadrate) auch verkürzt Kleinste-Quadrate-Schätzung oder lediglich KQ-Schätzung ist in der Regressionsanalyse der Standardlösungsansatz zur Schätzung von unbekannten Parameter in linearen Einzelgleichungsmodellen (Modell bei der eine Antwortvariable durch eine oder mehrere unabhängige Variablen erklärt wird). Diese Schätzmethode baut auf der numerischen Methode der kleinsten Quadrate auf einer Methode um eine Näherungslösung für überbestimmte lineare Gleichungssysteme (d. h. ein System von Gleichungen in dem mehr Gleichungen als unbekannte sind) zu finden. Bei der Kleinste-Quadrate-Schätzung werden die Schätzer (auch Kleinste-Quadrate-Schätzer gennant) gewonnen, indem die Residuenquadratsumme minimiert wird. Der Zusatz "gewöhnliche" wird zur Abgrenzung von daraus abgeleiteten Erweiterungen wie z. B. der verallgemeinerten Kleinste-Quadrate-Schätzung, oder der zweistufigen leinste-Quadrate-Schätzung abzugrenzen. Die mit der gewöhnlichen Kleinste-Quadrate-Schätzung gewonnenen Parameterschätzer heißen (gewöhnliche) Kleinste-Quadrate-Schätzer. Im Gegensatz zur Maximum-Likelihood-Methode (Methode der größten Plausibilität) ist die gewöhnliche Kleinste-Quadrate-Schätzung unabhängig von der Wahrscheinlichkeitsverteilung der Störgrößen.

Einführung in die Problemstellung

Geschichte

Minimierungsansatz

Sei die zu minimierende Zielfunktion die folgende Quadratsumme

Q(\beta )=\sum _{i=1}^{n}\left(Y_{i}-\beta _{0}-\sum _{j=1}^{k}\beta _{j}x_{ij}\right)^{2}

.

In einem linearen Modell, heißt jedes heißt jede Wahl von ${\hat {\beta }}^{KQ}$ für die gilt^[1]

{\hat {\beta }}^{KQ}:\in {\underset {\beta \in \mathbb {R} ^{k+1}}{\arg \min }}\,Q(\beta )

Kleinste-Quadrate-Schätzer (oder kurz: KQ-Schätzer) des unbekannten Parametervektors ${\boldsymbol {\beta }}=(\beta _{0},\beta _{1},\ldots ,\beta _{k})_{(k+1\times 1)}^{\top }$ .

Parameterschätzung im einfachen linearen Regressionsmodell

Im Fall der linearen Einfachregression, bei der Ziel ist den Achsenabschnitt $\beta _{0}$ und die Steigung $\beta _{1}$ der Regressionsgeraden sowie die Schätzung der Varianz der Störgrößen zu schätzen ergeben sich die Kleinste-Quadrate-Schätzer durch das folgende Minimierungsproblem

\left({\hat {\beta }}_{0}^{KQ},{\hat {\beta }}_{1}^{KQ}\right)={\underset {\beta _{0},\beta _{1}\in \mathbb {R} }{\arg \min }}\,Q(\beta _{0},\beta _{1})={\underset {\beta _{0},\beta _{1}\in \mathbb {R} }{\arg \min }}\sum _{i=1}^{n}\left(Y_{i}-(\beta _{0}+\beta _{1}x_{i})\right)^{2}

.

Die Lösung dieses Minimierungsproblem ist gegeben durch die beiden Schätzfunktionen

{\hat {\beta }}_{1}={\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})(Y_{i}-{\overline {Y}})}{\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}

und

\;{\hat {\beta }}_{0}={\overline {Y}}-{\hat {\beta }}_{1}{\overline {x}}

,

Diese beiden Schätzfunktionen der Regressionsparameter hängen linear von $Y_{i}$ ab, da

{\hat {\beta }}_{1}={\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})(Y_{i}-{\overline {Y}})}{\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}=\sum \nolimits _{i=1}^{n}w_{i}Y_{i}-{\overline {Y}}\underbrace {\sum \nolimits _{i=1}^{n}w_{i}} _{=0}

mit der Gewichtsfunktion

w_{i}=w_{i}(x_{i})={\frac {(x_{i}-{\overline {x}})}{\sum \nolimits _{j=1}^{n}(x_{j}-{\overline {x}})^{2}}}

{\hat {\beta }}_{0}={\overline {Y}}-{\hat {\beta }}_{1}{\overline {x}}=\sum \nolimits _{i=1}^{n}({\tfrac {1}{n}}-{\overline {x}}w_{i})Y_{i}

.

Beweis
Dass die Kleinste-Quadrate-Schätzer sich im Falle der linearen Einfachregression durch () ergeben kann wie folgt gezeigt werden: Es sind die Parameterschätzer ${\hat {\beta }}_{0}^{KQ}$ und ${\hat {\beta }}_{1}^{KQ}$ gesucht, die Lösung des folgenden Mnimierungsproblems sind ${\underset {\beta _{0},\beta _{1}\in \mathbb {R} }{\arg \min }}\,Q(\beta _{0},\beta _{1})={\underset {\beta _{0},\beta _{1}\in \mathbb {R} }{\arg \min }}\sum _{i=1}^{n}\left(Y_{i}-(\beta _{0}+\beta _{1}x_{i})\right)^{2}$ . Um das Minimum zu finden gilt es die Quadratsumme partiell nach ${\hat {\beta }}_{0}$ und ${\hat {\beta }}$ abzuleiten. Die Bedingungen erster Ordnung (notwendige Bedingungen) lauten: $\left.{\frac {\partial \,Q(\beta _{0},\,\beta _{1})}{\partial \beta _{0}}}\right\|_{{\hat {\beta }}_{0}}=-2\sum _{i=1}^{n}\left(Y_{i}-{\hat {\beta }}_{0}-\beta _{1}x_{i}\right){\overset {\mathrm {!} }{=}}\;0\quad$ und $\quad \left.{\frac {\partial \,Q(\beta _{0},\,\beta _{1})}{\partial \beta _{1}}}\right\|_{{\hat {\beta }}_{1}}=-2\sum _{i=1}^{n}x_{i}\left(Y_{i}-\beta _{0}-{\hat {\beta }}_{1}x_{i}\right){\overset {\mathrm {!} }{=}}\;0$ . Zunächst berechnet man die partielle Ableitung nach ${\hat {\beta }}_{0}$ $\left.{\frac {\partial \,Q(\beta _{0},\,\beta _{1})}{\partial \beta _{0}}}\right\|_{{\hat {\beta }}_{0}}=-2\sum _{i=1}^{n}\left(Y_{i}-{\hat {\beta }}_{0}-\beta _{1}x_{i}\right){\overset {\mathrm {!} }{=}}\;0\Rightarrow \sum _{i=1}^{n}\left(Y_{i}-{\hat {\beta }}_{0}-{\hat {\beta }}_{1}x_{i}\right)=0\Rightarrow \sum _{i=1}^{n}Y_{i}=\sum _{i=1}^{n}{\hat {\beta }}_{0}+{\hat {\beta }}_{1}\sum _{i=1}^{n}x_{i}$ $\Rightarrow \sum _{i=1}^{n}Y_{i}=n{\hat {\beta }}_{0}+{\hat {\beta }}_{1}\sum _{i=1}^{n}x_{i}\Rightarrow {\frac {1}{n}}\sum _{i=1}^{n}y_{i}={\hat {\beta }}_{0}+{\frac {1}{n}}{\hat {\beta }}_{1}\sum _{i=1}^{n}x_{i}\Rightarrow {\overline {Y}}={\hat {\beta }}_{0}+{\hat {\beta }}_{1}{\overline {x}}$ . Bevor man die partielle Ableitung in Bezug auf ${\hat {\beta }}_{1}$ bildet, setzt man zunächst das Ergebnis für ${\hat {\beta }}_{0}$ ein: ${\underset {\beta _{0},\beta _{1}\in \mathbb {R} }{\arg \min }}\sum _{i=1}^{n}\left(Y_{i}-\left({\overline {Y}}-{\hat {\beta }}_{1}{\overline {x}}\right)-{\hat {\beta }}x_{i}\right)^{2}={\underset {\beta _{0},\beta _{1}\in \mathbb {R} }{\arg \min }}\sum _{i=1}^{n}\left(\left(Y_{i}-{\overline {y}}\right)-{\hat {\beta }}_{1}\left(x_{i}-{\overline {x}}\right)\right)^{2}$ . Nun gilt es die partielle Ableitung nach ${\hat {\beta }}_{1}$ zu bilden: ${\frac {\partial }{\partial {\hat {\beta }}_{1}}}Q({\hat {\beta }}_{0},{\hat {\beta }}_{1})=-2\sum _{i=1}^{n}\left[\left(Y_{i}-{\overline {y}}\right)-{\hat {\beta }}_{1}\left(x_{i}-{\overline {x}}\right)\right]\left(x_{i}-{\overline {x}}\right)=0\Rightarrow \sum _{i=1}^{n}\left(Y_{i}-{\overline {y}}\right)\left(x_{i}-{\overline {x}}\right)-{\hat {\beta }}_{1}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}=0\Rightarrow {\hat {\beta }}_{1}={\frac {\sum _{i=1}^{n}(Y_{i}-{\overline {Y}})\left(x_{i}-{\overline {x}}\right)}{\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}}$ . Schließlich muss ${\hat {\beta }}$ ersetzt werden, um ${\hat {\beta }}_{0}$ zu bestimmen. Die beiden Lösungen, d. h. die KQ-Schätzer lauten somit: ${\hat {\beta }}_{1}={\frac {\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})(Y_{i}-{\overline {Y}})}{\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}\;$ und $\;{\hat {\beta }}_{0}={\overline {Y}}-{\hat {\beta }}_{1}{\overline {x}}$ .

Die mit dieser Methode gewonnene Gerade wird Kleinste-Quadrate-Gerade (KQ-gerade) genannt.

Parameterschätzung im multiplen linearen Regressionsmodell

Auch im multiplen linearen Regressionsmodell wird der Vektor der Störgrößen mithilfe der Kleinste-Quadrate-Schätzung (KQ-Schätzung) minimiert, das heißt, es soll ${\boldsymbol {\beta }}$ so gewählt werden, dass die euklidische Norm $\|\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\|_{2}$ minimal wird. Im Folgenden wird der Ansatz benutzt, dass die Residuenquadratsumme minimiert wird. Dazu wird vorausgesetzt, dass $\mathbf {X}$ den Rang $K$ hat. Dann ist $\mathbf {X} ^{\top }\mathbf {X}$ invertierbar und man erhält als Minimierungsproblem:

{\underset {\boldsymbol {\beta }}{\rm {arg\,min}}}\,Q({\boldsymbol {\beta }})={\underset {\boldsymbol {\beta }}{\rm {arg\,min}}}\,\sum _{t=1}^{T}(y_{t}-\mathbf {x} _{t}^{\top }{\boldsymbol {\beta }})^{2}={\underset {\boldsymbol {\beta }}{\rm {arg\,min}}}\,(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\top }(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})={\underset {\boldsymbol {\beta }}{\rm {arg\,min}}}\,\left(\mathbf {y} ^{\top }\mathbf {y} -2{\boldsymbol {\beta }}^{\top }\mathbf {X} ^{\top }\mathbf {y} +{\boldsymbol {\beta }}^{\top }\mathbf {X} ^{\top }\mathbf {X} {\boldsymbol {\beta }}\right)

Die Bedingung erster Ordnung (Nullsetzen des Gradienten) lautet:

{\frac {\partial \,Q({\boldsymbol {\beta }})}{\partial {\boldsymbol {\beta }}}}={\begin{pmatrix}{\frac {\partial \,Q({\boldsymbol {\beta }})}{\partial \beta _{1}}}\\{\frac {\partial \,Q({\boldsymbol {\beta }})}{\partial \beta _{2}}}\\\vdots \\{\frac {\partial \,Q({\boldsymbol {\beta }})}{\partial \beta _{K}}}\end{pmatrix}}{\overset {\mathrm {!} }{=}}\;\mathbf {0}

Die partiellen Ableitungen erster Ordnung lauten:

{\begin{aligned}{\frac {\partial \,Q({\boldsymbol {\beta }})}{\partial \beta _{1}}}&={\frac {\partial (\mathbf {y} ^{\top }\mathbf {y} )}{\partial \beta _{1}}}-{\frac {\partial (2{\boldsymbol {\beta }}^{\top }\mathbf {X} ^{\top }\mathbf {y} )}{\partial \beta _{1}}}+{\frac {\partial ({\boldsymbol {\beta }}^{\top }\mathbf {X} ^{\top }\mathbf {X} {\boldsymbol {\beta }})}{\partial \beta _{1}}}=-2\mathbf {x} _{(1)}^{\top }\mathbf {y} +2\mathbf {x} _{(1)}^{\top }\mathbf {X} {\boldsymbol {\beta }}\\{\frac {\partial \,Q({\boldsymbol {\beta }})}{\partial \beta _{2}}}&={\frac {\partial (\mathbf {y} ^{\top }\mathbf {y} )}{\partial \beta _{2}}}-{\frac {\partial (2{\boldsymbol {\beta }}^{\top }\mathbf {X} ^{\top }\mathbf {y} )}{\partial \beta _{2}}}+{\frac {\partial ({\boldsymbol {\beta }}^{\top }\mathbf {X} ^{\top }\mathbf {X} {\boldsymbol {\beta }})}{\partial \beta _{2}}}=-2\mathbf {x} _{(2)}^{\top }\mathbf {y} +2\mathbf {x} _{(2)}^{\top }\mathbf {X} {\boldsymbol {\beta }}\\\vdots \\{\frac {\partial \,Q({\boldsymbol {\beta }})}{\partial \beta _{K}}}&={\frac {\partial (\mathbf {y} ^{\top }\mathbf {y} )}{\partial \beta _{K}}}-{\frac {\partial (2{\boldsymbol {\beta }}^{\top }\mathbf {X} ^{\top }\mathbf {y} )}{\partial \beta _{K}}}+{\frac {\partial ({\boldsymbol {\beta }}^{\top }\mathbf {X} ^{\top }\mathbf {X} {\boldsymbol {\beta }})}{\partial \beta _{K}}}=-2\mathbf {x} _{(K)}^{\top }\mathbf {y} +2\mathbf {x} _{(K)}^{\top }\mathbf {X} {\boldsymbol {\beta }}\end{aligned}}

Dies zeigt, dass sich die Bedingung erster Ordnung für den Vektor $\mathbf {b}$ der geschätzten Regressionsparameter kompakt darstellen lässt als:

\left.{\frac {\partial Q({\boldsymbol {\beta }})}{\partial \mathbf {\beta } }}\right|_{\mathbf {b} }=-2\mathbf {X} ^{\top }\mathbf {y} +2\mathbf {X} ^{\top }\mathbf {X} \mathbf {b} \;{\overset {\mathrm {!} }{=}}\;\mathbf {0}

bzw.

\mathbf {X} ^{\top }\mathbf {X} \mathbf {b} =\mathbf {X} ^{\top }\mathbf {y}

.

Dieses lineare Gleichungssystem wird in der Regel (Gaußsches) Normalgleichungssystem genannt.

Da die Matrix $\mathbf {X}$ den Rang $K$ hat, ist die quadratische symmetrische Matrix $\mathbf {X} ^{\top }\mathbf {X}$ nichtsingulär und die Inverse für $\mathbf {X} ^{\top }\mathbf {X}$ existiert. Daher erhält man nach linksseitiger Multiplikation mit der Inversen der Produktsummenmatrix $(\mathbf {X} ^{\top }\mathbf {X} )^{-1}$ als Lösung des Minimierungsproblems den folgenden Vektor der geschätzten Regressionskoeffizienten:^[2]

\mathbf {b} ={\begin{pmatrix}b_{1}\\b_{2}\\b_{2}\\\vdots \\b_{K}\end{pmatrix}}=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {y}

Wenn der Rang von $\mathbf {X}$ kleiner als $K$ ist, dann ist $\mathbf {X} ^{\top }\mathbf {X}$ nicht invertierbar, also das Normalgleichungssystem nicht eindeutig lösbar, mithin $\mathbf {b}$ nicht identifizierbar, siehe hierzu aber den Begriff der Schätzbarkeit. Da $\mathbf {b}$ die Residuenquadratsumme minimiert, wird $\mathbf {b}$ auch Kleinste-Quadrate-Schätzer (kurz: KQ-Schätzer) genannt.^[3] Alternativ kann der Kleinste-Quadrate-Schätzer durch Einsetzen des wahren Modells $\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}$ auch dargestellt werden als^[4]

\mathbf {b} =(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }(\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }})={\boldsymbol {\beta }}+(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }{\boldsymbol {\varepsilon }}

Für die Kovarianzmatrix des Kleinste-Quadrate-Schätzers ergibt sich (dargestellt in kompakter Form):^[5]

\operatorname {Cov} (\mathbf {b} )={\boldsymbol {\beta }}+(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }{\boldsymbol {\varepsilon }}=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\operatorname {Cov} (\mathbf {Y} )\ \mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}=\sigma ^{2}(\mathbf {X} ^{\top }\mathbf {X} )^{-1}=\Sigma _{\mathbf {b} }

Im Fall der linearen Einfachregression ( ${\boldsymbol {\beta }}=(\beta _{1},\beta _{2})^{\top }$ ) reduziert sich die obigen Formel auf die bekannten Ausdrücke für die Varianzen der KQ-Schätzer $\operatorname {Var} (\beta _{2})={\frac {\sigma ^{2}}{\sum _{t=1}^{T}(x_{t2}-{\overline {x}}_{2})^{2}}}$ und $\operatorname {Var} (\beta _{1})={\frac {\sigma ^{2}\sum _{t=1}^{T}x_{t2}^{2}}{T\sum _{t=1}^{T}(x_{t2}-{\overline {x}}_{2})^{2}}}$ (siehe Statistische Eigenschaften der Kleinste-Quadrate-Schätzer).^[6]

Beweis
${\begin{aligned}\sigma ^{2}(\mathbf {X} ^{\top }\mathbf {X} )^{-1}&=\sigma ^{2}\left({\begin{pmatrix}1&1&\cdots \\x_{12}&x_{22}&\cdots \end{pmatrix}}{\begin{pmatrix}1&x_{12}\\1&x_{22}\\\vdots &\vdots \,\,\,\end{pmatrix}}\right)^{-1}\\[6pt]&=\sigma ^{2}\left(\sum _{t=1}^{T}{\begin{pmatrix}1&x_{t2}\\x_{t2}&x_{t2}^{2}\end{pmatrix}}\right)^{-1}\\[6pt]&=\sigma ^{2}{\begin{pmatrix}T&\sum x_{t2}\\\sum x_{t2}&\sum x_{t2}^{2}\end{pmatrix}}^{-1}\\[6pt]&=\sigma ^{2}\cdot {\frac {1}{T\sum x_{t2}^{2}-(\sum x_{i2})^{2}}}{\begin{pmatrix}\sum x_{t2}^{2}&-\sum x_{t2}\\-\sum x_{t2}&T\end{pmatrix}}\\[6pt]&=\sigma ^{2}\cdot {\frac {1}{T\sum {(x_{t2}-{\overline {x}})^{2}}}}{\begin{pmatrix}\sum x_{t2}^{2}&-\sum x_{t2}\\-\sum x_{t2}&T\end{pmatrix}}\\[8pt]\Rightarrow \operatorname {Var} (\beta _{1})&=\sigma ^{2}(\mathbf {X} ^{\top }\mathbf {X} )_{11}^{-1}={\frac {\sigma ^{2}\sum _{t=1}^{T}x_{t2}^{2}}{T\sum _{t=1}^{T}(x_{t2}-{\overline {x}}_{2})^{2}}}\\\Rightarrow \operatorname {Var} (\beta _{2})&=\sigma ^{2}(\mathbf {X} ^{\top }\mathbf {X} )_{22}^{-1}={\frac {\sigma ^{2}}{\sum _{t=1}^{T}(x_{t2}-{\overline {x}}_{2})^{2}}}.\end{aligned}}$

Man erhält mit Hilfe des Kleinste-Quadrate-Schätzers $\mathbf {b}$ das Gleichungssystem

{\hat {\mathbf {y} }}=\mathbf {X} \mathbf {b} =\mathbf {y} -{\hat {\boldsymbol {\varepsilon }}}

,

wobei ${\hat {\boldsymbol {\varepsilon }}}$ der Vektor der Residuen und ${\hat {\mathbf {y} }}$ die Schätzung für $\mathbf {y}$ ist. Das Interesse der Analyse liegt oft in der Schätzung ${\hat {\mathbf {y} }}_{0}$ oder in der Vorhersage der abhängigen Variablen $\mathbf {y}$ für ein gegebenes Tupel von ${\mathbf {x} }_{0}$ . Der Vorhersagevektor berechnet sich als

{\hat {\mathbf {y} }}_{0}=x_{01}b_{1}+x_{02}b_{2}+\dotsc +x_{0K}b_{K}=\mathbf {x} _{0}^{\top }{\mathbf {b} }

.

Güteeigenschaften des Kleinste-Quadrate-Schätzers

Erwartungstreue

Im multiplen Fall kann man genauso wie im einfachen Fall zeigen, dass der Kleinste-Quadrate-Schätzvektor erwartungstreu für ${\boldsymbol {\beta }}$ ist. Dies gilt allerdings nur, wenn die Annahme der Exogenität der Regressoren gegeben ist. Dies ist der Fall, wenn die möglicherweise zufälligen Regressoren und die Störgrößen unkorreliert sind, d. h. wenn $\operatorname {E} (\mathbf {x} ^{\top }\mathbf {\cdot } {\boldsymbol {\varepsilon }})\mathbf {=} 0$ gilt. Wenn man also hier voraussetzt, dass die exogenen Variablen keine Zufallsvariablen sind, sondern wie in einem Experiment kontrolliert werden können, gilt $\forall k\in \{1,\dotsc ,K\}\colon \operatorname {E} (x_{tk}\varepsilon _{t})=x_{tk}\cdot \operatorname {E} (\varepsilon _{t})=0$ bzw. $\operatorname {E} (\mathbf {x} ^{\top }\mathbf {\cdot } {\boldsymbol {\varepsilon }})=\mathbf {0}$ und damit ist $\mathbf {b}$ erwartungstreu für ${\boldsymbol {\beta }}$ .

Beweis
${\begin{aligned}\operatorname {E} (\mathbf {b} )&=\operatorname {E} ((\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {y} )\\&=\operatorname {E} ((\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }(\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}))\\&=\operatorname {E} ((\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {X} {\boldsymbol {\beta }}+(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }{\boldsymbol {\varepsilon }}))=\underbrace {(\mathbf {X} ^{\top }\mathbf {X} )^{-1}(\mathbf {X} ^{\top }\mathbf {X} )} _{=\mathbf {I} }{\boldsymbol {\beta }}+(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\underbrace {\operatorname {E} (\mathbf {X} ^{\top }{\boldsymbol {\varepsilon }})} _{=\mathbf {0} }={\boldsymbol {\beta }}\end{aligned}}$

Falls die Exogenitätsannahme nicht zutrifft, $\operatorname {E} (\mathbf {x} ^{\top }{\boldsymbol {\varepsilon }})\mathbf {\neq } 0$ , ist der Kleinste-Quadrate-Schätzer nicht erwartungstreu für ${\boldsymbol {\beta }}$ . Es liegt also eine Verzerrung (englisch bias) vor, d. h., „im Mittel“ weicht der Parameterschätzer vom wahren Parameter ab:

\operatorname {Bias} \left(\mathbf {b} \right)=\operatorname {E} (\mathbf {b} )-{\boldsymbol {\beta }}\neq \mathbf {0}

.

Der Erwartungswert des Kleinste-Quadrate-Parametervektor für $\mathbf {b}$ ist also nicht gleich dem wahren Parameter ${\boldsymbol {\beta }}$ , siehe dazu auch unter Regression mit stochastischen Regressoren.

Effizienz

Der Kleinste-Quadrate-Schätzer ist linear:

\mathbf {b} =\underbrace {(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }} _{:=\mathbf {A} }\mathbf {y} =\mathbf {A} \mathbf {y}

.

Nach dem Satz von Gauß-Markow ist der Schätzer $\mathbf {b}$ , bester linearer erwartungstreuer Schätzer (BLES bzw. englisch Best Linear Unbiased Estimator, kurz: BLUE), das heißt, er ist derjenige lineare erwartungstreue Schätzer, der unter allen linearen erwartungstreuen Schätzern die kleinste Varianz bzw. Kovarianzmatrix besitzt. Für diese Eigenschaften der Schätzfunktion $\mathbf {b}$ braucht keine Verteilungsinformation der Störgröße vorzuliegen. Wenn die Störgrößen normalverteilt sind, ist $\mathbf {b}$ Maximum-Likelihood-Schätzer und nach dem Satz von Lehmann-Scheffé beste erwartungstreue Schätzung (BES bzw. englisch Best Unbiased Estimator, kurz: BUE).

Konsistenz

Der KQ-Schätzer ist unter den bisherigen Annahmen erwartungstreu für ${\boldsymbol {\beta }}$ ( $\operatorname {E} (\mathbf {b} )={\boldsymbol {\beta }}$ ), wobei die Stichprobengröße $T$ keinen Einfluss auf die Erwartungstreue hat (schwaches Gesetz der großen Zahlen). Ein Schätzer ist genau dann konsistent für den wahren Wert, wenn er in Wahrscheinlichkeit gegen den wahren Wert konvergiert (englisch probability limit, kurz: plim). Die Eigenschaft der Konsistenz bezieht also das Verhalten des Schätzers mit ein, wenn die Anzahl der Beobachtungen größer wird.

Für die Folge $(\mathbf {b} _{t})_{t\in \mathbb {N} }$ gilt, dass sie in Wahrscheinlichkeit gegen den wahren Parameterwert ${\boldsymbol {\beta }}$ konvergiert

\forall \epsilon >0\colon \lim _{t\to \infty }\mathbb {P} (|\mathbf {b} _{t}-{\boldsymbol {\beta }}|\geq \epsilon )=0

oder vereinfacht ausgedrückt $\quad \mathbf {b} \;{\stackrel {p}{\longrightarrow }}\;\mathbf {\boldsymbol {\beta }} \quad$ bzw. $\quad \operatorname {plim} (\mathbf {b} )={\boldsymbol {\beta }}$

Die Grundlegende Annahme, um die Konsistenz des KQ-Schätzers sicherzustellen lautet

\lim _{T\to \infty }\left({\frac {\mathbf {X} _{T}^{\top }\mathbf {X} _{T}}{T}}\right)=\mathbf {Q}

,

d. h. man geht davon aus, dass das durchschnittliche Quadrat der beobachteten Werte der erklärenden Variablen auch bei einem ins Unendliche gehendem Stichprobenumfang endlich bleibt (siehe Produktsummenmatrix#Asymptotische Resultate). Außerdem nimmt man an, dass

\operatorname {plim} \left({\frac {\mathbf {X} ^{\top }{\boldsymbol {\varepsilon }}}{T}}\right)=0

.

Die Konsistenz für ${\boldsymbol {\beta }}$ kann wie folgt gezeigt werden:^[7]

Beweis
${\begin{aligned}\operatorname {plim} (\mathbf {b} )&=\operatorname {plim} ((\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {y} )\\&=\operatorname {plim} ({\boldsymbol {\beta }}+(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }{\boldsymbol {\varepsilon }}))\\&={\boldsymbol {\beta }}+\operatorname {plim} ((\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }{\boldsymbol {\varepsilon }})\\&={\boldsymbol {\beta }}+\operatorname {plim} \left(((\mathbf {X} ^{\top }\mathbf {X} )^{-1}/T)\right)\cdot \operatorname {plim} \left(((\mathbf {X} ^{\top }{\boldsymbol {\varepsilon }})/T)\right)\\&={\boldsymbol {\beta }}+[\operatorname {plim} \left(((\mathbf {X} ^{\top }\mathbf {X} )/T)\right)]^{-1}\cdot \underbrace {\operatorname {plim} \left(((\mathbf {X} ^{\top }{\boldsymbol {\varepsilon }})/T)\right)} _{=0}={\boldsymbol {\beta }}+\mathbf {Q} ^{-1}\cdot 0={\boldsymbol {\beta }}\end{aligned}}$

Hierbei wurde das Slutsky-Theorem und die Eigenschaft verwendet, dass wenn $\mathbf {X}$ deterministisch bzw. nichtstochastisch ist $\operatorname {plim} \left((\mathbf {X} ^{\top }\mathbf {X} )/T\right)=\lim \left((\mathbf {X} ^{\top }\mathbf {X} )/T\right)$ gilt.

Folglich ist der Kleinste-Quadrate-Schätzer konsistent für ${\boldsymbol {\beta }}$ . Die Eigenschaft besagt, dass mit steigender Stichprobengröße die Wahrscheinlichkeit, dass der Schätzer $\mathbf {b}$ vom wahren Parameter ${\boldsymbol {\beta }}$ abweicht, sinkt. Weiterhin lässt sich durch das Chintschin-Theorem zeigen, dass für die durch die KQ-Schätzung gewonnene Störgrößenvarianz gilt, dass sie konsistent für $\sigma ^{2}$ ist, d. h. $\operatorname {plim} ({\hat {\sigma }}^{2})=\sigma ^{2}$ .

Beweis
Dazu schreibt man zunächst die geschätzte Störgrößenvarianz wie folgt um ${\begin{aligned}{\hat {\sigma }}^{2}&={\frac {\left(\mathbf {y} -\mathbf {X} \mathbf {b} \right)^{\top }\left(\mathbf {y} -\mathbf {X} \mathbf {b} \right)}{T-K}}\\&={\frac {1}{T-K}}{\boldsymbol {\varepsilon }}^{\top }\left(\mathbf {I} -\mathbf {X} \left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\right){\boldsymbol {\varepsilon }}\\&=\left({\frac {T}{T-K}}\right)\left({\frac {{\boldsymbol {\varepsilon }}^{\top }{\boldsymbol {\varepsilon }}}{T}}-{\frac {{\boldsymbol {\varepsilon }}^{\top }\mathbf {X} }{T}}\left({\frac {\mathbf {X} ^{\top }\mathbf {X} }{T}}\right)^{-1}{\frac {\mathbf {X} ^{\top }{\boldsymbol {\varepsilon }}}{T}}\right)\end{aligned}}$ Damit ergibt sich als Wahrscheinlichkeitslimes $\operatorname {plim} ({\hat {\sigma }}^{2})=\operatorname {plim} \left(\left({\frac {T}{T-K}}\right)\left({\frac {{\boldsymbol {\varepsilon }}^{\top }{\boldsymbol {\varepsilon }}}{T}}-{\frac {{\boldsymbol {\varepsilon }}^{\top }\mathbf {X} }{T}}\left({\frac {\mathbf {X} ^{\top }\mathbf {X} }{T}}\right)^{-1}{\frac {\mathbf {X} ^{\top }{\boldsymbol {\varepsilon }}}{T}}\right)\right)=\sigma ^{2}-0\cdot \mathbf {Q} ^{-1}\cdot 0=\sigma ^{2}$ Somit ist ${\hat {\sigma }}^{2}$ ein konsistenter Schätzer für $\sigma ^{2}$ .

Anmerkungen

↑ $\arg \min(\cdot )$ bezeichnet analog zu $\arg \max(\cdot )$ (Argument des Maximums) das Argument des Minimums
↑ George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T.C. Lee: Introduction to the Theory and Practice of Econometrics. 2nd Ed. John Wiley & Sons, New York/Chichester/Brisbane/Toronto/Singapur 1988, ISBN 0-471-62414-4 S. 192.
↑ Alvin C. Rencher, G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 143
↑ Peter Hackl: Einführung in die Ökonometrie. 2. aktualisierte Auflage, Pearson, 2008., ISBN 978-3-86894-156-2, S. 48.
↑ George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T.C. Lee: Introduction to the Theory and Practice of Econometrics. 2nd Ed. John Wiley & Sons, New York/Chichester/Brisbane/Toronto/Singapur 1988, ISBN 0-471-62414-4 S. 201.
↑ George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T.C. Lee: Introduction to the Theory and Practice of Econometrics. 2nd Ed. John Wiley & Sons, New York/Chichester/Brisbane/Toronto/Singapur 1988, ISBN 0-471-62414-4 S. 168.
↑ George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T.C. Lee: Introduction to the Theory and Practice of Econometrics. 2nd Ed. John Wiley & Sons, New York/Chichester/Brisbane/Toronto/Singapur 1988, ISBN 0-471-62414-4 S. 266.

[1] $\arg \min(\cdot )$ bezeichnet analog zu $\arg \max(\cdot )$ (Argument des Maximums) das Argument des Minimums

[2] George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T.C. Lee: Introduction to the Theory and Practice of Econometrics. 2nd Ed. John Wiley & Sons, New York/Chichester/Brisbane/Toronto/Singapur 1988, ISBN 0-471-62414-4 S. 192.

[3] Alvin C. Rencher, G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 143

[4] Peter Hackl: Einführung in die Ökonometrie. 2. aktualisierte Auflage, Pearson, 2008., ISBN 978-3-86894-156-2, S. 48.

[5] George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T.C. Lee: Introduction to the Theory and Practice of Econometrics. 2nd Ed. John Wiley & Sons, New York/Chichester/Brisbane/Toronto/Singapur 1988, ISBN 0-471-62414-4 S. 201.

[6] George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T.C. Lee: Introduction to the Theory and Practice of Econometrics. 2nd Ed. John Wiley & Sons, New York/Chichester/Brisbane/Toronto/Singapur 1988, ISBN 0-471-62414-4 S. 168.

[7] George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T.C. Lee: Introduction to the Theory and Practice of Econometrics. 2nd Ed. John Wiley & Sons, New York/Chichester/Brisbane/Toronto/Singapur 1988, ISBN 0-471-62414-4 S. 266.

[1]

[2]

[3]

[4]

[5]

[6]