Verschiebungssatz (Statistik)

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Der Verschiebungssatz (auch Satz von Steiner genannt) ist eine Rechenregel für die Ermittlung der Summe quadratischer Abweichungen vom arithmetischen Mittel.

Kurz gefasst besagt er:

\sum_{i=1}^n \left(x_i - \bar{x}\right)^2 = \left( \sum_{i=1}^n x_i^2 \right) - n \bar{x}^2= \left( \sum_{i=1}^n x_i^2 \right) - \frac{1}{n}\left(\sum_{i=1}^n x_i\right)^2.

Der Verschiebungssatz erleichtert beispielsweise die Berechnung der Stichprobenvarianz, wenn Messwerte fortlaufend anfallen. Es ist dann weder nötig, alle x_i abzuspeichern (Speicher), noch nochmals alle Summanden durchzulaufen (Rechenzeit). Bei Verwendung dieser Formel mit begrenzter Rechengenauigkeit kann es jedoch zu einer numerischen Auslöschung kommen, wenn \bar{x}^2 erheblich größer ist als die Varianz.

Erläuterung am Fall einer endlichen Folge von Zahlen: Das Stichprobenmittel[Bearbeiten]

Der Verschiebungssatz wird zunächst am einfachsten Fall vorgeführt: Es ist eine Folge von reellen Zahlen xi gegeben, beispielsweise eine Stichprobe. Es wird die Summe Q der quadratischen Abweichungen der Einzelwerte xi vom arithmetischen Mittel dieser Werte gebildet:

Q = \sum_{i=1}^n (x_i - \bar{x})^2 \ ,

wobei

\bar x = \frac{1}{n} \sum_{i=1}^n x_i = \frac{x_1 + x_2 + \cdots + x_n}{n}

das arithmetische Mittel der Zahlen ist.

Der Verschiebungssatz ergibt sich aus

Q = \sum_{i=1}^n (x_i^2 - 2 x_i \bar{x} + \bar{x}^2) 
         = \left( \sum_{i=1}^n x_i^2 \right) - 2 \bar{x} \left( \sum_{i=1}^n x_i \right) + n \bar{x}^2
 \quad = \left( \sum_{i=1}^n x_i^2 \right) - 2 \bar{x} \cdot n \bar{x} + n \bar{x}^2
               = \left( \sum_{i=1}^n x_i^2 \right) - n \bar{x}^2.

Beispiel[Bearbeiten]

Im Rahmen der Qualitätssicherung werden fortlaufend Kaffeepäckchen gewogen. Für die ersten vier Päckchen erhielt man die Werte (in g) xi

505, 500, 495, 505

Das durchschnittliche Gewicht beträgt

\bar x =  \frac{505 + 500 + 495 + 505}4 = 501{,}25

Es ist

\begin{align}
  Q &= (505-501{,}25)^2+ (500-501{,}25)^2+(495-501{,}25)^2+(505-501{,}25)^2\\
    &= 14{,}0625+1{,}5625+39{,}0625+14{,}0625\\
    &= 68{,}75\,.
\end{align}

Für die Anwendung des Verschiebungssatzes berechnet man

q_1 = \sum_{i=1}^n x_i = 505 + 500 + 495 + 505=2.005

und

q_2 = \sum_{i=1}^n x_i^2 = 255.025+250.000+245.025+255.025 = 1.005.075
Q =  q_2 - \frac{1}{4} q_1^2 = 68{,}75

Man kann damit beispielsweise die korrigierte Stichprobenvarianz bestimmen:

s^2 = \frac 1{n-1}Q\,,

im Beispiel

s^2= \frac {1}{4-1}68{,}75 \approx 22{,}9\,.

Kommt nun ein weiteres Päckchen in die Stichprobe, so reicht es zur Neuberechnung der Stichprobenvarianz mit Hilfe des Verschiebungssatzes, lediglich die Werte für q_1 und q_2 neu zu berechnen. Beim fünften Päckchen werde das Gewicht 510 g gemessen. Dann gilt:

q_1^\text{neu} = q_1 + 510 = 2.005 + 510 = 2.515\,,
q_2^\text{neu} = q_2 + 510^2 = 1.005.075+260.100=1.265.175\,, sowie
Q^\text{neu} = q_2^\text{neu} - \frac{1}{5} \left(q_1^\text{neu}\right)^2=130\,.

Die Stichprobenvarianz der neuen, größeren Stichprobe ist dann

s^2_\text{neu} = \frac {1}{5-1}Q^\text{neu} = 130/4=32{,}5\,.

Anwendungen[Bearbeiten]

Zufallsvariable[Bearbeiten]

Varianz[Bearbeiten]

Die Varianz einer Zufallsvariablen

\mbox{var}\,X = \operatorname{E}((X-\operatorname{E}(X))^2)

lässt sich mit dem Verschiebungssatz auch angeben als

\mbox{var}\,X = \operatorname{E}(X^2) - (\operatorname{E}(X))^2 \ .

Dieses Resultat wird auch als Satz von König-Huygens bezeichnet. Es ergibt sich aus der Linearität des Erwartungswertes:

\begin{align} E\bigl((X-E(X))^2\bigr)&
= E\bigl(X^2 - 2XE(X) + E(X)^2\bigr)\\  & 
= E(X^2) - E\bigl(2XE(X)\bigr) + E\bigl(E(X)^2\bigr)\\&
= E(X^2) - 2E(X)E(X) + E(X)^2\\&
= E(X^2) - E(X)^2.\end{align}
\mbox{var}\,X = \operatorname{E}((X-\operatorname{E}(X))^2) = \sum_j p_j\left(x_j - \sum_i p_i x_i\right)^2=\sum_i p_ix_i^2 - \left(\sum_i p_i x_i\right)^2 \ .
Mit der speziellen Wahl p_i=\frac{1}{n} ergibt sich \operatorname{E}(X)=\bar{x}=\frac{1}{n}\sum_i x_i und die obige Formel
 \frac{1}{n}\sum_i \left(x_i - \bar{x}\right)^2=\frac{1}{n}\sum_i x_i^2 - \bar{x}^2.
  • Für eine stetige Zufallsvariable X mit den Ausprägungen Ω = {x| x ∈ R} und der dazugehörigen Dichtefunktion f(x) ist
\mbox{var}\,X = \operatorname{E}((X-\operatorname{E}(X))^2) = \int_x (x - \operatorname{E}(X))^2 \, f(x)\,dx \ .

Man erhält hier mit dem Verschiebungssatz

\mbox{var}\,X = \operatorname{E}((X-\operatorname{E}(X))^2) = \int_x x^2 f(x)\,dx - \operatorname{E}(X)^2 \ .

Kovarianz[Bearbeiten]

Die Stichprobenkovarianz zweier Zufallsvariablen X und Y lässt sich als E( (X-E(X))·(Y-E(Y)) ) angeben.

Für diskrete Zufallsvariablen erhält man für

\operatorname{cov}(X,Y) = \sum_j\sum_k (x_j - \operatorname{E}(X))(y_k - \operatorname{E}(Y)) \, f(x_j, y_k)

entsprechend zu oben

\sum_j\sum_k x_j \, y_k \, f(x_j, y_k) - \operatorname{E}(X) \, \operatorname{E}(Y) \ ,

mit f(xj, yk) als gemeinsamer Wahrscheinlichkeit, dass X = xj und Y = yk ist.

Bei stetigen Zufallsvariablen ergibt sich mit f(x,y) als gemeinsamer Dichtefunktion von X und Y an der Stelle x und y für die Kovarianz

\operatorname{cov}(X,Y) = \int_x \int_y (x - \operatorname{E}(X))(y - \operatorname{E}(Y)) \, f(x, y) \, dy \, dx

entsprechend zu oben

\int_x \int_y x y \, f(x, y) dy \, dx - \operatorname{E}(X) \, \operatorname{E}(Y) \,

Stichprobenkovarianz[Bearbeiten]

Für die Stichproben-Kovarianz zweier Merkmale x und y benötigt man

Q = \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) \ .

Hier ergibt der Verschiebungssatz

Q = \sum_{i=1}^n (x_i y_i) - n  \bar{x} \bar{y} \ .

Die korrigierte Stichprobenkovarianz berechnet sich dann als

 \mbox{cov}_{xy} = \frac {1}{n-1}Q \ .