„Korrigierte Stichprobenvarianz“ – Versionsunterschied

Versionsgeschichte interaktiv durchsuchen

[gesichtete Version]

← Zum vorherigen Versionsunterschied Zum nächsten Versionsunterschied →

Inhalt gelöscht Inhalt hinzugefügt

Inline

Version vom 4. Februar 2015, 20:24 Uhr

Die korrigierte oder unverzerrte Stichprobenvarianz (s²) ist eine Schätzfunktion für die Varianz einer Zufallsvariablen aus Beobachtungswerten, die einer Stichprobe der Grundgesamtheit entstammen. Diese Varianz wird auch in der deskriptiven Statistik als Maß für die Streubreite von Daten verwendet. Sie unterscheidet sich abhängig von der Stichprobenlänge n von der unkorrigierten Stichprobenvarianz um einen Korrektur-Faktor n/(n-1), der auch als Bessel-Korrektur (nach Friedrich Bessel) bezeichnet wird.

Definition

Die korrigierte Stichprobenvarianz der Stichprobenwerte $x_{1},\dotsc ,x_{n}$ ist definiert als

s^{2}={\frac {1}{n-1}}\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}

Dabei ist ${\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}{x_{i}}$ der empirische Mittelwert, also das arithmetische Mittel der Stichprobe.

Die korrigierte Stichprobenvarianz wird oft auch als empirische Varianz oder einfach als Stichprobenvarianz bezeichnet. Diese Bezeichnung ist aber nicht eindeutig; manche Autoren bezeichnen mit empirischer Varianz bzw. Stichprobenvarianz die Größe

s_{n}^{2}={\frac {1}{n}}\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}

;

dies ist der Maximum-Likelihood-Schätzer der Varianz unter Annahme von Normalverteilung.

Berechnung ohne vorherige Mittelwertbildung

Mit dem Verschiebungssatz lässt sich die korrigierte Stichprobenvarianz in einem Durchlauf auch ohne vorherige Mittelwertbildung berechnen:

s^{2}={\frac {1}{n-1}}\left(\sum _{i=1}^{n}x_{i}^{2}-{\frac {1}{n}}\left(\sum _{i=1}^{n}x_{i}\right)^{2}\right)

Das hat aber eine numerische Ungenauigkeit zur Folge, falls der quadrierte Mittelwert der Daten wesentlich größer als deren Varianz ist. Dann kommt es zu Auslöschung bei Berechnung der Differenz in obiger Formel. Mögliche Abhilfe^[1]: man ermittelt vorab eine Näherung ${\tilde {x}}\approx {\overline {x}}$ für den Mittelwert und berechnet die korrigierte Stichprobenvarianz zu

s^{2}={\frac {1}{n-1}}\left(\sum _{i=1}^{n}(x_{i}-{\tilde {x}})^{2}-{\frac {1}{n}}\left(\sum _{i=1}^{n}(x_{i}-{\tilde {x}})\right)^{2}\right)

.

Numerisch stabilere Berechnungsmethoden finden sich in der Literatur^[1].

Erwartungstreue Schätzung der Varianz der Grundgesamtheit

Der Nenner $n-1$ in der korrigierten Stichprobenvarianz erklärt sich folgendermaßen: Sind $x_{1},\dotsc ,x_{n}$ die Ausprägungen der unabhängig identisch verteilten Zufallsvariablen $X_{1},\dotsc ,X_{n}$ mit Varianz $\sigma ^{2}$ und ist der Mittelwert $\mu$ der Grundgesamtheit bekannt, so ist

S_{0}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(X_{i}-\mu \right)^{2}

eine erwartungstreue Schätzfunktion für die Varianz $\sigma ^{2}$ der Grundgesamtheit^[2] und damit auch

s_{0}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-\mu \right)^{2},

eine erwartungstreue Schätzung für die Varianz. Es gilt namentlich:

\operatorname {E} (S_{0}^{2})=\operatorname {E} \left({\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}\right)={\frac {1}{n}}\sum _{i=1}^{n}\operatorname {E} \left((X_{i}-\mu )^{2}\right)={\frac {1}{n}}\sum _{i=1}^{n}\operatorname {Var} \left(X_{i}\right)={\frac {1}{n}}n\sigma ^{2}=\sigma ^{2}.

Üblicherweise kennt man aber den Mittelwert $\mu$ der Grundgesamtheit nicht und schätzt ihn daher durch den Stichprobenmittelwert

{\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}.

Setzt man diesen Schätzwert unbekümmert in obige Formel ein, so erhält man für die Varianz $\sigma ^{2}$ der Grundgesamtheit die Schätzung

s_{1}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}.

Um zu entscheiden, ob dieser Schätzer erwartungstreu ist, betrachtet man ihn als Ausprägung der Schätzfunktion

S_{1}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(X_{i}-{\bar {X}}\right)^{2}.

und berechnet wie folgt den Erwartungswert:

{\begin{aligned}\operatorname {E} (S_{1}^{2})&={\frac {1}{n}}\sum _{i=1}^{n}\operatorname {E} \left((X_{i}-{\overline {X}})^{2}\right)={\frac {1}{n}}\operatorname {E} \left(\sum _{i=1}^{n}(X_{i}-\mu +\mu -{\overline {X}})^{2}\right)\\&={\frac {1}{n}}\operatorname {E} \left(\sum _{i=1}^{n}\left((X_{i}-\mu )^{2}-2(X_{i}-\mu )({\overline {X}}-\mu )+({\overline {X}}-\mu )^{2}\right)\right)\\&={\frac {1}{n}}\operatorname {E} \left(\sum _{i=1}^{n}(X_{i}-\mu )^{2}-2\sum _{i=1}^{n}(X_{i}-\mu )({\overline {X}}-\mu )+n({\overline {X}}-\mu )^{2}\right)\\&={\frac {1}{n}}\operatorname {E} \left(\sum _{i=1}^{n}(X_{i}-\mu )^{2}-2n({\overline {X}}-\mu )({\overline {X}}-\mu )+n({\overline {X}}-\mu )^{2}\right)\\&={\frac {1}{n}}\operatorname {E} \left(\sum _{i=1}^{n}(X_{i}-\mu )^{2}-n({\overline {X}}-\mu )^{2}\right)\\&={\frac {1}{n}}\left(\sum _{i=1}^{n}\operatorname {E} \left((X_{i}-\mu )^{2}\right)-n\operatorname {E} \left(({\overline {X}}-\mu )^{2}\right)\right)\\&={\frac {1}{n}}\left(n\operatorname {Var} (X)-n\operatorname {Var} ({\overline {X}})\right)\\&=\operatorname {Var} (X)-\operatorname {Var} ({\overline {X}})=\sigma ^{2}-{\frac {\sigma ^{2}}{n}}={\frac {n-1}{n}}\,\sigma ^{2},\end{aligned}}

wobei beim vorletzten Gleichheitszeichen die Definition der Varianz und die Formel zur Berechnung des Standardfehlers aus der Varianz der Grundgesamtheit und dem Stichprobenumfang benutzt wurden. Daraus ergibt sich, dass die Schätzfunktion $S_{1}^{2}$ nicht erwartungstreu ist, und dass man einen erwartungstreuen Schätzer für die Varianz erhält, wenn man $s_{1}^{2}$ mit dem Faktor ${\tfrac {n}{n-1}}$ multipliziert. So gelangt man zur korrigierten Stichprobenvarianz

S^{2}={\frac {1}{n-1}}\sum \limits _{i=1}^{n}\left(X_{i}-{\bar {X}}\right)^{2}.

Für diese gilt nun unabhängig von der genauen Verteilung der $x_{i}$

\operatorname {E} (S^{2})=\sigma ^{2}.

Der Erwartungswert der korrigierten Stichprobenvarianz ist also gleich der Varianz der Grundgesamtheit. Die korrigierte Stichprobenvarianz ist somit eine erwartungstreue Schätzung für die Varianz.^[2]

Darstellung mit paarweisen Differenzen

Die Formel der korrigierten Stichprobenvarianz lässt sich auch so darstellen, dass sie keinen Bezug auf ein Lage-Maß wie den Mittelwert beinhaltet:

s^{2}={\frac {1}{2}}\cdot {\frac {1}{n(n-1)}}\sum _{\mathrm {alle~} i\neq j}\left(x_{i}-x_{j}\right)^{2}={\frac {1}{n(n-1)}}\sum _{i=1}^{n}\sum _{j=i+1}^{n}\left(x_{i}-x_{j}\right)^{2}.

Insbesondere gilt für eine Stichprobe des Umfangs n=2:

s^{2}={\frac {\left(x_{1}-x_{2}\right)^{2}}{2}}.

Diese Formel liefert den gleichen Wert wie obige Formel, wie sich beispielsweise folgendermaßen erkennen lässt:

\sum _{i=1}^{n}\sum _{j=i+1}^{n}\left(x_{i}-x_{j}\right)^{2}=\sum _{i=1}^{n}\sum _{j=i+1}^{n}\left(\left(x_{i}-{\bar {x}}\right)-\left(x_{j}-{\bar {x}}\right)\right)^{2}

=\sum _{i=1}^{n}\sum _{j=i+1}^{n}\left(\left(x_{i}-{\bar {x}}\right)^{2}+\left(x_{j}-{\bar {x}}\right)^{2}\right)-2\sum _{i=1}^{n}\sum _{j=i+1}^{n}\left(x_{i}-{\bar {x}}\right)\left(x_{j}-{\bar {x}}\right)

=\left(n-1\right)\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}-2\sum _{i=1}^{n}\sum _{j=i+1}^{n}\left(x_{i}-{\bar {x}}\right)\left(x_{j}-{\bar {x}}\right)

=n\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2},

denn

-2\sum _{i=1}^{n}\sum _{j=i+1}^{n}\left(x_{i}-{\bar {x}}\right)\left(x_{j}-{\bar {x}}\right)=\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}.

Diese folgt nämlich aus

0=\left(\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)\right)^{2}=\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}+2\sum _{i=1}^{n}\sum _{j=i+1}^{n}\left(x_{i}-{\bar {x}}\right)\left(x_{j}-{\bar {x}}\right).

Die Formel

s^{2}={\frac {1}{2}}\cdot {\frac {1}{n(n-1)}}\sum \limits _{\mathrm {alle~} i\neq j}\left(x_{i}-x_{j}\right)^{2}

lässt deutlich die Absicht der korrigierten Stichprobenvarianz erkennen. Paare $i=j$ werden nicht berücksichtigt; die Differenz der entsprechenden x-Werte wäre ohnehin nur null. Berücksichtigte man sie, was übrigens dem Ersetzen des Divisors n-1 durch n in der eingangs erwähnten Definition entspräche, dann unterläge die Stichprobenvarianz einer groben Verzerrung hinsichtlich der Datenzahl n. Bei nur zwei Daten gäbe es vier Paare, wovon zwei, nämlich (x₁, x₁) und (x₂, x₂) stets die Differenz null aufwiesen, was die Stichprobenvarianz kräftig nach unten drücken würde. Hat man dagegen viele Daten, dann ginge der Anteil der (x_i, x_i)-Paare drastisch zurück. Deshalb berücksichtigt man bei der Definition der korrigierten Stichprobenvarianz nur Paare (x_i, x_j) mit i≠j. Nur wenn deren Differenzen sich zu null ergeben (wenn also x_i=x_j ist) oder wenigstens nicht groß sind, ist es ein Indiz für eine kleine Streuung der Daten.

Die ausschließliche Berücksichtigung von Paaren (x_i, x_j) mit i≠j bei der Berechnung der korrigierten Stichprobenvarianz entspricht der eingangs erwähnten Varianz-Definition und rechtfertigt so die Division der dortigen Summe durch n-1.

Die sich auf paarweise Differenzen beziehende Definition der korrigierten Stichprobenvarianz in diesem Abschnitt bildet auch die Grundlage^[3] der Definition empirischer Variogrammwerte, die in Unkenntnis der Bedeutung des Faktors ${\frac {1}{2}}$ oft Semivarianzen genannt werden.

Stichprobenstandardabweichung

Die Wurzel aus der korrigierten Stichprobenvarianz s ist die Stichprobenstandardabweichung. Da die Erwartungstreue bei Anwendung einer nichtlinearen Funktion in den meisten Fällen verloren geht, ist die Stichprobenstandardabweichung im Gegensatz zur korrigierten Stichprobenvarianz kein erwartungstreuer Schätzer für die Standardabweichung.

Einzelnachweise

↑ ^a ^b Tony F. Chan, Gene H. Golub, Randall J. LeVeque: Algorithms for computing the sample variance: analysis and recommendations. In: The American Statistician Vol. 37, No. 3 (Aug., 1983), S. 242-247
↑ ^a ^b Marek Fisz: Wahrscheinlichkeitsrechnung und mathematische Statistik. VEB Deutscher Verlag der Wissenschaften, Elfte Auflage, Berlin 1989, Beispiel 13.3.2, Seite 538f.
↑ Martin Bachmaier & Matthias Backes: Variogram or Semivariogram - Explaining the Variances in a Variogram, Precision Agriculture, Springer Verlag, Berlin, Heidelberg, New York, 2008. doi:10.1007/s11119-008-9056-2

Weblinks

Eric Weisstein: Sample Variance auf MathWorld (englisch).

[chan_golub_randall-1] Tony F. Chan, Gene H. Golub, Randall J. LeVeque: Algorithms for computing the sample variance: analysis and recommendations. In: The American Statistician Vol. 37, No. 3 (Aug., 1983), S. 242-247

[Fisz-2] Marek Fisz: Wahrscheinlichkeitsrechnung und mathematische Statistik. VEB Deutscher Verlag der Wissenschaften, Elfte Auflage, Berlin 1989, Beispiel 13.3.2, Seite 538f.

[3] Martin Bachmaier & Matthias Backes: Variogram or Semivariogram - Explaining the Variances in a Variogram, Precision Agriculture, Springer Verlag, Berlin, Heidelberg, New York, 2008. doi:10.1007/s11119-008-9056-2

[1]

[2]

[3]

@@ Zeile 80: / Zeile 80: @@
 Die ausschließliche Berücksichtigung von Paaren '''''(x<sub>i</sub>, x<sub>j</sub>)''''' mit '''''i≠j''''' bei der Berechnung der korrigierten Stichprobenvarianz entspricht der eingangs erwähnten Varianz-Definition und rechtfertigt so die Division der dortigen Summe durch '''''n-1'''''.
-Die sich auf paarweise Differenzen beziehende Definition der korrigierten Stichprobenvarianz in diesem Abschnitt bildet auch die Grundlage<ref>Martin Bachmaier & Matthias Backes: ''Variogram or Semivariogram - Explaining the Variances in a Variogram''. Article DOI: 10.1007/s11119-008-9056-2, Precision Agriculture, Springer Verlag, Berlin, Heidelberg, New York, 2008.</ref> der Definition empirischer [[Variogramm]]werte, die in Unkenntnis der Bedeutung des Faktors <math>\frac{1}{2}</math> oft [[Semivarianz]]en genannt werden.
+Die sich auf paarweise Differenzen beziehende Definition der korrigierten Stichprobenvarianz in diesem Abschnitt bildet auch die Grundlage<ref>Martin Bachmaier & Matthias Backes: ''Variogram or Semivariogram - Explaining the Variances in a Variogram'', Precision Agriculture, Springer Verlag, Berlin, Heidelberg, New York, 2008. {{DOI|10.1007/s11119-008-9056-2}}</ref> der Definition empirischer [[Variogramm]]werte, die in Unkenntnis der Bedeutung des Faktors <math>\frac{1}{2}</math> oft [[Semivarianz]]en genannt werden.
 == Stichprobenstandardabweichung ==

„Korrigierte Stichprobenvarianz“ – Versionsunterschied

Version vom 4. Februar 2015, 20:24 Uhr

Inhaltsverzeichnis

Definition

Berechnung ohne vorherige Mittelwertbildung

Erwartungstreue Schätzung der Varianz der Grundgesamtheit

Darstellung mit paarweisen Differenzen

Stichprobenstandardabweichung

Einzelnachweise

Weblinks

Navigationsmenü

„Korrigierte Stichprobenvarianz“ – Versionsunterschied

Version vom 4. Februar 2015, 20:24 Uhr

Definition

Berechnung ohne vorherige Mittelwertbildung

Erwartungstreue Schätzung der Varianz der Grundgesamtheit

Darstellung mit paarweisen Differenzen

Stichprobenstandardabweichung

Einzelnachweise

Weblinks

Navigationsmenü

Suche