Stichprobenvarianz (Schätzfunktion)

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Korrigierte Stichprobenvarianz)
Wechseln zu: Navigation, Suche

Die Stichprobenvarianz ist eine Schätzfunktion in der mathematischen Statistik. Ihre zentrale Aufgabe ist es, die unbekannte Varianz einer zugrundeliegenden Wahrscheinlichkeitsverteilung zu schätzen. Außerhalb der Schätztheorie findet sie auch als Hilfsfunktion zur Konstruktion von Konfidenzbereichen und statistischen Tests Verwendung. Die Stichprobenvarianz wird in mehreren Varianten definiert, die sich leicht bezüglich ihrer Eigenschaften und somit auch ihrer Anwendungsgebiete unterscheiden. Die Unterscheidung der unterschiedlichen Varianten ist in der Literatur nicht immer einheitlich. Wird daher lediglich von "der" Stichprobenvarianz gesprochen, so sollte immer überprüft werden, welche der Definitionen im entsprechenden Kontext gilt.

Ebenfalls als Stichprobenvarianz wird die empirische Varianz bezeichnet, ein Streumaß einer Stichprobe, also von mehreren Zahlen. Diese Stichprobenvarianz einer konkreten Stichprobe entspricht einem Schätzwert und ist damit eine Realisierung der Stichprobenvarianz als Schätzfunktion und Zufallsvariable.

Definition[Bearbeiten | Quelltext bearbeiten]

Gegeben seien Zufallsvariablen und sei . In der Anwendung sind die die Stichprobenvariablen. Es bezeichne

das Stichprobenmittel. In der Literatur finden sich im Wesentlichen drei unterschiedliche Definitionen der Stichprobenvarianz.

Viele Autoren nennen

die Stichprobenvarianz[1][2][3] oder zur besseren Abgrenzung die korrigierte Stichprobenvarianz. [4] Alternativ wird auch

als Stichprobenvarianz bezeichnet[5][2], ebenso wird auch

für eine fixe reelle Zahl Stichprobenvarianz genannt.[6]

Weder die Notation noch die Sprechweise für die verschiedenen Definitionen der Stichprobenvarianz sind einheitlich und eine regelmäßige Quelle von Irrtümern.[2] So finden sich als Notationen für auch oder . Für findet sich auch die Schreibweise oder , für auch .

In diesem Artikel werden der Klarheit halber die oben aufgeführten Notationen und verwendet. Dabei wird als korrigierte Stichprobenvarianz bezeichnet, als Stichprobenvarianz und als Stichprobenvarianz mit vorgegebenen Erwartungswert. Diese Sprechweisen sind in der Literatur nicht verbreitet und hier nur der Klarheit halber eingeführt. Beim Vergleich verschiedener Quellen sollten stets die Definitionen, Notationen und Sprechweisen miteinander verglichen werden, um Irrtümer zu vermeiden!

Verwendung[Bearbeiten | Quelltext bearbeiten]

Wichtiger Verwendungszweck der Stichprobenvarianz ist die Schätzung der Varianz einer unbekannten Wahrscheinlichkeitsverteilung. Je nach Rahmenbedingungen kommen dabei die verschiedenen Definitionen zum Einsatz, da diese unterschiedliche Optimalitätskriterien erfüllen (siehe unten). Als Faustregel kann gelten:

  • Sind der Erwartungswert und die Varianz des Wahrscheinlichkeitsmaßes unbekannt, so wird als Schätzfunktion verwendet.
  • Ist die Varianz unbekannt und entspricht der Erwartungswert dem Wert , so wird als Schätzfunktion verwendet.

Die Schätzfunktion wird meist nicht verwendet, sie entsteht beispielsweise bei Verwendung der Momentenmethode oder der Maximum-Likelihood-Methode und erfüllt die gängigen Qualitätskriterien nicht.

Neben der Verwendung als Schätzfunktion wird die Stichprobenvarianz noch als Hilfsfunktion für die Konstruktion von Konfidenzintervallen oder statistischen Tests verwendet. Dort findet sie sich zum Beispiel als Pivotstatistik zur Konstruktion von Konfidentintervallen im Normalverteilungsmodell oder als Teststatistik bei dem Chi-Quadrat-Test.

Eigenschaften[Bearbeiten | Quelltext bearbeiten]

Rahmenbedingungen[Bearbeiten | Quelltext bearbeiten]

Meist wird die Stichprobenvarianz unter den Annahmen verwendet, dass die Auswertungen unabhängig identisch verteilt sind sowie entweder einen bekannten oder einen unbekannten Erwartungswert besitzen. Diese Annahmen werden durch die folgenden statistischen Modelle beschrieben:

  • Ist der Erwartungswert unbekannt, so ist das statistische Modell gegeben durch das (nicht notwendigerweise parametrische) Produktmodell
.
Hierbei bezeichnet das n-fache Produktmaß von und ist die Familie aller Wahrscheinlichkeitsmaße mit endlicher Varianz, die mit einer beliebigen Indexmenge indiziert sind. Die Stichprobenvariablen sind dann unabhängig identisch verteilt gemäß und besitzen also eine endliche Varianz.
  • Ist der Erwartungswert bekannt und gleich , so ist das statistische Modell gegeben durch das (nicht notwendigerweise parametrische) Produktmodell
.
Hierbei bezeichnet die Familie aller Wahrscheinlichkeitsmaße mit endlicher Varianz und Erwartungswert , die mit einer beliebigen Indexmenge indiziert sind. Die Stichprobenvariablen sind dann unabhängig identisch verteilt gemäß und besitzen somit eine endliche Varianz und den Erwartungswert .

Erwartungstreue[Bearbeiten | Quelltext bearbeiten]

Bekannter Erwartungswert[Bearbeiten | Quelltext bearbeiten]

Im Falle des bekannten Erwartungswertes ist ein erwartungstreuer Schätzer für die Varianz. Das bedeutet es gilt

.

Hierbei bezeichnet bzw. die Erwartungswertbildung bzw. die Varianzbildung bezüglich des Wahrscheinlichkeitsmaßes .

Die Erwartungstreue gilt, da

ist. Hierbei folgt der erste Schritt aus der Linearität des Erwartungswertes, der zweite, da nach Voraussetzung über den bekannten Erwartungswert ist und somit gilt nach Definition der Varianz. In den dritten Schrit geht ein, dass die alle identisch verteilt sind.

Unbekannter Erwartungswert[Bearbeiten | Quelltext bearbeiten]

Im Falle des unbekannten Erwartungswertes ist eine erwartungstreue Schätzfunktion für die Varianz, es gilt also

Im Gegensatz dazu ist nicht erwartungstreu, denn es gilt

.

Der Schätzer ist aber noch asymptotisch erwartungstreu. Dies folgt direkt aus der obigen Darstellung, denn es ist

.
Herleitung der Erwartungstreue

Beachte dazu zuerst, dass Aufgrund der Unabhängigkeit

gilt und aufgrund der identischen Verteilungen

für alle und somit .

Daraus folgt direkt

aufgrund von und im letzten Schritt und unter Verwendung der Linearität des Erwartungswertes.

Analog folgt

wieder mithilfe von und im dritten Schritt.

Mithilfe von und im zweiten Schritt sowie von in dritten Schritt ist dann

Die letzte Gleichheit folgt hier nach den Verschiebungssatz. Daraus folgt dann

und analog

Bessel-Korrektur[Bearbeiten | Quelltext bearbeiten]

Direkt aus der Definition folgt der Zusammenhang

Der Faktor wird hierbei als Bessel-Korrektur (nach Friedrich Wilhelm Bessel) bezeichnet.[7] Er kann insofern als Korrekturfaktor verstanden werden, da er so korrigiert, dass die Schätzfunktion erwartungstreu wird. Dies folgt, da wie oben gezeigt

.

und die Bessel-Korrektur genau der Kehrwert des Faktors ist. Die Schätzfunktion geht somit aus durch die Bessel-Korrektur hervor.

Stichprobenstandardabweichung[Bearbeiten | Quelltext bearbeiten]

Sind die Zufallsvariablen unabhängig und identisch verteilt, also beispielsweise eine Stichprobe, so ergibt sich die Standardabweichung der Grundgesamtheit der Stichprobe als Wurzel aus der Stichprobenvarianz bzw. , also

oder

mit

wird Stichprobenstandardabweichung oder Stichprobenstreuung genannt[8], ihre Realisierungen entsprechen der empirischen Standardabweichung. Da die Erwartungstreue bei Anwendung einer nichtlinearen Funktion wie der Wurzel in den meisten Fällen verloren geht, ist die Stichprobenstandardabweichung im Gegensatz zur korrigierten Stichprobenvarianz in keinem der beiden Fälle ein erwartungstreuer Schätzer für die Standardabweichung.

Schätzung der Standardabweichung der Grundgesamtheit aus einer Stichprobe[Bearbeiten | Quelltext bearbeiten]

Die korrigierte Stichprobenvarianz ist ein erwartungstreuer Schätzer für die Varianz der Grundgesamtheit. Im Gegensatz dazu ist aber kein erwartungstreuer Schätzer für die Standardabweichung. Da die Quadratwurzel eine konkave Funktion ist, folgt aus der Jensenschen Ungleichung

.

Dieser Schätzer unterschätzt also in den meisten Fällen die Standardabweichung der Grundgesamtheit.

Beispiel[Bearbeiten | Quelltext bearbeiten]

Wählt man eine der Zahlen oder durch Wurf einer fairen Münze, also beide mit Wahrscheinlichkeit jeweils , so ist das eine Zufallsgröße mit Erwartungswert 0, Varianz und Standardabweichung . Berechnet man aus unabhängigen Würfen und die korrigierte Stichprobenvarianz

wobei

den Stichprobenmittelwert bezeichnet, so gibt es vier mögliche Versuchsausgänge, die alle jeweils Wahrscheinlichkeit haben:

Der Erwartungswert der korrigierten Stichprobenvarianz beträgt daher

.

Die korrigierte Stichprobenvarianz ist demnach also tatsächlich erwartungstreu. Der Erwartungswert der korrigierten Stichprobenstandardabweichung beträgt hingegen

.

Die korrigierte Stichprobenstandardabweichung unterschätzt also die Standardabweichung der Grundgesamtheit.

Berechnung für auflaufende Messwerte[Bearbeiten | Quelltext bearbeiten]

In Systemen, die kontinuierlich große Mengen an Messwerten erfassen, ist es oft unpraktisch, alle Messwerte zwischenzuspeichern, um die Standardabweichung zu berechnen.

In diesem Zusammenhang ist es günstiger, eine modifizierte Formel zu verwenden, die den kritischen Term umgeht. Dieser kann nicht für jeden Messwert sofort berechnet werden, da der Mittelwert nicht konstant ist.

Durch Anwendung des Verschiebungssatzes und der Definition des Mittelwerts gelangt man zur Darstellung

die sich für jeden eintreffenden Messwert sofort aktualisieren lässt, wenn die Summe der Messwerte sowie die Summe ihrer Quadrate mitgeführt und fortlaufend aktualisiert werden. Diese Darstellung ist allerdings numerisch weniger stabil, insbesondere kann der Term unter der Quadratwurzel numerisch durch Rundungsfehler kleiner als 0 werden.

Eine andere Formulierung dieses Algorithmus ohne diese Nachteile wird von Donald E. Knuth in The Art of Computer Programming, 4.2.2, S. 232 beschrieben.[9][10]

Normalverteilte Zufallsgrößen[Bearbeiten | Quelltext bearbeiten]

Berechnungsgrundlagen[Bearbeiten | Quelltext bearbeiten]

Für den Fall normalverteilter Zufallsgrößen lässt sich allerdings ein erwartungstreuer Schätzer angeben:[11]

Dabei ist die Schätzung der Standardabweichung und die Gammafunktion. Die Formel folgt indem man beachtet, dass eine Chi-Quadrat-Verteilung mit Freiheitsgraden hat.

Korrekturfaktoren für die erwartungstreue Schätzung der Standardabweichung
Stichprobenumfang Korrekturfaktor
2 1,253314
5 1,063846
10 1,028109
15 1,018002
25 1,010468
Beispiel[Bearbeiten | Quelltext bearbeiten]

Es wurden bei einer Stichprobe aus einer normalverteilten Zufallsgröße die fünf Werte 3, 4, 5, 6, 7 gemessen. Man soll nun die Schätzung für die Standardabweichung errechnen.

Der Stichprobenvarianz ist:

Der Korrekturfaktor ist in diesem Fall

und die erwartungstreue Schätzung für die Standardabweichung ist damit näherungsweise

Literatur[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. Claudia Czado, Thorsten Schmidt: Mathematische Statistik. Springer-Verlag, Berlin Heidelberg 2011, ISBN 978-3-642-17260-1, S. 5, doi:10.1007/978-3-642-17261-8.
  2. a b c Eric W. Weisstein: Sample Variance. In: MathWorld (englisch).
  3. Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, S. 3, doi:10.1007/978-3-642-41997-3.
  4. Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, S. 208, doi:10.1515/9783110215274.
  5. Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, S. 207, doi:10.1515/9783110215274.
  6. M.S. Nikulin: Sample variance. In: Michiel Hazewinkel (Hrsg.): Encyclopaedia of Mathematics. Springer-Verlag, Berlin 2002, ISBN 1-4020-0609-8 (online).
  7. Eric W. Weisstein: Bessels Correction. In: MathWorld (englisch).
  8. Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, S. 27, doi:10.1007/978-3-642-41997-3.
  9. Donald E. Knuth: The Art of Computer Programming. Volume 2: Seminumerical Algorithms. 3. Auflage. Addison-Wesley Longman, Amsterdam 1997, ISBN 0-201-89684-2 (englisch).
  10. John D. Cook: Accurately computing running variance. Abgerufen am 2. März 2017 (amerikanisches Englisch).
  11. Eric Weisstein: Standard Deviation Distribution. In: MathWorld (englisch).