Empirische Varianz

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Die empirische Varianz,[1] auch Stichprobenvarianz[2] oder einfach nur kurz Varianz genannt, ist in der deskriptiven Statistik eine Kennzahl einer Stichprobe. Sie gehört zu den Streuungsmaßen und gibt an, wie weit die Stichprobe im Mittel vom arithmetischen Mittel abweicht.

Die Begriffe „Varianz“, „Stichprobenvarianz“ und „empirische Varianz“ werden in der Literatur nicht einheitlich verwendet. Im Allgemeinen muss unterschieden werden zwischen der

Eine genaue Abgrenzung und Zusammenhänge finden sich im Abschnitt Beziehung der Varianzbegriffe.

Definition[Bearbeiten | Quelltext bearbeiten]

Gegeben sei eine Stichprobe mit Elementen und sei

.

Es bezeichne

das arithmetische Mittel der Stichprobe. Die empirische Varianz wird auf zweierlei Arten definiert.

Entweder wird die empirische Varianz der Stichprobe definiert als

,[2]

oder sie wird definiert als

.[3]

Wird nur von der empirischen Varianz gesprochen, so muss darauf geachtet werden, welche Konvention beziehungsweise Definition im entsprechenden Kontext gilt. Weder die Benennung der Definitionen noch die entsprechende Notation ist in der Literatur einheitlich. So finden sich für auch die Notationen oder , hingegen wird auch mit oder bezeichnet. Manche Autoren bezeichnen als mittlere quadratische Abweichung vom arithmetischen Mittel[4] und als theoretische Varianz oder induktive Varianz im Gegensatz zu als empirische Varianz.[5]

In diesem Artikel werden der Klarheit halber und um Irrtümern vorzubeugen die oben eingeführten Notationen und verwendet. Diese Notation ist in der Literatur nicht verbreitet.

Beispiel[Bearbeiten | Quelltext bearbeiten]

Gegeben sei die Stichprobe

,

es ist also . Für den empirischen Mittelwert ergibt sich

.

Bei stückweiser Berechnung ergibt sich dann

.

Über die erste Definition erhält man

,

wohingegen die zweite Definition

liefert.

Alternative Darstellungen[Bearbeiten | Quelltext bearbeiten]

Direkt aus der Definition folgen die Darstellungen

beziehungsweise

.

Eine weitere Darstellung erhält man aus dem Verschiebungssatz, nach dem

gilt. Durch Multiplikation mit erhält man daraus[6]

,

woraus

folgt.

Eine weitere Darstellung, die ohne die Verwendung des arithmetischen Mittels auskommt, ist

.

Verhalten bei Transformationen[Bearbeiten | Quelltext bearbeiten]

Die Varianz verändert sich nicht bei Verschiebung der Daten um einen fixen Wert. Ist genauer und , so ist

sowie .

Denn es ist und somit

,

woraus die Behauptung folgt. Werden die Daten nicht nur um verschoben, sondern auch um einen Faktor reskaliert, so gilt

sowie .

Hierbei ist . Dies folgt wie oben durch direktes Nachrechnen.

Herkunft der verschiedenen Definitionen[Bearbeiten | Quelltext bearbeiten]

Die Definition von entspricht der Definition der empirischen Varianz als die mittlere quadratische Abweichung vom arithmetischen Mittel.[4] Diese basiert auf der Idee, ein Streumaß um das arithmetische Mittel zu definieren. Ein erster Ansatz ist, die Differenz der Messwerte vom arithmetischen Mittel aufzusummieren. Dies führt zu

Dies ergibt allerdings stets 0 (Schwerpunkteigenschaft), ist also nicht geeignet zur Quantifizierung der Varianz. Um einen Wert für die Varianz größer oder gleich 0 zu erhalten, kann man die Differenzen entweder in Betrag setzen, also

betrachten, oder aber quadrieren, also

bilden. Dies bietet den Vorteil, dass größere Abweichungen vom arithmetischen Mittel stärker gewichtet werden. Um das Streumaß noch unabhängig von der Anzahl der Messwerte in der Stichprobe zu machen, wird noch durch diese Anzahl dividiert. Außerdem bietet das Quadrieren den Vorteil, dass sich identische positive und negative Elemente der Summe nicht gegenseitig aufheben können und somit bei der Berechnung berücksichtigt werden. Ergebnis dieses pragmatisch hergeleiteten Streumaßes ist die mittlere quadratische Abweichung vom arithmetischen Mittel oder die oben definierte Varianz .

Die Definition von hat ihre Wurzeln in der Schätztheorie. Dort wird die empirische Varianz mit dem Faktor korrigiert, da durch die Schätzung des arithmetischen Mittels ein Freiheitsgrad verbraucht wird, und es wird

als erwartungstreue Schätzfunktion für die unbekannte Varianz einer Wahrscheinlichkeitsverteilung verwendet.

Geht man nun von den Zufallsvariablen zu den Realisierungen über, so erhält man aus der abstrakten Schätzfunktion den Schätzwert . Das Verhältnis von zu entspricht somit dem Verhältnis einer Funktion zu ihrem Funktionswert an einer Stelle .

Somit kann als ein praktisch motiviertes Streumaß in der deskriptiven Statistik angesehen werden, wohingegen eine Schätzung für eine unbekannte Varianz in der induktiven Statistik ist. Diese unterschiedlichen Ursprünge rechtfertigen die oben angeführte Sprechweise für als empirische Varianz und für als induktive Varianz oder theoretische Varianz.

Zu bemerken ist, dass sich auch als Schätzwert einer Schätzfunktion interpretieren lässt. So erhält man bei Anwendung der Momentenmethode als Schätzfunktion für die Varianz

.

Ihre Realisierung entspricht . Jedoch wird meist nicht verwendet, da sie gängige Qualitätskriterien nicht erfüllt.

Beziehung der Varianzbegriffe[Bearbeiten | Quelltext bearbeiten]

Wie in der Einleitung bereits erwähnt, existieren verschiedene Varianzbegriffe, die teils denselben Namen tragen. Ihre Beziehung zueinander wird klar, wenn man ihre Rolle in der Modellierung der induktiven Statistik betrachtet:

Zentral ist der Unterschied zwischen der Schätzmethode (Stichprobenvarianz im Sinne der induktiven Statistik) und ihrer konkreten Schätzung (empirische Varianz). Sie entspricht dem Unterschied zwischen einer Funktion und ihrem Funktionswert.

Abgeleitete Begriffe[Bearbeiten | Quelltext bearbeiten]

Empirische Standardabweichung[Bearbeiten | Quelltext bearbeiten]

Als empirische Standardabweichung wird die Wurzel aus der empirischen Varianz bezeichnet, also

oder

.

Im Gegensatz zur empirischen Varianz besitzt die empirische Standardabweichung dieselben Einheiten wie das arithmetische Mittel oder die Stichprobe selbst. Wie auch bei der empirischen Varianz ist die Benennung und Bezeichnung bei der empirischen Standardabweichung nicht einheitlich.

Empirischer Variationskoeffizient[Bearbeiten | Quelltext bearbeiten]

Der empirische Variationskoeffizient ist ein dimensionsloses Streumaß und ist definiert als die empirische Standardabweichung geteilt durch das arithmetische Mittel, also

bzw.

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. Norbert Henze: Stochastik für Einsteiger. Eine Einführung in die faszinierende Welt des Zufalls. 10. Auflage. Springer Spektrum, Wiesbaden 2013, ISBN 978-3-658-03076-6, S. 31, doi:10.1007/978-3-658-03077-3.
  2. a b Ehrhard Behrends: Elementare Stochastik. Ein Lernbuch – von Studierenden mitentwickelt. Springer Spektrum, Wiesbaden 2013, ISBN 978-3-8348-1939-0, S. 274, doi:10.1007/978-3-8348-2331-1.
  3. Thomas Cleff: Deskriptive Statistik und Explorative Datenanalyse. Eine computergestützte Einführung mit Excel, SPSS und STATA. 3., überarbeitete und erweiterte Auflage. Springer Gabler, Wiesbaden 2015, ISBN 978-3-8349-4747-5, S. 56, doi:10.1007/978-3-8349-4748-2.
  4. a b Helge Toutenburg, Christian Heumann: Deskriptive Statistik. 6. Auflage. Springer-Verlag, Berlin/Heidelberg 2008, ISBN 978-3-540-77787-8, S. 75, doi:10.1007/978-3-540-77788-5.
  5. Thomas Cleff: Deskriptive Statistik und Explorative Datenanalyse. Eine computergestützte Einführung mit Excel, SPSS und STATA. 3., überarbeitete und erweiterte Auflage. Springer Gabler, Wiesbaden 2015, ISBN 978-3-8349-4747-5, S. 255, doi:10.1007/978-3-8349-4748-2.
  6. Reinhold Kosfeld, Hans Friedrich Eckey, Matthias Türck: Deskriptive Statistik. Grundlagen – Methoden – Beispiele – Aufgaben. 6. Auflage. Springer Gabler, Wiesbaden 2016, ISBN 978-3-658-13639-0, S. 122, doi:10.1007/978-3-658-13640-6.