„Varianz“ – Versionsunterschied

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
[gesichtete Version][gesichtete Version]
Inhalt gelöscht Inhalt hinzugefügt
→‎Literatur: ergänzt
Zeile 155: Zeile 155:
* Bronstein-Semendjajew 2020 – {{Literatur |Titel=Taschenbuch der Mathematik |Autor=I. N. Bronstein, K. A. Semendjajew, G. Musiol, H. Mühlig |Hrsg= |Auflage=11 |Verlag=Verlag Europa-Lehrmittel Nourney, Vollmer GmbH & Co. KG |Ort=Haan-Gruiten |Datum=2020 |ISBN=978-3-8085-5792-1}}
* Bronstein-Semendjajew 2020 – {{Literatur |Titel=Taschenbuch der Mathematik |Autor=I. N. Bronstein, K. A. Semendjajew, G. Musiol, H. Mühlig |Hrsg= |Auflage=11 |Verlag=Verlag Europa-Lehrmittel Nourney, Vollmer GmbH & Co. KG |Ort=Haan-Gruiten |Datum=2020 |ISBN=978-3-8085-5792-1}}
* Hartung 2005 – {{Literatur |Titel=Statistik. Lehr- und Handbuch der angewandten Statistik |Autor=Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener |Hrsg= |Auflage=14 |Verlag=R. Oldenbourg Verlag |Ort=München / Wien |Datum=2005 |ISBN=3-486-57890-1}}
* Hartung 2005 – {{Literatur |Titel=Statistik. Lehr- und Handbuch der angewandten Statistik |Autor=Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener |Hrsg= |Auflage=14 |Verlag=R. Oldenbourg Verlag |Ort=München / Wien |Datum=2005 |ISBN=3-486-57890-1}}
* Fahrmeir 2016 – {{Literatur |Autor=Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz |Titel=Statistik. Der Weg zur Datenanalyse. |Hrsg= |Auflage=8 |Verlag=Springer Verlag |Ort=Berlin / Heidelberg |Datum=2016 |ISBN=978-3-662-50371-3}}
* Beyer 1999 – {{Literatur |Autor=Otfried Beyer, Horst Hackel, Volkmar Pieper, Jürgen Tiedge |Titel=Wahrscheinlichkeitsrechnung und mathematische Statistik |Hrsg= |Auflage=8 |Verlag=B. G. Teubner |Ort=Stuttgart / Leipzig |Datum=1999 |ISBN=978-3-519-00229-1}}


== Einzelnachweise ==
== Einzelnachweise ==

Version vom 28. März 2022, 08:28 Uhr

Formelzeichen
Mittelwert der Grundgesamtheit
Varianz der Grundgesamtheit
Anzahl der gegebenen Werte
Zufallsvariablen (Zufallsgrößen)
Stichprobe: beobachtete Werte der Zufallsvariablen
Stichprobenmittel / empirischer Mittelwert von
Stichprobenvarianz / empirische Varianz von
Stichprobenmittel (als Funktion der Zufallsvariablen)
Stichprobenvarianz (als Funktion der Zufallsvariablen)

Die Varianz ist in der beschreibenden Statistik ein Maß für die Streuung von numerischen Werten um ihren Mittelwert. Die Maßzahl basiert auf der mittleren quadratischen Abweichung vom Mittelwert. Sie wird in der beschreibenden Statistik als empirische („aus konkreten Daten berechnete“) Varianz bezeichnet (→ Empirische Varianz).

In der Stochastik (→ Varianz (Stochastik)) wird das Thema mathematisch allgemeiner behandelt: Hier ist die Varianz die erwartete quadratische Ab­weichung von Zufallsvariablen (nicht von Werten!) von ihrem Erwartungswert. Sie dient also zur Charakterisierung der Wahrscheinlichkeitsverteilung von Zufallsvariablen und wird daher auch als theoretische Varianz bezeichnet. In der schließenden Statistik wird die theoretische Varianz mithilfe der Stichprobenvarianz (→ Stichprobenvarianz (Schätzfunktion)) geschätzt.

Die Quadrierung der Abweichungen vom Mittelwert bewirkt:

  • die Varianz ist immer positiv (oder Null)
  • wenige aber starke Ausreißer haben einen großen Einfluss auf das Ergebnis

Eine Varianz von Null bedeutet, dass alle betrachteten Werte identisch sind beziehungsweise dass die Zufallsvariablen keine Streuung aufweisen. In vielen praktischen Aufgabenstellungen ist es daher das Ziel die Varianz zu minimieren.

Die Quadratwurzel aus der Varianz ist die Standardabweichung. Varianz und Standardabweichung gehören zu den Streuungsmaßen. Die Varianz ist in weitergehenden Berechnungen oft praktischer als die Standardabweichung: So können beispielsweise Varianzbeiträge von mehreren unabhängigen Zufallseinflüssen einfach addiert werden. Umgekehrt lässt sich durch eine Varianzanalyse eine Gesamtvarianz oft auch in ihre Beiträge (Ursachen) zerlegen. Dennoch ist die Standardabweichung oft anschaulicher als die Varianz, da sie dieselbe Größenordnung hat wie die beobachteten Werte.

Die Bezeichnung „Varianz“ leitet sich von lateinisch variantia = „Verschiedenheit“ bzw. variare = „(ver)ändern, verschieden sein“ ab.

Stichprobenvarianz

Stichprobe ist eine konkrete Stichprobe

Zur Ermittlung der Varianz der reellen Werte werden zunächst die Abweichungen der jeweiligen Werte von ihrem arithmetischen Mittel gebildet. Im Anschluss quadriert man diese Abweichungen und erhält die Abweichungsquadrate . Summiert man diese Abweichungsquadrate erhält man eine sogenannte Abweichungsquadratsumme. Je nachdem, ob man diese Abweichungsquadratsumme durch die Anzahl der Werte oder um die um Eins verringerte Anzahl der Werte dividiert erhält man eine unterschiedliche Darstellung der Varianz. Im letzteren Fall ist die Varianz gegeben durch

 
 
 (1)
 

und kann als „durchschnittliches Abweichungsquadrat“ interpretiert werden. Dieses auf Basis von konkreten Werten berechnete „durchschnittliche Abweichungsquadrat“ wird auch als Stichprobenvarianz oder empirische Varianz bezeichnet. Da der Faktor auch als Korrekturfaktor bezeichnet wird, spricht man auch von der korrigierten Stichprobenvarianz oder der korrigierten empirischen Varianz. Wenn die Abweichungsquadratsumme jedoch statt durch durch dividiert wird erhält man die unkorrigierten Stichprobenvarianzen

 
 
 (2)
 
Beispiel

Gegeben sei die Stichprobe

,

es ist also . Für den empirischen Mittelwert ergibt sich

.

Bei stückweiser Berechnung ergibt sich dann

.

Über die erste Definition (Formel (1)) erhält man

wohingegen die zweite Definition (Formel (2))

liefert.

Die Verwendung und Abgrenzung der Bezeichnungen „Stichprobenvarianz“ und „empirische Varianz“ ist in der Literatur nicht einheitlich:

Einige Autoren[1] bezeichnen Formel (1) als Stichprobenvarianz und Formel (2) als empirische Varianz unter anderem mit der Begründung, dass nur Formel (1) in der induktiven Statistik zur Schätzung der Varianz der Grundgesamtheit auf Basis einer Stichprobe herangezogen wird und nicht Formel (2), da diese Definition der Varianz gängige Qualitätskriterien nicht erfüllt (siehe #Varianz (im Sinne der induktiven Statistik)).

Es ist bemerkenswert, dass es umfangreiche mathematische und statistische Handbücher[2][3] gibt, die die Formel (2) nicht erwähnen. Es ist umstritten[4], ob Formel (2) auf Stichproben angewendet werden sollte, da es ja auch eine "korrigierte Stichprobenvarianz" (1) gibt, die den Vorteil hat, dass sie im Sinne der schließenden Statistik erwartungstreu ist.

Eine weitere Formel zur Berechnung der Varianz aus konkreten Werten ist:

 
 
 (3)
 

Formel (3) und (2) unterscheiden sich darin, dass bei Formel (3) im Gegensatz zu Formel (2), der Mittelwert der Grundgesamtheit bekannt ist und daher in die Formel (2) eingesetzt werden kann. Auch diese Formel ist erwartungstreu im Sinne der schließenden Statistik.

Für die Division durch anstatt durch in Formel (2) kann die folgende intuitive Begründung gegeben werden: aufgrund der Tatsache, dass Summe der Abweichungen der Werte von ihrem arithmetischen Mittel stets Null ergibt (siehe Arithmetisches Mittel#Schwerpunkteigenschaft) ist die letzte Abweichung bereits durch die ersten Abweichungen bestimmt. Die Anzahl der in die Summe eingehenden unabhängigen Summanden (Anzahl der Freiheitsgrade) ist also um Eins reduziert bzw. man verliert einen Freiheitsgrad.[1] Eine weitere Begründung für den Korrekturfaktor ergibt sich aus der Betrachtung #Stichprobe ist eine mathematische Stichprobe.

Stichprobe ist eine Vollerhebung

Im Fall, dass die Stichprobe ist eine Vollerhebung ist, enthält die Stichprobe alle Elemente der Grundgesamtheit und und fallen zusammen. Der wahre Mittelwert der Grundgesamtheit fällt mit dem arithmetischen Mittel zusammen und berechnet sich aus allen Elementen der Grundgesamtheit als

 
 
 (4)
 

Bei einer Vollerhebung gilt dass die Anzahl der Elemente in der Stichprobe der Anzahl der Elemente der Grundgesamtheit entspricht () und damit gilt. Die Varianz der Grundgesamtheit (auch Populationsvarianz genannt) ist dann gegeben durch

 
 
 (5)
 

Stichprobe ist eine mathematische Stichprobe

Ist eine Stichprobe eine mathematische Stichprobe, dann ersetzt man in Formel (1) die Stichprobenwerte durch die Stichprobenvariablen . Eine Stichprobenvariable ist kein reeller Wert, sondern sie ist eine Zufallsvariable: Sie beschreibt die Wahrscheinlichkeit, mit der mögliche Beobachtungswerte auftreten. Dies führt zur Darstellung der Varianz als Funktion (genauer Stichprobenfunktion) von Zufallsvariablen. Auch hier unterscheidet man die korrigierte Stichprobenvarianz

 
 
 (6)
 

und die unkorrigierten Stichprobenvarianzen

 
 
 (7)
 
 
 
 (8)
 

Die Formeln (6)–(8) sind Analog zur Stichprobenvarianz in der deskriptiven Statistik definiert und werden in der induktiven (schließenden) Statistik verwendet. In den Verfahren der induktiven Statistik (Statistische Tests, Konfidenzintervalle etc.) fließt oft die Varianz der Grundgesamtheit ein. In der Praxis ist die Varianz der Grundgesamtheit jedoch unbekannt, so dass sie geschätzt werden muss. Die Formeln (6)–(8) dienen in der induktiven Statistik also als Schätzfunktion, um die unbekannte Varianz einer Zufallsvariable mit unbekannter Verteilung zu schätzen. Wenn die Stichprobe eine Zufallsstichprobe ist, dann kann das Stichprobenmittel als Schätzung (die Schätzung eines Parameters der Grundgesamtheit wird konventionell mit einem Dach gekennzeichnet ) des Mittelwerts der Grundgesamtheit herangezogen werden (). Durch die Bildung des Stichprobenmittels wird eine Abhängigkeit zwischen den Summanden in Formel (6) hergestellt, d. h. ein Freiheitsgrad wird gebunden bzw. geht verloren.[5] Daher dividiert man auch hier durch statt durch . Formel (8) unterscheidet sich von Formel (6) in der Hinsicht, dass hier der Erwartungswert der Grundgesamtheit bekannt ist und somit nicht durch das Stichprobenmittel geschätzt werden muss. Damit ist die Normierung mittels der Anzahl der Freiheitsgrade bei Formel (8) im Gegensatz zu Formel (6) nicht erforderlich und es wird bei Formel (8) lediglich durch dividiert. Die induktive Statistik, die die korrigierte Stichprobenvarianz (Formel (6)) zur Schätzung der Varianz der Grundgesamtheit verwendet, liefert eine weitere Begründung für den Korrekturfaktor (siehe #Varianz (im Sinne der induktiven Statistik)).

Varianz (im Sinne der induktiven Statistik)

Stichprobenvarianz (Schätzfunktion)

In der induktiven (schließenden) Statistik wird Formel (6) verwendet, um die unbekannte Varianz der Grundgesamtheit zu schätzen. Dies geschieht meist durch einen einfachen Punktschätzer. Sei eine Zufallsvariable mit unbekannter Verteilung und sei eine Zufallsstichprobe mit und gegeben, dann ist eine Schätzfunktion für die unbekannte Varianz der Grundgesamtheit gegeben durch

 
 
 (9)
 

Der Grund warum Formel (6) anstatt Formel (7) zur Schätzung der Varianz der Grundgesamtheit herangezogen wird ist, dass die unkorrigierte Stichprobenvarianz (Formel (7)) unter den hier gegebenen Voraussetzungen gängige Qualitätskriterien für Punktschätzer nicht erfüllt. Formel (7) ist nicht erwartungstreu für die unbekannte Varianz der Grundgesamtheit, wohingegen die korrigierte Stichprobenvarianz (Formel (6)) erwartungstreu für die unbekannte Varianz der Grundgesamtheit ist. Erwartungstreue bedeutet, dass die Schätzfunktion für den wahren Wert eine systematische Verzerrung von Null aufweist, also diese Schätzfunktion „im Mittel“ dem wahren Wert entspricht, d. h. . Für Formeln (7)–(8) lässt sich dies wie folgt zusammenfassen:

Zusammenfassung Erwartungstreue
(erwartungstreu für )
(nicht erwartungstreu für )
(erwartungstreu für )

Man kann zeigen, dass gerade die Normierung Formel (6) zu einer erwartungstreuen Schätzfunktion für die Varianz der Grundgesamtheit macht (siehe Stichprobenvarianz (Schätzfunktion)#Erwartungstreue).[6] Die Sicherstellung des Qualitätskriteriums der Erwartungstreue ist somit ein weiter Grund für den Korrekturfaktor , der aus der induktiven Statistik stammt. Es ist allerdings anzumerken, dass auch Formel (8) erwartungstreu für die unbekannte Varianz der Grundgesamtheit ist. Daher wird im Rahmen der induktiven Statistik immer , falls geschätzt werden muss, bzw. , falls bekannt ist, verwendet. Die Beziehung zwischen den Formeln (1)–(3) und Gleichungen (6)–(8) ist die folgende: Die konkrete Stichprobe vom Umfang lässt sich als Realisierung der -dimensionalen Zufallsvariablen auffassen. Die empirische Varianz in der deskriptiven Statistik ist also der zur abstrakten Schätzfunktion zugehörige Schätzwert.

Varianz (im Sinne der Wahrscheinlichkeitstheorie)

In der Stochastik ist die Varianz ein wichtiges Streuungsmaß der Verteilung einer Zufallsvariablen. Sofern der Erwartungswert existiert, ist in der Stochastik die Varianz definiert als erwarte quadratische Abweichung der Zufallsvariablen von ihrem Erwartungswert

 
 
 (10)
 

Für diese Definition der Varianz gelten eine Vielzahl nützlicher Eigenschaften (siehe Varianz (Stochastik)#Rechenregeln und Eigenschaften).

Varianzberechnung basierend auf einer Verteilungsfunktion

Varianzberechnung basierend auf einer stetigen Verteilungsfunktion

Gegeben ist in diesem Fall eine stetige Zufallsvariable mit einer Wahrscheinlichkeitsdichtefunktion (kurz: Dichte) , die eine Aussage trifft, wie wahrscheinlich das Auftreten von welchem Wert ist. Dann ergeben sich Erwartungswert und Varianz der Grundgesamtheit aus den folgenden Formeln:[7]

 
 
 (11)
 
 
 
 (12)
 

Varianzberechnung basierend auf einer diskreten Verteilungsfunktion

Im Unterschied zu den Formeln (10) und (11) kann die Zufallsvariable in diesem Fall nur bestimmte (diskrete) Werte annehmen. Die Verteilungsfunktion ist in diesem Fall gegeben als Wahrscheinlichkeiten , mit denen der zugehörige Wert auftritt. Dies führt zu folgenden Formeln für Erwartungswert und Varianz der Grundgesamtheit:[7]

 
 
 (13)
 
 
 
 (14)
 

Literatur

  • Bronstein-Semendjajew 2020 – I. N. Bronstein, K. A. Semendjajew, G. Musiol, H. Mühlig: Taschenbuch der Mathematik. 11. Auflage. Verlag Europa-Lehrmittel Nourney, Vollmer GmbH & Co. KG, Haan-Gruiten 2020, ISBN 978-3-8085-5792-1.
  • Hartung 2005 – Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener: Statistik. Lehr- und Handbuch der angewandten Statistik. 14. Auflage. R. Oldenbourg Verlag, München / Wien 2005, ISBN 3-486-57890-1.
  • Fahrmeir 2016 – Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8. Auflage. Springer Verlag, Berlin / Heidelberg 2016, ISBN 978-3-662-50371-3.
  • Beyer 1999 – Otfried Beyer, Horst Hackel, Volkmar Pieper, Jürgen Tiedge: Wahrscheinlichkeitsrechnung und mathematische Statistik. 8. Auflage. B. G. Teubner, Stuttgart / Leipzig 1999, ISBN 978-3-519-00229-1.

Einzelnachweise

  1. a b Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2016, ISBN 978-3-662-50371-3, S. 65
  2. Bronstein-Semendjajew 2020: Taschenbuch der Mathematik.
  3. Hartung 2005: Statistik.
  4. FernUni Hagen 2020: Empirische vs Stichprobenvarianz. In: YouTube. FernUni Hagen: https://www.statstutor.de/, 19. April 2020, abgerufen am 1. Februar 2022.
  5. Otfried Beyer, Horst Hackel: Wahrscheinlichkeitsrechnung und mathematische Statistik. 1976, S. 92.
  6. Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2016, ISBN 978-3-662-50371-3, S. 341
  7. a b Bronstein-Semendjajew 2020: Taschenbuch der Mathematik, 16.2.2.3 Erwartungswert und Streuung, S. 827, Formel 16.52.