„Empirische Varianz“ – Versionsunterschied
[ungesichtete Version] | [ungesichtete Version] |
Keine Bearbeitungszusammenfassung |
Keine Bearbeitungszusammenfassung |
||
Zeile 6: | Zeile 6: | ||
== Definition == |
== Definition == |
||
Gegeben sei eine Stichprobe <math> x_1, x_2, \dots, x_n </math> mit <math> n </math> Elementen |
Gegeben sei eine Stichprobe <math> x_1, x_2, \dots, x_n </math> mit <math> n </math> Elementen, also |
||
:<math> x= (x_1, x_2, \dots, x_n) </math> |
|||
und sei |
|||
:<math> \overline x = \frac{1}{n} \sum_{i=1}^n{x_i}</math> |
:<math> \overline x = \frac{1}{n} \sum_{i=1}^n{x_i}</math> |
||
das [[arithmetisches Mittel|arithmetisches Mittel]] der Stichprobe. Die empirische Varianz wird auf zweierlei Arten definiert. |
das [[arithmetisches Mittel|arithmetisches Mittel]] der Stichprobe. Die empirische Varianz wird auf zweierlei Arten definiert. |
||
Entweder wird die empirische Varianz <math> v^* </math> der Stichprobe definiert als |
|||
:<math> |
:<math>v^*(x)= \frac{1}{n-1} \sum \limits_{i=1}^n\left(x_i-\overline x\right)^2 </math>,<ref name="Behrends271" /> |
||
oder sie wird definiert als |
oder sie wird definiert als |
||
:<math> |
:<math>v(x)=\frac{1}{n} \sum \limits_{i=1}^n\left(x_i-\overline x\right)^2 </math>. <ref name="Cleff56" /> |
||
Wird nur von "der" empirischen Varianz gesprochen, so muss darauf geachtet werden, welche Konvention beziehungsweise Definition im entsprechenden Kontext gilt. |
Wird nur von "der" empirischen Varianz gesprochen, so muss darauf geachtet werden, welche Konvention beziehungsweise Definition im entsprechenden Kontext gilt. Weder die Benennung der Definitionen noch die entsprechende Notation ist in der Literatur einheitlich. So finden sich für <math> v </math> auch die Notationen <math> V(x)_{\text{emp}}, S^2_{\text{emp}} </math> oder <math> s^2 </math>, hingegen wird <math> v^* </math> auch mit <math> Var(x)_{\text{theor}}, \; s^2_{n-1}</math> oder <math> s^2 </math> bezeichnet. Manche Autoren bezeichnen <math> v </math> als empirische Varianz und <math> v^* </math> als theoretische Varianz oder induktive Varianz.<ref name="Cleff255" /> |
||
In diesem Artikel werden der klarheit halber die Notationen <math> v </math> und <math> v^* </math> verwendet, um Irrtümern vorzubeugen. Diese notation ist in der Literatur nicht verbreitet |
|||
Notationen <math> \tfrac 1n </math>: <math> V(x)_{\text{emp}}, S^2_{\text{emp}}, s^2 </math> empirische Varianz! Cleff 255 |
|||
Notationen <math>\tfrac{1}{n-1} </math>: <math> Var(x)_{\text{theor}}</math> Theoretische Varianz/ induktive Varianz CLeff 255 |
|||
== Beispiel == |
== Beispiel == |
||
Zeile 33: | Zeile 35: | ||
Über die erste Definition erhält man |
Über die erste Definition erhält man |
||
:<math> |
:<math> v^*= \frac{ 37{,}2}{4} = 9 {,}3 </math>, |
||
wohingegen die zweite Definition |
wohingegen die zweite Definition |
||
:<math> |
:<math> v= \frac{ 37{,}2}{5} = 7 {,} 44</math> |
||
liefert. |
liefert. |
||
Zeile 42: | Zeile 44: | ||
== Verhalten bei Transformationen == |
== Verhalten bei Transformationen == |
||
Die Varianz ist verändert sich nicht bei Verschiebung der Daten um einen fixen Wert. Ist genauer <math> x=(x_1, x_2, \dots, x_n) </math> und <math> y=(x_1+c, x_2+c, \dots, x_n+c) </math>, so ist |
Die Varianz ist verändert sich nicht bei Verschiebung der Daten um einen fixen Wert. Ist genauer <math> x=(x_1, x_2, \dots, x_n) </math> und <math> y=(x_1+c, x_2+c, \dots, x_n+c) </math>, so ist |
||
:<math> |
:<math> v(x)=v(y) </math> sowie <math> v^*(x)=v^*(y) </math> |
||
Denn es ist <math>\overline y = \overline x + c </math> und somit |
Denn es ist <math>\overline y = \overline x + c </math> und somit |
||
Zeile 48: | Zeile 50: | ||
woraus die Behauptung folgt. Werden die Daten nicht nur um <math> c</math> verschoben, sondern auch um einen Faktor <math> a > 0 </math> reskaliert, so gilt |
woraus die Behauptung folgt. Werden die Daten nicht nur um <math> c</math> verschoben, sondern auch um einen Faktor <math> a > 0 </math> reskaliert, so gilt |
||
:<math> |
:<math> v(x)=a^2 \cdot v(y) </math> sowie <math> v^*(x)=a^2 \cdot v^*(y) </math>. |
||
Hierbei ist <math> y=(ax_1+c, ax_2+c, \dots, ax_n+c) </math>. Dies folgt wie oben durch direktes nachrechnen. |
Hierbei ist <math> y=(ax_1+c, ax_2+c, \dots, ax_n+c) </math>. Dies folgt wie oben durch direktes nachrechnen. |
||
Kosfeld 129 |
|||
Toutenburg 80 |
|||
== Alternative Darstellungen == |
== Alternative Darstellungen == |
||
Direkt aus der Definition folgen die Darstellungen |
Direkt aus der Definition folgen die Darstellungen |
||
:<math> |
:<math> v^*= \frac{n}{n-1} v </math> |
||
beziehungsweise |
beziehungsweise |
||
:<math> |
:<math> v= \frac{n-1}{n} v^* </math>. |
||
Kosfeld 122 |
|||
Eine weitere Darstellung erhält man aus dem [[Verschiebungssatz (Statistik)|Verschiebungssatz]], nach dem |
Eine weitere Darstellung erhält man aus dem [[Verschiebungssatz (Statistik)|Verschiebungssatz]], nach dem |
||
:<math>\sum_{i=1}^n \left(x_i - \bar{x}\right)^2 = \left( \sum_{i=1}^n x_i^2 \right) - \frac{1}{n}\left(\sum_{i=1}^n x_i\right)^2</math> |
:<math>\sum_{i=1}^n \left(x_i - \bar{x}\right)^2 = \left( \sum_{i=1}^n x_i^2 \right) - \frac{1}{n}\left(\sum_{i=1}^n x_i\right)^2</math> |
||
gilt. Durch Multiplikation mit <math> \tfrac 1n </math> erhält man daraus |
gilt. Durch Multiplikation mit <math> \tfrac 1n </math> erhält man daraus<ref name="Kosfeld122" /> |
||
:<math> |
:<math> v= \frac 1n \left( \sum_{i=1}^n x_i^2 \right) - ( \overline x )^2 </math>, |
||
woraus |
woraus |
||
:<math> |
:<math> v^*= \frac{1}{n-1} \left( \sum_{i=1}^n x_i^2 \right) - \frac{n}{n-1}( \overline x )^2 </math> |
||
folgt. |
folgt. |
||
== Herkunft der verschiedenen Definitionen == |
== Herkunft der verschiedenen Definitionen == |
||
Die Definition von <math> v </math> entspricht der Definition der empirischen Varianz als die mittlere quadratischere Abweichung vom arithmetischen Mittel.<ref name="Toutenburg75" /> Dieses basiert auf der Idee, ein Streumaß um das arithmetische Mittel zu definieren. Ein erster Ansatz ist die Differenz der Messwerte vom arithmetischen Mittel aufzusummieren. Dies führt zu |
|||
:<math> k(x)= \sum_{i=1}^n (x_i-\overline x) </math> |
|||
Da die Differenzen auch negative Werte annehmen können und es zur Ausöschung kommt, kann man die differenzen entweder in [[Betragsfunktion|Betrag]] setzen, also |
|||
⚫ | |||
:<math> |k|(x)= \sum_{i=1}^n |x_i-\overline x| </math> |
|||
betrachten, oder aber QUadrieren, also |
|||
:<math> k^2(x)= \sum_{i=1}^n (x_i-\overline x)^2 </math> |
|||
dies Bietet de Vorteil, dass Größere Abweichungen vom Arithmetischen Mittel stärker Gewichtet werden. Um das Streumaß noch unabhängig von der Anzahl der Messwerttze in der Stichprobe zu machen wird noch durch diese ANzahl dividiert. Ergebnis dieses pragmatisch hergelietewten Streumaßes ist die mittlere QUadratische abweichung vom mittelwert oder die oben definierte Varianz <math> v</math>. |
|||
⚫ | |||
:<math> V^*(X)= \frac{1}{n-1} \sum_{i=1}^n (X_i-\overline X)^2 </math> |
:<math> V^*(X)= \frac{1}{n-1} \sum_{i=1}^n (X_i-\overline X)^2 </math> |
||
als [[erwartungstreue]] [[Schätzfunktion]] für die unbekannte Varianz einer Wahrscheinlichkeitsverteilung verwendet. |
|||
als [[Schätzfunktion]] verwendet. Die Abänderung des Vorfaktors von <math> \tfrac 1n </math> zu <math> \tfrac{1}{n-1} </math> sorgt dafür, dass die Schätzfunktion gewissen Qualitätskriterien genügt. Sie ist dann [[Erwartungstreue|erwartungstreu]]. Sieht man die empirische Varianz nun als [[Realisierung (Stochastik)|Realisierung]], also als Funktionswert mit <math> X_i(\omega)=x_i </math> der Schätzfunktion, so erhält man die Definition von <math> s_{n-1}^2 </math>. |
|||
Geht man nun von den Zufallsvariablen <math> X_i </math> zu den [[Realisierung (Stochastik)|Realisierungen]] <math> X_i(\omega)=x_i </math> über, so erhält man aus der abstrakten Schätz''funktion'' <math> V^* </math> den Schätz''wert'' <math> v^* </math>. Das Verhältnis von <math> V^* </math> zu <math> v^* </math> entspricht somit dem Verhältnis einer Funktion <math> f </math> zu ihrem Funktionswert <math> f(x_0) </math> an einer Stelle <math> x_0 </math>. |
|||
Somit kann <math> v </math> als praktisch motiviertes ein Streumaß in der deskriptiven Statistik angesehen werden, wohingegen <math> v^* </math> eine Schätzung für eine Unbekannte Varianz in der induktiven Statistik ist. Diese unterschiedleichen Ursprünge rchtfertigen die oben angeführte Sprechweise für <math> v </math> als empirische Varianz und für <math> v^* </math> als induktive Varianz oder theoretische Varianz. |
|||
Zu Bemerken ist, dass sich auch <math> v </math> als Schätzwert einer Schätzfunktion interpretieren lässt. So erhält man bei Anwendung der [[Momentenmethode]] als Schätzfunktion für die Varianz |
|||
Auch die Definition von <math> s_n^2 </math> lässt sich in der Schätztheorie begründen. So tritt beispielsweise |
|||
:<math> V |
:<math> V(X)= \frac{1}{n} \sum_{i=1}^n (X_i-\overline X)^2 </math>. |
||
Ihre Realisierung entspricht <math> v </math>. Jedoch wird <math> V </math> meist nicht Verwendet, da sie gängige Qualitätskriterien nicht erfüllt. |
|||
als Schätzfunktion für die Varianz bei Verwendung der [[Maximum-Likelihood-Methode]] im [[Normalverteilungsmodell]] oder der [[Momentenmethode]] auf. |
|||
== Literatur == |
== Literatur == |
||
{{Literatur |Autor=Thomas Cleff |Titel=Deskriptive Statistik und Explorative Datenanalyse |TitelErg=Eine computergestützte Einführung mit Excel, SPSS und STATA |Auflage=3., überarbeitete und erweiterte |Verlag=Springer Gabler |Ort=Wiesbaden |Datum=2015 |ISBN=978-3-8349-4747-5 |DOI=10.1007/978-3-8349-4748-2}} |
{{Literatur |Autor=Thomas Cleff |Titel=Deskriptive Statistik und Explorative Datenanalyse |TitelErg=Eine computergestützte Einführung mit Excel, SPSS und STATA |Auflage=3., überarbeitete und erweiterte |Verlag=Springer Gabler |Ort=Wiesbaden |Datum=2015 |ISBN=978-3-8349-4747-5 |DOI=10.1007/978-3-8349-4748-2}} |
||
*{{Literatur |Autor=Reinhold Kosfeld, Hans Friedrich Eckey, Matthias Türck |Titel=Deskriptive Statistik |TitelErg=Grundlagen – Methoden – Beispiele – Aufgaben |Auflage=6. |Verlag=Springer Gabler |Ort=Wiesbaden |Datum=2016 |ISBN=978-3-658-13639-0 |DOI=10.1007/978-3-658-13640-6}} |
|||
== Einzelnachweise == |
== Einzelnachweise == |
||
Zeile 92: | Zeile 106: | ||
<ref name="Behrends271"> {{Literatur|Autor=Ehrhard Behrends|Titel=Elementare Stochastik|TitelErg=Ein Lernbuch – von Studierenden mitentwickelt|Verlag=Springer Spektrum|Ort=Wiesbaden|Datum=2013|ISBN=978-3-8348-1939-0|Seiten=274|DOI=10.1007/978-3-8348-2331-1}}</ref> |
<ref name="Behrends271"> {{Literatur|Autor=Ehrhard Behrends|Titel=Elementare Stochastik|TitelErg=Ein Lernbuch – von Studierenden mitentwickelt|Verlag=Springer Spektrum|Ort=Wiesbaden|Datum=2013|ISBN=978-3-8348-1939-0|Seiten=274|DOI=10.1007/978-3-8348-2331-1}}</ref> |
||
<ref name="Cleff56" > {{Literatur |Autor=Thomas Cleff |Titel=Deskriptive Statistik und Explorative Datenanalyse |TitelErg=Eine computergestützte Einführung mit Excel, SPSS und STATA |Auflage=3., überarbeitete und erweiterte |Verlag=Springer Gabler |Ort=Wiesbaden |Datum=2015 |ISBN=978-3-8349-4747-5 |Seiten=56|DOI=10.1007/978-3-8349-4748-2}} </ref> |
<ref name="Cleff56" > {{Literatur |Autor=Thomas Cleff |Titel=Deskriptive Statistik und Explorative Datenanalyse |TitelErg=Eine computergestützte Einführung mit Excel, SPSS und STATA |Auflage=3., überarbeitete und erweiterte |Verlag=Springer Gabler |Ort=Wiesbaden |Datum=2015 |ISBN=978-3-8349-4747-5 |Seiten=56|DOI=10.1007/978-3-8349-4748-2}} </ref> |
||
<ref name="Cleff255" > {{Literatur |Autor=Thomas Cleff |Titel=Deskriptive Statistik und Explorative Datenanalyse |TitelErg=Eine computergestützte Einführung mit Excel, SPSS und STATA |Auflage=3., überarbeitete und erweiterte |Verlag=Springer Gabler |Ort=Wiesbaden |Datum=2015 |ISBN=978-3-8349-4747-5 |Seiten=255|DOI=10.1007/978-3-8349-4748-2}} </ref> |
|||
<ref name="Kosfeld122" > {{Literatur |Autor=Reinhold Kosfeld, Hans Friedrich Eckey, Matthias Türck |Titel=Deskriptive Statistik |TitelErg=Grundlagen – Methoden – Beispiele – Aufgaben |Auflage=6. |Verlag=Springer Gabler |Ort=Wiesbaden |Datum=2016 |ISBN=978-3-658-13639-0 |Seiten=122|DOI=10.1007/978-3-658-13640-6}}</ref> |
|||
<ref name="Toutenburg75" > *{{Literatur |Autor=Helge Toutenburg, Christian Heumann |Titel=Deskriptive Statistik |Auflage=6. |Verlag=Springer-Verlag |Ort=Berlin/Heidelberg |Datum=2008 |ISBN=978-3-540-77787-8 |Seiten=75|DOI=10.1007/978-3-540-77788-5}} </ref> |
|||
</references> |
</references> |
Version vom 30. März 2017, 12:50 Uhr
Diese Baustelle befindet sich fälschlicherweise im Artikelnamensraum. Bitte verschiebe die Seite oder entferne den Baustein {{Baustelle}} .
|
Die empirische Varianz[1] , auch Stichprobenvarianz[2] oder einfach nur kurz Varianz genannt, ist in der deskriptiven Statistik eine Kennzahl einer Stichprobe. Sie gehört zu den Streuungsmaßen und gibt an, wie weit die Stichprobe im Mittel vom arithmetische Mittel abweicht.
Die Begriffe "Varianz", "Stichprobenvarianz" und "empirische Varianz" werden in der Literatur nicht einheitliche Verwendet und treten sowohl als Homonym als auch als Synonym für verschiedene Dinge auf. Im allgemeinen muss zwischen der Varianz (im Sinne der Wahrscheinlichkeitstheorie) als Kennzahl einer Wahrscheinlichkeitsverteilung oder der Verteilung einer Zufallsvariable, der ((un-)korrigierten) Stichprobenvarianz als Schätzfunktion für die Varianz (im Sinne der Wahrscheinlichkeitstheorie) und der hier beschriebene (empirischen) Varianz unterschieden werden. Die Benennungen sind hierbei nicht eindeutig und überlappen sich. Für Details siehe blblb
Definition
Gegeben sei eine Stichprobe mit Elementen, also
und sei
das arithmetisches Mittel der Stichprobe. Die empirische Varianz wird auf zweierlei Arten definiert.
Entweder wird die empirische Varianz der Stichprobe definiert als
- ,[2]
oder sie wird definiert als
- . [3]
Wird nur von "der" empirischen Varianz gesprochen, so muss darauf geachtet werden, welche Konvention beziehungsweise Definition im entsprechenden Kontext gilt. Weder die Benennung der Definitionen noch die entsprechende Notation ist in der Literatur einheitlich. So finden sich für auch die Notationen oder , hingegen wird auch mit oder bezeichnet. Manche Autoren bezeichnen als empirische Varianz und als theoretische Varianz oder induktive Varianz.[4]
In diesem Artikel werden der klarheit halber die Notationen und verwendet, um Irrtümern vorzubeugen. Diese notation ist in der Literatur nicht verbreitet
Beispiel
Gegeben sei die Stichprobe
- ,
es ist also . Für den empirischen Mittelwert ergibt sich
- .
Bei stückweiser Berechnung ergibt sich dann
- .
Über die erste Definition erhält man
- ,
wohingegen die zweite Definition
liefert.
Verhalten bei Transformationen
Die Varianz ist verändert sich nicht bei Verschiebung der Daten um einen fixen Wert. Ist genauer und , so ist
- sowie
Denn es ist und somit
- ,
woraus die Behauptung folgt. Werden die Daten nicht nur um verschoben, sondern auch um einen Faktor reskaliert, so gilt
- sowie .
Hierbei ist . Dies folgt wie oben durch direktes nachrechnen.
Alternative Darstellungen
Direkt aus der Definition folgen die Darstellungen
beziehungsweise
- .
Eine weitere Darstellung erhält man aus dem Verschiebungssatz, nach dem
gilt. Durch Multiplikation mit erhält man daraus[5]
- ,
woraus
folgt.
Herkunft der verschiedenen Definitionen
Die Definition von entspricht der Definition der empirischen Varianz als die mittlere quadratischere Abweichung vom arithmetischen Mittel.[6] Dieses basiert auf der Idee, ein Streumaß um das arithmetische Mittel zu definieren. Ein erster Ansatz ist die Differenz der Messwerte vom arithmetischen Mittel aufzusummieren. Dies führt zu
Da die Differenzen auch negative Werte annehmen können und es zur Ausöschung kommt, kann man die differenzen entweder in Betrag setzen, also
betrachten, oder aber QUadrieren, also
dies Bietet de Vorteil, dass Größere Abweichungen vom Arithmetischen Mittel stärker Gewichtet werden. Um das Streumaß noch unabhängig von der Anzahl der Messwerttze in der Stichprobe zu machen wird noch durch diese ANzahl dividiert. Ergebnis dieses pragmatisch hergelietewten Streumaßes ist die mittlere QUadratische abweichung vom mittelwert oder die oben definierte Varianz .
Die Definition von hat ihre Wurzeln in der Schätztheorie. Dort wird
als erwartungstreue Schätzfunktion für die unbekannte Varianz einer Wahrscheinlichkeitsverteilung verwendet.
Geht man nun von den Zufallsvariablen zu den Realisierungen über, so erhält man aus der abstrakten Schätzfunktion den Schätzwert . Das Verhältnis von zu entspricht somit dem Verhältnis einer Funktion zu ihrem Funktionswert an einer Stelle .
Somit kann als praktisch motiviertes ein Streumaß in der deskriptiven Statistik angesehen werden, wohingegen eine Schätzung für eine Unbekannte Varianz in der induktiven Statistik ist. Diese unterschiedleichen Ursprünge rchtfertigen die oben angeführte Sprechweise für als empirische Varianz und für als induktive Varianz oder theoretische Varianz.
Zu Bemerken ist, dass sich auch als Schätzwert einer Schätzfunktion interpretieren lässt. So erhält man bei Anwendung der Momentenmethode als Schätzfunktion für die Varianz
- .
Ihre Realisierung entspricht . Jedoch wird meist nicht Verwendet, da sie gängige Qualitätskriterien nicht erfüllt.
Literatur
Thomas Cleff: Deskriptive Statistik und Explorative Datenanalyse. Eine computergestützte Einführung mit Excel, SPSS und STATA. 3., überarbeitete und erweiterte Auflage. Springer Gabler, Wiesbaden 2015, ISBN 978-3-8349-4747-5, doi:10.1007/978-3-8349-4748-2.
- Reinhold Kosfeld, Hans Friedrich Eckey, Matthias Türck: Deskriptive Statistik. Grundlagen – Methoden – Beispiele – Aufgaben. 6. Auflage. Springer Gabler, Wiesbaden 2016, ISBN 978-3-658-13639-0, doi:10.1007/978-3-658-13640-6.
Einzelnachweise
- ↑ Norbert Henze: Stochastik für Einsteiger. Eine Einführung in die faszinierende Welt des Zufalls. 10. Auflage. Springer Spektrum, Wiesbaden 2013, ISBN 978-3-658-03076-6, S. 31, doi:10.1007/978-3-658-03077-3.
- ↑ a b Ehrhard Behrends: Elementare Stochastik. Ein Lernbuch – von Studierenden mitentwickelt. Springer Spektrum, Wiesbaden 2013, ISBN 978-3-8348-1939-0, S. 274, doi:10.1007/978-3-8348-2331-1.
- ↑ Thomas Cleff: Deskriptive Statistik und Explorative Datenanalyse. Eine computergestützte Einführung mit Excel, SPSS und STATA. 3., überarbeitete und erweiterte Auflage. Springer Gabler, Wiesbaden 2015, ISBN 978-3-8349-4747-5, S. 56, doi:10.1007/978-3-8349-4748-2.
- ↑ Thomas Cleff: Deskriptive Statistik und Explorative Datenanalyse. Eine computergestützte Einführung mit Excel, SPSS und STATA. 3., überarbeitete und erweiterte Auflage. Springer Gabler, Wiesbaden 2015, ISBN 978-3-8349-4747-5, S. 255, doi:10.1007/978-3-8349-4748-2.
- ↑ Reinhold Kosfeld, Hans Friedrich Eckey, Matthias Türck: Deskriptive Statistik. Grundlagen – Methoden – Beispiele – Aufgaben. 6. Auflage. Springer Gabler, Wiesbaden 2016, ISBN 978-3-658-13639-0, S. 122, doi:10.1007/978-3-658-13640-6.
- ↑ *Helge Toutenburg, Christian Heumann: Deskriptive Statistik. 6. Auflage. Springer-Verlag, Berlin/Heidelberg 2008, ISBN 978-3-540-77787-8, S. 75, doi:10.1007/978-3-540-77788-5.