„Streuungsmaß (Statistik)“ – Versionsunterschied
[gesichtete Version] | [gesichtete Version] |
→Mittlere absolute Abweichung bezüglich des Medians: + hauptartikelbaustein |
erste wahrscheinlichkeitstheoretische begriffe entfernt, vgl disk |
||
Zeile 1: | Zeile 1: | ||
{{Dieser Artikel| behandelt Streuungsmaße in der deskriptiven Statistik. Für Streuungsmaße in der Stochastik siehe [[Dispersionsmaß (Stochastik)]]. }} |
|||
Unter '''Streuung''' (auch '''Dispersion''') fasst man in der [[deskriptive Statistik|deskriptiven Statistik |
Unter '''Streuung''' (auch '''Dispersion''') fasst man in der [[deskriptive Statistik|deskriptiven Statistik]] verschiedene [[Parameter (Statistik)|Maßzahl]]en zusammen, die die Streubreite von Werten einer Stichprobe beziehungsweise einer [[Häufigkeitsverteilung]] um einen geeigneten [[Lageparameter (Deskriptive Statistik)|Lageparameter]] herum beschreiben. Die Maßzahlen werden dann auch als '''Streuungsmaße'''<ref name="Kosfeld109" /> oder '''Streuungsprameter'''<ref name="Cleff54" /> bezeichnet. Die verschiedenen Berechnungsmethoden unterscheiden sich prinzipiell durch ihre Beeinflussbarkeit beziehungsweise Empfindlichkeit gegenüber [[Ausreißer]]n. Die Streuung der Häufigkeitsverteilung wird als [[Standardfehler]] bezeichnet. |
||
== Definition == |
== Definition == |
||
Es sei <math>x_1, \dots, x_n \in \mathbb{R}</math> eine Stichprobe und <math>s: \mathbb{R}^n \rightarrow \mathbb{R}</math> eine Funktion. <math>s</math> heißt ein ''Streuungsmaß'', wenn <math>s</math> translationsinvariant ist.<ref |
Es sei <math>x_1, \dots, x_n \in \mathbb{R}</math> eine Stichprobe und <math>s: \mathbb{R}^n \rightarrow \mathbb{R}</math> eine Funktion. <math>s</math> heißt ein ''Streuungsmaß'', wenn <math>s</math> translationsinvariant ist.<ref name="Buechter83" /> Es muss also folgendes gelten: |
||
:<math>s(x_1 + a, \dots, x_n + a) = s(x_1, \dots, x_n) \;\;\; \forall a \in \mathbb{R}</math> |
:<math>s(x_1 + a, \dots, x_n + a) = s(x_1, \dots, x_n) \;\;\; \forall a \in \mathbb{R}</math> |
||
== Maßzahlen == |
== Maßzahlen == |
||
=== Um das arithmetische Mittel === |
=== Um das arithmetische Mittel === |
||
==== Varianz |
==== Varianz ==== |
||
⚫ | |||
Die Varianz (engl. {{lang|en|''variance''}}) und die Standardabweichung (engl. {{lang|en|''standard deviation''}}) sind die wichtigsten und am meisten verwendeten Streuungsmaße. Mit dem Mittelwert <math>\bar{x}</math> bzw. dem [[Erwartungswert]] <math>\operatorname{E}(X)</math> ergeben sich folgende Streuungen: |
|||
Einer der wichtigsten Streuungsparameter ist die Varianz (engl. {{lang|en|''variance''}}), die in zwei leicht unterschiedlichen Varianten definiert wird. Die Herkunft dieser Unterschiede und ihre Verwendung wird im Hauptartikel erläutert. Die Fassungen sind gegeben als |
|||
⚫ | |||
beziehungsweise |
|||
⚫ | |||
:<math>\textstyle s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2</math> |
|||
⚫ | |||
* <math>\operatorname{Var}(X)=\operatorname{E}\bigl((X-\operatorname{E}(X))^2\bigr) =\operatorname{E}(X^2) - (\operatorname{E}(X))^2</math> als die Varianz einer Zufallsvariablen |
|||
::{{Hauptartikel|Varianz (Stochastik)}} |
|||
Hierbei bezeichnet <math> \bar x </math> jeweils das [[arithmetisches Mittel|arithmetische Mittel]] von <math> x </math>. |
|||
Daraus ergeben sich folgende [[Empirische Standardabweichung|Standardabweichungen]]: |
|||
==== Standardabweichung ==== |
|||
⚫ | |||
{{Hauptartikel|Empirische Standardabweichung}} |
|||
* <math>\sigma_X := \sqrt{\operatorname{Var}(X)} = \sqrt{\operatorname{E}\bigl((X-\operatorname{E}(X))^2\bigr)}</math>. |
|||
Die Standardabweichung (engl. {{lang|en|''standard deviation''}}) ist definiert als die Wurzel aus der Varianz und liegt demnach auch in zwei Versionen vor: |
|||
:<math>\textstyle s' = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2}</math> |
|||
beziehungsweise |
|||
⚫ | |||
⚫ | |||
Der [[Variationskoeffizient]] <math>\operatorname{VarK}(X)</math> einer Zufallsvariable <math>X</math> mit <math>\operatorname{E}(X) > 0</math> ist definiert als das Verhältnis ihrer Standardabweichung zu ihrem Erwartungswert |
|||
:<math> |
|||
\operatorname{VarK}(X) = \frac{\sqrt{\operatorname{Var}(X)}}{\operatorname{E}(X)}. |
|||
</math> |
|||
Ein wesentlicher Unterschied zur empirischen Varianz ist, dass die empirische Standardabweichung die selbe Dimension und damit die selben Einheiten wie die Stichprobe besitzt. |
|||
Liegt anstelle der Verteilung der Zufallsvariablen eine konkrete Messreihe von Werten <math>x_1,\dots,x_n</math> vor, so bildet man den empirischen Variationskoeffizienten <math>\operatorname{VarK}</math> als Quotienten aus empirischer Standardabweichung und arithmetischem Mittelwert. |
|||
⚫ | |||
Der [[Empirischer Variationskoeffizient|empirische Variationskoeffizient]] ist wird aus der Standardabweichung abgeleitet und ist definiert als die Standardabweichung geteilt durch das arithmetische Mittel. Er ist dimensionslos und somit nicht einheitenbehaftet. |
|||
==== Mittlere absolute Abweichung ==== |
==== Mittlere absolute Abweichung ==== |
||
Zeile 130: | Zeile 132: | ||
== Einzelnachweise == |
== Einzelnachweise == |
||
<references> |
|||
<ref name="Kosfeld109" > {{Literatur |Autor=Reinhold Kosfeld, Hans Friedrich Eckey, Matthias Türck |Titel=Deskriptive Statistik |TitelErg=Grundlagen – Methoden – Beispiele – Aufgaben |Auflage=6. |Verlag=Springer Gabler |Ort=Wiesbaden |Datum=2016 |ISBN=978-3-658-13639-0 |Seiten=109|DOI=10.1007/978-3-658-13640-6}} </ref> |
|||
<ref name="Cleff54" > {{Literatur |Autor=Thomas Cleff |Titel=Deskriptive Statistik und Explorative Datenanalyse |TitelErg=Eine computergestützte Einführung mit Excel, SPSS und STATA |Auflage=3., überarbeitete und erweiterte |Verlag=Springer Gabler |Ort=Wiesbaden |Datum=2015 |ISBN=978-3-8349-4747-5 |Seiten=54|DOI=10.1007/978-3-8349-4748-2}} </ref> |
|||
<ref name="Buechter83" > {{Literatur | Autor=Andreas Büchter, H.-W. Henn | Titel=Elementare Stochastik - Eine Einführung | Auflage=2 | Verlag=Springer | Ort= | Jahr=2007 | ISBN=9783540453826 | Seiten=83}}</ref> |
|||
</references> |
|||
<references/> |
<references/> |
||
Version vom 6. Mai 2017, 10:14 Uhr
Unter Streuung (auch Dispersion) fasst man in der deskriptiven Statistik verschiedene Maßzahlen zusammen, die die Streubreite von Werten einer Stichprobe beziehungsweise einer Häufigkeitsverteilung um einen geeigneten Lageparameter herum beschreiben. Die Maßzahlen werden dann auch als Streuungsmaße[1] oder Streuungsprameter[2] bezeichnet. Die verschiedenen Berechnungsmethoden unterscheiden sich prinzipiell durch ihre Beeinflussbarkeit beziehungsweise Empfindlichkeit gegenüber Ausreißern. Die Streuung der Häufigkeitsverteilung wird als Standardfehler bezeichnet.
Definition
Es sei eine Stichprobe und eine Funktion. heißt ein Streuungsmaß, wenn translationsinvariant ist.[3] Es muss also folgendes gelten:
Maßzahlen
Um das arithmetische Mittel
Varianz
Einer der wichtigsten Streuungsparameter ist die Varianz (engl. variance), die in zwei leicht unterschiedlichen Varianten definiert wird. Die Herkunft dieser Unterschiede und ihre Verwendung wird im Hauptartikel erläutert. Die Fassungen sind gegeben als
beziehungsweise
Hierbei bezeichnet jeweils das arithmetische Mittel von .
Standardabweichung
Die Standardabweichung (engl. standard deviation) ist definiert als die Wurzel aus der Varianz und liegt demnach auch in zwei Versionen vor:
beziehungsweise
Ein wesentlicher Unterschied zur empirischen Varianz ist, dass die empirische Standardabweichung die selbe Dimension und damit die selben Einheiten wie die Stichprobe besitzt.
Variationskoeffizient
Der empirische Variationskoeffizient ist wird aus der Standardabweichung abgeleitet und ist definiert als die Standardabweichung geteilt durch das arithmetische Mittel. Er ist dimensionslos und somit nicht einheitenbehaftet.
Mittlere absolute Abweichung
Die mittlere absolute Abweichung einer Zufallsvariable von ihrem Erwartungswert ist definiert durch
Damit ist sie das erste absolute zentrierte Moment der Zufallsvariable . Im Falle einer konkreten Stichprobe mit Stichprobenmittelwert wird sie errechnet durch
Die mittlere absolute Abweichung wird in der mathematischen Statistik meist zugunsten der quadratischen Abweichung umgangen, welche analytisch leichter zu behandeln ist. Die in der Definition verwendete Betragsfunktion ist nicht überall differenzierbar, was die Berechnung des Minimums erschwert.
Aufgrund der Ungleichung vom arithmetisch-quadratischen Mittel ist die mittlere absolute Abweichung kleiner oder gleich der Standardabweichung (Gleichheit gilt nur für konstante Zufallsgrößen).
Für symmetrische Verteilungen, d. h. Verteilungen mit der Eigenschaft für alle reellen , mit monoton fallender Dichte für , gilt
- .
Für die stetige Gleichverteilung gilt das Gleichheitszeichen.
Um den Median
Quantilsabstand
Der Quantilsabstand ist die Differenz zwischen dem - und -Quantil:
- mit
Innerhalb des liegen Prozent aller Messwerte.
(Inter-)Quartilsabstand
Der Interquartilsabstand (engl. interquartile range), abgekürzt IQR, wird als Differenz der Quartile Q.25 und Q.75 berechnet:
Innerhalb des IQR liegen 50 % aller Messwerte. Er ist – wie auch der Median bzw. Q.50 – unempfindlich gegenüber Ausreißern. Es lässt sich zeigen, dass er einen Bruchpunkt von hat.
Der Interquartilsabstand ist gleich dem Quantilsabstand
Mittlere absolute Abweichung bezüglich des Medians
Die mittlere absolute Abweichung (engl. mean deviation from the median, abgekürzt MD) vom Median ist definiert durch
Im Falle einer konkreten Stichprobe wird sie errechnet durch
Aufgrund der Extremaleigenschaft des Medians gilt im Vergleich mit der mittleren absoluten Abweichung stets
- ,
d. h. die mittlere absolute Abweichung bezüglich des Medians ist erst recht kleiner als die Standardabweichung.
Für symmetrische Verteilungen stimmen Median und Erwartungswert und damit auch und überein.
Für die Normalverteilung gilt:
Median der absoluten Abweichungen
Die mittlere absolute Abweichung (engl. median absolute deviation, auch MedMed), abgekürzt MAD, ist definiert durch
Im Falle einer konkreten Stichprobe wird sie errechnet durch
Durch die Definition ergibt sich im Falle von normalverteilten Daten folgender Zusammenhang zur Standardabweichung:
ist das 0,75-Quantil der Standardnormalverteilung und beträgt ca. 0,6745.
Die mittlere absolute Abweichung ist ein robuster Schätzer für die Standardabweichung. Es lässt sich zeigen, dass sie einen Bruchpunkt von hat.
Weitere Streuungsmaße
Spannweite
Die Spannweite (englisch range) berechnet sich als Differenz zwischen dem größten und dem kleinsten Messwert:
Da die Spannweite nur aus den zwei Extremwerten berechnet wird, ist sie nicht robust gegenüber Ausreißern.
Siehe auch: gleitende Spannweite (engl. moving range)
Geometrische Standardabweichung
Die geometrische Standardabweichung ist ein Streuungsmaß um das geometrisches Mittel.
Graphische Darstellungsformen
Siehe auch
Einzelnachweise
- ↑ Reinhold Kosfeld, Hans Friedrich Eckey, Matthias Türck: Deskriptive Statistik. Grundlagen – Methoden – Beispiele – Aufgaben. 6. Auflage. Springer Gabler, Wiesbaden 2016, ISBN 978-3-658-13639-0, S. 109, doi:10.1007/978-3-658-13640-6.
- ↑ Thomas Cleff: Deskriptive Statistik und Explorative Datenanalyse. Eine computergestützte Einführung mit Excel, SPSS und STATA. 3., überarbeitete und erweiterte Auflage. Springer Gabler, Wiesbaden 2015, ISBN 978-3-8349-4747-5, S. 54, doi:10.1007/978-3-8349-4748-2.
- ↑ Andreas Büchter, H.-W. Henn: Elementare Stochastik - Eine Einführung. 2. Auflage. Springer, 2007, ISBN 978-3-540-45382-6, S. 83.
Literatur
- Günter Buttler, Norman Fickel (2002), „Einführung in die Statistik“, Rowohlt Verlag
- Jürgen Bortz (2005), Statistik: Für Human- und Sozialwissenschaftler (6. Auflage), Springer Verlag, Berlin
- Bernd Rönz, Hans G. Strohe (1994), Lexikon Statistik, Gabler Verlag