Median

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Medianwert)
Wechseln zu: Navigation, Suche
Dieser Artikel behandelt den Median in der Statistik. Weitere Bedeutungen sind unter Median (Begriffsklärung) aufgeführt.

Der Median oder Zentralwert ist ein Mittelwert für Verteilungen in der Statistik. Der Median einer Auflistung von Zahlenwerten ist derjenige Wert, welcher an der mittleren Stelle steht, wenn man die Werte der Größe nach sortiert. Zum Beispiel für die Werte 4, 1, 37, 2, 1 ist die Zahl 2 der Median, nämlich die mittlere Zahl in 1, 1, 2, 4, 37.

Allgemein teilt ein Median einen Datensatz, eine Stichprobe oder eine Verteilung in zwei Hälften, so dass die Werte in der einen Hälfte kleiner als der Medianwert sind, in der anderen größer. Wäre zum Beispiel der Median der Länge aller Kaiserpinguine 1,26 m, so läge die Hälfte aller gemessenen Längen bei diesen Pinguinen bei höchstens 1,26 m.

Definition[Bearbeiten]

Der Median teilt eine Liste von Werten in zwei Hälften. Er kann auf folgende Weise bestimmt werden:

  • Alle Werte werden (aufsteigend) geordnet.
  • Wenn die Anzahl der Werte ungerade ist, ist die mittlere Zahl der Median.
  • Wenn die Anzahl der Werte gerade ist, wird der Median meist als arithmetisches Mittel der beiden mittleren Zahlen definiert, die dann Unter- und Obermedian heißen.

Eine wichtige Eigenschaft des Medians ist Robustheit gegenüber Ausreißern.

  • Beispiel: Messwerte 1, 2, 4, 4, 4, 5, 15; Der Median (auch der Ober- und der Untermedian) ist der Wert an der mittleren Stelle, also 4. Wenn im Beispiel durch einen Fehler eine 4 durch 46 ersetzt wurde, ändert sich der Median wenig oder überhaupt nicht, 1, 2, 4, 4, 5, 15, 46. Das arithmetische Mittel springt von 5 auf 11.

Ob Median oder arithmetisches Mittel aussagekräftiger ist, hängt von der Fragestellung ab. Bei einer Einkommensverteilung interessiert Steuerzahler zumeist, wie viel ein typischer Bürger verdient, was sich deutlicher im Median widerspiegelt.

Vergleich mit anderen Maßen der zentralen Tendenz[Bearbeiten]

Der Median gehört zur Gruppe der Quantile und kann auch als ½-Quantil betrachtet werden. Andere wichtige Lagemaße sind das arithmetische Mittel und der Modus.

Im Vergleich zum arithmetischen Mittel, oft Durchschnitt genannt, ist der Median robuster gegenüber Ausreißern (extrem abweichenden Werten) und lässt sich auch auf ordinal skalierte Variablen anwenden. Der Begriff Median (von lateinisch medianus ‚in der Mitte befindlich‘, ‚der Mittlere‘) entstammt der Geometrie, wo er ebenfalls eine Grenze zwischen zwei Hälften gleicher Größe bezeichnet.

Anwendungsbereiche[Bearbeiten]

Der Median dieses Notenspiegels ist 3-. Etwas weniger als die Hälfte der Ergebnisse ist schlechter; durch Hinzunahme der Notenstufe 3- selbst wird die Hälfte gerade überschritten.

Im Gegensatz zum arithmetischen Mittel kann der Median auch für ordinal skalierte Variablen wie beispielsweise Notenstufen, bei denen es keinen quantitativen Abstand gibt, verwendet werden. Aber auch bei intervall- und verhältnisskalierten Daten kann der Median angewendet werden und hat dann Nachteile und Vorteile gegenüber dem arithmetischen Mittel als Lagemaß. Für lediglich nominal skalierte Variablen, deren Ausprägungen keine natürliche Rangfolge aufweisen, wie zum Beispiel eine Variable Geburtsland, kann der Median nicht angewendet werden. Hier ist der Modalwert das einzige Lagemaß, das festgestellt werden kann.

Der Median wird in der Statistik und der Wahrscheinlichkeitstheorie in drei unterschiedlichen Bedeutungen angewendet:

  1. als Lagemaß der deskriptiven Statistik zur Beschreibung einer konkreten Liste von Stichprobenwerten,
  2. in der Wahrscheinlichkeitstheorie als Median einer Wahrscheinlichkeitsverteilung oder einer Zufallsvariable. Hier stellt der Median eine Alternative zum Erwartungswert für die Angabe eines „mittleren Werts“ dar.
  3. in der mathematischen Statistik als Median einer Zufallsstichprobe zur robusten Schätzung unbekannter Verteilungen.

Median einer Stichprobe[Bearbeiten]

Ein Wert m ist Median einer Stichprobe, wenn mindestens die Hälfte der Beobachtungen in der Stichprobe einen Wert  \leq m und mindestens die Hälfte einen Wert  \geq m hat.

Sortiert man die Beobachtungswerte der Größe nach, das heißt geht man zur nach dem Rang geordneten Stichprobe über, so ist der Median bei einer ungeraden Anzahl von Beobachtungen der Wert der in der Mitte dieser Folge liegenden Beobachtung. Bei einer geraden Anzahl von Beobachtungen gibt es kein einzelnes mittleres Element, sondern zwei. Hier sind die Werte der beiden mittleren Beobachtungen sowie alle Werte dazwischen (obwohl diese möglicherweise bei keiner Beobachtung aufgetreten sind) ein Median der Stichprobe, da für alle diese Werte obige Bedingung zutrifft.

Bei kardinal skalierten Messgrößen (wenn es also sinnvoll möglich ist, die Differenz von Messwerten zu berechnen) verwendet man im Falle einer geraden Anzahl Beobachtungen meist das arithmetische Mittel der beiden mittleren Beobachtungswerte. Der Median \tilde x einer geordneten Stichprobe (x_1, x_2, \dots, x_n) von n Messwerten ist dann also

\tilde x
=\begin{cases}
  x_\frac{n+1}{2}                                    & n\text{ ungerade}\\
  \frac {1}{2}\left(x_{\frac{n}{2}} + x_{\frac{n}{2} + 1}\right) & n \text{ gerade.}
\end{cases}

Diese Definition hat den Vorteil, dass bei symmetrischen Verteilungen das arithmetische Mittel und der Median identisch sind.

Ober- und Untermedian[Bearbeiten]

Oft möchte man dagegen sicherstellen, dass der Median in jedem Fall eines der Elemente der Stichprobe sein soll. In diesem Fall wird alternativ zu dieser Definition bei einer geraden Anzahl von Elementen entweder der Untermedian \tilde x_u = x_\frac{n}{2} oder der Obermedian \tilde x_o = x_{\frac{n}{2}+1} genutzt und als Median bezeichnet. Im Falle einer ungeraden Anzahl der Beobachtungen wird \tilde x=\tilde x_u=\tilde x_o festgelegt.

Mithilfe von Gauß-Klammern lässt sich diese Definition kürzer schreiben als

\tilde x_u = x_{\left\lfloor\frac{n+1}{2}\right\rfloor},
\tilde x_o = x_{\left\lceil\frac{n+1}{2}\right\rceil}

und es gilt allgemein:

\tilde x = \tfrac 12\left(\tilde x_u + \tilde x_o\right).

Diese Medianbestimmung spielt beispielsweise bei Datenbanksystemen eine große Rolle, wie z. B. bei SELECT-Abfragen mittels des Medians der Mediane.

Eigenschaften[Bearbeiten]

Der Median \tilde x, und im Fall einer geraden Anzahl von Messwerten alle Werte \tilde x mit \tilde{x}_u \le \tilde x \le \tilde{x}_o, minimieren die Summe der absoluten Abweichungen, das heißt für ein beliebiges x gilt

\sum_{i=1}^n |\tilde x - x_i| \le \sum_{i=1}^n |x - x_i|.

Der Median ist Grundlage der Methode der kleinsten absoluten Abweichungen und Verfahren der robusten Regression. Das arithmetische Mittel dagegen minimiert die Summe der quadratischen Abweichungen und ist Grundlage der Methode der kleinsten Quadrate und der Regressionsanalyse und ist mathematisch leichter zu handhaben, jedoch nicht robust gegen Ausreißer.

Der Median kann, wie oben beschrieben, algorithmisch bestimmt werden, indem die Messwerte sortiert werden. Da dies mit Aufwand \mathcal{O}\left( n \log n\right) verbunden ist, wird im Allgemeinen zu speziellen Algorithmen zur Quantilsbestimmung mit linearem Aufwand \mathcal{O}\left( n \right) gegriffen oder zu Abschätzungen wie der Cornish-Fisher-Methode. Das arithmetische Mittel lässt sich ebenfalls in linearer Zeit bestimmten.

Median von gruppierten Daten[Bearbeiten]

Vor allem in den Sozialwissenschaften wird bei Statistiken häufig der Median geschätzt, da nicht alle Daten explizit und exakt gegeben sind, sondern nur in Intervallen gruppiert vorliegen. So wird beispielsweise bei Umfragen selten nach dem exakten Gehalt gefragt, sondern nur nach der Einkommensklasse, also dem Bereich, in welchem das Gehalt liegt. Wenn nur die Häufigkeiten jeder Klasse bekannt sind, dann lässt sich der Median einer solchen Stichprobe im Allgemeinen nur näherungsweise bestimmen. Es seien n die Anzahl aller Daten, n_i die jeweilige Anzahl der Daten der i-ten Gruppe und u_i bzw. o_i die entsprechenden oberen bzw. unteren Intervallgrenzen. Zunächst wird nun die mediane Klasse (oder mediane Gruppe) bestimmt, d. h. diejenige Gruppe, in welche der Median (nach obiger, konventioneller Definition) hineinfällt, z. B. die m-te Gruppe. Die Zahl m ist dadurch bestimmt, dass \textstyle\sum_{k=1}^{m-1} n_k < \frac{n}{2}, aber \textstyle\sum_{k=1}^{m} n_k \geq \frac{n}{2} gilt. Wenn keine weiteren Angaben über die Verteilung der Daten gegeben sind, wird z. B. Gleichverteilung postuliert, sodass man sich der linearen Interpolation als Hilfsmittel bedienen kann, um eine Schätzung des Medians der gruppierten Daten zu erhalten:

x_\mathrm{med} = u_m+\frac{\frac n2 - \sum\limits_{k=1}^{m-1}n_k}{n_m} \cdot (o_m-u_m).

Wenn keine weiteren Angaben über die Verteilung der Daten gegeben sind, kann auch jede andere Verteilung außer der Gleichverteilung möglich sein und somit kann auch jeder andere Wert im m-ten Intervall der Median sein.

Im Gegensatz zur konventionellen Definition des Medians muss dieser nicht zwangsläufig ein Element aus der tatsächlichen Datenmenge sein, welche in aller Regel nicht bekannt ist.

Beispiel[Bearbeiten]

Einkommen:

Klasse (i) Bereich (u_i bis o_i) Gruppengröße (n_i)
1 mind. 0, weniger als 1500 160
2 mind. 1500, weniger als 2500 320
3 mind. 2500, weniger als 3500 212

Man berechne

\tfrac n2 = \tfrac{212+320+160}2 = \tfrac{692}2=346.

Also liegt der Median in der 2. Klasse (d. h. m=2), da die erste Klasse nur 160 Elemente umfasst. Somit ergibt sich als Schätzung für den Median

x_\mathrm{med} = 1500 + \tfrac{346-160}{320}\cdot (2500-1500) = 2081{,}25.

Da die konkrete Verteilung der Daten in den Intervallen unbekannt ist, kann auch jeder andere Wert im 2. Intervall der Median sein. Der beispielhaft errechnete Wert 2081,25 kann also bis zu 581,15 zu groß und bis zu 418,75 zu klein sein, der Fehler der Schätzung also bis zu 28% betragen.

Eine Veranschaulichung dieses Verfahrens zur Festlegung des Medians bei gruppierten Daten ist die grafische Ermittlung mit Hilfe der Summenkurve. Hier wird der Abszissenwert x_\mathrm{med}\, gesucht, der zum Ordinatenwert \tfrac{n}{2} gehört. Bei kleinerem und geradem n kann auch stattdessen der Ordinatenwert \tfrac{n}{2}+1 gewählt werden.

Median einer Verteilung[Bearbeiten]

Eine Verallgemeinerung des Begriffes liefert die Betrachtung einer reellwertigen Zufallsvariable X und ihrer Verteilung, beziehungsweise ihrer Verteilungsfunktion F(x) = P(X \leq x).

Definition[Bearbeiten]

Sei X eine Zufallsvariable und F_X deren Verteilung. Dann ist jedes Element der folgenden Menge ein Median von X bzw. ein Median von F_X:

\left\{m \in \R \mid P(X \leq m) \geq \frac{1}{2} \text{ und } P(X \geq m) \geq \frac{1}{2}\right\}

Offensichtlich ist jedes m \in \R mit F(m) = \tfrac{1}{2} in dieser Menge, also ein Median von X.

Falls kein solches m existiert, dann liefert die verallgemeinerte inverse Verteilungsfunktion

F^{-1}(p) = \inf \{x \in \R \mid F(x) \geq p\}

für p = \tfrac{1}{2} einen Median von X und zwar den kleinstmöglichen. Wenn Eindeutigkeit eine Rolle spielt, definiert man den Median als  F^{-1}(\tfrac{1}{2}). Dies entspricht der Vorgehensweise bei der Definition von Quantilen, der Median ist dann das 50 %-Quantil.

Eigenschaften[Bearbeiten]

Ein Median ist, neben beispielsweise Erwartungswert und Modus, ein Lageparameter einer Wahrscheinlichkeitsverteilung.

Im Gegensatz zum Erwartungswert existiert der Median stets. So ist beispielsweise der Median der Standard-Cauchy-Verteilung gleich 0, während ihr Erwartungswert gar nicht existiert.

Für symmetrisch verteilte Zufallsvariable mit Dichte, also für Zufallsvariable, bei denen X-\mu und \mu-X die gleiche Verteilung besitzen, sind Median und Erwartungswert beide gleich \mu.

Für stetige Verteilungen auf der Menge der positiven reellen Zahlen mit monoton fallender Dichte (das heißt für 0<x<y gilt f(x) \ge f(y)) ist m \le \mu, wobei das Gleichheitszeichen nur für die stetigen Gleichverteilungen gilt. Ein typisches Beispiel für diese Situation ist die Exponentialverteilung.

Zwischen Erwartungswert \mu, Median m und Standardabweichung \sigma besteht aufgrund der Cantelli-Ungleichung  P(X - \mu \ge a) \le \frac{\sigma^2}{ \sigma^2 + a^2 } mit a ≥ 0 die Beziehung

   \left|\mu-m\right| \leq \sigma.

Das Gleichheitszeichen gilt für die diskrete Zufallsvariable X mit \operatorname{P}\left[X=\mu-\sigma\right]=\operatorname{P}\left[X=\mu+\sigma\right]=1/2.

Beispiele[Bearbeiten]

Dichtefunktion einer Dreiecksverteilung mit Median
f(x) = \frac x{18},\quad 0 \le x \le 6,
ist der Median der x-Wert, welcher die Fläche
F(x)=\frac 12\cdot x\cdot\frac{x}{18}
unter der Dichtefunktion in zwei gleich große Flächen teilt. Dieser Wert wird somit durch die Gleichung
F(m)=\frac 12\cdot m\cdot\frac{m}{18}=\frac 12
bestimmt. Für deren Lösung m=\sqrt{18}\approx 4{,}24 gilt damit P(X \le 4{,}24) \approx 0{,}5.
Das heißt in diesem Beispiel ist der Median m größer als der Erwartungswert \mu = 4.
Median der Exponentialverteilung
F(x) = 1 - e^{-\lambda x} für x \geq 0.
Diese Verteilung modelliert zum Beispiel atomaren Zerfall, genauer die Lebensdauer eines radioaktiven Teilchens bis zum Verfall.
Ihr Median m ergibt sich als eindeutig bestimmte Lösung der Gleichung F(m) = \tfrac{1}{2} zu
1 - e^{-\lambda m} = \frac{1}{2} \iff e^{-\lambda m} = \frac{1}{2} \iff m = \frac{\ln 2}{\lambda}.
Wegen \ln 2 < 1 ist der Median hier kleiner als der Erwartungswert \mu = \tfrac{1}{\lambda}.
Der Median ist im Beispiel des Zerfalls die Halbwertzeit.

Alternativen[Bearbeiten]

  • Die Wohlfahrtsfunktion ist eine Alternative zum Median bei der Ermittlung des Masseneinkommens aus einer gegebenen Einkommensverteilung.
  • Eine andere Möglichkeit als der Median mit Extremwerten umzugehen, ist die Benutzung eines getrimmten Mittelwerts, den man ermittelt in dem man die kleinsten und größten Werte vor der Berechnung entfernt (typischerweise werden 5 % der Werte weggelassen).[1]
  • Nach Butler[2] gibt es auch eine strengere Definition von Median (die weniger gebräuchlich ist), die sagt, der Median ist der Wert, für den gilt, die Zahl der kleineren Werte in der Reihe ist gleich der Zahl der größeren Werte in der Reihe. Für Spezialfälle wie 3, 3, 3, 3, 4 oder 1, 2, 3, 3, 3 gibt es ein Verfahren, mit dem man einen eindeutigen Median unter Beibehaltung der strengeren Definition berechnen kann.[3],

Siehe auch[Bearbeiten]

Literatur[Bearbeiten]

  • Hans-Otto Georgii: Stochastik: Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. de Gruyter Lehrbuch, Berlin 2009, ISBN 978-3-11-021526-7.

Weblinks[Bearbeiten]

 Wiktionary: Median – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Referenzen[Bearbeiten]

  1. [1] Grundlagen der Statistik/ Mittelwert von Hans Lohninger
  2. [2] Butler, Christopher (1985). Statistics in Linguistics. Oxford: Blackwell
  3. [3] Statistik-Zentrale Tendenz von Stephen Berman