Empirische Verteilungsfunktion

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Dieser Artikel behandelt die Verteilungsfunktion in der beschreibenden Statistik; zur Verteilungsfunktion für Zufallsvariablen bzw. in der Wahrscheinlichkeitsrechnung siehe Verteilungsfunktion.

Eine empirische Verteilungsfunktion – auch Summenhäufigkeitsfunktion oder Verteilungsfunktion der Stichprobe genannt – ist in der beschreibenden Statistik und der Stochastik eine Funktion, die jeder reellen Zahl x den Anteil der Stichprobenwerte, die kleiner oder gleich x sind, zuordnet. Die Definition der empirischen Verteilungsfunktion kann in verschiedenen Schreibweisen erfolgen.

Definition[Bearbeiten]

Empirische Verteilungsfunktion für unklassierte Daten.

Wenn x_1, \ldots, x_n die Beobachtungswerte in der Stichprobe sind, dann ist die empirische Verteilungsfunktion definiert als

F_n(x) = \frac{ \mbox{Anzahl der Beobachtungswerte in der Stichprobe} \leq x}n = \frac{1}{n} \sum_{i=1}^n \mathbf{1}_{\{x_i \le x\}}

mit \mathbf{1}_{\{x_i \le x\}}=1, wenn x_i \le x und Null sonst, d. h. \mathbf{1}_A bezeichnet hier die Indikatorfunktion der Menge A.

Alternativ lässt sich die empirische Verteilungsfunktion mit den Merkmalsausprägungen a_1 < \ldots < a_k und den zugehörigen relativen Häufigkeiten h_1,\dotsc,h_k in der Stichprobe definieren:


F_n(x) := \begin{cases} 
0,    & \text{falls } x < a_1, \\ 
\sum_{j=1}^i h_j, & \text{falls } a_i \leq x < a_{i+1}, ~ i \in \{ 1, \ldots , k-1\}, \\
1,    & \text{falls } a_k \leq x.
\end{cases}

Die Funktion F_n(x) ist damit eine monoton wachsende Treppenfunktion.

Klassierte Daten[Bearbeiten]

Empirische Verteilungsfunktion für klassierte Daten.

Manchmal liegen Daten nur klassiert vor, d. h. es sind J Klassen mit Klassenuntergrenzen x_j^u, Klassenobergrenzen x_j^o und relativen Klassenhäufigkeiten h_j gegeben (j=1, \ldots, J).

Dann wird die Verteilungsfunktion definiert als


F_n(x) := \begin{cases} 
0,    & \text{falls } x < x_1^u, \\ 
\sum_{j=1}^{i-1} h_j + \frac{x-x_i^u}{x_i^o-x_i^u} h_i, & \text{falls } x_i^u \leq x < x_i^o, ~ i \in \{ 1, \ldots , J\},\\
1,    & \text{falls } x_J^o \leq x.
\end{cases}

An den Klassenober- und -untergrenzen stimmt die Definition mit der Definition bei unklassierten Daten überein. In den Bereichen zwischen den Klassengrenzen findet eine lineare Interpolation statt. Man geht hierbei davon aus, dass die Beobachtungen innerhalb einer Klasse gleichmäßig verteilt sind.

Beispiele[Bearbeiten]

Als Beispiel sollen die Pferdetrittdaten von Ladislaus von Bortkewitsch dienen. Im Zeitraum von 1875 bis 1894 starben in 14 Kavallerieregimentern der preußischen Armee insgesamt 196 Soldaten an Pferdetritten:

Empirische Verteilungsfunktion der unklassierten Pferdetritt-Daten.
Jahr 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 \sum
Tote 3 5 7 9 10 18 6 14 11 9 5 11 15 6 11 17 12 15 8 4 196


Schreibt man die Tabelle mit den Merkmalsausprägungen und relativen Häufigkeiten auf, dann ergibt sich

x_i 3 4 5 6 7 8 9 10 11 12 14 15 17 18
Jahre 1 1 2 2 1 1 2 1 3 1 1 2 1 1
h_i 0,05 0,05 0,10 0,10 0,05 0,05 0,10 0,05 0,15 0,05 0,05 0,10 0,05 0,05
F_n(x_i) 0,05 0,10 0,20 0,30 0,35 0,40 0,50 0,55 0,70 0,75 0,80 0,90 0,95 1,00

Die letzte Zeile enthält den Wert der Verteilungsfunktion an der entsprechenden Stelle x=x_i. Beispielsweise an der Stelle x=6{,}5 ergibt sich F_n(6,5)=0{,}3.

Klassierte Daten[Bearbeiten]

Klassiert man die Daten, so erhält man folgende Datentabelle. Die Grafik dazu findet man bei der Definition.

ab x_i^u 2 4 6 8 10 12 14 16
bis x_i^o 4 6 8 10 12 14 16 18
h_i 0,10 0,20 0,10 0,15 0,20 0,05 0,10 0,10
F_n(x_i^o) 0,10 0,30 0,40 0,55 0,75 0,80 0,90 1,00

Die letzte Zeile enthält den Wert der Verteilungsfunktion an der entsprechenden Stelle x=x_i^o. An der Stelle x=6{,}5 ergibt sich F_n(6{,}5)=0{,}3+\tfrac{6{,}5-6}{8-6}\cdot 0{,}1=0{,}325.

Konvergenzeigenschaften[Bearbeiten]

Das starke Gesetz der großen Zahlen sichert zu, dass der Schätzer F_n(x) fast sicher für jeden Wert x gegen die wahre Verteilungsfunktion F(x) konvergiert:

F_n(x)\ \xrightarrow{a.s.}\ F(x),

d.h. der Schätzer F_n(x) ist konsistent. Damit ist die punktweise Konvergenz der empirischen Verteilungsfunktion gegen die wahre Verteilungsfunktion gegeben. Ein weiteres, stärkeres Result, der Satz von Glivenko-Cantelli sagt aus, dass dies sogar gleichmäßig geschieht:

\| F_n-F\|_\infty \equiv \sup_{x\in\mathbb{R}} \big|F_n(x)-F(x)\big|\ \xrightarrow{a.s.}\ 0 .

Diese Eigenschaft ist die mathematische Begründung dafür, dass es überhaupt sinnvoll ist, Daten mit einer empirischen Verteilungsfunktion zu beschreiben.

Ogive[Bearbeiten]

Ogive (Verteilungsfunktion) einer theoretischen und einer empirischen Verteilung.

Ogive bezeichnete ursprünglich das gotische Bau-Stilelement Spitzbogen sowie die verstärkten Rippen in den Gewölben. Der Ausdruck wurde in der Statistik für eine Verteilungsfunktion erstmals 1875 von Francis Galton verwendet:

„When the objects are marshalled in the order of their magnitude along a level base at equal distances apart, a line drawn freely through the tops of the ordinates..will form a curve of double curvature... Such a curve is called, in the phraseology of architects, an ‘ogive’.“

Francis Galton: Aus Statistics by intercomparison with remarks on the Law of Frequency of Error., Philosophical Magazine 49, S. 35

Auf der horizontalen Achse des Koordinatensystems werden hier die geordneten (oft gruppierten) Merkmalsausprägungen aufgetragen; auf der vertikalen Achse die relativen kumulierten Häufigkeiten in Prozent.

Die Grafik rechts zeigt die kumulierte Verteilungsfunktion einer theoretischen Standardnormalverteilung. Wird der rechte Teil der Kurve an der Stelle x=0 gespiegelt (rot gestrichelt), dann sieht die entstehenden Figur wie eine Ogive aus.

Darunter wird eine empirische Verteilungsfunktion gezeigt. Für die Grafik wurden 50 Zufallszahlen aus einer Standardnormalverteilung gezogen. Je mehr Zufallszahlen man zieht desto stärker nähert man sich der theoretischen Verteilungsfunktion an.

Literatur[Bearbeiten]

  • Horst Mayer: Beschreibende Statistik. München - Wien 1995

Siehe auch[Bearbeiten]