Geometrische Verteilung

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Wahrscheinlichkeitsfunktion der geometrischen Verteilung (Variante B) für p=0.2 (blau), p=0.5 (grün) und p=0.8 (rot)

Die geometrische Verteilung ist eine diskrete Wahrscheinlichkeitsverteilung für unabhängige Bernoulli-Experimente. Es werden zwei Varianten definiert:

Variante A
die Wahrscheinlichkeitsverteilung der Anzahl X der Bernoulli-Versuche, die notwendig sind, um einen Erfolg zu haben. Diese Verteilung ist auf der Menge \N definiert.
Variante B
die Wahrscheinlichkeitsverteilung der Anzahl Y der Fehlversuche vor dem ersten Erfolg. Diese Verteilung ist auf der Menge \N_0 definiert.

Die beiden Varianten stehen in der Beziehung X = Y+1. Welche davon man „geometrische Verteilung“ nennt, wird entweder vorher festgelegt oder man wählt diejenige, die gerade zweckmäßiger ist.

Die geometrische Verteilung wird verwendet:

  • bei der Analyse der Wartezeiten bis zum Eintreffen eines bestimmten Ereignisses.
    • bei der Lebensdauerbestimmung von Geräten und Bauteilen, d. h. dem Warten bis zum ersten Ausfall
  • bei der Bestimmung der Anzahl häufiger Ereignisse zwischen unmittelbar aufeinanderfolgenden seltenen Ereignissen wie zum Beispiel Fehlern:
    • Bestimmung der Zuverlässigkeit von Geräten (MTBF)
    • Bestimmung des Risikos in der Versicherungsmathematik
    • Bestimmung der Fehlerrate in der Datenübertragung, zum Beispiel Anzahl der erfolgreich übertragenen TCP Pakete zwischen zwei Paketen mit Retransmission

Definition der geometrischen Verteilung[Bearbeiten]

Eine diskrete Zufallsgröße X oder Y mit dem Parameter p (Wahrscheinlichkeit für einen Erfolg), q=1-p (Wahrscheinlichkeit für einen Misserfolg) genügt der geometrischen Verteilung G(p), wenn:

Variante A
- sie die Wahrscheinlichkeit besitzt, dass man genau n Versuche benötigt, um zum ersten Erfolg zu kommen, zu
\operatorname{P}(X=n)= p(1-p)^{n-1}= pq^{n-1} \quad (n=1,2, \dotsc)
Variante B
- sie die Wahrscheinlichkeit besitzt, n Fehlversuche vor dem ersten Erfolg zu haben, zu
\operatorname{P}(Y=n)= p(1-p)^{n}= pq^{n} \quad (n=0,1,2, \dotsc)

In beiden Fällen bilden die Werte für die Wahrscheinlichkeiten eine geometrische Folge.

Damit besitzt die geometrische Verteilung die folgenden Verteilungsfunktionen

Variante A
F(n)=\operatorname{P}(X \le n) = p\sum_{i=1}^n q^{i-1}
                    =  p\sum_{i=0}^{n-1}q^i
                    =  p\frac{q^n-1}{q-1}
                    =  1-q^n
                    =  1-(1-p)^n
Variante B
F(n)=\operatorname{P}(Y \le n) = p\sum_{i=0}^n q^i
                    =  p\frac{q^{n+1}-1}{q-1}
                    =  1-q^{n+1}
                    =  1-(1-p)^{n+1}

Eigenschaften[Bearbeiten]

Erwartungswert[Bearbeiten]

Die Erwartungswerte der beiden geometrischen Verteilungen sind

Variante A
\operatorname{E}(X) = \frac{1}{p}
Variante B
\operatorname{E}(Y) = \operatorname{E}(X) - 1 = \frac{1-p}{p}.

Der Erwartungswert kann auf verschiedene Weisen hergeleitet werden:

  • \operatorname{E}(X)=p\sum_{k=1}^{\infty}k\,(1-p)^{k-1}
       =  p\frac{\operatorname{d}}{\operatorname{d}(1-p)}\sum_{k=0}^{\infty}\,(1-p)^{k}
       = - p\frac{\operatorname{d}}{\operatorname{d}p}\left(\sum_{k=0}^{\infty}\,(1-p)^{k} \right)
       =  - p\frac{\operatorname{d}}{\operatorname{d}p}\left(\frac{1}{p}\right) = \frac{1}{p}.
  • \operatorname{E}(X)=\sum_{k=1}^{\infty}k p (1-p)^{k-1} 
       = \sum_{k=0}^{\infty}(k+1) p (1-p)^{k} 
       = \sum_{k=0}^{\infty}k p (1-p)^{k} + \sum_{k=1}^{\infty} p (1-p)^{k-1} 
       = (1-p) \operatorname{E}(X) +1 \Rightarrow \operatorname{E}(X) = \frac{1}{p}
Dabei ist  \sum_{k=1}^{\infty} p (1-p)^{k-1} =1 , da p (1-p)^{k-1} die Zähldichte ist.
  • Der Erwartungswert \operatorname{E}(X) lässt sich per Fallunterscheidung zerlegen. Mit Wahrscheinlichkeit p geht das erste Experiment erfolgreich aus, das heißt, X wird mit 1 realisiert. Mit Wahrscheinlichkeit 1-p ist das erste Experiment erfolglos, aber der Erwartungswert für die Anzahl der dann noch folgenden Experimente ist wegen der Gedächtnislosigkeit wiederum \operatorname{E}(X). Also gilt
\operatorname{E}(X) = p\cdot 1 + (1-p)\cdot(1+\operatorname{E}(X)) = 1 + (1-p)\cdot \operatorname{E}(X), also \operatorname{E}(X) = \frac{1}{p}.
  • Führt man n Experimente durch, so ist der Erwartungswert für die Anzahl der erfolgreichen Experimente n\cdot p. Daher ist der zu erwartende Abstand zwischen zwei erfolgreichen Experimenten (einschließlich eines erfolgreichen Experimentes) \tfrac{n}{n\cdot p}, also \operatorname{E}(X) = \tfrac{1}{p}.

Varianz[Bearbeiten]

Die Varianzen der beiden geometrischen Verteilungen sind

\operatorname{Var}(X) = \operatorname{Var}(Y)=\frac{1-p}{p^2}=\frac{1}{p^{2}} - \frac{1}{p}

Die Herleitung kann erfolgen über

\operatorname{Var}(X)  = \operatorname{E}(X^2) - \operatorname{E}(X)^2 = p\sum_{k=1}^{\infty}k^{2}(1-p)^{k-1} - \frac{1}{p^2}
= p\sum_{k=1}^{\infty}k(k+1)(1-p)^{k-1} - p\sum_{k=1}^{\infty}k(1-p)^{k-1} - \frac{1}{p^2}
= p\frac{\operatorname{d}^{2}}{\operatorname{d}p^{2}}\sum_{k=1}^{\infty}(1-p)^{k+1} + p\frac{\operatorname{d}}{\operatorname{d}p}\sum_{k=1}^{\infty}(1-p)^{k} - \frac{1}{p^2}
= p\frac{\operatorname{d}^{2}}{\operatorname{d}p^{2}}\left(\sum_{k=0}^{\infty}(1-p)^{k} \cdot (1-p)^2\right) +p\frac{\operatorname{d}}{\operatorname{d}p}\left(\sum_{k=0}^{\infty}(1-p)^{k}\cdot(1-p)\right) - \frac{1}{p^2}
= p\frac{\operatorname{d}^{2}}{\operatorname{d}p^{2}}\left(\frac{1}{1-(1-p)} \cdot (1-p)^2\right) +p\frac{\operatorname{d}}{\operatorname{d}p}\left(\frac{1}{1-(1-p)}\cdot(1-p)\right) - \frac{1}{p^2}
= p\frac{\operatorname{d}^{2}}{\operatorname{d}p^{2}}\left(\frac{(1-p)^2}{p}\right) +p\frac{\operatorname{d}}{\operatorname{d}p}\left(\frac{1-p}{p}\right) - \frac{1}{p^2}
= p\cdot\frac{2}{p^3} - p\cdot\frac{1}{p^2} - \frac{1}{p^2} = \frac{2}{p^{2}} - \frac{1}{p} - \frac{1}{p^2} = \frac{1}{p^{2}} - \frac{1}{p}.

Gedächtnislosigkeit[Bearbeiten]

Die geometrische Verteilung ist eine gedächtnislose Verteilung, d.h. es gilt für

Variante A

\operatorname{P}(X = n+k \, | \, X > n) = \operatorname{P}(X = k) \quad n,k=1,2, \dotsc

Variante B

\operatorname{P}(Y = n+k \, | \, Y \ge n) = \operatorname{P}(Y = k) \quad n,k=0,1,2, \dotsc

Ist also von einer geometrisch verteilten Zufallsvariablen bekannt, dass sie größer als der Wert n ist (Variante A) bzw. mindestens den Wert n hat (Variante B), so ist die Wahrscheinlichkeit, dass sie diesen Wert um k übertrifft, genau so groß wie die, dass eine identische Zufallsvariable überhaupt den Wert k annimmt.

Die Gedächtnislosigkeit ist eine definierende Eigenschaft; die geometrische Verteilung ist also die einzig mögliche gedächtnislose diskrete Verteilung. Ihr stetiges Pendant hierbei ist die Exponentialverteilung.

Bezug zur Reproduktivität[Bearbeiten]

Die Summe \textstyle X=\sum_{i=1}^{k} X_{i} unabhängiger geometrisch verteilter Zufallsgrößen X_1, \dotsc, X_k mit demselben Parameter p ist nicht geometrisch verteilt, sondern negativ binomialverteilt. Somit ist die Familie der geometrischen Wahrscheinlichkeitsverteilungen nicht reproduktiv.

Schiefe[Bearbeiten]

Die Schiefe ergibt sich zu:

\operatorname{v}(X) = \operatorname{v}(Y) = \frac{2-p}{\sqrt{1-p}}.

Wölbung[Bearbeiten]

Die Wölbung lässt sich ebenfalls geschlossen darstellen als

\beta_2 = 9 + \frac{p^2}{1-p}.

Charakteristische Funktion[Bearbeiten]

Die charakteristische Funktion hat die Form

Variante A
\phi_{X}(s) = \frac{p e^{is}}{1-(1-p)e^{is}}.
Variante B
\phi_{Y}(s) = \frac{p}{1-(1-p)e^{is}}.

Momenterzeugende Funktion[Bearbeiten]

Die momenterzeugende Funktion der geometrischen Verteilung ist

Variante A
m_{X}(s) = \frac{p e^s}{1-(1-p)e^{s}}
Variante B
m_{Y}(s) = \frac{p}{1-(1-p)e^{s}}.

Beziehungen zu anderen Verteilungen[Bearbeiten]

Beziehung zur negativen Binomialverteilung[Bearbeiten]

Verallgemeinerung auf mehrere Erfolge

Eine Verallgemeinerung der geometrischen Verteilung stellt die negative Binomialverteilung dar, die die Wahrscheinlichkeit angibt, dass für r Erfolge n Versuche notwendig sind bzw. (in einer alternativen Darstellung) dass der r-te Erfolg eintritt, nachdem bereits k=n-r Misserfolge eingetreten sind.

Umgekehrt ist die Geometrische Verteilung eine negative Binomialverteilung bei r=1.

Beziehung zur Exponentialverteilung[Bearbeiten]

Konvergenz der geometrischen Verteilung

Für eine Folge  X_1, X_2, X_3, \dotsc geometrisch verteilter Zufallsvariablen mit Parametern  p_1, p_2, p_3, \dotsc gelte  \lim_{n \to \infty} np_n=\lambda mit einer positiven Konstante \lambda. Dann konvergiert die Folge  \tfrac{X_n}{n} für große n gegen eine exponentialverteilte Zufallsvariable mit Parameter \lambda.

In Analogie zur diskreten geometrischen Verteilung bestimmt die stetige Exponentialverteilung die Wartezeit bis zum ersten Eintreffen eines seltenen Poisson-verteilten Ereignisses. Die Exponentialverteilung ist also das kontinuierliche Analogon zur diskreten geometrischen Verteilung.

Zufallszahlen[Bearbeiten]

Zufallszahlen zur geometrischen Verteilung werden üblicherweise mit Hilfe der Inversionsmethode erzeugt. Diese Methode bietet sich bei der geometrischen Verteilung besonders an, da die Einzelwahrscheinlichkeiten der einfachen Rekursion  \operatorname{P}(X=k+1)=(1-p)\operatorname{P}(X=k) genügen. Die Inversionsmethode ist hier also nur mit rationalen Operationen (Addition, Multiplikation) und ohne die Verteilungsfunktion vorher zu berechnen und abzuspeichern durchführbar, was einen schnellen Algorithmus zur Simulation garantiert.

Weblinks[Bearbeiten]