Poisson-Verteilung

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Wahrscheinlichkeitsfunktion der Poisson-Verteilung für \lambda = \{1, 5, 9\}

Die Poisson-Verteilung (benannt nach dem Mathematiker Siméon Denis Poisson) ist eine diskrete Wahrscheinlichkeitsverteilung, mit der die Anzahl von Ereignissen modelliert werden kann, die mit konstanter Rate und unabhängig voneinander in einem festen Zeitintervall oder räumlichen Gebiet eintreten. Sie stellt zudem einen häufig vorkommenden Grenzwert der Binomialverteilung für unendlich viele Versuche dar. Ebenso wie die Binomialverteilung sagt die Poisson-Verteilung das zu erwartende Ergebnis einer Serie von Bernoulli-Experimenten voraus. Letzteres sind Zufallsexperimente, die nur zwei mögliche Ergebnisse kennen (zum Beispiel „Erfolg“ und „Misserfolg“). Wird das zeitliche oder räumliche Beobachtungsintervall immer weiter unterteilt, erhöht sich damit die Zahl der Versuche ( n \to \infty ). Die fortschreitende Unterteilung bedingt eine Abnahme der Erfolgswahrscheinlichkeit ( p \to 0 ) derart, dass das Produkt n \cdot p gegen einen endlichen Grenzwert \lambda konvergiert. Dementsprechend nähert sich die binomiale Wahrscheinlichkeitsverteilung der mathematisch etwas einfacheren Poisson-Verteilung an.

Während der Beobachtung, die in beliebig viele Augenblicke (Bernoulli-Experimente) unterteilt werden kann, geschieht fast immer nichts und hin und wieder etwas. Die Poisson-Verteilung wird deshalb manchmal als die Verteilung der seltenen Ereignisse bezeichnet (siehe auch Gesetz der kleinen Zahlen). Die bei der Binomialverteilung vorhandene Symmetrie zwischen Erfolg und Misserfolg mit jeweils anzugebenden Wahrscheinlichkeiten ist hier verloren gegangen. Beispielsweise erlaubt die Poisson-Verteilung zwar die Berechnung der Wahrscheinlichkeit, dass kein Blitz einschlägt, aber die Frage danach, wie oft der Blitz nicht einschlägt, ist wegen der kontinuierlichen Beobachtung sinnlos.

Die mit P_\lambda bezeichnete Wahrscheinlichkeitsverteilung wird durch den Parameter \lambda\in\mathbb{R}_{>0} bestimmt, der gleichzeitig Erwartungswert und Varianz der Verteilung ist. Sie ordnet den natürlichen Zahlen  k = 0, 1, 2, \dotsc die Wahrscheinlichkeiten wie folgt zu:

P_\lambda (k) = \frac{\lambda^k}{k!}\, \mathrm{e}^{-\lambda},

wobei \mathrm{e} die Eulersche Zahl (Basis der natürlichen Exponentialfunktion), \lambda eine reelle positive Zahl und k! die Fakultät von k bezeichnet.

Der Parameter \lambda der Poisson-Verteilung bezeichnet anschaulich die erwartete Ereignishäufigkeit, wenn man sich auf ein bestimmtes Beobachtungsintervall w festgelegt hat:

\lambda = g \cdot w,

wobei g die konstante Ereignisrate (Anzahl pro Einheitsintervall) bedeutet.

Die Poisson-Verteilung liefert also Voraussagen über die Anzahl (k) des Eintretens voneinander unabhängiger Ereignisse, die in zufälliger Sequenz innerhalb eines bestimmten Intervalls auftreten, wenn aus vorangehender Beobachtung bereits bekannt ist, wie viele Ereignisse man im Mittel innerhalb dieses Intervalls erwartet (\lambda ).

Die Zuwächse eines Poisson-Prozesses sind Poisson-verteilte Zufallsvariablen.

Poisson veröffentlichte 1837 seine Gedanken zu dieser Verteilung zusammen mit seiner Wahrscheinlichkeitstheorie in dem Werk „Recherches sur la probabilité des jugements en matières criminelles et en matière civile“ („Untersuchungen zur Wahrscheinlichkeit von Urteilen in Straf- und Zivilsachen“).

Erweiterungen der Poisson-Verteilung wie die Verallgemeinerte Poisson-Verteilung und die Gemischte Poisson-Verteilung werden vor allem im Bereich der Versicherungsmathematik angewendet.

Herleitung[Bearbeiten]

Die Poisson-Verteilung ergibt sich einerseits als Grenzfall der Binomial-Verteilung, andererseits lässt sie sich aus grundlegenden Prozesseigenschaften (poissonsche Annahmen) ableiten. Wenn diese Eigenschaften einem Geschehen in guter Näherung zugeordnet werden können, wird die Ereignishäufigkeit Poisson-verteilt sein.

Man betrachtet ein Raum- oder Zeitkontinuum w (das Bernoulli-Experiment wird sehr oft, sozusagen an jedem Punkt des Kontinuums durchgeführt), ‚auf‘ dem zählbare Ereignisse mit konstanter mittlerer Anzahl g pro Einheitsintervall stattfinden. Nun richtet man den Blick auf ein ‚genügend‘ kleines Kontinuumsintervall \Delta w, das je nach Experiment einen Bereich, ein Zeitintervall, eine abgegrenzte Strecke, Fläche oder Volumen darstellen kann. Was sich dort ereignet, bestimmt die globale Verteilung auf dem Kontinuum.

Die drei poissonschen Annahmen lauten:

  1. Innerhalb des Intervalls [w,w + \Delta w] gibt es höchstens ein Ereignis und beliebig viele Momente, in denen nichts geschieht (Seltenheit).
  2. Die Wahrscheinlichkeit, ein Ereignis im Intervall zu finden, ist proportional zur Länge des Intervalls \Delta w. Da g konstant ist, ist es damit auch unabhängig von w.
  3. Das Eintreten eines Ereignisses im Intervall \Delta w wird nicht beeinflusst von Ereignissen, die in der Vorgeschichte stattgefunden haben (Geschichtslosigkeit).

Mit Annahme 1 und 2 ist die Wahrscheinlichkeit, ein Ereignis im Intervall \Delta w zu finden, gegeben als

p_1(\Delta w ) =  g \cdot  \Delta w,

sowie die Wahrscheinlichkeit eines leeren Intervalls durch

p_0(\Delta w ) = 1 - p_1(\Delta w ) = 1 - g \cdot  \Delta w.

Nach Annahme 3 ist die Wahrscheinlichkeit eines leeren Intervalls \Delta w unabhängig vom Auftreten irgendwelcher Ereignisse im Bereich w davor. So berechnet man die Wahrscheinlichkeit für kein Ereignis bis zum Punkt w + \Delta w zu

p_0(w + \Delta w ) = p_0(w) \cdot p_0(\Delta w)= p_0(w) - g \cdot  p_0(w) \cdot \Delta w.

Das ergibt näherungsweise die Differentialgleichung d p_0(w) / dw = - g \cdot p_0(w) mit der Lösung

p_0(w) = \mathrm{e}^{-g  \cdot w}

unter der Randbedingung p_0(0) = 1. Ebenso findet man die Wahrscheinlichkeit für m Ereignisse bis zum Punkt w + \Delta w

p_m(w + \Delta w ) = p_m(w) \cdot p_0(\Delta w) + p_{m-1}(w) \cdot p_1(\Delta w) = p_m(w) - g \cdot  p_m(w) \cdot \Delta w + g \cdot  p_{m-1}(w) \cdot \Delta w.

Jedes angehängte Intervall \Delta w darf nach Annahme 1 nur entweder kein oder ein Ereignis enthalten. Die entsprechende Differentialgleichung d p_m(w) / dw = - g \cdot p_m(w) + g \cdot p_{m-1}(w) hat die Lösung

p_m(w) = \frac{(g \cdot w)^m}{m!}\mathrm{e}^{-g  \cdot w}.

Identifiziert man nun in diesem Ausdruck, der die Wahrscheinlichkeit des Eintretens von m Ereignissen im Kontinuumsbereich w beschreibt, die Parameter ( g \cdot w ) mit \lambda und m mit k, stimmt er mit der Formel der Poisson-Verteilung überein. Die Zahl \lambda ergibt sich in vielen Aufgabenstellungen als Produkt einer Rate (Anzahl von Ereignissen pro Einheitsintervall) und einem Vielfachen des Einheitsintervalls.

Eigenschaften[Bearbeiten]

  • Die Poisson-Verteilung P_\lambda wird durch den Parameter \lambda vollständig charakterisiert.
  • Die Poisson-Verteilung ist stationär, das heißt nicht von der Zeit abhängig.
  • In einem Poisson-Prozess ist die zufällige Anzahl der Ereignisse bis zu einem bestimmten Zeitpunkt poissonverteilt, die zufällige Zeit bis zum n-ten Ereignis Erlang-verteilt.
  • Die Poisson-Verteilung ist ein Spezialfall der Panjer-Verteilung.

Einfache rekursive Berechnung[Bearbeiten]

Zuerst bestimmt man P_\lambda (0)=\mathrm{e}^{-\lambda}, dann ergeben sich nacheinander P_\lambda(k)=\tfrac{\lambda}{k}\cdot P_\lambda (k-1), (k=1,2,3,\dotsc). Mit wachsendem k werden dabei die Wahrscheinlichkeiten größer, solange k<\lambda ist. Wird k>\lambda, schrumpfen sie. Der Modus, also der Wert mit der größten Wahrscheinlichkeit, beträgt somit k_\mathrm{Modus} =\lfloor \lambda \rfloor, wenn \lambda nicht ganzzahlig ist, anderenfalls gibt es zwei benachbarte k_\text{Modus} = \lambda,\lambda -1 (siehe Diagramm rechts oben).

Näherung[Bearbeiten]

Falls die Berechnung von  \frac{\lambda^k}{k!}\, \mathrm{e}^{-\lambda} wegen zu großer Werte von \lambda und k Probleme bereitet, dann kann folgende mit der Stirlingformel erhaltene Näherung weiterhelfen:

\frac{\mathrm{e}^{k(1+\ln(\lambda/k))-\lambda}}{\sqrt{2\pi(k+1/6)}} .

Verteilungsfunktion[Bearbeiten]

Die Verteilungsfunktion F_{\lambda} der Poisson-Verteilung ist

F_{\lambda}(n)=\sum_{k=0}^n P_\lambda (k) = \mathrm{e}^{-\lambda} \sum_{k=0}^n \frac{\lambda^k}{k!} = Q(n+1,\lambda)=p

und gibt die Wahrscheinlichkeit p dafür an, höchstens n Ereignisse zu finden, wo man \lambda im Mittel erwartet. Q(a,x) ist die regularisierte Gammafunktion der unteren Grenze.

Erwartungswert, Varianz, Moment[Bearbeiten]

Ist die Zufallsvariable X Poisson-verteilt, also X\sim P_{\lambda}, so ist \lambda zugleich Erwartungswert, Varianz und drittes zentriertes Moment \operatorname{E}\left(\left(X-\operatorname{E}\left(X\right)\right)^3\right), denn:

Erwartungswert[Bearbeiten]

\operatorname{E}(X) =\sum_{k=0}^{\infty}k\frac{\lambda^k}{k!}\,\mathrm{e}^{-\lambda}
              =  \lambda\, \mathrm{e}^{-\lambda}\sum_{k=1}^{\infty}\frac{\lambda^{k-1}}{(k-1)!}
              =  \lambda\, \mathrm{e}^{-\lambda}\underbrace{\sum_{j=0}^{\infty}\frac{\lambda^{j}}{j!}}_{e^\lambda} 
              = \lambda.

Varianz[Bearbeiten]

\begin{align}\operatorname{E}(X^2) &=\sum_{k=0}^\infty k^2\frac{\lambda^k}{k!}\,\mathrm{e}^{-\lambda}= \mathrm{e}^{-\lambda}\,\sum_{k=1}^\infty k\frac{\lambda^k}{(k-1)!} = \mathrm{e}^{-\lambda}\,\left ( \sum_{k=1}^\infty (k-1)\frac{\lambda^k}{(k-1)!} + \sum_{k=1}^\infty \frac{\lambda^k}{(k-1)!} \right )\\
 &= \mathrm{e}^{-\lambda}\,\sum_{k=2}^\infty \frac{\lambda^k}{(k-2)!} + \mathrm{e}^{-\lambda}\,\sum_{k=1}^\infty \frac{\lambda^k}{(k-1)!}
 =\lambda^2\cdot\mathrm{e}^{-\lambda}\,\sum_{k=2}^\infty \frac{\lambda^{k-2}}{(k-2)!}+\lambda\cdot\mathrm{e}^{-\lambda}\,\sum_{k=1}^\infty \frac{\lambda^{k-1}}{(k-1)!}= \lambda^2+\lambda.
\end{align}

Nach der Verschiebungsformel gilt nun:

\operatorname{Var}(X) = \operatorname{E}(X^2)-\operatorname{E}(X)^2=\lambda^2+\lambda-\lambda^2=\lambda.

Alternative Berechnung von Erwartungswert und Varianz[Bearbeiten]

Seien X_1,\dotsc,X_n \,n unabhängige bernoulliverteilte Zufallsvariablen mit \,p=\lambda/n und sei X:=X_1+\dotsb+X_n. Für n\to\infty gilt X\sim P_{\lambda} und

\begin{align}
\operatorname{E}(X)&=\operatorname{E}(X_1)+\dotsb+\operatorname{E}(X_n)=\underbrace{\frac{\lambda}{n}+\dotsb+\frac{\lambda}{n}}_{n\, \mathrm{mal}}=\lambda\to\lambda\\
\operatorname{Var}(X)&=\operatorname{Var}(X_1)+\dotsb+\operatorname{Var}(X_n)\\
&=\underbrace{\frac{\lambda}{n}\left(1-\frac{\lambda}{n}\right)+\dotsb+\frac{\lambda}{n}\left(1-\frac{\lambda}{n}\right)}_{n\, \mathrm{mal}}=\lambda\left(1-\frac{\lambda}{n}\right)\to\lambda.
\end{align}

Variationskoeffizient[Bearbeiten]

Aus Erwartungswert und Varianz erhält man sofort den Variationskoeffizienten

\operatorname{VarK}(X) = \frac{\sqrt{\operatorname{Var}(X)}}{\operatorname{E}(X)} = \frac{1}{\sqrt{\lambda}}.

Schiefe und Wölbung[Bearbeiten]

Die Schiefe ergibt sich zu

\operatorname{v}(X) = \frac{1}{\sqrt{\lambda}}.

Die Wölbung lässt sich ebenfalls geschlossen darstellen als

\beta_2 =3+\frac{1}{\lambda}.

Charakteristische Funktion[Bearbeiten]

Die charakteristische Funktion hat die Form

\phi_{X}(s) = \sum_{k=0}^\infty\mathrm{e}^{iks}\frac{\lambda^k}{k!}\,\mathrm{e}^{-\lambda}
               = \mathrm{e}^{-\lambda} \sum_{k=0}^\infty\frac{\left(\lambda\, \mathrm{e}^{is}\right)^k}{k!}
               = \mathrm{e}^{-\lambda} \mathrm{e}^{\lambda\,\mathrm{e}^{is}}
               = \mathrm{e}^{\lambda\left(\mathrm{e}^{is}-1\right)}.

Erzeugende Funktion[Bearbeiten]

Für die erzeugende Funktion erhält man

m_{X}(s) = \mathrm{e}^{\lambda(s-1)}.

Momenterzeugende Funktion[Bearbeiten]

Die momenterzeugende Funktion der Poisson-Verteilung ist

M_{X}(s) = \mathrm{e}^{\lambda(\mathrm{e}^{s}-1)}.

Reproduktivität[Bearbeiten]

Die Poisson-Verteilung ist reproduktiv, d. h. die Summe X_1+X_2 zweier stochastisch unabhängiger Poisson-verteilter Zufallsvariablen X_1 und X_2 mit den Parametern \lambda_1 und \lambda_2 ist wieder Poisson-verteilt mit dem Parameter \lambda_1+\lambda_2. Denn es gilt:


\begin{align}
P(X_1+X_2=n)&=\sum_{k=0}^n P(X_1=k) \, P(X_2=n-k)\\
&=\sum_{k=0}^n \frac{\lambda_1^k}{k!}\, \mathrm{e}^{-\lambda_1} \, \frac{\lambda_2^{n-k}}{(n-k)!} \,\mathrm{e}^{-\lambda_2}\\
&=\frac{1}{n!}\, \mathrm{e}^{-(\lambda_1+\lambda_2)} \, \sum_{k=0}^n \binom{n}{k} \lambda_1^k \, \lambda_2^{n-k}=\frac{(\lambda_1+\lambda_2)^n}{n!} \, \mathrm{e}^{-(\lambda_1+\lambda_2)},
\end{align}

wobei in der letzten Umformung der Binomische Lehrsatz angewendet worden ist.

Dieser Beweis lässt sich auch auf mehrere stochastisch unabhängige Poisson-verteilte Zufallsvariablen X_i\sim P_{\lambda_i} verallgemeinern. Hier ist X_1+\dotsb+X_n\sim P_{\lambda_1+\dotsb+\lambda_n}. Die Poisson-Verteilung also ist unendlich teilbar.

Nach einem Satz des sowjetischen Mathematikers D. A. Raikow gilt auch die Umkehrung: Ist eine Poisson-verteilte Zufallsvariable X die Summe von zwei unabhängigen Zufallsvariablen X_1 und X_2, dann sind die Summanden X_1 und X_2 ebenfalls Poisson-verteilt. Eine Poisson-verteilte Zufallsvariable lässt sich also nur in Poisson-verteilte unabhängige Summanden zerlegen. Dieser Satz ist ein Analogon zu dem Satz von Cramér für die Normalverteilung.

Symmetrie[Bearbeiten]

Die Poisson-Verteilung P_{\lambda} hat für kleine Mittelwerte \lambda eine stark asymmetrische Gestalt. Für größer werdende Mittelwerte wird P_{\lambda} symmetrischer und lässt sich für \lambda > 30 in guter Näherung durch die Gauß-Verteilung darstellen.

Beziehung zu anderen Verteilungen[Bearbeiten]

Beziehung zur Binomialverteilung[Bearbeiten]

Die Wahrscheinlichkeitsdichte der Binomialverteilung B_{n,\,p}(k) lautet

P(X=k)= \binom nk p^k (1-p)^{n-k} = \frac{n!}{(n-k)! k!} p^k (1-p)^{n-k}.

Die Poisson-Verteilung lässt sich aus der Binomialverteilung herleiten. Sie ist die Grenzverteilung der Binomialverteilung bei sehr kleinen Anteilen der interessierten Merkmale und sehr großem Stichprobenumfang: n\rightarrow\infty und p\rightarrow 0 unter der Nebenbedingung, dass das Produkt np=\lambda einen Wert annimmt, der weder null noch unendlich ist. \lambda ist dann für alle in der Grenzwertbildung betrachteten Binomialverteilungen wie auch für die resultierende Poisson-Verteilung der Erwartungswert.

Der Wert einer Poisson-verteilten Zufallsvariable an der Stelle k ist der Grenzwert n\to\infty einer Binomialverteilung mit p=\tfrac{\lambda}{n} an der Stelle k:

\begin{align}
\lim_{n\to\infty}P(X=k) & =\lim_{n\to\infty}\frac{n!}{k!\,(n-k)!}\left(\frac{\lambda}{n}\right)^{k}\left(1-\frac{\lambda}{n}\right)^{n-k}\\
 & =\lim_{n\to\infty}\left(\frac{\lambda^{k}}{k!}\right)\left(\frac{n(n-1)(n-2)\cdots(n-k+1)}{n^{k}}\right)\left(1-\frac{\lambda}{n}\right)^{n}\left(1-\frac{\lambda}{n}\right)^{-k}\\
 & =\frac{\lambda^{k}}{k!}\cdot\lim_{n\to\infty}\underbrace{\left(\frac{n}{n}\cdot\frac{n-1}{n}\cdot\frac{n-2}{n}\cdots\frac{n-k+1}{n}\right)}_{\to1}\underbrace{\left(1-\frac{\lambda}{n}\right)^{n}}_{\to e^{-\lambda}}\underbrace{\left(1-\frac{\lambda}{n}\right)^{-k}}_{\to1}\\
 & =\frac{\lambda^{k}\mathrm{e}^{-\lambda}}{k!}.
\end{align}

Bei großen Stichproben lässt sich folglich die Binomialverteilung gut durch die Poisson-Verteilung approximieren.

Hauptartikel: Poisson-Approximation

Da beim Berechnen der Wahrscheinlichkeiten für die Anzahl der Ereignisse innerhalb eines Intervalls w die Größen n und p meistens unbekannt sind, nimmt man als Schätzung für \lambda = g\cdot w einfach die Anzahl bei einer Probemessung im Intervall aufgetretenen Ereignisse mit einer postulierten auf das Einheitsintervall normierten und als konstant angenommenen Eintretenswahrscheinlichkeit g.

Beziehung zur Normalverteilung[Bearbeiten]

Für große \lambda ähnelt die Poisson-Verteilung einer Gaußschen Normalverteilung mit \mu=\lambda und \sigma^2=\lambda:

P_{\lambda}(k) \approx \frac {1}{\sqrt{2\pi\lambda}}\exp\left(-\frac{(k-\lambda)^2}{2\lambda}\right).

Beziehung zur Erlang-Verteilung[Bearbeiten]

  • In einem Poisson-Prozess genügt die zufällige Anzahl der Ereignisse in einem festgelegten Intervall der Poisson-Verteilung P_{\lambda}. Der zufällige Abstand (Strecke oder Zeit) bis zum Eintreffen des n-ten Ereignisses sowie der Abstand zwischen den Ereignissen m und m+n sind hingegen \operatorname{Erl}(g,n) Erlang-verteilt. Man sagt auch, dass die Poisson-Verteilung und die Erlang-Verteilung zueinander konjugierte Verteilungen sind. Im Fall n=1 geht diese Erlang-Verteilung in eine Exponentialverteilung über \operatorname{Erl}(g,1)=\operatorname{Exp}(g). Dabei bezeichnet g die Zahl der erwarteten Ereignisse pro Einheitsintervall. g\, \mathrm{e}^{-g x} ist dann die Verteilungsdichte des Abstands x, der bis zum Eintreffen des nächsten Ereignisses vergehen wird, wie auch des Abstandes zwischen zwei aufeinanderfolgen Ereignissen.
  • Für die Verteilungsfunktionen der Erlang-Verteilung und der Poisson-Verteilung gilt
F_{\text{Erlang}}(n+1) + F_{\text{Poisson}}(n) = 1.

Beziehung zur Exponentialverteilung[Bearbeiten]

Der Abstand (räumlich oder zeitlich) bis zum ersten zufälligen Ereignis sowie der Abstand zwischen zwei aufeinanderfolgenden Ereignissen eines Poisson-Prozesses mit Intensität \alpha ist \operatorname{Exp}(\alpha) exponentialverteilt.

Beziehung zur Chi-Quadrat-Verteilung[Bearbeiten]

Die Verteilungsfunktionen der Poisson-Verteilung F_{\lambda}und der Chi-Quadrat-Verteilung mit m Freiheitsgraden F_m hängen auf folgende Weise zusammen:

Die Wahrscheinlichkeit, n oder mehr Ereignisse in einem Intervall zu finden, innerhalb dessen man im Mittel \lambda Ereignisse erwartet, ist gleich der Wahrscheinlichkeit, dass der Wert von \chi_{2n}^2\leq 2\lambda ist. Es gilt also

1-F_{\lambda}(n-1)=F_{2n}(2\lambda).

Dies folgt aus 1 - Q(n, \lambda ) = P(n, \lambda ) mit P und Q als regularisierte Gammafunktionen.

Anwendungsbeispiele[Bearbeiten]

Die Poisson-Verteilung ist eine typische Verteilung für die Zahl von Phänomenen, die innerhalb einer Einheit auftreten.

So wird sie häufig dazu benutzt, zeitliche Ereignisse zu beschreiben. Gegeben sind ein zufälliges Ereignis, das durchschnittlich einmal in einem zeitlichen Abstand t_1 stattfindet, sowie ein zweiter Zeitraum t_2, auf den dieses Ereignis bezogen werden soll.

Die Poisson-Verteilung P_\lambda(k) mit \lambda=t_2\cdot 1/t_1 berechnet die Wahrscheinlichkeit, dass im Zeitraum t_2 genau k Ereignisse stattfinden. Anders ausgedrückt ist \lambda die mittlere Auftretenshäufigkeit eines Ereignisses.

Kaufhauskunden[Bearbeiten]

Ein Kaufhaus wird beispielsweise an einem Samstag durchschnittlich alle 10 Sekunden (t_1) von einem Kunden betreten. Werden nun im Takt von einer Minute die Personen gezählt, die neu dazu kamen, so würde man im Mittel 6 Personen erwarten (\lambda = 6 Personen/Minute), die das Kaufhaus betreten. P_6(k) gibt die Wahrscheinlichkeit dafür an, dass in der nächsten Minute (t_2) genau k Kunden das Kaufhaus betreten.

Poisson-Verteilung mit λ=6
P6(k)
k Wahrscheinlichkeit in % Summe in %
0 0,25 0,25
1 1,49 1,74
2 4,46 6,20
3 8,92 15,12
4 13,39 28,51
5 16,06 44,57
6 16,06 60,63
7 13,77 74,40
8 10,33 84,72
9 6,88 91,61
10 4,13 95,74
11 2,25 97,99
12 1,13 99,12
13 0,52 99,64
14 0,22 99,86
15 0,09 99,95

Mit einer Wahrscheinlichkeit von rund 4,5 % betreten genau 2 Personen in einer Minute das Kaufhaus. Mit einer Wahrscheinlichkeit von fast 92 % treten 0 bis 9 Personen (aufsummiert) ein. Die Wahrscheinlichkeit, dass mehr als 9 Personen in einer Minute eintreten, ist folglich 8 %.

Die Werte in der mittleren Spalte ergeben sich jeweils aus dem darüberliegenden Wert, multipliziert mit 6/k.

Die Wahl der Länge des Intervalls liegt beim Beobachter. Würde man eine Stunde als Beobachtungsintervall wählen, ergäbe sich \lambda = 6 \cdot 60 = 360 , bei einem Intervall von 1 Sekunde wäre \lambda = 1 / 10 = 0,1 . Die relative Schwankung der Kundenanzahl (\sqrt{\lambda} /  \lambda) nimmt mit größer werdendem Intervall und folglich größer werdendem \lambda ab. Das längere Intervall erlaubt also über die längere Mittelung eine im Prinzip präzisere Beobachtung, ist aber mit mehr Aufwand verbunden und kann innerhalb des Intervalls auftretende Veränderung der Bedingungen (z. B. Ankunft eines Busses mit einkaufswilligen Touristen) nicht erfassen.

Radioaktiver Zerfall[Bearbeiten]

In der Natur folgt zum Beispiel die Anzahl radioaktiver Zerfälle einer radioaktiven Substanz in einem gegebenen Zeitintervall \Delta t der Poisson-Statistik, wenn während \Delta t die Zerfallsrate nicht wesentlich abnimmt (d. h. \Delta t \ll Halbwertszeit t_{1/2}). Die Zeiten zwischen einzelnen Zerfallsereignissen sind dann exponentialverteilt. Darüber hinaus folgt die Aktivität einem durch die Halbwertszeit bestimmten exponentiellen Abfall.

Zählexperiment[Bearbeiten]

Die Messung einer Poisson-verteilten Anzahl von Ereignissen wird bei häufiger Wiederholung um den gemessenen Mittelwert \overline{n} mit Standardabweichung \sqrt{\overline{n}} streuen. Wird nur einmal (ohne Wiederholen des Experiments) gezählt, dient das Ergebnis

n\pm \sqrt{n}

als bester Schätzer für Mittelwert ( n ) der zugrunde liegenden Poisson-Verteilung sowie Unsicherheit \sqrt{n} (Standardabweichung) der erhaltenen Anzahl. Um hier relative Genauigkeit von 1 % zu erzielen, braucht man also 'hohe Stastistik' von über 10000 Ereignissen!

Man kann die zu erwartende Schwankung der Zählergebnisse bei mehrfachen Stichproben auch ohne explizite Annahme einer zugrunde liegenden Poisson-Verteilung berechnen: Jeder Zählvorgang unterteilt die beobachteten n Ereignisse in zwei Kategorien, die k gezählten und die n - k nicht mit gezählten. Eine Untersuchung interessiert sich z. B. für den Anteil der Personen, deren Körpergröße zwischen 1,70 m und 1,71 m liegt. Dazu wird eine Stichprobe von n Personen vermessen und k davon erfüllen das Zählkriterium. Die Wahrscheinlichkeit, dass die nächste vermessene Person in die Zählklasse fällt, liegt dann bei p\approx k/n. Die Statistik dieser Messung ist binomial, d. h. B_{n,\,k/n}(k) beschreibt die Wahrscheinlichkeit, ein Zählergebnis k zu erhalten. Die Varianz von k beträgt folglich

\sigma_k^2=n \,p (1 - p) = k (1 - k/n)

und der Messfehler (Standardabweichung) demnach

\sigma_k=\sqrt{k(1-k/n)}.

Falls k \ll n, ähnelt die Binomial-Verteilung einer Poisson-Verteilung und es gilt

\sigma_k \approx \sqrt{k}.

Ineffiziente Zählung[Bearbeiten]

Ein Beobachter einer Poisson-verteilten Zufallsvariable mit Parameter  \lambda registriert diese möglicherweise nicht vollständig, sondern nur mit einer Wahrscheinlichkeit p < 1. Wenn also ursprünglich n Ereignisse vorliegen, werden entsprechend der Binomial-Verteilung B_{n,p}(r) nur r Ereignisse gefunden. In diesem Fall ist der wahre Wert n unbekannt und variiert zwischen dem gemessenen Wert r (alle vorhandenen Ereignisse gesehen) und unendlich (es gab mehr Ereignisse, als gesehen wurden). Die Wahrscheinlichkeit eines Messwertes r findet man dann mittels des Produktes der Wahrscheinlichkeit einer erfolgreichen Messung B_{n,p}(r) und der ursprünglichen Poisson-Verteilung  P_\lambda(n) , summiert über alle möglichen Werte n:

\sum\limits_{n=r}^\infty B_{n,p}(r) P_\lambda(n) = P_{p\lambda}(r).

Die gefundenen Werte r bei Nachweiswahrscheinlichkeit p sind also wieder Poisson-verteilt. Die Nachweiswahrscheinlichkeit p reduziert den Parameter  \lambda der ursprünglichen Poisson-Verteilung zu  p\lambda .

Blitzeinschläge[Bearbeiten]

Die Blitzhäufigkeit in Deutschland beträgt jährlich 10 Einschläge pro km², was 0,1 Einschlägen pro ha und Jahr entspricht. Wie groß ist die Wahrscheinlichkeit, dass es in einer Parzelle von 1 ha zu k Blitzeinschlägen in einem Jahr kommt?

\lambda=0{,}1 Einschläge pro Hektar und Jahr.

P_{0,1}(k=0) (kein Einschlag im betrachteten Jahr): 90 %
P_{0,1}(k=1) (ein Einschlag im betrachteten Jahr): 9 %
P_{0,1}(k=2) (zwei Einschläge im betrachteten Jahr): 0,5 %
P_{0,1}(k=3) (drei Einschläge im betrachteten Jahr): 0,02 %

Statistisch ist es nicht verwunderlich, wenn ein Blitz innerhalb von 200 Jahren zweimal am gleichen Ort einschlägt, wobei es außerordentlich unwahrscheinlich ist, den Ort voraussagen zu können (siehe hierzu auch Geburtstagsparadoxon).

Verstreute Reiskörner[Bearbeiten]

Zufällig auf dem Boden verstreute Reiskörner.

Das Bild rechts zeigt einen Ausschnitt eines Fußbodens mit quadratischen Fliesen, auf dem Reiskörner verstreut wurden. Die n=49 Felder enthalten je k=0,\dotsc,5 Reiskörner und insgesamt befinden sich N=66 Reiskörner im betrachteten Ausschnitt. Der Vergleich zwischen Experiment und berechneter Poisson-Verteilung P(X=k), wobei \lambda = N/n = 66/49 = 1{,}35 Reiskörner/Quadrate ist, zeigt eine gute Übereinstimmung:

k gezählt P(X=k)\cdot49

0

15

12,7

1

15

17,2

2

11

11,6

3

5

5,2

4

1

1,7

5

2

0,5

Die Wahrscheinlichkeit, dass ein bestimmtes Feld leer bleibt, ist etwa 26 %:

P(X=0)=\frac{1{,}35^0}{0!}\,\mathrm{e}^{-1{,}35} \approx 0{,}26.

Sportergebnisse[Bearbeiten]

Die (zeitliche) Konstanz der Ereigniswahrscheinlichkeit – eine wesentliche Voraussetzung für die Anwendung der Poisson-Statistik (siehe oben unter Poissonsche Annahmen) – ist bei Sportergebnissen natürlich höchstens näherungsweise gegeben. Es wirken viele im Einzelnen nicht isolierbare Einflüsse zusammen und ergeben eine Wahrscheinlichkeit für Punkte oder Tore, die man ohne besseres Wissen eben als konstant annimmt. Auch ob zum Beispiel Tore unabhängig voneinander fallen, ist fraglich. Das Zutreffen dieser Annahmen lässt sich aber im Nachhinein an der Übereinstimmung von Daten und Poisson-Verteilung testen. Hier gibt es einen ‚Spielraum‘ und keine Eindeutigkeit.

In vielen Sportarten geht es zum Siegen in einem Wettbewerb darum, innerhalb eines bestimmten Zeitraums mehr zählende Ereignisse zu erwirken als der Gegner. Der Physiker Metin Tolan hat in seinem Buch zum Fußballspiel die Anwendbarkeit der Poisson-Verteilung im Sport ausführlich untersucht.

Beispiel[Bearbeiten]

Die durchschnittliche Anzahl von Toren pro Spiel und Mannschaft betrug während der Gruppenphase der Fußball-Weltmeisterschaft 2010 der Herren in Südafrika 1,05 (101 Tore in 48 Spielen). Mit diesem Wert können mit Hilfe der Poisson-Verteilung die Verteilung der Tore und die Verteilung der Endergebnisse der Begegnungen approximiert werden. Die Wahrscheinlichkeit für ein bestimmtes Endergebnis ergibt sich hierbei aus dem Produkt der Wahrscheinlichkeiten der beiden Gegner für die entsprechenden Torerfolge. Auch hier ist die Summe aller Wahrscheinlichkeiten 100 %.

Die folgende Tabelle zeigt die berechneten Anteile der Endergebnisse auf der linken Seite und die tatsächlichen Anteile der Endergebnisse auf der rechten Seite. Die Übereinstimmung ist gut, und die Abweichungen zwischen tatsächlichen und berechneten Ergebnissen für einen bestimmten Spielendstand liegen sehr niedrig im einstelligen Prozentbereich. Ein Spiel entspricht einem Anteil von 1/48 (= 2,083 %) aller Spiele. In nur einem Fall (Endergebnis 0:1) beträgt die Abweichung zwischen der Berechnung und der tatsächlichen Anzahl von Spielen 2 (oder 3,81 %), in allen anderen Fällen ist sie maximal eins.

Tore
(Parameter k)
berechnet 0 1 2 3 4 geschossen 0 1 2 3 4 Differenz 0 1 2 3 4
P
(λ = 1,05)
35 % 37 % 19 % 7 % 2 %
0 35 % 12 % 13 % 7 % 2 % 1 % 13 % 17 % 6 % 4 % 0 % -1 % -4 % 1 % -2 % 1 %
1 37 % 13 % 14 % 7 % 2 % 1 % 10 % 13 % 8 % 2 % 0 % 3 % 1 % -1 % 0 % 1 %
2 19 % 7 % 7 % 4 % 1 % 0 % 6 % 6 % 4 % 0 % 0 % 1 % 1 % 0 % 1 % 0 %
3 7 % 2 % 2 % 1 % 0 % 0 % 0 % 2 % 2 % 0 % 0 % 2 % 0 % -1 % 0 % 0 %
4 2 % 1 % 1 % 0 % 0 % 0 % 2 % 2 % 0 % 0 % 0 % -1 % -1 % 0 % 0 % 0 %
5 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 %
6 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 % 0 %
7 0 % 0 % 0 % 0 % 0 % 0 % 2 % 0 % 0 % 0 % 0 % -2 % 0 % 0 % 0 % 0 %

Sieht man von dem einen hohen 7:0-Sieg ab, ergeben sich beim Zusammenfassen der Spiele mit einer gewinnenden Mannschaft zu dem Ergebnis aus der Sicht der Siegermannschaft (also keine Unterscheidung zwischen Heimspielen und Gastspielen) die folgenden noch geringeren Abweichungen zwischen Spielergebnissen und statistischer Berechnung:

Ergebnis 0:0 1:0 1:1 2:0 2:1 2:2 3:0 3:1 3:2 4:0 4:1 7:0
Differenz zwischen
der Anzahl gespielter
und berechneter Spiele
-1 % -1 % 1 % 2 % 0 % 0 % 0 % 0 % 0 % 0 % 0 % -2 %

Grenzwertüberschreitung[Bearbeiten]

Obergrenze[Bearbeiten]

Die Anzahl n_\text{up} Poisson-verteilter Ereignisse, die mit vorgegebener Wahrscheinlichkeit p < 1 nicht überschritten wird, lässt sich aus der Inversion der Verteilungsfunktion berechnen:

n_\text{up} = F_{\lambda}^{-1}(p).

Dabei lässt sich wieder F_{\lambda}(n)=p durch die regularisierte Gammafunktion Q(n+1,\lambda)=p ausdrücken. Dies ist hilfreich, da keine elementare Form der Inversion der Verteilungsfunktion F_{\lambda} bekannt ist. Außer dem punktweisen Berechnen der Inversion (Anlegen einer Wertetabelle der Wahrscheinlichkeiten p(n) = \mathrm{e}^{-\lambda} \sum\nolimits_{k=0}^n \lambda^k/k! als Funktion der in Frage kommenden n) gibt es die folgende Näherungsmöglichkeit:

Man findet für \lambda > 0{,}15, dass zum Beispiel folgende Ausdrücke der Verteilungsfunktion kaum (< 1 %) von \lambda abhängen:

0{,}942 < Q(\lambda+1,645\sqrt{\lambda+\sqrt{\lambda}},\lambda)<0{,}9505
0{,}9682 < Q(\lambda+1,96\sqrt{\lambda+\sqrt{\lambda}},\lambda)<0{,}97501
0{,}9908 < Q(\lambda+2,575\sqrt{\lambda+\sqrt{\lambda}},\lambda)<0{,}995.

Allgemein liegt für hohe Werte von p > 0{,}9 die Verteilungsfunktion Q(\lambda+x_p\sqrt{\lambda+\sqrt{\lambda}},\lambda) sehr nahe bei p, wobei x_p das einseitige Quantil der Standardnormalverteilung darstellt und x_p als Funktion der Wahrscheinlichkeit p durch x_p=\sqrt{2}\,\operatorname{Erf}^{-1}(2p-1) bestimmt ist. Die rechte Seite der Gleichung für x_p entsteht aus der Umkehrfunktion des Fehlerintegrals \Phi(x_p). Man kann nach dem Aufsuchen von p in dieser Tabelle x_p vom dort blau unterlegten Rand übernehmen.

Der Ansatz für g(\lambda) in Q(g(\lambda),\,\lambda) ist zunächst motiviert durch die Tatsache, dass die Poisson-Verteilung für große \lambda in eine Normalverteilung mit Obergrenze n_\text{up}+1=g(\lambda)=\lambda+x_p\sqrt{\lambda} übergeht. Das zusätzliche \sqrt{\lambda} verbessert die Konstanz der Verteilungsfunktion bei kleinem \lambda. Wenn nun also gilt p=Q(n+1,\,\lambda)\approx Q(\lambda+x_p\sqrt{\lambda+\sqrt{\lambda}},\,\lambda), lässt sich daraus der im nächsten Absatz angegebene Zusammenhang von n_\text{up} und \lambda,x_p ablesen.

Für Mittelwerte \lambda < 0{,}15 wird mit Wahrscheinlichkeit p = 0{,}99 (99 %) maximal 1 Ereignis auftreten. Ist \lambda größer, dann berechnet sich die mit Wahrscheinlichkeit p zu erwartende größte Häufigkeit von Ereignissen n_\text{up} in guter Näherung aus der einfachen Formel

n_\text{up}=\lceil \lambda+x_p\sqrt{\lambda+\sqrt{\lambda}}\,\rceil -1.

Es empfiehlt sich, das Ergebnis aufzurunden (wie bereits in der Formel für n_\text{up} durchgeführt). Damit wird bei vielfachen Wiederholungen (oder anders formuliert: auf lange Sicht) die Wahrscheinlichkeit, mit der Zahl der Ereignisse unter der Grenze zu bleiben, etwas erhöht. Mit p = 0{,}95 (entspricht x_p\approx 1{,}645 ) und \lambda = 6 sind also nicht mehr als n_\text{up} = 10 Ereignisse zu erwarten.

Untergrenze[Bearbeiten]

Die Untergrenze der Ereignisanzahl, die mit entsprechender Wahrscheinlichkeit nicht unterschritten wird, ist für \lambda > 1{,}5 durch einen ähnlichen Ausdruck gegeben:

n_\text{down}= \lfloor \lambda-x_p \sqrt{\lambda - \sqrt{\lambda}} \rfloor .

Mit Wahrscheinlichkeit p = 0{,}975 ( x_p\approx 1{,}96 ) geschehen also bei \lambda = 6 mindestens n_\text{down} = 2 Ereignisse. Mit 99 % Sicherheit ist erst ab \lambda = \ln(100)\approx 4{,}61 aufwärts mindestens 1 Ereignis zu erwarten (für größere \lambda ist die Wahrscheinlichkeit für kein Ereignis kleiner als 1 %).

Intervall[Bearbeiten]

Betrachtet man Ober- und Untergrenze gleichzeitig, so liegt die Zahl der zu erwartenden Ereignisse n_\text{exp} z. B. mit etwa 95 % Wahrscheinlichkeit innerhalb des Intervalls

n_\text{down}\leq n_\text{exp}\leq n_\text{up} ,

wenn n_\text{down} und n_\text{up} jeweils mit x_p\approx 1{,}96 ( 97,5 % ) ausgerechnet werden. Da die Grenzwerte konservativ (d. h. nach außen) gerundet sind, tendiert das Intervall vor allem bei niedrigen Erwartungswerten 1{,}5< \lambda < 15 dazu, etwas mehr Ereignisse zu enthalten als die angegebenen 95 %. Das bei kleinem \lambda schiefe Intervall wird mit wachsendem \lambda größer und symmetrischer und nähert sich der Breite an, die man bei Vorliegen einer Normalverteilung erwarten würde.

Median[Bearbeiten]

Mit den beiden Formeln für n_\text{down} und n_\text{up} liegt die Vermutung nahe, dass der Median n_\text{median}, dessen Zahl bei wiederholten Beobachtungen gleich oft über- wie unterschritten wird ( p = 1/2,  x_p=0 ), bei n_\text{median}=\lfloor \lambda\rfloor liegt. Der korrekte Wert lässt sich näherungsweise berechnen und beträgt [1]

n_\text{median}\approx\lfloor \lambda + 1/3\rfloor.

Damit ist die rechtsschiefe Poisson-Verteilung für gewisse Parameterwerte \lambda (z. B. aus dem Intervall (\ln 2, 1)) ein Beispiel dafür, dass bei rechtsschiefen Verteilungen der Median größer als der Erwartungswert sein kann!

2/3-Gesetz beim Roulette[Bearbeiten]

Die Poisson-Verteilung ergibt eine gute Schätzung, wie viele verschiedene Nummern bei 37 Roulette-Spielen getroffen werden.

Zufallszahlen[Bearbeiten]

Zufallszahlen zur Poisson-Verteilung werden üblicherweise mit Hilfe der Inversionsmethode erzeugt.

Einzelnachweise[Bearbeiten]

  1. Adell, Jodra : The median of the poisson distribution, Metrika 61, 2005, S. 337-346.

Literatur[Bearbeiten]

  • Erich Härtter: Wahrscheinlichkeitsrechnung für Wirtschafts- und Naturwissenschaftler. Vandenhoeck und Ruprecht, Göttingen 1974, ISBN 3-525-03114-9
  • Frodesen, Skjeggestad, Tofte: Probability and Statistics in Particle Physics, Universitetsforlaget, Bergen - Oslo - Tromsö

Weblinks[Bearbeiten]

 Wikibooks: Poissonverteilung (für Anfänger) – Lern- und Lehrmaterialien