Galton-Watson-Prozess

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Der Galton-Watson-Prozess, benannt nach dem britischen Naturforscher Francis Galton (1822–1911) und seinem Landsmann, dem Mathematiker Henry William Watson (1827–1903), ist ein spezieller stochastischer Prozess, der benutzt wird, um die zahlenmäßige Entwicklung einer eingeschlechtlichen Population von sich selbst replizierenden Individuen mathematisch zu modellieren. Er wird bisweilen auch als Bienaymé-Galton-Watson-Prozess bezeichnet, zu Ehren des Franzosen Irénée-Jules Bienaymé (1796–1878), der dasselbe Problem bereits längere Zeit vorher bearbeitet hatte.

Geschichte[Bearbeiten]

50 unabhängige GW-Prozesse mit Startwert 20 und Poisson-verteilten Nachkommen mit Parameter 0.95. Bereits bei t=41 sind alle bis auf 6 Populationen ausgestorben.

Im England des viktorianischen Zeitalters war die Aristokratie zunehmend besorgt über den Umstand, dass immer wieder Adelsgeschlechter aus Mangel an männlichen Nachkommen ausstarben und somit immer mehr traditionsreiche Namen aus der adligen Gesellschaft verschwanden. Galton, der selbst kein Mathematiker war, veröffentlichte 1873 in der Wissenschaftszeitschrift Educational Times die Frage nach der Wahrscheinlichkeit einer solchen Auslöschung und erhielt prompt Antwort von Watson. Im darauffolgenden Jahr erschien ihre Gemeinschaftsarbeit On the probability of extinction of families, in welcher sie ein stochastisches Konzept vorstellten, das heute als Galton-Watson-Prozess bekannt ist. Das Ergebnis, zu dem sie kamen, war, dass bei konstanter Bevölkerungszahl im Laufe der Zeit alle Namen bis auf einen aussterben würden. Offenbar entstand diese Arbeit im Unwissen über die Ergebnisse von Bienaymé.

Zuerst blieb das Problem der aussterbenden Nachnamen das einzige, auf das das Galton-Watson-Konzept angewendet wurde. Doch schon bald begannen Biologen, damit die Ausbreitung von Lebewesen zu modellieren. Heute wird der Prozess in vielfältigen Gebieten eingesetzt, von der Warteschlangentheorie bis hin zur Verbreitung von Computerviren und Kettenbriefen.

Mathematische Modellierung[Bearbeiten]

Dasselbe Experiment mit Poisson-Parameter 1 (statt 0.95). Diesmal haben bis t=50 ganze 24 von 50 Populationen überlebt.

Der Galton-Watson-Prozess zeichnet sich durch folgende Modellannahmen aus:

  • Jedes Individuum lebt exakt einen Zeitschritt lang
  • Das i-te Individuum im n-ten Zeitschritt hinterlässt unabhängig von allen anderen Individuen eine gewisse Anzahl an Nachkommen gemäß einer Zufallsvariable  Z_n^i
  • Alle  Z_n^i sind unabhängig identisch verteilt mit Verteilung  p , die nur Werte in  \mathbb{N}_0 annimmt.
  • Die Population startet mit einem Individuum

Die letzte Annahme macht Sinn, da Aufgrund der Unabhängigkeit der Fortpflanzung der Start mit  j Individuen äquivalent ist zu  j parallel voneinander laufenden Prozessen mit einem Individuum als Startpopulation.

Sei nun  X_n die Anzahl der lebenden Individuen zum Zeitpunkt  n (im ursprünglichen Modell die Anzahl der männlichen Statthalter). Es gilt

 X_0=1

und

 X_1= Z_1^1

Dann folgt aufgrund der unabhängigen Fortpflanzung

 X_{n+1}=\sum_{i=1}^{X_n} Z_{n}^i

Gab es nun in der  n -ten Generation genau  k individuen, so ist die Verteilung von  X_{n+1} eindeutig bestimmt durch

(X_{n+1}|X_{n}=k) \sim p^{k*}.

Hierbei ist \rho^{k*} die k-fache Faltung der Verteilung p. Dies folgt direkt aus der Summation der unabhängigen Zufallsvariablen.

Somit ist der Galton-Watson-Prozess eine zeitlich homogene Markow-Kette in diskreter Zeit und abzählbarem Zustandsraum. Die (abzählbar unendlich große) Übergangsmatrix ist durch

\Pi_{k,l}:= p^{k*}(l)

gegeben. Die Wahrscheinlichkeit,  l Individuen zu erhalten, wenn davor  k Individuen vorhanden waren wird durch die Faltung der Verteilung  p gegeben.

Die Aussterbewahrscheinlichkeit[Bearbeiten]

Die Frage, an der Galton und Watson interessiert waren, war die nach der Wahrscheinlichkeit des Aussterbens einer Population. Die Wahrscheinlichkeit, dass in der n-ten Generation kein Individuum mehr lebt, istq_n:=P(X_n=0).

Da aber die 0 ein absorbierender Zustand ist (es gilt \Pi_{0,0}=1), also beim einmaligen Betreten nie wieder verlassen werden kann, gilt immer, dass wenn  X_n=0 ist, so ist auch  X_{n+1}=0 . Daraus folgt direkt, dass die Wahrscheinlichkeiten, sich in der 0 zu befinden monoton wachsend sind:  q_{n+1} \geq q_n . Somit ist die Aussterbewahrscheinlichkeit

 q:=\lim_{n \to \infty} q_n

Die Berechnung der Aussterbewahrscheinlichkeit erfolgt mittels der wahrscheinlichkeitserzeugenden Funktion  m_n(t) der  X_n . Es gilt  m_1(t)=m_p(t) und dann folgt induktiv unter Ausnutzung der Tatsache, dass Summen über eine zufällige Anzahl von Summanden als Verkettung von erzeugenden Funktionen dargestellt werden können:

 m_{n+1}(t)=m_n(m_p(t))=m^{\circ n}_p(t)

wobei  f^{\circ n} die n-fache Komposition (Hintereinanderausführung) einer Funktion f bezeichnet. Da  m_n(0)=P(X_n=0)

gilt, ist  q= \lim_{n \to \infty} m_n (0) Daraus folgt, dass die Aussterbewahrscheinlichkeit der kleinste nichtnegative Fixpunkt der wahrscheinlichkeitserzeugenden Funktion von  p ist, also Lösung der Gleichung

 m_p(t)=t .

Es gilt dann:

  • ist  \operatorname{E} (p)= m'_p(1) \leq 1 , so ist  q=1 , die Population stirbt also fast sicher aus.
  • ist  \operatorname{E} (p)= m'_p(1) > 1 , so liegt die Aussterbewahrscheinlichkeit echt zwischen 0 und 1.

Ausnahme dieser Betrachtungen ist der Fall, das jedes Individuum genau einen Nachkommen erzeugt:  p(1)=1 . Dies ist dann ein trivialer absorbierender Zustand.

Beispiel[Bearbeiten]

Angenommen, jedes Individuum hat unabhängig von allen anderen Individuen eine gewisse Anzahl Nachkommen, die geometrisch Verteilt zum parameter  p= \frac{1}{2} ist, also die Wahrscheinlichkeitsfunktion

 p(\{k\})=\frac{1}{2^{k+1}}

für alle  k \in \mathbb{N}_0 besitzt. Dann ist

 m_p(t)=\frac{p}{1-(1-p)t}

Per Induktion lässt sich zeigen, dass

 m^{\circ n}_p(t)=\frac{n(1-t)+t}{n(1-t)+1}

und demnach

 q= \lim_{n \to \infty} m^{\circ n}_p(0)=1

die Population stirbt also fast sicher aus. Das hier verwendete Vorgehen ist die Ausnahme, meistens kann keine direkte Formel für die n-fache Verkettung angegeben werden. Das klassische Vorgehen wäre, einfach den Erwartungswert von  p zu berechnen und dann gegebenenfalls noch den Fixpunkt zu bestimmen. Da hier aber schon der Erwartungswert 1 ist, kann auf den Fixpunkt verzichtet werden.

Literatur[Bearbeiten]