Satz von Bayes

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Bayestheorem)
Wechseln zu: Navigation, Suche

Der Satz von Bayes ist ein mathematischer Satz aus der Wahrscheinlichkeitstheorie, der die Berechnung bedingter Wahrscheinlichkeiten beschreibt. Er ist nach dem englischen Mathematiker Thomas Bayes benannt, der ihn erstmals in einem Spezialfall in der 1763 posthum veröffentlichten Abhandlung An Essay Towards Solving a Problem in the Doctrine of Chances beschrieb. Er wird auch Formel von Bayes oder (als Lehnübersetzung) Bayes-Theorem genannt.

Inhaltsverzeichnis

Formel[Bearbeiten]

Für zwei Ereignisse A und B mit P(B) > 0 lässt sich die Wahrscheinlichkeit von A unter der Bedingung, dass B eingetreten ist, angeben durch die Wahrscheinlichkeit von B unter der Bedingung, dass A eingetreten ist:

P(A\mid B) \; = \; \frac {P(B\mid A) \cdot P(A)} {P(B)}.

Hierbei ist

P(A\mid B) die (bedingte) Wahrscheinlichkeit des Ereignisses A unter der Bedingung, dass B eingetreten ist,
P(B\mid A) die (bedingte) Wahrscheinlichkeit des Ereignisses B unter der Bedingung, dass A eingetreten ist,
P(A) die A-priori-Wahrscheinlichkeit des Ereignisses A und
P(B) die A-priori-Wahrscheinlichkeit des Ereignisses B.


Bei endlich vielen Ereignissen lautet der Satz von Bayes:

Wenn A_{i},\; i = 1, \dotsc, N eine Zerlegung der Ergebnismenge in disjunkte Ereignisse ist, gilt für die A-posteriori-Wahrscheinlichkeit P(A_i \mid  B)

 P(A_i \mid  B) \; = \; \frac{P(B\mid A_i) \cdot P(A_i)}{P(B)} \; = \; \frac{P\left(B\mid A_i\right)\cdot P(A_i)}{\sum_{j=1} ^{N} P\left(B\mid A_j\right) \cdot P(A_j)} .

Den letzten Umformungsschritt bezeichnet man auch als Marginalisierung.


Da ein Ereignis A und sein Komplement A^c stets eine Zerlegung der Ergebnismenge darstellen, gilt insbesondere

 P(A \mid B) \; = \; \frac{P(B \mid A) \cdot P(A)}{P(B \mid A) \cdot P(A) + P(B \mid A^c) \cdot P(A^c)}.

Beweis[Bearbeiten]

Der Wahrscheinlichkeitsbaum illustriert P\left(A\mid B\right) P(B) = P(A \cap B).

Der Satz folgt unmittelbar aus der Definition der bedingten Wahrscheinlichkeit:

P\left(A\mid B\right) \; = \; \frac{P(A \cap B)}{P(B)} \; = \; \frac{\frac{P(A\cap B)}{P(A)} \cdot P(A)}{P(B)} \; = \; \frac{P\left(B\mid A\right)\cdot P(A)}{P\left(B\right)}.

Die Beziehung

P(B)\; = \; \sum_{j=1}^N P\left(A_j\cap B\right) \; = \; {\sum_{j=1}^{N} P\left(B\mid A_j\right)\cdot P\left(A_j\right)}

ist eine Anwendung des Gesetzes der totalen Wahrscheinlichkeit.

Interpretation[Bearbeiten]

Der Satz von Bayes erlaubt in gewissem Sinn das Umkehren von Schlussfolgerungen.

Die Berechnung von P(B \mid A) ist häufig einfach, aber oft ist eigentlich P(A \mid B) gesucht, also ein Vertauschen der Argumente. Für das Verständnis kann ein Entscheidungsbaum oder eine Vierfeldertafel helfen. Das Verfahren ist auch als Rückwärtsinduktion bekannt.

Mitunter begegnet man dem Fehlschluss, direkt von P(B \mid A) auf P(A \mid B) schließen zu wollen, ohne die A-priori-Wahrscheinlichkeit P(A) zu berücksichtigen, beispielsweise indem angenommen wird, die beiden bedingten Wahrscheinlichkeiten müssten ungefähr gleich groß sein (siehe Prävalenzfehler). Wie der Satz von Bayes zeigt, ist das aber nur dann der Fall, wenn auch P(A) und P(B) ungefähr gleich groß sind.

Anwendungsgebiete[Bearbeiten]

Rechenbeispiel 1[Bearbeiten]

In den beiden Urnen A und B befinden sich jeweils zehn Kugeln. In A sind sieben rote und drei weiße Kugeln, in B eine rote und neun weiße. Es wird nun eine beliebige Kugel aus einer zufällig gewählten Urne gezogen. Anders ausgedrückt: Ob aus Urne A oder B gezogen wird, ist a priori gleich wahrscheinlich. Das Ergebnis der Ziehung ist: Die Kugel ist rot. Gesucht ist die Wahrscheinlichkeit, dass diese rote Kugel aus Urne A stammt.

Urnenversuch


Es sei

A das Ereignis „Die Kugel stammt aus Urne A“,
B das Ereignis „Die Kugel stammt aus Urne B“ und
R das Ereignis „Die Kugel ist rot“.

Dann gilt:

P(A) = P(B) = {1 \over 2}  (beide Urnen sind a priori gleich wahrscheinlich)

P(R \mid A) = {7 \over 10}  (in Urne A sind 10 Kugeln, davon 7 rote)

P(R \mid B) = {1 \over 10}  (in Urne B sind 10 Kugeln, davon 1 rote)

P(R) = P(R \mid A) \cdot P(A) + P(R \mid B) \cdot P(B) = {7 \over 10} \cdot {1 \over 2} + {1 \over 10} \cdot {1 \over 2} = {2 \over 5}  (totale Wahrscheinlichkeit, eine rote Kugel zu ziehen)

Damit ist P(A \mid R) = \frac {P(R \mid A) \cdot P(A)} {P(R)} = {{{7 \over 10} \cdot {1 \over 2}} \over {2 \over 5}} = { 7 \over 8 } .

Die bedingte Wahrscheinlichkeit, dass die gezogene rote Kugel aus der Urne A gezogen wurde, beträgt also \tfrac{7}{8} = 87{,}5\;\%.


Das Ergebnis der Bayes-Formel in diesem einfachen Beispiel kann leicht anschaulich eingesehen werden: Da beide Urnen a priori mit der gleichen Wahrscheinlichkeit ausgewählt werden und sich in beiden Urnen gleich viele Kugeln befinden, haben alle Kugeln – und damit auch alle acht roten Kugeln – die gleiche Wahrscheinlichkeit, gezogen zu werden. Wenn man wiederholt eine Kugel aus einer zufälligen Urne zieht und wieder in die richtige Urne zurücklegt, wird man in acht von 20 Fällen eine rote und in zwölf von 20 Fällen eine weiße Kugel ziehen (deshalb ist auch die totale Wahrscheinlichkeit, eine rote Kugel zu ziehen, gleich \tfrac{8}{20} = \tfrac{2}{5}). Von diesen acht roten Kugeln kommen im Mittel sieben aus Urne A und eine aus Urne B. Die Wahrscheinlichkeit, dass eine rote Kugel aus Urne A gezogen wurde, ist daher gleich \tfrac{7}{8}.

Rechenbeispiel 2[Bearbeiten]

Eine bestimmte Krankheit tritt mit einer Prävalenz von zwei pro 10.000 Personen auf. Der Sachverhalt K, dass ein Mensch diese Krankheit in sich trägt, hat also die Wahrscheinlichkeit P(K) = 0{,}0002.

In einem Screening-Test soll ermittelt werden, welche Personen Träger dieser Krankheit sind. T bezeichne die Tatsache, dass der Test bei einer Person positiv ausgefallen ist. Der Hersteller des Tests versichert, dass der Test die Krankheit zu 99 Prozent erkennt (Sensitivität = P(T\mid K) = 0{,}99) und in 99 Prozent der Fälle richtig liegt (Spezifität), also nur in einem Prozent der Fälle fälschlicherweise anschlägt, obwohl die Krankheit gar nicht vorliegt. Die Wahrscheinlichkeit P(T\mid K^c) für ein falsch positives Testergebnis beträgt somit 0{,}01, wobei K^c das Komplement von K bezeichnet, hier also den Sachverhalt, dass eine untersuchte Person nicht krank ist. Die Wahrscheinlichkeit P(K^c) dafür beträgt 1 - P(K) = 0,9998.

Wir wissen also, mit welcher Wahrscheinlichkeit P(T\mid K) der Test positiv ausfällt, wenn die Krankheit vorliegt (nämlich mit 99-prozentiger Wahrscheinlichkeit). Die Frage ist: Wie wahrscheinlich ist das Vorliegen der Krankheit, wenn der Test positiv ausfällt? Gesucht ist also der positive prädiktive Wert P(K \mid T).

Die Aufgabe kann

  • durch Einsetzen in die Formel oder
  • durch einen Entscheidungsbaum (nur bei diskreten Wahrscheinlichkeiten)

gelöst werden.

Lösung mit dem Satz von Bayes[Bearbeiten]

Die Anwendung des Satzes von Bayes auf die gegebenen Daten ergibt

P(K\mid T) = \frac{P(T\mid K)P(K)}{P(T\mid K)P(K) + P(T\mid K^c)P(K^c)}=\frac{0{,}99 \cdot 0{,}0002}{0{,}99 \cdot 0{,}0002 + 0{,}01 \cdot 0{,}9998}\approx 0{,}019.

Die Wahrscheinlichkeit, dass ein positiv Getesteter tatsächlich krank ist, beträgt in diesem Beispiel also nur rund 1,9 Prozent, d. h. ein positiv Getesteter hat immer noch eine Chance von über 98 Prozent, gesund zu sein, obwohl der Test ihn als krank eingestuft hat. Angesichts der intuitiv als „Zuverlässigkeit“ fehlinterpretierten Spezifität des Tests von 99 Prozent ist das schwer zu glauben, liegt aber daran, dass die Wahrscheinlichkeit, tatsächlich erkrankt zu sein (knapp 0,02 Prozent), nur ein Fünfzigstel der Wahrscheinlichkeit eines falsch positiven Testergebnisses (ein Prozent) beträgt, falsch positiv Getestete also ungleich häufiger sind als tatsächlich Erkrankte.

Diese Problematik und ihre Konsequenzen werden von Gerd Gigerenzer im Buch Das Einmaleins der Skepsis ausführlich beschrieben.

Lösung mittels Baumdiagramm[Bearbeiten]

Probleme mit wenigen Klassen und einfachen Verteilungen lassen sich übersichtlich im Baumdiagramm für die Aufteilung der Häufigkeiten darstellen. Geht man von den Häufigkeiten auf relative Häufigkeiten bzw. auf (bedingte) Wahrscheinlichkeiten über, wird aus dem Baumdiagramm ein Ereignisbaum, ein Sonderfall des Entscheidungsbaums.

Ereignisbaum zum Beispiel. (Zahl der Testfälle gerundet)

Ergebnis: 2+100=102 haben ein positives Ergebnis, obwohl 100 (=falsch positiv) von ihnen gesund sind. Diese Angaben erfolgen hier in der absoluten Häufigkeit.

Bayessche Statistik[Bearbeiten]

Hauptartikel: Bayessche Statistik

Die Bayessche Statistik verwendet der Satz von Bayes im Rahmen der induktiven Statistik zur Schätzung von Parametern und zum Testen von Hypothesen.

Problemstellung[Bearbeiten]

Folgende Situation sei gegeben: \vartheta ist ein unbekannter Umweltzustand (z. B. ein Parameter einer Wahrscheinlichkeitsverteilung), der auf der Basis einer Beobachtung x einer Zufallsvariable X geschätzt werden soll. Weiterhin ist Vorwissen in Form einer Wahrscheinlichkeitsverteilung des den unbekannten Parameter \vartheta gegeben. Diese wird auch A-priori-Verteilung genannt. Die A-priori-Verteilung enthält somit die gesamte Information über den Umweltzustand \vartheta, die vor der Beobachtung der Stichprobe gegeben ist. Je nach Kontext und philosophischer Schule wird die A-priori-Verteilung als mathematische Modellierung des subjektiven degree of belief (Subjektiver Wahrscheinlichkeitsbegriff) oder als adäquate Darstellung des allgemeinen Vorwissens verstanden (wobei Wahrscheinlichkeiten als natürliche Erweiterung der aristotelischen Logik in Bezug auf Unsicherheit verstanden werden, Cox' Postulate), als aus Voruntersuchungen bekannte Wahrscheinlichkeitsverteilung eines tatsächlich zufälligen Parameters oder eine spezifisch gewählte Verteilung, die auf ideale Weise mit Unwissen über den Parameter korrespondiert (Objektive A-priori-Verteilungen, zum Beispiel spezifiziert durch die Maximum-Entropie-Methode).

Die bedingte Verteilung von X unter der Bedingung, dass \vartheta den Wert \vartheta_0 annähme, wird im Folgenden mit f(x \mid \vartheta_0 ) bezeichnet. Diese Wahrscheinlichkeitsverteilung kann nach Beobachtung der Stichprobe bestimmt werden und wird auch als Likelihood des Parameterwerts \vartheta_0 bezeichnet.

Mit Hilfe des Satz von Bayes kann nun die A-posteriori-Verteilung des Umweltzustands \vartheta bestimmt werden. Falls die Menge aller möglichen Umweltzustände endlich ist, lässt sich die A-posteriori-Verteilung im Wert \vartheta_0 als die Wahrscheinlichkeit interpretieren, mit der man nach Beobachtung der Stichprobe und unter Einbeziehung des Vorwissens den Umweltzustand \vartheta_0 erwartet.

Die A-posteriori-Wahrscheinlichkeit wird im Folgenden mit P(\vartheta =\vartheta_0 \mid  x) bezeichnet und kann mit Hilfe des Satz von Bayes berechnet werden. Im Spezialfall einer diskreten A-priori-Verteilung erhält man:[1]

 P(\vartheta=\vartheta_0 \mid  x) = \frac{f(x \mid \vartheta_0) \, P(\vartheta=\vartheta_0)}{\displaystyle\sum_{\vartheta' \in \Theta} f(x \mid \vartheta') \, P(\vartheta=\vartheta') }

Als Schätzwert verwendet ein Anhänger der subjektivistische Schule der Statistik in der Regel den Erwartungswert der A-Posteriori-Verteilung, in manchen Fällen auch den Modalwert.

Beispiel[Bearbeiten]

Ähnlich wie oben werde wieder eine Urne betrachtet, die mit zehn Kugeln gefüllt ist, aber nun sei unbekannt, wie viele davon rot sind. Die Anzahl \vartheta der roten Kugeln ist hier der unbekannte Umweltzustand und als dessen A-priori-Verteilung soll angenommen werden, dass alle möglichen Werte von null bis zehn gleich wahrscheinlich sein sollen, d. h. es gilt P(\vartheta=\vartheta_0) = \tfrac{1}{11} für alle \vartheta_0 \in \{0,1,\dotsc,10\}.

Nun werde fünfmal mit Zurücklegen eine Kugel aus der Urne gezogen und X bezeichne die Zufallsvariable, die angibt, wie viele davon rot sind. Unter der Annahme \vartheta = \vartheta_0 ist dann X binomialverteilt mit den Parametern n = 5 und p = \tfrac{\vartheta_0}{10}, es gilt also

f(x \mid \vartheta_0) = \binom{5}{x} \left(\frac{\vartheta_0}{10}\right)^x \left(1-\frac{\vartheta_0}{10}\right)^{5-x}

für x \in \{0,1,\dotsc, 5\}.

Beispielsweise für x = 2, d. h. zwei der fünf gezogenen Kugeln waren rot, ergeben sich die folgenden Werte (auf drei Nachkommastellen gerundet)

\vartheta_0 0 1 2 3 4 5 6 7 8 9 10
P(\vartheta = \vartheta_0) 0.091 0.091 0.091 0.091 0.091 0.091 0.091 0.091 0.091 0.091 0.091
P(\vartheta = \vartheta_0 \mid X = 2) 0.000 0.044 0.123 0.185 0.207 0.188 0.138 0.079 0.031 0.005 0.000

Man sieht, dass im Gegensatz zur A-priori-Verteilung in der zweiten Zeile, in der alle Werte von \vartheta als gleich wahrscheinlich angenommen wurden, unter der A-posteriori-Verteilung in der dritten Zeile \vartheta = 4 die größte Wahrscheinlichkeit besitzt, das heißt der A-posteriori-Modus ist 4.

Als Erwartungswert der A-posteriori-Verteilung ergibt sich hier:

\sum_{\vartheta_0 = 0}^{10} \vartheta_0 \cdot P(\vartheta = \vartheta_0 \mid X = 2) \approx 4.287.

Siehe auch[Bearbeiten]

Einzelnachweise[Bearbeiten]

  1. Bernhard Rüger (1988), S. 152 ff.

Weblinks[Bearbeiten]

Wikibooks Wikibooks: einige Beispiele – Lern- und Lehrmaterialien

Literaturhinweise[Bearbeiten]

  • Sharon Bertsch McGrayne: The Theory That Would Not Die. Yale University Press, 2011. ISBN 0-300-16969-8 .
  • Bernhard Rüger: Induktive Statistik. Einführung für Wirtschafts- und Sozialwissenschaftler. R. Oldenbourg Verlag, München Wien 1988. ISBN 3-486-20535-8
  • Bernhard Rüger: Test- und Schätztheorie. Band I: Grundlagen. Oldenbourg, München 1999