Bayessche Statistik

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Racine carrée bleue.svg
Dieser Artikel wurde auf der Qualitätssicherungsseite des Portals Mathematik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Mathematik auf ein akzeptables Niveau zu bringen.

Bitte hilf mit, die Mängel dieses Artikels zu beseitigen, und beteilige dich bitte an der Diskussion! (Artikel eintragen)

Die Bayessche Statistik ist Zweig der modernen Statistik, der mit dem Bayesschen Wahrscheinlichkeitsbegriff und dem Bayesschen Satz Fragestellungen der Stochastik untersucht. Der Fokus auf diese beiden Grundpfeiler begründet die „bayesianische“ Statistik als eigene „Stilrichtung“. Klassische und bayesianische Statistik führen teilweise zu den gleichen Ergebnissen,[1] sind aber nicht vollständig äquivalent. Charakteristisch für bayesianische Statistik ist die konsequente Verwendung von Wahrscheinlichkeitsverteilungen bzw. Randverteilungen, deren Form die Genauigkeit der Verfahren bzw. Verlässlichkeit der Daten und des Verfahrens transportiert.

Der Bayessche Wahrscheinlichkeitsbegriff setzt keine unendlich oft wiederholbaren Zufallsexperimente voraus, sodass bayessche Methoden auch bei kleiner Datengrundlage verwendbar sind. Eine geringe Datenmenge führt dabei zu einer breiten Wahrscheinlichkeitsverteilung, die nicht stark lokalisiert ist.

Aufgrund der strengen Betrachtung von Wahrscheinlichkeitsverteilungen sind bayesianische Verfahren oft rechnerisch aufwändig. Dies gilt als ein Grund, weshalb sich im 20. Jahrhundert frequentistische und Ad-hoc-Methoden in der Statistik als prägende Techniken gegenüber bayesianischen durchsetzten. Im Zuge der Verbreitung von Computern und Monte-Carlo-Sampling-Verfahren sind komplizierte bayesianische Verfahren jedoch möglich geworden.

Die Auffassung von Wahrscheinlichkeiten als „Grad vernünftiger Glaubwürdigkeit“ eröffnet in der bayesianischen Statistik einen anderen Blick auf das Schlussfolgern mit Statistik (im Vergleich zum frequentistischen Ansatz von Wahrscheinlichkeiten als Ergebnisse unendlich oft wiederholbarer Zufallsexperimente). Im Satz von Bayes wird eine bestehende Erkenntnis über die zu untersuchende Variable (die A-priori-Verteilung) mit den neuen Erkenntnissen aus den Daten kombiniert (Likelihood, selten auch „Mutmaßlichkeit“), woraus eine neue, verbesserte Erkenntnis (A-posteriori-Wahrscheinlichkeitsverteilung) resultiert. Die A-posteriori-Wahrscheinlichkeitsverteilung eignet sich als neuer Prior, wenn neue Daten zur Verfügung stehen.

Struktur Bayesianischer Verfahren[Bearbeiten]

Hauptartikel: Satz von Bayes

Die Verwendung des Satzes von Bayes führt zu einer charakteristischen Struktur bayesianischer Verfahren. Ein Modell \mathcal{M} soll mit einem Datensatz \mathcal{D} untersucht werden. Die Ausgangsfragestellung ist, wie die Wahrscheinlichkeiten für die Modellparameter \mathcal{M} verteilt sind, sofern die Daten \mathcal{D} gegeben sind (und Vorwissen \mathcal{I}). Es soll also ein Ausdruck für \Pr(\mathcal{M}\mid\mathcal{D},\mathcal{I}) gefunden werden.

\Pr(\mathcal{M}\mid\mathcal{D}, \mathcal{I})= \frac{\Pr(\mathcal{D}\mid\mathcal{M},\mathcal{I})\Pr(\mathcal{M}\mid \mathcal{I})}{\Pr(\mathcal{D}\mid \mathcal{I})}

Die einzelnen Wahrscheinlichkeiten haben eine feste Bezeichnung.

  • \Pr(\mathcal{M}\mid \mathcal{I}) A-priori-Wahrscheinlichkeit, also die Wahrscheinlichkeitsverteilung für \mathcal{M} gegeben das Vorwissen (ohne die Messdaten \mathcal{D} aus dem Versuch einzubeziehen)
  • \Pr(\mathcal{M}\mid\mathcal{D}, \mathcal{I}) A-posteriori-Wahrscheinlichkeit, die Wahrscheinlichkeitsverteilung für \mathcal{M} gegeben das Vorwissen und die Messdaten \mathcal{D}
  • \Pr(\mathcal{D}\mid\mathcal{M}, \mathcal{I}) Likelihood, auch inverse Wahrscheinlichkeit oder „Mutmaßlichkeit“, die Wahrscheinlichkeitsverteilung für die Messdaten \mathcal{D}, wenn der Modellparameter \mathcal{M} gegeben ist.
  • \Pr(\mathcal{D} \mid \mathcal{I}) Evidenz, kann als Normierungsfaktor bestimmt werden.

Der Satz von Bayes führt direkt auf einen wichtigen Aspekt der Bayesschen Statistik: Mit dem Parameter \mathcal{I} geht Vorwissen über den Ausgang des Experiments als Prior in die Auswertung mit ein. Nach dem Experiment wird aus Vorwissen und Messdaten eine Posteriorverteilung berechnet, die neue Erkenntnisse enthält. Für folgende Experimente wird dann der Posterior des ersten Experimentes als neuer Prior verwendet, der ein erweitertes Vorwissen hat, also \mathcal{I}'= \{\mathcal{I}, \mathcal{D}\}.

Die folgende Abbildung zeigt links einen Prior mit Vorwissen: \mu ist um 0,5 verteilt, jedoch ist die Verteilung sehr breit. Mit binomialverteilten Messdaten (Mitte) wird nun die Verteilung um \mu genauer bestimmt, sodass eine schmalere, spitzere Verteilung als Posterior (rechts) abgeleitet werden kann. Bei weiteren Beobachtungen kann dieser Posterior wieder als Prior dienen. Entsprechen die Messdaten den bisherigen Erwartungen kann die Breite der Wahrscheinlichkeitsdichtefunktion weiter abnehmen, bei vom Vorwissen abweichenden Messdaten würde die Varianz der Verteilung wieder größer werden und der Erwartungswert würde sich gegebenenfalls verschieben.

Aus Prior und Likelihood folgt die Posteriorwahrscheinlichkeit, der Posterior entspricht einer mit den Daten „aktualisierten“ Priorverteilung.

Der Bayessche Wahrscheinlichkeitsbegriff[Bearbeiten]

Der Bayessche Wahrscheinlichkeitsbegriff definiert Wahrscheinlichkeiten als „Grad vernünftiger Erwartung“ [2], also als Maß für die Glaubwürdigkeit einer Aussage, der von 0 (falsch, unglaubwürdig) bis 1 (glaubwürdig, wahr) reicht. Diese Interpretation von Wahrscheinlichkeiten und Statistik unterscheidet sich fundamental von der Betrachtung in der konventionellen Statistik in der unendlich oft wiederholbare Zufallsexperimente unter dem Gesichtspunkt betrachtet werden, ob eine Hypothese wahr oder falsch ist.

Bayessche Wahrscheinlichkeiten P(A) beziehen sich auf eine Aussage A. In der klassischen Logik können Aussagen entweder wahr (oft mit Wert 1 wiedergegeben) oder falsch (Wert 0) sein. Der Bayessche Wahrscheinlichkeitsbegriff erlaubt nun Zwischenstufen zwischen den Extremen, eine Wahrscheinlichkeit von 0,25 gibt beispielsweise wieder, dass eine Tendenz besteht, dass die Aussage falsch sein könnte, aber keine Gewissheit besteht. Zudem ist es möglich, ähnlich der klassischen Aussagenlogik, aus elementaren Wahrscheinlichkeiten und Aussagen komplexere Wahrscheinlichkeiten zu bestimmen. Damit ermöglicht die Bayessche Statistik Schlussfolgerungen und die Behandlung von komplexen Fragestellungen.

  • gemeinsame Wahrscheinlichkeiten P(A,B), also: Wie wahrscheinlich ist es, dass sowohl A als auch B wahr ist? Wie wahrscheinlich ist es beispielsweise, dass meine Schuhe auf einem Spaziergang trocken sind und dass es zeitgleich regnet.
  • bedingte Wahrscheinlichkeiten P(A\mid B), also: Wie wahrscheinlich ist es, dass A wahr ist, wenn gegeben ist, dass B wahr ist. Wie wahrscheinlich ist es beispielsweise, dass meine Schuhe nach einem Spaziergang im Freien nass sind, wenn es momentan regnet.

Bayesianische Inferenz am Beispiel des Münzwurfes[Bearbeiten]

Der Münzwurf ist ein klassisches Beispiel der Wahrscheinlichkeitsrechnung und eignet sich sehr gut die Eigenschaften der Bayesianischen Statistik zu erläutern. Betrachtet wird, ob beim Wurf einer Münze „Kopf“ (1) oder Nicht-Kopf (0, also „Zahl“) eintrifft. Typischerweise wird im Alltag oft angenommen, dass bei einem Münzwurf eine 50 %-ige Wahrscheinlichkeit besteht, eine bestimmte Seite oben auf zu finden: p(K) = 0{,}5. Diese Annahme ist jedoch für eine Münze, die große Unebenheiten aufweist oder vielleicht sogar manipuliert ist, nicht sinnvoll. Die Wahrscheinlichkeit von 50 % wird deshalb im Folgenden nicht als gegeben angenommen, sondern durch den variablen Parameter \mu ersetzt.

Mit dem Bayesianischen Ansatz kann untersucht werden, wie wahrscheinlich beliebige Werte für \mu sind, also wie ausgewogen die Münze ist. Mathematisch entspricht dies der Suche nach einer Wahrscheinlichkeitsverteilung für \mu, wobei Beobachtungen (Anzahl von Kopfwürfen m und Zahlwürfen N-m in einem Experiment mit N Münzwürfen) berücksichtigt werden sollen: \Pr(\mu| m, N). Mit dem Bayesschen Satz lässt sich diese Wahrscheinlichkeitsfunktion durch Likelihood und a priori Verteilung ausdrücken:

\underset{\text{Posterior}}{\underbrace{\Pr(\mu \mid m, N)}}
 \propto 
\underset{\text{Likelihood}}{\underbrace{\Pr( m\mid\mu, N)}}
\underset{\text{Prior}}{\underbrace{\Pr(\mu)}}

Die Likelihood ist hier eine Wahrscheinlichkeitsverteilung über die Anzahl der Kopfwürfe bei einer gegeben Balance der Münze \mu und einer gegebenen Anzahl an Würfen insgesamt N. Diese Wahrscheinlichkeitsverteilung ist bekannt als Binomialverteilung

\Pr( m\mid\mu, N)=\mathrm{Binom}(m \mid N, \mu) = \binom Nm \mu^m (1-p)^{N-m}.

Im Gegensatz zur a posteriori-Verteilung ist \mu in der Likelihood-Verteilung nur ein Parameter, der die Form der Verteilung bestimmt.

Zur Bestimmung der a posteriori-Verteilung fehlt nun noch die a priori - Verteilung. Auch hier muss — wie bei der Likelihood — eine geeignete Verteilungsfunktion für das Problem gefunden werden. Bei einer Binomialverteilung als Likelihood eignet sich eine Betaverteilung als a priori-Verteilung (wegen der Binomial-Terme \mu^{\alpha-1}(1-\mu)^{\beta-1}).

\Pr(\mu)=\mathrm{Beta}(\mu\mid \alpha, \beta) = \frac{1}{B(\alpha,\beta)}\mu^{\alpha-1}(1-\mu)^{\beta-1}.

Wahrscheinlichkeits-Dichtefunktion der Betaverteilung für . Wahrscheinlichkeits-Dichtefunktion der Betaverteilung für . Wahrscheinlichkeits-Dichtefunktion der Betaverteilung für .

Die Parameter \alpha, \beta der Betaverteilung werden am Ende der Herleitung des Posteriors anschaulich verständlich werden. Zusammenfassen des Produktes aus Likelihood-Verteilung und Beta-Prior zusammen liefert als Ergebnis eine (neue) Betaverteilung als Posterior.

\Pr(\mu\mid m, N, \alpha, \beta) = \mathrm{Beta}(\mu\mid \alpha+m, \beta+(N-m))

Somit ergibt sich aus dem Bayesianischen Ansatz, dass die a posteriori-Verteilung des Parameters \mu als Beta-Verteilung ausgedrückt werden kann, deren Parameter sich direkt aus den Parametern der a priori - Verteilung und den gewonnenen Messdaten (Anzahl der Kopf-Würfe) gewinnen lässt. Diese a posteriori-Verteilung kann wieder als Prior für ein Update der Wahrscheinlichkeitsverteilung verwendet werden, wenn etwa durch weitere Münzwürfe mehr Daten zur Verfügung stehen. In der folgenden Abbildung werden die Posteriorverteilungen für simulierte Münzwurf-Daten für jeden Münzwurf neu geplottet. Aus der Grafik geht hervor, wie sich die Posterior-Verteilung dem Simulationsparameter µ=0,35 (repräsentiert durch den grünen Punkt) mit steigender Anzahl der Würfe immer weiter annähert. Interessant ist hier insbesondere das Verhalten des Erwartungswerts der Posterior-Verteilung (blauer Punkt), da der Erwartungswert der Beta-Verteilung nicht notwendigerweise dem höchsten Punkt der Betaverteilung entspricht.

Simulierte Münzwurf-Daten (randomisiert aus einer Bernoulliverteilung mit µ=0,35 gezogen) dienen als Grundlage für Parameter-Abschätzungen bzgl. µ über den hier dargestellten Bayesianischen Ansatz. Im Schaubild wird für jeden einzelnen Münzwurf eine neue Posterior-Verteilung bestimmt. Der Mittelwert der Beta-Verteilung (blauer Punkt) nähert sich mit steigender Anzahl an Experimenten dem wahren Wert (grüner Punkt) an. Die Breite der Verteilung wächst mit der steigenden Sicherheit mit jedem zufälligen Experiment.

Die Wahrscheinlichkeitsverteilung über \mu erlaubt – ganz im Baysianischen Sinne – neben der Angabe des wahrscheinlichsten Wertes für \mu auch eine Angabe der Genauigkeit von \mu angesichts der gegebenen Daten.

Wahl des Priors[Bearbeiten]

Die Wahl der a priori - Verteilung ist keineswegs beliebig. Im oberen Fall wurde eine a priori-Verteilung – der konjugierte Prior – gewählt, welche mathematisch praktisch ist. Die Verteilung \mathrm{Beta}(\mu \mid \alpha=1, \beta=1) ist eine Verteilung, bei der jedes \mu gleich wahrscheinlich ist. Diese Betaverteilung entspricht also dem Fall, dass kein nennenswertes Vorwissen über \mu vorliegt. Nach wenigen Beobachtungen kann aus dem gleichförmigen Prior schon eine Wahrscheinlichkeitsverteilung werden, die die Lage von \mu wesentlich genauer beschreibt, etwa \mathrm{Beta}(\mu \mid \alpha=11, \beta=12).

Der Prior kann auch „Expertenwissen“ enthalten. Etwa kann bei einer Münze davon ausgegangen werden, dass \mu in der Nähe von 50 % liegt, Werte in den Randbereichen (um 100 % und 0 %) dagegen unwahrscheinlich sind. Mit diesem Wissen lässt sich die Wahl eines Priors mit dem Erwartungswert 0,5 rechtfertigen. Diese Wahl wäre in einem anderen Fall, etwa der Verteilung von roten und schwarzen Kugeln in einer Urne vielleicht nicht angebracht, etwa wenn nicht bekannt ist, wie das Mischverhältnis ist oder ob sich überhaupt beide Farben in der Urne befinden.

Auch andere Prior-Verteilungen sind denkbar und können angesetzt werden. Teilweise wird dann jedoch die Bestimmung der Posteriorverteilung schwierig.

Konjugierte Prioren[Bearbeiten]

Hauptartikel: Konjugierter Prior

Konjugierte Prioren existieren für alle Mitglieder der Exponentialfamilie.

Unterschiede und Gemeinsamkeiten zu nicht-bayesianischen Verfahren[Bearbeiten]

Die meisten nicht-bayesianische Verfahren unterscheiden sich in zwei Punkten von baysianischen Verfahren. Zum einen räumen nicht-bayesianische Verfahren dem Satz von Bayes keinen zentralen Stellenwert ein (verwenden ihn oft nicht), zum anderen bauen sie oft auf einem anderen Wahrscheinlichkeitsbegriff auf: dem frequentistischen Wahrscheinlichkeitsbegriff. In der frequentistischen Interpretation von Wahrscheinlichkeiten sind Wahrscheinlichkeiten Häufigkeitsverhältnisse unendlich oft wiederholbarer Experimente.

Je nach eingesetztem Verfahren wird keine Wahrscheinlichkeitsverteilung bestimmt, sondern lediglich Erwartungswerte und allenfalls Konfidenzintervalle. Diese Einschränkungen führen jedoch oft zu numerisch einfachen Rechenverfahren in frequentistischen bzw. ad-hoc Verfahren. Um ihre Ergebnisse zu validieren stellen nicht-baysianische Verfahren umfangreiche Techniken zur Validierung zur Verfügung.

Maximum-Likelihood-Ansatz[Bearbeiten]

Hauptartikel: Maximum-Likelihood-Methode

Der Maximum-Likelihood-Ansatz ist ein nicht-bayesianisches Standardverfahren der Statistik. Anders als in der Bayesschen Statistik wird nicht der Satz von Bayes angewendet, um eine Posteriorverteilung des Modellparameters zu bestimmen, vielmehr wird der Modellparameter so variiert, dass die Likelihood-Funktion maximal wird.

Da im frequentistischen Bild nur die beobachteten Ereignisse \mathcal{D} Zufallsvariablen sind, wird beim Maximum-Likelihood-Ansatz die Likelihood nicht als Wahrscheinlichkeitsverteilung der Daten gegeben den Modellparameter \mathcal{M} aufgefasst, sondern als Funktion L : \mathcal{M} \mapsto \Pr(\mathcal{D}\mid\mathcal{M}) . Das Ergebnis einer Maximum-Likelihood-Schätzung ist ein Schätzer \mathcal{M}_{ML}, der am ehesten mit dem Erwartungswert der Posteriorverteilung beim bayesianischen Ansatz vergleichbar ist.

Die Maximum-Likelihood-Methode steht nicht komplett im Widerspruch zur Bayesianischen Statistik. Mit der Kullback-Leibler-Divergenz kann gezeigt werden, dass Maximum-Likelihood-Methoden näherungsweise Modellparameter schätzen, die der tatsächlichen Verteilung entsprechen.

Beispiele[Bearbeiten]

Beispiel von Laplace[Bearbeiten]

Genauigkeit der Schätzung der Saturnmasse als Bruchteil der Sonnenmasse
Bouvard (1814) 3512,0
NASA (2004) 3499,1
Abweichung:
\tfrac{3512{,}0-3499{,}1}{3499{,}1}=0{,}0037<0{,}01

Laplace hat den Satz von Bayes erneut abgeleitet und verwendet, um die Masse des Saturn und anderer Planeten einzugrenzen.

  • A: Die Masse des Saturn liegt in einem bestimmten Intervall
  • B: Daten von Observatorien über gegenseitige Störungen von Jupiter und Saturn
  • C: Die Masse des Saturn darf nicht so klein sein, dass er seine Ringe verliert, und nicht so groß, dass er das Sonnensystem zerstört.

„Pour en donner quelques applications intéressantes, j’ai profité de l’immense travail que M. Bouvard vient de terminer sur les mouvemens de Jupiter et de Saturne, dont il a construit des tables très précises. Il a discuté avec le plus grand soin les oppositions et les quadratures de ces deux planètes, observées par Bradley et par les astronomes qui l’ont suivi jusqu’à ces dernières années ; il en a conclu les corrections des élémens de leur mouvement et leurs masses comparées à celle du Soleil, prise pour unité. Ses calculs lui donnent la masse de Saturne égale à la 3512e partie de celle du Soleil. En leur appliquant mes formules de probabilité, je trouve qu’il y a onze mille à parier contre un, que l’erreur de ce résultat n’est pas un centième de sa valeur, ou, ce qui revient à très peu près au même, qu’après un siècle de nouvelles observations ajoutées aux précédentes, et discutées de la même manière, le nouveau résultat ne différera pas d’un centième de celui de M. Bouvard.“

„Um einige interessante Anwendungen davon zu nennen, habe ich von der gewaltigen Arbeit profitiert, die M. Bouvard gerade über die Bewegungen von Jupiter und Saturn beendet und von denen er sehr präzise Tabellen erstellt hat. Er hat mit größter Sorgfalt die Oppositionen und Quadraturen dieser beiden Planeten diskutiert, die von Bradley und den Astronomen, die ihn in den letzten Jahre begleitet haben, beobachtet wurden; er schloss auf die Korrekturen der Elemente ihrer Bewegung und ihrer Massen im Vergleich zur Sonne, die als Referenz verwendet wurde. Seinen Berechnungen zufolge beträgt die Saturnmasse den 3512ten Teil der Sonnenmasse. Meine Formeln der Wahrscheinlichkeitsrechnung auf diese angewandt, komme ich zu dem Schluss, dass die Chancen 11000 zu 1 stehen, dass der Fehler dieses Ergebnisses nicht ein Hundertstel seines Wertes ist, oder, was das Gleiche bedeutet, dass auch nach einem Jahrhundert mit neuen Beobachtungen, zusätzlich zu den bereits existierenden, das neue Ergebnis nicht mehr als ein Hundertstel von dem von M. Bouvard abweichen wird, sofern sie auf die gleiche Weise durchgeführt werden.“

Pierre-Simon Laplace: Essai philosophique sur les probabilités. Dover 1840, Seite 91–134[3]

Die Abweichung vom korrekten Wert betrug tatsächlich nur etwa 0,37 Prozent, also deutlich weniger als ein Hundertstel.

Einzelnachweise[Bearbeiten]

  1. Christopher M. Bishop: Pattern Recognition And Machine Learning. 2. Auflage. Springer, New York 2006, ISBN 978-0387310732.
  2. R.T. Cox: "Probability, Frequency and Reasonable Expectation", Am. J. Phys. 14, 1 (1946); http://dx.doi.org/10.1119/1.1990764
  3. Wikisource

Literatur[Bearbeiten]

  •  Christopher M. Bishop: Pattern Recognition And Machine Learning. 2. Auflage. Springer, New York 2006, ISBN 978-0-3873-1073-2.
  •  Leonhard Held: Methoden der statistischen Inferenz. Likelihood und Bayes. Spektrum Akademischer Verlag, Heidelberg 2008, ISBN 978-3-8274-1939-2.
  •  Rudolf Koch: Einführung in die Bayes-Statistik. Springer, Berlin/Heidelberg 21. Januar 2000, ISBN 3-5406-6670-2.
  •  Peter M. Lee: Bayesian Statistics. An Introduction. 4. Auflage. Wiley, New York 2012, ISBN 978-1-1183-3257-3.
  •  David J.C. MacKay: Information Theory, Inference and Learning Algorithms.. Cambridge University Press, Cambridge 2003, ISBN 978-0-5216-4298-9.
  •  Dieter Wickmann: Bayes-Statistik. Einsicht gewinnen und entscheiden bei Unsicherheit (= Mathematische Texte Band 4). Bibliographisches Institut Wissenschaftsverlag, Mannheim/ Wien/ Zürich 1991, ISBN 978-3-4111-4671-0.