Maximum a posteriori

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Die Maximum-a-posteriori-Methode (= MAP) ist in der mathematischen Statistik ein Schätzverfahren, genauer ein spezieller Bayes-Schätzer. Das Verfahren schätzt einen unbekannten Parameter durch den Modalwert der A-posteriori-Verteilung. Somit besteht eine gewisse Ähnlichkeit zur Maximum-Likelihood-Methode.

Beschreibung[Bearbeiten]

Folgende Situation ist gegeben: \theta ist ein unbekannter Populationsparameter, der auf der Basis von Beobachtungen x geschätzt werden soll. Weiterhin ist f die Stichprobenverteilung von x. Dann ist f(x|\theta) die Wahrscheinlichkeit von x unter der Bedingung, dass der (wahre) Populationsparameter den Wert \theta annimmt.

Die Funktion

\theta \mapsto f(x | \theta) \!

ist als Likelihoodfunktion bekannt, und der Schätzwert

\hat{\theta}_{\mathrm{ML}}(x) = \underset{\theta}{\operatorname{arg\,max}} \ f(x | \theta) \!

als Maximum-Likelihood-Schätzer von \theta.

Jetzt nehmen wir an, dass eine a priori Verteilung g von \theta existiert. Dadurch können wir \theta als eine Zufallsvariable betrachten, wie es in der Bayesschen Statistik üblich ist. Die A-posteriori-Wahrscheinlichkeit von \theta erhält man mit Hilfe des Satzes von Bayes durch:

\theta \mapsto f(\theta | x) = \frac{f(x | \theta) \, g(\theta)}{\displaystyle\int_{\theta' \in \Theta} f(x | \theta') \, g(\theta') \, d\theta'} \!

Hier steht g für die auf \Theta definierte Dichte von \theta.

Die Maximum-a-Posteriori-Methode verwendet jetzt den Modalwert der a posteriori Verteilung als Schätzwert für \theta :

\hat{\theta}_{\mathrm{MAP}}(x)
= \underset{\theta}{\operatorname{arg\,max}} \ f(x | \theta) \, g(\theta).
\!

Der MAP-Schätzer von \theta ist identisch zum Maximum-Likelihood-Schätzer (= ML-Schätzer), wenn eine nichtinformative A-priori-Verteilung (z.B. eine konstante Funktion) verwendet wird.

Vergleich mit anderen bayesianischen (Punkt-)Schätzmethoden[Bearbeiten]

In der Literatur wird der MAP-Schätzer als das Äquivalent der bayesianischen Statistik zum ML-Schätzer beschrieben[1].

Allerdings spielt die MAP-Schätzung in der bayesianischen Statistik nicht die gleiche Rolle wie der ML-Schätzer in der frequentistischen Statistik:

  • Bayesianische Statistiker drücken in der Regel die (A-posteriori-)Information über einen unbekannten Parameter in einer Wahrscheinlichkeitsverteilung aus, und nicht in einem Punktschätzer.[2]
  • Der Erwartungswert der a posteriori Verteilung ist dem MAP-Schätzer überlegen, wenn man, wie in der bayesianischen Statistik üblich, die a posteriori Varianz eines Schätzers als Gütemaß verwendet.[3]
  • In vielen Fällen ist zudem auch der Median ein besserer Schätzer als der MAP-Schätzer.[4]

In der bayesianischen Entscheidungstheorie sind für die gebräuchlichsten Verlustfunktionen andere Schätzer als der MAP-Schätzer optimal.[5]:

  • Bei einer quadratischen Verlustfunktion ist der Erwartungswert der a posteriori Verteilung die optimale Schätzfunktion.
  • Wenn man den Absolutbetrag des Schätzfehlers als Verlustfunktion verwendet (also: L(\theta ,a)= | \theta -a| , mit a als beliebiger Schätzfunktion), ist der Median der A-posteriori-Verteilung die optimale Schätzfunktion.

Vergleich zur Maximum-Likelihood-Methode[Bearbeiten]

Im Unterschied zur ML-Methode wird bei der MAP-Methode Vorwissen in Form von a priori Wahrscheinlichkeiten berücksichtigt. Diese A-priori-Wahrscheinlichkeiten ergeben zusammen mit der Stichprobe nach dem Satz von Bayes die A-posteriori-Wahrscheinlichkeit. Die MAP-Methode verwendet den wahrscheinlichsten Parameterwert unter der A-posteriori-Verteilung, während die ML-Methode den Parameter mit der höchsten Likelihood (i.e. ohne Vorwissen) verwendet. Allerdings ist für einen streng frequentistischen Statistiker die Verwendung einer A-Priori-Verteilung inakzeptabel. Daher wird in der klassischen Statistik die ML-Methode statt der MAP-Methode verwendet.

Beispiel[Bearbeiten]

In einer Urne befinden sich rote und schwarze Kugeln. Durch Ziehen mit Zurücklegen soll ermittelt werden, wie hoch der (wahre) Anteil der roten Kugeln in der Urne ist. Die Anzahl der roten Kugeln kann dann durch eine Binomialverteilung mit Stichprobengröße N=10 und unbekanntem Parameter  \pi (d.h. einer B(10,\pi)-Verteilung) beschrieben werden.

Maximum-Likelihood-Schätzung[Bearbeiten]

Mit der ML-Methode schätzt man den Anteil \pi der roten Kugeln auf 70 %.

Nichtinformative A-priori-Verteilung[Bearbeiten]

Als nichtinformative A-priori-Verteilung für eine binomialverteilte Zufallsgröße kann die Beta(1,1)-Verteilung verwendet werden. Gemäß Vorwissens sind daher alle mögliche Anteilswerte \pi gleich wahrscheinlich.

A-posteriori-Verteilung ist dann die Beta (8,4)-Verteilung, deren Modalwert bei 0,7 liegt. Durch MAP-Schätzung schätzt man daher den Anteil roter Kugeln ebenfalls auf 70 %.

Der Erwartungswert der Beta (8,4)-Verteilung liegt bei 0,727. Daher würde man bei Verwendung des a posteriori Erwartungswertes als Schätzfunktion den Anteil roter Kugeln auf 72,7 % schätzen.

Informative A-priori-Verteilung[Bearbeiten]

Jetzt sei angenommen, dass ein gewisses Vorwissen über den Anteil der roten Kugeln bekannt ist, das sich in einer Beta (5,5)-Verteilung ausdrücken lässt, deren Maximum und Erwartungswert bei 0,5 liegt. Gemäß Vorwissen besitzt also ein Anteil roter Kugeln von 50 % die größte Wahrscheinlichkeit.

A-posteriori-Verteilung ist in diesem Fall die Beta(12,8)-Verteilung, deren Modalwert 0,611 ist. Mittels der MAP-Methode schätzt man daher den Anteil roter Kugeln auf 61,1 %. In diesem Fall liegt der MAP-Schätzer zwischen dem Modalwert der a priori Verteilung und dem Maximum-Likelihood-Schätzer.

Erwartungswert der a posteriori Verteilung wäre 0,6, d.h. man würde bei Verwendung des A-posteriori-Erwartungswertes als Schätzfunktion den Anteil roter Kugeln auf 60 % schätzen.

Siehe auch[Bearbeiten]

Einzelnachweise[Bearbeiten]

  1. Bernhard Rüger: Induktive Statistik. Einführung für Wirtschafts- und Sozialwissenschaftler, S. 161f
  2. James O. Berger: Statistical decision theory and Bayesian analysis, S. 133
  3. James O. Berger: Statistical decision theory and Bayesian analysis, S. 136
  4. James O. Berger: Statistical decision theory and Bayesian analysis, S. 134
  5. James O. Berger: Statistical decision theory and Bayesian analysis, S. 161f.

Literatur[Bearbeiten]

  • Bernhard Rüger: Induktive Statistik. Einführung für Wirtschafts- und Sozialwissenschaftler. R. Oldenbourg Verlag, München Wien 1988. ISBN 3-486-20535-8
  • James O. Berger: Statistical decision theory and Bayesian analysis. Springer Series in Statistics, Springer-Verlag, New York Berlin Heidelberg 1985. ISBN 0-387-96098-8