Satz von Bernstein-von-Mises

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Bernstein-von-Mises-Satz)
Wechseln zu: Navigation, Suche
Racine carrée bleue.svg
Dieser Artikel wurde auf der Qualitätssicherungsseite des Portals Mathematik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Mathematik auf ein akzeptables Niveau zu bringen.

Bitte hilf mit, die Mängel dieses Artikels zu beseitigen, und beteilige dich bitte an der Diskussion! (Artikel eintragen)

Der Satz von Bernstein-von-Mises stellt eine wichtige Verbindung zwischen bayesscher Statistik und frequentistischer Statistik her. In parametrischen Modellen konzentriert sich die A-posteriori-Verteilung im Regelfall unabhängig von der A-priori-Verteilung asymptotisch (bei großer Anzahl von Beobachtungen) um den wahren Parameter (Konsistenz des bayesschen Schätzers).

Die entsprechend zentrierte und skalierte A-Posteriori-Verteilung ist nach dem Satz von Bernstein-von-Mises sogar asymptotisch eine Normalverteilung mit der inversen Fisher-Informations-Matrix als Kovarianzmatrix (asymptotische Effizienz des bayesschen Schätzers). Demnach führen in parametrischen Modellen optimale frequentistische und bayesianische Ansätze asymptotisch zu qualitativ gleichen Ergebnissen.

Also ist die A-posteriori-Verteilung für die unbekannten Größen in einem Problem in gewissem Sinne von der A-priori-Verteilung unabhängig ist, sobald die durch die Stichprobe gewonnene Informationsmenge groß genug ist.[1]

Anwendungsbeispiel[Bearbeiten]

Im Folgenden sollen die Anwendung des Satzes und die typische Vorgehensweise der bayesschen Inferenz anhand eines einfachen Beispiels illustriert werden: Beobachtet wird eine Zufallsvariable  Y und deren Realisierung anhand eines Satzes von Messdaten  y = \{y_1, \dotsc, y_n\} aus dem Stichprobenraum. Diese Daten sollen durch ein stochastisches Modell mit unbekanntem Parameter \vartheta , welcher auch vektorwertig sein kann, beschrieben werden. Bevor die Daten erhoben werden, sind sowohl deren Werte als auch jene des Parameters unsicher und ein gemeinsames stochastisches Modell für  (Y,\vartheta ) ist sinnvoll. In dieser Interpretation ist auch der Parameter \vartheta eine Zufallsvariable mit einer Prior-Verteilung p(\vartheta ). Diese ist offensichtlich vor der tatsächlichen Datenmessung noch unbekannt und es muss eine „vernünftige“ A-priori-Annahme über sie getroffen werden. Nach der Beobachtung der Daten wird die Meinung über den Parameter aktualisiert. Die gesamte verfügbare Information über \vartheta wird durch die Posterior-Verteilung p(\vartheta|y) beschrieben. Diese ist nach dem Satz von Bayes gegeben als

 p (\vartheta|y) = \frac{p(y|\vartheta)\; p(\vartheta )}{p(y)},

wobei der Ausdruck p(y|\vartheta) die sogenannte Likelihood-Funktion darstellt und die Verteilung von Y bei gegebenem Parameter \vartheta beschreibt. Es ist zu erhoffen, dass die Posterior-Verteilung p(\vartheta|y) eine bessere und genauere Aussage über \vartheta ermöglicht als die ursprüngliche naive Prior-Verteilung p(\vartheta ). Dieser letzte Schritt wird gewöhnlich als bayessches Lernen bezeichnet und ist ein wesentlicher Schritt beim Lernen in neuronalen Netzen. Nehmen wir nun diese letzte Posterior-Verteilung p(\vartheta|y) als neue Prior-Verteilung an, erheben einen neuen weiteren Datensatz und wiederholen das obige Vorgehen, erhalten wir nach einem weiteren bayesschen Lernschritt eine weitere, aktualisierte Posterior-Verteilung. Diese enthält nun Informationen von zwei Datensätzen und sollte damit eine noch bessere und genauere Aussage über \vartheta liefern. Dass die wiederholte Anwendung dieses bayesschen Lernens sich erfolgreich der tatsächlichen Verteilung von \vartheta annähert, ist Aussage des Bernstein-von-Mises-Theorems. Die Konvergenz dieses Verfahrens gegen die tatsächliche Verteilung von \vartheta erfolgt unter gewissen Voraussetzungen fast sicher und ist unabhängig von der Prior-Verteilung.

Geschichte[Bearbeiten]

Das Theorem wurde benannt nach Richard von Mises und Sergei Natanowitsch Bernstein, obwohl der erste strenge Beweis durch Joseph L. Doob im Jahre 1949 für Zufallsvariablen mit endlichen Wahrscheinlichkeitsräumen gegeben wurde.[2] Später haben Lucien Le Cam, seine Doktorandin Lorraine Schwarz, die Mathematiker David A. Freedman und Persi Diaconis das Theorem und seine Voraussetzungen verallgemeinert. Auf ein bemerkenswertes Resultat von David A. Freedman aus dem Jahre 1965 sei hingewiesen: Bas Bernstein-von-Mises-Theorem ist fast sicher „nicht anwendbar“, wenn die Zufallsvariable in einem unendlich abzählbaren Wahrscheinlichkeitsraum lebt. In anderen Worten ausgedrückt konvergiert in diesem Falle für fast alle anfänglichen Prior-Verteilungen das Verfahren nicht gegen die wahre Verteilung. Der anschauliche Grund hierfür liegt darin, dass die in einem jeweiligen bayesschen Lernschritt gelernte Information vom Maß 0 ist. Eine negative Folge hiervon zeigt sich bereits bei hochdimensionalen, aber endlichen Problemen, wie Persi Diaconis und David A. Freedman in ihrer Publikation von 1986 im letzten Satz der Zusammenfassung anmerken:

“Unfortunately, in high-dimensional problems, arbitrary details of the prior can really matter; indeed, the prior can swamp the data, no matter how much data you have. That is what our examples suggest, and that is why we advise against the mechanical use of Bayesian nonparametric techniques”.[3]
„Leider sind in hoch-dimensionalen Problemen die genauen Details der Prior-Verteilung wirklich wichtig. Denn tatsächlich kann der Prior die Daten ‚in die falsche Richtung abdrängen‘, egal wie viele Daten auch immer zur Verfügung stehen. Dies ist es, was unsere Beispiele nahe legen, und warum wir davon abraten, die Bayesschen nicht-parametrischen Techniken einfach mechanisch anzuwenden.“

Der bekannte Statistiker A. W. F. Edwards bemerkte einmal ähnlich: „Manchmal wird zur Verteidigung des Bayesschen Konzepts gesagt, dass die Wahl der Prior-Verteilung in der Praxis unerheblich ist, weil sie die Posterior-Verteilung kaum beeinflußt wenn es genug Daten gibt. Je weniger zu dieser ‚Verteidigung‘ gesagt wird, desto besser.“[4]

Einzelnachweise[Bearbeiten]

  1.  A.W. van der Vaart: Asymptotic Statistics. Cambridge University Press, 1998, 10.2 Bernstein-von-Mises-Theorem.
  2. Joseph L. Doob: Applications of the theory of martingales. In: Colloq. Intern. du C.N.R.S (Paris). 13, 1949, S. 22–28.
  3. Persi Diaconis, David A. Freedman: On the consistency of Bayes estimates. In: The Annals of Statistics. 14, 1986, S. 1–26.
  4. A.W.F. Edwards: Likelihood. Johns Hopkins University Press, Baltimore 1992, ISBN 0-8018-4443-6.

Sonstige Literatur[Bearbeiten]

  • Freedman, David A. (1963), “On the asymptotic behaviour of behaviour of Bayes estimates in the discrete case I”. The Annals of Mathematical Statistics, vol. 34, pp. 1386–1403.
  • Freedman, David A. (1965), “On the asymptotic behaviour of behaviour of Bayes estimates in the discrete case II”. The Annals of Mathematical Statistics, vol. 36, pp. 454–456.
  • Le Cam, Lucien (1986) Asymptotic Methods in Statistical Decision Theory, Springer. ISBN 0-387-96307-3 (Pages 336 and 618–621).
  • Lorraine Schwartz (1965), “On Bayes procedure”. Z. Wahrscheinlichkeitstheorie, No. 4, pp. 10–26.

Weblink[Bearbeiten]