Satz von Bernstein-von-Mises

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Racine carrée bleue.svg
Dieser Artikel wurde auf der Qualitätssicherungsseite des Portals Mathematik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Mathematik auf ein akzeptables Niveau zu bringen.

Bitte hilf mit, die Mängel dieses Artikels zu beseitigen, und beteilige dich bitte an der Diskussion! (Artikel eintragen)

Der Satz von Bernstein-von-Mises stellt eine wichtige Verbindung zwischen bayesscher Statistik und frequentistischer Statistik her. In parametrischen Modellen konzentriert sich die A-posteriori-Verteilung im Regelfall unabhängig von der A-priori-Verteilung asymptotisch (bei großer Anzahl von Beobachtungen) um den wahren Parameter (Konsistenz des bayesschen Schätzers).

Die entsprechend zentrierte und skalierte A-Posteriori-Verteilung ist nach dem Satz von Bernstein-von-Mises sogar asymptotisch eine Normalverteilung mit der inversen Fisher-Informations-Matrix als Kovarianzmatrix (asymptotische Effizienz des bayesschen Schätzers). Demnach führen in parametrischen Modellen optimale frequentistische und bayessche Ansätze asymptotisch zu qualitativ gleichen Ergebnissen.

Also ist die A-posteriori-Verteilung für die unbekannten Größen in einem Problem in gewissem Sinne von der A-priori-Verteilung unabhängig ist, sobald die durch die Stichprobe gewonnene Informationsmenge groß genug ist.[1]

Anwendungsbeispiel[Bearbeiten | Quelltext bearbeiten]

Im Folgenden sollen die Anwendung des Satzes und die typische Vorgehensweise der bayesschen Inferenz anhand eines einfachen Beispiels illustriert werden: Beobachtet wird eine Zufallsvariable und deren Realisierung anhand eines Satzes von Messdaten aus dem Stichprobenraum. Diese Daten sollen durch ein stochastisches Modell mit unbekanntem Parameter , welcher auch vektorwertig sein kann, beschrieben werden. Bevor die Daten erhoben werden, sind sowohl deren Werte als auch jene des Parameters unsicher, und ein gemeinsames stochastisches Modell für ist sinnvoll. In dieser Interpretation ist auch der Parameter eine Zufallsvariable mit einer Prior-Verteilung . Diese ist offensichtlich vor der tatsächlichen Datenmessung noch unbekannt, und es muss eine „vernünftige“ A-priori-Annahme über sie getroffen werden. Nach der Beobachtung der Daten wird die Meinung über den Parameter aktualisiert. Die gesamte verfügbare Information über wird durch die Posterior-Verteilung beschrieben. Diese ist nach dem Satz von Bayes gegeben als

,

wobei der Ausdruck die sogenannte Likelihood-Funktion darstellt und die Verteilung von bei gegebenem Parameter beschreibt. Es ist zu erhoffen, dass die Posterior-Verteilung eine bessere und genauere Aussage über ermöglicht als die ursprüngliche naive Prior-Verteilung . Dieser letzte Schritt wird gewöhnlich als bayessches Lernen bezeichnet und ist ein wesentlicher Schritt beim Lernen in neuronalen Netzen. Nehmen wir nun diese letzte Posterior-Verteilung als neue Prior-Verteilung an, erheben einen neuen weiteren Datensatz und wiederholen das obige Vorgehen, erhalten wir nach einem weiteren bayesschen Lernschritt eine weitere, aktualisierte Posterior-Verteilung. Diese enthält nun Informationen von zwei Datensätzen und sollte damit eine noch bessere und genauere Aussage über liefern. Dass die wiederholte Anwendung dieses bayesschen Lernens sich erfolgreich der tatsächlichen Verteilung von annähert, ist Aussage des Bernstein-von-Mises-Theorems. Die Konvergenz dieses Verfahrens gegen die tatsächliche Verteilung von erfolgt unter gewissen Voraussetzungen fast sicher und ist unabhängig von der Prior-Verteilung.

Geschichte[Bearbeiten | Quelltext bearbeiten]

Das Theorem wurde benannt nach Richard von Mises und Sergei Natanowitsch Bernstein, obwohl der erste strenge Beweis durch Joseph L. Doob im Jahre 1949 für Zufallsvariablen mit endlichen Wahrscheinlichkeitsräumen gegeben wurde.[2] Später haben Lucien Le Cam, seine Doktorandin Lorraine Schwarz, die Mathematiker David A. Freedman und Persi Diaconis das Theorem und seine Voraussetzungen verallgemeinert. Auf ein bemerkenswertes Resultat von David A. Freedman aus dem Jahre 1965 sei hingewiesen: das Bernstein-von-Mises-Theorem ist fast sicher „nicht anwendbar“, wenn die Zufallsvariable in einem unendlich abzählbaren Wahrscheinlichkeitsraum lebt. In anderen Worten ausgedrückt, konvergiert in diesem Falle für fast alle anfänglichen Prior-Verteilungen das Verfahren nicht gegen die wahre Verteilung. Der anschauliche Grund hierfür liegt darin, dass die in einem jeweiligen bayesschen Lernschritt gelernte Information vom Maß 0 ist. Eine negative Folge hiervon zeigt sich bereits bei hochdimensionalen, aber endlichen Problemen, wie Persi Diaconis und David A. Freedman in ihrer Publikation von 1986 im letzten Satz der Zusammenfassung anmerken:

“Unfortunately, in high-dimensional problems, arbitrary details of the prior can really matter; indeed, the prior can swamp the data, no matter how much data you have. That is what our examples suggest, and that is why we advise against the mechanical use of Bayesian nonparametric techniques”.[3]
„Leider sind in hoch-dimensionalen Problemen die genauen Details der Prior-Verteilung wirklich wichtig. Denn tatsächlich kann der Prior die Daten in die falsche Richtung abdrängen‘, egal wie viele Daten auch immer zur Verfügung stehen. Dies ist es, was unsere Beispiele nahelegen, und warum wir davon abraten, die bayesschen nicht-parametrischen Techniken einfach mechanisch anzuwenden.“

Der bekannte Statistiker A. W. F. Edwards bemerkte einmal ähnlich: „Manchmal wird zur Verteidigung des bayesschen Konzepts gesagt, dass die Wahl der Prior-Verteilung in der Praxis unerheblich ist, weil sie die Posterior-Verteilung kaum beeinflußt, wenn es genug Daten gibt. Je weniger zu dieser ‚Verteidigung‘ gesagt wird, desto besser.“[4]

Literatur[Bearbeiten | Quelltext bearbeiten]

  • David A. Freedman: On the asymptotic behaviour of behaviour of Bayes estimates in the discrete case I. In: The Annals of Mathematical Statistics, vol. 34, 1963, Seiten 1386–1403.
  • David A. Freedman: On the asymptotic behaviour of behaviour of Bayes estimates in the discrete case II. In: The Annals of Mathematical Statistics, vol. 36, 1965, Seiten 454–456.
  • Lucien Le Cam: Asymptotic Methods in Statistical Decision Theory. Springer, 1986. ISBN 0-387-96307-3, Seiten 336 und 618–621.
  • Lorraine Schwartz: On Bayes procedure. In: Z. Wahrscheinlichkeitstheorie, 1965, No. 4, Seiten 10–26.

Weblinks[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. A.W. van der Vaart: Asymptotic Statistics. Cambridge University Press, 1998, ISBN 0-521-78450-6, 10.2 Bernstein-von-Mises-Theorem.
  2. Joseph L. Doob: Applications of the theory of martingales. In: Colloq. Intern. du C.N.R.S (Paris). 13, 1949, S. 22–28.
  3. Persi Diaconis, David A. Freedman: On the consistency of Bayes estimates. In: The Annals of Statistics. 14, 1986, S. 1–26.
  4. A.W.F. Edwards: Likelihood. Johns Hopkins University Press, Baltimore 1992, ISBN 0-8018-4443-6.