Exponentialfamilie

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

In der Wahrscheinlichkeitstheorie und in der Statistik ist eine Exponentialfamilie (oder exponentielle Familie) eine Klasse von Wahrscheinlichkeitsverteilungen einer ganz bestimmten Form. Man wählt diese spezielle Form, um bestimmte Rechenvorteile auszunutzen oder aus Gründen der Verallgemeinerung. Exponentialfamilien sind in gewissem Sinne sehr natürliche Verteilungen. Das Konzept der Exponentialfamilien geht zurück auf[1] E. J. G. Pitman,[2] G. Darmois,[3] und B. O. Koopman[4] (1935–6).

Definitionen[Bearbeiten]

Es folgt eine Reihe immer allgemeinerer Definitionen einer Exponentialfamilie.

Skalarer Parameter[Bearbeiten]

Eine einparametrische Exponentialfamilie ist eine Menge von Wahrscheinlichkeitsverteilungen, deren Dichtefunktion (oder im diskreten Fall: Wahrscheinlichkeitsfunktion) sich in der folgenden Form darstellen lässt:

 f_X(x; \theta) = h(x) \exp(\eta(\theta) T(x) - A(\theta)) \,\!

wobei T(x), h(x), \eta(\theta), und A(\theta) bekannte Funktionen sind.

Der Wert \theta ist der Parameter der Familie.

Hier ist x oft ein Vektor von Realisationen einer Zufallsgröße. In diesem Fall gilt T: \Omega \rightarrow \R, wobei \Omega den Raum der möglichen Ausprägungen von x bezeichnet.

Die Exponentialfamilie ist in kanonischer Form, falls \eta(\theta)=\theta. Indem man einen transformierten Parameter \eta=\eta(\theta) definiert, ist es immer möglich eine Exponentialfamilie in kanonische Form zu bringen. Die kanonische Form ist nicht eindeutig (man kann \eta(\theta) mit einer beliebigen Konstanten ungleich Null multiplizieren und gleichzeitig T(x) durch die Konstante teilen).

Weiter unten ist ein Beispiel einer Normalverteilung mit unbekanntem Erwartungswert bei bekannter Varianz.

Vektorieller Parameter[Bearbeiten]

Die einparametrische Definition kann erweitert werden auf eine Definition mit einem vektoriellen Parameter {\boldsymbol \theta} = (\theta_1, \theta_2, \ldots, \theta_s)^T. Eine Familie von Verteilungen gehört zu einer vektoriellen Exponentialfamilie wenn die Dichtefunktion (oder Wahrscheinlichkeitsfunktion der diskreten Verteilung) in folgender Form geschrieben werden kann:

 f_X(x; \theta) = h(x) \exp\left(\sum_{i=1}^s \eta_i({\boldsymbol \theta}) T_i(x) - A({\boldsymbol \theta}) \right) \,\!

Wie im Fall mit skalarem Parameter, wird von einer Exponentialfamilie in kanonischer Form gesprochen, wenn \eta_i({\boldsymbol \theta}) = \theta_i für alle i gilt.

Weiter unten findet sich eine Beispiel einer Normalverteilung mit unbekanntem Erwartungswert und unbekannter Varianz.

Maßtheoretische Formulierung[Bearbeiten]

Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung.

Wir benutzen Verteilungsfunktionen, um sowohl den diskreten, als auch den stetigen Fall gleichzeitig abzuhandeln.

Sei H eine nicht-fallende Funktion einer reellen Variable und H(x) strebt gegen 0 wenn x gegen -\infty geht. Dann sind Lebesgue-Stieltjes-Integrale bezüglich dH(x) Integrale bezüglich des "Referenz Maßes" der Exponentialfamilie, die von H erzeugt wird.

Alle Mitglieder dieser Exponentialfamilie haben die (kumulative) Verteilungsfunktion

dF(x|\eta) = e^{-\eta^{\top} T(x) - A(\eta)}\, dH(x).

Falls F eine stetige Verteilung mit einer Dichte ist, kann man schreiben dF(x) = f(xdx.

H(x) ist ein Lebesgue-Stieltjes-Integrator für das Referenz Maß. Ist das Referenz Maß endlich, kann es normalisiert werden und H ist dann die (kumulative) Verteilungsfunktion einer Wahrscheinlichkeitsverteilung. Falls F stetig ist mit einer Dichtefunktion, dann gilt das auch für H, was folgendermaßen aufgeschrieben werden kann dH(x) = h(xdx. Falls F diskret ist, dann ist H eine Treppenfunktion (mit Sprüngen auf dem Träger von F).

Interpretation[Bearbeiten]

Die Funktionen T(x), \eta(\theta), und A(\theta) in den Definitionen oben sind willkürlich gewählt. Sie spielen allerdings in der resultierenden Wahrscheinlichkeitsverteilung eine wichtige Rolle.

  • T(x) ist eine suffiziente Statistik (auch erschöpfende Statistik) der Verteilung. Somit existiert für Exponentialfamilien eine suffiziente Statistik, deren Dimension äquivalent der Anzahl zu schätzender Parameter ist. Diese wichtige Eigenschaft wird weiter unten näher betrachtet.
  • \eta wird als natürlicher Parameter bezeichnet. Die Menge der Werte von \eta, für die die Funktion f_X(x;\theta) endlich ist, wird natürlicher Parameterraum genannt. Es kann gezeigt werden, dass der natürliche Parameterraum immer konvex ist.
  • A(\theta) ist ein Normierungsfaktor ohne den f_X(x;\theta) keine Wahrscheinlichkeitsverteilung wäre. Die Funktion A ist selbst wichtig, weil in Fällen in denen das Referenzmaß dH(x) ein Wahrscheinlichkeitsmaß ist (alternativ: falls h(x) eine Wahrscheinlichkeitsdichte ist), ist A die Kumulantenerzeugende Funktion der Wahrscheinlichkeitsverteilung der suffizienten Statistik T(X) wenn die Verteilung von X dH(x) ist.

Beispiele[Bearbeiten]

Die Normal-, Exponential-, Gamma-, Chi-Quadrat-, Beta-, Dirichlet-, Bernoulli-, Binomial-, Multinomial-, Poisson-, Negative Binomialverteilung und geometrische sind alle Exponentialfamilien. Die Cauchy-, Laplace-, Gleichverteilung und Weibull-Verteilung sind keine Exponentialfamilien.

Im Folgenden betrachten wir einige Verteilungen und wie sie in der Repräsentation der Exponentialfamilien geschrieben werden können.

Normalverteilung: unbekannter Erwartungswert, bekannte Varianz[Bearbeiten]

Im ersten Beispiel nehmen wir an, dass x normalverteilt ist, mit unbekanntem Erwartungswert \mu und Varianz 1. Die Dichte ist dann

f_X(x;\mu) = \frac{1}{\sqrt{2 \pi}} e^{-(x-\mu)^2/2}.

Man sieht, dass es sich dabei um eine einparametrische Exponentialfamilie in kanonischer Form handelt, wenn man wie folgt definiert:

h(x) = e^{-x^2/2}/\sqrt{2\pi}
T(x) = x\!\,
A(\mu) = \mu^2/2\!\,
\eta(\mu) = \mu.\!\,

Normalverteilung: unbekannter Erwartungswert, unbekannte Varianz[Bearbeiten]

Als Nächstes betrachten wir eine Normalverteilung mit unbekanntem Erwartungswert und unbekannter Varianz. Die Dichte ist dann

f_X(x) = \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-(x-\mu)^2/2 \sigma^2}.

Dies ist eine Exponentialfamilie, was man sieht, wenn man wie folgt definiert:

 {\boldsymbol \theta} = \left({\mu \over \sigma^2},{1 \over \sigma^2} \right)^T
 h(x) = {1 \over \sqrt{2 \pi}}
 T(x) = \left( x, -{x^2 \over 2} \right)^T
 A({\boldsymbol \theta})  = { \theta_1^2 \over 2 \theta_2} - \ln( \theta_2^{1/2} ) = { \mu^2 \over 2 \sigma^2} - \ln \left( {1 \over \sigma } \right)

Binomialverteilung[Bearbeiten]

Als Beispiel einer diskreten Exponentialfamilie betrachten wir die Binomialverteilung. Die Wahrscheinlichkeitsfunktion dieser Verteilung ist

f(x)={n \choose x}p^x (1-p)^{n-x}, \quad x \in \{0, 1, 2, \ldots, n\}.

Dies kann auch geschrieben werden als

f(x)={n \choose x}\exp\left(x \log\left({p \over 1-p}\right) + n \log\left(1-p\right)\right),

was zeigt, dass es sich bei der Binomialverteilung auch um eine Exponentialverteilung handelt. Der natürliche Parameter ist

\eta = \log{p \over 1-p}.

Rolle in der Statistik[Bearbeiten]

Klassisches Schätzen: Suffizienz[Bearbeiten]

Nach dem Pitman-Koopman-Darmois-Theorem gibt es unter Wahrscheinlichkeitsfamilien, deren Träger nicht von den Parametern abhängt nur bei den Exponentialfamilien suffiziente Statistiken, deren Dimension bei wachsender Stichprobengröße beschränkt bleibt. Etwas ausführlicher: Seien Xn, n = 1, 2, 3, … unabhängig und identisch verteilte Zufallszahlen, deren Wahrscheinlichkeitsverteilungsfamilie bekannt ist. Nur wenn diese Familie eine Exponentialfamilie ist, gibt es eine (möglicherweise vektorielle) suffiziente Statistik T(X1, …, Xn) deren Anzahl skalarer Komponenten nicht ansteigt, sollte der Stichprobenumfang n erhöht werden.

Bayesianisches Schätzen: konjugierte Verteilungen[Bearbeiten]

Exponentialfamilien sind auch für die Bayessche Statistik wichtig. In der Bayesschen Statistik wird eine A-priori-Wahrscheinlichkeitsverteilung mit einer Likelihood Funktion multipliziert und dann normiert, um auf die A-posteriori-Wahrscheinlichkeitsverteilung zu kommen. Falls die Likelihood zu einer Exponentialfamilie gehört existiert eine konjugierte A-priori, die oft ebenfalls eine Exponentialfamilie ist. Eine konjugierte A-priori π für den Parameter η einer Exponentialfamilie ist definiert durch

\pi(\eta) \propto \exp(-\eta^{\top} \alpha - \beta\, A(\eta)),

wobei \alpha \in \mathbb{R}^n und \beta>0 Hyperparameter sind (Parameter die Parameter kontrollieren).

Eine konjugierte A-priori ist eine A-priori, die kombiniert mit einer Likelihood und dem Normalisierungsterm eine Posteriori-Verteilung ergibt, die wiederum vom Typ der A-priori ist. Beispielsweise kann man die Betaverteilung als A-priori wählen, wenn man die Erfolgswahrscheinlichkeit einer Binomialverteilung schätzen möchte. Da die Betaverteilung die zur Binomialverteilung konjugierte Verteilung ist, ist die Posteriori-Verteilung wieder eine Betaverteilung. Die Verwendung von konjugierten A-prioris vereinfacht die Berechnung der Posterioriverteilung.

Im Allgemeinen ist die Likelihood keine Exponentialfamilie, deshalb existiert im Allgemeinen auch keine konjugierte Prioriverteilung. Die Posteriori muss dann mit numerischen Methoden berechnet werden.

Hypothesen Tests: gleichmäßig bester Test[Bearbeiten]

Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung.

Die einparametrische Exponentialfamilie hat ein monotones nicht-fallendes Likelihood Ratio in der suffizienten Statistik T(x), wenn η(θ) nicht-fallend ist. Daraus ergibt sich, dass ein gleichmäßig bester Test existiert, um die Hypothese H0: θ ≥ θ0 vs. H1: θ < θ0 zu testen.

Referenzen[Bearbeiten]

  1. Erling Andersen: Sufficiency and Exponential Families for Discrete Sample Spaces. In: Journal of the American Statistical Association. 65, Nr. 331, September 1970, S. 1248–1255. doi:10.2307/2284291.
  2. E. Pitman: Sufficient statistics and intrinsic accuracy. In: Proc. Camb. phil. Soc.. 32, 1936, S. 567–579.
  3. G. Darmois: Sur les lois de probabilites a estimation exhaustive. In: C.R. Acad. sci. Paris. 200, 1935, S. 1265–1266.
  4. B Koopman: On distribution admitting a sufficient statistic. In: Trans. Amer. math. Soc.. 39, 1936, S. 399–409. doi:10.2307/1989758.

Literatur[Bearbeiten]

  • E. L. Lehmann, Casella, G.: Theory of Point Estimation 1998, ISBN 0-387-98502-6, S. 2nd ed., sec. 1.5.
  • Robert W. Keener: Statistical Theory: Notes for a Course in Theoretical Statistics. Springer, 2006, S. 27–28, 32–33.