Exponentialfamilie

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

In der Wahrscheinlichkeitstheorie und in der Statistik ist eine Exponentialfamilie (oder exponentielle Familie) eine Klasse von Wahrscheinlichkeitsverteilungen einer ganz bestimmten Form. Man wählt diese spezielle Form, um bestimmte Rechenvorteile auszunutzen oder aus Gründen der Verallgemeinerung. Exponentialfamilien sind in gewissem Sinne sehr natürliche Verteilungen und eine dominierte Verteilungsklasse, was viele Vereinfachungen in der Handhabung mit sich bringt. Das Konzept der Exponentialfamilien geht zurück auf[1] E. J. G. Pitman,[2] G. Darmois,[3] und B. O. Koopman[4] (1935–6).

Einparametrige Exponentialfamilie[Bearbeiten | Quelltext bearbeiten]

Definition[Bearbeiten | Quelltext bearbeiten]

Eine Familie von Wahrscheinlichkeitsmaßen  (P_\vartheta)_{\vartheta \in \Theta} auf dem Messraum  (X, \mathcal A) mit  \Theta \subset \R heißt eine einparametrige Exponentialfamilie, wenn es ein σ-endliches Maß  \mu gibt, so dass alle  P_\vartheta die Dichtefunktion

 f(x, \vartheta)=h(x)  A(\vartheta) \exp(\eta(\vartheta) T(x) )

bezüglich  \mu besitzen. Meist handelt es sich bei  \mu

Dabei ist

 T: (X, \mathcal A) \to (\R , \mathcal B(\R))

eine messbare Funktion, die natürliche suffiziente Statistik oder kanonische Statistik der Exponentialfamilie. Ebenso ist

 h: (X, \mathcal A) \to (\R , \mathcal B(\R))

eine messbare Funktion. Die Funktion

 A : \Theta \to \R

wird Normierungsfunktion oder Normierungskonstante genannt und garantiert, dass die in der Definition eines Wahrscheinlichkeitsmaßes geforderte Normierung gegeben ist. Des Weiteren ist

 \eta : \Theta \to \R

eine beliebige reelle Funktionen des Parameters.

Beispiele[Bearbeiten | Quelltext bearbeiten]

Ein elementares Beispiel sind die Binomialverteilungen auf  X=\{1, \dots, n\} mit  \mathcal A=\mathcal P(X) . Sie besitzen die Wahrscheinlichkeitsfunktion (beziehungsweise die Dichtefunktion bezüglich des Zählmaßes)

 f(x, \vartheta)=\binom nx \vartheta^x (1-\vartheta)^{n-x}=\binom nx (1-\vartheta)^n \exp \left( x \ln \left( \frac{\vartheta}{1-\vartheta} \right) \right)

mit  \vartheta \in (0,1) . Somit ist die Binomialverteilung teil einer Exponentialfamilie und wird charakterisiert durch

 T(x)=x, \quad, \eta(\vartheta)=\ln \left( \frac{\vartheta}{1-\vartheta} \right), \quad A(\vartheta)=(1-\vartheta)^n \text{ und } h(x)=\binom nx .

Ein weiteres Beispiel sind die Exponentialverteilungen. Sie sind auf ([0,\infty), \mathcal B([0,\infty)) definiert mit  \vartheta \in (0,\infty) und besitzen die Wahrscheinlichkeitsdichtefunktion

 f(x, \vartheta)=\vartheta \exp \left( - \vartheta x \right)

Somit ist in diesem Fall

 T(x)=x, \quad \eta(\vartheta)=- \vartheta \, \text{ sowie }A(\vartheta)=\vartheta .

Zu beachten ist, dass eine einparametrige Exponentialfamilie durchaus eine multivariate Verteilung sein kann. Einparametrig bedeutet hier nur, dass die Dimensionalität des "Formparameters"  \vartheta eins ist. Ob die definierte Wahrscheinlichkeitsverteilung univariat oder multivariat ist, hängt von der Dimensionalität des Grundraumes  X ab, an die keine Anforderungen gestellt sind.

Alternative Definitionen[Bearbeiten | Quelltext bearbeiten]

Die Definitionen einer Exponentialfamilie unterscheidet sich meist in den folgenden Punkten:

  • Nicht alle Autoren schreiben die Funktionen  h und  A als Produkt vor die Exponentialfunktion, teilweise stehen sie auch als Summe in der Exponentialfunktion, manchmal mit negativem Vorzeichen. So finden sich die Definitionen
 f(x, \vartheta)= \exp(\eta(\vartheta) T(x) + h^*(x) + A^*(\vartheta)) \text{ oder alternativ } f(x, \vartheta)=h(x)   \exp(\eta(\vartheta) T(x) -\tilde A(\vartheta)) .
Diese unterschiedlich definierten Funktionen lassen sich meist problemlos ineinander Umrechen. Dennoch ist bei einer Angabe der Funktionen  A und  h darauf zu achten, wie genau diese definiert werden.
  • Manche Autoren versehen die Dichtefunktion noch mit einer charakteristischen Funktion bezüglich einer Menge  M . Die Dichtefunktion ist dann gegeben als
 f(x, \vartheta)=\chi_M(x) h(x)  A(\vartheta) \exp(\eta(\vartheta) T(x) ) .
Dabei soll die Wahl der Menge  M unabhängig von dem Parameter  \vartheta sein. Diese Definition ermöglicht es, gewisse Kriterien, die auf der Positivität der Dichtefunktion aufbauen, allgemeiner zu fassen. Solche Kriterien finden sich beispielsweise in regulären statistischen Modellen.

k-parametrische Exponentialfamilie[Bearbeiten | Quelltext bearbeiten]

Definition[Bearbeiten | Quelltext bearbeiten]

Eine Familie von Wahrscheinlichkeitsmaßen  (P_\vartheta)_{\vartheta \in \Theta} auf dem Messraum  (X, \mathcal A) mit  \Theta \subset \R^k heißt eine k-parametrische Exponentialfamilie, wenn es ein σ-endliches Maß  \mu gibt, so dass alle  P_\vartheta die Dichtefunktion

 f(x, \vartheta)=h(x)  A(\vartheta) \exp \left(\sum_{i=1}^k\eta_i(\vartheta) T_i(x) \right)

bezüglich  \mu besitzen. Oftmals wird der Parameter  \vartheta=(\vartheta_1, \dots, \vartheta_k) geschrieben. Dabei sind

h, T_1, \dots, T_k: (X, \mathcal A) \to (\R, \mathcal B (\R))

messbare Funktionen und

 A, \eta_1, \dots, \eta_k: \R^k \supset \Theta \to \R

Funktionen des k-dimensionalen Parameters  \vartheta . Hier wird wie im einparametrigen Fall die Funktion  T=(T_1,\dots, T_k) die natürliche suffiziente Statistik oder die kanonische Statistik genannt.

Beispiel[Bearbeiten | Quelltext bearbeiten]

Klassisches Beispiel für eine 2-parametrige Exponentialfamilie ist die Normalverteilung. Es ist  (X, \mathcal A)= (\R, \mathcal B (\R)) sowie  \Theta=\R \times (0, \infty) . Jedes  \vartheta \in \Theta ist dann von der Form  \vartheta=(\vartheta_1, \vartheta_2) . Mit den Parametrisierungen  \mu=\vartheta_1 sowie  \sigma^2=\vartheta_2^2 erhält man aus der üblichen Dichtefunktion der Normalverteilung

 f(x, \vartheta_1, \vartheta_2)= \frac{1}{\sqrt{2 \pi \vartheta_2^2}} \exp \left( - \frac{\vartheta_1^2}{2 \vartheta_2^2}\right) \exp \left( \frac{\vartheta_1}{\vartheta_2^2}x -\frac{1}{2 \vartheta_2^2}x^2\right) .

Somit ist die Normalverteilung Teil einer zweiparametrigen Exponentialfamilie mit

 A(\vartheta_1, \vartheta_2)= \frac{1}{\sqrt{2 \pi \vartheta_2^2}} \exp \left( - \frac{\vartheta_1^2}{2 \vartheta_2^2}\right), \quad T_1(x)=x, \quad T_2(x)=x^2, \quad \eta_1(\vartheta_1, \vartheta_2)=\frac{\vartheta_1}{\vartheta_2^2}, \quad \eta_2(\vartheta_1, \vartheta_2)= -\frac{1}{2 \vartheta_2^2} .

Auch hier gilt wieder: eine k-parametrige Exponentialfamilie kann durchaus eine Wahrscheinlichkeitsverteilung in nur einer Dimension beschreiben. Die Zahl k gibt nur die Anzahl der Formparameter an, nicht die Dimensionalität der Verteilung. So ist im obigen Beispiel die Normalverteilung eindimensional, aber Teil einer 2-parametrigen Exponentialfamilie.

Alternative Definitionen[Bearbeiten | Quelltext bearbeiten]

Für die k-parametrische Exponentialfamilie existieren dieselben Varianten in der Definition wie bereits im einparametrischen Fall besprochen wurden. Außerdem fordern manche Autoren noch zusätzlich in der Definition, dass folgende beide Eigenschaften gelten:

  1. Die Funktionen  \eta_1, \dots, \eta_k sind linear unabhängig
  2. Die Funktionen  1,T_1, \dots, T_k sind für alle  P_\vartheta fast sicher linear unabhängig.

Mit diesen zusätzlichen Forderungen lassen sich beispielsweise Aussagen über die Kovarianzmatrix von  T treffen.

Die natürliche Parametrisierung[Bearbeiten | Quelltext bearbeiten]

Sowohl im einparametrischen als auch im k-parametrischen Fall sagt man, dass die Exponentialverteilung in der natürlichen Parametrisierung vorliegt, wenn  \eta(\vartheta)=\vartheta ist.

Eigenschaften[Bearbeiten | Quelltext bearbeiten]

Suffizienz[Bearbeiten | Quelltext bearbeiten]

Für die Exponentialfamilie ist die kanonische Statistik  T immer eine suffiziente Statistik. Dies folgt direkt aus dem Neyman-Kriterium für die Suffizienz. Daher wird  T auch als natürliche suffiziente Statistik bezeichnet.

Score-Funktion[Bearbeiten | Quelltext bearbeiten]

Für eine einparametrige Exponentialfamilie ist die Score-Funktion gegeben durch

 S_\vartheta(x):= \frac{\partial}{\partial\vartheta} \ln f(x,\vartheta)=\eta'(\vartheta) T(x)+ \frac{A'(\vartheta)}{A(\vartheta)} .

Bei natürlicher Parametrisierung vereinfacht sich dies zu

 S_\vartheta(x)=T(x)+ \frac{A'(\vartheta)}{A(\vartheta)} .

Fisher-Information[Bearbeiten | Quelltext bearbeiten]

Aus der Score-Funktion lässt sich die Fisher-Information ableiten. Sie lautet

 I(\vartheta)= \operatorname{Var}_\vartheta(S_\vartheta)= \left[ \eta'(\vartheta)\right]^2 \cdot \operatorname{Var}_\vartheta(T(x)) .

Bei natürlicher Parametrisierung ergibt sich für die Fisher-Information somit

I(\vartheta)=  \operatorname{Var}_\vartheta(T(x)) .

Rolle in der Statistik[Bearbeiten | Quelltext bearbeiten]

Klassisches Schätzen: Suffizienz[Bearbeiten | Quelltext bearbeiten]

Nach dem Pitman-Koopman-Darmois-Theorem gibt es unter Wahrscheinlichkeitsfamilien, deren Träger nicht von den Parametern abhängt nur bei den Exponentialfamilien suffiziente Statistiken, deren Dimension bei wachsender Stichprobengröße beschränkt bleibt. Etwas ausführlicher: Seien X_n,\ n = 1, 2, 3, \dots unabhängig und identisch verteilte Zufallszahlen, deren Wahrscheinlichkeitsverteilungsfamilie bekannt ist. Nur wenn diese Familie eine Exponentialfamilie ist, gibt es eine (möglicherweise vektorielle) suffiziente Statistik T(X_1, \dots, X_n) deren Anzahl skalarer Komponenten nicht ansteigt, sollte der Stichprobenumfang n erhöht werden.

Bayessches Schätzen: konjugierte Verteilungen[Bearbeiten | Quelltext bearbeiten]

Exponentialfamilien sind auch für die bayessche Statistik wichtig. In der bayesschen Statistik wird eine A-priori-Wahrscheinlichkeitsverteilung mit einer Likelihood Funktion multipliziert und dann normiert, um auf die A-posteriori-Wahrscheinlichkeitsverteilung zu kommen. Falls die Likelihood zu einer Exponentialfamilie gehört existiert eine konjugierte A-priori, die oft ebenfalls eine Exponentialfamilie ist. Eine konjugierte A-priori \pi für den Parameter \eta einer Exponentialfamilie ist definiert durch

\pi(\eta) \propto \exp(-\eta^{\top} \alpha - \beta\, A(\eta)),

wobei \alpha \in \mathbb{R}^n und \beta>0 Hyperparameter sind (Parameter die Parameter kontrollieren).

Eine konjugierte A-priori ist eine A-priori, die kombiniert mit einer Likelihood und dem Normalisierungsterm eine Posteriori-Verteilung ergibt, die wiederum vom Typ der A-priori ist. Beispielsweise kann man die Betaverteilung als A-priori wählen, wenn man die Erfolgswahrscheinlichkeit einer Binomialverteilung schätzen möchte. Da die Betaverteilung die zur Binomialverteilung konjugierte Verteilung ist, ist die Posteriori-Verteilung wieder eine Betaverteilung. Die Verwendung von konjugierten A-prioris vereinfacht die Berechnung der Posterioriverteilung.

Im Allgemeinen ist die Likelihood keine Exponentialfamilie, deshalb existiert im Allgemeinen auch keine konjugierte Prioriverteilung. Die Posteriori muss dann mit numerischen Methoden berechnet werden.

Hypothesentests: gleichmäßig bester Test[Bearbeiten | Quelltext bearbeiten]

Die einparametrische Exponentialfamilie zählt zu den Verteilungsklassen mit monotonem Dichtequotienten in der kanonischen Statistik  T , wenn  \eta monoton wachsend ist. Daher existiert für das einseitige Testproblem mit

 \Theta_0= \{\vartheta \in \Theta   \, | \, \vartheta \leq \vartheta_0\} \text{ und } \Theta_1 =\{\vartheta \in  \Theta \, | \, \vartheta > \vartheta_0\}

ein gleichmäßig bester Test zu einem vorgegebenen Niveau  \alpha . Eine explizite Beschreibung des Tests mit skizzierter Herleitung aus dem Neyman-Pearson-Lemma findet sich hier.

Literatur[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. Erling Andersen: Sufficiency and Exponential Families for Discrete Sample Spaces. In: Journal of the American Statistical Association. 65, Nr. 331, September 1970, S. 1248–1255. doi:10.2307/2284291.
  2. E. Pitman: Sufficient statistics and intrinsic accuracy. In: Proc. Camb. phil. Soc.. 32, 1936, S. 567–579.
  3. G. Darmois: Sur les lois de probabilites a estimation exhaustive. In: C.R. Acad. sci. Paris. 200, 1935, S. 1265–1266.
  4. B Koopman: On distribution admitting a sufficient statistic. In: Trans. Amer. math. Soc.. 39, 1936, S. 399–409. doi:10.2307/1989758.