Suffizienz (Statistik)

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

In der mathematischen Statistik ist Suffizienz bezüglich eines Modells eine mögliche Eigenschaft messbarer Funktionen, die aus dem Stichprobenraum in einen beliebigen Messraum abbilden. Man charakterisiert dabei solche Abbildungen als suffizient (auch: erschöpfend), die einen hochdimensionalen Datenvektor in eine einfachere Form transformieren, ohne dabei wesentliche Informationen über die zu Grunde liegende Wahrscheinlichkeitsverteilung zu verlieren. Gegenstück der Suffizienz ist die Verteilungsfreiheit, sie entspricht einer uninformativen Transformation.

Anschaulich formuliert sind also genau solche Statistiken suffizient, die sämtliche Informationen über die zu schätzenden Parameter des Modells beinhalten, die in der Stichprobe enthalten sind.

Suffizienz zählt neben Konsistenz, (asymptotischer) Erwartungstreue und (asymptotischer) Effizienz zu den vier gebräuchlichen Kriterien für die Qualität von Schätzern.

Definition[Bearbeiten | Quelltext bearbeiten]

Formal seien \Psi der Stichprobenraum, \Omega_T ein beliebiger Messraum und T:  \Psi \rightarrow \Omega_T eine messbare Abbildung zwischen den beiden Räumen. Ferner sei X = (X_1, \ldots, X_n) eine Zufallsvariable auf dem Stichprobenraum, deren Verteilung aus einer Familie von Wahrscheinlichkeitsmaßen \mathcal P = \{ P_{\vartheta} ; \; \vartheta \in \Theta \} stammt. T \; heißt dann suffizient für die Familie \mathcal P, falls die Verteilung von X \; | \; T(X) = t nicht von \vartheta abhängt.

Allgemeiner lässt sich die Suffizienz einer Statistik mittels der suffizienz von σ-Algebren definieren: Eine Statistik  T heißt suffizient, wenn die von ihr erzeugte σ-Algebra eine suffiziente σ-Algebra ist.

Beispiel: Binomialverteilung[Bearbeiten | Quelltext bearbeiten]

Ein einfaches Beispiel für suffiziente Statistiken erhalten wir bei der Untersuchung identisch unabhängig Bernoulli-verteilter Zufallsvariablen. Das zugrundeliegende Modell ist also ein Bernoulli-Prozess. Die Zähldichte der Zufallsvariable X = (X_1, \ldots, X_n) ist in diesem Fall durch f_{\vartheta}(x) =  \vartheta^{\sum_{i=1}^{n} x_{i}} (1-\vartheta)^{n - \sum_{i=1}^{n} x_i} gegeben, wobei die x_i entweder 0 oder 1 sind. Man beachte, dass das Zählmaß auf \left(\left\{0,1\right\}^n,\mathcal{P}\left(\left\{0,1\right\}^n\right)\right) endlich (insbesondere also \sigma-endlich) ist und wegen der Existenz der Dichten die Klasse dominiert. Daher erkennt man anhand der Neyman-Charakterisierung, dass  \sum_{i=1}^{n} X_i suffizient für \vartheta ist. Heuristisch gesprochen genügt es also, an Stelle des gesamten Datenvektors bloß die Anzahl der Erfolge in diesem Experiment zu kennen, um alle Informationen über den unbekannten Parameter \vartheta zu erhalten.

Sätze über Suffizienz bei dominierten Verteilungsklassen[Bearbeiten | Quelltext bearbeiten]

Satz von Halmos-Savage[Bearbeiten | Quelltext bearbeiten]

Hauptartikel: Satz von Halmos-Savage

Der Satz von Halmos-Savage liefert ein Suffizienzkriterium unter der Annahme, dass die Verteilungsklasse dominiert ist. Lassen sich dann abzählbar unendlich viele Maße der Verteilungsklasse zu einem Maß  P^* kombinieren, so dass dieses die Verteilungsklasse dominiert und jedes Wahrscheinlichkeitsmaß der Verteilungsklasse eine  \mathcal S-messbare Dichte bezüglich  P^* besitzt, dann ist  \mathcal S eine suffiziente σ-Algebra.

Neyman-Kriterium[Bearbeiten | Quelltext bearbeiten]

Hauptartikel: Neyman-Kriterium

Unter der Voraussetzung, dass \mathcal{P} eine dominierte Verteilungsklasse ist, ist eine Statistik T \; genau dann suffizient, wenn messbare Funktionen g_{\vartheta}\ \left(\vartheta\in\Theta\right) und h \; existieren, so dass die Dichte f_{\vartheta} wie folgt zerlegt werden kann: f_{\vartheta}(x) = h(x) g_{\vartheta}(T(x)). Diese Charakterisierung der Suffizenz geht auf Jerzy Neyman zurück. Insbesondere sind bijektive Transformationen suffizienter Statistiken wieder suffizient. Das Neyman-Kriterium leitet sich aus dem Satz von Halmos-Savage ab, ist aber leichter zu handhaben.

Weitere Suffizienzbegriffe[Bearbeiten | Quelltext bearbeiten]

Minimalsuffizienz[Bearbeiten | Quelltext bearbeiten]

Hauptartikel: Minimalsuffizienz

Die Minimalsuffizienz ist eine stärkere Forderung als die Suffizienz, die ebenfalls für Statistiken und σ-Algebren definiert wird. Sie stellt die Frage nach der maximal möglichen Datenkompression, also nach einer kleinstmöglichen suffizienten σ-Algebra.

Starke Suffizienz[Bearbeiten | Quelltext bearbeiten]

Hauptartikel: Starke Suffizienz

Die starke Suffizienz ist eine Abwandlung des herkömmlichen Suffizienzbegriffes, die mittels Markow-Kernen definiert wird. Für borelsche Räume stimmen starke Suffizienz und Suffizienz überein.

Wichtige Sätze[Bearbeiten | Quelltext bearbeiten]

Weblinks[Bearbeiten | Quelltext bearbeiten]

Literatur[Bearbeiten | Quelltext bearbeiten]