Suffizienz (Statistik)

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Suffizienz ist in der mathematischen Statistik ein Begriff, der als Eigenschaft messbaren Funktionen zukommen kann, die aus dem Stichprobenraum in einen beliebigen Messraum abbilden. Man charakterisiert dabei solche Abbildungen als suffizient (auch: erschöpfend), die einen hochdimensionalen Datenvektor in eine einfachere Form transformieren, ohne dabei wesentliche Informationen über die zu Grunde liegende Wahrscheinlichkeitsverteilung zu verlieren.

Anschaulich formuliert sind also genau solche Statistiken suffizient, die sämtliche Informationen über die geschätzten Parameter beinhalten, die in der Stichprobe enthalten sind.

Suffizienz zählt neben Konsistenz, (asymptotischer) Erwartungstreue und (asymptotischer) Effizienz zu den vier gebräuchlichen Kriterien für die Qualität von Schätzern.

Definition[Bearbeiten]

Formal seien \Psi der Stichprobenraum, \Omega_T ein beliebiger Messraum und T:  \Psi \rightarrow \Omega_T eine messbare Abbildung zwischen den beiden Räumen. Ferner sei X = (X_1, \ldots, X_n) eine Zufallsvariable auf dem Stichprobenraum, deren Verteilung aus einer Familie von Wahrscheinlichkeitsmaßen \mathcal P = \{ P_{\vartheta} ; \; \vartheta \in \Theta \} stammt. T \; heißt dann suffizient für die Familie \mathcal P, falls die Verteilung von X \; | \; T(X) = t nicht von \vartheta abhängt.

Neyman-Charakterisierung für dominierte Familien von W-Maßen[Bearbeiten]

Eine äquivalente Charakterisierung der Suffizenz geht auf Jerzy Neyman zurück, wonach eine Statistik T \; genau dann suffizient ist, wenn messbare Funktionen g_{\vartheta} und h \; existieren, so dass die Dichte f_{\vartheta} wie folgt zerlegt werden kann: f_{\vartheta}(x) = h(x) g_{\vartheta}(T(x)). Insbesondere sind bijektive Transformationen suffizienter Statistiken wieder suffizient.

Beispiel: Binomialverteilung[Bearbeiten]

Ein einfaches Beispiel für suffiziente Statistiken erhalten wir bei der Untersuchung binomialverteilter bzw. Bernoulli-verteilter Zufallsvariablen. Die Zähldichte der Zufallsvariable X = (X_1, \ldots, X_n) ist in diesem Fall durch f_{\vartheta}(x) =  \vartheta^{\sum_{i=1}^{n} x_{i}} (1-\vartheta)^{n - \sum_{i=1}^{n} x_i} gegeben, wobei die x_i entweder 0 oder 1 sind. Daher erkennt man anhand der Neyman-Charakterisierung sofort, dass  \sum_{i=1}^{n} X_i suffizient für \vartheta ist. Heuristisch gesprochen genügt es also, an Stelle des gesamten Datenvektors bloß die Anzahl der Erfolge in diesem Experiment zu kennen, um alle Informationen über den unbekannten Parameter \vartheta zu erhalten.

Literatur[Bearbeiten]

  • Helmut Pruscha: Vorlesungen über Mathematische Statistik. B. G. Teubner, Stuttgart 2000, ISBN 3-519-02393-8, Abschnitt II.3.