Parametrische Statistik

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Die parametrische Statistik ist ein Zweig der induktiven Statistik. Um mit Hilfe von Daten aus einer Stichprobe Aussagen über eine unbekannte Grundgesamtheit herzuleiten, wird in der induktiven Statistik davon ausgegangen, dass die Beobachtungsdaten x_1,\ldots, x_n Realisationen von Zufallsvariablen X_1,\ldots, X_n sind. In der parametrischen Statistik wird zusätzlich angenommen, dass die Zufallsvariablen X_i aus einer Familie vorgegebener Wahrscheinlichkeitsverteilungen (oft: der Normalverteilung) stammen, deren Elemente bis auf einen (endlichdimensionalen) Parameter eindeutig bestimmt sind.[1] Die meisten bekannten statistischen Analyseverfahren sind parametrische Verfahren.[2]

Im Gegensatz dazu steht die nichtparametrische oder parameterfreie Statistik. Da deren Verfahren keine Verteilungsannahme bzgl. der der Zufallsvariablen X_i erfordern, heißen sie auch verteilungsfrei.[3]

Beispiel[Bearbeiten]

Um eine neue Therapie zur Senkung des Cholesterinspiegels zu testen, werden bei zehn Probanden vor und nach der Behandlung die Cholesterinwerte bestimmt. Es ergeben sich die folgenden Messergebnisse:

Vor der Behandlung: 223 259 248 220 287 191 229 270 245 201
Nach der Behandlung: 218 242 241 208 297 168 208 273 250 186
Differenz: 5 17 7 12 -10 23 21 -3 -5 15

Wenn die neue Therapie einen Effekt hat, dann sollte der Mittelwert der Differenzen signifikant von Null abweichen. Der parametrische Test lehnt die Nullhypothese ab, während der nichtparametrische Test diese nicht verwerfen kann. In der Praxis würde man hier natürlich einseitige Tests durchführen.

Parametrisches Verfahren[Bearbeiten]

Üblicherweise würde man hier den Zweistichproben-t-Test für abhängige Stichproben einsetzen (Nullhypothese: der Mittelwert der Differenz ist Null). Eine Voraussetzung für diesen Test ist jedoch, dass entweder der Stichprobenumfang größer als 30 ist (Faustregel) oder die Differenzen normalverteilt sind. Sind die Differenzen normalverteilt, kann man zeigen, dass die Teststatistik einer t-Verteilung folgt.

Die Differenzen der Messwerte haben das arithmetische Mittel \bar d = 8{,}2 und die Stichprobenstandardabweichung s_d=11{,}3867 (gerundet). Das ergibt als Prüfwert

t=\sqrt{10}\frac{8{,}2}{11{,}3867}=2{,}281 (gerundet).

Der Nichtablehnungsbereich der Nullhypothese bei einem Signifikanzniveau von \alpha=5% ergibt sich zu [-2{,}262; +2{,}262]. Da der Prüfwert außerhalb des Nichtablehnungsbereich der Nullhypothese liegt, muss sie verworfen werden.

Nichtparametrisches Verfahren[Bearbeiten]

Die nichtparametrische Alternative hierzu ist der Vorzeichentest. Hier ist die Nullhypothese, dass der Median Null ist. Bei der Normalverteilung stimmen Median und Mittelwert immer überein, dies ist jedoch bei anderen Wahrscheinlichkeitsverteilungen nicht unbedingt der Fall. Hier sind genau drei Differenzen kleiner Null und sieben größer als Null. Die Teststatistik folgt einer Binomialverteilung mit n=10 und p=0{,}5. Der Nichtablehnungsbereich der Nullhypothese bei einem Signifikanzniveau von \alpha=5% ergibt sich zu [2; 8]. Da drei und sieben innerhalb des Nichtablehnungsbereich der Nullhypothese liegen, kann sie nicht verworfen werden.

Vorteile und Nachteile[Bearbeiten]

Die Verfahren der parametrischen Statistik beruhen im Gegensatz zu Methoden der nichtparametrischen Statistik auf zusätzlichen Verteilungsannahmen.[4] Sind diese Annahmen richtig, ergeben sich in aller Regel genauere und präzisere Schätzungen. Sind sie nicht korrekt, so liefern parametrische Verfahren in vielen Fällen schlechte Schätzungen; das parametrische Konzept ist dann nicht robust gegen die Verletzung der Verteilungsannahmen. Andererseits sind parametrische Verfahren oft einfacher und schneller zu berechnen. Manchmal ist eine schnelle Berechnung wichtiger als die Nicht-Robustheit, insbesondere wenn diese bei der Interpretation von Statistiken berücksichtigt wird.[5]

Begriffsgeschichte[Bearbeiten]

Der Statistiker Jacob Wolfowitz prägte den statistischen Begriff der parametrischen Statistik, um deren Gegenteil zu definieren:

„Most of these developments have this feature in common, that the distribution functions of the various stochastic variables which enter into their problems are assumed to be of known functional form, and the theories of estimation and of testing hypotheses are theories of estimation of and of testing hypotheses about, one or more parameters. . ., the knowledge of which would completely determine the various distribution functions involved. We shall refer to this situation. . .as the parametric case, and denote the opposite case, where the functional forms of the distributions are unknown, as the non-parametric case.“

Jacob Wolfowitz[6]

Einzelnachweise[Bearbeiten]

  1.  Seymour Geisser, Wesley O. Johnson: Modes of Parametric Statistical Inference. Wiley, 2006, ISBN 978-0471743132.
  2.  D. R. Cox: Principles of Statistical Inference. Cambridge University Press, 2006, ISBN 978-0521685672.
  3.  David C. Hoaglin, John Tukey, Frederick Mosteller: Understanding Robust and Exploratory Data Analysis. John Wiley & Sons, 2000, ISBN 978-0471384915.
  4.  Gregory W. Corder und Dale I. Foreman: Nonparametric Statistics for Non-Statisticians: A Step-by-Step Approach. John Wiley & Sons, 2009, ISBN 978-0470454619.
  5.  David A. Freedman: Statistical Models: Theory and Practice. 2. Auflage. Cambridge University Press, 2009, ISBN 978-0521743853.
  6.  Jacob Wolfowitz: Additive Partition Functions and a Class of Statistical Hypotheses. In: Annals of Mathematical Statistics. 13, 1942, S. 264.