Statistischer Test

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung.

Ein statistischer Test dient in der mathematischen Statistik dazu, anhand vorliegender Beobachtungen eine begründete Entscheidung über die Gültigkeit oder Ungültigkeit einer Hypothese zu treffen. Formal ist ein Test also eine mathematische Funktion, die einem Beobachtungsergebnis eine Entscheidung zuordnet. Da die vorhandenen Daten Realisationen von Zufallsvariablen sind, lässt sich in den meisten Fällen nicht mit Sicherheit sagen, ob eine Hypothese stimmt oder nicht. Man versucht daher, die Wahrscheinlichkeiten für Fehlentscheidungen zu kontrollieren, was einem Test zu einem vorgegebenen Signifikanzniveau entspricht. Aus diesem Grund spricht man auch von einem Hypothesentest oder einem Signifikanztest.

Interpretation eines statistischen Tests[Bearbeiten]

Ein statistisches Testverfahren lässt sich im Prinzip mit einem Gerichtsverfahren vergleichen. Das Verfahren hat (meistens) als Zweck festzustellen, ob es ausreichend Beweise gibt, den Angeklagten zu verurteilen. Es wird dabei immer von der Unschuld eines Verdächtigen ausgegangen, und solange große Zweifel an den Belegen für ein tatsächliches Vergehen bestehen, wird ein Angeklagter freigesprochen. Nur wenn die Indizien für die Schuld eines Angeklagten deutlich überwiegen, kommt es zu einer Verurteilung.

Es gibt demnach zu Beginn des Verfahrens die beiden Hypothesen H_0 „der Verdächtige ist unschuldig“ und H_1 „der Verdächtige ist schuldig“. Erstere nennt man Nullhypothese, von ihr wird vorläufig ausgegangen. Die zweite nennt man Alternativhypothese. Sie ist diejenige, die zu „beweisen“ versucht wird.

Um einen Unschuldigen nicht zu leicht zu verurteilen, wird die Hypothese der Unschuld erst dann verworfen, wenn ein Irrtum sehr unwahrscheinlich ist. Man spricht auch davon, die Wahrscheinlichkeit für einen Fehler erster Art (also das Verurteilen eines Unschuldigen) zu kontrollieren. Naturgemäß wird durch dieses unsymmetrische Vorgehen die Wahrscheinlichkeit für einen Fehler zweiter Art (also das Freisprechen eines Schuldigen) „groß“. Aufgrund der stochastischen Struktur des Testproblems lassen sich wie in einem Gerichtsverfahren Fehlentscheidungen grundsätzlich nicht vermeiden. Man versucht in der Statistik allerdings optimale Tests zu konstruieren, die die Fehlerwahrscheinlichkeiten minimieren.

Ein einführendes Beispiel[Bearbeiten]

Es soll versucht werden, einen Test auf hellseherische Fähigkeiten zu entwickeln.

Einer Testperson wird 25-mal die Rückseite einer rein zufällig gewählten Spielkarte gezeigt und sie wird danach gefragt, zu welcher der vier Farben (Kreuz, Pik, Herz, Karo) die Karte gehört. Die Anzahl der Treffer nennen wir X.

Da die hellseherischen Fähigkeiten der Person getestet werden sollen, gehen wir vorläufig von der Nullhypothese aus, die Testperson sei nicht hellsehend. Die Alternativhypothese lautet entsprechend: Die Testperson ist hellseherisch begabt.

Was bedeutet das für unseren Test? Wenn die Nullhypothese richtig ist, wird die Testperson nur versuchen können, die jeweilige Farbe zu erraten. Für jede Karte gibt es natürlich eine Wahrscheinlichkeit von 1/4, richtig zu antworten. Ist die Alternativhypothese richtig, hat die Person für jede Karte eine größere Wahrscheinlichkeit als 1/4. Wir nennen die Wahrscheinlichkeit einer richtigen Vorhersage p.

Die Hypothesen lauten dann:[1]

H_0\colon p=\tfrac 14

und

H_1\colon p>\tfrac 14.

Wenn die Testperson alle 25 Karten richtig benennt, werden wir sie als Hellseher betrachten und natürlich die Nullhypothese ablehnen. Und mit 24 oder 23 Treffern auch. Andererseits gibt es bei nur 5 oder 6 Treffern keinen Grund dazu. Aber was wäre mit 12 Treffern? Was ist mit 17 Treffern? Wo liegt die kritische Anzahl an Treffern c, von der an wir nicht mehr glauben können, es seien reine Zufallstreffer?

Wie bestimmen wir also den kritischen Wert c? Mit c = 25 (also dass wir nur hellseherische Fähigkeiten erkennen wollen, wenn alle Karten richtig erkannt worden sind) ist man deutlich kritischer als mit c = 10. Im ersten Fall wird man kaum eine Person als Hellseher ansehen, im zweiten Fall einige mehr.

In der Praxis kommt es also darauf an, wie kritisch man genau sein will, also wie oft man eine Fehlentscheidung erster Art zulässt. Mit c = 25 ist die Wahrscheinlichkeit einer solchen Fehlentscheidung:

 P(H_0 \mbox{ ablehnen}\mid H_0  \mbox{ ist richtig}) = P\left(X \ge 25\mid p=\tfrac 14\right)=\left(\tfrac 14\right)^{25}\approx10^{-15},

also sehr klein. Es ist die Wahrscheinlichkeit, dass die Testperson rein zufällig 25-mal richtig geraten hat.

Weniger kritisch, mit c = 10, erhalten wir mit der Binomialverteilung, B(\cdot\mid p,25)

 P(H_0 \mbox{ ablehnen}\mid H_0  \mbox{ ist richtig}) = P\left(X \ge 10\mid p=\tfrac 14\right) = \sum_{i=10}^{25}B\left(i\mid\tfrac 14,25\right) \approx 0{,}07,

eine wesentlich größere Wahrscheinlichkeit.

Vor dem Test wird eine Wahrscheinlichkeit für den Fehler erster Art festgesetzt. Typisch sind Werte zwischen 1 % und 5 %. Abhängig davon lässt sich (hier im Falle eines Signifikanzniveaus von 1 %) dann c so bestimmen, dass

 P(H_0 \mbox{ ablehnen}\mid H_0  \mbox{ ist richtig}) = P\left(X \ge c\mid p=\tfrac 14\right) \le 0{,}01

gilt. Unter allen Zahlen c, die diese Eigenschaft erfüllen, wird man zuletzt c als die kleinste Zahl wählen, die diese Eigenschaft erfüllt, um die Wahrscheinlichkeit für den Fehler zweiter Art klein zu halten. In diesem konkreten Beispiel folgt: c = 13. Ein Test dieser Art heißt Binomialtest, da die Anzahl der Treffer unter der Nullhypothese binomial verteilt ist.

Mögliche Fehlentscheidungen[Bearbeiten]

Auch wenn es wünschenswert ist, dass der Test aufgrund der vorliegenden Daten „richtig“ entscheidet, besteht die Möglichkeit von Fehlentscheidungen. Im mathematischen Modell bedeutet dies, dass man bei richtiger Nullhypothese und Entscheidung für die Alternative einen Fehler 1. Art (α-Fehler) begangen hat. Falls man die Nullhypothese bestätigt sieht, obwohl sie nicht stimmt, begeht man einen Fehler 2. Art (β-Fehler).

In der statistischen Praxis macht man aus diesem vordergründig symmetrischen Problem ein unsymmetrisches: Man legt also ein Signifikanzniveau α fest, das eine obere Schranke für die Wahrscheinlichkeit eines Fehlers erster Art liefert. Tests mit dieser Eigenschaft heißen Test zum Niveau α. Im Anschluss daran versucht man, einen optimalen Test zum vorgegebenen Niveau dadurch zu erhalten, dass man unter allen Tests zum Niveau α einen sucht, der die geringste Wahrscheinlichkeit für einen Fehler 2. Art aufweist.

Die formale Vorgehensweise[Bearbeiten]

Generell geht man bei der Anwendung eines Tests in folgenden Schritten vor:

  1. Formulierung einer Nullhypothese H_0 und ihrer Alternativhypothese H_1
  2. Wahl des geeigneten Tests (Testgröße oder Teststatistik T)
  3. Bestimmung des kritischen Bereiches K zum Signifikanzniveau \alpha, das vor Realisation der Stichprobe feststehen muss. Der kritische Bereich wird aus den unter der Nullhypothese nur mit geringer Wahrscheinlichkeit auftretenden Werten der Teststatistik gebildet.
  4. Berechnung des Werts der Beobachtung t_\text{obs} der Testgröße T aus der Stichprobe (je nach Testverfahren etwa den t-Wert oder U oder H oder \chi^2…).
  5. Treffen der Testentscheidung:
    • Liegt t_\text{obs} nicht in K, so wird H_0 beibehalten.
    • Liegt t_\text{obs} in K, so lehnt man H_0 zugunsten von H_1 ab.

Formale Definition eines statistischen Testes[Bearbeiten]

Parametrischer statistischer Test[Bearbeiten]

Sei X eine Zufallsvariable, die von einem Wahrscheinlichkeitsraum (\Omega, \mathcal{A}, \mathbb{P}_\theta) in einen Messraum (\mathcal{X}, \mathcal{F}) abbildet. Sei zusätzlich \mathcal{P}=\{P_\theta : \theta \in \Theta\} die parametrische Verteilungsannahme, also eine Familie von Wahrscheinlichkeitsmaßen auf (\mathcal{X}, \mathcal{F}), wobei P_\theta = \mathbb{P}_\theta \circ X^{-1} die Verteilung von X ist. Hierbei sei \Theta der Parameterraum, der in der Praxis meist eine Teilmenge des \mathbb{R}^n ist. Eine Zerlegung von \Theta in zwei disjunkte Mengen \Theta_0 und \Theta_1 definiert das Testproblem:

  • H_0 : \theta \in \Theta_0
  • H_1 : \theta \in \Theta_1,

wobei H_0 die Nullhypothese und H_1 die Alternativhypothese bezeichnet.

Eine messbare Funktion \varphi\colon \mathcal{X} \rightarrow \{0,1\} heißt Test. Dieser Testfunktion \varphi legt man nun folgende Interpretation zugrunde:

  • \varphi(x) = 1 \Rightarrow Nullhypothese H_0 ablehnen bzw. verwerfen
  • \varphi(x) = 0 \Rightarrow Nullhypothese H_0 beibehalten

Die Menge K_\varphi=\{x\in\mathcal{X} \mid \varphi(x)=1\} derjenigen Beobachtungsergebnisse x, die zu einer Ablehnung von H_0 führen, heißt kritischer Bereich des Tests.

Sei nun \alpha \in [0,1] ein Signifikanz-Niveau. Dann heißt ein Test \varphi ein Test zum Niveau \alpha für das Testproblem H_0 gegen H_1 (auch Niveau-\alpha-Test), wenn

\sup_{\theta\in\Theta_0}\mathbb{P}_\theta(X\in K_\varphi) = \alpha.

Im Falle der Existenz von K_\varphi sucht man in der Regel den kritischen Bereich, der für alle \tilde{K}\in \mathcal{F}, die für alle \theta \in \Theta_0 die Bedingung \mathbb{P}_\theta(X\in \tilde{K}) \leq \alpha erfüllen, und für alle \theta \in \Theta_1 folgende Optimalitätsbedingung erfüllt:

\mathbb{P}_\theta(X\in \tilde{K})\leq \mathbb{P}_\theta(X\in K_\varphi)

Neyman-Pearson-Tests[Bearbeiten]

Angaben über die Wahrscheinlichkeiten von Fehlern erster und zweiter Art sind dann am besten möglich, wenn Null- und Alternativhypothese durch nur je einen Wert des Parameters charakterisiert werden: H_0\colon \theta = \theta_0, H_1\colon \theta = \theta_1. Grund ist, dass in diesem denkbar einfachsten Fall auf die Bildung des Supremums zur Bestimmung des Signifikanz-Niveaus und einer oberen Schranke für einen Fehler zweiter Art verzichtet werden kann. Folglich lassen sich zu dieser Situation konstruierte Testentscheidungen besonders gut untereinander vergleichen, so dass optimale Tests gefunden werden können.

Ein sogenannter Neymann-Pearson-Test ist ein sogenannter Likelihood-Quotienten-Test, der die Nullhypothese ablehnt, falls

\Lambda(x)=\frac{ f_{\theta _{0}} (x)}{ f_{\theta _{1}}(x)} \leq k \mbox{ mit } P_{H_0}(\Lambda(X)\leq k)=\alpha

gilt. Dieser Test ist nach dem Neyman-Pearson-Lemma einziger bester Test zum Niveau \alpha.

Neyman-Pearson-Tests lassen sich auf einseitige Hypothesen der Form H_0\colon \theta \leq \theta_0 und H_1\colon \theta > \theta_0 ausdehnen, falls die Verteilungsfamilie einen monotonen Dichtequotienten besitzt.

Asymptotisches Verhalten des Tests[Bearbeiten]

In den meisten Fällen ist die exakte Wahrscheinlichkeitsverteilung der Teststatistik unter der Nullhypothese nicht bekannt. Man steht also vor dem Problem, dass kein kritischer Bereich zum vorgegebenen Niveau festgelegt werden kann. In diesen Fällen erweitert man die Klasse der zulässigen Tests auf solche, die asymptotisch das richtige Niveau besitzen. Formal bedeutet dies, dass man den Bereich K so wählt, dass für alle \theta \in H_0 die Bedingung

\limsup_{n \to \infty} P_{\theta}(T(X) \in K) \leq \alpha

erfüllt ist. In der Regel erhält man solche asymptotischen Tests via Normalapproximation; man versucht also, die Teststatistik so zu transformieren, dass sie gegen eine Normalverteilung konvergiert.

Einfache Beispiele hierfür sind der einfache und doppelte t-Test für Erwartungswerte. Hier folgt die asympotische Verteilung direkt aus dem Zentralen Grenzwertsatz in der Anwendung auf das arithmetische Mittel. Daneben gibt es aber eine Reihe weiterer statistischer Methoden, die die Herleitung der asymptotischen Normalverteilung auch für kompliziertere Funktionale erlauben. Hierunter fällt die Deltamethode für nichtlineare, differenzierbare Transformationen asymptotisch normalverteilter Zufallsvariablen:

Sei  c\colon R^{p}\rightarrow R^{q} eine differenzierbare Funktion und sei ein Schätzer \hat\beta \in R^{p} \sqrt{n}-normalverteilt mit Kovarianzmatrix V, dann hat n^{0,5}(\hat\beta-\beta) folgende Verteilung: N(0, (\partial c/\partial \beta)'V(\partial c/\partial \beta)).

Ferner hat die nichtparametrische Deltamethode (auch: Einflussfunktionsmethode) einige Fortschritte gebracht:

Sei T(F) ein Funktional, das von der Verteilung F abhängt. Sei L(x)\equiv\lim_{\delta\rightarrow 0}(T((1-\delta)F+\delta G)-T(F))/\delta) die Gâteaux-Ableitung der Statistik bei F (Einflussfunktion) und sei T Hadamard-differenzierbar bezüglich \sup_x|F(x)-G(x)|, dann hat \sqrt{n}(T(\hat F)-T(F)) folgende Verteilung: N\left(0,\int L(x)^2\mathrm dF(x)\right).

Die Deltamethode erlaubt Normalverteilungsapproximationen für nichtlineare, differenzierbare Transformationen (asymptotisch) normalverteilter Zufallsvariablen, während die Einflussfunktionsmethode solche Approximationen für viele interessante Charakteristika einer Verteilung zulässt. Darunter fallen u. a. die Momente (also etwa: Varianz, Kurtosis usw.), aber auch Funktionen dieser Momente (etwa: Korrelationskoeffizient).

Eine wichtige weitere Anforderung an einen guten Test ist, dass er bei wachsendem Stichprobenumfang empfindlicher wird. In statistischen Termini bedeutet dies, dass bei Vorliegen einer konsistenten Teststatistik die Wahrscheinlichkeit dafür steigt, dass die Nullhypothese auch tatsächlich zu Gunsten der Alternative verworfen wird, falls sie nicht stimmt. Speziell wenn der Unterschied zwischen dem tatsächlichen Verhalten der Zufallsvariablen und der Hypothese sehr gering ist, wird er erst bei einem entsprechend großen Stichprobenumfang entdeckt. Ob diese Abweichungen jedoch von praktischer Bedeutung sind und überhaupt den Aufwand einer großen Stichprobe rechtfertigen, hängt von dem zu untersuchenden Aspekt ab.

Problem der Modellwahl[Bearbeiten]

Die meisten mathematischen Resultate beruhen auf Annahmen, die bezüglich bestimmter Eigenschaften der beobachteten Zufallsvariablen gemacht werden. Je nach Situation werden verschiedene Teststatistiken gewählt, deren (asymptotische) Eigenschaften wesentlich von den Forderungen an die zu Grunde liegende Verteilungsfamilie abhängen. In der Regel müssen diese Modellannahmen zuvor empirisch überprüft werden, um überhaupt angewendet werden zu können. Kritisch ist dabei vor allem, dass die typischen Testverfahren strengen Voraussetzungen unterworfen sind, die in der Praxis selten erfüllt sind.

Typen und Eigenschaften von Tests[Bearbeiten]

Parametrische und nichtparametrische Tests[Bearbeiten]

Parametrische Tests (parametrisches Prüfverfahren)[Bearbeiten]

Bei Parametertests interessieren konkrete Werte wie Varianz oder Mittelwert. Ein parametrisches Prüfverfahren macht also Aussagen über Grundgesamtheitsparameter oder die in der Verteilungsfunktion einer Untersuchungsvariablen auftretenden Konstanten. Dazu müssen alle Parameter der Grundgesamtheit bekannt sein (was oft nicht gegeben ist). Bei einem Parametertest hat jede der denkbaren Stichproben die gleiche Realisationschance. Parametrische Tests gehen davon aus, dass die beobachteten Stichprobendaten einer Grundgesamtheit entstammen, in der die Variablen oder Merkmale ein bestimmtes Skalenniveau und eine bestimmte Wahrscheinlichkeitsverteilung aufweisen, häufig Intervallskalenniveau und Normalverteilung. In diesen Fällen ist man also daran interessiert, Hypothesen über bestimmte Parameter der Verteilung zu testen.

Sofern die gemachten Verteilungsannahmen nicht stimmen, sind die Ergebnisse des Tests in den meisten Fällen unbrauchbar. Speziell lässt sich die Wahrscheinlichkeit für einen Fehler zweiter Art nicht mehr sinnvoll minimieren. Man spricht dann davon, dass für viele Alternativen die power sinkt.

Nichtparametrische Tests[Bearbeiten]

Bei parameterfreien Tests (auch nichtparametrische Tests oder Verteilungstests genannt) wird der Typ der Zufallsverteilung überprüft: Man entscheidet, ob eine aus n Beobachtungen oder Häufigkeitsverteilungen bestehende Nullhypothese, die man aus einer Zufallsstichprobe gezogen hat, mit einer Null-Hypothese vereinbar ist, die man über die Verteilung in der Grundgesamtheit aufgestellt hat. Nichtparametrische Tests kommen also mit anderen Vorannahmen aus, die Menge der für Hypothese und Alternative zugelassenen Verteilungen lässt sich nicht durch einen Parameter beschreiben.

Typische Beispiele:

Da jedoch parametrische Tests trotz Verletzung ihrer Annahmen häufig eine bessere Power bieten als nichtparametrische, kommen letztere eher selten zum Einsatz.

Entscheidungsschema parametrischer/nichtparametrischer Test[Bearbeiten]

Grundsätzlich wird ein parametrischer Test einer nichtparametrischen Alternative vorgezogen. Ein parametrischer Test verwendet mehr Informationen als ein nichtparametrischer Test, was die Testgüte erhöht (unter der Annahme, dass die zusätzlichen Informationen korrekt sind). Der nachfolgende Algorithmus (in Pseudocode) kann zur Auswahl eines parametrischen Tests bzw. einer nichtparametrischen Alternative angewandt werden. Wird STOP erreicht, wird der Algorithmus beendet.[2]

  1. Ist die Variable nicht kardinal skaliert?
    1. Falls ja, dann nichtparametrisch testen. STOP.
  2. Eine grafische Überprüfung der Voraussetzungen durchführen. Sind die Testvoraussetzungen deutlich verletzt?
    1. Falls ja, dann prüfen, ob man mit einer Variablentransformation die Verletzung beheben kann. Macht eine entsprechende Transformation keinen Sinn, dann nichtparametrisch testen. STOP.
  3. Sind Testverzerrungen aufgrund der Stichprobencharakteristika zu erwarten?
    1. Falls ja, dann nichtparametrisch testen. STOP.
  4. Sonst parametrisch testen. Wird die Alternativhypothese H_1 angenommen?
    1. Falls ja, dann die Alternativhypothese H_1 annehmen. STOP.
  5. Überprüfung der Voraussetzungen des Tests mittels entsprechender Tests. Ist mindestens eine Voraussetzungen nicht erfüllt?
    1. Falls ja, dann die Nullhypothese H_0 beibehalten. STOP.
  6. Zusätzlich nichtparametrisch testen. Wird das Ergebnis des parametrischen Test bestätigt?
    1. Falls ja, dann die Nullhypothese H_0 beibehalten. STOP.
  7. Es wird die Alternativhypothese H_1 angenommen. STOP.

Verteilungsfreie und verteilungsgebundene Tests[Bearbeiten]

Bei verteilungsgebundenen oder parametrischen Tests[3] hängt die Teststatistik T von der Verteilung der Stichprobenvariablen X_i, also ihrer Verteilung in der Grundgesamtheit, ab. Oft wird eine Normalverteilung vorausgesetzt. Ein Beispiel für einen verteilungsgebundenen Test ist der F-Test zum Vergleich von zwei Varianzen zweier normalverteilter Grundgesamtheiten.

Bei verteilungsfreien Tests, auch nichtparametrische oder parameterfreie Tests genannt[3][4][5], hängt die Teststatistik T nicht von der Verteilung der Stichprobenvariablen X_i ab. Ein Beispiel für einen verteilungsfreien Test ist der Levene-Test zum Vergleich von zwei Varianzen zweier beliebig verteilter Grundgesamtheiten.

Konservativer Test[Bearbeiten]

Bei einem konservativen Test gilt für jede Stichprobe, dass die Wahrscheinlichkeit für einen Fehler 1. Art (Annahme der Alternativhypothese als Ergebnis der Testentscheidung, obwohl die Nullhypothese wahr ist) kleiner als das vorgegebene Signifikanzniveau \alpha ist. Die Konsequenz ist, dass der Nichtablehnungsbereich der Nullhypothese breiter ist als eigentlich notwendig. Damit wird die Nullhypothese seltener abgelehnt als durch das Signifikanzniveau \alpha vorgegeben. Man verhält sich konservativ und begünstigt die Annahme der Nullhypothese.

Ein Beispiel für einen konservativen Test ist der Binomialtest (Test auf Anteilswert, z.B. H_0\colon \pi\leq \pi_0 vs. H_1\colon \pi> \pi_0). Aufgrund der Diskretheit der Teststatistik T kann man nicht erreichen, dass für den kritischen Wert c gilt: P(T> c)=\alpha. Stattdessen fordert man P(T > c)\leq \alpha. Man wählt also generell als kritischen Wert jenen Wert, der zu einem Signifikanzniveau von höchstens \alpha führt. Das vorgegebene Signifikanzniveau kann also praktisch erheblich unterschritten werden.

Exakter Test[Bearbeiten]

Ein exakter Test ist ein Test, in dem die Verteilung der Teststatistik zur einfachen Berechnung nicht durch eine andere Verteilung approximiert wird. Es wird also die exakte Stichprobenverteilung verwendet. Exakte Tests sind etwa der Fisher-Test oder der Binomialtest.

Ein Beispiel ist auch hier der Binomialtest (Test auf Anteilswert, z.B. H_0\colon \pi\leq \pi_0 vs. H_1\colon \pi> \pi_0). Aufgrund des zentralen Grenzwertsatzes kann die binomial verteilte Teststatistik T mit der Normalverteilung approximiert werden, z.B. falls n \cdot \pi_0 \cdot (1-\pi_0)\geq 9 gilt. Unter Umständen ist in diesem Fall zur besseren Approximation die Anwendung einer Stetigkeitskorrektur notwendig.

Übersicht Tests[Bearbeiten]

Die wichtigsten Tests lassen sich nach verschiedenen Kriterien charakterisieren, z.B. nach

  1. Einsatzzweck, z.B. das Testen von Parametern einer Verteilung oder der Verteilung selbst
  2. Anzahl der Stichproben
  3. Abhängigkeit oder Unabhängigkeiten der Stichproben
  4. Voraussetzungen über die Grundgesamtheit(en)

Falls nicht anders angegeben, wird bei allen Tests in der folgenden Übersicht davon ausgegangen, dass die Beobachtungen unabhängig und identisch verteilt sind. Es werden folgende Abkürzungen benutzt:

Nicht-parametrische Tests sind mit einem gelben Hintergrund gekennzeichnet.

Tests auf Lageparameter (Mittelwert, Median)[Bearbeiten]

Test Test bzgl. Voraussetzung(en)
Für eine Stichprobe
Einstichproben-t-Test Mittelwert Normalverteilung in der GG oder die Verteilung genügt dem ZGS (Faustregel: Stichprobenumfang größer 30), Varianz der GG ist unbekannt
Einstichproben-Gauß-Test Mittelwert Normalverteilung in der GG oder die Verteilung genügt dem ZGS (Faustregel: Stichprobenumfang größer 30), Varianz der GG ist bekannt
Vorzeichentest Median
Für zwei unabhängige Stichproben
Zweistichproben-t-Test Mittelwerte Normalverteilung in den GGen oder die Verteilungen genügen dem ZGS (Faustregel: Gesamtstichprobenumfang mindestens 50), Varianzen in GGen sind unbekannt, aber gleich
Welch-Test Mittelwerte Normalverteilung in den GGen oder die Verteilungen genügen dem ZGS (Faustregel: Gesamtstichprobenumfang mindestens 50), Varianzen in GGen sind unbekannt und ungleich
Zweistichproben-Gauß-Test Mittelwerte Normalverteilung in den GGen oder die Verteilungen genügen dem ZGS (Faustregel: Gesamtstichprobenumfang mindestens 50), Varianzen in GGen sind bekannt, aber gleich
Wilcoxon-Mann-Whitney-Test Mittelwerte und Mediane Verteilungsfunktionen sind gegeneinander verschoben
Vorzeichentest Mediane
Für zwei abhängige Stichproben
Zweistichproben-t-Test Mittelwerte Die Differenz der Beobachtungen ist normalverteilt oder genügt dem ZGS (Faustregel: Stichprobenumfänge größer 30), Varianz der Differenz ist unbekannt
Zweistichproben-Gauß-Test Mittelwerte Die Differenz der Beobachtungen ist normalverteilt oder genügt dem ZGS (Faustregel: Stichprobenumfänge größer 30), Varianz der Differenz ist bekannt
Wilcoxon-Vorzeichen-Rang-Test Mediane Die Differenz der Beobachtungen ist symmetrisch verteilt
Vorzeichentest Mediane
Für mehrere unabhängige Stichproben
ANOVA Mittelwerte Normalverteilte GGen, Varianzen in GGen sind gleich
Kruskal-Wallis-Test Mittelwerte und Mediane Verteilungsfunktionen sind gegeneinander verschoben
Median-Test Mediane
Für mehrere abhängige Stichproben
ANOVA mit wiederholten Messungen Mittelwert Normalverteilte GGen, Spherizität
Friedman-Test Mediane(?)
Quade-Test Mediane(?)

Tests auf Streuung[Bearbeiten]

Test Test bzgl. Voraussetzung(en)
Für eine Stichprobe
F-Test Varianz Normalverteilte GG
Für zwei unabhängige Stichproben
F-Test Varianzen Normalverteilte GGen
Für zwei oder mehr unabhängige Stichproben
χ2-Test von Bartlett Varianzen Normalverteilte GGen
Levene-Test Varianzen
Für eine multivariate Stichprobe
Bartlett-Test auf Spherizität Kovarianzmatrix

Tests auf Zusammenhangs- und Assoziationsparameter[Bearbeiten]

Test Test bzgl. Voraussetzung(en)
Für zwei unabhängige Stichproben
Chi-Quadrat-Unabhängigkeitstest Unabhängigkeit GGen sind diskret verteilt
Exakter Test nach Fisher Unabhängigkeit GGen sind diskret verteilt
Steigers Z-Test Bravais-Pearson-Korrelation GGen sind bivariat normal verteilt
Für zwei abhängige Stichproben
McNemar-Test Unabhängigkeit GGen sind dichotom

Anpassungs- oder Verteilungstests[Bearbeiten]

Test Test bzgl. Voraussetzung(en)
Für eine Stichprobe
Chi-Quadrat-Anpassungstest vorg. Verteilung GG ist diskret
Anderson-Darling-Test vorg. Verteilung GG ist stetig
Kolmogorow-Smirnow-Test vorg. Verteilung GG ist stetig
Cramér-von-Mises-Test vorg. Verteilung GG ist stetig
Jarque-Bera-Test Normalverteilung GG ist stetig
Lilliefors-Test Normalverteilung GG ist stetig
Shapiro-Wilk-Test Normalverteilung GG ist stetig
Für zwei Stichproben
Zweistichproben Kolmogorow-Smirnow-Test Identische Verteilungen GGen sind stetig
Zweistichproben Cramér-von-Mises-Test Identische Verteilungen GGen sind stetig
Für mehrere Stichproben
Chi-Quadrat-Homogenitätstest Identische Verteilungen GGen sind diskret

Tests in der Regressions- und Zeitreihenanalyse[Bearbeiten]

Test Test bzgl. Voraussetzung(en)
Lineare Regression
F-Test Bestimmtheitsmaß Normalverteilte Residuen
t-Test Regressionskoeffizient Normalverteilte Residuen
Goldfeld-Quandt-Test‎ Heteroskedastizität Normalverteilte Residuen
Chow-Test Strukturbruch Normalverteilte Residuen
Zeitreihenanalyse
Durbin-Watson-Test Autokorrelation Normalverteilte Residuen
Box-Pierce-Test Autokorrelation  ?
Ljung-Box-Test Autokorrelation  ?

Verschiedene Tests[Bearbeiten]

Test Test bzgl. Voraussetzung(en)
Dichotome GG
Binomialtest Anteilswert GG ist dichotom
Run-Test Zufälligkeit GG ist dichotom
Ausreißer
Grubbs-Test Gr. oder kl. Wert GG ist normal verteilt
Walsh-Test Gr. oder kl. Wert Für ein Signifikanzniveau von 5% (10%) werden mindestens 220 (60) Werte benötigt
Allgemeine Tests der Maximum-Likelihood-Theorie
Likelihood-Quotienten-Test Koeffizient o. Modelle
Wald-Test Koeffizient o. Modelle
Score-Test Koeffizient o. Modelle

Sonstiges[Bearbeiten]

Besondere Formen dieser Tests sind:

Multipler Test
Verwendet man etwa anstelle eines H-Tests mit mehr als zwei unabhängigen Stichproben mehrere U-Tests als Einzeltests, so werden diese Einzeltests als multipler Test angesehen. Zu beachten ist hierbei besonders, dass bei den hintereinandergeschalteten Einzeltests sich die Wahrscheinlichkeit des Fehlers 1. Art mit der Anzahl des Tests vergrößert. Bei einem Vergleich muss dies unbedingt berücksichtigt werden.
Sequentieller Test
Bei einem sequentiellen Test ist der Stichprobenumfang nicht vorgegeben. Vielmehr wird bei der laufenden Datenerfassung für jede neue Beobachtung ein Test durchgeführt, ob man aufgrund der bereits erhobenen Daten eine Entscheidung für oder gegen die Nullhypothese treffen kann (siehe Sequential Probability Ratio Test).


Tests Kurzbeschreibung
Test einer Stichprobe auf Zugehörigkeit zur Normalverteilung
Parametrische Tests
Test von Cochran/Cochrans Q Test auf Gleichverteilung mehrerer verbundener dichotomer Variablen
Kendalls Konkordanzkoeffizient/Kendalls W Test auf Korrelation von Rangreihen
Friedman-Test Test auf Gleichheit des Lageparameters, bei unbekannter, aber identischer Verteilung im c-Stichprobenfall mit gepaarten Stichproben
Quade-Test Test auf Gleichheit des Lageparameters, bei unbekannter, aber identischer Verteilung im c-Stichprobenfall mit gepaarten Stichproben

Anmerkungen[Bearbeiten]

  1. Wir betrachten für p den Parameterbereich [1/4,1], um zu erreichen, dass Nullhypothese und Alternativhypothese den gesamten Parameterbereich überdecken. Bei absichtlichem Nennen einer falschen Farbe könnte man zwar auch auf Hellseh-Fähigkeiten schließen, aber wir nehmen an, dass die Testperson eine möglichst hohe Trefferzahl erzielen will.
  2.  Jürgen Bortz, Christof Schuster: Statistik für Human- und Sozialwissenschaftler. 7 Auflage. Springer, Berlin 2010, ISBN 978-3-642-12769-4.
  3. a b  Jürgen Bortz, Gustav A. Lienert, Klaus Boehnke: Verteilungsfreie Methoden in der Biostatistik. 3. Auflage. Springer, 2008, S. 35--36.
  4.  J. Hartung: Statistik: Lehr- und Handbuch der angewandten Statistik. 8. Auflage. Oldenbourg, 1991, S. 139.
  5.  K. Bosch: Statistik-Taschenbuch. Oldenbourg, 1992, S. 669.

Literatur[Bearbeiten]

  • Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener: Statistik. Lehr- und Handbuch der angewandten Statistik [mit zahlreichen durchgerechneten Beispielen], 15., überarbeitete und erweiterte Auflage. Oldenbourg, München 2005. ISBN 978-3-486-59028-9.
  • Horst Rinne: Taschenbuch der Statistik. 4., vollständig überarbeitete und erweiterte Auflage. Harri Deutsch, Frankfurt am Main 2008. ISBN 978-3-8171-1827-4.

Weblinks[Bearbeiten]