McNemar-Test

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Der McNemar-Test ist ein statistischer Test für verbundene Stichproben, bei denen ein dichotomes Merkmal betrachtet wird, wie es z. B. bei einer Vierfeldertafel vorkommen kann. Verbundene Stichproben liegen dann vor, wenn zwischen den Beobachtungen ein Zusammenhang besteht, man z. B. im Rahmen der medizinischen Statistik an Patienten einen Vorher-Nachher-Vergleich vornimmt.

Da die Prüfgröße des McNemar-Tests einfach zu berechnen ist, wird der Test scherzhaft auch als "sparsamer Schotte" bezeichnet.

Mathematische Formulierung[Bearbeiten]

Stichprobe 1
Stichprobe 2 0 1
0 a b a+b
1 c d c+d
a+c b+d n

Der McNemar Test prüft bei einer verbundenen Stichprobe, ob eine Veränderung eingetreten ist. Die Nullhypothese ist, dass es keine Veränderung gab und demzufolge die Alternativhypothese, dass es eine Veränderung gab. Wenn es keine Veränderungen gab, dann müssten a+b\approx a+c bzw. c+d\approx b+d sein. Für die Wahrscheinlichkeiten p_\bullet des Auftretens von (0,0) etc. ergibt sich folgende mathematischen Formulierung der Hypothesen:

H_0: p_a+p_c = p_a+p_b
H_1: p_a+p_c \neq p_a+p_b

bzw. auf die äquivalenten Hypothesen

H_0: p_c = p_b
H_1: p_c \neq p_b

Exakter Test[Bearbeiten]

Für den exakten Test werden die Beobachtungen "links unten" und "rechts oben" in der Kontingenztabelle als zufällige Ziehungen betrachtet mit den beiden möglichen Ergebnissen "links unten" und "rechts oben". Wenn \pi die Wahrscheinlichkeit ist, dass eine Beobachtung "links unten" landet, dann übersetzen sich die Hypothesen des McNemar-Test in die Hypothesen eines Binomialtests

H_0: \pi = 0,5
H_1: \pi \neq 0,5

Die Teststatistik B: "Anzahl der Beobachtung rechts oben" ist dann binomial verteilt mit B(b+c; 0,5) (analog für C).

Der exakte Test wird z.B. in SPSS bei Aufruf des McNemar-Tests verwendet, wenn b+c<25 ist.

\chi^2 Teststatistiken[Bearbeiten]

McNemar (1947) benutzte einen \chi^2 Test um das Testproblem zu lösen.[1] Unter Gültigkeit der Nullhypothese sind die erwarteten Zellhäufigkeiten gerade \tfrac{b+c}{2}, also ergibt sich die Teststatistik

\hat{X}^{'2} = \frac{(b-\tfrac{b+c}{2})^2}{\tfrac{b+c}{2}}+\frac{(c-\tfrac{b+c}{2})^2}{\tfrac{b+c}{2}} = \frac{(b-c)^2}{b+c}.

Diese Teststatistik ist approximativ \chi^2 verteilt mit einem Freiheitsgrad.

Yates-Korrektur[Bearbeiten]

Da die Häufigkeiten diskret sind, ist auch die Teststatistik X^{'2} diskret verteilt. Da die \chi^2-Verteilung eine stetige Verteilung ist, gibt es einen Approximationsfehler. Um diesen Approximationsfehler zu verkleinern hat Yates eine generelle Stetigkeitskorrektur vorgeschlagen. Damit ergibt sich die folgende Teststatistik:[2]

\hat{X}^2 = \frac{(|b-c|-0,5)^2}{b+c}.

Der Subtrahend 0,5 ist die sogenannte Yates-Korrektur. Unter der Voraussetzung einer symmetrischen Verteilung der beiden zu testenden Variablen bzw. Stichproben, verbessert die Minderung des Betrags der Abweichung (b-c) um 0,5 die Approximation der berechneten \chi^2-verteilten Prüfgröße an die Ergebnisse des exakten Tests nach Fisher.[3]

Sie ist vor allem für kleinere Stichproben nötig (b+c<30) und kann bei größeren Stichproben weggelassen werden.

Edwards-Korrektur[Bearbeiten]

Die Yates-Korrektur ist ursprünglich für 2x2 Kreuztabellen entwickelt worden. Bei McNemar-Test wird jedoch faktisch eine 2x1 Kreuztabelle betrachtet und man kann man zeigen, dass die obige Teststatistik mit der Yates-Korrektur zu stark korrigiert.[4] Deswegen wird oft auch die Korrektur von Edwards verwendet:[5]

\hat{X}^{*2} = \frac{(\left| b-c \right|-1)^2}{b+c}.

Z.B. in SPSS und R wird beim McNemar-Test mit Stetigkeitskorrektur die Edwards-Korrektur verwendet. Die Frage der Größe des Subtrahenden für die Stetigkeitskorrektur spielt ohnehin nur bei kleinen Stichprobenumfängen eine Rolle.

Vorgehen[Bearbeiten]

Stichprobe 1
positiv
Stichprobe 1
negativ
Stichprobe 2 positiv a b
Stichprobe 2 negativ c d

Um zu vergleichen, ob sich die Häufigkeiten in den Stichproben wesentlich unterscheiden, betrachtet man das Verhältnis des Unterschieds zwischen den beiden Stichproben, die bei beiden Stichproben unterschiedliche Ergebnisse hatten, im Beispiel also b und c zur Summe der beiden Werte. Die so ermittelte Prüfgröße wird mit den Werten der \chi^2-Verteilung für 1 Freiheitsgrad und das entsprechende Konfidenzniveau (meist 95 %-Konfidenzniveau bzw. 5 %-Signifikanzniveau) verglichen. Die genaue Rechenvorschrift lautet:

	\hat{\Chi}^2 = \frac{(\left| b-c \right|-0,5)^2}{b+c}

Ist die errechnete Prüfgröße gleich groß oder größer als der Vergleichswert der \chi^2-Verteilung (für 1 Freiheitsgrad und 95%-Quantil z. B. 3,84) , so kann man davon ausgehen, dass ein statistisch signifikanter Unterschied zwischen den beiden Stichproben besteht und das ein Ergebnis (positiv oder negativ) in einer der Gruppen so gehäuft eintritt, dass ein rein zufälliger Unterschied mit großer Sicherheit (bei 95%-Konfidenzniveau stimmt die erhaltene Aussage z. B. in 95% der Fälle mit der Wirklichkeit überein) ausgeschlossen werden kann.

Ob diese Signifikanz eine Verbesserung oder Verschlechterung bedeutet, sagt der Test an sich nicht aus. Denn der McNemar-Test kann nur zweiseitig durchgeführt werden (er überprüft, ob Veränderungen bestehen - nicht ob Erhöhung oder Reduzierung der Häufigkeiten auftreten). Die Richtung der Veränderung kann jedoch leicht aus den Daten erschlossen werden, je nachdem, ob größere Häufigkeiten in Feld b oder c auftreten.

Liegen stetige Daten vor oder diskrete Daten mit zu vielen Merkmalsklassen, verwendet man oft die Mediandichotomisierung, um die Daten mit dem McNemar-Test überprüfen zu können.

Beispiel[Bearbeiten]

Raucher[Bearbeiten]

Es soll untersucht werden, ob eine Anti-Rauch-Kampagne erfolgreich die Anzahl der Raucher reduziert. Dafür erfasst man zunächst in Stichproben die Anzahl der Raucher vor und nach der Kampagne. In obiger Tabelle gibt Stichprobe 1 die Messung vor und Stichprobe 2 die Messung nach der Kampagne an. Um nun zu vergleichen, ob sich eine signifikante Veränderung der Zahl der Raucher ergeben hat, interessieren nur die "Wechsler", also die Personen, deren Rauchverhalten sich zwischen den beiden Messungen verändert hat. Diese Häufigkeiten finden sich in den Tabellenfeldern b und c. Wenn die Kampagne keinen Einfluss auf die Rauchgewohnheiten hätte, dann sollte es zufalls- bzw. störeinflussbedingt genauso viele Raucher geben, die zu Nichtrauchern werden, wie Nichtraucher, die zu Rauchern werden. Genau dieser Grundgedanke wird vom McNemar-Test überprüft (siehe obige Formel).

Allein aus einem signifikanten Unterschied der Prüfgröße des McNemar-Tests kann allerdings nicht ohne weiteres direkt geschlossen werden, dass die Zahl der Raucher abgenommen hat, da wie gesagt nur ungerichtet auf signifikante Unterschiede untersucht wird, der McNemar-Test besagt zuerst also nur, dass eine Veränderung stattgefunden hat, nicht aber in welche Richtung. Das heißt selbst wenn durch die Kampagne die Zahl der Raucher wesentlich zugenommen hätte, würde der McNemar-Test hier einen Unterschied zeigen. Um solche Fehlinterpretationen zu vermeiden muss man sich die ermittelten Werte für b und c näher ansehen. In diesem Fall müsste b deutlich kleiner sein als c, da c für die Raucher steht, die zu Nichtrauchern geworden sind.

Autofreier Sonntag[Bearbeiten]

Meinung nach dem
autofreien Sonntag
Total
Meinung vor dem
autofreien Sonntag
Dafür Dagegen
Dafür 8 5 13
Dagegen 16 11 27
Total 24 16 40

40 Personen wurden vor einem autofreien Sonntag befragt, ob Sie gegen oder für einen autofreien Sonntag sind. Nach einem autofreien Sonntag werden die gleiche Personen erneut befragt (= verbundene Stichprobe). Ziel ist es zu prüfen, ob das Erleben eines autofreien Sonntags eine signifikante Veränderung in der Auffassung verursacht hat. Die 8 bzw. 11 Befragten, deren Meinung sich nicht geändert hat, sagen nichts über mögliche Veränderungen in der Auffassung aus. Geprüft wird, ob sich die Änderungen von dafür nach dagegen bzw. von dagegen nach dafür die Waage halten oder nicht:

H_0: p_{dafuer\rightarrow dagegen} = p_{dagegen\rightarrow dafuer} vs. H_1: p_{dafuer\rightarrow dagegen} \neq p_{dagegen\rightarrow dafuer}

Mit b=5 und c=16 ergeben sich folgende Prüfwerte:

  • v=\frac{(\left| 5-16 \right|-0,5)^2}{5+16} = 5,2500 bzw.
  • v^*=\frac{(\left| 5-16 \right|-1)^2}{5+16} = 4,7619.

Für ein Signifikanzniveau von \alpha=5% ergibt sich ein kritischer Wert von \chi^2_{1;0,95}=3,84. Da beide Prüfwerte, v und v^*, größer als der kritische Wert sind, wird die Nullhypothese in beiden Fällen abgelehnt. D.h. es gibt eine signifikante Veränderungen in den Auffassungen.

Beim exakten Test ist B: "Anzahl der geänderten Meinungen von dafür nach dagegen" unter der obigen Nullhypothese binomial verteilt, folgt also einer Binomialverteilung B(n=b+c; p=0,5) (analog für C). Die kritischen Werte ergeben sich hier zu 6 und 15, d.h. liegt b oder c im Intervall [6; 15], dann kann die Nullhypothese nicht verworfen werden. Auch mit dem exakten Test wird also die Nullhypothese verworfen.

Verfahren Berechneter p-Wert
Exakter Test 0,0266
Stetigkeitskorrektur nach Edwards mit -1 0,0291
Stetigkeitskorrektur nach Yates mit -0,5 0,0219

Siehe auch[Bearbeiten]

Literatur[Bearbeiten]

  • Christel Weiß: Basiswissen Medizinische Statistik, 3. Aufl. Springer, Berlin 2005, ISBN 3-540-24072-1

Einzelnachweise[Bearbeiten]

  1. Quinn McNemar: Note on the sampling error of the difference between correlated proportions or percentages. In: Psychometrika. 12, Nr. 2, 18. Juni 1947, S. 153–157. doi:10.1007/BF02295996. PMID 20254758.
  2. Yates, F. (1934). Contingency tables involving small numbers and the χ ² test. Journal of the Royal Statistical Society, 1, 217-235, (Supplement).
  3. Yates, F. (1984). Tests of significance for 2 x 2 contingency tables.Journal of the Royal Statistical Society, 147,426-463, (Series A).
  4.  Catalina Stefanescu, Vance W. Berger, Scott Hershberger: Yates’s continuity correction. In: B. Everitt, D. Howell (Hrsg.): The Encyclopedia of Behavioral Statistics. John Wiley & Sons, 2005 (http://faculty.london.edu/cstefanescu/Yates.pdf).
  5.  Allen L. Edwards: ote on the ``correction for continuity in testing the significance of the difference between correlated proportions. In: Psychometrika. 13, Nr. 3, 1948, S. 185-187, doi:10.1007/BF02289261.