„McNemar-Test“ – Versionsunterschied

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
[gesichtete Version][gesichtete Version]
Inhalt gelöscht Inhalt hinzugefügt
Zeile 3: Zeile 3:
Da die Prüfgröße des McNemar-Tests einfach zu berechnen ist, wird der Test scherzhaft auch als "sparsamer Schotte" bezeichnet.
Da die Prüfgröße des McNemar-Tests einfach zu berechnen ist, wird der Test scherzhaft auch als "sparsamer Schotte" bezeichnet.


== Mathematische Formulierung ==
== Vorgehen ==

{|class="wikitable" style="text-align:center;"
{|class="wikitable" style="text-align:center;" align="right"
|
|
! colspan="2" |Stichprobe 1
!Stichprobe 1 <br />positiv
!Stichprobe 1 <br />negativ
|-
|-
!Stichprobe 2 positiv
! Stichprobe 2
|a
! 0
|b
! 1
!
|-
|-
! 0
!Stichprobe 2 negativ
|<math>a</math>
|c
|<math>b</math>
|d
|<math>a+b</math>
|-
!1
|<math>c</math>
|<math>d</math>
|<math>c+d</math>
|-
!
|<math>a+c</math>
|<math>b+d</math>
|<math>n</math>
|}
|}
Um zu vergleichen, ob sich die Häufigkeiten in den Stichproben wesentlich unterscheiden, betrachtet man das Verhältnis des Unterschieds zwischen den beiden Stichproben, die bei beiden Stichproben unterschiedliche Ergebnisse hatten, im Beispiel also '''b''' und '''c''' zur Summe der beiden Werte. Die so ermittelte Prüfgröße wird mit den Werten der [[Chi-Quadrat-Verteilung|<math>\chi^2</math>-Verteilung]] für 1 [[Freiheitsgrad (Statistik)|Freiheitsgrad]] und das entsprechende [[Konfidenzniveau]] (meist 95 %-Konfidenzniveau bzw. 5 %-Signifikanzniveau) verglichen. Die genaue Rechenvorschrift lautet:


Der McNemar Test prüft bei einer verbundenen Stichprobe, ob eine Veränderung eingetreten ist. Die Nullhypothese ist, dass es keine Veränderung gab und demzufolge die Alternativhypothese, dass es eine Veränderung gab. Wenn es keine Veränderungen gab, dann müssten <math>a+b\approx a+c</math> bzw. <math>c+d\approx b+d</math> sein. Für die Wahrscheinlichkeiten <math>p_\bullet</math> des Auftretens von <math>(0,0)</math> etc. ergibt sich folgende mathematischen Formulierung der Hypothesen:
:<math> \hat{\Chi}^2 = \frac{(\left| b-c \right|-0,5)^2}{b+c}</math>


:<math>H_0: p_a+p_c = p_a+p_b</math>
Der Subtrahend 0,5 stellt eine [[Stetigkeitskorrektur]], die sog. [[Yates-Korrektur]] dar.<ref>Yates, F. (1934). Contingency tables involving small numbers and the &chi; &#178; test. ''Journal of the Royal Statistical Society'', 1, 217-235, (Supplement).</ref>
:<math>H_1: p_a+p_c \neq p_a+p_b</math>


bzw. auf die äquivalenten Hypothesen
Unter der Voraussetzung einer symmetrischen Verteilung der beiden zu testenden Variablen bzw. Stichproben, verbessert die Minderung des Betrags der Abweichung (b-c) um 0,5 die Approximation der berechneten <math>\chi^2</math>-verteilten [[Prüfgröße]] an die Ergebnisse des [[Exakter Test nach Fisher|exakten Tests nach Fisher]].<ref>Yates, F. (1984). Tests of significance for 2 x 2 contingency tables.[http://www.jstor.org/stable/i349611 ''Journal of the Royal Statistical Society, 147,'']426-463, (Series A).</ref>


:<math>H_0: p_c = p_b</math>
Die Yates-Korrektur ist vor allem für kleinere Stichproben nötig (''b'' + ''c'' < 30) und kann bei größeren Stichproben weggelassen werden.
:<math>H_1: p_c \neq p_b</math>
Ist die errechnete [[Prüfgröße]] gleich groß oder größer als der Vergleichswert der <math>\chi^2</math>-Verteilung (für 1 Freiheitsgrad und 95%-[[Quantil]] z.&nbsp;B. 3,84) , so kann man davon ausgehen, dass ein statistisch signifikanter Unterschied zwischen den beiden Stichproben besteht und das ein Ergebnis (positiv oder negativ) in einer der Gruppen so gehäuft eintritt, dass ein rein zufälliger Unterschied mit großer Sicherheit (bei 95%-Konfidenzniveau stimmt die erhaltene Aussage z.&nbsp;B. in 95% der Fälle mit der Wirklichkeit überein) ausgeschlossen werden kann.


=== Exakter Test ===
Ob diese Signifikanz eine Verbesserung oder Verschlechterung bedeutet, sagt der Test an sich nicht aus. Denn der McNemar-Test kann nur zweiseitig durchgeführt werden (er überprüft, ob Veränderungen bestehen - nicht ob Erhöhung oder Reduzierung der Häufigkeiten auftreten). Die Richtung der Veränderung kann jedoch leicht aus den Daten erschlossen werden, je nachdem, ob größere Häufigkeiten in Feld b oder c auftreten.

Für den exakten Test werden die Beobachtungen "links unten" und "rechts oben" in der Kontingenztabelle als zufällige Ziehungen betrachtet mit den beiden möglichen Ergebnissen "links unten" und "rechts oben". Wenn <math>\pi</math> die Wahrscheinlichkeit ist, dass eine Beobachtung "links unten" landet, dann übersetzen sich die Hypothesen des McNemar-Test in die Hypothesen eines [[Binomialtest]]s

:<math>H_0: \pi = 0,5</math>
:<math>H_1: \pi \neq 0,5</math>

Die Teststatistik <math>B</math>: "Anzahl der Beobachtung rechts oben" ist dann [[Binomialverteilung|binomial verteilt]] mit <math>B(b+c; 0,5)</math> (analog für <math>C</math>).

Der exakte Test wird z.B. in [[SPSS]] bei Aufruf des McNemar-Tests verwendet, wenn <math>b+c<25</math> ist.

=== <math>\chi^2</math> Teststatistiken ===

McNemar (1947) benutzte einen [[Chi-Quadrat-Test|<math>\chi^2</math> Test]] um das Testproblem zu lösen.<ref name=McNemar1947>{{Cite journal| doi = 10.1007/BF02295996| volume = 12| issue = 2| pages = 153–157| last = McNemar| first = Quinn| title = Note on the sampling error of the difference between correlated proportions or percentages| journal = Psychometrika| date = June 18, 1947| pmid = 20254758}}</ref> Unter Gültigkeit der Nullhypothese sind die erwarteten Zellhäufigkeiten gerade <math>\tfrac{b+c}{2}</math>, also ergibt sich die Teststatistik

:<math>\hat{X}^{'2} = \frac{(b-\tfrac{b+c}{2})^2}{\tfrac{b+c}{2}}+\frac{(c-\tfrac{b+c}{2})^2}{\tfrac{b+c}{2}} = \frac{(b-c)^2}{b+c}</math>.

Diese Teststatistik ist approximativ <math>\chi^2</math> verteilt mit einem Freiheitsgrad.

==== Yates-Korrektur ====

Da die Häufigkeiten diskret sind, ist auch die Teststatistik <math>X^{'2}</math> diskret verteilt. Da die <math>\chi^2</math>-Verteilung eine stetige Verteilung ist, gibt es einen Approximationsfehler. Um diesen Approximationsfehler zu verkleinern hat Yates eine generelle [[Stetigkeitskorrektur]] vorgeschlagen. Damit ergibt sich die folgende Teststatistik:<ref>Yates, F. (1934). Contingency tables involving small numbers and the &chi; &#178; test. ''Journal of the Royal Statistical Society'', 1, 217-235, (Supplement).</ref>

:<math>\hat{X}^2 = \frac{(|b-c|-0,5)^2}{b+c}</math>.

Der Subtrahend 0,5 ist die sogennante [[Yates-Korrektur]]. Unter der Voraussetzung einer symmetrischen Verteilung der beiden zu testenden Variablen bzw. Stichproben, verbessert die Minderung des Betrags der Abweichung (b-c) um 0,5 die Approximation der berechneten <math>\chi^2</math>-verteilten [[Prüfgröße]] an die Ergebnisse des [[Exakter Test nach Fisher|exakten Tests nach Fisher]].<ref>Yates, F. (1984). Tests of significance for 2 x 2 contingency tables.[http://www.jstor.org/stable/i349611 ''Journal of the Royal Statistical Society, 147,'']426-463, (Series A).</ref>

Sie ist vor allem für kleinere Stichproben nötig (<math>b+c<30</math>) und kann bei größeren Stichproben weggelassen werden.

==== Edwards-Korrektur ====


Die obigen Art der Stetigkeitskorrektur ist von Yates ursprünglich für 2x2 Kreuztabellen entwickelt worden. Bei McNemar-Test wird jedoch faktisch eine 2x1 Kreuztabelle betrachtet und man kann man zeigen, dass die obige Teststatistik zu stark korrigiert.<ref>{{Literatur
Die Yates-Korrektur ist ursprünglich für 2x2 Kreuztabellen entwickelt worden. Bei McNemar-Test wird jedoch faktisch eine 2x1 Kreuztabelle betrachtet und man kann man zeigen, dass die obige Teststatistik mit der Yates-Korrektur zu stark korrigiert.<ref>{{Literatur
|Autor = Catalina Stefanescu, Vance W. Berger, Scott Hershberger
|Autor = Catalina Stefanescu, Vance W. Berger, Scott Hershberger
|Herausgeber = B. Everitt, D. Howell
|Herausgeber = B. Everitt, D. Howell
Zeile 50: Zeile 91:
}}</ref>
}}</ref>


:<math> \hat{\Chi}^{*2} = \frac{(\left| b-c \right|-1)^2}{b+c}.</math>
:<math>\hat{X}^{*2} = \frac{(\left| b-c \right|-1)^2}{b+c}.</math>


Z.B. in SPSS und [[R_(Programmiersprache)|R]] wird beim McNemar-Test mit Stetigkeitskorrektur die Edwards-Korrektur verwendet. Die Frage der Grösse des Subtrahenden für die Stetigkeitskorrektur spielt ohnehin nur bei kleinen Stichprobenumfängen eine Rolle.
Die Frage der Grösse des Subtrahenden für die Stetigkeitskorrektur spielt ohnehin nur bei kleinen Stichprobenumfängen eine Rolle. Oft wird in Statistik-Software, z.B. in [[SPSS]] für <math>b+c<25</math>, auch ein [[Statistischer_Test#Exakter_Test|exakter Test]] durchgeführt. D.h. die Verteilung der Teststatistik wird nicht durch die <math>\chi^2_1</math>-Verteilung approximiert, sondern exakt ausgerechnet.

== Vorgehen ==
{|class="wikitable" style="text-align:center;"
|
!Stichprobe 1 <br />positiv
!Stichprobe 1 <br />negativ
|-
!Stichprobe 2 positiv
|a
|b
|-
!Stichprobe 2 negativ
|c
|d
|}
Um zu vergleichen, ob sich die Häufigkeiten in den Stichproben wesentlich unterscheiden, betrachtet man das Verhältnis des Unterschieds zwischen den beiden Stichproben, die bei beiden Stichproben unterschiedliche Ergebnisse hatten, im Beispiel also '''b''' und '''c''' zur Summe der beiden Werte. Die so ermittelte Prüfgröße wird mit den Werten der [[Chi-Quadrat-Verteilung|<math>\chi^2</math>-Verteilung]] für 1 [[Freiheitsgrad (Statistik)|Freiheitsgrad]] und das entsprechende [[Konfidenzniveau]] (meist 95 %-Konfidenzniveau bzw. 5 %-Signifikanzniveau) verglichen. Die genaue Rechenvorschrift lautet:

:<math> \hat{\Chi}^2 = \frac{(\left| b-c \right|-0,5)^2}{b+c}</math>

Ist die errechnete [[Prüfgröße]] gleich groß oder größer als der Vergleichswert der <math>\chi^2</math>-Verteilung (für 1 Freiheitsgrad und 95%-[[Quantil]] z.&nbsp;B. 3,84) , so kann man davon ausgehen, dass ein statistisch signifikanter Unterschied zwischen den beiden Stichproben besteht und das ein Ergebnis (positiv oder negativ) in einer der Gruppen so gehäuft eintritt, dass ein rein zufälliger Unterschied mit großer Sicherheit (bei 95%-Konfidenzniveau stimmt die erhaltene Aussage z.&nbsp;B. in 95% der Fälle mit der Wirklichkeit überein) ausgeschlossen werden kann.

Ob diese Signifikanz eine Verbesserung oder Verschlechterung bedeutet, sagt der Test an sich nicht aus. Denn der McNemar-Test kann nur zweiseitig durchgeführt werden (er überprüft, ob Veränderungen bestehen - nicht ob Erhöhung oder Reduzierung der Häufigkeiten auftreten). Die Richtung der Veränderung kann jedoch leicht aus den Daten erschlossen werden, je nachdem, ob größere Häufigkeiten in Feld b oder c auftreten.


Liegen ''stetige Daten'' vor oder diskrete Daten mit zu vielen Merkmalsklassen, verwendet man oft die [[Mediandichotomisierung]], um die Daten mit dem McNemar-Test überprüfen zu können.
Liegen ''stetige Daten'' vor oder diskrete Daten mit zu vielen Merkmalsklassen, verwendet man oft die [[Mediandichotomisierung]], um die Daten mit dem McNemar-Test überprüfen zu können.

Version vom 6. April 2013, 11:50 Uhr

Der McNemar-Test ist ein statistischer Test für verbundene Stichproben, bei denen ein dichotomes Merkmal betrachtet wird, wie es z. B. bei einer Vierfeldertafel vorkommen kann. Verbundene Stichproben liegen dann vor, wenn zwischen den Beobachtungen ein Zusammenhang besteht, man z. B. im Rahmen der medizinischen Statistik an Patienten einen Vorher-Nachher-Vergleich vornimmt.

Da die Prüfgröße des McNemar-Tests einfach zu berechnen ist, wird der Test scherzhaft auch als "sparsamer Schotte" bezeichnet.

Mathematische Formulierung

Stichprobe 1
Stichprobe 2 0 1
0
1

Der McNemar Test prüft bei einer verbundenen Stichprobe, ob eine Veränderung eingetreten ist. Die Nullhypothese ist, dass es keine Veränderung gab und demzufolge die Alternativhypothese, dass es eine Veränderung gab. Wenn es keine Veränderungen gab, dann müssten bzw. sein. Für die Wahrscheinlichkeiten des Auftretens von etc. ergibt sich folgende mathematischen Formulierung der Hypothesen:

bzw. auf die äquivalenten Hypothesen

Exakter Test

Für den exakten Test werden die Beobachtungen "links unten" und "rechts oben" in der Kontingenztabelle als zufällige Ziehungen betrachtet mit den beiden möglichen Ergebnissen "links unten" und "rechts oben". Wenn die Wahrscheinlichkeit ist, dass eine Beobachtung "links unten" landet, dann übersetzen sich die Hypothesen des McNemar-Test in die Hypothesen eines Binomialtests

Die Teststatistik : "Anzahl der Beobachtung rechts oben" ist dann binomial verteilt mit (analog für ).

Der exakte Test wird z.B. in SPSS bei Aufruf des McNemar-Tests verwendet, wenn ist.

Teststatistiken

McNemar (1947) benutzte einen Test um das Testproblem zu lösen.[1] Unter Gültigkeit der Nullhypothese sind die erwarteten Zellhäufigkeiten gerade , also ergibt sich die Teststatistik

.

Diese Teststatistik ist approximativ verteilt mit einem Freiheitsgrad.

Yates-Korrektur

Da die Häufigkeiten diskret sind, ist auch die Teststatistik diskret verteilt. Da die -Verteilung eine stetige Verteilung ist, gibt es einen Approximationsfehler. Um diesen Approximationsfehler zu verkleinern hat Yates eine generelle Stetigkeitskorrektur vorgeschlagen. Damit ergibt sich die folgende Teststatistik:[2]

.

Der Subtrahend 0,5 ist die sogennante Yates-Korrektur. Unter der Voraussetzung einer symmetrischen Verteilung der beiden zu testenden Variablen bzw. Stichproben, verbessert die Minderung des Betrags der Abweichung (b-c) um 0,5 die Approximation der berechneten -verteilten Prüfgröße an die Ergebnisse des exakten Tests nach Fisher.[3]

Sie ist vor allem für kleinere Stichproben nötig () und kann bei größeren Stichproben weggelassen werden.

Edwards-Korrektur

Die Yates-Korrektur ist ursprünglich für 2x2 Kreuztabellen entwickelt worden. Bei McNemar-Test wird jedoch faktisch eine 2x1 Kreuztabelle betrachtet und man kann man zeigen, dass die obige Teststatistik mit der Yates-Korrektur zu stark korrigiert.[4] Deswegen wird, z.B. in R, die Korrektur von Edwards verwendet:[5]

Z.B. in SPSS und R wird beim McNemar-Test mit Stetigkeitskorrektur die Edwards-Korrektur verwendet. Die Frage der Grösse des Subtrahenden für die Stetigkeitskorrektur spielt ohnehin nur bei kleinen Stichprobenumfängen eine Rolle.

Vorgehen

Stichprobe 1
positiv
Stichprobe 1
negativ
Stichprobe 2 positiv a b
Stichprobe 2 negativ c d

Um zu vergleichen, ob sich die Häufigkeiten in den Stichproben wesentlich unterscheiden, betrachtet man das Verhältnis des Unterschieds zwischen den beiden Stichproben, die bei beiden Stichproben unterschiedliche Ergebnisse hatten, im Beispiel also b und c zur Summe der beiden Werte. Die so ermittelte Prüfgröße wird mit den Werten der -Verteilung für 1 Freiheitsgrad und das entsprechende Konfidenzniveau (meist 95 %-Konfidenzniveau bzw. 5 %-Signifikanzniveau) verglichen. Die genaue Rechenvorschrift lautet:

Ist die errechnete Prüfgröße gleich groß oder größer als der Vergleichswert der -Verteilung (für 1 Freiheitsgrad und 95%-Quantil z. B. 3,84) , so kann man davon ausgehen, dass ein statistisch signifikanter Unterschied zwischen den beiden Stichproben besteht und das ein Ergebnis (positiv oder negativ) in einer der Gruppen so gehäuft eintritt, dass ein rein zufälliger Unterschied mit großer Sicherheit (bei 95%-Konfidenzniveau stimmt die erhaltene Aussage z. B. in 95% der Fälle mit der Wirklichkeit überein) ausgeschlossen werden kann.

Ob diese Signifikanz eine Verbesserung oder Verschlechterung bedeutet, sagt der Test an sich nicht aus. Denn der McNemar-Test kann nur zweiseitig durchgeführt werden (er überprüft, ob Veränderungen bestehen - nicht ob Erhöhung oder Reduzierung der Häufigkeiten auftreten). Die Richtung der Veränderung kann jedoch leicht aus den Daten erschlossen werden, je nachdem, ob größere Häufigkeiten in Feld b oder c auftreten.

Liegen stetige Daten vor oder diskrete Daten mit zu vielen Merkmalsklassen, verwendet man oft die Mediandichotomisierung, um die Daten mit dem McNemar-Test überprüfen zu können.

Beispiel

Raucher

Es soll untersucht werden, ob eine Anti-Rauch-Kampagne erfolgreich die Anzahl der Raucher reduziert. Dafür erfasst man zunächst in Stichproben die Anzahl der Raucher vor und nach der Kampagne. In obiger Tabelle gibt Stichprobe 1 die Messung vor und Stichprobe 2 die Messung nach der Kampagne an. Um nun zu vergleichen, ob sich eine signifikante Veränderung der Zahl der Raucher ergeben hat, interessieren nur die "Wechsler", also die Personen, deren Rauchverhalten sich zwischen den beiden Messungen verändert hat. Diese Häufigkeiten finden sich in den Tabellenfeldern b und c. Wenn die Kampagne keinen Einfluss auf die Rauchgewohnheiten hätte, dann sollte es zufalls- bzw. störeinflussbedingt genausoviele Raucher geben, die zu Nichtrauchern werden, wie Nichtraucher, die zu Rauchern werden. Genau dieser Grundgedanke wird vom McNemar-Test überprüft (siehe obige Formel).

Allein aus einem signifikanten Unterschied der Prüfgröße des McNemar-Tests kann allerdings nicht ohne weiteres direkt geschlossen werden, dass die Zahl der Raucher abgenommen hat, da wie gesagt nur ungerichtet auf signifikante Unterschiede untersucht wird, der McNemar-Test besagt zuerst also nur, dass eine Veränderung stattgefunden hat, nicht aber in welche Richtung. Das heißt selbst wenn durch die Kampagne die Zahl der Raucher wesentlich zugenommen hätte, würde der McNemar-Test hier einen Unterschied zeigen. Um solche Fehlinterpretationen zu vermeiden muss man sich die ermittelten Werte für b und c näher ansehen. In diesem Fall müsste b deutlich kleiner sein als c, da c für die Raucher steht, die zu Nichtrauchern geworden sind.

Autofreier Sonntag

Meinung nach dem
autofreien Sonntag
Total
Meinung vor dem
autofreien Sonntag
Dafür Dagegen
Dafür 8 5 13
Dagegen 16 11 27
Total 24 16 40

40 Personen wurden vor einem autofreien Sonntag befragt, ob Sie gegen oder für einen autofreien Sonntag sind. Nach einem autofreien Sonntag werden die gleiche Personen erneut befragt (= verbundene Stichprobe). Ziel ist es zu prüfen, ob das Erleben eines autofreien Sonntags eine signifikante Veränderung in der Auffassung verursacht hat. Die 8 bzw. 11 Befragten, deren Meinung sich nicht geändert hat, sagen nichts über mögliche Veränderungen in der Auffassung aus. Geprüft wird, ob sich die Änderungen von dafür nach dagegen bzw. von dagegen nach dafür die Waage halten oder nicht:

vs.

Mit und ergeben sich folgende Prüfwerte:

  • bzw.
  • .

Für ein Signifikanzniveau von ergibt sich ein kritischer Wert von . Da beide Prüfwerte, und , größer als der kritische Wert sind, wird die Nullhypothese in beiden Fällen abgelehnt. D.h. es gibt eine signifikante Veränderungen in den Auffassungen.

Beim exakten Test ist "Anzahl der geänderten Meinungen von dafür nach dagegen" unter der obigen Nullhypothese binomial verteilt, folgt also einer Binomialverteilung (analog für ). Die kritischen Werte ergeben sich hier zu 6 und 15, d.h. liegt oder im Intervall , dann kann die Nullhypothese nicht verworfen werden. Auch mit dem exakten Test wird also die Nullhypothese verworfen.

Verfahren Berechneter -Wert
Exakter Test 0,0266
Stetigkeitskorrektur nach Edwards mit 0,0291
Stetigkeitskorrektur nach Yates mit 0,0219

Siehe auch

Literatur

  • Christel Weiß: Basiswissen Medizinische Statistik, 3. Aufl. Springer, Berlin 2005, ISBN 3-540-24072-1

Einzelnachweise

  1. Quinn McNemar: Note on the sampling error of the difference between correlated proportions or percentages. In: Psychometrika. 12. Jahrgang, Nr. 2, 18. Juni 1947, S. 153–157, doi:10.1007/BF02295996, PMID 20254758.
  2. Yates, F. (1934). Contingency tables involving small numbers and the χ ² test. Journal of the Royal Statistical Society, 1, 217-235, (Supplement).
  3. Yates, F. (1984). Tests of significance for 2 x 2 contingency tables.Journal of the Royal Statistical Society, 147,426-463, (Series A).
  4. Catalina Stefanescu, Vance W. Berger, Scott Hershberger: Yates’s continuity correction. In: B. Everitt, D. Howell (Hrsg.): The Encyclopedia of Behavioral Statistics. John Wiley & Sons, 2005 (london.edu [PDF]).
  5. Allen L. Edwards: ote on the ``correction for continuity in testing the significance of the difference between correlated proportions. In: Psychometrika. Band 13, Nr. 3, 1948, S. 185–187, doi:10.1007/BF02289261.