Wilcoxon-Mann-Whitney-Test
Der Wilcoxon-Mann-Whitney-Test (auch: „Mann-Whitney-U-Test“, „U-Test“, „Wilcoxon-Rangsummentest“) ist ein parameterfreier statistischer Test. Der U-Test ist ein Homogenitätstest. Er dient zur Überprüfung der Signifikanz der Übereinstimmung zweier Verteilungen, also ob zwei Verteilungen A und B (zum Beispiel eine unbeeinflusste und eine beeinflusste) zu derselben Grundgesamtheit gehören. Der Test wurde von Henry Mann und Donald Whitney (1947) sowie Frank Wilcoxon (1945) entwickelt.[1][2] Die zentrale Idee des Tests wurde bereits 1914 von dem deutschen Pädagogen Gustaf Deuchler entwickelt.[3]
Konkret finden der Wilcoxon-Rangsummentest bzw. der U-Test als Alternative zum t-Test Anwendung, wenn die Variablen bzw. Messungen sich als nicht annähernd normalverteilt erweisen. Der Wilcoxon-Vorzeichen-Rang-Test findet bei zwei verbundenen (gepaarten) Stichproben Anwendung, während der U-Test untersucht, ob zwei unverbundene Verteilungen A und B signifikante Unterschiede aufweisen.
Inhaltsverzeichnis
Annahmen[Bearbeiten | Quelltext bearbeiten]
- Die Zufallsvariablen und haben stetige Verteilungsfunktionen bzw. , die sich nur um eine Verschiebung voneinander unterscheiden, das heißt:
- .
- Weil die beiden Verteilungsfunktionen bis auf Verschiebung gleich sind, muss insbesondere (Varianzhomogenität) gelten. D. h. bei Ablehnung der Varianzhomogenität durch den Bartlett-Test oder Levene-Test unterscheiden sich die beiden Zufallsvariablen X und Y nicht nur durch eine Verschiebung.
- Es liegen unabhängige Stichproben von und von vor, die auch untereinander unabhängig sind.
Teststatistik[Bearbeiten | Quelltext bearbeiten]
Für das Testen der Hypothesen des Wilcoxon-Mann-Whitney-Tests
gibt es zwei Teststatistiken: die Mann-Whitney-U-Statistik und die Wilcoxon-Rangsummenstatistik . Aufgrund des Zusammenhangs zwischen den Teststatistiken
sind der Wilcoxon-Rangsummentest und der Mann-Whitney-U-Test äquivalent.
Mann-Whitney-U-Statistik[Bearbeiten | Quelltext bearbeiten]
Die Mann-Whitney-U-Teststatistik ist
- ,
worin , wenn , und sonst . Abhängig von der Alternativhypothese wird die Nullhypothese abgelehnt für zu kleine oder zu große Werte von . In dieser Form findet er sich bei Mann und Whitney und wird oft als Mann-Whitney-U-Test bezeichnet.
Exakte kritische Werte[Bearbeiten | Quelltext bearbeiten]
Exakte kritische Werte liegen nur tabelliert vor und können für kleine Stichprobenumfänge der Tabelle unten entnommen werden ( beim zweiseitigen Test und beim einseitigen Test).
Es gibt eine Rekursionsformel, die eine schrittweise und wenig rechenzeitintensive Ermittlung der kritischen Werte für geringe Stichprobengrößen erlaubt.[4]
Approximative kritische Werte[Bearbeiten | Quelltext bearbeiten]
Für , und kann
durch die Normalverteilung approximiert werden.[5] Die kritischen Werte ergeben sich dann aus den kritischen Werten der approximativen Normalverteilung.
Wilcoxon-Rangsummenstatistik[Bearbeiten | Quelltext bearbeiten]
Die Wilcoxon-Rangsummenstatistik ist
mit der Rang der i-ten X in der gepoolten, geordneten Stichprobe. In dieser Form trägt der Test häufig die Bezeichnung Wilcoxon-Rangsummentest.
Exakte kritische Werte[Bearbeiten | Quelltext bearbeiten]
Die exakte Verteilung von unter der Bedingung der Nullhypothese kann mittels kombinatorischer Überlegungen leicht gefunden werden. Allerdings steigt der Rechenaufwand für große Werte von rasch an. Man kann die exakten kritischen Werte zum Signifikanzniveau mittels einer Rekursionsformel berechnen:
- (oder oder oder )
Die Formel entsteht, wenn man konditioniert auf die Bedingung, ob der letzte Wert in der Anordnung ein X (...X) oder ein Y (...Y) ist.
Approximative kritische Werte[Bearbeiten | Quelltext bearbeiten]
Für oder (auch: oder ) kann die Teststatistik
durch die Normalverteilung approximiert werden.[6][7] Die kritischen Werte ergeben sich dann aus den kritischen Werten der approximativen Normalverteilung.
Einseitige Hypothesen[Bearbeiten | Quelltext bearbeiten]
Der Test kann auch für die einseitigen Hypothesen
- bzw.
formuliert werden.
Abgeleitete Hypothesen[Bearbeiten | Quelltext bearbeiten]
Der Test ist speziell interessant, weil bei Annahme bzw. Ablehnung der Null- oder Alternativhypothese auch die folgenden Null- und Alternativhypothesen (unter den oben genannten Voraussetzungen) angenommen bzw. abgelehnt werden können:
- ,
d. h. die Mittelwerte der Verteilungen A und B unterscheiden sich.
- ,
d. h. die Mediane der Verteilungen A und B unterscheiden sich.
Sind die Voraussetzungen bei der Hypothese über die Mediane nicht erfüllt, dann kann man auf den Median-Test ausweichen.
Beispiel[Bearbeiten | Quelltext bearbeiten]
Aus den Daten der Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften 2006 wurden zufällig 20 Personen gezogen und ihr Nettoeinkommen ermittelt:
Rang | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
Nettoeinkommen | 0 | 400 | 500 | 550 | 600 | 650 | 750 | 800 | 900 | 950 | 1000 | 1100 | 1200 | 1500 | 1600 | 1800 | 1900 | 2000 | 2200 | 3500 |
Geschlecht | M | W | M | W | M | W | M | M | W | W | M | M | W | M | W | M | M | M | M | M |
Man hat zwei Stichproben vor sich, Stichprobe der Männer mit Werten und Stichprobe der Frauen mit Werten. Wir könnten nun prüfen, ob das Einkommen der Männer und Frauen gleich ist (zweiseitiger Test) oder das Einkommen der Frauen geringer (einseitiger Test) mit die Verteilungsfunktion des Einkommens der Männer und die Verteilungsfunktion des Einkommens der Frauen. Wir betrachten hier die Tests
Zweiseitiger Test | Einseitiger Test |
---|---|
Zunächst wird aus beiden Zahlenreihen je eine Prüfgröße gebildet:
und sind dabei die Anzahlen der Werte pro Stichprobe, und sind die jeweiligen Summen aller Rangzahlen pro Stichprobe. (Sind mehrere Werte in beiden Datensätzen identisch, dann muss für ihre Ränge jeweils der Median bzw. das arithmetische Mittel eingetragen werden.) Für die folgenden Tests benötigt man das Minimum von und , also .
Für unser Beispiel ergibt sich (Index M = Männer, W = Frauen)
- und .
- und und
- .
Bei korrekter Berechnung muss gelten bzw. . Die Testgröße wird nun mit den kritischen Wert(en) verglichen. Das Beispiel ist so gewählt, dass sowohl ein Vergleich mit den exakten kritischen Werten als auch mit den approximativen Werten möglich ist.
Zweiseitiger Test[Bearbeiten | Quelltext bearbeiten]
Exakte kritische Werte[Bearbeiten | Quelltext bearbeiten]
Anhand der untenstehenden Tabelle ergibt sich mit und ein kritischer Wert von für ein Signifikanzniveau von . Abgelehnt wird die Nullhypothese, wenn ist; dies ist hier aber nicht der Fall.
Approximative kritische Werte[Bearbeiten | Quelltext bearbeiten]
Da die Teststatistik approximativ normal verteilt ist, folgt dass die
verteilt ist. Für ein Signifikanzniveau von ergibt sich der Nichtablehnungsbereich der Nullhypothese im zweiseitigen Test durch das 2,5%- bzw. 97,5%-Quantil der Standardnormalverteilung mit . Es ergibt sich jedoch , d. h. der Prüfwert liegt innerhalb des Intervalls und die Nullhypothese kann nicht abgelehnt werden.
Einseitiger Test[Bearbeiten | Quelltext bearbeiten]
Exakte kritische Werte[Bearbeiten | Quelltext bearbeiten]
Anhand der untenstehenden Tabelle ergibt sich mit und ein kritischer Wert von für ein Signifikanzniveau von (anderes Signifikanzniveau als beim zweiseitigen Test!). Abgelehnt wird die Nullhypothese, wenn ist; dies ist hier aber nicht der Fall.
Approximative kritische Werte[Bearbeiten | Quelltext bearbeiten]
Für ein Signifikanzniveau von ergibt sich der kritische Wert als das 5%-Quantil der Standardnormalverteilung und der Nichtablehnungsbereich der Nullhypothese als . Es ergibt sich jedoch , d. h. die Nullhypothese kann nicht abgelehnt werden.
Tabelle der kritischen Werte der Mann-Whitney-U-Statistik[Bearbeiten | Quelltext bearbeiten]
Die folgende Tabelle ist gültig für (zweiseitig) bzw. (einseitig) mit . Der Eintrag „-“ bedeutet, dass die Nullhypothese in jedem Fall zu dem gegebenen Signifikanzniveau nicht abgelehnt werden kann. Z. B. ist:
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | 0 | 0 |
2 | - | - | - | - | - | - | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 2 | 2 | 2 | 2 | 3 | 3 | 3 | 3 | 3 | 4 | 4 | 4 | 4 | 5 | 5 | 5 | 5 | 5 | 6 | 6 | 6 | 6 | 7 | 7 | |
3 | - | - | 0 | 1 | 1 | 2 | 2 | 3 | 3 | 4 | 4 | 5 | 5 | 6 | 6 | 7 | 7 | 8 | 8 | 9 | 9 | 10 | 10 | 11 | 11 | 12 | 13 | 13 | 14 | 14 | 15 | 15 | 16 | 16 | 17 | 17 | 18 | 18 | ||
4 | 0 | 1 | 2 | 3 | 4 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 31 | |||
5 | 2 | 3 | 5 | 6 | 7 | 8 | 9 | 11 | 12 | 13 | 14 | 15 | 17 | 18 | 19 | 20 | 22 | 23 | 24 | 25 | 27 | 28 | 29 | 30 | 32 | 33 | 34 | 35 | 37 | 38 | 39 | 40 | 41 | 43 | 44 | 45 | ||||
6 | 5 | 6 | 8 | 10 | 11 | 13 | 14 | 16 | 17 | 19 | 21 | 22 | 24 | 25 | 27 | 29 | 30 | 32 | 33 | 35 | 37 | 38 | 40 | 42 | 43 | 45 | 46 | 48 | 50 | 51 | 53 | 55 | 56 | 58 | 59 | |||||
7 | 8 | 10 | 12 | 14 | 16 | 18 | 20 | 22 | 24 | 26 | 28 | 30 | 32 | 34 | 36 | 38 | 40 | 42 | 44 | 46 | 48 | 50 | 52 | 54 | 56 | 58 | 60 | 62 | 64 | 66 | 68 | 70 | 72 | 74 | ||||||
8 | 13 | 15 | 17 | 19 | 22 | 24 | 26 | 29 | 31 | 34 | 36 | 38 | 41 | 43 | 45 | 48 | 50 | 53 | 55 | 57 | 60 | 62 | 65 | 67 | 69 | 72 | 74 | 77 | 79 | 81 | 84 | 86 | 89 | |||||||
9 | 17 | 20 | 23 | 26 | 28 | 31 | 34 | 37 | 39 | 42 | 45 | 48 | 50 | 53 | 56 | 59 | 62 | 64 | 67 | 70 | 73 | 76 | 78 | 81 | 84 | 87 | 89 | 92 | 95 | 98 | 101 | 103 | ||||||||
10 | 23 | 26 | 29 | 33 | 36 | 39 | 42 | 45 | 48 | 52 | 55 | 58 | 61 | 64 | 67 | 71 | 74 | 77 | 80 | 83 | 87 | 90 | 93 | 96 | 99 | 103 | 106 | 109 | 112 | 115 | 119 | |||||||||
11 | 30 | 33 | 37 | 40 | 44 | 47 | 51 | 55 | 58 | 62 | 65 | 69 | 73 | 76 | 80 | 83 | 87 | 90 | 94 | 98 | 101 | 105 | 108 | 112 | 116 | 119 | 123 | 127 | 130 | 134 | ||||||||||
12 | 37 | 41 | 45 | 49 | 53 | 57 | 61 | 65 | 69 | 73 | 77 | 81 | 85 | 89 | 93 | 97 | 101 | 105 | 109 | 113 | 117 | 121 | 125 | 129 | 133 | 137 | 141 | 145 | 149 | |||||||||||
13 | 45 | 50 | 54 | 59 | 63 | 67 | 72 | 76 | 80 | 85 | 89 | 94 | 98 | 102 | 107 | 111 | 116 | 120 | 125 | 129 | 133 | 138 | 142 | 147 | 151 | 156 | 160 | 165 | ||||||||||||
14 | 55 | 59 | 64 | 69 | 74 | 78 | 83 | 88 | 93 | 98 | 102 | 107 | 112 | 117 | 122 | 127 | 131 | 136 | 141 | 146 | 151 | 156 | 161 | 165 | 170 | 175 | 180 | |||||||||||||
15 | 64 | 70 | 75 | 80 | 85 | 90 | 96 | 101 | 106 | 111 | 117 | 122 | 127 | 132 | 138 | 143 | 148 | 153 | 159 | 164 | 169 | 174 | 180 | 185 | 190 | 196 | ||||||||||||||
16 | 75 | 81 | 86 | 92 | 98 | 103 | 109 | 115 | 120 | 126 | 132 | 137 | 143 | 149 | 154 | 160 | 166 | 171 | 177 | 183 | 188 | 194 | 200 | 206 | 211 | |||||||||||||||
17 | 87 | 93 | 99 | 105 | 111 | 117 | 123 | 129 | 135 | 141 | 147 | 154 | 160 | 166 | 172 | 178 | 184 | 190 | 196 | 202 | 209 | 215 | 221 | 227 | ||||||||||||||||
18 | 99 | 106 | 112 | 119 | 125 | 132 | 138 | 145 | 151 | 158 | 164 | 171 | 177 | 184 | 190 | 197 | 203 | 210 | 216 | 223 | 230 | 236 | 243 | |||||||||||||||||
19 | 113 | 119 | 126 | 133 | 140 | 147 | 154 | 161 | 168 | 175 | 182 | 189 | 196 | 203 | 210 | 217 | 224 | 231 | 238 | 245 | 252 | 258 | ||||||||||||||||||
20 | 127 | 134 | 141 | 149 | 156 | 163 | 171 | 178 | 186 | 193 | 200 | 208 | 215 | 222 | 230 | 237 | 245 | 252 | 259 | 267 | 274 |
Einzelnachweise[Bearbeiten | Quelltext bearbeiten]
- ↑ Wilcoxon, Frank (1945): Individual Comparisons by Ranking Methods. In: Biometrics Bulletin 1: 80–83, JSTOR 3001968.
- ↑ Mann, Henry & Whitney, Donald (1947): On a test of whether one of two random variables is stochastically larger than the other. In: Annals of mathematical Statistics 18: 50–60, doi:10.1214/aoms/1177730491.
- ↑ William H. Kruskal: Historical Notes on the Wilcoxon Unpaired Two-Sample Test. In: Journal of the American Statistical Association, Band 52, 1957, S. 356–360, JSTOR 2280906
- ↑ Löffler, A.: Über eine Partition der natürlichen Zahlen und ihre Anwendung beim U-Test, Wiss. Z. Univ. Halle XXXII 1983, Heft 5, S. 87–89, siehe WWW
- ↑ Rönz, B., Strohe, H.G. (Hrsg.): Lexikon Statistik. Gabler, Wiesbaden 1994, ISBN 3-409-19952-7
- ↑ Rinne, H. (2003): Taschenbuch der Statistik (3. Auflage), Verlag Harri Deutsch, S. 534
- ↑ Kotz, S., Read, C.B., Balakrishnan, N. (2003): Encyclopedia of Statistical Sciences, Wiley, Band ?, S. 208
Literatur[Bearbeiten | Quelltext bearbeiten]
- Herbert Büning, Götz Trenkler (1998): Nichtparametrische statistische Methoden, de Gruyter, ISBN 3-11-016351-9.
- Sidney Siegel: Nichtparametrische statistische Methoden. Fachbuchhandlung für Psychologie, Eschborn bei Frankfurt am Main, 2. Ausgabe, 1985.
Weblinks[Bearbeiten | Quelltext bearbeiten]
- Social Science Statistics Mann-Whitney-Test (engl., Möglichkeit zur Berechnung von Werten)
- VassarStats Mann-Whitney-Test (engl., Möglichkeit zur Berechnung von Werten)
- Mann-Whitney U test (engl.)