Simpson-Paradoxon

Das Simpson-Paradoxon (auch simpsonsches Paradoxon oder Simpson’sches Paradoxon, benannt nach Edward Hugh Simpson) ist ein Paradoxon aus der Statistik. Dabei scheint es, dass die Bewertung verschiedener Gruppen unterschiedlich ausfällt, je nachdem ob man die Ergebnisse der Gruppen kombiniert oder nicht. Dieses Phänomen tritt auf, wenn Störvariablen in der statistischen Analyse nicht betrachtet werden. Durch die Nichtbeachtung der Gruppen kommt es zu einer Scheinkorrelation.

Das Simpson-Paradoxon ist möglich, wenn mehrere Vierfeldertafeln mit einem Chancenverhältnis kleiner (größer) als 1 zu einer Gesamttafel zusammengefasst werden, die einen Chancenquotienten größer (kleiner) als 1 aufweist.

Ein Weg mit dem Simpson-Paradoxon umzugehen ist es One-Hot kodierte Variablen zur Beschreibung der Cluster in die Datenmatrix einzufügen oder ein Fixed-Effect Modell zu fitten^[1].

Geschichte

Edward Hugh Simpson beschrieb das Phänomen 1951.^[2] Er war aber nicht der Erste, der sich damit beschäftigte. So beschrieben bereits 1899 Karl Pearson et al.^[3] und 1903 George Udny Yule^[4] einen ähnlichen Sachverhalt. Die Bezeichnung Simpson-Paradoxon (englisch Simpson’s Paradox) wurde vermutlich 1972 von Colin R. Blyth eingeführt.^[5]

Ursache: Unentdeckte Einflussfaktoren

Liegen je nach Unterteilung der Daten deutlich unterschiedliche Ergebnisse vor, kann dies auf nicht erfasste Einflussfaktoren (Störvariablen) zurückgeführt werden. Wollen Auswertende mögliche Fehlschlüsse vermeiden, müssen sie diese Einflussfaktoren finden, soweit sie vorhanden sind. Das Vorliegen eines Simpson-Paradoxons kann hier als Indikator dienen.

Eine Methode für die Suche nach weiteren Einflussfaktoren ist die getrennte Auswertung von Teilgruppen, bei denen

man spezifisches Verhalten erwartet (zum Beispiel das Krankheitsstadium der Patienten)
Cluster (Datenanalyse) gefunden wurde^[6].

Beispiele

Eine Prüfung

Eine Fahrschule hat zwei Prüfungstage mit folgenden Ergebnissen:

	männlich			weiblich
	bestanden	gesamt	Durchfallquote	bestanden	gesamt	Durchfallquote
1. Tag	1	1	0 %	7	8	12,5 %
2. Tag	2	3	33,3 %	1	2	50 %
Summe	3	4	25 %	8	10	20 %

Obwohl die Männer an beiden Tagen eine geringere Durchfallquote als die Frauen haben, haben sie im Gesamtergebnis eine höhere.

Ursache ist der Umstand, dass die Einzelergebnisse mit unterschiedlichem Gewicht in das Gesamtergebnis eingehen. Das erkennt man leicht in der zahlenmäßig zugespitzten Variante der obigen Tabelle, die nachfolgend wiedergegeben wird:

	männlich			weiblich
	bestanden	gesamt	Durchfallquote	bestanden	gesamt	Durchfallquote
1. Tag	1	1	0 %	999	1000	0,1 %
2. Tag	2	3	33,3 %	1	2	50 %
Summe	3	4	25 %	1000	1002	0,2 %

Zulassungszahlen an der Universität Berkeley

Einer der bekanntesten Fälle des Simpson-Paradoxons zeigte sich in einer Studie zu Zulassungen zu Graduate Schools der University of California, Berkeley. Die Zahlen für Herbst 1973 zeigten, dass mehr Männer als Frauen zugelassen wurden – die Differenz war so groß, dass sie nicht mehr durch Zufall zu erklären war (Signifikanztest):

	Bewerber	davon zugelassen
Männer	8442	44 %
Frauen	4321	35 %

Ein Mann hat also eine 44-prozentige Chance, zum Studium zugelassen zu werden, eine Frau aber nur eine 35-prozentige.

Die Aufschlüsselung nach Fakultäten zeigte allerdings, dass Frauen nicht diskriminiert wurden. Im Gegenteil wurde eine schwache, aber statistisch signifikante, Bevorzugung der Frauen festgestellt^[7]. Von 101 Departements der Universität hatten 16 nur erfolgreiche Bewerber oder nur Bewerber des einen Geschlechts. Bei den übrigen 85 Departements ergab sich dieses Bild:

Bei vier Departements gab es bei Männern Erfolgsquoten, die in signifikanter Weise besser waren als jene der Frauen.
Bei sechs Departements genossen Frauen eine signifikant bessere Erfolgsquote.

Ein Chi-Quadrat-Test zeigt eindrücklich, dass sich die Bewerbungen von Frauen und Männern von vorneherein nicht zufällig auf die 101 Departements verteilten (χ = 3091; p < 0,0001).

Dies führte zur Erklärung, dass keine Diskriminierung stattfand, sondern dass Frauen sich tendenziell dort bewarben, wo es für beide Geschlechter niedrigere Zulassungsraten gab, während Männer ihre Bewerbungen tendenziell dorthin sandten, wo es generell höhere Zulassungsraten gab. Die ursprüngliche Interpretation der Gesamterfolgsquote von 44 gegenüber 35 Prozent lässt dies außer Acht.^[7]

Siehe auch

Literatur

Hans-Peter Beck-Bornholdt: Mit an Wahrscheinlichkeit grenzender Sicherheit. Logisches Denken und Zufall. Rowohlt, Reinbek bei Hamburg 2005, ISBN 3-499-61902-4.
Thomas R. Knapp: Instances of Simpson’s paradox. In: College Mathematics Journal. Band 16 (1985), S. 209–211, doi:10.1080/07468342.1985.11972882, JSTOR:2686573.
Walter Krämer: Denkste! Trugschlüsse aus der Welt der Zahlen und des Zufalls. Piper Verlag, München 2011, ISBN 978-3-492-26460-0. Kapitel 7, S. 161–186 (Die Basis-Falle und andere Trugschlüsse aus bedingten Wahrscheinlichkeiten).
Edward H. Simpson: The Interpretation of Interaction in Contingency Tables. In: Journal of the Royal Statistical Society. Series B. Vol. 13, No. 2, 1951, S. 238–241, doi:10.1111/j.2517-6161.1951.tb00088.x, JSTOR:2984065.
Clifford H. Wagner: Simpson’s Paradox in Real Life. In: The American Statistician. Vol. 36, No. 1, 1982, S. 46–48, doi:10.1080/00031305.1982.10482778, JSTOR:2684093.
Howard Wainer: Minority contributions to the SAT score turnaround: an example of Simpson’s paradox. In: Journal of Educational Statistics. Band 11 (1986), S. 239–244, doi:10.3102/10769986011004239, JSTOR:1164696.

Weblinks

Eintrag in Edward N. Zalta (Hrsg.): Stanford Encyclopedia of Philosophy.
Judea Pearl: Simpsons′s Paradox: An Anatomy. University of California, 1999, S. 1–11 (ucla.edu [PDF; abgerufen am 16. Oktober 2007]).
Ulrich Kühne: Von Zahlen geblendet – Simpson-Paradox: Scheinbar klare Verhältnisse werden in ihr Gegenteil verkehrt. Eine Warnung vor dem naiven Vertrauen in Statistiken. Der Freitag Nr. 42, 2009, S. 18 (freitag.de [abgerufen am 17. April 2010]).
Björn Christensen & Sören Christensen: Simpsons Paradoxon: Diese Statistik kann nicht stimmen. Oder doch? In: Spiegel Online. 18. Dezember 2015, abgerufen am 20. Mai 2019.
Norbert Henze (2020): Ein Simpson-Paradoxon bei Covid-19-Todesfallraten (pdf)
Manon Bischoff: Gegen jede Intuition. In: Spektrum der Wissenschaft vom 4. März 2022 [1]

Das Simpson-Paradoxon | Mathewelten | ARTE auf YouTube, 27. Mai 2023, abgerufen am 4. Juni 2023.

Fußnoten und Einzelnachweise

↑ https://bookdown.org/anshul302/HE902-MGHIHP-Spring2020/Simpson.html
↑ Edward Hugh Simpson: The Interpretation of Interaction in Contingency Tables. In: Journal of the Royal Statistical Society, Ser. B. Band 13, 1951, S. 238–241, doi:10.1111/j.2517-6161.1951.tb00088.x, JSTOR:2984065.
↑ Karl Pearson; Alice Lee; Leslie Bramley-Moore: Mathematical Contributions to the Theory of Evolution – VI. Genetic (Reproductive) Selection: Inheritance of Fertility in Man, and of Fecundity in Thoroughbred Race-Horses. In: Philosophical Transactions of the Royal Society, Series A. Band 192, 1899, S. 257–330, doi:10.1098/rsta.1899.0006.
↑ George Udny Yule: Notes on the Theory of Association of Attributes in Statistics. In: Biometrika. Band 2, 1903, S. 121–134, doi:10.1093/biomet/2.2.121, JSTOR:2331677.
↑ Colin R. Blyth: On Simpson’s Paradox and the Sure-Thing Principle. In: Journal of the American Statistical Association. Band 67, Nr. 338, 1972, S. 364–366, doi:10.1080/01621459.1972.10482387, JSTOR:2284382.
↑ https://www.frontiersin.org/articles/10.3389/fpsyg.2013.00513/full
↑ ^a ^b P. J. Bickel; E. A. Hammel; J. W. O’Connell: Sex Bias in Graduate Admissions: Data from Berkeley. In: Science 187 (1975), Nr. 4175, S. 398–404 doi:10.1126/science.187.4175.398

[1] ttps://bookdown.org/anshul302/HE902-MGHIHP-Spring2020/Simpson.html

[2] Edward Hugh Simpson: The Interpretation of Interaction in Contingency Tables. In: Journal of the Royal Statistical Society, Ser. B. Band 13, 1951, S. 238–241, doi:10.1111/j.2517-6161.1951.tb00088.x, JSTOR:2984065.

[3] Karl Pearson; Alice Lee; Leslie Bramley-Moore: Mathematical Contributions to the Theory of Evolution – VI. Genetic (Reproductive) Selection: Inheritance of Fertility in Man, and of Fecundity in Thoroughbred Race-Horses. In: Philosophical Transactions of the Royal Society, Series A. Band 192, 1899, S. 257–330, doi:10.1098/rsta.1899.0006.

[4] George Udny Yule: Notes on the Theory of Association of Attributes in Statistics. In: Biometrika. Band 2, 1903, S. 121–134, doi:10.1093/biomet/2.2.121, JSTOR:2331677.

[5] Colin R. Blyth: On Simpson’s Paradox and the Sure-Thing Principle. In: Journal of the American Statistical Association. Band 67, Nr. 338, 1972, S. 364–366, doi:10.1080/01621459.1972.10482387, JSTOR:2284382.

[6] ttps://www.frontiersin.org/articles/10.3389/fpsyg.2013.00513/full

[Bickel-7] P. J. Bickel; E. A. Hammel; J. W. O’Connell: Sex Bias in Graduate Admissions: Data from Berkeley. In: Science 187 (1975), Nr. 4175, S. 398–404 doi:10.1126/science.187.4175.398

[1]

[2]

[3]

[4]

[5]

[6]

[7]