Statistische Signifikanz
Unterschiede zwischen Messgrößen oder Variablen in der Statistik werden als signifikant bezeichnet, wenn die Wahrscheinlichkeit, dass sie durch Zufall derart zustande kommen würden, nicht über einer gewissen Schwelle liegt. Der Ausdruck signifikant bedeutet in der induktiven Statistik, anders als in der Alltagssprache, nicht bedeutsam, wesentlich, wichtig oder groß, sondern allein, dass ein überzufälliger Zusammenhang angenommen wird bei dem zuvor dafür festgelegten Niveau.
Überprüft wird Signifikanz durch an das Datenmaterial angepasste statistische Tests, die eine Abschätzung der Irrtumswahrscheinlichkeit erlauben. Das a priori festzulegende Quantil der maximal zulässigen Irrtumswahrscheinlichkeit wird als Signifikanzniveau
(alpha, griech.) bezeichnet. So bedeutet beispielsweise
, dass die maximal zulässige Wahrscheinlichkeit 5 % dafür beträgt, eine eigentlich richtige Nullhypothese irrtümlich abzulehnen (sogenannter Fehler 1. Art). Umgekehrt beträgt die Wahrscheinlichkeit, dass eine richtige Nullhypothese vom Test korrekt bestätigt wird, mindestens
, hier also 95% oder mehr (
).
Ist ein Unterschied statistisch nicht signifikant, kann allerdings damit nicht ohne Weiteres darauf geschlossen werden, dass allein der Zufall eine Rolle gespielt hat. Denn über den Fehler 2. Art,
, eine falsche Nullhypothese irrigerweise für richtig zu halten, ist zumeist noch nichts bekannt.
Allgemeiner verstanden beschreibt statistische Signifikanz den möglichen Informationsgehalt eines Ereignisses bzw. einer Messung vor dem Hintergrund zufälliger Verteilungen als Wahrscheinlichkeit. Je kleiner
ist, desto höher ist dann die Informationsqualität.
Inhaltsverzeichnis |
Beispiele [Bearbeiten]
- Bei einer Umfrage wird festgestellt, dass 55 % der Frauen zu Partei A tendieren, während von 53 % der Männer Partei B bevorzugt wird. Gibt es tatsächlich einen Unterschied bei der politischen Überzeugung von Männern und Frauen oder sind nur zufällig bei den Frauen viele Anhängerinnen von Partei A und bei den Männern von Partei B befragt worden?
- Mit einem neuen Medikament ist die Heilungsrate höher als ohne Medikament. Ist das neue Medikament wirklich wirksam oder sind nur zufällig besonders viele Patienten ausgewählt worden, die auch von alleine wieder gesund geworden wären?
- In der Umgebung einer Chemiefabrik tritt eine bestimmte Krankheit besonders häufig auf. Ist das Zufall oder gibt es einen Zusammenhang?
Irrtumswahrscheinlichkeit und Signifikanzniveau [Bearbeiten]
In den oben genannten Beispielen kann man sich nicht sicher sein, dass der Zufall die Ergebnisse nicht beeinflusst hat. Man kann jedoch abschätzen, wie wahrscheinlich es ist, dass die gemessenen Ergebnisse auftreten, wenn nur der Zufall wirkt. Dieser zufällige Fehler wird allgemein als Fehler 1. Art (synonym:
-Fehler) bezeichnet und die Wahrscheinlichkeit seines Auftretens – unter der Voraussetzung, dass die Nullhypothese richtig ist – als Irrtumswahrscheinlichkeit.
Bei einem parametrischen Modell hängen die Wahrscheinlichkeiten für die verschiedenen Fehlschlüsse vom unbekannten Verteilungsparameter
ab und können mit Hilfe der Gütefunktion des Test angegeben werden.
Die obere Grenze für die Irrtumswahrscheinlichkeit, also jener Wert, den man für die Wahrscheinlichkeit eines Fehlers 1. Art noch eben zu akzeptieren bereit ist, heißt Signifikanzniveau. Grundsätzlich ist dies frei wählbar; häufig wird ein Signifikanzniveau von 5 % verwendet. Die Etablierung dieses Wertes wird verschiedentlich R. A. Fisher zugeschrieben.[1] In der Praxis bedeutet dieses Kriterium, dass im Schnitt eine von 20 Untersuchungen, bei denen die Nullhypothese richtig ist (z. B. ein Medikament tatsächlich wirkungslos ist), zu dem Schluss kommt, sie sei falsch (z. B. behauptet, das Medikament erhöhe die Heilungschancen).
Eine heuristische Motivation des Wertes 5 % ist wie folgt: Eine normalverteilte Zufallsgröße nimmt nur mit einer Wahrscheinlichkeit von weniger als (≤) 5 % einen Wert an, der sich vom Erwartungswert um mehr als die zweifache Standardabweichung unterscheidet. Bei einem p-Wert von kleiner oder gleich 5 % spricht man von Signifikanz. Bei einem Wert von ≤ 1 % spricht man von sehr signifikant und bei einem Wert von ≤ 0,1 % spricht man von einem hoch signifikanten Ergebnis.
Im Gegensatz zur Fisherschen Auffassung von Signifikanz als Gradmesser für den Wahrheitsgehalt einer Hypothese ist im Kontext einer klassischen strikten Neyman-Pearson-Testtheorie eine nachträgliche Einstufung des Testergebnisses in unterschiedliche Grade der Signifikanz nicht vorgesehen. Aus dieser Sicht sind auch keine „sehr signifikanten“ oder „hoch signifikanten“ Ergebnisse möglich – zusätzliche Informationen (beispielsweise der p-Wert) müssten anders angegeben werden.
Auch bei statistisch signifikanten Aussagen ist immer eine kritische Überprüfung der Versuchsanordnung und -durchführung notwendig. Nur selten genügen wissenschaftliche Untersuchungen den mathematischen Anforderungen an einen aussagefähigen statistischen Test. Bei vielen Studien steht der Wunsch des oder der Studiendurchführenden (z. B. im Rahmen einer Doktorarbeit) nach einem „signifikanten“ Ergebnis bei der Studiendurchführung zu sehr im Vordergrund. Untersuchungen, bei denen die Nullhypothese bestätigt wird, werden nämlich gemeinhin als uninteressant und überflüssig angesehen. Als Hinweise auf die Qualität einer Studie können im medizinischen Umfeld die Eigenschaften „randomisiert“, „kontrolliert“ und „doppelblind“ gelten. Ohne diese sind Aussagen etwa zur Wirksamkeit von Therapien mit äußerster Vorsicht zu behandeln. Bei häufig durchgeführten, weniger aufwändigen Studien besteht die Gefahr, dass zum Beispiel von zwanzig vergleichbaren Studien nur eine einzige – eben die mit positivem Ergebnis – veröffentlicht wird, wobei allerdings deren Signifikanz tatsächlich nur zufällig erreicht wurde. Problematisch ist insbesondere auch die Interpretation signifikanter Korrelationen in retrospektiven Studien. Zu bedenken ist darüber hinaus stets, dass aus statistisch signifikanten Korrelationen oft fälschlich auf eine vermeintliche Kausalität geschlossen wird (Beispiel: Zwischen 1960 und 1990 korrelierte die Zahl der Störche in Deutschland signifikant mit der menschlichen Geburtenrate, da beide Zahlen stark gesunken sind, dennoch ist die Kausalität zumindest fraglich).
Probleme bei der Interpretation [Bearbeiten]
Aussagewert und Power (Beispiel klinische Forschung) [Bearbeiten]
Statistisch signifikante Studien können trotzdem einen geringen praktischen Aussagewert haben.
Studien mit großer Fallzahl führen aufgrund der hohen statistischen Power (Teststärke) oft zu hoch signifikanten Ergebnissen. Solche Studien können trotzdem einen geringen Aussagewert haben, wenn die Größe des beobachteten Effekts oder der gemessene Parameter nicht klinisch relevant sind. Statistische Signifikanz ist also ein notwendiges, aber noch kein hinreichendes Kriterium für eine praktisch auch relevante – d. h. hier: ausreichend starke – Wirkung eines Medikaments. Für die Beurteilung der Relevanz ist die Effektstärke (Effektgröße) ein wichtiges Hilfsmittel.
Weitere kritische Prüfsteine vom methodologischen Gesichtspunkt aus sind:
- die Korrektheit der statistischen Modellannahmen (beispielsweise die Verteilungsannahme)
- die Anzahl der durchgeführten statistischen Tests (bei mehreren Tests, von welchen nicht einer eindeutig als primärer Test gekennzeichnet ist, sollte eine Adjustierung des Signifikanzniveaus durchgeführt werden)
- die prospektive Definition der Analysemethoden vor der „Entblindung“ doppelblinder Studien.
- die „Kosten“, die durch einen eventuellen Fehler 1. Art oder 2. Art entstehen können (Menschenleben im pharmazeutischen Bereich, oder entstehende monetäre Kosten oder Unfallgefahren durch Fehler 1. oder 2. Art bei der Auswahl von Verkehrspiloten-Anwärtern)
Irrige Annahmen [Bearbeiten]
Signifikanz ist entgegen einer weit verbreiteten Meinung nicht mit der Irrtumswahrscheinlichkeit gleichzusetzen, auch wenn im Output mancher Statistikprogramme (z. B. SPSS) die Irrtumswahrscheinlichkeit missverständlich als „Sig.“ oder „Signifikanz“ bezeichnet wird. Richtig ist, dass von „signifikant“ gesprochen wird, wenn die Irrtumswahrscheinlichkeit für das gewonnene Ergebnis einer bestimmten Studie nicht über dem zuvor festgelegten Signifikanzniveau liegt.
Doch ist es möglich – und mit einem Wert, der dem des gewählten Signifikanzniveaus entspricht, wahrscheinlich – , dass eine Wiederholung dieser Studie mit demselben Design und unter ansonsten – bis auf die zufällige Streuung – gleichen Bedingungen ein Ergebnis liefern würde, für das die Irrtumswahrscheinlichkeit über dem Signifikanzniveau läge.
Häufig wird das Wort "signifikant" mit dem Wort "deutlich" gleichgesetzt. Dieses Missverständnis hat seinen Ursprung wohl in der englischen Sprache, wo das Wort "significant" tatsächlich soviel bedeutet wie "erheblich" oder "wesentlich". Eine "statistisch signifikante" Änderung muss allerdings nicht notwendigerweise auch "deutlich" sein, sondern nur "eindeutig". Es kann sich also um eine geringfügige Änderung handeln, die nur "eindeutig" gemessen wurde. Bei genügend hoher Anzahl an Messungen wird jeder (existierende) Effekt statistisch signifikant gemessen, so klein und unbedeutend er auch sein mag.
Nicht zutreffend sind ferner die Annahmen, das Signifikanzniveau beziehungsweise der beobachtete p-Wert lege fest
- die Effektgröße
- die Wahrscheinlichkeit, dass die Nullhypothese wahr oder falsch ist
- die Wahrscheinlichkeit, dass die Alternativhypothese wahr oder falsch ist
- den Grad der Zuversicht, dass das Ergebnis als solches wiederholbar sein könnte.[2]
Wissenschaftliches Publizieren [Bearbeiten]
Vielfach wurde die Signifikanz als Maß dafür genommen, ob ein wissenschaftlicher Artikel veröffentlicht werden sollte. Dies führt jedoch zum sogenannten „Publikationsbias“, da mögliche Zufallsergebnisse nicht durch Publikation der gesamten Bandbreite der durchgeführten Untersuchungen relativiert werden. [3]
Die Herausgeber der Zeitschrift für Sozialpsychologie erklärten hingegen ausdrücklich, dass die Annahme von Artikeln in ihrer Zeitschrift nicht von der Signifikanz der Ergebnisse abhängt, da die Redaktion einen Kontrapunkt zu dem Ausbreiten des Fehlers 1. Art schaffen wolle. In der Publikation von Ergebnissen klinischer Studien sind derzeit Anstrengungen durch internationale Fachzeitschriften wie auch der forschenden Institutionen (insbesondere Pharmaunternehmen) im Gange, öffentlich zugängliche Datenbanken zu schaffen, in welchen verbindlich alle durchgeführten Studien sowie ihre prospektiv definierten Zielparameter enthalten sind. Dadurch sollen die Komplettheit der Veröffentlichung auch nicht vorhergesehener bzw. unerwünschter – und daher für ein Pharmaunternehmen unangenehmer – Resultate überprüfbar und eine Einschätzung des Publikationsbias möglich werden.
Signifikanz und Kausalität [Bearbeiten]
Die Signifikanz sagt überhaupt nichts über die möglichen kausalen Zusammenhänge aus oder deren Art; oft wird dies übersehen.
Als Beispiel: Eine Statistik hätte gezeigt, dass in der Umgebung einer Chemiefabrik eine bestimmte Krankheit besonders häufig aufgetreten ist, und zwar so, dass der Unterschied zur normalen Verteilung dieser Erkrankung in der Gesamtbevölkerung signifikant ist. Doch würde dieser statistisch signifikante Zusammenhang nicht zwingend bedeuten, dass die Chemiefabrik mit der erhöhten Erkrankungshäufigkeit ursächlich zu tun hat.
(1) Denn denkbar wäre auch, dass die Umgebung jener Chemiefabrik eine unbeliebte Wohngegend ist und daher dort überwiegend finanziell schwache Familien wohnen, die sich einen Wegzug nicht leisten können. Meist ernähren sich finanziell schwache Familien eher schlechter und haben in der Regel auch eine schlechtere Gesundheitsvorsorge als der Bevölkerungsdurchschnitt; eine Reihe von Krankheiten wird dadurch begünstigt, womöglich gerade die in Rede stehende.
(2) Ebenso denkbar wäre, dass die Krankheit in manchen Gebieten z. B. durch Überschreiten einer gewissen Bevölkerungsdichte und der damit verbundenen erhöhten Ansteckungsgefahr gehäuft auftritt; und nur zufällig steht die Chemiefabrik nun in einem solchen Gebiet mit höherem Auftreten dieser infektiösen Erkrankung.
Im ersten gedachten Fall könnte also ein kausaler Zusammenhang vorliegen; es wäre jedoch ein anderer als der, welcher mit Blick auf die statistische Untersuchung angenommen werden möchte. Die Kausalität könnte auch derart sein, dass diese Chemiefabrik gerade da gebaut wurde, wo viele sozial schwache Familien wohnen (z. B. weil diese sich mangels Lobby weniger gut gegen die Ansiedlung einer Fabrik wehren konnten als die wohlhabenderen Bewohner anderer Wohngegenden oder da ihre Mitglieder als mögliche Ware Arbeitskraft im Preis günstiger erschienen bei der Wahl des Standortes). Die Chemiefabrik ohne weitere Indizien als Ursache der gehäuften Krankheitsfälle anzusehen, wäre also ein logisch falsch gefolgerter Schluss der Art „cum hoc ergo propter hoc“.
Im zweiten gedachten Fall läge keinerlei kausaler Zusammenhang vor; vielmehr würde der sogenannte Zielscheibenfehler begangen: Nachdem eine signifikante Häufung eines Ereignisses (hier: der Krankheit) festgestellt wurde, wird ein anderes einigermaßen auffälliges Ereignis (nun: die Chemiefabrik) herangezogen und als mit dem ersten kausal zusammenhängend interpretiert. Oder noch einfacher:
Ein irgendwo als anders aufgefallenes Etwas wird wohl etwa mit irgendwas auffällig Anderem zusammenhängen – irgendwie, am liebsten: kausal und ad hoc (hier nun – »cum ergo propter« – nun hier).
Siehe auch [Bearbeiten]
- F-Test zur Feststellung statistischer Signifikanz des Unterschiedes zweier Varianzen
- t-Test
- Operationscharakteristik
Literatur [Bearbeiten]
- Hans-Peter Beck-Bornholdt, Hans-Hermann Dubben: Der Hund, der Eier legt. Rowohlt, 2001, ISBN 3-499-61154-6, (populärwissenschaftliche Darstellung).
- Jürgen Bortz: Statistik: Für Human- und Sozialwissenschaftler. Springer, Berlin 2005, ISBN 3-540-21271-X.
Weblinks [Bearbeiten]
- Peter Sedlmeier: Jenseits des Signifikanztest-Rituals: Ergänzungen und Alternativen (PDF-Datei; 427 kB).
- Jan M. Hoem: The reporting of statistical significance in scientific journals (PDF-Datei; 131 kB).
- Earliest Uses: Significance.
Einzelnachweise [Bearbeiten]
- ↑ Stephen Stigler: Fisher and the 5% level. In: CHANCE, Band 21, Nr. 4, Springer, New York Dezember 2008. S. 12.
- ↑ Gerd Gigerenzer, Zeno Swijtink, Theodore Porter: Das Reich des Zufalls. ISBN 3-8274-0101-1.
- ↑ Wolfgang Weihe: Klinische Studien und Statistik. In: Deutsches Ärzteblatt 101, 26. März 2004.