Effektstärke

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Effektgröße)
Wechseln zu: Navigation, Suche

Effektstärke oder Effektgröße bezeichnet eine statistische Maßzahl, welche die Größe eines Effektes angibt. Sie kann damit u. a. zur Verdeutlichung der praktischen Relevanz von statistisch signifikanten Ergebnissen herangezogen werden.

Definition[Bearbeiten]

Es sind unterschiedliche Maße der Effektstärke in Gebrauch. Nach Cohen[1] sollte für eine Maßzahl der Effektstärke gelten:

  1. sie ist eine dimensionslose Zahl,
  2. sie hängt nicht von der Maßeinheit der Ursprungsdaten ab,
  3. sie ist, im Gegensatz zu Teststatistiken, unabhängig von der Stichprobengröße und
  4. ihr Wert sollte nahe bei Null liegen, wenn die Nullhypothese des zugehörigen Tests nicht abgelehnt werden konnte.

Beispiel[Bearbeiten]

Verglichen wird die Intelligenzleistung von Kindern, die nach einer neuen Methode unterrichtet wurden, mit Kindern, die nach der herkömmlichen Methode unterrichtet wurden. Wenn eine sehr große Anzahl von Kindern pro Stichprobe erfasst wurde, können schon Unterschiede von beispielsweise 0,1 IQ-Punkten zwischen den Gruppen signifikant werden. Ganz offensichtlich bedeuten 0,1 IQ-Punkte Unterschied aber trotz eines signifikanten Testergebnisses kaum eine Verbesserung.

Wenn nur der Test und dessen signifikantes Ergebnis einbezogen würde, lautete die Schlussfolgerung, dass die neue Methode eine bessere Intelligenzleistung bewirkt, und die alte Lehrmethode würde unter hohem Kostenaufwand abgeschafft werden. Wird hingegen miteinbezogen, dass die neue Lehrmethode nur eine Verbesserung um 0,1 Punkte bewirkt hat, würde sicherlich weiterhin nach der ursprünglichen Methode unterrichtet werden.

Verwendung in der Forschung[Bearbeiten]

Effektstärke bezeichnet bei Experimenten (insbesondere in der Medizin, den Sozialwissenschaften und der Psychologie) das Ausmaß der Wirkung eines experimentellen Faktors. Bei Regressionsmodellen dient sie als Indikator für den Einfluss einer Variablen auf die erklärte Variable.

Die Effektgröße kann einerseits nach einer Untersuchung berechnet werden, um Unterschiede zwischen Gruppen in einem standardisierten Maß vergleichen zu können. Oft werden Effektgrößen bei Metaanalysen berechnet, um die Ergebnisse von verschiedenen Studien in einem einheitlichen Maß - der Effektgröße - miteinander vergleichen zu können.

Oft wird eine Effektgröße aber auch als Mindesteffektgröße vor der Durchführung einer Untersuchung oder vor der Durchführung eines Tests aufgestellt. Wird ein statistischer Test durchgeführt, so kann praktisch immer die Nullhypothese zurückgewiesen werden, wenn nur eine genügend große Anzahl von Messergebnissen einbezogen sind. Der Test wird bei genügend großem Stichprobenumfang also praktisch immer signifikant.

Effektstärke und statistische Signifikanz[Bearbeiten]

In der praktischen Anwendung statistischer Tests wird ein kleiner p-Wert häufig mit einer vergleichsweise hohen Effektstärke assoziiert. Zwar ist es tatsächlich der Fall, dass unter Beibehaltung der anderen Parameter einer Testsituation (Stichprobengröße, gewähltes Signifikanzniveau, erforderliche Teststärke) ein kleinerer p-Wert mit einer größeren Effektstärke assoziiert ist. Dies ist aber einfach ein spezifisches Merkmal des statistischen Tests (bzw. der zugrundeliegenden Verteilungen) und lässt eine Interpretation der Irrtumswahrscheinlichkeit p als Effektstärke nicht zu. Es ist aber – z. B. bei der Durchführung einer Meta-Analyse – möglich, aus einer berichteten Irrtumswahrscheinlichkeit eine zugeordnete Effektstärke zu bestimmen, wenn die Stichprobengröße bekannt ist. Da ein statistischer Test im Wesentlichen daraus besteht, eine spezielle (sinnvollerweise nicht-zentrale) Stichprobenverteilung für die verwendete Teststatistik (z. B. t – im Falle eines t-Tests – oder F für eine ANOVA) darauf zu überprüfen, ob der empirisch gefundene Wert der Statistik unter der Annahme, eine spezielle zu überprüfende Nullhypothese sei korrekt, plausibel (oder unplausibel) ist, lässt sich aus der gegebenen Irrtumswahrscheinlichkeit und der Information über die Stichprobengröße der erforderliche Parameter (Nichtzentralitätsparameter) der gewählten Verteilung und daraus die dem Test zugrundeliegende Effektstärke ermitteln. In ähnlicher Weise kann ein berichtetes eingehaltenes Signifikanzniveau dazu verwendet werden, eine Abschätzung zu geben, wie groß die Effektstärke mindestens gewesen sein muss, damit für eine gegebene Stichprobengröße das berichtete Signifikanzniveau eingehalten werden konnte.

In der Fisherschen Testtheorie kann der p-Wert eine Effektgröße darstellen, da ein kleiner p-Wert als hohe Wahrscheinlichkeit für das Zutreffen der Forschungshypothese interpretiert wird. Bedingt durch die Standardisierung der Teststatistiken kann jedoch durch Vergrößern der Stichprobe jeder Effekt signifikant „gemacht“ werden. Unter Neyman-Pearson ist allerdings der Tatsache Rechnung zu tragen, dass ein Annehmen der Forschungshypothese immer mit einem Ablehnen der Nullhypothese einhergeht. Ein Ergebnis, das unter der Nullhypothese hochsignifikant wird, kann unter der Forschungshypothese noch viel unwahrscheinlicher sein, da sich die Teststärke extrem reduziert. Als Effektgröße ist der p-Wert somit nicht geeignet, da der Effekt in der Forschungshypothese zu klein sein kann, um von praktischer Bedeutung zu sein.

Maßzahlen für die Effektstärke[Bearbeiten]

Bravais-Pearson-Korrelation r[Bearbeiten]

Die Bravais-Pearson-Korrelation r ist eine der meistgenutzten und ältesten Maßzahlen für Effektstärken bei Regressionsmodellen. Sie erfüllt in natürlicher Weise die Anforderungen, die Cohen an eine Effektstärke stellte.

Nach Cohen[1] indiziert r=0{,}1 einen kleinen Effekt, r=0{,}3 einen mittleren und r=0{,}5 einen starken Effekt.

Alternativ kann das Bestimmtheitsmaß R^2 benutzt werden.

Cohens d[Bearbeiten]

Cohens d[1] ist die Effektgröße für Mittelwertunterschiede zwischen zwei Gruppen mit gleichen Gruppengrößen n sowie gleichen Gruppenvarianzen \sigma^2 und hilft bei der Beurteilung der praktischen Relevanz eines signifikanten Mittelwertunterschieds (siehe auch t-Test):

D = \frac{\mu_1 - \mu_2}{\sigma}.

Als Schätzer für gleiche Gruppengrößen und unterschiedliche Varianzen wurde von Cohen


d = \frac{\bar{x}_1-\bar{x}_2}{\sqrt{(s_1^2+s_2^2) /2}}

angegeben, wobei \bar{x}_i den jeweilige Mittelwert aus den beiden Stichproben und s_i^2 die geschätzten Varianzen aus den beiden Stichproben nach der Gleichung 
s_i^2 = \frac{1}{n-1} \sum_{j=1}^{n}{(x_{ji}-\bar{x}_i)^2}
bezeichnen.

Nach Cohen[1] bedeutet d=0{,}2 einen kleinen Effekt, d=0{,}5 einen mittleren und d=0{,}8 einen starken Effekt.

Ungleiche Gruppengrößen und Gruppenvarianzen[Bearbeiten]

Andere Autoren als Cohen schätzen die Standardabweichung \sigma mit der Hilfe der gepoolten Varianz [2] als

s = \sqrt{\frac{(n_1-1)s^2_1 + (n_2-1)s^2_2}{n_1+n_2-2}}

mit

s_i^2 = \frac{1}{n_i-1} \sum_{j=1}^{n_i} (x_{j,i} - \bar{x}_i)^2.

Umrechnung in r[Bearbeiten]

Wird die Zugehörigkeit zu der einen Stichprobe mit Null und zu der anderen mit Eins kodiert, so kann ein Korrelationskoeffizient r berechnet werden. Er ergibt sich aus Cohens d als

r=\frac{d}{\sqrt{d^2+\frac{(n_1+n_2)^2}{n_1 n_2}}}.

Im Gegensatz zu Cohens d ist der Korrelationskoeffizient r nach oben durch Eins beschränkt. Von einem schwachen Effekt spricht man hier ab einem r=0,10, einem mittleren Effekt ab einem r=0,30 und einem starken Effekt ab r=0,50.

Glass's Δ[Bearbeiten]

Glass (1976) schlug vor, nur die Standardabweichung der zweiten Gruppe zu benutzen

\Delta = \frac{\bar{x}_1 - \bar{x}_2}{s_2}.

Die zweite Gruppe wird hier als Kontrollgruppe betrachtet. Wenn Vergleiche mit mehreren Experimentalgruppen durchgeführt werden, dann ist es besser \sigma aus der Kontrollgruppe zu schätzen, damit die Effektstärke nicht von den geschätzten Varianzen der Experimentalgruppen abhängt.

Unter der Annahme von gleichen Varianzen in beiden Gruppen ist jedoch die gepoolte Varianz der bessere Schätzer.

Hedges g[Bearbeiten]

Hedges[3] schlug 1981 eine weitere Modifikation vor. Mit

g = \frac{\bar{x}_1 - \bar{x}_2}{s^*}

und

s^* = \sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}}

ergibt einen verzerrten Schätzer der Effektstärke. Mit

g^* = J(n_1+n_2-2) g \approx \left(1-\frac{3}{4(n_1+n_2)-9}\right) g

und

J(a) = \frac{\Gamma(a/2)}{\sqrt{a/2}\Gamma((a-1)/2)}

ergibt einen unverzerrten Schätzer, der zur Berechnung der Konfidenzintervalle der Effekt-Stärken von Stichprobenunterschieden besser geeignet ist als Cohens d, welcher die Effekt-Stärke in der Grundgesamtheit schätzt. \Gamma bezeichnet hierbei die Gamma-Funktion.

Cohens f2[Bearbeiten]

Cohens f^2 ist ein Maß für die Effektstärke im Rahmen der ANOVA beziehungsweise des F-Tests und der Regressionsanalyse.

Regressionsanalyse[Bearbeiten]

Die Effektstärke f^2 berechnet sich

f^2=\frac{R_{included}^2-R_{excluded}^2} {1-R_{included}^2}

mit den Bestimmtheitsmaßen R_{included}^2 mit allen Variablen des Regressionsmodells und R_{excluded}^2 ohne die zu testende Variable. Ist nur der gemeinsame Effekt aller Variablen von Interesse, reduziert sich die obige Formel zu

f^2=\frac{R^2} {1-R^2}.

Nach Cohen[1] indiziert f^2=0{,}02 einen kleinen Effekt, f^2=0{,}15 einen mittleren und f^2=0{,}35 einen starken Effekt.

F-Test bzw. ANOVA[Bearbeiten]

Die Effektstärke f berechnet sich für k Gruppen als

f=\frac{\sqrt{\frac{1}{k} \sum_{i=1}^k (\bar{x}_i - \bar{x})^2 }}{s}

mit s ein Schätzer für die Gesamtvarianz des Datensatzes. Nach Cohen[1] indiziert f=0{,}10 einen kleinen Effekt, f=0{,}25 einen mittleren und f=0{,}40 einen starken Effekt.

Partielles Eta-Quadrat[Bearbeiten]

Die Effektstärke kann auch über das partielle Eta-Quadrat angegeben werden. Die Berechnung ergibt sich folgendermaßen:

 \eta^2 = \frac{QS_{\rm Effekt}}{QS_{\rm Effekt} + QS_{{\rm Res}}}

mit  {QS_{\rm Effekt}} als Quadratsumme des jeweiligen zu bestimmenden Effektes und  {QS_{\rm Res}} als Quadratsumme der Residualvarianz [4]. Multipliziert man das partielle Eta-Quadrat mit 100 kann es zur Interpretation der Varianzaufklärung eingesetzt werden. Das Maß gibt dann an, wieviel Varianz der abhängigen Variablen prozentual durch die unabhängige Variable erklärt wird. Das Programm SPSS von IBM berechnet bei Varianzanalysen standardmäßig partielles Eta-Quadrat. In älteren Programmversionen wurde dies fälschlicherweise als Eta-Quadrat bezeichnet. Bei einer einfaktoriellen ANOVA besteht zwischen Eta-Quadrat und partiellem Eta-Quadrat kein Unterschied. Sobald eine mehrfaktorielle ANOVA berechnet wird, muss das partielle Eta-Quadrat berechnet werden.

Eta-Quadrat als Effektstärkemaß überschätzt aber den Anteil der erklärten Varianz. Rasch et al. und Bortz empfehlen stattdessen die Verwendung des Populationseffektschätzers  \omega^2 , welcher durch Cohens  f^2 folgendermaßen berechnet wird [4] [5] :

 \omega^2 = \frac{f^2}{1 + f^2}

Cramers Phi, Cramers V und Cohens w[Bearbeiten]

Ein Maß für die Effektstärke kann nicht nur auf der Grundlage von Mittelwert- oder Varianzunterschieden, sondern auch in Bezug auf Wahrscheinlichkeiten berechnet werden. Siehe dazu [6], Seite 4. In diesem Fall wird aus den Zahlen einer Kreuztabelle, die Wahrscheinlichkeiten statt absoluter Häufigkeiten enthält, \chi^2 berechnet und daraus die Wurzel gezogen. Das Ergebnis ist Cohens w:

w=\sqrt{\sum\limits_{i.j=1.1}^{k_i.k_j}\frac{\left(p_{b_i.j}-p_{e_i.j}\right)^2}{p_{e_i.j}}}

Dabei ist k_i die Anzahl der Kategorien der Spaltenvariable, k_j die Anzahl der Kategorien der Zeilenvariable, p_{b_i.j} die beobachtete Wahrscheinlichkeit in der Zelle i.j und p_{e_i.j} die erwartete Wahrscheinlichkeit in der Zelle i.j. Erwartete Zellenwahrscheinlichkeiten werden berechnet, indem die jeweils entsprechenden Randwahrscheinlichkeiten miteinander multipliziert werden. Zur Berechnung von \chi^2 siehe auch [7] und zu Cohens w [8] und [6], Seite 6. Da bei Kreuztabellen, die nicht absolute Häufigkeiten, sondern Wahrscheinlichkeiten enthalten, an der Stelle, an der normalerweise die Fallzahl zu finden ist, immer 1 steht, kann statt  w auch  \phi berechnet werden, was numerisch identisch ist:

\phi=\sqrt{\frac{\chi^2}{n}}=\sqrt{\frac{\chi^2}{1}}=\sqrt{\chi^2}=\sqrt{\sum\limits_{i.j=1.1}^{k_i.k_j}\frac{\left(p_{b_i.j}-p_{e_i.j}\right)^2}{p_{e_i.j}}}=w

Ebenfalls numerisch identisch ist es, wenn in Bezug auf Kreuztabellen, die Wahrscheinlichkeiten enthalten, V \cdot \sqrt{(\min[r, c]-1)} berechnet wird, wobei r die Anzahl der Zeilen, c die Anzahl der Spalten und \min[r, c] die kleinere der beiden Zahlen ist.[1]

Für Cohens w gelten konventionell der Wert 0,1 als klein, 0,3 als mittel und 0,5 als groß.[8]

Kleine, mittlere und große Effektstärken[Bearbeiten]

Die vorher angegebenen Werte für kleinere, mittlere oder große Effektstärken hängen stark vom Sachgebiet ab. Cohen hat die Werte im Rahmen seiner Analysen und dem sozialwissenschaftlichen Usus gewählt.

“This is an elaborate way to arrive at the same sample size that has been used in past social science studies of large, medium, and small size (respectively). The method uses a standardized effect size as the goal. Think about it: for a "medium" effect size, you'll choose the same n regardless of the accuracy or reliability of your instrument, or the narrowness or diversity of your subjects. Clearly, important considerations are being ignored here. "Medium" is definitely not the message!”

„Dies ist ein komplizierter Weg um zu den gleichen Stichprobenumfängen zu gelangen, die in der Vergangenheit in großen, mittleren und kleinen sozialwissenschaftlichen Studien benutzt worden sind. Diese Methode hat eine standardisierte Effektstärke zum Ziel. Denken wir darüber nach: Für eine "mittlere" Effektstärke wählen wir den gleichen Stichprobenumfang unabhängig von der Genauigkeit oder der Verlässlichkeit des Instrumentes, die Ähnlichkeit oder die Unterschiede der Untersuchungsobjekte. Natürlich werden hier wichtige Aspekte der Untersuchung ignoriert. "Mittel" ist kaum die Botschaft!“

R.V. Lenth: [9]

Sie werden daher von vielen Forschern nur als Richtwerte akzeptiert.

Einzelnachweise[Bearbeiten]

  1. a b c d e f g Cohen, J. (1988): Statistical Power Analysis for the Behavioral Sciences, 2. Aufl., Hillsdale: Lawrence Erlbaum Associates. ISBN 978-0805802832
  2. Hartung, J., Knapp, G., Sinha, B.K. (2008), Statistical Meta-Analysis with Application, Wiley, New Jersey, ISBN 978-0470290897
  3. Hedges, L.V. (1981). Distribution theory for Glass's estimator of effect size and related estimators". Journal of Educational Statistics 6 (2): S. 107–128.
  4. a b Rasch,B., Friese,M., Hofmann,W., & Naumann,E.(2010). Quantitative Methoden 2. Einführung in die Statistik für Psychologen und Sozialwissenschaftler. Heidelberg: Springer, S.78/79
  5. Bortz,J.(2005). Statistik für Sozial- und Humanwissenschaftler. Heidelberg: Springer, S.280/281
  6. a b Dirk Wentura, 2004: Ein kleiner Leitfaden zur Teststärke-Analyse. Saarbrücken: Fachrichtung Psychologie der Universität des Saarlandes, http://www.uni-saarland.de/fak5/excops/download/POWER.pdf
  7. Hans Benninghau, (6)1989: Statistik für Soziologen 1. Deskriptive Statistik. (= Teubner Studienskripten 22) Stuttgart: Teubner, ab S. 100
  8. a b Jürgen Bortz, (6)2005: Statistik für Human- und Sozialwissenschaftler. Heidelberg: Springer, S. 167–168
  9. Lenth, R.V. (2006) Java applets for power and sample size, Division of Mathematical Sciences, the College of Liberal Arts or The University of Iowa, Zugriff am 26. Dezember 2008

Literatur[Bearbeiten]

  • Chin, Wynne W. (1998): The Partial Least Squares Approach to Structural Equation Modeling, in: Marcoulides, George A. (Hrsg.): Modern Methods for Business Research, Mahwah: Lawrence Erlbaum Associates, Inc., Seite 295-336.
  • Cohen, Jacob (1992): A power primer. Psychological Bulletin, 112, 155-159.
  • Huber, Oswald (2000): Das psychologische Experiment. Bern u. a.
  • Maier-Riehle, Brigitte, Zwingmann, Christian (2000): Effektstärkevarianten beim Eingruppen-Prä-Post-Design: Eine kritische Betrachtung. Rehabilitation, 39, S. 189-199.
  • Schnell, Rainer, Hill, Paul B., Esser, Elke (1999): Methoden der empirischen Sozialforschung. München, Wien.
  • Bortz, Jürgen, Döring, Nicola: Forschungsmethoden und Evaluation. 2. Auflage Springer, Berlin u.a. 1996, ISBN 3-540-59375-6.

Siehe auch[Bearbeiten]

Weblinks[Bearbeiten]