Replikationskrise

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 21. September 2016 um 23:41 Uhr durch Mabschaaf (Diskussion | Beiträge) (ref formatiert). Sie kann sich erheblich von der aktuellen Version unterscheiden.
Zur Navigation springen Zur Suche springen

Reproduzierbarkeit (Replikation (Versuch), Replizierbarkeit, Wiederholbarkeit) der Untersuchungsergebnisse durch andere Forscher ist eine fundamentale Anforderung an wissenschaftliche Forschungsarbeiten, insbesondere in den Naturwissenschaften. Auch in anderen empirischen Wissenschaften wie der Psychologie und der Medizin sollten wichtige Ergebnisse durch unabhängige und qualifizierte Untersucher kontrolliert werden. Damit ist die Erwartung verbunden, dass wissenschaftliche Forschung sich in ihrem Verlauf selbst kontrolliert und sich schrittweise auf der Grundlage der replizierten Befunde weiterentwickelt.

Aufgabenstellung in der Psychologie

Ein psychologisches Experiment oder eine andere Forschungsarbeit sollen methodisch so genau beschrieben werden, dass ihre Überprüfung möglich ist. Aus Sicht der Wissenschaftstheorie des kritischen Rationalismus ist die Bewährung einer Theorie gegen alle Versuche der Widerlegung ein grundlegendes Prinzip (siehe Falsifikation). Aus dem wachsenden Bestand relativ verlässlicher Ergebnisse (Sachverhalte) kann ein zunehmend gesichertes Fachwissen gewonnen werden, wie es für die Theorienbildung und für die Anwendungen in den Praxisfeldern der Psychologie erforderlich ist. Naturwissenschaftliche Definitionen der Reproduzierbarkeit (International Union of Pure and Applied Chemistry, siehe Reproduzierbarkeit) können nicht direkt übernommen werden, denn psychologische und sozialwissenschaftliche Untersuchungen mit Menschen weisen besondere Bedingungen auf.

Strategien der Replikation

Methodisch ist zwischen verschiedenen Verfahren der Replikation zu unterscheiden (siehe auch Schmidt 2009, Schweizer 1989):

  • Die direkte (genaue) Replikation ist die Wiederholung (Duplikation) einer bestimmten Untersuchung; sie wird auch als identische oder exakte Replikation bezeichnet. Streng genommen handelt es sich um eine gleichartige Wiederholung nur mit anderen Teilnehmern. Die genaue Wiederholung ist – abgesehen von computer-unterstützen Experimenten mit hochgradiger Standardisierung einfacher Abläufe – höchstens in demselben Labor möglich. Selbst wenn das Experiment sehr genau protokolliert und die Erhebung der unabhängigen und der abhängigen Variablen standardisiert sind, gibt es in der Regel spezielle technische Fertigkeiten der Untersucher und Eigenheiten des Untersuchungsstils, Besonderheiten der Versuchsleiter-Versuchspersonen-Interaktion und andere, eventuell wichtige Kontextvariablen (siehe Reaktivität (Sozialwissenschaften)). Knappe Zeitschriftenartikel enthalten in der Regel keine hinreichenden Angaben für eine direkte Replikation.
  • Die Reanalyse des eventuell zugänglichen Datensatzes einer publizierten wissenschaftlichen Arbeit wird durch unabhängige Wissenschaftler unternommen.
  • Die näherungsweise (approximative) Replikation versucht, so gut wie möglich die originale Untersuchung zu wiederholen. Wie gut dies erreicht wird, ist wegen der zahlreichen methodischen Aspekte nicht leicht zu bewerten.
  • Bei der partiellen Replikation wird nur eine der wichtigen Untersuchungsbedingungen verändert: die Personenauswahl oder nur die Darbietung der unabhängigen Variable (nach Dauer, Intensität, Qualität usw.) oder die Erhebung der abhängigen Variable durch eine vielleicht neu entwickelte Mess- oder Testmethode.
  • Die systematische Replikation unternimmt die planmäßige Variation von zwei oder mehr wichtigen Untersuchungsbedingungen auf einmal. Dieses Verfahren scheint ökonomischer zu sein, denn es könnte im positiven Fall eine breitere Erfahrungsbasis schaffen; im negativen Fall bleibt jedoch ungeklärt, weshalb es zu einem anderen Ausgang kam.
  • Die konstruktive (konzeptuelle) Replikation besteht in einer neu angelegten Untersuchung, die zwar den allgemeinen theoretischen Ansatz und die Untersuchungshypothese übernimmt, jedoch methodisch andere, aber theoretisch als adäquat angesehene Definitionen (Methoden) der unabhängigen und der abhängigen Variablen auswählt. Die Zielsetzung wird übernommen, die methodische Durchführung mehr oder minder neu angelegt. Konzeptuelle Replikationen sind häufiger zu finden, jedoch nicht unter dieser Bezeichnung, sondern als mehr oder minder freie Anlehnungen an vorausgegangene Untersuchungen. Auf diese Weise zeigt sich, ob das interessierende Phänomen über unterschiedliche Bereiche stabil ist. Fraglich bleibt aber, ob das methodisch anders erfasste Phänomen „dasselbe“ ist (Siri Carpenter, 2012).

Die von Asendorpf u.a. (2013) vorgeschlagene Unterscheidung von Reproducibility d.h. identische Ergebnisse bei unabhängiger Auswertung desselben Datensatzes, Replicability, d.h. Verallgemeinerbarkeit in mehreren Dimensionen, und Generalizability, d.h. Ausschließen von bestimmten Moderatoreffekten, ist unglücklich, da sie nicht dem verbreiteten Begriffsgebrauch sowie Lee J. Cronbachs Konzept der Generalizability Theory folgt.

Eine funktional gliedernde Klassifikation von Replikationsansätzen schlägt Stefan Schmidt (2009) vor, indem er nach der leitenden Absicht fragt: zur Kontrolle von Zufallseffekten, zur Kontrolle möglicher Artefakte (Mängel der inneren Validität), zur Kontrolle von Fälschungen, zur Generalisierung auf eine andere Population sowie zur Bestätigung der dem ursprünglichen Experiment zugrunde liegenden Hypothesen. Ist der Mangel an Replikationsversuchen ein blinder Fleck der Psychologie und der Sozialwissenschaften wie Schmidt meint? Er fordert deshalb eine gründlichere methodologische Diskussion, stärkere Berücksichtigung in Lehrbüchern und Änderung der Herausgeberpolitik.

Dass zahlreiche nicht-reproduzierbare Untersuchungsergebnisse publiziert wurden, ist in der Geschichte und Methodenlehre der Wissenschaften durchaus bekannt (vgl. Publikationsbias in der Medizin). Auch in der Vergangenheit gab es einzelne Stimmen,[1] die zu einer Replikation psychologischer Ergebnisse aufforderten. Bereits 1959 hatte der Statistiker Theodore Sterling bei seiner Analyse der Artikel in vier Psychologie-Zeitschriften festgestellt, dass fast alle Arbeiten positive Ergebnisse berichteten. Er sah hier einen Zusammenhang mit den Auswahlkriterien für eingereichte Manuskripte, welche die Publikation „positiver“ Ergebnisse begünstigen; eine erneute Analyse zeigte im Jahr 1995 eine unveränderte Sachlage.[2][3]

Die systematische Reanalyse der Originaldaten von bereits publizierten Beiträgen scheint ein schwieriger Weg zu sein. Obwohl die Richtlinien (Ethical Standards bzw. das Publication Manual) der American Psychological Association vorsehen, dass solche Daten von den Autoren grundsätzlich zur Verfügung gestellt werden, erhielten Wicherts u. a. von 141 ausgewählten Artikeln in APA-Zeitschriften nur in 27 Prozent der Fälle tatsächlich die Daten, an denen sie die Bedeutung von Ausreißer-Werten analysieren wollten; sie mussten daraufhin ihr Vorhaben abbrechen.[4]

In den Lehrbüchern der Methodenlehre der Psychologie werden die Strategien der Replikationsforschung eher beiläufig behandelt. Es mangelt noch an methodologischer Diskussion, an Konventionen und systematischen Ansätzen, und es gibt „Jede Menge Murks:“[5]

„Positive Ergebnisse in der Psychologie sind wie Gerüchte – leicht zu verbreiten, aber schwer zurückzunehmen. Sie prägen den Inhalt der meisten Fachzeitschriften, was kein Wunder ist, denn die Journale berichten mit Vorliebe über neue, spannende Studien. Versuche, diese zu reproduzieren, bleiben dagegen oft unveröffentlicht, insbesondere wenn sie scheitern.“

Beachtet werden fehlgeschlagene Replikationsversuche eher, wenn die ursprünglichen Untersuchungsergebnisse besonders interessant, aber sehr zweifelhaft waren. So provozierten die von dem Sozialpsychologen Daryl Bem berichteten „Vorahnungen“ in Gedächtnisexperimenten gleich drei (fehlgeschlagene) Replikationsversuche.[6][7] Der kritische Bericht über diese Falsifikation wurde von Science und zwei psychologischen Fachzeitschriften abgelehnt bevor er in der online Publikation PLOS ONE erschien.

Die Frage der Reproduzierbarkeit wichtiger Befunde wird auf einigen Gebieten der Psychologie – wie auch in der Medizin – hauptsächlich in den gründlich referierenden Übersichten Reviews zu kontroversen Themen oder in den auch statistisch zusammenfassenden Metaanalysen diskutiert (siehe evidenzbasierte Medizin). Demgegenüber sind in den Literaturbanken der Psychologie nur relativ wenige Publikationen über erfolgreiche und nicht erfolgreiche Replikationen psychologischer Experimente oder systematisch variierende Generalisierbarkeitsstudien verzeichnet. Gelegentlich äußert sich das in Fachkreisen durchaus vorhandene Problembewusstsein angesichts unerwarteter und wenig wahrscheinlicher Ergebnisse in dem ironisch-spöttischen Hinweis auf das Journal of Irreproducible Results, dessen Beiträge die Leser zum Lachen und dann zum Nachdenken bewegen sollen (Wissenschaftlicher Witz). Diesem 1955 gegründeten Magazin folgten 1995 die satirischen Annals of Improbable Research mit realen und fiktiven Experimenten zu oft absurden Themen.

Widerstand gegen Replikationen

Welche Gründe hat dieser Mangel wissenschaftlicher Kontrolle? Sich mit Replikationen zu befassen, könnte als wenig kreativ gelten; entsprechende Publikationen würden dann kaum zum wissenschaftlichen Ansehen beitragen, so dass sie zumindest für jüngere Wissenschaftler weniger förderlich wären als die Publikation „neuer“ Befunde. Für diese Vermutung spricht die sehr reservierte Einstellung der Herausgeber vieler wissenschaftlicher Zeitschriften. In einer Umfrage unter 79 Herausgebern von Social Science Journals lehnten 94 Prozent die Annahme von Manuskripten über Replikationsstudien ab, 54 Prozent der Gutachter meinten, dass sie eine neue Studie einer Replikationsstudie vorziehen.[8] Könnte darüber hinaus auch die Sorge mitspielen, dass zu viele publizierte Befunde nicht reproduzierbar sind? Im Hinblick auf das Reproducibility Project zitiert Siri Carpenter verschiedene Meinungen. So wird zwar diese kühne Initiative anerkannt, jedoch zu bedenken geben, dass das Projekt, falls es nur wenige Experimente bestätigen würde, auf eine unfaire Anschuldigung der Psychologie hinauslaufen könne:[9]

„I think one would want to see a similar effort done in another area before one concluded that low replication rates are unique to psychology. It would really be a shame if a field that was engaging in a careful attempt at evaluating itself were somehow punished for that. It would discourage other fields from doing the same.“

Ein Senior der Psychologie habe von dem geplanten Reproducibilty Project abgeraten, weil die Psychologie unter Druck stehe und ein solches Projekt die Psychologie schlecht aussehen ließe.[10] Dagegen lobten andere Wissenschaftler diese kühne Initiative. Andere Disziplinen könnten von dieser Art der Selbst-Reflexion profitieren. Der Organisator des Projekts, Brian Nosek, erläuterte seinen Standpunkt:[11]

„We’re doing this because we love science. The goal is to align the values that science embodies – transparency, sharing, self-critique, reproducibility – with its practices.“

Argumente für mehr Replikationsstudien

In den USA und allmählich auch in Deutschland ist in allgemeinen Wissenschafts-Zeitschriften eine zunehmend kritische Einstellung gegenüber den üblichen Publikationsweisen und der mangelnden innerfachlichen Kontrolle zu erkennen. Das Interesse an Replikationsstudien wurde durch systematische Nachweise statistischer Mängel und durch extreme Fälle von Datenfälschung erhöht. Zunehmend wird die Forderung nach Qualitätskontrolle, beispielsweise nach Qualitätssicherung in der Psychologischen Diagnostik erhoben.

  • Ein neueres Beispiel für Betrug und Fälschung in der Wissenschaft gab der bekannte Sozialpsychologe Diederik Stapel, der mindestens 30 Publikationen mit erfundenen Daten verfasste. (Diese Fälschungen wurde allerdings nicht durch Replikationsversuche entdeckt, sondern aufgrund von Hinweisen aus seinem Arbeitskreis.) Außerdem bestehen aktuelle Vorwürfe gegen zwei weitere Sozialpsychologen: Dirk Smeesters und Jens Förster.
  • Die Anzahl der Rückrufe von nicht mehr vertrauenswürdigen wissenschaftlichen Veröffentlichungen in der Medizin, aber auch in den Sozialwissenschaften, ist zwar gering, hat jedoch deutlich zugenommen, wobei „Betrug“ der Hauptgrund war.[12] Die Rückrufquote scheint auch mit dem Impact-Faktor, d.h. dem Ansehen der Zeitschrift, zusammenzuhängen.[13]
  • In einer auf 2155 Antworten basierenden Umfrage zur Untersuchung der Forschungspraxis von Psychologen in den USA ergab sich: 43 Prozent räumten ein, unpassende Daten fortgelassen zu haben, 35 Prozent taten so, als ob das überraschende Ergebnis genau das war, was sie erwartet hätten, 2 Prozent räumten ein, bereits Daten frisiert zu haben.[14]
  • Die Untersucher haben einen Entscheidungsspielraum bei der Versuchsplanung: wie viele Personen, wie viele abhängige Variablen usw. Beispielsweise könnte die Chance, signifikante Ergebnisse zu erhalten, verdoppelt werden, wenn die Untersuchungsteilnehmer in zwei Altersgruppen oder wenn sie nach Geschlechtszugehörigkeit aufgegliedert werden. Außerdem können in paralleler Weise zusätzliche Prüfstatistiken berechnet werden. Ein Untersucher hat viele „Freiheitsgrade“ dieser Art und könnte versucht sein, durch solche, eventuell im Nachhinein getroffenen „flexiblen“ Entscheidungen die gewünschten „positiven“ Ergebnisse zu erreichen.[15] Im Extremfall werden die Hypothesen erst formuliert, wenn die Ergebnisse vorliegen.
  • In vielen Forschungsbereichen der Psychologie und der Medizin sind wegen des erheblichen Aufwandes Untersuchungen mit nur 20 bis 30 Personen üblich, beispielsweise in den Neurowissenschaften.[16][17] Oft wird übersehen, dass die statistischen Ergebnisse aufgrund der wenigen Daten einer Kleinstichprobe sogar in das Gegenteil verkehrt werden können, wenn der Autor bereits vor den Berechnungen einen auffälligen Wert, einen „Ausreißer“, berücksichtigt oder ausklammert.
  • Eine systematische Reanalyse klinischer Untersuchungen ergab, dass die Schlussfolgerungen zu den untersuchten Behandlungen bei 35 % der Publikationen substanziell von denjenigen der ursprünglichen Publikationen abweichen.[18] Wenn in den Folgestudien die Effektstärke deutlich abnimmt, wird von einem Decline-Effekt gesprochen.
  • Andere Autoren weisen auf die begrenzte Aussagekraft der statistischen Signifikanz eines Befundes hin und fordern, dass stets auch die Größenordnung des Effektes (Effektstärke) eines Untersuchungsergebnisses in geeigneten Kennwerten angegeben wird (Analyse der Power). Die Durchsicht von 1000 Publikationen ergab, gegen die theoretische Erwartung, dass ein systematischer Zusammenhang zwischen Effektstärke und Stichprobenumfang besteht, d.h. ein spezieller Publikationsbias anzunehmen ist. [19]
  • Bei umfangreicher Überprüfung von Forschungsarbeiten in der Medizin stellte der Epidemiologe John Ioannidis sehr häufig Mängel fest.[20] Diese oft zitierte Studie wurde zwar in statistischer Hinsicht kritisiert,[21] doch wurde die Anzahl der falsch positiven Ergebnisse auf der Basis von 77 430 Artikeln in fünf wichtigen Zeitschriften der Medizin zwischen 2000 und 2010 immerhin auf 14 Prozent geschätzt, allerdings zeigte sich in diesem Zeitraum keine Zunahme dieser Tendenz.
  • In zahlreichen Publikationen der Psychologie gibt es Fehler der statistischen Analyse.[22] In 18 Prozent der geprüften 281 Beiträge gab es Mängel der statistischen Auswertung und in 15 Prozent mindestens einen Fehler, wobei diese oft zugunsten der Hypothese ausfielen.
  • Da heute nahezu alle Forschungsergebnisse in der Psychologie und Medizin auf statistischen Analysen beruhen, d.h. die Wahrscheinlichkeit des beobachteten Resultats gegenüber der Zufallserwartung prüfen, müssen unter einer größeren Anzahl von publizierten Befunden einige zufällig positive und einige zufällig negative Befunde enthalten sein. Untersuchungen ergaben jedoch in vielen Wissenschaftsgebieten einen unglaubwürdig hohen Prozentsatz „positiver“ Resultate. Einige Untersucher werden angesichts eines negativen Ergebnisses, das ihren Erwartungen widerspricht, geneigt sein, diese Arbeit in der Schublade („File-Drawer-Problem“) zu belassen und vorzugsweise ihre signifikanten positiven Ergebnisse zu veröffentlichen. Eine Analyse von 4600 Studien aus verschiedenen Disziplinen ergab vor allem für die Fächer Psychologie und Psychiatrie einen relativ hohen Anteil positiver Ergebnisse.[23][24] Von diesen Untersuchungen bestätigten 91.5 Prozent die Untersuchungshypothese. Damit waren die Chancen positiver Ergebnisse 5-mal höher als beispielsweise in den Geowissenschaften. Fanelli meint, dass in den “weicheren” Wissenschaften weniger Hindernisse bestehen, die bewussten und die unbemerkten Tendenzen zugunsten eines positiven Ergebnisses selbstkritisch zu kontrollieren.[25]
  • Das gegenwärtige System wissenschaftlicher Publikationen in der Psychologie begünstigt die Veröffentlichung nicht-replizierbarer Ergebnisse.[26][27]

Wichtige Aspekte der methodologischen Diskussion sind in einer Aufsatzsammlung Special Section on Replicability in Psychological Science: A Crisis of Confidence? weiter ausgeführt.[28]. In Verbindung mit einer Problemübersicht: Zur Reproduzierbarkeit psychologischer Forschung [29] hat Joachim Funke einen Blog zum Thema eingerichtet.

Das Reproducibility Project

Aufgabenstellung

Das von Brian Nosek und zahlreichen amerikanischen und auch einigen internationalen Mitarbeitern gegründete Reproducibility Project hat sich die Aufgabe gestellt:

„Do normative scientific practices and incentive structures produce a biased body of research evidence? The Reproducibility Project is a crowdsourced empirical effort to estimate the reproducibility of a sample of studies from scientific literature. The project is a large-scale, open collaboration currently involving more than 150 scientists from around the world.

The investigation is currently sampling from the 2008 issues of three prominent psychology journals - Journal of Personality and Social Psychology, Psychological Science, and Journal of Experimental Psychology: Learning, Memory, and Cognition. Individuals or teams of scientists follow a structured protocol for designing and conducting a close, high-powered replication of a key effect from the selected articles. We expect to learn about:

  • The overall rate of reproducibility in a sample of the published psychology literature
  • Obstacles that arise in conducting effective replications of original study procedures
  • Predictors of replication success, such as the journal in which the original finding was published, the citation impact of the original report, and the number of direct or conceptual replications that have been published elsewhere
  • Aspects of a procedure that are or are not critical to a successful direct replication, such as the setting, specific characteristics of the sample, or details of the materials.“

Das Reproducibilty Project wird innerhalb des Center for Open Science COS organisiert und finanziert. Diese non-profit-Einrichtung setzt sich das Ziel „to increase the openness, integrity, and reproducibility of scientific research.“ Für das Projekt wurden die ersten 30 Artikel des Jahrgangs 2008 der drei genannten Zeitschriften für eine möglichst genaue Replikation ausgewählt. In einer Anleitung sind wichtige Details und Kriterien festgelegt. Die Nachuntersucher sollen sich an die ursprünglichen Autoren wenden, um methodische Details zu erfahren.

In den USA ist dieses Projekt in den Wissenschaftsmagazinen sehr beachtet und als mutige Initiative, die fachinterne Bedenken zu überwunden hatte, begrüßt worden.[30][31][32][33] Von Psychologen wurden die Absicht des Projekts und das Konzept der Reproduzierbarkeit sehr unterschiedlich kommentiert.[34]

An dem Projekt beteiligten sich 270 Wissenschaftler aus 125 Institutionen, darunter 14 deutsche Institute. In einer Anleitung waren wichtige Details und Kriterien festgelegt. Die Nachuntersucher sollten sich an die ursprünglichen Autoren wenden, um methodische Einzelheiten für eine möglichst genaue Replikation zu erfahren. Der Ergebnisbericht basiert auf 100 Publikationen der drei amerikanischen Journals. Die Auswahl aus den insgesamt 488 Artikeln des Jahrgangs 2008 wird als zufallsähnlich („quasi-random“) bezeichnet. Es gab eine Anzahl von Eignungskriterien und ein stufenweises Verfahren, welche der Themen den potenziellen Projektmitarbeitern für den Replikationsversuch nach und nach angeboten wurden. Aufgenommen wurden jene 100 von 113 Replikationsversuchen, die rechtzeitig für den Ergebnisbericht fertiggestellt waren. Dieses eigentümliche Auswahlverfahren hat zur Folge, dass die Ergebnisse nicht auf die Gesamtheit der 488 Publikationen und noch viel weniger auf die experimentelle Psychologie insgesamt verallgemeinert werden können.

Ergebnisse

Die Zweituntersucher bemühten sich, das Experiment und dessen einzelne Bedingungen einschließlich der statistischen Auswertung möglichst genau nachzuformen; dabei wurden sie in der Regel durch die Erstuntersucher sowie durch die Projektleitung unterstützt. Nachdem jeweils die differenzierten statistischen Auswertungen abgeschlossen waren, beurteilten die Zweituntersucher, ob die Replikation gelang. In 39 % der Fälle wurde diese Frage bejaht. Die Mehrzahl der publizierten Forschungsergebnisse konnte also nicht bestätigt werden.

Der zusammenfassende Projektbericht und die ergänzenden Unterlagen[35] enthalten differenzierte statistische Analysen, in denen verschiedene Gesichtspunkte und Kriterien solcher Vergleiche berücksichtigt sind. Neben der statistischen Signifikanz (Überzufälligkeit) kann auch die Größe des experimentell herbeigeführten Unterschieds zwischen der Experimentalgruppe und der Kontrollgruppe (Effektstärke) herangezogen werden. Außerdem können die Erst- und Zweituntersuchungen statistisch zusammengefasst werden und die Korrelation beider Indizes mit Einflussgrößen (Moderatorvariablen) geprüft werden. Die Autorengruppe fasst das Reproducibility Project zusammen:

“We conducted replications of 100 experimental and correlational studies published in three psychology journals using high-powered designs and original materials when available. Replication effects were half the magnitude of original effects, representing a substantial decline. Ninety-seven percent of original studies had statistically significant results. Thirty-six percent of replications had statistically significant results; 47% of original effect sizes were in the 95% confidence interval of the replication effect size; 39% of effects were subjectively rated to have replicated the original result; and if no bias in original results is assumed, combining original and replication results left 68% with statistically significant effects.”

Kommentare und Kritik

Die Autorengruppe kommentiert rückblickend:

„We conducted this project because we care deeply about the health of our discipline and believe in its promise for accumulating knowledge about human behavior that can advance the quality of the human condition. Reproducibility is central to that aim. Accumulating evidence is the scientific community’s method of self-correction and is the best available option for achieving that ultimate goal: truth.“

„Wir unternahmen dieses Projekt, weil wir über den Zustand unserer Disziplin tief besorgt sind und an die Aussicht glauben, mit dem Wissen über das menschliche Verhalten die Qualität der Lebensbedingungen zu verbessern. Reproduzierbarkeit ist fundamental für dieses Ziel. Die Akkumulation von Nachweisen ist die Methode der Selbstkorrektur in der Wissenschaft und bleibt die beste verfügbare Option zum Erreichen des letzten Ziels: der Wahrheit.“

Bereits kurz nach der Veröffentlichung (28. August 2015) wurde das Hauptergebnis auch in deutschen Medien [36] [37] kritisch kommentiert. Die enttäuschende Bilanz des Reproduzierbarkeits-Projekts bedeutet für die Psychologen und ihre Fachgesellschaften eine massive Herausforderung, die fundamentalen Forschungsstrategien zu überdenken und die Anforderungen an wissenschaftliche Publikationen zu reformieren. Andere Disziplinen sind angeregt, dem Vorbild dieser selbstkritischen Open Science Collaboration in der Psychologie zu folgen.

Die Deutsche Gesellschaft für Psychologie (DGPs) hat in einer Stellungnahme[38] die Ergebnisse eher positiv kommentiert, was wiederum Kritik[39] von einigen Fachvertretern hervorgerufen hat. Die Kritik richtet sich einerseits auf die zu positive Darstellung der Ergebnisse in der DGPs-Mitteilung, andererseits auf grundsätzliche Mängel der Studie.

Als Limitationen der Studie wird weiterhin angeführt, dass die ausgewählten Arbeiten überwiegend spezifische Themen und Subdisziplinen betreffen: d.h. Kognitionspsychologie, Priming (Psychologie), Auswirkung einer durch spezielle Instruktion beeinflussten Einstellung (Psychologie), Fragestellungen auf Basis einfacher, computer-gestützter Versuche. Die Themen sind also nicht repräsentativ für die gesamte Psychologie. Anspruchsvollere Untersuchungen hinsichtlich Forschungsaufwand, Methoden, Apparatur und Teilnehmern, d.h. nicht nur Studierende der Psychologie, sind in der Minderzahl. Das Projekt befasst sich mit Experimenten, während ein großer Anteil psychologischer Forschung nur aus quasiexperimentellen Untersuchungen (siehe Psychologisches Experiment), Veränderungsmessungen, Korrelationsanalysen und Kriterienvorhersagen besteht. Keineswegs berührt sind das Problem der Kontextabhängigkeit und die Frage nach der praktisch wichtigen, externen und ökologischen Validität, die nur unter Alltagsbedingungen im Feldexperiment und im Labor-Feld-Vergleich geprüft werden können. [40] Folglich sind, bei aller Anerkennung für das durch Größenordnung und Methodik herausragende Reproducibiliy-Project, dessen Befunde nicht einfach auf die Forschungsergebnisse der empirischen Psychologie zu verallgemeinern.

Zusätzlich wird angemerkt, dass es einen allgemeinen Maßstab, welcher Prozentsatz fehlgeschlagener Replikationsversuche als problematisch oder sehr problematisch gelten müsste, kaum geben könne. Nosek meint, dass vielleicht als Hauptergebnis nicht die bloße Anzahl der reproduzierbaren Untersuchungen wichtig sein könnte, sondern die Einsicht, welche Merkmale eine erfolgreich zu replizierende Untersuchung auszeichnen.[41] Der Projektbericht enthält zahlreiche methodische Überlegungen und Anregungen für künftige Untersuchungen der Reproduzierbarkeit wissenschaftlicher Arbeiten – auch in anderen Disziplinen.

Folgerungen

Empfehlungen

Eine Autorengruppe[42] nennt einige allgemeine methodische Prinzipien und verlangt, dass die Autoren ihre Forschung durchsichtiger machen: der Forschungsplan ist vor dem Untersuchungsbeginn zu dokumentieren und möglichst mit open access zu archivieren, das Forschungsmaterial und vor allem die Daten sind grundsätzlich verfügbar zu machen, wie es mit der Idee eines Internationalen Studienregisters erhofft wird. Die internetbasierte Kooperation bietet viele neue Wege. Empfehlungen werden auch an Herausgeber und Gutachter der Zeitschriften, an die akademischen Lehrer und an Institutionen und Geldgeber gerichtet. Wird die Prüfung der Reproduzierbarkeit einmal zum wissenschaftlichen Standard der Psychologie werden? Konkrete Maßnahmen und Einrichtungen wurden bisher kaum durch die Fachgesellschaften, sondern durch einzelne Initiativen geschaffen.

Genauere Publikationsrichtlinien

Das amerikanische Committee on Publication Ethics COPE[43] hat zusammen mit anderen Organisationen Principles of Transparency and Best Practice in Scholarly Publishing: revised and updated [44] entwickelt.

Brian Nosek und Mitglieder der Projektgruppe formulierten in einem begleitenden Aufsatz Richtlinien für Transparenz, Offenheit und Reproduzierbarkeit.[45] Die 8 Standards der Transparency and Openness Promotion (TOP) Guidelines sind jeweils in 3 mehr oder minder anspruchsvolle Ebenen gegliedert und sollen helfen, die fachliche Qualität eines Aufsatzes einzustufen und die Glaubwürdigkeit der wissenschaftlichen Literatur zu erhöhen.

Studienregister

Das System PsychFileDrawer [46] ermöglicht die Archivierung von erfolgreichen und erfolglosen Replikationen aus allen Bereichen der Psychologie verbunden mit einem Diskussionsforum. Eine Übersicht über bereits vorliegende Replikationsstudien im Zeitraum von 1989 bis 2013 führt 53 Replikationsversuche auf, die überwiegend scheiterten. Jeffrey Spies, Brian Nosek u.a. haben im Open Science Framework OSF eine Website geschaffen, wo leicht Informationen über Projekte, Versuchspläne (Studiendesigns) vor dem Untersuchungsbeginn, Studienmaterialien, in zitierbarer Weise dokumentiert und damit auch registriert werden können. Eines der Hilfsmittel ermöglicht Benutzern, denen ein Replikationsversuch misslang, nach ähnlichen Erfahrungen zu suchen [47]

Open access Daten

In der Open Access Bewegung wird gefordert, dass grundsätzlich zu einer wissenschaftlichen Publikation auch die zugehörigen Primärdaten zugänglich gemacht werden. Datensätze aus der Psychologie können in Deutschland auf freiwilliger Basis im Forschungsdatenzentrum für die Psychologie innerhalb des Leibniz-Zentrum für Psychologische Information und Dokumentation (ZPID) archiviert werden. Diese Data Sharing-Plattform wurde speziell auf die psychologische Forschung ausgerichtet, doch wird diese besondere Möglichkeit gegenwärtig noch nicht sehr breit genutzt.

Die von der American Psychological Association für die von ihr herausgegebenen Zeitschriften zu jeder Publikation vorgesehene Archivierung der primären Daten ist noch nicht implementiert. Neben der juristisch schwierigen Frage nach dem Eigentum und den speziellen Nutzungsrechten an solchen Daten (Urheberrecht) gibt es auch organisatorische Probleme. Zumindest bei Forschungsprojekten, die aus öffentlichen Mitteln gefördert werden, müsste zu erreichen sein, dass nicht nur die Berichte, sondern auch die Daten öffentlich zugänglich sind. Diese Regelung sollte bereits bei der Antragstellung definiert und zugesichert werden.[48] [49]

Im Journal of Open Psychology Data JOPD können Datensätze, die einen besonderen Wert für Reanalysen haben, archiviert werden.

Zeitschriften auch für negative Befunde

Dem Publikationsbias vorbeugen sollen neuartige Zeitschriften, in der sog. Null-Ergebnisse und im Sinne der Hypothese negative Replikationsversuche (Falsifikationen) veröffentlicht werden können. Das PsychFileDrawer. Archive of Replication Attempts in Experimental Psychology publiziert experimentalpsychologische Wiederholungsstudien unabhängig von ihrem Ausgang; es enthält darüber hinaus eine Liste von 20 Arbeiten, deren Replikation von den Besuchern dieser Website vorrangig gewünscht wird.

Inzwischen gibt es Zeitschriften für die Veröffentlichung nichtsignifikanter Befunde in der Medizin und in den Naturwissenschaften: das Journal of Articles in Support of the Null Hypothesis, das Journal of Contradicting Results in Science, das Journal of Negative Results in ecology and evolutionary biology, das Journal of Negative Results in Biomedicine und The All Results Journals.

Literatur

  • Alexander, Anita; Barnett-Cowan, Michael; Bartmess, Elizabeth; Bosco, Frank A.; Brandt, Mark; Carp, Joshua; Chandler, Jesse J.; Clay, Russ; Cleary, Hayley; Cohn, Michael; Costantini, Giulio; DeCoster, Jamie; Dunn, Elizabeth; Eggleston, Casey; Estel, Vivien; Farach, Frank J.; Feather, Jenelle; Fiedler, Susann; Field, James G.; Foster, Joshua D.; Frank, Michael; Frazier, Rebecca S.; Fuchs, Heather M.; Galak, Jeff; Galliani, Elisa Maria; Garcia, Sara; Giammanco, Elise M.; Gilbert, Elizabeth A.; Giner-Sorolla, Roger; Goellner, Lars; Goh, Jin X.; Goss, R. Justin; Graham, Jesse; Grange, James A.; Gray, Jeremy R.; Gripshover, Sarah; Hartshorne, Joshua; Hayes, Timothy B.; Jahn, Georg; Johnson, Kate; Johnston, William; Joy-Gaba, Jennifer A.; Lai, Calvin K.; Lakens, Daniel; Lane, Kristin; LeBel, Etienne P.; Lee, Minha; Lemm, Kristi; Mackinnon, Sean; May, Michael; Moore, Katherine; Motyl, Matt; Müller, Stephanie M.; Munafo, Marcus; Nosek, Brian A.; Olsson, Catherine; Paunesku, Dave; Perugini, Marco; Pitts, Michael; Ratliff, Kate; Renkewitz, Frank; Rutchick, Abraham M.; Sandstrom, Gillian; Saxe, Rebecca; Selterman, Dylan; Simpson, William; Smith, Colin Tucker; Spies, Jeffrey R.; Strohminger, Nina; Talhelm, Thomas; van't Veer, Anna; Vianello, Michelangelo: An open, large-scale, collaborative effort to estimate the reproducibility of psychological science. In: Perspectives on Psychological Science. Volume 7 (6), 2010, S. 657–660. (online)
  • Jens Asendorpf, Mark Connor, Filip de Fruyt, Jan de Houwer, Jaap J. A. Denissen, Klaus Fiedler, Susann Fiedler, David C. Funder, Reinhold Kliegl, Brian A. Nosek, Marco Perugini, Brent W. Roberts, Manfred Schmitt, Marcel A. G. Vanaken, Hannelore Weber, Jelte M. Wicherts: Recommendations for increasing replicaility in psychology. In: European Journal of Personality. Vol. 27, 2013, S. 108–119.(online)
  • Jürgen Bortz, Nicola Dörig: Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler. 4. Auflage. Springer, Heidelberg 2006, ISBN 3-540-33305-3.
  • Siri Carpenter: Psychology’s bold initiative. In an unusual attempt at scientific elf-examination, psychology researchers are scrutinizing their field’s reproducibility. In: Science, 335, 30 March 2012, S. 1558–1561. (online)
  • Estimating the reproducibility of psychological science. Open Science Collaboration, Science 349, (2015) doi:10.1126/science.aac4716
  • Fred N. Kerlinger, Howard B. Lee: Foundations of behavioral research. 3. Auflage. Fort Worth, Narcourt, 2000, ISBN 0-15-507897-6.
  • Brian A. Nosek, Jeffry R. Spies, Matt Motyl : Scientific utopia: II. Restructuring incentives and practices to promote truth over publishability. In: Perspectives on Psychological Science. Vol. 7, 2012, S. 615–631. (online)
  • Karl Schweizer: Eine Analyse der Konzepte, Bedingungen und Zielsetzungen von Replikationen. In: Archiv für Psychologie. 141, 1989, S. 85–97.
  • Stefan Schmidt: Shall we really do it again? The powerful concept of replication is neglected in the social sciences. In: Review of General Psychology. 2009, 13 (2), S. 90–100, doi:10.1037/a0015108
  • Ed Yong: Jede Menge Murks. Viele wissenschaftlichen Studien lassen sich nicht reproduzieren. Das wirft Fragen zum Forschungsbetrieb auf – und zur Veröffentlichungspraxis von Fachzeitschriften. In: Spektrum der Wissenschaft. Februar 2013, S. 58–63.

Einzelnachweise

  1. Nathaniel E. Smith: Replication Study: A neglected aspect of psychological research. In: American Psychologist. Vol. 25 (10), S. 970–975.
  2. Theodore D. Sterling: Publication decisions and their possible effects on inferences drawn from tests of significance – or vice versa. In: Journal of the American Statistical Association. Vol. 54 (285), 1959, S. 30–34.
  3. Theodore D. Sterling, Wilf F. Rosenbaum, James J. Weinkam: Publication decisions revisited: The effect of the outcome of statistical tests on the decision to publish and vice versa. In: American Statistician. Vol. 49, 1995, S. 108–112.
  4. Jelte M. Wicherts, Denny Borsboom, Judith Kats, Dylam Molenaar: The poor availability of psychological research data for reanalysis. In: American Psychologist. Vol. 61, 2006, S. 726–728.
  5. Ed Yong: Jede Menge Murks. In: Spektrum der Wissenschaft. Februar 2013, S. 58–63.
  6. J. Ritchie, Richard Wiseman, Christopher C. French: Failing the future: Three unsuccessful attempts to replicate Bem's Retroactive Facilitation of Recall Effect. In: PLoS ONE. 7, 2012, S. e33423.
  7. Ed Yong: Jede Menge Murks. In: Spektrum der Wissenschaft. Februar 2013, S. 58–63.
  8. James W. Neuliep, Rick Crandell: Editorial bias against replication research. In: Journal of Social Behavior and Personality. Vol. 8, 1993, S. 21–29.
  9. Siri Carpenter: Psychology’s bold initiative. In: Science. 2012, S. 1558–1561.
  10. Siri Carpenter: Psychology’s bold initiative. In: Science. 2012, S. 1559.
  11. Siri Carpenter: Psychology’s bold initiative. In: Science. 2012, S. 1559.
  12. Jürgen Margraf: Zur Lage der Psychologie. In: Psychologische Rundschau, 60 (1), 2015, 1-30.
  13. Ferric C. Fang, Arturo Casadevall: Retracted science and the retraction index. In: Infection and Immunity, 79(10), 2011, 3855–3859. doi:10.1128/IAI.05661-11.
  14. Leslie K. John, George Loewenstein, Drazon Prelec: Measuring the Prevalence of Questionable Research Practices with Incentives for Truth Telling. In: Psychological Science. Vol. 23, 2012, S. 524–532.
  15. Joseph Simmons, Leif D. Nelson, Uri Simonsohn: False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. In: Psychological Science. Vol. 22, 2011, S. 1359–1366.
  16. Katherine S. Button, John P. A. Ioannidis, Claire Mokrysz, Brian A. Nosek, Jonathan Flint, Emma S. J. Robinson, Marcus R. Munafo: Power failure: why small sample size undermines the reliability of neuroscience. In: Nature Reviews Neuroscience. Vol. 14, May 2013, S. 365–376.
  17. Michael Springer: Die (allzu) kleine Welt der Hirnforscher. Statistisch steht die Neurowissenschaft auf tönernen Füssen. Glosse. In: Spektrum der Wissenschaft. Mai 2013, S. 20.
  18. Z. N. Sohani, Z. N. Reanalysis of Randomized Clinical Trial Data. In: JAMA - The Journal of the Medical Association, 312 (10), 2014, 1024–1032.
  19. Anton Kühberger, Astrid Fritz, Scherndl, Thomas: Publication bias in psychology: a diagnosis based on the correlation between effect size and sample size. In: PloS one, 2014, 9 (9), e105825, ISSN 1932-6203.
  20. J. P. Ioannidis: Why most published research findings are false. In: PLoS medicine. Band 2, Nummer 8, August 2005, S. e124, doi:10.1371/journal.pmed.0020124, PMID 16060722, PMC 1182327 (freier Volltext).
  21. Leah R. Jager, Jeffrey T. Leek: An estimate of the science-wise false discovery rate and application to the top medical literature. In: Biostatistics. Vol. 15(1), Jan. 2014, PMID 24068246, S. 1–12.
  22. Marjan Bakker, Jelte M. Wicherts: The (mis)reporting of statistical results in psychology journals. In: Behavior Research Methods. Vol. 43 (3), 2011, S. 666–678.
  23. Daniele Fanelli: Negative results are disappearing from most disciplines and countries. In: Scientometrics. Vol. 90 (3), 2012), S. 891–904.
  24. John P. Ioannidis: Why most published research findings are false. In: PLoS Medicine. Vol. 2 (8), 2005, S. e124.
  25. Daniele Fanelli: Positive results receive more citations, but only in some disciplines. In: Scientometrics. Vol. 94 (2), 2013, S. 701–709.
  26. siehe u.a. Keith R. Laws: Negativland – a home for all findings in Psychology. In: BMC Psychology. 2013, 1 (2.
  27. Marjan Bakker, Annette van Dijk, Jelte M. Wicherts: The rules of the game called psychological science. In: Perspectives on Psychological Science. Vol. 7 (6), 2012, S. 543–554.
  28. Perspectives on Psychological Science, 7 (6), 2012; doi:10.1177/1745691612465253.
  29. http://f20.blog.uni-heidelberg.de/2012/11/18/zur-reproduzierbarkeit-psychologischer-forschung/
  30. Siri Carpenter: Psychology’s bold initiative. In: Science. 2012, S. 1558–1561.
  31. John Bohannon: Psychologists launch a bare-all research initiative. In: Science Magazine. 5. März 2013.
  32. Ed Yong: Replication studies: Bad copy. In the wake of high-profile controversies, psychologists are facing up to problems with replication. In: Nature. 16. Mai 2012.
  33. Sarah Estes: The myth of self-correcting science. In: The Atlantic. 20. Dez 2012.
  34. Open Peer Commentary. In: European Journal of Personality. Vol. 27, 2013, S. 120–144.
  35. Estimating the reproducibility of psychological science. In: Science. 349, 2015, S. aac4716, doi:10.1126/science.aac4716.
  36. faz.net/aktuell/wissen/mensch-gene/die-meisten-psycho-studien-sind-zweifelhaft
  37. spiegel.de/wissenschaft/mensch/psychologie-ergebnisse-hunderter-studien-nicht-wiederholbar
  38. Replikationen von Studien sichern Qualität in der Wissenschaft und bringen die Forschung voran. Website der Deutschen Gesellschaft für Psychologie. Abgerufen am 7. September 2015.
  39. Diskussionsforum: Qualitätssicherung in der Forschung. Website der Deutschen Gesellschaft für Psychologie. Abgerufen am 7. September 2015.
  40. Jochen Fahrenberg, Michael Myrtek, Kurt Pawlik, Meinrad Perrez: Ambulantes Assessment – Verhalten im Alltagskontext erfassen. Eine verhaltenswissenschaftliche Herausforderung an die Psychologie. In: Psychologische Rundschau, Band 58, 2007, S. 12–23.
  41. Siri Carpenter: Psychology’s bold initiative. In: Science. 2012, S. 1561.
  42. Jens Asendorpf u. a.: Recommendations for increasing replicaility in psychology. In: European Journal of Personality. Vol. 27, 2013, S. 108–119.
  43. publicationethics.org/
  44. publicationethics.org/news/principles-transparency-and-best-practice-scholarly-publishing-revised-and-updated
  45. B. A. Nosek, et al: SCIENTIFIC STANDARDS. Promoting an open research culture. In: Science (New York, N.Y.). Band 348, Nummer 6242, Juni 2015, S. 1422–1425, doi:10.1126/science.aab2374, PMID 26113702, PMC 4550299 (freier Volltext).
  46. psychfiledrawer.org
  47. psychfiledrawer.org/private_networking.php.
  48. Jochen Fahrenberg: Open Access – nur Texte oder auch Primärdaten? Working Paper Series des Rates für Sozial- und Wirtschaftsdaten (RatSWD), hrsg. von G. G. Wagner, gefördert vom Ministerium für Bildung und Forschung. Nr. 200, Juni 2012, S. 1–30.
  49. open-access.net/informationen-zu-open-access/open-access-bei-forschungsdaten