Interrater-Reliabilität

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Interrater-Reliabilität bzw. Urteilerübereinstimmung bezeichnet in der empirischen (Sozial-)Forschung (u. a. Psychologie, Soziologie, Epidemiologie etc.) das Ausmaß der Übereinstimmungen (= Konkordanzen) der Einschätzungsergebnisse bei unterschiedlichen Beobachtern („Ratern“). Hierdurch kann angegeben werden, inwieweit die Ergebnisse vom Beobachter unabhängig sind, weshalb es sich genau genommen um ein Maß der Objektivität handelt. Die Reliabilität ist ein Maß für die Güte der Methode, die zur Messung einer bestimmten Variablen eingesetzt werden. Dabei kann zwischen Interrater- und Intrarater-Reliabilität unterschieden werden.

Interrater-Reliabilität[Bearbeiten]

An einem bestimmten Objekt wird durch zwei unterschiedliche Messinstrumente dieselbe Messung vorgenommen. Die Ergebnisse sollten gleich sein. Bsp: Ein Fragebogen wird von zwei unterschiedlichen Personen für ein und dasselbe Objekt verwendet. Die dabei u.U. auftretenden Abweichungen werden über die Interrater-Reliabilität prozentual ermittelt und gemessen.

Intrarater-Reliabilität[Bearbeiten]

An einem bestimmten Objekt wird durch ein Messinstrument zweimal dieselbe Messung vorgenommen. Die Ergebnisse sollten gleich sein. Bsp: Ein Proband wird von einem Interviewer zweimal und zu unterschiedlichen Zeitpunkten befragt.

Kappa-Statistiken[Bearbeiten]

Es gibt eine Reihe statistischer Verfahren, die zur Bestimmung der Interrater-Reliabilität eingesetzt werden können. Handelt es sich um zwei (oder mehr) unterschiedliche Beobachter, die gleichzeitig mehrere Beobachtungsobjekte (=Fälle, Probanden) kategorial einschätzen, so lässt sich die Interrater-Reliabilität mittels Cohens Kappa (für zwei Rater) bzw. Fleiss’ Kappa (für mehr als zwei Rater) abschätzen. Die Kappa-Statistiken prüfen das Ausmaß an Konkordanz durch Einbezug und Vergleich zu dem durch „zufälliges Einschätzen“ typischerweise erreichbaren Ausmaß an Übereinstimmung. Dabei wird davon ausgegangen, dass die einzelnen Einschätzungen eines Raters vollkommen unabhängig voneinander getroffen werden. Kappa kann Werte zwischen +1.0 (bei hoher Konkordanz) und <=0 (bei niedriger Konkordanz) annehmen. Sie sind insbesondere für Variablen auf Nominalskalenniveau geeignet.

Die Nutzung von Kappa-Statistiken wird auch kritisiert, da die Werte dieser Statistik durch ihre mathematische Unzulänglichkeit zumeist keine Aussage erlauben,[1] stattdessen wird Krippendorffs Alpha empfohlen.

Inter-Rater-Korrelation[Bearbeiten]

Für höhere Skalenniveaus nutzen andere Verfahren den Pearsonscher Maßkorrelationskoeffizienten bzw. Rangkorrelationskoeffizienten nach Spearman und Kendall zur Bestimmung der Inter-Rater-Korrelation zwischen zwei Ratern, wobei jeweils miteinander gepaarte Urteilswerte in Beziehung miteinander gesetzt werden. Der Inter-Rater-Korrelationskoeffizient beschreibt dabei allerdings lediglich einen (irgendwie) gearteten Zusammenhang der beiden Messungen, ohne dass Abweichungen zwischen den Urteilern eine Rolle spielen. So spielen z. B. gleichbleibende Milde- oder Strenge-Tendenzen keine Rolle.

Beispiel: Rater 1 schätzt 4 Objekte auf einer Skala wie folgt ein: 1, 2, 1, 3; Rater 2 urteilt auf derselben Skala für gleichen Objekte: 2, 3, 2, 4. Die Inter-Rater-Korrelation beträgt r=1 und ist vollkommen, obwohl die Urteiler nicht übereinstimmen.

Eine Alternative für ordinalskalierte Daten ist hier Kendalls Konkordanzkoeffizient W, bei dem es um die Berechnung des Ausmaßes der Übereinstimmung bei zwei oder mehr Beurteilern geht.

Intra-Klassen-Korrelation[Bearbeiten]

Für intervallskalierte Daten beschreibt der Intra-Class-Korrelationskoeffizient (ICC, Shrout & Fleiss 1979, McGraw & Wong 1996, auch: Intraklassenkorrelation, Intra-klassenkorrelation), dass die beiden Messwerte den gleichen Wert haben sollen. Er setzt intervallskalierte Daten voraus und wird in der Regel berechnet, wenn mehr als zwei Beobachter vorhanden sind oder/und zwei oder mehr Beobachtungszeitpunkte einbezogen werden sollen.

Literatur[Bearbeiten]

  • Cohen, J. (1960). A coefficient for agreement for nominal scales. Education and Psychological Measurement, 20, 37-46.
  • Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin, 76(5), 378-382.
  • McGraw, K. O., & Wong, S. P. (1996). Forming inferences about some intraclass correlation coefficients. Psychological Methods, 1, 30-46.
  • Shrout, P. & Fleiss, J. L. (1979). Intraclass correlation: Uses in assessing rater reliability. Psychological Bulletin, 86, 420-428.
  • Wirtz, M. & Caspar, F. (2002). Beurteilerübereinstimmung und Beurteilerreliabilität. München: Hogrefe

Weblinks[Bearbeiten]

Einzelnachweise[Bearbeiten]

  1. Krippendorff, K. Reliability in Content Analysis: Some Common Misconceptions and Recommendations. Human Communication Research 30,3: 411-433, 2004.