Reliabilität

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Die Reliabilität (dt.: Zuverlässigkeit) ist ein Maß für die formale Genauigkeit bzw. Verlässlichkeit wissenschaftlicher Messungen. Sie ist derjenige Anteil an der Varianz, der durch tatsächliche Unterschiede im zu messenden Merkmal und nicht durch Messfehler erklärt werden kann. Hochreliable Ergebnisse müssen weitgehend frei von Zufallsfehlern sein, d.h. bei Wiederholung der Messung unter gleichen Rahmenbedingungen würde das gleiche Messergebnis erzielt (Replizierbarkeit von Ergebnissen unter gleichen Bedingungen).

Die Reliabilität stellt neben der Validität und der Objektivität eines der drei wichtigsten Gütekriterien für empirische Untersuchungen dar. Hohe Reliabilität ist grundsätzlich eine Voraussetzung für hohe Validität, wobei eine zu hohe Reliabilität zu Lasten der Validität gehen kann (Reliabilitäts-Validitäts-Dilemma).

Reliabilität umfasst drei Aspekte:

  • Stabilität (Gleichheit bzw. Ähnlichkeit der Messergebnisse bei Anwendung zu unterschiedlichen Zeitpunkten)
  • Konsistenz (Ausmaß, nach dem alle Items, die in einem Test zu einem Merkmal zusammengefasst werden, dasselbe Merkmal messen)
  • Äquivalenz (Gleichwertigkeit von Messungen)

In der psychologischen Diagnostik wird sie zu den Hauptgütekriterien von psychologischen Tests gerechnet. Sie gibt an, wie genau ein Persönlichkeits- oder Verhaltensmerkmal gemessen wird.

Typen[Bearbeiten]

Die Reliabilität kann mit verschiedenen Methoden geschätzt werden. Je nach Methode wird von anderen Reliabilitäts-Typen gesprochen.

Paralleltest-Reliabilität
Denselben Versuchspersonen werden zwei einander stark ähnelnde Tests (entweder unmittelbar hintereinander oder zeitlich versetzt) dargeboten. Die Paralleltest-Reliabilität wird im Paralleltest-Verfahren bestimmt. Sie gibt an, ob ein vergleichbares Messverfahren identische Ergebnisse liefert. Anstelle gleichwertiger Testverfahren können auch Parallelformen des Tests verwendet werden (zum Beispiel dürften die Aufgaben 3+4=? und 2+5=? gleichermaßen dazu geeignet sein, die Fähigkeit zur einfachen Addition zu messen).
Split-Half-Reliabilität/Testhalbierungsmethode
Bei der Split-Half-Reliabilität wird der Test in zwei Hälften unterteilt, jede Hälfte ist ein Paralleltest zur anderen Hälfte. Bei hinreichend großer Ergebnismenge sollten die Mittelwerte und weitere statistische Kenngrößen gleich sein. Die Zuteilung der einzelnen Items zu den Testhälften erfolgt üblicherweise nach der Odd-Even-Methode, d.h. Items mit ungerader (odd) Laufnummer kommen in die eine, Items mit gerader (even) Laufnummer in die andere Testhälfte. Da man, mathematisch gesehen, in diesem Fall jedoch eigentlich nur die Reliabilität des „halben“ Tests erhält und die Split-Half-Reliabilität die tatsächliche Realiabilität unterschätzt, muss das ursprüngliche Ergebnis mit der Spearman-Brown-Korrektur korrigiert werden. Die Testhalbierungsmethode führt bei Tests mit Geschwindigkeitskomponente (Speed-Test) zu einem verzerrten Reliabilitätskoeffizienten (künstlich erhöht oder erniedrigt).
Retest-Reliabilität
Der gleiche Test wird den Versuchspersonen zu verschiedenen Zeitpunkten dargeboten. Die Ergebnisse der ersten und zweiten Messung werden korreliert. Beim Test-Retest-Verfahren wird geprüft, ob eine Wiederholung der Messung bei Konstanz der zu messenden Eigenschaft die gleichen Messwerte liefert. Die Retest-Reliabilität gibt den Grad der Übereinstimmung an. Für viele Tests ist eine Wiederholung entsprechend dem Test-Retest-Verfahren nur theoretisch möglich, da die mit dem Test einhergehenden Erinnerungs-, Lern- oder Übungseffekte das Ergebnis beeinflussen und eine „Scheinreliabilität“ vortäuschen können. So ist eine mathematische Aufgabe in einem Intelligenztest nicht zweimal zu lösen, da der Proband sich an die Lösung der ersten Aufgabe erinnert. Das Zeitintervall zwischen den Messungen muss also groß genug sein, um Gedächtniseffekte auszuschließen, gleichzeitig aber kurz genug, um Merkmalskonstanz zu gewährleisten. Mit der Retest-Reliabilität können keine systematischen, versuchsbedingten Fehler entdeckt werden.
Interne Konsistenz
Die interne Konsistenz ist ein Maß dafür, wie die Items einer Skala miteinander zusammenhängen. Interne Konsistenz stellt gewissermaßen einen Umweg dar, die Messgenauigkeit eines Instruments zu erheben, wenn kein Retest oder Paralleltest zur Reliabilitätsbestimmung zur Verfügung steht. Es erfolgt die Reliabilitätsmessung also intern, wobei jedes Item gewissermaßen als Paralleltest behandelt und mit jedem anderen Item korreliert wird (Interkorrelationsmatrix). Die Güte eines Items kann hierbei ermittelt werden, indem die interne Konsistenz berechnet wird, wenn das Item nicht in der Skala enthalten wäre. Eine gebräuchliche Kenngröße für die interne Konsistenz kann bei dichotomen Items mit der Kuder-Richardson-Formel berechnet werden und für Items einer Intervallskala ist eine Kenngröße durch Cronbachs Alpha gegeben.
Interrater-Reliabilität
Die zum gleichen Zeitpunkt oder in Bezug auf dieselben Testobjekte ermittelte Übereinstimmung zwischen Beurteilern/Beobachtern bezeichnet man als Interrater-Reliabilität. Weitere gängige Werte sind der Übereinstimmungskoeffizient nach Holsti und Cohens Kappa.

Möglichkeiten der Reliabilitätsverbesserung[Bearbeiten]

  • Die Reliabilität der Tests kann durch Verlängerung des Tests mithilfe vergleichbarer Items verbessert werden, weil mit der Länge des Tests die Messgenauigkeit steigt.
  • Die Objektivität ist eine notwendige Bedingung für die Reliabilität. Entsprechend kann eine Objektivitätsverbesserung die Reliabilität des Messinstruments erhöhen.
  • Beim Formulieren der Items sollte Itemhomogenität angestrebt werden. Items sind homogen, wenn sie sich gegenseitig beinhalten. Das bedeutet, dass Versuchspersonen, die das extremste Item bejahen, auch das schwächer formulierte Item bejahen bzw. ein negativ gepoltes Item verneinen.
  • Wenig trennscharfe Items sollten ausgeschlossen werden. Ein Item, das gut zwischen Personen mit niedriger und hoher Merkmalsausprägung trennt, trägt zur Messgenauigkeit des Tests bei.

Literatur[Bearbeiten]

  • Krauth, Joachim (1995): Testkonstruktion und Testtheorie. Weinheim: Psychologie Verlags Union. ISBN 3-621-27286-0
  • Lienert, G. A. (1989): Testaufbau und Testanalyse. Weinheim: Psychologie Verlags Union, 4. Auflage.
  • Lienert, G. & Raatz, A. (2001): Testanalyse und Testkonstruktion. Weinheim: Beltz.
  • Wirtz, M.; Caspar, F. (2002): Beurteilerübereinstimmung und Beurteilerreliabilität. Göttingen: Hogrefe
  • Bühner, M. (2006): Einführung in die Test- und Fragebogenkonstruktion. München: Pearson Studium

Weblinks[Bearbeiten]

 Wiktionary: Reliabilität – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen