„Klassische Testtheorie“ – Versionsunterschied

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
[gesichtete Version][gesichtete Version]
Inhalt gelöscht Inhalt hinzugefügt
recht hatter, muss aber natürlich richtig sein :-)
K ISBN korr.
Zeile 1: Zeile 1:
Die '''Klassische Testtheorie''' (KTT) ist die meistverbreitete [[Psychometrie|psychometrische]] [[Testtheorie]]. Der Schwerpunkt des Modells der klassischen Testtheorie liegt auf der Genauigkeit einer Messung bzw. auf der Größe des jeweiligen Messfehlers. Daher wird sie oft auch als ''Messfehlertheorie'' bezeichnet. Die klassische Testtheorie versucht zu klären, wie, ausgehend von einem Testwert einer Person, auf die wahre Ausprägung des zu messenden [[Persönlichkeitseigenschaft|Persönlichkeitsmerkmals]] geschlossen werden kann.
Die '''Klassische Testtheorie''' (KTT) ist die meistverbreitete [[Psychometrie|psychometrische]] [[Testtheorie]]. Der Schwerpunkt des Modells der klassischen Testtheorie liegt auf der Genauigkeit einer Messung bzw. auf der Größe des jeweiligen Messfehlers. Daher wird sie oft auch als ''Messfehlertheorie'' bezeichnet. Die klassische Testtheorie versucht zu klären, wie, ausgehend von einem Testwert einer Person, auf die wahre Ausprägung des zu messenden [[Persönlichkeitseigenschaft|Persönlichkeitsmerkmals]] geschlossen werden kann.


== Axiome <ref name="Amelang">{{Literatur| Autor = Schmitz-Atzert, Amelang| Titel = Psychologische Diagnostik| Auflage = 5., vollständig überarbeitete und erweiterte| Jahr = 2012| Verlag = Springer| Ort = Berlin Heidelberg| ISBN = 3-642-17000-3| Seiten = 40 ff.}}</ref>==
== Axiome<ref name="Amelang">{{Literatur| Autor = Schmitz-Atzert, Amelang| Titel = Psychologische Diagnostik| Auflage = 5., vollständig überarbeitete und erweiterte| Jahr = 2012| Verlag = Springer| Ort = Berlin/ Heidelberg| ISBN = 978-3-642-17000-3| Seiten = 40 ff.}}</ref>==


# Jeder Testwert (<math>X</math>) ist zusammengesetzt aus einem wahren Merkmalsanteil (<math>T</math>) und einem zufälligen Messfehleranteil (<math>E</math>): <math>X = T + E</math>.
# Jeder Testwert (<math>X</math>) ist zusammengesetzt aus einem wahren Merkmalsanteil (<math>T</math>) und einem zufälligen Messfehleranteil (<math>E</math>): <math>X = T + E</math>.
Zeile 21: Zeile 21:
Das zentrale Konzept der klassischen Testtheorie ist die [[Reliabilität]], das ist die Zuverlässigkeit bzw. Genauigkeit (Freiheit von Messfehlern), mit der ein Testwert den wahren Wert erfasst. Die Reliabilität wird theoretisch als das Verhältnis der Varianz der wahren Werte zur Varianz der Testwerte definiert:
Das zentrale Konzept der klassischen Testtheorie ist die [[Reliabilität]], das ist die Zuverlässigkeit bzw. Genauigkeit (Freiheit von Messfehlern), mit der ein Testwert den wahren Wert erfasst. Die Reliabilität wird theoretisch als das Verhältnis der Varianz der wahren Werte zur Varianz der Testwerte definiert:


Reliabilität = <math> \frac{\sigma^2_T}{\sigma^2_X} = \frac{\sigma^2_T}{\sigma^2_T + \sigma^2_E} </math> <ref name="Amelang" />
Reliabilität = <math> \frac{\sigma^2_T}{\sigma^2_X} = \frac{\sigma^2_T}{\sigma^2_T + \sigma^2_E} </math><ref name="Amelang" />


mit <math>\sigma^2_T</math> als Varianz des messfehlerfreien Testwerts und <math>\sigma^2_E</math> als Varianz des Messfehlers.
mit <math>\sigma^2_T</math> als Varianz des messfehlerfreien Testwerts und <math>\sigma^2_E</math> als Varianz des Messfehlers.
Zeile 27: Zeile 27:
Aus dieser Darstellung wird eine zunächst paradoxe Schlussfolgerung anschaulich: Eine Erhöhung der Variabilität systematischer Fehler (Verzerrungen) führt zu einer Erhöhung der Reliabilität, da sie nicht zu <math>\sigma^2_E</math> sondern zu <math>\sigma^2_T</math> hinzugerechnet werden.
Aus dieser Darstellung wird eine zunächst paradoxe Schlussfolgerung anschaulich: Eine Erhöhung der Variabilität systematischer Fehler (Verzerrungen) führt zu einer Erhöhung der Reliabilität, da sie nicht zu <math>\sigma^2_E</math> sondern zu <math>\sigma^2_T</math> hinzugerechnet werden.


=== Schätzverfahren zur Ermittlung der Reliabilität <ref name="Amelang" />===
=== Schätzverfahren zur Ermittlung der Reliabilität<ref name="Amelang" /> ===


Die Reliabilität kann, da man die wahren Werte nicht kennt, nur geschätzt werden. Ein Verfahren ist die sogenannte''' Split-Half-Reliabilität''', bei der der Test auf Itemebene in zwei gleich große Teile aufgespalten wird, die dann jeweils miteinander korreliert werden. Dieses Verfahren ist im Grunde genommen nur noch von historischer Bedeutung.
Die Reliabilität kann, da man die wahren Werte nicht kennt, nur geschätzt werden. Ein Verfahren ist die sogenannte''' Split-Half-Reliabilität''', bei der der Test auf Itemebene in zwei gleich große Teile aufgespalten wird, die dann jeweils miteinander korreliert werden. Dieses Verfahren ist im Grunde genommen nur noch von historischer Bedeutung.


Wesentlich geläufiger ist heutzutage eine Methode, die als Verallgemeinerung der Split-Half-Reliabilität beschrieben werden kann. Jedes Item wird als eigener Testteil aufgefasst und mit den anderen Items der Subskala korreliert. Man verwendet hierfür häufig '''[[Cronbachs Alpha]]''', dass auch als Maßzahl für die interne Konsistenz gilt. Der Alpha-Koreffizient gilt hierbei als Untergrenze der Reliabilitätsschätzung. Cronbachs Alpha setzt Homogenität der Items voraus, ohne diese Annahme zu prüfen.
Wesentlich geläufiger ist heutzutage eine Methode, die als Verallgemeinerung der Split-Half-Reliabilität beschrieben werden kann. Jedes Item wird als eigener Testteil aufgefasst und mit den anderen Items der Subskala korreliert. Man verwendet hierfür häufig '''[[Cronbachs Alpha]]''', dass auch als Maßzahl für die interne Konsistenz gilt. Der Alpha-Koreffizient gilt hierbei als Untergrenze der Reliabilitätsschätzung. Cronbachs Alpha setzt Homogenität der Items voraus, ohne diese Annahme zu prüfen.
Zeile 35: Zeile 35:
Ein weiteres wichtiges Schätzverfahren ist die '''Test-Retest-Reliabilität''', die die Korrelation desselben Tests zu zwei unterschiedlichen Zeitpunkten darstellt. Die Test-Retest-Reliabilität ist wertlos, wenn nicht das Intervall zwischen den beiden Testzeitpunkten angegeben ist. Unsinnig ist die Anwendung der Retest-Reliabilität bei sich verändernden Konstrukten (so würde die Retest-Reliabilität eines Tests, der Hunger als Konstrukt erfasst nicht die Reliabilität des Tests erfassen, sondern nur die Flüchtigkeit des Hungergefühls). Dies führt zu einer Unterschätzung der Reliabilität. Problematisch sind ebenso zu kurze Zeiträume zwischen den Tests, da Erinnerungseffekte zu einer Überschätzung der Reliabilität führen können.
Ein weiteres wichtiges Schätzverfahren ist die '''Test-Retest-Reliabilität''', die die Korrelation desselben Tests zu zwei unterschiedlichen Zeitpunkten darstellt. Die Test-Retest-Reliabilität ist wertlos, wenn nicht das Intervall zwischen den beiden Testzeitpunkten angegeben ist. Unsinnig ist die Anwendung der Retest-Reliabilität bei sich verändernden Konstrukten (so würde die Retest-Reliabilität eines Tests, der Hunger als Konstrukt erfasst nicht die Reliabilität des Tests erfassen, sondern nur die Flüchtigkeit des Hungergefühls). Dies führt zu einer Unterschätzung der Reliabilität. Problematisch sind ebenso zu kurze Zeiträume zwischen den Tests, da Erinnerungseffekte zu einer Überschätzung der Reliabilität führen können.


Ein weiteres Verfahren ist die Konstruktion von ''parallelen Tests.'' Das sind Tests, von denen man annimmt, dass sie die gleichen wahren Werte messen. Die Reliabilität kann dann durch die [[Korrelation]] zweier paralleler Tests ''X1'' und ''X2'' geschätzt werden. Man nennt dies auch '''Paralleltest-Reliabilität'''. Der Vorteil der Paralleltest-Reliabilität liegt darin, dass weder Item-Homogenität wie bei Cronbachs Alpha, noch eine zeitliche Stabilität wie bei der Retest-Reliabilität vorausgesetzt wird, weshalb man sie von der Theorie her als Königsweg bezeichnen könnte. Praktisch gesehen ist es jedoch äußerst schwierig, parallele Testformen zu konstruieren, die voraussetzen, dass die korrespondierenden Items sich in Mittelwert, [[Itemanalyse|Itemschwierigkeit]], [[Trennschärfe (Statistik)|Trennschärfe]] und sogar Fremdtrennschärfe nicht unterscheiden. Das trägt dazu bei, dass dies Form der Reliabilitätsschätzung recht selten angewandt wird. Bei gewissen Leistungstests wie z.B. IQ-Tests müssen jedoch aufgrund der Gefahr des Abschreibens ohnehin parallele Testformen vorliegen. Hier kann als günstiger Nebeneffekt die Paralleltest-Reliabilität mitberichtet werden.
Ein weiteres Verfahren ist die Konstruktion von ''parallelen Tests.'' Das sind Tests, von denen man annimmt, dass sie die gleichen wahren Werte messen. Die Reliabilität kann dann durch die [[Korrelation]] zweier paralleler Tests ''X1'' und ''X2'' geschätzt werden. Man nennt dies auch '''Paralleltest-Reliabilität'''. Der Vorteil der Paralleltest-Reliabilität liegt darin, dass weder Item-Homogenität wie bei Cronbachs Alpha, noch eine zeitliche Stabilität wie bei der Retest-Reliabilität vorausgesetzt wird, weshalb man sie von der Theorie her als Königsweg bezeichnen könnte. Praktisch gesehen ist es jedoch äußerst schwierig, parallele Testformen zu konstruieren, die voraussetzen, dass die korrespondierenden Items sich in Mittelwert, [[Itemanalyse|Itemschwierigkeit]], [[Trennschärfe (Statistik)|Trennschärfe]] und sogar Fremdtrennschärfe nicht unterscheiden. Das trägt dazu bei, dass dies Form der Reliabilitätsschätzung recht selten angewandt wird. Bei gewissen Leistungstests wie z.B. IQ-Tests müssen jedoch aufgrund der Gefahr des Abschreibens ohnehin parallele Testformen vorliegen. Hier kann als günstiger Nebeneffekt die Paralleltest-Reliabilität mitberichtet werden.


Erwähnenswert ist noch die '''Interrater-Reliabilität'''. Sie wird insbesondere bei den Messverfahren ''Interview ''und ''Beobachtung ''zur Schätzung der Reliabilität eingesetzt. Für nominalskalierte Daten steht hierfür [[Cohens Kappa]] zur Verfügung. Für metrisch skalierte Daten wird die [[Intra-Klassen-Korrelation|Intra-Klassen-Korrelation (ICC)]] verwendet. Für ordinalskalierte Daten ist [[Spearmans Rho|Spearmans Rho]] ein anwendbares Maß.
Erwähnenswert ist noch die '''Interrater-Reliabilität'''. Sie wird insbesondere bei den Messverfahren ''Interview ''und ''Beobachtung ''zur Schätzung der Reliabilität eingesetzt. Für nominalskalierte Daten steht hierfür [[Cohens Kappa]] zur Verfügung. Für metrisch skalierte Daten wird die [[Intra-Klassen-Korrelation|Intra-Klassen-Korrelation (ICC)]] verwendet. Für ordinalskalierte Daten ist [[Spearmans Rho]] ein anwendbares Maß.


==Objektivität==
== Objektivität ==
Die Objektivität spielt in der klassischen Testtheorie eine untergeordnete Rolle. Die KTT ist eine Theorie, deren Axiome sich hauptsächlich auf Messfehler beziehen. Sie ist damit eine Theorie der Messfehler - und damit indirekt eine Theorie der Reliabilität, die ja als Freiheit von (unsystematischen) Messfehlern definiert ist. Objektivität lässt sich hierbei als Unteraspekt von Reliabilität auffassen, da Objektivität das Ausmaß betrifft, in dem sich die Varianz des Testwerts nicht auf eine Varianz ausgehend vom Versuchsleiter bzw. den Testbedingungen zurückführen lässt (z.B. [[Versuchsleitereffekt]]). Objektivität schließt also Messfehler, die durch den Untersuchungsleiter und die -bedingungen zustande kommen aus (ebenso wie die Reliabilität) und lässt sich in verschiedene Aspekte unterteilen:
Die Objektivität spielt in der klassischen Testtheorie eine untergeordnete Rolle. Die KTT ist eine Theorie, deren Axiome sich hauptsächlich auf Messfehler beziehen. Sie ist damit eine Theorie der Messfehler - und damit indirekt eine Theorie der Reliabilität, die ja als Freiheit von (unsystematischen) Messfehlern definiert ist. Objektivität lässt sich hierbei als Unteraspekt von Reliabilität auffassen, da Objektivität das Ausmaß betrifft, in dem sich die Varianz des Testwerts nicht auf eine Varianz ausgehend vom Versuchsleiter bzw. den Testbedingungen zurückführen lässt (z.B. [[Versuchsleitereffekt]]). Objektivität schließt also Messfehler, die durch den Untersuchungsleiter und die -bedingungen zustande kommen aus (ebenso wie die Reliabilität) und lässt sich in verschiedene Aspekte unterteilen:


Zeile 59: Zeile 59:
Im Gegensatz zur Reliabilität führt hier eine Erhöhung des systematischen Fehlers zu einer Verminderung, was intuitiv nachvollziehbar ist.
Im Gegensatz zur Reliabilität führt hier eine Erhöhung des systematischen Fehlers zu einer Verminderung, was intuitiv nachvollziehbar ist.


===Schätzverfahren zur Ermittlung der Validität===
=== Schätzverfahren zur Ermittlung der Validität ===
Die Validität eines Tests ist ungleich schwieriger zu schätzen wie die Reliabilität. Das liegt zum einen daran, dass Validität anders als die Reliabilität ein sehr uneinheitlicher Begriff ist, der in der Praxis durch sehr viele verschiedene Arten von Kennziffern geschätzt werden kann. Auf der anderen Seite gibt es aber auch Aspekte der Validität, die sich quantitativ nicht erfassen lassen bzw. dies ist in der Praxis der Testkonstruktion so nicht üblich. Für die Testkonstruktion relevant sind drei Oberformen der (psychometrischen) Validität:
Die Validität eines Tests ist ungleich schwieriger zu schätzen wie die Reliabilität. Das liegt zum einen daran, dass Validität anders als die Reliabilität ein sehr uneinheitlicher Begriff ist, der in der Praxis durch sehr viele verschiedene Arten von Kennziffern geschätzt werden kann. Auf der anderen Seite gibt es aber auch Aspekte der Validität, die sich quantitativ nicht erfassen lassen bzw. dies ist in der Praxis der Testkonstruktion so nicht üblich. Für die Testkonstruktion relevant sind drei Oberformen der (psychometrischen) Validität:
* '''Inhaltsvalidität: '''Betrifft u.a. die Frage, ob Items wirklich dazu geeignet sind ein bestimmtes Konstrukt zu erfassen. Wird in der Praxis durch Expertenurteile entweder als gegeben oder nicht gegeben angenommen. Zumindest besteht die theoretische Möglichkeit, sie z.B. über Interrater-Übereinstimmungsmaße bezüglich Expertenurteile zu Items zu erfassen.
* '''Inhaltsvalidität: '''Betrifft u.a. die Frage, ob Items wirklich dazu geeignet sind ein bestimmtes Konstrukt zu erfassen. Wird in der Praxis durch Expertenurteile entweder als gegeben oder nicht gegeben angenommen. Zumindest besteht die theoretische Möglichkeit, sie z.B. über Interrater-Übereinstimmungsmaße bezüglich Expertenurteile zu Items zu erfassen.
Zeile 79: Zeile 79:
* Die Stichprobenabhängigkeit von Reliabilität, Itemschwierigkeit und Itemtrennschärfe wird in der KTT nicht oder nur ungenügend beachtet.<ref name="Fisseni81">{{Literatur| Autor = Hermann-Josef Fisseni| Titel = Lehrbuch der psychologischen Diagnostik| Auflage = 3., überarbeitete und erweiterte| Jahr = 2004| Verlag = Hogrefe| Ort = Göttingen| ISBN = 3-8017-1756-9| Seiten = 81 }}</ref>
* Die Stichprobenabhängigkeit von Reliabilität, Itemschwierigkeit und Itemtrennschärfe wird in der KTT nicht oder nur ungenügend beachtet.<ref name="Fisseni81">{{Literatur| Autor = Hermann-Josef Fisseni| Titel = Lehrbuch der psychologischen Diagnostik| Auflage = 3., überarbeitete und erweiterte| Jahr = 2004| Verlag = Hogrefe| Ort = Göttingen| ISBN = 3-8017-1756-9| Seiten = 81 }}</ref>
* Die Homogenität von Items kann im Rahmen der KTT nicht geprüft werden.
* Die Homogenität von Items kann im Rahmen der KTT nicht geprüft werden.
* Nach dem [[Verdünnungsparadox]] sinkt die [[kriterienbezogene Validität]] eines Tests mit wachsender Reliabilität von Kriterium und validiertem Test.<ref>{{Literatur| Autor = Hermann-Josef Fisseni| Titel = Lehrbuch der psychologischen Diagnostik| Auflage = 3., überarbeitete und erweiterte| Jahr = 2004| Verlag = Hogrefe| Ort = Göttingen| ISBN = 3-8017-1756-9| Seiten = | Kapitel= 4.3.3.4}}</ref>
* Nach dem [[Verdünnungsparadox]] sinkt die [[kriterienbezogene Validität]] eines Tests mit wachsender Reliabilität von Kriterium und validiertem Test.<ref>{{Literatur| Autor = Hermann-Josef Fisseni| Titel = Lehrbuch der psychologischen Diagnostik| Auflage = 3., überarbeitete und erweiterte| Jahr = 2004| Verlag = Hogrefe| Ort = Göttingen| ISBN = 3-8017-1756-9| Kapitel= 4.3.3.4}}</ref>
* Die klassischen Testtheorie kann nur stabile [[Persönlichkeitseigenschaft|Persönlichkeitsmerkmale]] messen. Würde sich nämlich der wahre Wert verändern, stünde dies im Widerspruch zum zweiten Axiom, dass Erwartungswert und Mittelwert der Fehler beziehungsweise die Summe über die Fehler gleich null sind.<ref>{{Literatur| Autor = Hermann-Josef Fisseni| Titel = Lehrbuch der psychologischen Diagnostik| Auflage = 3., überarbeitete und erweiterte| Jahr = 2004| Verlag = Hogrefe| Ort = Göttingen| ISBN = 3-8017-1756-9| Seiten = 50 }}</ref>
* Die klassischen Testtheorie kann nur stabile [[Persönlichkeitseigenschaft|Persönlichkeitsmerkmale]] messen. Würde sich nämlich der wahre Wert verändern, stünde dies im Widerspruch zum zweiten Axiom, dass Erwartungswert und Mittelwert der Fehler beziehungsweise die Summe über die Fehler gleich null sind.<ref>{{Literatur| Autor = Hermann-Josef Fisseni| Titel = Lehrbuch der psychologischen Diagnostik| Auflage = 3., überarbeitete und erweiterte| Jahr = 2004| Verlag = Hogrefe| Ort = Göttingen| ISBN = 3-8017-1756-9| Seiten = 50 }}</ref>
* Es werden Daten auf dem Niveau einer [[Intervallskala]] vorausgesetzt, denn es werden Mittelwerte und Varianzen berechnet.<ref name="Fisseni81" />
* Es werden Daten auf dem Niveau einer [[Intervallskala]] vorausgesetzt, denn es werden Mittelwerte und Varianzen berechnet.<ref name="Fisseni81" />
Zeile 89: Zeile 89:
== Literatur ==
== Literatur ==


* Gustav A. Lienert, Ulrich Raatz: ''Testaufbau und Testanalyse.'' 6. Auflage. Beltz -Verlags-Union, Weinheim 1998, ISBN 3-621-27424-3.
* Gustav A. Lienert, Ulrich Raatz: ''Testaufbau und Testanalyse.'' 6. Auflage. Beltz-Verlags-Union, Weinheim 1998, ISBN 3-621-27424-3.
* [[Helfried Moosbrugger]], Augustin Kelava (Hrsg.): ''Testtheorie und Fragebogenkonstruktion.'' 2. akualis. Aufl. Springer-Medizin-Verlag, Heidelberg 2012, Softcover: ISBN 978-3-642-20071-7; E-Book: ISBN 978-3-642-20072-4
* [[Helfried Moosbrugger]], Augustin Kelava (Hrsg.): ''Testtheorie und Fragebogenkonstruktion.'' 2. akualis. Auflage. Springer-Medizin-Verlag, Heidelberg 2012, ISBN 978-3-642-20071-7.
* Frederic M. Lord, Melvin R. Novick: ''Statistical theories of mental test scores.'' Addison-Welsley, Reading MA u. a. 1968, ISBN 0-201-04310-6.
* Frederic M. Lord, Melvin R. Novick: ''Statistical theories of mental test scores.'' Addison-Welsley, Reading MA u. a. 1968, ISBN 0-201-04310-6.


== Weblinks ==
== Weblinks ==
*http://videoonline.edu.lmu.de/sommersemester-2007/03
* [http://videoonline.edu.lmu.de/sommersemester-2007/03 videoonline.edu.lmu.de]


== Einzelnachweise ==
== Einzelnachweise ==

Version vom 31. Januar 2014, 15:17 Uhr

Die Klassische Testtheorie (KTT) ist die meistverbreitete psychometrische Testtheorie. Der Schwerpunkt des Modells der klassischen Testtheorie liegt auf der Genauigkeit einer Messung bzw. auf der Größe des jeweiligen Messfehlers. Daher wird sie oft auch als Messfehlertheorie bezeichnet. Die klassische Testtheorie versucht zu klären, wie, ausgehend von einem Testwert einer Person, auf die wahre Ausprägung des zu messenden Persönlichkeitsmerkmals geschlossen werden kann.

Axiome[1]

  1. Jeder Testwert () ist zusammengesetzt aus einem wahren Merkmalsanteil () und einem zufälligen Messfehleranteil (): .
  2. Der Erwartungswert der Fehler hat den Wert Null: .
  3. Der Messfehler ist mit dem wahren Wert unkorreliert: .
  4. Wahrer Wert und Fehlerwert zweier verschiedener Tests sind unkorreliert: .
  5. Fehlerwerte von zwei verschiedenen Tests sind unkorreliert: .

Je größer der Messfehler desto geringer ist der wahre Merkmalsanteil und desto weniger zuverlässig misst ein Test.

Aus den ersten beiden Axiomen folgt zudem:

Dies besagt, dass der Messfehler verschwindet, wenn entweder ein Test an vielen Individuen angewandt wird oder ein Test mehrfach bei ein und derselben Person angewandt wird.

Reliabilität

Das zentrale Konzept der klassischen Testtheorie ist die Reliabilität, das ist die Zuverlässigkeit bzw. Genauigkeit (Freiheit von Messfehlern), mit der ein Testwert den wahren Wert erfasst. Die Reliabilität wird theoretisch als das Verhältnis der Varianz der wahren Werte zur Varianz der Testwerte definiert:

Reliabilität = [1]

mit als Varianz des messfehlerfreien Testwerts und als Varianz des Messfehlers.

Aus dieser Darstellung wird eine zunächst paradoxe Schlussfolgerung anschaulich: Eine Erhöhung der Variabilität systematischer Fehler (Verzerrungen) führt zu einer Erhöhung der Reliabilität, da sie nicht zu sondern zu hinzugerechnet werden.

Schätzverfahren zur Ermittlung der Reliabilität[1]

Die Reliabilität kann, da man die wahren Werte nicht kennt, nur geschätzt werden. Ein Verfahren ist die sogenannte Split-Half-Reliabilität, bei der der Test auf Itemebene in zwei gleich große Teile aufgespalten wird, die dann jeweils miteinander korreliert werden. Dieses Verfahren ist im Grunde genommen nur noch von historischer Bedeutung.

Wesentlich geläufiger ist heutzutage eine Methode, die als Verallgemeinerung der Split-Half-Reliabilität beschrieben werden kann. Jedes Item wird als eigener Testteil aufgefasst und mit den anderen Items der Subskala korreliert. Man verwendet hierfür häufig Cronbachs Alpha, dass auch als Maßzahl für die interne Konsistenz gilt. Der Alpha-Koreffizient gilt hierbei als Untergrenze der Reliabilitätsschätzung. Cronbachs Alpha setzt Homogenität der Items voraus, ohne diese Annahme zu prüfen.

Ein weiteres wichtiges Schätzverfahren ist die Test-Retest-Reliabilität, die die Korrelation desselben Tests zu zwei unterschiedlichen Zeitpunkten darstellt. Die Test-Retest-Reliabilität ist wertlos, wenn nicht das Intervall zwischen den beiden Testzeitpunkten angegeben ist. Unsinnig ist die Anwendung der Retest-Reliabilität bei sich verändernden Konstrukten (so würde die Retest-Reliabilität eines Tests, der Hunger als Konstrukt erfasst nicht die Reliabilität des Tests erfassen, sondern nur die Flüchtigkeit des Hungergefühls). Dies führt zu einer Unterschätzung der Reliabilität. Problematisch sind ebenso zu kurze Zeiträume zwischen den Tests, da Erinnerungseffekte zu einer Überschätzung der Reliabilität führen können.

Ein weiteres Verfahren ist die Konstruktion von parallelen Tests. Das sind Tests, von denen man annimmt, dass sie die gleichen wahren Werte messen. Die Reliabilität kann dann durch die Korrelation zweier paralleler Tests X1 und X2 geschätzt werden. Man nennt dies auch Paralleltest-Reliabilität. Der Vorteil der Paralleltest-Reliabilität liegt darin, dass weder Item-Homogenität wie bei Cronbachs Alpha, noch eine zeitliche Stabilität wie bei der Retest-Reliabilität vorausgesetzt wird, weshalb man sie von der Theorie her als Königsweg bezeichnen könnte. Praktisch gesehen ist es jedoch äußerst schwierig, parallele Testformen zu konstruieren, die voraussetzen, dass die korrespondierenden Items sich in Mittelwert, Itemschwierigkeit, Trennschärfe und sogar Fremdtrennschärfe nicht unterscheiden. Das trägt dazu bei, dass dies Form der Reliabilitätsschätzung recht selten angewandt wird. Bei gewissen Leistungstests wie z.B. IQ-Tests müssen jedoch aufgrund der Gefahr des Abschreibens ohnehin parallele Testformen vorliegen. Hier kann als günstiger Nebeneffekt die Paralleltest-Reliabilität mitberichtet werden.

Erwähnenswert ist noch die Interrater-Reliabilität. Sie wird insbesondere bei den Messverfahren Interview und Beobachtung zur Schätzung der Reliabilität eingesetzt. Für nominalskalierte Daten steht hierfür Cohens Kappa zur Verfügung. Für metrisch skalierte Daten wird die Intra-Klassen-Korrelation (ICC) verwendet. Für ordinalskalierte Daten ist Spearmans Rho ein anwendbares Maß.

Objektivität

Die Objektivität spielt in der klassischen Testtheorie eine untergeordnete Rolle. Die KTT ist eine Theorie, deren Axiome sich hauptsächlich auf Messfehler beziehen. Sie ist damit eine Theorie der Messfehler - und damit indirekt eine Theorie der Reliabilität, die ja als Freiheit von (unsystematischen) Messfehlern definiert ist. Objektivität lässt sich hierbei als Unteraspekt von Reliabilität auffassen, da Objektivität das Ausmaß betrifft, in dem sich die Varianz des Testwerts nicht auf eine Varianz ausgehend vom Versuchsleiter bzw. den Testbedingungen zurückführen lässt (z.B. Versuchsleitereffekt). Objektivität schließt also Messfehler, die durch den Untersuchungsleiter und die -bedingungen zustande kommen aus (ebenso wie die Reliabilität) und lässt sich in verschiedene Aspekte unterteilen:

  • Durchführungsobjektivität - Testergebnisse variieren nicht aufgrund unterschiedlicher Untersuchungsbedingungen in verschiedenen Messgelegenheiten
  • Auswertungsobjektivität - Die Testscores bzw. Ergebnisse in einem Test variieren nicht aufgrund unterschiedlicher Auswerter
  • Interpretationsobjektivität - Die Schlussfolgerungen, die aus dem Testergebnis gezogen werden, variieren nicht aufgrund unterschiedlicher Auswerter

Besonders bei den letzten beiden Punkten wird die Verwandtschaft zur Reliabilität deutlich. Theoretisch ließen sich die beiden Aspekte durchaus quantitativ durch die Interrater-Übereinstimmung erfassen. In der Praxis werden jedoch überwiegend Bedingungen sichergestellt, von denen man ausgeht, dass sie Objektivität herbeiführen. So wird ein möglichst standardisierter Test mit festen Interpretationshilfen im Manual als Garant für Auswertungs- und Interpretationsobjektivität betrachtet. Standardisierte Untersuchungsbedingungen hingegen sollen Durchführungsobjektivität gewährleisten. Hier wird meist nur unterschieden zwischen "gegeben" und "nicht gegeben".

Validität

Analog zur Reliabilität kann die Validität in der klassischen Testtheorie aufgefasst werden als der Anteil der Varianz, der ausschließlich auf das zu messende Konstrukt und nicht auf unsystematische, zufällige Fehler oder systematische Verzerrungen zurückgeht.

Validität =

mit als Varianz, die ausschließlich auf das zu untersuchende Konstrukt zurückzuführen ist, als Varianz der systematischen Verzerrungen (Bias) und als Varianz des Messfehlers.

Im Gegensatz zur Reliabilität führt hier eine Erhöhung des systematischen Fehlers zu einer Verminderung, was intuitiv nachvollziehbar ist.

Schätzverfahren zur Ermittlung der Validität

Die Validität eines Tests ist ungleich schwieriger zu schätzen wie die Reliabilität. Das liegt zum einen daran, dass Validität anders als die Reliabilität ein sehr uneinheitlicher Begriff ist, der in der Praxis durch sehr viele verschiedene Arten von Kennziffern geschätzt werden kann. Auf der anderen Seite gibt es aber auch Aspekte der Validität, die sich quantitativ nicht erfassen lassen bzw. dies ist in der Praxis der Testkonstruktion so nicht üblich. Für die Testkonstruktion relevant sind drei Oberformen der (psychometrischen) Validität:

  • Inhaltsvalidität: Betrifft u.a. die Frage, ob Items wirklich dazu geeignet sind ein bestimmtes Konstrukt zu erfassen. Wird in der Praxis durch Expertenurteile entweder als gegeben oder nicht gegeben angenommen. Zumindest besteht die theoretische Möglichkeit, sie z.B. über Interrater-Übereinstimmungsmaße bezüglich Expertenurteile zu Items zu erfassen.
  • Konstruktvalidität: Ist verwandt mit der Inhaltsvalidität. Hier geht es jedoch mehr als bei der Inhaltsvalidität um intersubjektiv (empirisch-quantitativ) nachprüfbare Hinweise darauf, dass tatsächlich das relevante Konstrukt gemessen wird und kein anderes. Dies geschieht auf verschiedene Arten:
    1. Interne Struktur/Faktorielle Validität - Prüfbar mit EFA, CFA und SEM
    2. Diskriminante und Konvergente Validität mit artfremden/artverwandten Tests, die dasselbe/ein anderes Konstrukt messen. Ermittelbar z.B. durch bivariate Korrelationen. MTMM anwendbar, konfirmatorische Prüfung z.B. durch CFA.
  • Kriteriumsvalidität: In der Praxis mit das wichtigste Gütekriterium. Gibt an, wie gut sich beispielsweise Ergebnisse anderer Tests oder Verhaltensweisen durch das Testergebnis vorhersagen lassen und entspricht der Korrelation mit dem Außenkriterium (z.B. Korrelation zwischen Intelligenz und Berufserfolg). Dabei kann anhand der zeitlichen Relation zwischen Testergebnis und Kriterium unterschieden werden:
    1. Retrospektive Validität - Wie hoch korreliert eine aktuelle Messung mit Messungen in der Vergangenheit, die durch dasselbe Konstrukt bedingt sind
    2. Konkurrente Validität - Wie hoch korreliert eine aktuelle Messung mit aktuellen anderen Messungen, die durch dasselbe Konstrukt bedingt sind
    3. Prädiktive Validität - Wie hoch korreliert eine Messung mit Messungen, die später vollzogen worden sind und durch dasselbe Konstrukt bedingt sind

Vorteil der Klassischen Testtheorie

  • Die Annahmen der klassischen Testtheorie sind einfach gehalten und sind mathematisch recht anspruchslos im Gegensatz zur Probabilistischen Testtheorie
  • Die KTT wurde bereits in vielen Tests umgesetzt und hat sich dadurch praktisch bewährt

Kritik

  • Möglicherweise ist die Annahme zu grob, da verschiedene Arten von Fehlern berücksichtigt werden müssten. Hier bietet das erweiterte Latent-State-Trait-Modell (Steyer und andere) einen weiterführenden Ansatz.
  • Die Stichprobenabhängigkeit von Reliabilität, Itemschwierigkeit und Itemtrennschärfe wird in der KTT nicht oder nur ungenügend beachtet.[2]
  • Die Homogenität von Items kann im Rahmen der KTT nicht geprüft werden.
  • Nach dem Verdünnungsparadox sinkt die kriterienbezogene Validität eines Tests mit wachsender Reliabilität von Kriterium und validiertem Test.[3]
  • Die klassischen Testtheorie kann nur stabile Persönlichkeitsmerkmale messen. Würde sich nämlich der wahre Wert verändern, stünde dies im Widerspruch zum zweiten Axiom, dass Erwartungswert und Mittelwert der Fehler beziehungsweise die Summe über die Fehler gleich null sind.[4]
  • Es werden Daten auf dem Niveau einer Intervallskala vorausgesetzt, denn es werden Mittelwerte und Varianzen berechnet.[2]

Alternative psychometrische Modelle

Die Auswertung psychometrischer Daten kann auch durch Latent-Trait Theorien (z.B. Rasch-Modell) erfolgen. Diese können einige der Probleme, die mit der KTT einhergehen, lösen, schaffen aber auch neue (siehe auch Probabilistische Testtheorie).

Literatur

  • Gustav A. Lienert, Ulrich Raatz: Testaufbau und Testanalyse. 6. Auflage. Beltz-Verlags-Union, Weinheim 1998, ISBN 3-621-27424-3.
  • Helfried Moosbrugger, Augustin Kelava (Hrsg.): Testtheorie und Fragebogenkonstruktion. 2. akualis. Auflage. Springer-Medizin-Verlag, Heidelberg 2012, ISBN 978-3-642-20071-7.
  • Frederic M. Lord, Melvin R. Novick: Statistical theories of mental test scores. Addison-Welsley, Reading MA u. a. 1968, ISBN 0-201-04310-6.

Einzelnachweise

  1. a b c Schmitz-Atzert, Amelang: Psychologische Diagnostik. 5., vollständig überarbeitete und erweiterte Auflage. Springer, Berlin/ Heidelberg 2012, ISBN 978-3-642-17000-3, S. 40 ff.
  2. a b Hermann-Josef Fisseni: Lehrbuch der psychologischen Diagnostik. 3., überarbeitete und erweiterte Auflage. Hogrefe, Göttingen 2004, ISBN 3-8017-1756-9, S. 81.
  3. Hermann-Josef Fisseni: Lehrbuch der psychologischen Diagnostik. 3., überarbeitete und erweiterte Auflage. Hogrefe, Göttingen 2004, ISBN 3-8017-1756-9, 4.3.3.4.
  4. Hermann-Josef Fisseni: Lehrbuch der psychologischen Diagnostik. 3., überarbeitete und erweiterte Auflage. Hogrefe, Göttingen 2004, ISBN 3-8017-1756-9, S. 50.