Multiple Choice

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Die Artikel Forced-Choice und Multiple Choice überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zusammenzuführen (→ Anleitung). Beteilige dich dazu an der betreffenden Redundanzdiskussion. Bitte entferne diesen Baustein erst nach vollständiger Abarbeitung der Redundanz und vergiss nicht, den betreffenden Eintrag auf der Redundanzdiskussionsseite mit {{Erledigt|1=~~~~}} zu markieren. Zulu55 (Diskussion) Unwissen 15:54, 28. Nov. 2013 (CET)

Multiple Choice (MC, /ˈmʌltɪpl̩.tʃɔɪs/) oder deutsch Mehrfachauswahl, auch Antwort-Wahl-Verfahren, ist eine in Prüfungen, Tests, Klausuren und Umfragen verwendete Fragetechnik, bei der zu einer Frage mehrere vorformulierte Antworten zur Auswahl stehen.

Es handelt sich damit um geschlossene Fragen im Gegensatz zu offenen Fragen, bei denen der Proband eine freie Antwort eintragen muss; allerdings gibt es in Umfragen auch eine kombinierte Form, in der zusätzlich oder alternativ zu den Vorgaben eine eigene Antwort formuliert werden kann.

Unterschiedliche Formate und Begrifflichkeiten[Bearbeiten]

In manchen Disziplinen wird neben „Multiple Choice“ auch der Begriff „Single Choice“ (SC) verwendet. Single Choice oder Einfachauswahl steht dann für Fragen, bei denen genau eine Antwort ausgewählt werden soll, während bei „Multiple Choice“ auch mehrere Antworten richtig sein können. In vielen Kontexten gilt die Verabredung, dass bei Ankreuzaufgaben immer nur eine Antwort richtig sein kann, als so selbstverständlich, dass darauf gar nicht explizit hingewiesen wird - so zum Beispiel bei Prüfungen an Schulen und Hochschulen in den USA oder Australien.

Grundsätzlich gibt es folgende Auswahlformate für Testaufgaben mit n Antwortmöglichkeiten und kn richtigen Antworten, d.h. mit nk nicht zutreffenden Distraktoren:

Multiple Choice: Select
eine bekannte Anzahl k Antworten trifft zu
Single Choice oder Multiple Choice: Choose
eine Antwort (k = 1) trifft zu
Binärfrage oder Entscheidungsfrage
eine von zwei dichotomen Antworten (k = 1, n = 2) trifft zu: wahr/falsch, ja/nein …
Multiple Choice: Check
eine unbekannte Anzahl Antworten (k ≥ 0) trifft zu
höchstens eine bekannte Anzahl Antworten (kc) trifft zu, bspw. im Extremfall eine (k ≤ 1) oder alle außer einer (kn−1)
mindestens eine bekannte Anzahl Antworten (ck) trifft zu, bspw. eine (k ≥ 1)
mindestens und höchstens bekannte Anzahlen Antworten (ckd) treffen zu, bspw. eine bis alle außer einer (c = 1, d = n−1)
mehr Antworten treffen zu als nicht zu (k > n2) oder umgekehrt (k < n2)

Formen[Bearbeiten]

Mehrfachauswahl
Welche Antworten treffen zu?
☐ Antwort 1
☑ Antwort 2
☑ Antwort 3
☐ Antwort 4
Einfachauswahl
Welche Antwort trifft zu?
☐ Antwort 1
☐ Antwort 2
☒ Antwort 3
☐ Antwort 4
Einfachauswahl
Welche Antwort trifft zu?
○ Antwort 1
○ Antwort 2
● Antwort 3
○ Antwort 4
Einfachauswahl farbig
Welche Antwort trifft zu?
Antwort 1
Antwort 2
Antwort 3
Antwort 4

In elektronischen Formularen und GUIs ist es üblich, Single Choice mit runden und Multiple Choice mit eckigen Boxen darzustellen. Statt eines Kreuzes kann auch ein Haken oder ähnliches gesetzt werden. Alternativ können gerade auf Touchscreens oder im Fernsehen (vgl. Quizsendungen wie Wer wird Millionär?) die gewählten und bei der Auswertung die korrekten und falschen Antworten durch Text- und Hintergrundfarben oder Umrahmungen und andere Stile dargestellt werden.

eindeutige Antwortauswahl
Treffen die Antworten zu?
ja nein
☐☒ Antwort 1
☒☐ Antwort 2
☒☐ Antwort 3
☐☒ Antwort 4

Um bei der Auswertung zwischen nicht ausgewählten und nicht bearbeiteten Antwortvorgaben unterscheiden zu können, werden mitunter zwei Kästchen pro Frage für „trifft zu“/„ja“ und „trifft nicht zu“/„nein“ verwendet. Damit handelt es sich um eine Gruppe von Entscheidungsfragen mit derselben Fragestellung.

Korrektur
Welche Antwort trifft zu?
☐ Antwort 1
▣ Antwort 2
☒ Antwort 3
☐ Antwort 4

Auf Papierformularen kann ein komplett ausgefülltes Kästchen als Korrektur und damit wie ein nicht angekreuztes gewertet werden. Manche automatische Auswerteverfahren erwarten hingegen ausgefüllte Kästchen statt Kreuze zur Antwortmarkierung.

vollständiges Set
Welche Blutgruppe kommt in Deutschland am häufigsten vor?
☐ 0
☐ A
☐ B
☐ AB

Die vorgegebenen Antworten können alle überhaupt möglichen Antworten vollständig abdecken oder nur eine Auswahl anbieten. Mitunter wird eine komplette Abdeckung indirekt dadurch erreicht, dass eine Antwort lautet: „keine der anderen Antworten trifft zu“.

Skalen und Matrizen[Bearbeiten]

weiche Skalafrage: ungerade Anzahl
☐sehr zufrieden ☒zufrieden ☐unentschieden ☐unzufrieden ☐sehr unzufrieden
harte Skalafrage: gerade Anzahl
☐sehr zufrieden ☒zufrieden ☐unzufrieden ☐sehr unzufrieden

Wenn die Antwortvarianten verschiedene Grade einer Bewertung darstellen (z. B. „sehr zufrieden“ bis „sehr unzufrieden“), von denen genau eine ausgewählt werden muss, spricht man in der Sozialforschung nicht von Multiple Choice, sondern von einem skalierten Frage-Verfahren.

Da bei MC-Fragen in der Sozialwissenschaft Meinung erforscht und nicht Wissen geprüft wird, gibt es auch häufig als letzte Antwortmöglichkeit „weiß nicht“ oder „keine Angabe“, da Probanden sich oft verpflichtet fühlen, irgendein Kreuz zu setzen.

In speziellen Anwendungen müssen Kreuze in einer Matrix gesetzt werden. So kann man mehr Kombinationsmöglichkeiten realisieren.

Zweistufige Testaufgaben[Bearbeiten]

Im Medizinstudium war bis vor einigen Jahren ein Multiple-Choice-Format gebräuchlich, in dem zunächst verschiedene Aussagen vorgeschlagen werden, von denen eine beliebige Anzahl zutreffen kann. Anschließend folgt die eigentliche Frage, bei der nur eine Antwort die richtige ist.

Beispiel
  1. Aussage 1
  2. Aussage 2
  3. Aussage 3
  4. Aussage 4
☐ Keine Aussage trifft zu.
☐ Nur Aussage 4 trifft zu.
☒ Aussagen 1 und 2 treffen zu.
☐ Aussagen 1, 3 und 4 treffen zu.
☐ Alle Aussagen treffen zu.

Mit fünf Antwortmöglichkeiten im Beispiel liegt die Komplexität unwesentlich höher als im Fall einer einzigen richtigen unter den vier Aussagen, aber deutlich niedriger als bei freier Kombinierbarkeit inklusive der Randfälle, dass keine oder alle der Aussagen zutrifft, denn damit gäbe es 16 mögliche Antwortmuster. Selbst bei der Beschränkung darauf, dass genau eine oder zwei Aussagen zutreffen können, gäbe es bereits 10 Muster. Die Reduktion der Komplexität erleichtert also insbesondere die Korrektur und Bewertung. Im Beispiel sind die Antwortmöglichkeiten aufsteigend nach der Anzahl zutreffender Aussagen sortiert, aber dies muss nicht der Fall sein.

Bewertung von Testleistungen[Bearbeiten]

Die gerechte Bewertung von MC-Aufgaben ist nicht trivial und führt leicht zu ungerechten Urteilen.

Am deutlichsten wird dies bei einem Test mit nur zwei Antwortalternativen pro Frage („trifft zu“ / „trifft nicht zu“). Wird hier ein richtig gesetztes Kreuz mit einem Punkt bewertet, für ein falsch gesetztes jedoch kein Punkt abgezogen, erreicht ein Proband ohne jede Kenntnis durch einfaches Ankreuzen des jeweils ersten Kästchens durchschnittlich 50% der erreichbaren Punktzahl und damit nach gängiger Auswertung ein „ausreichend“ bzw. „bestanden“ attestiert. Probanden, die mit ähnlichen Fragen in einer Klausur ohne MC geprüft werden, sind damit deutlich benachteiligt.

Dennoch werden in der Praxis MC-Tests zum Teil auf diese Weise (fehlerhaft) ausgewertet. Die so gewonnenen Prüfungsergebnisse liegen dann ein bis zwei Notenstufen über konventionell erzielten Ergebnissen (eine so erzielte „vier“ entspricht bspw. einer „sechs“, d.h. keinerlei nachweisbare Kenntnisse).

Zum Teil wird auch, im Bewusstsein der Problematik aber in Unkenntnis der mathematischen Zusammenhänge, unabhängig von der Anzahl der Antwortmöglichkeiten die Bestehensgrenze pauschal auf 60% festgelegt. Dieses Vorgehen ist jedoch, außer bei genau 5 Antwortkästchen pro Frage, ebenfalls fehlerhaft (siehe unten).

SC-Bewertung[Bearbeiten]

Ist genau eine der angebotenen Alternativen richtig, alle anderen falsch, ist der einfachste Weg zu einer gerechten Bewertung, für falsche Kreuze Punktabzug (Malus) anzurechnen: Bei zwei angebotenen Antwortalternativen pro Frage je einen Punkt, bei drei Alternativen einen halben Punkt, bei vier Alternativen einen Drittelpunkt usw. Unbeantwortete Fragen und solche, bei denen mehr als ein Kreuz gesetzt wurde, bleiben ohne Wertung, es wird kein Punkt gegeben und keiner abgezogen. Um dem Probanden stets die Möglichkeit zu geben, Punktabzug für nicht beantwortete Fragen zu vermeiden, sollen immer mindestens zwei Alternativen („trifft zu“ / „trifft nicht zu“) angeboten werden. Aufträge wie „Kreuzen Sie die richtigen Aussagen an“ sind generell zu vermeiden.

Berücksichtigung des statistischen Effekts durch Punktabzug (Maluspunkte) für falsche Antworten
Antwortalternativen pro Frage Abzug pro falsch gesetztes Kreuz
2 1
3 12
4 13
5 14
n 1n−1

Da in der Öffentlichkeit die Berücksichtigung des statistischen Effektes durch das Abzugsverfahren immer wieder als ungerechtfertigt empfunden wird oder sogar gerichtlich angezweifelt wird[1], kann alternativ eine korrekte Bewertung auch erzielt werden, indem ein angepasster Punkteschlüssel zur Anwendung kommt. Für den (häufigsten) Fall, dass der Proband für ein Bestehen eine Kenntnis von 50% des Stoffes nachzuweisen hat, ergibt sich dann folgender korrigierter Punkteschlüssel:

Berücksichtigung des statistischen Effekts durch korrigierten Punkteschlüssel
Antwortalternativen pro Frage Bestehensgrenze
2 75% ¾
3 66,6%
4 62,5%
5 60%
n n+1n

In Folge eines Gerichtsurteils[1] wird jedoch bspw. an nordrhein-westfälischen Hochschulen inzwischen ein fester Notenschlüssel verwendet, der weder die Anzahl der Alternativen noch der richtigen Antworten pro Frage berücksichtigt und davon ausgeht, dass jede Aufgabe bzw. richtige Antwort unabhängig von Schwierigkeit und Komplexität mit gleich vielen Punkten (nämlich einem) bewertet wird. Die Bestehensgrenze liegt üblicherweise bei 60% der Gesamtpunktzahl, wird aber zwangsweise angehoben werden, wenn sonst die Durchfallquote der Erstteilnehmer an einer Prüfung zu hoch wäre, weil dies als Indikator für eine unangemessen schwierige Prüfung gewertet wird. Um beide Fälle abzudecken, wird der Notenschlüssel fix über den Anteil korrekter Antworten oberhalb der flexiblen Bestehensgrenze definiert. Feiner gestufte Noten wie 1,3 und 2,7 sind nicht festgelegt, werden aber in der Regel linear in das Raster eingefügt, wobei dann die Frage ist, ob die Grenze für x für eine x,0 oder eine x,3 gilt.

Notenschlüssel
Note Mindestanteil über der Bestehensgrenze Teilnote weiche Interpretation harte Interpretation
1 90% 75% 1,0 93 13% 83 13% 90% 75%
1,3 90% 75% 86 23% 66 23%
2 80% 50% 1,7 86 23% 66 23% 83 13% 58 13%
2,0 83 13% 58 13% 80% 50%
2,3 80% 50% 76 23% 41 23%
3 70% 25% 2,7 76 23% 41 23% 73 13% 33 13%
3,0 73 13% 33 13% 70% 25%
3,3 70% 25% 66 23% 16 23%
4 60% 0% 3,7 65% 12 12% 63 13% 8 13%
4,0 60% 0% 60% 0%
5 0% 5,0

MC-Bewertung[Bearbeiten]

Sind bei einer Aufgabe mehrere Antworten richtig, ist wie bei mehreren Einzelfragen mit je zwei Alternativen („trifft [nicht] zu“) zu verfahren und für falsche Kreuze ein Malus von einem Punkt zu geben. Nicht oder doppelt gekreuzte Antworten bleiben ohne Folge.

Es sind daher bei jeder Antwortalternative stets zwei Kästchen vorzusehen. Anschließend werden die Einzelpunkte addiert, negative Summen werden dabei als 0 gewertet.

Korrekt angelegte Aufgabe
Welche Politiker waren in der Regierung Brandt Bundesminister?
ja nein
☐ ☐ Karl Schiller
☐ ☐ Herbert Wehner
☐ ☐ Rainer Barzel
☐ ☐ Georg Leber
☐ ☐ Erich Mende
Ungünstig angelegte Aufgabe, gerechte Auswertung problematisch
Welche Politiker waren in der Regierung Brandt Bundesminister?
☐ Karl Schiller
☐ Herbert Wehner
☐ Rainer Barzel
☐ Georg Leber
☐ Erich Mende

Um das Gewicht der Aufgabe innerhalb der Gesamtprüfung festzulegen, kann ggf. die erzielte Punktzahl auf die gewünschte Punktzahl der Aufgabe umgerechnet werden. Wenn bspw. wie im gezeigten Beispiel fünf Antwortmöglichkeiten bewertet werden müssen, könnte die Gesamtaufgabe 2 Punkte ab 4 Teilpunkten (also max. ein falsches Kreuz), 1 Punkt für 2–3 Teilpunkte und sonst keinen Punkt bringen.

Vorteile[Bearbeiten]

Mit diesen Tests können viele Lernziele (mit Ausnahme von kreativen Leistungen) abgefragt werden. Darüber hinaus lassen sie sich in der Regel maschinell auswerten. Sie werden deshalb sehr häufig eingesetzt, z. B. beim IQ-Test, bei der Führerscheinprüfung und verschiedenen Qualifikationsprüfungen. Auch Prüfungen an Schulen und Universitäten werden manchmal auf diese Weise abgehalten. Bei Auswahlverfahren von Unternehmen ist dieser Test ebenfalls beliebt, da man lediglich eine Lösungsschablone benötigt.

Nachteile[Bearbeiten]

Die Fähigkeit, bei unvollständigem Fachwissen aus rein formalen Hinweisen die richtige Lösung zu erschließen oder zumindest einzelne Distraktoren zu eliminieren, wird in den USA unter dem Begriff testwiseness („Testfähigkeit“) diskutiert (Millman et al. 1965). Bei schlecht konstruierten Tests half früher die Faustregel, im Zweifel die längste Antwort anzukreuzen. Einen parodistischen Test, der nur durch rein formales Schließen gelöst werden kann, hat die New Yorker Schulbehörde veröffentlicht: [1] (PDF; 52 kB).

Kubinger (2005) schreibt zur oft unterschätzten Auswirkung des Rateeffekts auf die diagnostische Validität von MC-Tests:

Die Wahrscheinlichkeit, dass ein Item eines Tests [Frage im MC-Test; Anm. d. Verf.] nur zufällig richtig beantwortet und insofern „gelöst“ wird, ist offensichtlich umso größer, je weniger Antwortmöglichkeiten geboten werden. Im heute verfügbaren Testinventar der psychologischen Diagnostik sind es zumeist fünf, nämlich die Lösung samt vier „Distraktoren“. Für solche Tests beträgt die A-priori-Ratewahrscheinlichkeit 1/5 = 20 %, d. h., auch Testpersonen ohne jede entsprechend vorausgesetzte Fähigkeit würden durchschnittlich 1/5 aller Items „lösen“. Verschärft wird das Problem dadurch, dass für Testpersonen mit wenigstens minderer Fähigkeit nicht alle Antwortmöglichkeiten gleich plausibel sind, so dass von den fünf häufig eine, zwei, manchmal drei gemäß Falsifikationsstrategie [entspricht hier sinngemäß in etwa: Ausschlussverfahren, siehe Falsifizierung; Anm. d. Verf.] richtiger Weise außer Betracht geraten, was die Ratewahrscheinlichkeit pro Item individuell bis auf 50 % erhöhen kann.

Multiple Choice in internationalen Vergleichen[Bearbeiten]

Multiple-Choice-Aufgaben werden auch in internationalen Schulleistungsvergleichen wie TIMSS, PIRLS oder PISA eingesetzt. Dabei wird das US-amerikanische Standardformat verwendet, in dem in aller Regel vier bis fünf Antworten vorgegeben werden, von denen genau eine als richtig gewertet wird. Im deutschen Sprachraum aber, wo dieses Aufgabenformat wenig gebräuchlich ist, haben in den ersten PISA-Runden über 10 % der Schüler bei einzelnen Aufgaben mehr als eine Antwort angekreuzt.[2]

Eine kanadische Studie zeigt, dass sich der Vorteil nordamerikanischer Studenten, die aus ihrer Schulzeit her MC-Tests gewohnt sind, auch in studienbegleitenden Prüfungen noch nachweisen lässt.[3]

Weitere Probleme[Bearbeiten]

Multiple-Choice-Tests fördern (partielles) Faktenwissen statt Fachwissen. Die Personen lernen das Verifizieren von Antworten statt des Lösens von Aufgaben. Eine Person, die zuverlässig die richtige Antwort aus fünf möglichen findet, kann trotzdem nicht in der Lage sein, die gestellte Aufgabe zu lösen.
Beispiel: Die Testperson löst die Aufgabe so lange, bis ihre Lösung mit einer der vorgegebenen Lösungen übereinstimmt. Macht die Testperson dabei nicht die Fehler, die die Ersteller der MC-Lösungen absichtlich gemacht haben, um die falschen Antworten zu generieren, kann die Testperson die richtige Lösung herausfinden, ohne die Aufgabe selbst eigenständig lösen zu können.

Ein weiteres Problem ist, dass die richtige Lösung in der Aufstellung der MC-Lösungen nicht selten fehlt oder eine vermeintlich falsche Lösung für den, der sich mit der Materie auskennt, die richtige Lösung ist. In diesem Fall ist das Frustationspotential für die Testperson sehr groß. Im MC-Test Beispiel für Multiple Choice in der Tontechnik (PDF; 63 kB) sind zumindest die Antworten auf die ersten sieben Fragen so ungenau, dass man problemlos eine weitere Antwort hinzufügen könnte, die die offiziell richtige Antwort als eindeutig falsch deklassieren würde.

Ein drittes Problem ist das richtige Verstehen von Aufgabenstellungen, sowohl durch Mehrdeutigkeiten als auch durch fehlende linguistische Fähigkeiten der Testperson. Man testet immer eine Mischung aus Fachwissen und der Beherrschung der Sprache, in der die Aufgabe gestellt wurde, selbst wenn letzteres in der Praxis keine Rolle spielen würde, weil die Aufgabe normalerweise aus dem Kontext und nicht aus einer Aufgabenstellung heraus in der Praxis gestellt wird.

Bei SC-Auswahlantworten können sich die Distraktoren sehr in ihrer Nähe zur richtigen Antwort unterscheiden, manche sind sogar absichtlich offensichtlich falsch, andere nur in einem leicht zu übersehenden Detail falsch. Sie werden aber alle gleich bewertet, während in einer Freitextkorrektur für einige möglicherweise Teilpunkte gegeben würden.

Maßnahmen gegen das Raten[Bearbeiten]

An deutschen und österreichischen Universitäten sind Multiple-Choice-Klausuren sehr verbreitet. Um die Studierenden vom Raten abzuhalten, wird die Bestehensgrenze oberhalb der Zufallswahrscheinlichkeit angesetzt oder ein negatives Punktesystem verwendet oder beides.

Die hier vorgestellten Varianten setzen entweder eine binäre Entscheidung („wahr“ oder „falsch“) oder Einfachauswahl voraus.

absolutes und relatives Verhältnis von Bonus und Malus
Bonus Malus Neutral absolutes Verhältnis relatives Verhältnis
+1 −1 |B| = |M| |B| = |M|
+1 −1 ±0 |B| = |M| |B-N| = |M-N|
+1 −1 −½ |B| = |M| |B-N| > |M-N|
+1 −1 −1 |B| = |M| |B-N| > |M-N|
+1 −1 |B| = |M| |B-N| < |M-N|
+1 −2 |B| < |M| |B| < |M|
+1 −2 ±0 |B| < |M| |B-N| < |M-N|
+1 −2 −1 |B| < |M| |B-N| > |M-N|
+1 −½ ±0 |B| > |M| |B-N| > |M-N|
+1 ±0 |B| > |M| |B-N| = |M-N|
+1 ±0 ±0 |B| > |M| |B-N| > |M-N|

Im einfachsten und verbreitetsten Verfahren erhält jede Antwort betragsmäßig dieselbe Wertung, allerdings richtige positiv und falsche negativ. Dieses System ist allerdings umstritten und wurde auch schon gerichtlich indiziert, weil durch die Entwertung richtiger Antworten nicht der Wissensstand, sondern die Risikobereitschaft der Geprüften bewertet wird.[1]

Alternativen, die die positive Wirkung der testwiseness weiter reduzieren sollen, vergeben eine betraglich höhere (negative) Wertung für falsche Antworten als (positive) für richtige Antworten.

Häufig gehen Aufgaben mit Malus schlechtestenfalls mit null Punkten in die Gesamtwertung ein, selbst wenn die Punktesumme eigentlich negativ wäre. So kann der Notenspiegel positiv gehalten werden. Allerdings setzt das eine Aufgabenstellung voraus, in der eine Aufgabe aus mehreren Multiple-Choice-Fragen besteht. Solche Aufgaben werden oft in Prüfungen verwendet, die vorwiegend andere Aufgabentypen enthalten.

Juristische Bewertung[Bearbeiten]

In Deutschland gibt es mittlerweile eine Vielzahl von Gerichtsurteilen, die die Grenzen der Verwendung des Antwort-Wahl-Verfahrens, wie es im Juristendeutsch heißt, aufzeigen. Viele Urteile beziehen sich dabei auf eine absolute Bestehensgrenze, die dazu geführt hat, dass die Anzahl der bestehenden Prüflinge sich von Jahrgang zu Jahrgang zum Teil erheblich unterscheiden können; andere Urteile beziehen sich auf die Bewertung von Aufgaben.[4]

Insgesamt empfiehlt es sich daher, sich mit der Rechtsprechung zu befassen, bevor Multiple-Choice-Aufgaben konzipiert werden.

Beispiele[Bearbeiten]

Welche Politiker waren in der Brandt-Regierung Bundesminister?
  1. Karl Schiller
  2. Herbert Wehner
  3. Rainer Barzel
  4. Georg Leber
  5. Erich Mende

Die Anzahl richtiger Antworten ist nicht vorgegeben. Richtig sind 1. und die 4. Antwort. 2, 3 und 5 dienen als Distraktoren.

Welches ist der größte Binnensee, der vollständig in Deutschland liegt?
  1. der Bodensee
  2. die Müritz
  3. das Steinhuder Meer

Aus dem Fragetext ist klar, dass nur eine Antwort richtig sein kann (die 2.).

Literatur[Bearbeiten]

  •  K. D. Kubinger: Objektive psychologisch-diagnostische Verfahren. In: H. Weber, T. Rammsayer (Hrsg.): Handbuch der Persönlichkeitspsychologie und Differentiellen Psychologie aus Handbuch der Psychologie. Hogrefe, Göttingen 2005, S. 158–165.
  •  J. Millman, C. H. Bishop, R. Ebel: An Analysis of Test-Wiseness. In: Educational Psychological Measurement. 25, 1965, S. 707–726.

Weblinks[Bearbeiten]

Quellenangaben[Bearbeiten]

  1. a b c Beschluss des Oberverwaltungsgerichtes NRW vom 11. Januar 2011, AZ 14 B 1109/11
  2. Joachim Wuttke: Die Insignifikanz signifikanter Unterschiede. In: T. Jahnke, W. Meyerhöfer: PISA & Co –Kritik eines Programms. Zweite Auflage. Franzbecker, Hildesheim 2007, S. 171 ff.
    Auch http://www.messen-und-deuten.de/pisa/Wuttke2007b.pdf. Wuttke weist darauf hin, dass das den Test über die unmittelbar betroffenen Aufgaben hinaus verzerrt, denn es kostet viel mehr Zeit, vier oder fünf Antwortvarianten auf richtig/falsch zu prüfen, statt unter ihnen die plausibleste auszuwählen.
  3. A. Mahamed et al.: “Testwiseness” Among International Pharmacy Graduates and Canadian Senior Pharmacy Students. In: American Journal of Pharmaceutical Education. Band 70. S. 131.
  4. http://www.zimmerling.de/veroeffentlichungen/volltext/richterakademie-2008.htm