Trennschärfe eines Tests

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Power)
Zur Navigation springen Zur Suche springen

Die Trennschärfe,[1][2][3] Güte,[4] Macht oder Power (englisch für Macht, Leistung, Stärke) eines Tests (oder auch Teststärke), beschreibt in der Testtheorie –einem Teilgebiet der mathematischen Statistik– die Entscheidungsfähigkeit eines statistischen Tests. Die Trennschärfe eines Tests ist die Fähigkeit eines Tests, eine unwahre Nullhypothese als solche kenntlich zu machen.

Genauer gesagt gibt die Trennschärfe an, mit welcher Wahrscheinlichkeit ein statistischer Test die abzulehnende Nullhypothese H0 („Es gibt keinen Unterschied“) korrekt zurückweist, wenn die Alternativhypothese H1 („Es gibt einen Unterschied“) wahr ist. Die Trennschärfe des Tests kann also als „Ablehnungskraft“ des Tests interpretiert werden.[5] Hohe Trennschärfe des Tests spricht gegen, niedrige Trennschärfe für die Nullhypothese H0. Es wird versucht den Ablehnbereich so zu bestimmen, dass die Wahrscheinlichkeit für die Ablehnung einer „falschen Nullhypothese“ H0, d. h. für Beibehaltung der Alternativhypothese H1 unter der Bedingung, dass H1 wahr ist, möglichst groß ist: .

Die Trennschärfe hat den Wert 1-β, ist also –wenn β die Wahrscheinlichkeit einen Fehler 2. Art zu begehen bezeichnet– selbst die Wahrscheinlichkeit, einen ebensolchen Fehler zu vermeiden.

Entscheidungstabelle[Bearbeiten | Quelltext bearbeiten]

H0 ist wahr H1 ist wahr
Durch einen statistischen Test fällt eine Entscheidung für H0 Richtige Entscheidung (Spezifität)
Wahrscheinlichkeit: 1 - α
Fehler 2. Art
Wahrscheinlichkeit: β
Durch einen statistischen Test fällt eine Entscheidung für H1 Fehler 1. Art
Wahrscheinlichkeit: α
richtige Entscheidung
Wahrscheinlichkeit: 1-β (Trennschärfe des Tests, Sensitivität)

Wahl des β-Fehler-Niveaus[Bearbeiten | Quelltext bearbeiten]

Einfluss des Stichprobenumfangs auf die Gütefunktion bzw. Trennschärfe eines einseitigen (in diesem Fall linksseitigen) Tests
Einfluss des Stichprobenumfangs auf die Gütefunktion bzw. Trennschärfe eines zweiseitigen Tests

Für Wirksamkeitsstudien medizinischer Behandlungen schlägt Cohen (1969: 56) für β einen 4-mal so hohen Wert wie für das Signifikanzniveau α vor. Wenn α = 5 % ist, sollte das β-Fehler-Niveau also 20 % betragen. Liegt in einer Untersuchung die β-Fehler-Wahrscheinlichkeit (Wahrscheinlichkeit für einen Fehler 2. Art) unter dieser 20 %-Grenze, so ist die Trennschärfe (1-β) damit größer als 80 %.

Es sollte dabei bedacht werden, dass β-Fehler bei vorgegebenem, festem Signifikanzniveau α im Allgemeinen nicht direkt kontrolliert werden können. So ist der ß-Fehler bei vielen asymptotischen oder nichtparametrischen Tests schlechthin unberechenbar oder es existieren nur Simulationsstudien. Bei einigen Tests dagegen, zum Beispiel dem t-Test, kann der β-Fehler kontrolliert werden, wenn der statistischen Auswertung eine Stichprobenumfangsplanung vorausgeht.

Determinanten der Trennschärfe[Bearbeiten | Quelltext bearbeiten]

Die Trennschärfe (1-β) wird größer:[6]

  • mit wachsender Differenz von (das bedeutet: ein großer Unterschied zwischen zwei Teilpopulationen wird seltener übersehen als ein kleiner Unterschied)
  • mit kleiner werdender Merkmalsstreuung
  • mit größer werdendem Signifikanzniveau (sofern nicht festgelegt ist)
  • mit wachsendem Stichprobenumfang, da der Standardfehler dann kleiner wird:
  • bei einseitigen Tests im Vergleich zu zweiseitigen Tests: Für den zweiseitigen Test braucht man einen etwa um 25 % größeren Stichprobenumfang, um dieselbe Trennschärfe wie für den einseitigen Test zu erreichen.

Wichtig für die Trennschärfe bzw. Power ist auch die Art des statistischen Tests: Parametrische Tests wie zum Beispiel der t-Test haben, falls die Verteilungsannahme stimmt, bei gleichem Stichprobenumfang stets eine höhere Trennschärfe als nichtparametrische Tests wie zum Beispiel der Wilcoxon-Vorzeichen-Rang-Test. Weichen die angenommene und die wahre Verteilung jedoch voneinander ab, liegt also beispielsweise in Wahrheit eine Laplace-Verteilung zugrunde, während eine Normalverteilung angenommen wurde, können nichtparametrische Verfahren jedoch auch eine wesentlich größere Trennschärfe aufweisen als ihre parametrischen Gegenstücke.

Entgegengesetzte Notation[Bearbeiten | Quelltext bearbeiten]

In manchen Quellen wird –was für Verwirrung sorgen kann– für den Fehler 2. Art und die Trennschärfe die genau entgegengesetzte Notation verwendet, also die Wahrscheinlichkeit, einen Fehler 2. Art zu begehen, mit dem Wert 1-β bezeichnet, die Trennschärfe dagegen mit β.[7]

Siehe auch[Bearbeiten | Quelltext bearbeiten]

Literatur[Bearbeiten | Quelltext bearbeiten]

Weblinks[Bearbeiten | Quelltext bearbeiten]

 Wiktionary: Power – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, und Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2016, ISBN 978-3-662-50371-3, S. 393.
  2. Otfried Beyer, Horst Hackel: Wahrscheinlichkeitsrechnung und mathematische Statistik. 1976, S. 154.
  3. Ludwig von Auer: Ökonometrie. Eine Einführung. Springer, ISBN 978-3-642-40209-8, 6. durchges. u. aktualisierte Aufl. 2013, S. 128.
  4. Otfried Beyer, Horst Hackel: Wahrscheinlichkeitsrechnung und mathematische Statistik. 1976, S. 154.
  5. Ludwig von Auer: Ökonometrie. Eine Einführung. Springer, ISBN 978-3-642-40209-8, 6. durchges. u. aktualisierte Aufl. 2013, S. 128.
  6. Bortz, J.: Statistik für Sozialwissenschaftler. Springer, Berlin 1999. ISBN 3-540-21271-X
  7. Erwin Kreyszig: Statistische Methoden und ihre Anwendungen; 7. Auflage, Göttingen 1998, S. 209ff.