„Multiples Testen“ – Versionsunterschied

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
[gesichtete Version][gesichtete Version]
Inhalt gelöscht Inhalt hinzugefügt
AZ: Weiterleitungsziel von Testen allgemeiner linearer Hypothesen nach Alphafehler-Kumulierung geändert
Markierungen: Weiterleitungsziel geändert Mobile Bearbeitung Mobile Web-Bearbeitung Erweiterte mobile Bearbeitung
Neuer Artikel, ersetzt bisherige Weiterleitung
Markierungen: Weiterleitung entfernt Begriffsklärungsseiten-Links
Zeile 1: Zeile 1:
'''Multiples Testen''' bezeichnet Verfahren der statistischen [[Testtheorie]], bei denen mehrere [[Statistischer Test|statistische Tests]] simultan durchgeführt werden.
#WEITERLEITUNG [[Alphafehler-Kumulierung]]

== Überblick über Verfahren des multiplen Testens ==
Unter dem Begriff ''multiples Testen'' werden verschiedene Verfahren zusammengefasst, bei denen eine – in der Regel endliche – Anzahl von statistischen Tests simultan durchgeführt wird. Es können drei Gruppen unterschieden werden, die das Konzept des [[Fehler 1. und 2. Art|Fehlers 1. Art]], das ist die fälschliche Ablehnung einer [[Nullhypothese]], auf unterschiedliche Art für mehrere Test verallgemeinern. Wenn mindestens eine Nullhypothese fälschlich abgelehnt wird, liegt ein ''multipler Fehler 1. Art'' vor.

;Multiple Tests mit vorgegebenem globalem Signifikanzniveau
Für eine Familie von Nullhypothesen wird die Wahrscheinlichkeit, dass mindestens eine Nullhypothese abgelehnt wird, falls ''alle'' Nullhypothesen richtig sind, kontrolliert, d.h. durch ein vorgegebenes [[Signifikanzniveau]] <math>\alpha \in (0,1)</math> nach oben beschränkt. In diesem Fall heißt das Signifikanzniveau ''globales Signifikanzniveau''. Diese erste Gruppe von Verfahren testet mit Hilfe der Einzeltests eine Globalhypothese, die als Durchschnitt der einzelnen Nullhypothesen definiert ist.

;Multiple Tests mit vorgegebenem multiplem Signifikanzniveau
Bei dieser Gruppe multipler Testverfahren wird für eine Familie von Nullhypothesen die Wahrscheinlichkeit, dass mindestens eine Nullhypothese fälschlich abgelehnt wird, kontrolliert, d. h. durch ein Signifikanzniveau <math>\alpha \in (0,1)</math>, das dann ''multiples Signifikanzniveau'' heißt, nach oben beschränkt.

;Multiple Tests mit Beschränkung der erwarteten Fehlerquote der Ablehnungen
Bei dieser Gruppe von Testverfahren wird die erwartete Fehlerquote der Ablehnungen (englisch: ''false discovery rate'', FDR), das ist der erwartete Anteil fälschlicher Ablehnungen von Nullhypothesen unter allen abgelehnten Nullhypothesen, kontrolliert.<ref>{{Literatur|Autor=Thorsten Dickhaus |Datum=2022 |Titel=Multiples Testen |Fundstelle=Kap. 5}}</ref><ref>{{Literatur |Autor=E. L. Lehmann, Joseph P. Romano |Titel=Testing Statistical Hypothesis |Datum=2022 |Fundstelle=Abschnitt 9.3.2, S. 434ff}}</ref>

== Grundbegriffe ==
Gegeben sei eine Familie von <math> k </math> Test mit den [[Nullhypothese]]n <math> H_j: \theta \in \Theta_j </math> für <math> j = 1,\ldots,k </math>, wobei <math> \emptyset \neq \Theta_j \subset \Theta </math> für <math>j = 1,\ldots, k</math> gilt. Die entsprechenden [[Gegenhypothese]]n sind <math> K_j: \theta \in \Theta \setminus \Theta_j </math> für <math> j = 1,\ldots,k </math>. Eine simultane Durchführung der <math> k </math> Tests wird ''multipler Test'' genannt. Bei der Durchführung eines multiplen Tests sind mehrere Testergebnisse möglich: es wird keine Nullhypothese abgelehnt oder es wird mindestens eine der Nullhypothesen abgelehnt. Im Extremfall werden alle Nullhypothesen abgelehnt.

'''Definition''': Ein multipler Test, bei dem jeder Einzeltest das Signifikanzniveu <math> \alpha \in (0,1) </math> einhält, für den also
:<math>P_\theta(\{ H_j \text{ wird abgelehnt} \} ) \leq \alpha\quad \text{für alle }\theta \in \Theta_j\text{ und jedes }j=1,\dots,k </math>
gilt, heißt ''multipler Test zum lokalen Signifikanzniveau'' <math> \alpha \in (0,1) </math>.

Ein multipler Test zum lokalen Signifikanzniveau <math> \alpha </math> kontrolliert zwar die Fehlerwahrscheinlichkeiten 1. Art für jeden Einzeltests, indem diese durch <math> \alpha </math> nach oben beschränkt werden. Die Wahrscheinlichkeit für die fälschliche Ablehnung einer oder mehrerer der Nullhypothese beim simultanen Testen wird aber nur teilweise kontrolliert.

'''Definition:''' Für einen simultanen Test mehrerer Nullhypothesen heißt das Testergebnis „Mindestens eine Nullhypothese wird fälschlich abgelehnt“ ''multipler Fehler 1. Art''.<ref>{{Literatur|Autor=Thorsten Dickhaus |Datum=2022 |Titel=Multiples Testen |Fundstelle=Def. 12.1, S. 12}}</ref> Die Wahrscheinlichkeit, dass ein multipler Fehler 1. Art begangen wird, heißt ''multiple Fehlerwahrscheinlichkeit 1. Art'' (engl.: ''family-wise error rate'', FWER)<ref>Der englische Begriff ''family-wise error rate'' für die multiple Fehlerwahrscheinlichkeit 1. Art hat keine direkt entsprechende deutsche Übersetzung gefunden. Insbesondere wäre eine wörtliche Übersetzung irreführend, da im Deutschen 'Rate' im Allgemeinen eine zeitlichen Bezug hat und nicht für eine Wahrscheinlichkeit benutzt wird.</ref> oder ''versuchsbezogene Irrtumswahrscheinlichkeit''<ref>{{Literatur |Autor=Ralf Bender, St. Lange, A. Ziegler |Titel=Multiples Testen |TitelErg=Artikel Nr. 12 der Statistik-Serie in DMW |Sammelwerk=Deutsche Medizinische Wochenschrift |Datum=2002 |Band=127 |Seiten=T4–T7 |Online=https://www.thieme-connect.de/products/ejournals/pdf/10.1055/s-2002-32816.pdf}}</ref> (engl.: ''experimentwise error rate'').

Die multiple Fehlerwahrscheinlichkeit erster Art hängt vom Parameter <math> \theta </math> ab und wird im Folgenden – wie auch meistens in der deutschsprachigen Fachliteratur – der englischen Bezeichnung folgend, mit <math> \mathrm{FWER}_\theta </math> bezeichnet. Für einen multiplen Test zum lokalen Signifikanzniveau <math> \alpha </math> sind die Wahrscheinlichkeiten <math> \mathrm{FWER}_\theta </math> nicht durch <math> \alpha </math> nach oben beschränkt. Es gilt<ref>
<math>I_\theta</math> bezeichne für jedes <math>\theta \in \Theta</math> die Menge der wahren Nullhypothesen und <math> A_j </math> bezeichne das Ereignis „<math> H_j </math> wird abgelehnt“. Dann ist <math> \bigcup_{j \in I_\theta} A_j </math> das Ereignis, dass mindestens eine Nullhypothese fälschlich abgelehnt wird. Es gilt
:<math>\mathrm{FWER}_\theta = P_\theta\left(\bigcup_{j \in I_\theta} A_j \right) \leq \sum_{j \in I_\theta}^k P_\theta(A_j) \leq |I_\theta|\cdot \alpha \leq k\cdot \alpha \quad\text{für alle }\theta \in \Theta\;.</math>
</ref> lediglich die Ungleichung
:<math>\mathrm{FWER}_\theta \leq \min\{k\cdot\alpha,1\}\quad\text{ für }\theta \in \Theta \;,</math>
die aber für größere <math> k </math> nicht zu einer praktikablen Beschränkung führt. Z. B. für <math> \alpha =0{,}05 </math> wird für <math> k \geq 20 </math> für die obere Schranke der Wert Eins erreicht. Diese Problematik wird auch mit dem Begriff [[Alphafehler-Kumulierung]] bezeichnet und motiviert Verfahren zur Kontrolle des multiplen Fehlers 1. Art.

== Multiple Tests zu vorgegebenem globalem Signifikanzniveau ==
=== Test einer Durchschnittshypothese ===
Zu einer Familie von <math> k </math> Nullhypothesen <math> H_1: \theta \in \Theta_1,\ldots, H_k \in \Theta_k </math> mit <math>\Theta_j \subset \Theta </math> für <math>j = 1,\ldots, k</math> sei
:<math> \Theta_0 := \bigcap_{j=1}^k \Theta_j </math>
eine nicht-leere Teilmenge von <math>\Theta</math>.
Dann heißt die Durchschnittshypothese
:<math>H_0: \theta \in \Theta_0</math>
''Globalhypothese'' und die einzelnen Nullhypothesen heißen in diesem Zusammenhang ''Elementarhypothesen''.<ref>{{Literatur|Autor=Thorsten Dickhaus |Datum=2022 |Titel=Multiples Testen |Fundstelle=S. 7}}</ref>
Die Globalhypothese <math>H_0</math> ist falsch, wenn mindestens eine der Hypothesen <math>H_1,\ldots, H_k</math> falsch ist. Ein Test der Globalhypothese kann daher durch <math> k </math> simultane Tests der Elementarhypothesen erfolgen, wobei <math>H_0</math> abgelehnt wird, falls mindestens eine der Hypothesen <math>H_1,\ldots, H_k</math> abgelehnt wird.
<!--
Wenn die Globalhypothese als Nullhypothese formuliert wird, ist
:<math>K_0 = \theta \in \bigcup_{j=1}^k (\Theta\setminus\Theta_j) = \Theta \setminus \bigcup_{j=1}^k \Theta_j)</math>
die Gegenhypothese, wobei die <math>K_1: \theta \in \Theta\setminus\Theta_1,\ldots, K_k: \theta \in \Theta\setminus\Theta_k</math> die Gegenhypothesen der Elementarhypothesen sind.
-->

'''Definition''': Ein simultaner Test der <math>k</math> Nullhypothesen <math>H_1: \theta \in \Theta_1,\ldots, H_k: \theta \in \Theta_k</math> mit <math>\Theta_0 = \Theta_1 \cup \dots \cup \Theta_k \neq \emptyset</math>,
der zu einem vorgegebenen Signifikanzniveau <math> \alpha \in (0,1) </math> die Eigenschaft
:<math>\mathrm{FWER}_\theta \leq\alpha\quad\text{ für alle }\theta \in \Theta_0</math>
hat, heißt ''multipler Test zum globalen Niveau α''.<ref>{{Literatur|Autor=Thorsten Dickhaus |Datum=2022 |Titel=Multiples Testen |Fundstelle=Def. 12.1, S. 11}}</ref>

=== Konstruktionsverfahren ===
Einen multiplen Test zum globalen Signifikanzniveau <math>\alpha</math> erhält man regelmäßig ''nicht'' dadurch, dass man die einzelnen Tests jeweils zum Niveau <math>\alpha</math> durchführt, das es dann zur [[Alphafehler-Kumulierung]] kommt, die im Extremfall dazu führt, dass das globale Niveau den Wert <math>\min\{1, k\cdot \alpha\} </math> hat.

Das Problem der Alphafehler-Kumulierung hat eine allgemeine Lösung in Form der [[Bonferroni-Korrektur]],
die für die Durchführung des einzelnen Tests das Niveau <math>\alpha_\mathrm{lokal} = \alpha/k</math> vorschreibt, wodurch das globale Niveau <math>\alpha</math> garantiert ist.

Unter bestimmten Voraussetzungen Situationen kann die [[Šidák-Korrektur]] angewendet werden, die zu einer Verbesserung gegenüber der [[Bonferroni-Korrektur]] führt, da das lokale Signifikanzniveau der Einzeltests weniger stark abgesenkt werden muss. Eine Voraussetzung ist die stochastische Unabhängigkeit der Tests, womit gemeint ist, dass die Teststatistiken der einzelnen Tests stochastisch unabhängig sind. Eine alternative Voraussetzung ist, dass die Teststatistiken eine gemeinsame multivariate Normalverteilung besitzen und die Abnahmebereiche Intervalle sind, die symmetrisch zum jeweiligen Erwartungswert sind.

Für einen multiplen Test zum globalen Niveau α ist die multiplen Fehlerwahrscheinlichkeit 1. Art für die Familie von Elementarhypothesen identisch mit der Fehlerwahrscheinlichkeit 1. Art des Tests der Globalhypothese, es gilt also
:<math> P_\theta( \{H_0\text{ wird abgelehnt}\} ) = \mathrm{FWER}_\theta\quad\text{für alle }\theta \in \Theta_0 \,.</math>

In Spezialfällen ist das Testen der Durchschnittshypothese auch ohne Verwendung der Einzeltests möglich. Beispiele sind Tests über einen Parametervektor, z. B. das Testen der [[Allgemeine lineare Hypothese|allgemeinen linearen Hypothese]] im [[Multiple lineare Regression|multiplen linearen Regressionsmodell]], die mit einer Teststatistik durchgeführt werden. Diesen Fall bezeichnet man im engeren Sinn nicht als multiples Testen, da es sich um einen Test für die Hypothese eines Parametervektors handelt, er wird allerdings dem Bereich der simultanen Inferenzverfahren zugeordnet.

=== Schwache und starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art ===
Die Reduktion des Test einer Familie von Hypothesen <math> H_1,\dots,H_k </math> auf den Test der Globalhypothese <math>H_0</math> mit Hilfe einzelner Tests ist eine mögliche Fragestellung, aber nicht die einzige und typische Behandlungsmöglichkeit multipler Tests.<ref>{{Literatur |Autor=Thorsten Dickhaus |Datum=2022 |Titel=Multiples Testen |Fundstelle=S. 11-12}}</ref>
Durch die Vorgabe eines globalen Signifikanzniveaus wird die multiple Fehlerwahrscheinlichkeit 1. Art nur eingeschränkt kontrolliert, da die Ungleichung <math>\mathrm{FWER}_\theta \leq \alpha </math> ''nur'' für alle <math> \theta \in \Theta_0 </math> gilt, man spricht daher auch von einer ''schwachen Kontrolle'' der multiplen Fehlerwahrscheinlichkeit 1. Art. Im Unterschied dazu liegt eine ''starke Kontrolle'' der multiplen Fehlerwahrscheinlichkeit 1. Art vor, falls
::<math>\mathrm{FWER}_\theta \leq\alpha\quad\text{ für alle }\theta \in \Theta</math>
gilt. Für multiple Test bei denen die Globalhypothese nicht von eigenständigem Interesse ist, ist die schwache Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art wenig sinnvoll. „Weak control is typically not very meaningful, and so when we refer to control of the FWER, we mean strong control.“<ref>{{Literatur |Autor=E. L. Lehmann, Joseph P. Romano |Titel=Testing Statistical Hypothesis |Datum=2022 |Fundstelle=S. 407}}</ref>

== Multiple Tests zu vorgegebenem multiplem Signifikanzniveau ==
Gegeben sei eine Familie von <math>k</math> Test mit den Nullhypothesen <math> H_j: \theta \in \Theta_j </math> für <math> j = 1,\ldots,k </math>, wobei <math> \emptyset \neq \Theta_j \subset \Theta </math> für <math>j = 1,\ldots, k</math> gilt. <!-- Die entsprechenden Gegenhypothesen sind <math> K_j: \theta \in \Theta \setminus \Theta_j </math>. -->

Wie oben definiert liegt ein multipler Fehler 1. Art vor, wenn mindestens ein Nullhypothese fälschlich verworfen wird. Wenn die multiple Fehlerwahrscheinlichkeit für alle <math> \theta \in \Theta</math> kontrolliert, d. h. durch eine vorgegebenes Signifikanzniveau nach oben beschränkt wird, nennt man dieses ein multiples Signifikanzniveau.

'''Definition:''' Ein simultaner Test der Nullhypothesen <math>H_1: \theta \in \Theta_1,\ldots, H_k \in \Theta_k</math> mit <!-- der jeweiligen Gegenhypothese <math> K_j \in \Theta \setminus \Theta_j </math> und --> der Eigenschaft
:<math> \mathrm{FWER}_\theta \leq \alpha \quad \text{für alle } \theta \in \Theta </math>
heißt ''multipler Test zum multiplen Signifikanzniveau α''.<ref>{{Literatur|Autor=Thorsten Dickhaus |Datum=2022 |Titel=Multiples Testen |Fundstelle=Def. 12.1, S. 12}}</ref>

Der entscheidende Unterschied zu einem Test zum globalen Niveau ist, das die Wahrscheinlichkeit fälschlicher Ablehnungen nicht nur für <math> \theta \in \Theta_0 </math>, sondern für alle <math> \theta \in \Theta </math> kontrolliert wird, wobei die fälschliche Ablehnung einer Nullhypothese nur für <math> \theta \in \bigcup_{j=1}^k \Theta_j \subseteq \Theta </math> möglich ist, da in <math>\Theta \setminus \bigcup_{j=1}^k \Theta_j </math> alle Nullhypothesen falsch sind.

=== Verfahren zur starken Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art ===
Ein allgemeine Methode, um einen multiplen Test zum multiplen Signifanzniveau <math> \alpha </math> zu erhalten, ist das [[Bonferroni-Korrektur|Bonferroni-Verfahren]], das darin besteht, für die Einzeltests die adjustierten Signifikanzniveaus <math> \alpha /k </math> vorzugeben. Mit diesem Vorgehen ist eine starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art gewährleistet.<ref>{{Literatur |Autor=E. L. Lehmann, Joseph P. Romano |Titel=Testing Statistical Hypothesis |Datum=2022 |Fundstelle=Theorem 9.1.1, S. 408}}</ref><ref>{{Literatur |Autor=Bernhard Rüger |Titel=Test- und Schätztheorie, Band II: Statistische Tests |Datum=2002 |Fundstelle= S. 3.33}}</ref><ref>{{Literatur|Autor=Thorsten Dickhaus |Datum=2022 |Titel=Multiples Testen |Fundstelle=Beispiel 1.24, S. 13}}</ref>
Es gibt zahlreiche Modifikationen und Verfeinerungen für bestimmte Anwendungsfälle oder für den Fall, dass bestimmte zusätzliche Voraussetzungen erfüllt sind.

Für stochastisch unabhängige Tests verlangt die [[Šidák-Korrektur]] die adjustierten Signifikanzniveaus <math>1 - (1 -\alpha)^{1/k} </math>, um die starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art zu gewährleisten.<ref>{{Literatur|Autor=Thorsten Dickhaus |Datum=2022 |Titel=Multiples Testen |Fundstelle=Beispiel 1.25, S. 13}}</ref>

Das Holm-Verfahren oder [[Bonferroni-Holm-Verfahren]] ist eine schrittweise Prozedur, die bei den einzelnen Schritten unterschiedliche Signifikanzniveaus verwendet.<ref>{{Literatur |Autor=E. L. Lehmann, Joseph P. Romano |Titel=Testing Statistical Hypothesis |Datum=2022 |Fundstelle=Theorem 9.1.2, S. 418}}</ref><ref>{{Literatur |Autor=Bernhard Rüger |Titel=Test- und Schätztheorie, Band II: Statistische Tests |Datum=2002 |Fundstelle=S. 337}}</ref>Unter der stark einschränkenden Voraussetzung der stochastischen Unabhängigkeit der Teststatistiken ergibt sich mit eine Verbesserung des Bonferrini-Holm-Verfahrens mit dem [[Siem-Hochberg-Verfahren]].<ref>{{Literatur |Autor=Bernhard Rüger |Titel=Test- und Schätztheorie, Band II: Statistische Tests |Datum=2002 |Fundstelle=S. 339}}</ref>

<!-- Bei bestimmten Formen der Abhängigkeit ist die Tong-Ungleichung anwendbar. -->

== Multiple Tests mit Beschränkung der erwarteten Fehlerquote der Ablehnungen ==
Eine alternative Idee das Konzept der Fehlerwahrscheinlichkeit 1. Art für einen einzelnen Test auf multiple Tests zu übertragen, den erwarteten Anteil fälschlich abgelehnter Nullhypothesen unter allen abgelehnten Nullhypothesen zu kontrollieren.<ref>{{Literatur|Autor=Thorsten Dickhaus |Datum=2022 |Titel=Multiples Testen |Fundstelle=Kap. 5}}</ref><ref>{{Literatur |Autor=E. L. Lehmann, Joseph P. Romano |Titel=Testing Statistical Hypothesis |Datum=2022 |Fundstelle=Abschnitt 9.3.2, S. 434ff}}</ref>

Zu einem fixierten multiplen Test mit vorgegebenem Signifikanzniveau <math> \alpha </math> und einem Parameter <math> \theta \in \Theta </math> bezeichne
<math >R(\theta) </math> die ''zufällige Anzahl abgelehnter Nullhypothesen'' und <math>V(\theta)</math> die ''zufällige Anzahl fälschlich abgelehnter Nullhypothesen''.<ref>{{Literatur|Autor=Thorsten Dickhaus |Datum=2022 |Titel=Multiples Testen |Fundstelle=S. 17}}</ref> Die Zufallsvariablen <math> R(\theta) </math> und <math> V(\theta) </math> nehmen Werte in einer Teilmenge von <math> \{0,1,\dots,k\} </math> an, wobei
:<math> 0 \leq V(\theta) \leq R(\theta) \leq k </math>
gilt und daher aus <math>R(\theta) = 0 </math> auch <math>V(\theta) = 0</math> folgt. Falls für den betrachteten Parameter alle Hypothesen richtig sind, kann <math> R(\theta) </math> alle Werte in <math> \{0,1,\dots,k\} </math> annehmen, falls für den betrachteten Parameter alle Nullhypothesen falsch sind, gilt <math> R(\theta) = V(\theta) = 0 </math>.

=== Fehlerquote der Ablehnungen ===
Zu einem bestimmten <math>\theta</math> bezeichnet die Zufallsvariable
: <math>\mathrm{FDP}_\theta = \begin{cases}\frac{V(\theta)}{R(\theta)},&\text{falls } R(\theta) > 0
\\ 0, &\text{falls } R(\theta) = 0
\end{cases}</math>
die zufällige ''Fehlerquote der Ablehnungen'' (englisch: ''false discovery proportion'', FDP).<ref>{{Literatur|Autor=Thorsten Dickhaus |Datum=2022 |Titel=Multiples Testen |Fundstelle=Def. 135, S. 19}}</ref> Die Fehlerquote der Ablehnungen ist der Anteil der fälschlich abgelehnten Nullhypothesen an allen abgelehnten Nullhypothesen.
Die Zufallsvariable <math>\mathrm{FDP}_\theta</math> hat eine diskrete Wahrscheinlichkeitsverteilung mit Werten in einer Teilmenge der Menge <math>\{0, 1/k,\dots, (k-1)/k, 1\}</math>.

=== Erwartete Fehlerquote der Ablehnungen ===
Der Erwartungswert der Zufallsvariablen <math>\mathrm{FDP}_\theta</math>,
:<math> \mathrm{FDR}_\theta = E_\theta(\mathrm{FDP}_\theta), </math>
ist die ''erwartete Fehlerquote der Ablehnungen'' (englisch: ''false discovery rate'', FDR).<ref>{{Literatur|Autor=Thorsten Dickhaus |Datum=2022 |Titel=Multiples Testen |Fundstelle=S. 19}}</ref>
Die erwartete Fehlerquote der Ablehnungen ist im Fall <math>k=1</math> die Wahrscheinlichkeit, die einzige Nullhypothese fälschlich abzulehnen, und damit die Fehlerwahrscheinlichkeit 1. Art. Somit ist die erwartete Fehlerquote der Ablehnungen eine Verallgemeinerung des Konzeptes der Fehlerwahrscheinlichkeit 1. Art für multiple Test.

Die erwartete Fehlerquote der Ablehnungen ist durch die multiple Fehlerwahrscheinlichkeit 1. Art nach oben beschränkt, es gilt also
:<math> \mathrm{FDR}_\theta \leq \mathrm{FWER}_\theta\quad\text{für alle } \theta \in \Theta \;,</math>
wobei im Allgemeinen das strikte Ungleichheitszeichen gilt.<ref>{{Literatur|Autor=Thorsten Dickhaus |Datum=2022 |Titel=Multiples Testen |Fundstelle=Lemma 5.2, S. 61}}</ref> Die Anforderungen für eine Kontrolle von <math>\mathrm{FDR}_\theta </math> durch eine Oberschranke sind also im Allgemeinen schwächer als die für die Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art. Die Kontrolle der multiplen Fehlerwahrscheinlichkeit erster Art durch ein vorgegebenes Niveau <math> \alpha </math> impliziert also die Kontrolle der erwarteten Fehlerquote der Ablehnungen.

=== Verfahren zur Kontrolle der erwarteten Fehlerquote der Ablehnungen ===
Eine Methode zur Kontrolle der erwarteten Fehlerquote der Ablehnungen ist das [[Benjamini-Hochberg-Verfahren]]<ref>{{Literatur |Autor=E. L. Lehmann, Joseph P. Romano |Titel=Testing Statistical Hypothesis |Datum=2022 |Fundstelle=Theorem 9.3.1, S. 435}}</ref><ref>{{Literatur |Autor=Yoav Benjamini, Yosef Hochberg |Titel=Controlling the false discovery rate: a practical and powerful approach to multiple testing |Sammelwerk=Journal of the Royal Statistical Society Series B |Datum=1995 |Band=57 |Seiten=289–300 |Online=http://www.math.tau.ac.il/~ybenja/MyPapers/benjamini_hochberg1995.pdf}}</ref>, das allerdings die stochastische Unabhängigkeit der ''p''-Werte voraussetzt. Es gibt eine Verallgemeinerung für eine bestimmte Art der positiven Abhängigkeit.<ref>{{Literatur |Autor=E. L. Lehmann, Joseph P. Romano |Titel=Testing Statistical Hypothesis |Datum=2022 |Fundstelle=Theorem 9.3.2, S. 437}}</ref><ref>{{Literatur |Autor=Yoav Benjamini, D. Yekutieli |Titel=The control of the false discovery rate in multiple testing under dependency |Sammelwerk=Annals of Statistics |Datum=2001 |Band=28 |Seiten=1165–1189}}</ref>

== Güteeigenschaften multipler Tests ==
Typischerweise ist ein Hauptkriterium statistischer Tests die Beschränkung der Fehlerwahrscheinlichkeit 1. Art.
Bei multiplen Tests ergeben sich die Gütekriterien der ''Kohärenz''<ref name="Rue1">{{Literatur |Autor=Bernhard Rüger |Titel=Test- und Schätztheorie, Band II: Statistische Tests |Datum=2002 |Fundstelle=S. 327}}</ref> und ''Konsonanz''<ref name="Rue1" /> aus der Eigenschaft, dass die betrachteten Nullhypothesen geschachtelt sein können, also z. B. <math>\Theta_1 \subset \Theta_2</math> gilt. Beispielweise bedeutet dann die Kohärenz eines multiplen Testverfahrens, dass aus der Ablehnung von <math> H_2: \theta \in \Theta_2 </math> auch die Ablehnung von <math> H_1: \theta \in \Theta_1 </math> folgt. „Diese Eigenschaft ist aus logischen Gründen für einen multiplen Test unverzichtbar“<ref name="Rue1" />.
Die Konsonanz eines Testverfahrens bedeutet im Fall einer Familie von drei Hypothensen mit <math>\Theta_1 \subset \Theta_3</math> und <math>\Theta_2 \subset \Theta_3</math>, dass dann, wenn <math> H_3: \theta \in \Theta_3 </math> abgelehnt wird, auch mindestens eine der stärkeren Hypothesen <math> H_1: \theta \in \Theta_1 </math> und <math> H_2: \theta \in \Theta_3 </math> abgelehnt wird. „Diese Eigenschaft für einen multiplen Test nur wünschenswert, aber nicht unbedingt erforderlich unverzichtbar“<ref name="Rue1" />.

Für bestimmte mehrstufige Testverfahren ist es wichtig, dass die Familie der Hypothesen eine gewisse ''Abgeschlossenheit'' hat, diese bedeutet z. B., dass dann, wenn für zwei Hypothesen <math>H_1: \theta \in \Theta_1</math> und <math>H_2: \theta \in \Theta_2</math> die Menge <math>\Theta_1 \cap \Theta_2</math> nicht-leer ist, auch die Hypothese <math>H: \theta \in \Theta_1 \cap \Theta_2 </math> in der Hypothesenfamilie enthalten ist.<ref name="Rue1" />

Es gibt Verallgemeinerungen des Konzeptes der Fehlerwahrscheinlichkeit 2. Art und damit der Konzepte der [[Trennschärfe eines Tests |Trennschärfe]] oder Macht eines Tests für multiple Tests.<ref>{{Literatur|Autor=Thorsten Dickhaus |Datum=2022 |Titel=Multiples Testen |Fundstelle=S. 19}}</ref>
<!--
=== Durchschnitts- versus Vereinigungshypothese ===
Bei einem einzelnen Test mit der [[parametrischen Nullhypothese]] <math> H_0: \theta \in \Theta_0 </math> liegt eine [[einfache Nullhypothese]] vor, falls die Parametermenge <math> \Theta_0 </math> einelementig ist, und eine [[zusammengesetzte Nullhypothese]], falls die Parametermenge <math> \Theta_0 </math> mehrere Elemente enthält. Eine einfache Nullhypothese ist beispielsweise <math> H_0: \theta = \theta_0</math> und eine zusammengesetzte Nullhypothese ist beispielsweise <math> H_0: \theta \leq \theta_0 </math> jeweils mit einem spezifizierten Parameterwert <math> \theta_0 </math>. Im ersten Fall ist <math> \Theta_0 = \{\theta_0\} </math>, im zweiten Fall ist
:<math>\Theta_0 = (-\infty,\theta_0] = \bigcup_{\theta \in (-\infty,\theta_0]}{\{ \theta \}}\;. </math>
Eine zusammengesetzte Nullhypothese ist also immer als Vereinigungshypothese mit einelementigen Parametermengen darstellbar. Typischerweise, aber nicht immer, kann der Test einer zusammengesetzten Nullhypothese der Form <math> H_0: \theta \leq \theta_0 </math> durch den einseitigen Test der einfachen <math> H_0: \theta = \theta_0 </math> bzgl. der Gegenhypothese <math> H_0: \theta > \theta_0 </math> erfolgen. Damit dieses Vorgehen zulässig ist, müssen bestimmte Monotonieeigenschaften erfüllt sein, die beispielsweise durch das [[Karlin-Rubin-Theorem]] beschrieben sind.
-->

== Literatur ==
* {{Literatur |Autor=Ralf Bender, St. Lange, A. Ziegler |Titel=Multiples Testen |TitelErg=Artikel Nr. 12 der Statistik-Serie in DMW |Sammelwerk=Deutsche Medizinische Wochenschrift |Datum=2002 |Band=127 |Seiten=T4–T7 |Online=https://www.thieme-connect.de/products/ejournals/pdf/10.1055/s-2002-32816.pdf}}
* {{Literatur |Autor=Jason C. Hsu |Titel=Multiple Comparisons – Theory and Methods |Verlag=Chapman and Hall |Ort=London |Datum=1996 |ISBN=9780412982811 |DOI=10.1201/b15074 |Kommentar=E-Book-ISBN 9780429170874}}
* {{Literatur |Autor=Thorsten Dickhaus |Titel=Multiples Testen – Skript zur Lehrveranstaltung |Hrsg=Universität Bremen, Institut für Statistik |Ort=Bremen |Datum=2022 |Online=http://www.math.uni-bremen.de/~dickhaus/downloads/skript-multiple-tests-SoSe2022.pdf |Abruf=2023-01-11 |Kommentar=Version: 8. April 2022}}
* {{Literatur |Autor=Alexei Dimitrenko, Jason C. Hsu |Titel=Multiple Testing in Clinical Trials |Sammelwerk=Encyclopedia of Statistical Sciences |Hrsg=[[Samuel Kotz]] et al. |Verlag=Wiley |Ort=New York |Datum=2006 |Seiten=5111–5117 |ISBN=978-0-471-15044-2 |Auflage=2 |DOI=10.1002/0471667196}}
* {{Literatur |Autor=[[Erich Leo Lehmann|E. L. Lehmann]], Joseph P. Romano |Titel=Testing Statistical Hypothesis |Auflage=4 |Verlag=Springer |Ort=Cham |Datum=2022 |ISBN=978-3-030-70577-0 |DOI=10.1007/978-3-030-70578-7 |Fundstelle=Chapter 9: Multiple Testing and Simultaneous Inference |Kommentar=E-Book-ISBN 978-3-030-70578-7}}
* {{Literatur |Autor=Bernhard Rüger |Titel=Test- und Schätztheorie, Band II: Statistische Tests |Verlag=Oldenbourg |Ort=München |Datum=2002 |ISBN=3-486-25130-9 |Fundstelle= Abschnitt 3.3.7: Multiple Testverfahren}}
* {{Literatur |Titel=Handbook of Multiple Comparisons |Hrsg=Xinping Ciu, Thorsten Dickhaus, Ying Ding, Jason C. Hsu |Verlag=Chapman and Hall/CRC |Ort=Boca Raton |Datum=2021 |ISBN=978-0-367-14067-0| DOI=10.1201/9780429030888 |Kommentar=E-Book-ISBN: 978-0-429-03088-8}}

== Weblinks ==
== Einzelnachweise und Anmerkungen ==
<references />
[[Kategorie:Testtheorie]]
[[Kategorie:Statistischer Fehler]]

Version vom 4. Februar 2023, 18:47 Uhr

Multiples Testen bezeichnet Verfahren der statistischen Testtheorie, bei denen mehrere statistische Tests simultan durchgeführt werden.

Überblick über Verfahren des multiplen Testens

Unter dem Begriff multiples Testen werden verschiedene Verfahren zusammengefasst, bei denen eine – in der Regel endliche – Anzahl von statistischen Tests simultan durchgeführt wird. Es können drei Gruppen unterschieden werden, die das Konzept des Fehlers 1. Art, das ist die fälschliche Ablehnung einer Nullhypothese, auf unterschiedliche Art für mehrere Test verallgemeinern. Wenn mindestens eine Nullhypothese fälschlich abgelehnt wird, liegt ein multipler Fehler 1. Art vor.

Multiple Tests mit vorgegebenem globalem Signifikanzniveau

Für eine Familie von Nullhypothesen wird die Wahrscheinlichkeit, dass mindestens eine Nullhypothese abgelehnt wird, falls alle Nullhypothesen richtig sind, kontrolliert, d.h. durch ein vorgegebenes Signifikanzniveau nach oben beschränkt. In diesem Fall heißt das Signifikanzniveau globales Signifikanzniveau. Diese erste Gruppe von Verfahren testet mit Hilfe der Einzeltests eine Globalhypothese, die als Durchschnitt der einzelnen Nullhypothesen definiert ist.

Multiple Tests mit vorgegebenem multiplem Signifikanzniveau

Bei dieser Gruppe multipler Testverfahren wird für eine Familie von Nullhypothesen die Wahrscheinlichkeit, dass mindestens eine Nullhypothese fälschlich abgelehnt wird, kontrolliert, d. h. durch ein Signifikanzniveau , das dann multiples Signifikanzniveau heißt, nach oben beschränkt.

Multiple Tests mit Beschränkung der erwarteten Fehlerquote der Ablehnungen

Bei dieser Gruppe von Testverfahren wird die erwartete Fehlerquote der Ablehnungen (englisch: false discovery rate, FDR), das ist der erwartete Anteil fälschlicher Ablehnungen von Nullhypothesen unter allen abgelehnten Nullhypothesen, kontrolliert.[1][2]

Grundbegriffe

Gegeben sei eine Familie von Test mit den Nullhypothesen für , wobei für gilt. Die entsprechenden Gegenhypothesen sind für . Eine simultane Durchführung der Tests wird multipler Test genannt. Bei der Durchführung eines multiplen Tests sind mehrere Testergebnisse möglich: es wird keine Nullhypothese abgelehnt oder es wird mindestens eine der Nullhypothesen abgelehnt. Im Extremfall werden alle Nullhypothesen abgelehnt.

Definition: Ein multipler Test, bei dem jeder Einzeltest das Signifikanzniveu einhält, für den also

gilt, heißt multipler Test zum lokalen Signifikanzniveau .

Ein multipler Test zum lokalen Signifikanzniveau kontrolliert zwar die Fehlerwahrscheinlichkeiten 1. Art für jeden Einzeltests, indem diese durch nach oben beschränkt werden. Die Wahrscheinlichkeit für die fälschliche Ablehnung einer oder mehrerer der Nullhypothese beim simultanen Testen wird aber nur teilweise kontrolliert.

Definition: Für einen simultanen Test mehrerer Nullhypothesen heißt das Testergebnis „Mindestens eine Nullhypothese wird fälschlich abgelehnt“ multipler Fehler 1. Art.[3] Die Wahrscheinlichkeit, dass ein multipler Fehler 1. Art begangen wird, heißt multiple Fehlerwahrscheinlichkeit 1. Art (engl.: family-wise error rate, FWER)[4] oder versuchsbezogene Irrtumswahrscheinlichkeit[5] (engl.: experimentwise error rate).

Die multiple Fehlerwahrscheinlichkeit erster Art hängt vom Parameter ab und wird im Folgenden – wie auch meistens in der deutschsprachigen Fachliteratur – der englischen Bezeichnung folgend, mit bezeichnet. Für einen multiplen Test zum lokalen Signifikanzniveau sind die Wahrscheinlichkeiten nicht durch nach oben beschränkt. Es gilt[6] lediglich die Ungleichung

die aber für größere nicht zu einer praktikablen Beschränkung führt. Z. B. für wird für für die obere Schranke der Wert Eins erreicht. Diese Problematik wird auch mit dem Begriff Alphafehler-Kumulierung bezeichnet und motiviert Verfahren zur Kontrolle des multiplen Fehlers 1. Art.

Multiple Tests zu vorgegebenem globalem Signifikanzniveau

Test einer Durchschnittshypothese

Zu einer Familie von Nullhypothesen mit für sei

eine nicht-leere Teilmenge von . Dann heißt die Durchschnittshypothese

Globalhypothese und die einzelnen Nullhypothesen heißen in diesem Zusammenhang Elementarhypothesen.[7] Die Globalhypothese ist falsch, wenn mindestens eine der Hypothesen falsch ist. Ein Test der Globalhypothese kann daher durch simultane Tests der Elementarhypothesen erfolgen, wobei abgelehnt wird, falls mindestens eine der Hypothesen abgelehnt wird.

Definition: Ein simultaner Test der Nullhypothesen mit , der zu einem vorgegebenen Signifikanzniveau die Eigenschaft

hat, heißt multipler Test zum globalen Niveau α.[8]

Konstruktionsverfahren

Einen multiplen Test zum globalen Signifikanzniveau erhält man regelmäßig nicht dadurch, dass man die einzelnen Tests jeweils zum Niveau durchführt, das es dann zur Alphafehler-Kumulierung kommt, die im Extremfall dazu führt, dass das globale Niveau den Wert hat.

Das Problem der Alphafehler-Kumulierung hat eine allgemeine Lösung in Form der Bonferroni-Korrektur, die für die Durchführung des einzelnen Tests das Niveau vorschreibt, wodurch das globale Niveau garantiert ist.

Unter bestimmten Voraussetzungen Situationen kann die Šidák-Korrektur angewendet werden, die zu einer Verbesserung gegenüber der Bonferroni-Korrektur führt, da das lokale Signifikanzniveau der Einzeltests weniger stark abgesenkt werden muss. Eine Voraussetzung ist die stochastische Unabhängigkeit der Tests, womit gemeint ist, dass die Teststatistiken der einzelnen Tests stochastisch unabhängig sind. Eine alternative Voraussetzung ist, dass die Teststatistiken eine gemeinsame multivariate Normalverteilung besitzen und die Abnahmebereiche Intervalle sind, die symmetrisch zum jeweiligen Erwartungswert sind.

Für einen multiplen Test zum globalen Niveau α ist die multiplen Fehlerwahrscheinlichkeit 1. Art für die Familie von Elementarhypothesen identisch mit der Fehlerwahrscheinlichkeit 1. Art des Tests der Globalhypothese, es gilt also

In Spezialfällen ist das Testen der Durchschnittshypothese auch ohne Verwendung der Einzeltests möglich. Beispiele sind Tests über einen Parametervektor, z. B. das Testen der allgemeinen linearen Hypothese im multiplen linearen Regressionsmodell, die mit einer Teststatistik durchgeführt werden. Diesen Fall bezeichnet man im engeren Sinn nicht als multiples Testen, da es sich um einen Test für die Hypothese eines Parametervektors handelt, er wird allerdings dem Bereich der simultanen Inferenzverfahren zugeordnet.

Schwache und starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art

Die Reduktion des Test einer Familie von Hypothesen auf den Test der Globalhypothese mit Hilfe einzelner Tests ist eine mögliche Fragestellung, aber nicht die einzige und typische Behandlungsmöglichkeit multipler Tests.[9] Durch die Vorgabe eines globalen Signifikanzniveaus wird die multiple Fehlerwahrscheinlichkeit 1. Art nur eingeschränkt kontrolliert, da die Ungleichung nur für alle gilt, man spricht daher auch von einer schwachen Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art. Im Unterschied dazu liegt eine starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art vor, falls

gilt. Für multiple Test bei denen die Globalhypothese nicht von eigenständigem Interesse ist, ist die schwache Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art wenig sinnvoll. „Weak control is typically not very meaningful, and so when we refer to control of the FWER, we mean strong control.“[10]

Multiple Tests zu vorgegebenem multiplem Signifikanzniveau

Gegeben sei eine Familie von Test mit den Nullhypothesen für , wobei für gilt.

Wie oben definiert liegt ein multipler Fehler 1. Art vor, wenn mindestens ein Nullhypothese fälschlich verworfen wird. Wenn die multiple Fehlerwahrscheinlichkeit für alle kontrolliert, d. h. durch eine vorgegebenes Signifikanzniveau nach oben beschränkt wird, nennt man dieses ein multiples Signifikanzniveau.

Definition: Ein simultaner Test der Nullhypothesen mit der Eigenschaft

heißt multipler Test zum multiplen Signifikanzniveau α.[11]

Der entscheidende Unterschied zu einem Test zum globalen Niveau ist, das die Wahrscheinlichkeit fälschlicher Ablehnungen nicht nur für , sondern für alle kontrolliert wird, wobei die fälschliche Ablehnung einer Nullhypothese nur für möglich ist, da in alle Nullhypothesen falsch sind.

Verfahren zur starken Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art

Ein allgemeine Methode, um einen multiplen Test zum multiplen Signifanzniveau zu erhalten, ist das Bonferroni-Verfahren, das darin besteht, für die Einzeltests die adjustierten Signifikanzniveaus vorzugeben. Mit diesem Vorgehen ist eine starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art gewährleistet.[12][13][14] Es gibt zahlreiche Modifikationen und Verfeinerungen für bestimmte Anwendungsfälle oder für den Fall, dass bestimmte zusätzliche Voraussetzungen erfüllt sind.

Für stochastisch unabhängige Tests verlangt die Šidák-Korrektur die adjustierten Signifikanzniveaus , um die starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art zu gewährleisten.[15]

Das Holm-Verfahren oder Bonferroni-Holm-Verfahren ist eine schrittweise Prozedur, die bei den einzelnen Schritten unterschiedliche Signifikanzniveaus verwendet.[16][17]Unter der stark einschränkenden Voraussetzung der stochastischen Unabhängigkeit der Teststatistiken ergibt sich mit eine Verbesserung des Bonferrini-Holm-Verfahrens mit dem Siem-Hochberg-Verfahren.[18]


Multiple Tests mit Beschränkung der erwarteten Fehlerquote der Ablehnungen

Eine alternative Idee das Konzept der Fehlerwahrscheinlichkeit 1. Art für einen einzelnen Test auf multiple Tests zu übertragen, den erwarteten Anteil fälschlich abgelehnter Nullhypothesen unter allen abgelehnten Nullhypothesen zu kontrollieren.[19][20]

Zu einem fixierten multiplen Test mit vorgegebenem Signifikanzniveau und einem Parameter bezeichne die zufällige Anzahl abgelehnter Nullhypothesen und die zufällige Anzahl fälschlich abgelehnter Nullhypothesen.[21] Die Zufallsvariablen und nehmen Werte in einer Teilmenge von an, wobei

gilt und daher aus auch folgt. Falls für den betrachteten Parameter alle Hypothesen richtig sind, kann alle Werte in annehmen, falls für den betrachteten Parameter alle Nullhypothesen falsch sind, gilt .

Fehlerquote der Ablehnungen

Zu einem bestimmten bezeichnet die Zufallsvariable

die zufällige Fehlerquote der Ablehnungen (englisch: false discovery proportion, FDP).[22] Die Fehlerquote der Ablehnungen ist der Anteil der fälschlich abgelehnten Nullhypothesen an allen abgelehnten Nullhypothesen. Die Zufallsvariable hat eine diskrete Wahrscheinlichkeitsverteilung mit Werten in einer Teilmenge der Menge .

Erwartete Fehlerquote der Ablehnungen

Der Erwartungswert der Zufallsvariablen ,

ist die erwartete Fehlerquote der Ablehnungen (englisch: false discovery rate, FDR).[23]

Die erwartete Fehlerquote der Ablehnungen ist im Fall die Wahrscheinlichkeit, die einzige Nullhypothese fälschlich abzulehnen, und damit die Fehlerwahrscheinlichkeit 1. Art. Somit ist die erwartete Fehlerquote der Ablehnungen eine Verallgemeinerung des Konzeptes der Fehlerwahrscheinlichkeit 1. Art für multiple Test.

Die erwartete Fehlerquote der Ablehnungen ist durch die multiple Fehlerwahrscheinlichkeit 1. Art nach oben beschränkt, es gilt also

wobei im Allgemeinen das strikte Ungleichheitszeichen gilt.[24] Die Anforderungen für eine Kontrolle von durch eine Oberschranke sind also im Allgemeinen schwächer als die für die Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art. Die Kontrolle der multiplen Fehlerwahrscheinlichkeit erster Art durch ein vorgegebenes Niveau impliziert also die Kontrolle der erwarteten Fehlerquote der Ablehnungen.

Verfahren zur Kontrolle der erwarteten Fehlerquote der Ablehnungen

Eine Methode zur Kontrolle der erwarteten Fehlerquote der Ablehnungen ist das Benjamini-Hochberg-Verfahren[25][26], das allerdings die stochastische Unabhängigkeit der p-Werte voraussetzt. Es gibt eine Verallgemeinerung für eine bestimmte Art der positiven Abhängigkeit.[27][28]

Güteeigenschaften multipler Tests

Typischerweise ist ein Hauptkriterium statistischer Tests die Beschränkung der Fehlerwahrscheinlichkeit 1. Art. Bei multiplen Tests ergeben sich die Gütekriterien der Kohärenz[29] und Konsonanz[29] aus der Eigenschaft, dass die betrachteten Nullhypothesen geschachtelt sein können, also z. B. gilt. Beispielweise bedeutet dann die Kohärenz eines multiplen Testverfahrens, dass aus der Ablehnung von auch die Ablehnung von folgt. „Diese Eigenschaft ist aus logischen Gründen für einen multiplen Test unverzichtbar“[29]. Die Konsonanz eines Testverfahrens bedeutet im Fall einer Familie von drei Hypothensen mit und , dass dann, wenn abgelehnt wird, auch mindestens eine der stärkeren Hypothesen und abgelehnt wird. „Diese Eigenschaft für einen multiplen Test nur wünschenswert, aber nicht unbedingt erforderlich unverzichtbar“[29].

Für bestimmte mehrstufige Testverfahren ist es wichtig, dass die Familie der Hypothesen eine gewisse Abgeschlossenheit hat, diese bedeutet z. B., dass dann, wenn für zwei Hypothesen und die Menge nicht-leer ist, auch die Hypothese in der Hypothesenfamilie enthalten ist.[29]

Es gibt Verallgemeinerungen des Konzeptes der Fehlerwahrscheinlichkeit 2. Art und damit der Konzepte der Trennschärfe oder Macht eines Tests für multiple Tests.[30]

Literatur

Einzelnachweise und Anmerkungen

  1. Thorsten Dickhaus: Multiples Testen. 2022, Kap. 5.
  2. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Abschnitt 9.3.2, S. 434ff.
  3. Thorsten Dickhaus: Multiples Testen. 2022, Def. 12.1, S. 12.
  4. Der englische Begriff family-wise error rate für die multiple Fehlerwahrscheinlichkeit 1. Art hat keine direkt entsprechende deutsche Übersetzung gefunden. Insbesondere wäre eine wörtliche Übersetzung irreführend, da im Deutschen 'Rate' im Allgemeinen eine zeitlichen Bezug hat und nicht für eine Wahrscheinlichkeit benutzt wird.
  5. Ralf Bender, St. Lange, A. Ziegler: Multiples Testen. Artikel Nr. 12 der Statistik-Serie in DMW. In: Deutsche Medizinische Wochenschrift. Band 127, 2002, S. T4–T7 (thieme-connect.de [PDF]).
  6. bezeichne für jedes die Menge der wahren Nullhypothesen und bezeichne das Ereignis „ wird abgelehnt“. Dann ist das Ereignis, dass mindestens eine Nullhypothese fälschlich abgelehnt wird. Es gilt
  7. Thorsten Dickhaus: Multiples Testen. 2022, S. 7.
  8. Thorsten Dickhaus: Multiples Testen. 2022, Def. 12.1, S. 11.
  9. Thorsten Dickhaus: Multiples Testen. 2022, S. 11-12.
  10. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, S. 407.
  11. Thorsten Dickhaus: Multiples Testen. 2022, Def. 12.1, S. 12.
  12. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Theorem 9.1.1, S. 408.
  13. Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 3.33.
  14. Thorsten Dickhaus: Multiples Testen. 2022, Beispiel 1.24, S. 13.
  15. Thorsten Dickhaus: Multiples Testen. 2022, Beispiel 1.25, S. 13.
  16. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Theorem 9.1.2, S. 418.
  17. Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 337.
  18. Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 339.
  19. Thorsten Dickhaus: Multiples Testen. 2022, Kap. 5.
  20. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Abschnitt 9.3.2, S. 434ff.
  21. Thorsten Dickhaus: Multiples Testen. 2022, S. 17.
  22. Thorsten Dickhaus: Multiples Testen. 2022, Def. 135, S. 19.
  23. Thorsten Dickhaus: Multiples Testen. 2022, S. 19.
  24. Thorsten Dickhaus: Multiples Testen. 2022, Lemma 5.2, S. 61.
  25. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Theorem 9.3.1, S. 435.
  26. Yoav Benjamini, Yosef Hochberg: Controlling the false discovery rate: a practical and powerful approach to multiple testing. In: Journal of the Royal Statistical Society Series B. Band 57, 1995, S. 289–300 (tau.ac.il [PDF]).
  27. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Theorem 9.3.2, S. 437.
  28. Yoav Benjamini, D. Yekutieli: The control of the false discovery rate in multiple testing under dependency. In: Annals of Statistics. Band 28, 2001, S. 1165–1189.
  29. a b c d e Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 327.
  30. Thorsten Dickhaus: Multiples Testen. 2022, S. 19.