„Teststatistik“ – Versionsunterschied

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
[gesichtete Version][gesichtete Version]
Inhalt gelöscht Inhalt hinzugefügt
Grundlegend renoviert, - Belege-Baustein
Zeile 1: Zeile 1:
Eine '''Teststatistik''', auch '''Prüfgröße''',<ref name="Tschirk67" /> '''Testgröße'''<ref name="Bosch178" /> oder '''Prüffunktion''' genannt, ist eine spezielle [[reellwertige Funktion]] in der [[Testtheorie (Statistik)|Testtheorie]], einem Teilgebiet der [[mathematische Statistik|mathematischen Statistik]]. Teststatistiken werden als Hilfsfunktionen bei der Definition von [[Statistischer Test|statistischen Tests]] verwendet. So wird Beispielsweise bei einem [[Hypothesentest]] die [[Nullhypothese]] abgelehnt, wenn die Teststatistik über oder unter einem vorher festgelegten Zahlenwert liegt.
{{Belege}}
Als '''Teststatistik''' (synonyme Begriffe: '''Testgröße''', '''Prüfgröße''', '''Prüffunktion''') bezeichnet man in der [[Mathematische Statistik|mathematischen Statistik]] eine bestimmte [[Stichprobenfunktion]], die bei einem [[Statistischer Test|Hypothesentest]] dazu verwendet wird, die Testentscheidung – also Ablehnen oder Nichtablehnen der [[Nullhypothese]] – zu treffen.


== Definition ==
Als ''Prüfwert'' wird die Realisation einer Teststatistik anhand einer [[Stichprobe]] bezeichnet.
Gegeben sei eine Funktion
:<math> T \colon \mathcal X \to \R </math>


sowie ein [[statistischer Test]]
== Verwendung bei festem Signifikanzniveau ==
:<math> \varphi \colon \mathcal X \to [0,1] </math>,
Vor der Durchführung des Tests, das heißt auch vor der Ziehung der hierzu benötigten [[Stichprobe]], ist die Teststatistik <math>T</math> eine [[Zufallsvariable]], deren [[Wahrscheinlichkeitsverteilung]] von jener der Stichprobenvariablen <math>X_1, X_2, \dotsc, X_n</math> abhängt, wobei <math>n</math> der Stichprobenumfang ist. Unter der Annahme, dass die Nullhypothese (<math>H_0</math>) richtig ist, wird für die Verteilung der Teststatistik je nach Testverfahren ein bestimmtes Verteilungsmodell angenommen, dessen [[Parameter (Statistik)|Verteilungsparameter]] sich aus der Nullhypothese ergeben. Anhand dieser angenommenen Verteilung sowie des zuvor festgelegten [[Signifikanzniveau]]s wird zugleich der [[Ablehnbereich]] bestimmt. Nun wird die Stichprobe gezogen und aus den sich dabei ergebenden Stichprobenwerten der konkrete Wert <math>t</math> der Teststatistik errechnet. Zur Ablehnung der Nullhypothese kommt es genau dann, wenn <math>t</math> in den Ablehnbereich fällt; anderenfalls wird unter dem verwendeten Signifikanzniveau die Nullhypothese beibehalten. Wenn nämlich die Nullhypothese gilt und damit die unterstellte Verteilung der Teststatistik als richtig angenommen werden kann, entspricht die [[Wahrscheinlichkeit]], dass die Testgröße in den Ablehnbereich fällt und somit die Nullhypothese fälschlich abgelehnt wird (sogenannter [[Fehler 1. Art]]), genau dem festgelegten Signifikanzniveau. Das Fallen der Testgröße in den Ablehnbereich ist gleichbedeutend mit der (je nach Testproblem) Über- bzw. Unterschreitung eines bestimmten Schwellenwertes, der auch als „Kritischer Wert“ bezeichnet wird.


der definiert ist durch
== Verwendung mit ''p''-Wert ==
:<math> \varphi(X)=\begin{cases} 1 & \text{ falls } T(X) > k \\ 0 & \text{ falls } T(X) \leq k \end{cases} </math>.
Eine alternative, heutzutage in vielen statistischen Softwareanwendungen übliche Vorgehensweise besteht darin, anstatt sich vorher auf eine bestimmte Wahrscheinlichkeit für den Fehler 1. Art festzulegen, die Testentscheidung durch Berechnung des sogenannten [[p-Wert|''p''-Wertes]] zu treffen. In diesem Fall wird die Stichprobe ohne vorherige Festlegung des Signifikanzniveaus gezogen und der Wert <math>t</math> der Teststatistik anschließend berechnet. Je nachdem, in welchen Bereich der für <math>T</math> angenommenen Verteilung er fällt, ergibt sich ein <math>p</math>-Wert, der umso stärker die Ablehnung der Nullhypothese „signalisiert“, je kleiner er ist (aus diesem Grund interpretiert man den p-Wert auch als Maß für die „Signifikanz“ der Nullhypothese). Somit wird bei dieser Vorgehensweise, im Gegensatz zu der oben beschriebenen „klassischen“ Methode, nicht der Wert der Teststatistik selbst zur Testentscheidung herangezogen, sondern der aus ihm ermittelte <math>p</math>-Wert.


Hierbei ist <math> k </math> eine feste Zahl, die auch der [[Kritischer Wert (Statistik)|kritische Wert]] genannt wird. Dann wird die Funktion <math> T </math> eine Teststatistik genannt.
== Beispiele für Teststatistiken ==

* Beim [[t-Test]] über einen [[Erwartungswert]] ist die Teststatistik wie folgt definiert:
Die Definition gilt ebenso für [[randomisierter Test|randomisierte Tests]] sowie Varianten der obigen Definition des Tests. Dazu gehört unter anderem das Vertauschen oder Abändern von Ungleichheitszeichen und Vertauschen von null und eins.
::<math>T=\frac{\bar{X}-\mu_{0}} {\sqrt{S^*}} \sqrt{n}</math>

:mit <math>\bar{X}</math> = Stichprobenmittelwert, <math>\mu_{0}</math> = laut Nullhypothese angenommener exakter Wert bzw. Obergrenze bzw. Untergrenze für den Erwartungswert <math>\mu</math>, <math>S^*</math> = [[korrigierte Stichprobenvarianz]].
== Beispiele ==
:Unter <math>H_0</math> ist beim t-Test über einen Erwartungswert die Teststatistik [[T-Verteilung|t-verteilt]] mit <math>n-1</math> Freiheitsgraden.
Unter Verwendung der Abkürzung
:<math> \overline X = \frac 1n \left(X_1+X_2+ \dots + X_n \right) </math>
für das [[Stichprobenmittel]] ist eine typische Teststatistik auf <math> \mathcal X =\R^n </math> gegeben durch
:<math> T(X)= \frac{\overline X - \mu}{\sigma} </math>

Hierbei ist <math> \sigma </math> eine positive Zahl und <math> \mu </math> eine beliebige reelle Zahl. Diese Teststatistik findet beispielsweise bei den [[Gauß-Test]]s Anwendung. Dabei wird ausgenutzt, dass die Teststatistik [[Standardnormalverteilung|standardnormalverteilt]] ist, d.h. <math> T \sim \mathcal N(0,1) </math>, wenn die [[Stichprobenvariable]]n <math> X_1, X_2, \dots, X_n </math> normalverteilt sind mit Erwartungswert <math> \mu </math> und Varianz <math> \sigma^2 </math>.<ref name="Rüschendorf195" />

Bezeichnet man mit
:<math> V^*(X)= \frac{1}{n-1} \sum_{i=1}^n (X_i-\overline X )^2</math>

die [[korrigierte Stichprobenvarianz]], so ist eine weitere wichtige Teststatistik auf <math> \mathcal X =\R^n </math> gegeben durch
:<math> T(X)= \sqrt n \cdot \frac{\overline X-\mu}{\sqrt{V^*(X)}} </math>.

Hierbei ist wieder <math> \mu </math> eine beliebige reelle Zahl. Diese Teststatistik findet bei dem [[Einstichproben-t-Test]] Anwendung. Dabei wird ähnlich zum obigen Beispiel ausgenutzt, dass wenn die Stichprobenvariablen normalverteilt sind mit Varianz <math> \sigma^2 </math> und Mittelwert <math> \mu </math>, die Teststatistik [[Studentsche t-Verteilung|t-verteilt]] ist mit <math> n-1 </math> Freiheitsgraden. Es gilt dann <math> T \sim \mathbf t_{n-1} </math>.<ref name="Georgii 282" />

Eine dritte wichtige Teststatistik ist
:<math> T(X):= \sum_{i=1}^n \left( \frac{X_i-\mu}{\sigma}\right)^2</math>

Dabei ist <math> \mu \in \R </math> und <math> \sigma > 0 </math>. Sie wird beispielsweise beim [[Chi-Quadrat-Test]] für die Varianz verwendet. Dabei wird genutzt, dass <math> T </math> [[Chi-Quadrat-Verteilung|Chi-Quadrat-Verteilt]] ist, wenn die Stichprobenvariablen normalverteilt sind mit Erwartungswert <math> \mu </math> und Varianz <math> \sigma^2 </math>.<ref name="Rüschendorf195" />

== Vorteile ==
Betrachtet man einen Test <math> \varphi </math> und bezeichnet mit <math> \operatorname E_{\vartheta}(X) </math> die Bildung des Erwartungswertes bezüglich einer Wahrscheinlichkeitsverteilung <math> P_\vartheta </math>, so treten in der Testtheorie häufig Ausdrücke der Form
:<math> \operatorname E_{\vartheta_0}(\varphi) </math> oder <math>1- \operatorname E_{\vartheta_1}(\varphi) </math>

auf. Dabei entspricht der erste Ausdruck dem [[Fehler erster Art]] und der zweite dem [[Fehler zweiter Art]], wenn <math> \vartheta_0 </math> in der [[Nullhypothese]] ist und <math> \vartheta_1 </math> in der Alternative. Im Allgemeinen sind solche Ausdrücke schwer zu berechnen, da der Test <math> \varphi </math> selbst wenig Struktur besitzt

Geht man nun von einem [[nichtrandomisierter Test|nichtrandomisierten Test]] <math> \varphi </math> aus (der [[randomisierter Test|randomisierte Fall]] folgt mit leichten Anpassungen), so lässt sich der Test schreiben als
:<math> \varphi(X)=\mathbf 1_{A}(X) </math>.

Hierbei ist <math> A </math> der [[Ablehnbereich]] des Tests und <math> \mathbf 1_A(X) </math> die [[Charakteristische Funktion (Mathematik)|Indikatorfunktion]] auf der Menge <math> A </math>. Mit dieser Schreibweise folgt dann insbesondere
:<math> \operatorname E_\vartheta(\varphi(X))=P_\vartheta(A) </math>,

siehe auch [[Charakteristische Funktion (Mathematik)#Verwendung zur Berechnung von Erwartungswert, Varianz und Kovarianz]].

Ist der Test nun durch eine Teststatistik <math> T </math> definiert, also Beispielsweise durch
:<math> \varphi(X)=\begin{cases} 1 & \text{ falls } T(X) > k \\ 0 & \text{ falls } T(X) \leq k \end{cases} </math>,

so ist der Ablehnbereich von der Form
:<math> A= \{ x \in \mathcal X \mid T(X) > k \} </math>.

Damit reduziert sich aber die Bestimmung des Erwartungswertes des Tests zu
:<math> \operatorname E_\vartheta(\varphi(X))= P_\vartheta(A) =P_{\vartheta}( \{ x \in \mathcal X \mid T(X) > k \}) </math>.

Damit lässt sich der Erwartungswert des Tests direkt bestimmen, wenn die Verteilung der Teststatistik bekannt ist. Wie die drei obigen Beispiele zeigen ist dies bei vielen wichtigen Tests der Fall.

Die einfachere Berechnung des Erwartungswertes über die Verteilung der Teststatistik wird auf verschiedene Weisen verwendet. Einerseits bei [[Hypothesentest]]s vor der Datenauswertung, um den kritischen Wert <math> k </math> so anzupassen, dass der Test den gewünschten Fehler erster Art einhält. Andererseits bei [[Signifikanztest]]s nach der Datenauswertung zur Bestimmung des [[p-Wert]]es. Somit erleichtern Teststatistiken den Umgang und die Konstruktion von Tests.

== Einzelnachweise ==
<references>
<ref name="Tschirk67" > {{Literatur |Autor=Wolfgang Tschirk |Titel=Statistik: Klassisch oder Bayes |TitelErg=Zwei Wege im Vergleich |Auflage=1. Auflage |Verlag=Springer Spektrum |Ort=Berlin/Heidelberg |Datum=2014 |ISBN=978-3-642-54384-5 |Seiten=67|DOI=10.1007/978-3-642-54385-2}} </ref>
<ref name="Bosch178" > {{Literatur |Autor=Karl Bosch |Titel=Elementare Einführung in die angewandte Statistik |Auflage=8. |Verlag=Vieweg |Ort=Wiesbaden |Datum=2005|Seiten=178}} </ref>
<ref name="Rüschendorf195" > {{Literatur|Autor=Ludger Rüschendorf|Titel=Mathematische Statistik|Verlag=Springer Verlag|Ort=Berlin Heidelberg|Jahr=2014|ISBN=978-3-642-41996-6|Seiten=195|DOI=10.1007/978-3-642-41997-3}}</ref>
<ref name="Georgii 282" > {{Literatur|Autor=Hans-Otto Georgii|Titel=Stochastik|TitelErg=Einführung in die Wahrscheinlichkeitstheorie und Statistik|Auflage=4.|Verlag=Walter de Gruyter|Ort=Berlin|Jahr=2009|ISBN=978-3-11-021526-7 |Seiten=282|DOI=10.1515/9783110215274}}</ref>
</references>


* Beim [[Chi-Quadrat-Test|Chi-Quadrat-Anpassungstest]] lautet die Teststatistik:
::<math> \chi ^2= \sum_{j=1}^m \frac{(n_j-n_{jo})^2}{n_{jo}}
</math>
:mit <math>m</math> = Anzahl der Ausprägungsklassen des betreffenden Merkmals, <math>n_j</math> = empirische (sich aus der Stichprobe ergebende) Häufigkeit des Auftretens des Merkmals in der <math>j</math>-ten Klasse, <math>n_{jo}</math> = theoretische (unter <math>H_0</math> unterstellte) Häufigkeit des Auftretens des Merkmals in der <math>j</math>-ten Klasse.
:Unter <math>H_0</math> ist bei diesem Test die Testgröße annähernd [[Chi-Quadrat-Verteilung|Chi-Quadrat-verteilt]] mit <math>m-1</math> Freiheitsgraden.


[[Kategorie:Testtheorie]]
[[Kategorie:Testtheorie]]

Version vom 12. September 2017, 17:22 Uhr

Eine Teststatistik, auch Prüfgröße,[1] Testgröße[2] oder Prüffunktion genannt, ist eine spezielle reellwertige Funktion in der Testtheorie, einem Teilgebiet der mathematischen Statistik. Teststatistiken werden als Hilfsfunktionen bei der Definition von statistischen Tests verwendet. So wird Beispielsweise bei einem Hypothesentest die Nullhypothese abgelehnt, wenn die Teststatistik über oder unter einem vorher festgelegten Zahlenwert liegt.

Definition

Gegeben sei eine Funktion

sowie ein statistischer Test

,

der definiert ist durch

.

Hierbei ist eine feste Zahl, die auch der kritische Wert genannt wird. Dann wird die Funktion eine Teststatistik genannt.

Die Definition gilt ebenso für randomisierte Tests sowie Varianten der obigen Definition des Tests. Dazu gehört unter anderem das Vertauschen oder Abändern von Ungleichheitszeichen und Vertauschen von null und eins.

Beispiele

Unter Verwendung der Abkürzung

für das Stichprobenmittel ist eine typische Teststatistik auf gegeben durch

Hierbei ist eine positive Zahl und eine beliebige reelle Zahl. Diese Teststatistik findet beispielsweise bei den Gauß-Tests Anwendung. Dabei wird ausgenutzt, dass die Teststatistik standardnormalverteilt ist, d.h. , wenn die Stichprobenvariablen normalverteilt sind mit Erwartungswert und Varianz .[3]

Bezeichnet man mit

die korrigierte Stichprobenvarianz, so ist eine weitere wichtige Teststatistik auf gegeben durch

.

Hierbei ist wieder eine beliebige reelle Zahl. Diese Teststatistik findet bei dem Einstichproben-t-Test Anwendung. Dabei wird ähnlich zum obigen Beispiel ausgenutzt, dass wenn die Stichprobenvariablen normalverteilt sind mit Varianz und Mittelwert , die Teststatistik t-verteilt ist mit Freiheitsgraden. Es gilt dann .[4]

Eine dritte wichtige Teststatistik ist

Dabei ist und . Sie wird beispielsweise beim Chi-Quadrat-Test für die Varianz verwendet. Dabei wird genutzt, dass Chi-Quadrat-Verteilt ist, wenn die Stichprobenvariablen normalverteilt sind mit Erwartungswert und Varianz .[3]

Vorteile

Betrachtet man einen Test und bezeichnet mit die Bildung des Erwartungswertes bezüglich einer Wahrscheinlichkeitsverteilung , so treten in der Testtheorie häufig Ausdrücke der Form

oder

auf. Dabei entspricht der erste Ausdruck dem Fehler erster Art und der zweite dem Fehler zweiter Art, wenn in der Nullhypothese ist und in der Alternative. Im Allgemeinen sind solche Ausdrücke schwer zu berechnen, da der Test selbst wenig Struktur besitzt

Geht man nun von einem nichtrandomisierten Test aus (der randomisierte Fall folgt mit leichten Anpassungen), so lässt sich der Test schreiben als

.

Hierbei ist der Ablehnbereich des Tests und die Indikatorfunktion auf der Menge . Mit dieser Schreibweise folgt dann insbesondere

,

siehe auch Charakteristische Funktion (Mathematik)#Verwendung zur Berechnung von Erwartungswert, Varianz und Kovarianz.

Ist der Test nun durch eine Teststatistik definiert, also Beispielsweise durch

,

so ist der Ablehnbereich von der Form

.

Damit reduziert sich aber die Bestimmung des Erwartungswertes des Tests zu

.

Damit lässt sich der Erwartungswert des Tests direkt bestimmen, wenn die Verteilung der Teststatistik bekannt ist. Wie die drei obigen Beispiele zeigen ist dies bei vielen wichtigen Tests der Fall.

Die einfachere Berechnung des Erwartungswertes über die Verteilung der Teststatistik wird auf verschiedene Weisen verwendet. Einerseits bei Hypothesentests vor der Datenauswertung, um den kritischen Wert so anzupassen, dass der Test den gewünschten Fehler erster Art einhält. Andererseits bei Signifikanztests nach der Datenauswertung zur Bestimmung des p-Wertes. Somit erleichtern Teststatistiken den Umgang und die Konstruktion von Tests.

Einzelnachweise

  1. Wolfgang Tschirk: Statistik: Klassisch oder Bayes. Zwei Wege im Vergleich. 1. Auflage. Springer Spektrum, Berlin/Heidelberg 2014, ISBN 978-3-642-54384-5, S. 67, doi:10.1007/978-3-642-54385-2.
  2. Karl Bosch: Elementare Einführung in die angewandte Statistik. 8. Auflage. Vieweg, Wiesbaden 2005, S. 178.
  3. a b Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, S. 195, doi:10.1007/978-3-642-41997-3.
  4. Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, S. 282, doi:10.1515/9783110215274.