`p`-Wert

Eine gesichtete Version dieser Seite, die am 20. Oktober 2016 freigegeben wurde, basiert auf dieser Version.

Der p-Wert (auch Überschreitungswahrscheinlichkeit, Signifikanzwert; englisch p-value von probability, engl. für Wahrscheinlichkeit) ist in der Testtheorie eine Kennzahl zur Auswertung statistischer Tests. Er steht in enger Beziehung mit dem Signifikanzniveau, lässt sich aber nicht so einfach in Tabellen fassen, sodass die praktische Anwendung erst mit Einführung von Computern und Statistik-Software möglich geworden ist.

Der $p$ -Wert ist eine Wahrscheinlichkeit und nimmt daher Werte zwischen Null und Eins an. Der Wert wird durch die gezogene Stichprobe bestimmt. Er deutet an, wie wahrscheinlich es ist, ein solches Stichprobenergebnis oder ein extremeres zu erhalten, wenn die Nullhypothese wahr ist. Ein häufiges Missverständnis ist die Gleichsetzung dieser Aussage mit der falschen Behauptung, der $p$ -Wert würde angeben, wie wahrscheinlich die Nullhypothese bei Erhalt dieses Stichprobenergebnisses ist. Mit dem $p$ -Wert wird also angedeutet, wie extrem das Ergebnis ist: je kleiner der $p$ -Wert, desto mehr spricht das Ergebnis gegen die Nullhypothese. In verschiedenen wissenschaftlichen Disziplinen haben sich festgesetzte Grenzen etabliert, wie 5 %, 1 % oder 0,1 %, die verwendet werden, um Entscheidungen zu treffen, ob die Nullhypothese abgelehnt werden kann. Wenn die Nullhypothese verworfen wird, wird das Resultat als statistisch signifikant bezeichnet. Signifikant bedeutet hierbei lediglich überzufällig. Die Größe des $p$ -Werts gibt keine Aussage über die Größe des wahren Effekts.

Mathematische Formulierung

Bei einem statistischen Test wird eine Vermutung (Nullhypothese) $H_{0}$ überprüft, indem ein passendes Zufallsexperiment durchgeführt wird, das die Zufallsgrößen $X_{1},X_{2},\dotsc ,X_{n}$ liefert. Diese Zufallsgrößen werden zu einer einzelnen Zahl, Teststatistik genannt, zusammengefasst:

T=u(X_{1},X_{2},\dotsc ,X_{n})

Für einen konkreten Versuchsausgang $x_{1},x_{2},\dotsc ,x_{n}$ des Experiments erhält man einen Wert

t=u(x_{1},x_{2},\dotsc ,x_{n})

.

Der $p$ -Wert des Versuchsausgangs ist dann die Wahrscheinlichkeit, dass ein zufälliger Versuch bei gültiger Nullhypothese mindestens so „extrem“ ausgeht wie der beobachtete Versuch. Die gewählte Teststatistik ist daher sehr wichtig.

Bei rechtsseitigem Test:

p_{\text{rechts}}:=P(T\geq t\mid H_{0}).

Bei linksseitigem Test:

p_{\text{links}}:=P(T\leq t\mid H_{0}).

Und bei zweiseitigem Test:

p=2\cdot \min(p_{\text{rechts}},p_{\text{links}}).

Der $p$ -Wert gibt an, „wie extrem“ der auf Basis der erhobenen Daten berechnete Wert der Teststatistik ist. Er entspricht der Wahrscheinlichkeit, bei Gültigkeit der Nullhypothese den errechneten oder einen extremeren Wert der Teststatistik zu erhalten. Für zusammengesetzte Nullhypothesen ist diese bedingte Wahrscheinlichkeit nur noch nach oben abschätzbar.

Je kleiner der $p$ -Wert ist, desto mehr Grund gibt es die Nullhypothese zu verwerfen. Üblicherweise wird vor dem Test ein Signifikanzniveau $\alpha$ festgelegt und die Nullhypothese dann verworfen, wenn der $p$ -Wert kleiner oder gleich $\alpha$ ist.

Nach frequentistischer Sichtweise enthält der von R. A. Fisher eingeführte $p$ -Wert keine weiterführende Information; nur die Tatsache, ob er kleiner ist als ein vorgegebenes Niveau $\alpha$ , ist von Interesse. In dieser Form ist $p\leq \alpha$ nur eine andere Formulierung dafür, dass die Observation in der kritischen Region liegt, und fügt der Neyman-Pearsonschen Theorie der Hypothesentests nichts Neues hinzu.

Beispiel

Gegeben sei eine Münze. Die zu prüfende Nullhypothese sei, dass die Münze fair ist, dass also Kopf und Zahl gleich wahrscheinlich sind; die Alternativhypothese sei, dass ein Ergebnis wahrscheinlicher ist, wobei nicht festgelegt wird, welches der beiden wahrscheinlicher sein soll. Das Zufallsexperiment zum Testen der Nullhypothese bestehe nun darin, dass die Münze zwanzig Mal geworfen wird. $K$ bezeichne die Anzahl der Würfe, die „Kopf“ als Ergebnis liefern. Bei einer fairen Münze wäre zehnmal „Kopf“ zu erwarten. Als Statistik wählt man daher sinnvollerweise

Y=|K-10|

.

Angenommen, der Versuch liefert $k=14$ -mal das Ergebnis „Kopf“, also $y=4$ . Unter der Nullhypothese ist die Anzahl der Köpfe binomialverteilt mit $n=20$ und $p={\tfrac {1}{2}}$ . Der $p$ -Wert für diesen Versuchsausgang ist daher

P(Y\geq y\mid H_{0})=P(Y\geq 4\mid H_{0})=\sum _{j=0}^{6}{20 \choose j}\left({\frac {1}{2}}\right)^{j}\left(1-{\frac {1}{2}}\right)^{20-j}+\sum _{j=14}^{20}{20 \choose j}\left({\frac {1}{2}}\right)^{j}\left(1-{\frac {1}{2}}\right)^{20-j}=

={\frac {1}{2^{20}}}\sum _{j=0}^{6}{20 \choose j}+{\frac {1}{2^{20}}}\sum _{j=14}^{20}{20 \choose j}=2{\frac {1}{2^{20}}}\sum _{j=0}^{6}{20 \choose j}\approx 0{,}115

.

Bei einem Signifikanzniveau von 5 % würde man die Nullhypothese nicht verwerfen, d. h., man kann aus den Daten nicht folgern, dass die Münze nicht fair sei.

Wäre das Versuchsergebnis $k=15$ -mal Kopf, also $y=5$ , dann wäre der $p$ -Wert für diesen Versuchsausgang

P(Y\geq 5\mid H_{0})=2\sum _{j=0}^{5}{20 \choose j}{\frac {1}{2^{20}}}\approx 0{,}041

.

Bei einem Signifikanzniveau von 5 % würde man also in diesem Fall die Nullhypothese verwerfen, also schließen, dass die Münze nicht fair ist, bei einem Signifikanzniveau von 1 % hingegen weitere Tests benötigen. (Genauer gesagt: Man würde die Datenlage für unzureichend ansehen, um den Schluss zu rechtfertigen, die Münze sei nicht fair. Dies als einen Beweis zu nehmen, dass die Münze fair ist, wäre jedoch falsch.)

Beziehung zum Signifikanzniveau

Es gibt eine Äquivalenz zwischen einem Testverfahren mit der Berechnung des $p$ -Wertes und einem Verfahren mit dem im Voraus bestimmten Signifikanzniveau. Der $p$ -Wert $p$ berechnet sich anhand des beobachteten Wertes $t$ der Teststatistik, und der kritische Wert $k$ folgt aus dem Signifikanzniveau $\alpha$ , so gilt z. B. rechtsseitig:

\!p=P(T\geq t\mid H_{0})

\!\alpha =P(T\geq k\mid H_{0})

und

p<\alpha \Leftrightarrow t>k

KS-Test für die Variable „Mittlerer Hauspreis pro Bezirk“ des Boston-Housing-Datensatzes.

In statistischer Software wird bei der Durchführung eines Tests der $p$ -Wert, siehe rechts unter Asymptotische Signifikanz (letzte Zeile im Kasten), angegeben. Ist der $p$ -Wert kleiner als das vorgegebene Signifikanzniveau $\alpha$ , so ist die Nullhypothese abzulehnen.

Auf der einen Seite enthebt die Ausgabe des $p$ -Wertes bei einem Test die Software explizit davon, nach dem vorgegebenen Signifikanzniveau zu fragen, um eine Testentscheidung zu treffen. Auf der anderen Seite besteht die Gefahr, dass der Forscher das eigentlich im Voraus festzulegende Signifikanzniveau anpasst, um sein gewünschtes Ergebnis zu bekommen.

Weitere Eigenschaften

Falls die Test-Statistik eine kontinuierliche Verteilung hat, ist der $p$ -Wert, unter der (punktförmigen) Nullhypothese, uniform verteilt auf dem Intervall $[0,1]$ .^[1]

Typische Fehlinterpretationen

Goodman formuliert 12 Aussagen über $p$ -Werte, die ausgesprochen weit verbreitet und dennoch falsch sind.^[2] Im Besonderen sind folgende Aussagen falsch:

Falsch ist: Wenn $p=0{,}05$ , ist die Chance, dass die Nullhypothese wahr ist, nur 5 %.
Falsch ist: Ein nicht-signifikanter Unterschied bedeutet bei einem Mittelwertsvergleich zwischen zwei Gruppen, dass die Mittelwerte gleich sind.
Ebenfalls falsch ist: Nur ein signifikanter Unterschied bedeutet, dass das Ergebnis in der Realität, beispielsweise in der klinischen Anwendung, wichtig ist.

Weblinks

Kurze Darstellung des $p$ -Wertes auf Englisch (Queen's University, Kingston, Canada)
CDF Statistics Committee: Simple facts about p-values.. Memo, CDF/MEMO/STATISTICS/PUBLIC/8023. 2006. (englisch, PDF, 113 KiB)
P-value calculator, Seite zur automatischen Berechnung des $p$ -Werts
Wenn Forscher durch den Signifikanztest fallen, Kritik des $p$ -Wertes auf spektrum.de

Einzelnachweise

↑ Besag, Clifford: Sequential Monte Carlo p-values. In: Biometrika Nr. 78(2), 1991. S. 301-304. doi:10.1093/biomet/78.2.301.
↑ Steven Goodman: A Dirty Dozen: Twelve P-Value Misconceptions. In: Seminars in Hematology. Nr. 45, 2008. S. 135-140 (PDF-Datei).

[1] Besag, Clifford: Sequential Monte Carlo p-values. In: Biometrika Nr. 78(2), 1991. S. 301-304. doi:10.1093/biomet/78.2.301.

[2] Steven Goodman: A Dirty Dozen: Twelve P-Value Misconceptions. In: Seminars in Hematology. Nr. 45, 2008. S. 135-140 (PDF-Datei).

[1]

[2]

`p`-Wert

Inhaltsverzeichnis

Mathematische Formulierung

Beispiel

Beziehung zum Signifikanzniveau

Weitere Eigenschaften

Typische Fehlinterpretationen

Weblinks

Einzelnachweise

Navigationsmenü

p-Wert

Mathematische Formulierung

Beispiel

Beziehung zum Signifikanzniveau

Weitere Eigenschaften

Typische Fehlinterpretationen

Weblinks

Einzelnachweise

Navigationsmenü

Suche

`p`-Wert