Studentsche t-Verteilung

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Dichten von t-verteilten Zufallsgrößen

Die studentsche t-Verteilung (auch Student-t-Verteilung) ist eine Wahrscheinlichkeitsverteilung, die 1908 von William Sealy Gosset entwickelt wurde.[1]

Er hatte festgestellt, dass die standardisierte Schätzfunktion des Stichproben-Mittelwerts normalverteilter Daten nicht mehr normalverteilt, sondern t-verteilt ist, wenn die zur Standardisierung des Mittelwerts benötigte Varianz des Merkmals unbekannt ist und mit der Stichprobenvarianz geschätzt werden muss. Die t-Verteilung erlaubt die Berechnung der Verteilung der Differenz vom Mittelwert der Stichprobe zum wahren Mittelwert der Grundgesamtheit. Die t-Werte hängen ab vom Signifikanzniveau und vom Stichprobenumfang n und bestimmen das Vertrauensintervall und damit die Aussagekraft der Schätzung des Mittelwertes. Die t-Verteilung wird mit wachsendem n schmaler und geht für n\to\infty in die Normalverteilung über (siehe Grafik rechts). Hypothesentests, bei denen die t-Verteilung Verwendung findet, bezeichnet man als t-Tests.

Die Herleitung wurde erstmals 1908 veröffentlicht, während Gosset in einer Guinness-Brauerei arbeitete. Da sein Arbeitgeber die Veröffentlichung nicht gestattete, veröffentlichte Gosset sie unter dem Pseudonym Student. Der t-Faktor und die zugehörige Theorie wurden erst durch die Arbeiten von R. A. Fisher belegt, der die Verteilung Student’s distribution (Students Verteilung) nannte.

Definition[Bearbeiten]

Eine stetige Zufallsvariable X genügt der studentschen t-Verteilung mit n Freiheitsgraden, wenn sie die Wahrscheinlichkeitsdichte

f_n(x) = \frac{\Gamma\left(\frac{n+1}{2}\right)} {\sqrt{n\pi}\Gamma\left(\frac{n}{2}\right)}\left(1+\frac{x^{2}}{n}\right)^{-\frac{n+1}{2}}

für -\infty < x < +\infty besitzt. Dabei ist

\Gamma(x)=\int\limits_{0}^{+\infty}t^{x-1}e^{-t}\operatorname{d}t

die Gamma-Funktion.

Alternativ lässt sich die t-Verteilung mit n Freiheitsgraden auch definieren als die Verteilung der Größe

t_n=\frac{Z}{\sqrt{\chi_n^2/n}},

wobei Z eine standardnormalverteilte Zufallsvariable ist, und \chi_n^2 eine, von Z unabhängige, Χ²-verteilte Zufallsvariable mit n Freiheitsgraden bedeutet.

Verteilung[Bearbeiten]

Die Verteilungsfunktion lässt sich geschlossen ausdrücken als

F_n(t)= I \left( \frac{t+\sqrt{t^2+n}}{2\sqrt{t^2+n}},\frac{n}{2},\frac{n}{2} \right),

oder als

F_n(t)=\frac{1}{2}\left(1+\frac{t}{|t|} I \left( \frac{t^2}{t^2+n},\frac{1}{2},\frac{n}{2}\right)\right),

mit

 I(z,a,b)=\frac{1}{B(a,b)} \int_0^z t^{a-1} (1-t)^{b-1}\mathrm{d}t,

wobei B die Betafunktion darstellt.

F_n(t) berechnet die Wahrscheinlichkeit dafür, dass eine gemäß f_n(x) verteilte Zufallsvariable X einen Wert kleiner oder gleich t erhält.

Eigenschaften[Bearbeiten]

Es sei X eine t-verteilte Zufallsvariable mit n Freiheitsgraden und Dichte f_n(x).

Wendepunkte[Bearbeiten]

Die Dichte besitzt Wendepunkte bei

x=\pm\,\sqrt{\frac{n}{n+2}}.

Median[Bearbeiten]

Der Median ist

\tilde{x}=0.

Modus[Bearbeiten]

Der Modus ergibt sich zu

\!\,x_D=0.

Erwartungswert[Bearbeiten]

Für den Erwartungswert erhält man für n>1

\operatorname{E}(X)=0.

Der Erwartungswert für n=1 existiert nicht.

Varianz[Bearbeiten]

Die Varianz ergibt sich für n>2 zu

\operatorname{Var}(X)=\frac{n}{n-2}.

Schiefe[Bearbeiten]

Die Schiefe ist für n>3

\operatorname{v}(X)=0.

Wölbungen[Bearbeiten]

Für die Kurtosis-Wölbung \beta_2 und die Exzess-Wölbung \gamma_2 erhält man für n>4

\operatorname{\beta_2}(X)=\frac{\mu_4}{\mu_2^2}=\frac{3n-6}{n-4},\qquad
\operatorname{\gamma_2}(X)=\frac{\mu_4}{\mu_2^2}-3=\frac{6}{n-4}.

Momente[Bearbeiten]

Für die k-ten Momente m_k=\operatorname{E}(X^k) und die k-ten zentralen Momente \mu_k=\operatorname{E}([X-\operatorname{E}(X)]^k) gilt:

m_k=\mu_k=0, \text{ falls } n>k \text{ und } k \text{ ungerade},
m_k=\mu_k=n^{k/2}\cdot\frac{1\cdot 3\cdot 5\cdot 7\dotsm(k-1)}{(n-2)\cdot(n-4)\cdot(n-6)\dotsm(n-k)},
\text{ falls } n>k \text{ und } k \text{ gerade}.

Nichtzentrale t-Verteilung[Bearbeiten]

Ist der Zähler der t-verteilten Zufallsvariablen normalverteilt mit einem Erwartungswert \mu\neq 0, handelt es sich um eine so genannte nichtzentrale t-Verteilung mit dem Nichtzentralitätsparameter \mu. Diese Verteilung wird vor allem zur Bestimmung des β-Fehlers bei Hypothesentests mit t-verteilter Prüfgröße verwendet.

Beziehung zu anderen Verteilungen[Bearbeiten]

Beziehung zur Cauchy-Verteilung[Bearbeiten]

Für n=1 und mit \Gamma(1/2)=\sqrt{\pi} ergibt sich die Cauchy-Verteilung als Spezialfall aus der Studentschen t-Verteilung.

Beziehung zur χ²-Verteilung und Standardnormalverteilung[Bearbeiten]

Die t-Verteilung beschreibt die Verteilung eines Ausdruckes

t_n=\frac{\mathcal{N}(0,1)}{\sqrt{\frac{\chi_n^2}{n}}}

wobei \mathcal{N}(0,1) eine standardnormalverteilte und \chi_n^2 eine χ²-verteilte Zufallsvariable mit n Freiheitsgraden bedeutet. Die Zählervariable muss unabhängig von der Nennervariable sein. Die Dichtefunktion der t-Verteilung ist dann symmetrisch bezüglich ihres Erwartungswertes 0. Die Werte der Verteilungsfunktion liegen in der Regel tabelliert vor.

Näherung durch die Normalverteilung[Bearbeiten]

Mit steigender Zahl von Freiheitsgraden kann man die Verteilungswerte der t-Verteilung mit Hilfe der Normalverteilung annähern. Als Faustregel gilt, dass ab 30 Freiheitsgraden die t-Verteilungsfunktion durch die Normalverteilung approximiert werden kann.

Verwendung in der mathematischen Statistik[Bearbeiten]

Verschiedene Schätzfunktionen sind t-verteilt.

Wenn die unabhängigen Zufallsvariablen X_1, X_2, \dotsc, X_n identisch normalverteilt sind mit Erwartungswert \mu und Standardabweichung \sigma , kann bewiesen werden, dass der Stichprobenmittelwert

\bar{X}=\frac 1n\sum_{i=1}^nX_i und die Stichprobenvarianz S^2=\frac 1{n-1}\sum_{i=1}^n(X_i-\bar{X})^2 stochastisch unabhängig sind.

Weil die Zufallsgröße \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} eine Standardnormalverteilung hat, und (n-1)\, S^2/\sigma^2 einer Chi-Quadrat-Verteilung mit n-1 Freiheitsgraden folgt, ergibt sich, dass die Größe

t_{n-1}=\frac{\bar{X}-\mu}{S/\sqrt{n}}=\frac{\bar{X}-\mu}{S/\sqrt{n}}\cdot\frac\sigma\sigma=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\cdot\frac\sigma S=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}/\left(\frac S\sigma\right)=
\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}/\sqrt{\chi_{n-1}^2/(n-1)}

nach Definition t-verteilt ist mit n-1 Freiheitsgraden.

Also ist der Abstand des gemessenen Mittelwertes vom Mittelwert der Grundgesamtheit verteilt wie t_{n-1} S/\sqrt{n} . Damit berechnet man dann das 95 %-Konfidenzintervall für den Mittelwert \mu zu

\overline{x}-t \cdot S/\sqrt{n} \leq \mu \leq \overline{x}+t \cdot S/\sqrt{n} ,

wobei t durch F_{n-1}(t)=0{,}975 bestimmt ist. Dieses Intervall ist für n < \infty etwas größer als dasjenige, welches sich mit bekanntem \sigma aus der Verteilungsfunktion der Normalverteilung bei gleichem Konfidenzniveau ergeben hätte \left(  \mu \in (\overline{x}\pm 1{,}96 \cdot \tfrac{\sigma}{\sqrt{n}})\right).

Herleitung der Dichte[Bearbeiten]

Die Wahrscheinlichkeitsdichte der t-Verteilung lässt sich herleiten aus der gemeinsamen Dichte der beiden unabhängigen Zufallsvariablen Z und \chi^2_n, die standardnormal, beziehungsweise Chi-Quadrat-verteilt sind. [2]


f_{Z,\chi^2_n}(z,y)= \frac{e^{-\frac 12z^2}}{\sqrt{2\pi}} \cdot \frac{y^{\frac{n}{2}-1}e^{-\frac 12y}}{2^\frac n2\Gamma(\frac n2)}.

Mit der Transformation


t=z/\sqrt{y/n},v=y ,

bekommt man die gemeinsame Dichte von T=Z/\sqrt{\chi^2_n/n} und \chi^2_n, wobei \;-\infty < t < \infty und 0\leq v < \infty.

Die Jacobideterminante dieser Transformation ist:

\det\frac{\partial(z,y)}{\partial(t,v)}=\begin{vmatrix}
     \sqrt{\frac{v}{n}}&0\\
     \Diamond&1
\end{vmatrix}=\sqrt{\frac{v}{n}}.

Der Wert \Diamond ist unwichtig, weil er bei der Berechnung der Determinante mit 0 multipliziert wird. Die neue Dichtefunktion schreibt sich also


f_{T,\chi^2_n}(t,v)=\frac{e^{-\frac 12 v \frac{t^2}n}}{\sqrt{2\pi}} \cdot \frac{1}{2^\frac n2 \Gamma(\frac n2)}v^{\frac n2-1}e^{-\frac 12v}\cdot\sqrt{\frac{v}{n}}.

Gesucht ist nun die Randverteilung f_n(t) als Integral über die nicht interessierende Variable v:


f_n(t)=\int\limits_{0}^\infty f_{T,\chi^2_n}(t,v)\,dv=\frac{1}{\sqrt{n\pi}\,2^{(n+1)/2}\Gamma(n/2)} \int\limits_{0}^\infty v^{(n-1)/2}e^{-v(1+t^2/n)/2}\,dv=\frac{\Gamma\left(\frac{n+1}{2}\right)} {\sqrt{n\pi}\Gamma\left(\frac{n}{2}\right)}\left(1+\frac{t^{2}}{n}\right)^{-\frac{n+1}{2}}.

Ausgewählte Quantile der t-Verteilung[Bearbeiten]

Tabelliert sind t-Werte für verschiedene Freiheitsgrade n und gebräuchliche Wahrscheinlichkeiten P (0,75 bis 0,999), wofür:

P_{\text{einseitig}}=F_n(t)=P(T_n\leq t).

Aufgrund der Spiegelsymmetrie der Dichte braucht man für den Fall des beidseitig symmetrisch begrenzten Intervalls nur die Wahrscheinlichkeitsskala anzupassen. Dabei verringern sich die Wahrscheinlichkeiten bei gleichem t, denn das Integrationsintervall wird durch Wegschneiden des Bereichs von -\infty bis - t reduziert.

P_{\text{zweiseitig}}=F_n(t)-F_n(-t)=P(-t<T_n\leq t)=2P_{\text{einseitig}}-1.

Werden bei einer Stichprobe N Beobachtungen durchgeführt und aus der Stichprobe m Parameter geschätzt, so ist n=N-m die Anzahl der Freiheitsgrade.

Zu der Anzahl von Freiheitsgraden n in der ersten Spalte und dem Signifikanzniveau \alpha (dargestellt als 1-\alpha in der zweiten Zeile) wird in jeder Zelle der folgenden Tabelle der Wert des (einseitigen) Quantils t_{n,\alpha}, entsprechend DIN 1319-3, angegeben. Dies erfüllt für die Dichte f_n der t_n-Verteilung die folgenden Gleichungen:

(einseitig): \int_{-\infty}^{t_{n,\alpha}}f_n(x)\,dx=1-\alpha
(zweiseitig):\int_{-t_{n,\alpha/2}}^{t_{n,\alpha/2}}f_n(x)\,dx=1-\alpha

Also findet man beispielsweise mit n = 4 und \alpha = 0{,}05 die t-Werte von 2,776 (zweiseitig) oder 2,132 (einseitig).

Die Quantilfunktion der t-Verteilung x_p ist die Lösung der Gleichung p=F(x_p|m,\,n) und damit prinzipiell über die Umkehrfunktion zu berechnen. Konkret gilt hier

x_p=\frac{\sqrt{n}\left(2 I^{-1}(p,\frac n2,\frac n2)-1\right)}{2\sqrt{\left(1-I^{-1}(p,\frac n2,\frac n2)\right) \cdot I^{-1}(p,\frac n2,\frac n2)}},

mit  I^{-1} als Inverse der regularisierten unvollständigen Betafunktion. Dieser Wert x_p ist in der Quantiltabelle unter den Koordinaten p und n eingetragen.

Für wenige Werte n (1,2,4) vereinfacht sich die Quantilfunktion[3]:

 n=1:  x_p=\operatorname{tan} (\pi(p-1/2)) ,
 n=2:  x_p=(p-1/2)\sqrt{\frac{2}{ p(1-p)}} ,
 n=4:  x_p=\sqrt{\frac{2\cos \left( \frac{1}{3} \arccos \left(2 \sqrt{p(1-p)} \, \right) \right)}{\sqrt{p(1-p)}}-4} .

Tabelle einiger t-Quantile[Bearbeiten]

Anzahl
Freiheitsgrade
n
P für zweiseitigen Vertrauensbereich
0,5 0,75 0,8 0,9 0,95 0,98 0,99 0,998
P für einseitigen Vertrauensbereich
0,75 0,875 0,90 0,95 0,975 0,99 0,995 0,999
1 1,000 2,414 3,078 6,314 12,706 31,821 63,657 318,309
2 0,816 1,604 1,886 2,920 4,303 6,965 9,925 22,327
3 0,765 1,423 1,638 2,353 3,182 4,541 5,841 10,215
4 0,741 1,344 1,533 2,132 2,776 3,747 4,604 7,173
5 0,727 1,301 1,476 2,015 2,571 3,365 4,032 5,893
6 0,718 1,273 1,440 1,943 2,447 3,143 3,707 5,208
7 0,711 1,254 1,415 1,895 2,365 2,998 3,499 4,785
8 0,706 1,240 1,397 1,860 2,306 2,896 3,355 4,501
9 0,703 1,230 1,383 1,833 2,262 2,821 3,250 4,297
10 0,700 1,221 1,372 1,812 2,228 2,764 3,169 4,144
11 0,697 1,214 1,363 1,796 2,201 2,718 3,106 4,025
12 0,695 1,209 1,356 1,782 2,179 2,681 3,055 3,930
13 0,694 1,204 1,350 1,771 2,160 2,650 3,012 3,852
14 0,692 1,200 1,345 1,761 2,145 2,624 2,977 3,787
15 0,691 1,197 1,341 1,753 2,131 2,602 2,947 3,733
16 0,690 1,194 1,337 1,746 2,120 2,583 2,921 3,686
17 0,689 1,191 1,333 1,740 2,110 2,567 2,898 3,646
18 0,688 1,189 1,330 1,734 2,101 2,552 2,878 3,610
19 0,688 1,187 1,328 1,729 2,093 2,539 2,861 3,579
20 0,687 1,185 1,325 1,725 2,086 2,528 2,845 3,552
21 0,686 1,183 1,323 1,721 2,080 2,518 2,831 3,527
22 0,686 1,182 1,321 1,717 2,074 2,508 2,819 3,505
23 0,685 1,180 1,319 1,714 2,069 2,500 2,807 3,485
24 0,685 1,179 1,318 1,711 2,064 2,492 2,797 3,467
25 0,684 1,178 1,316 1,708 2,060 2,485 2,787 3,450
26 0,684 1,177 1,315 1,706 2,056 2,479 2,779 3,435
27 0,684 1,176 1,314 1,703 2,052 2,473 2,771 3,421
28 0,683 1,175 1,313 1,701 2,048 2,467 2,763 3,408
29 0,683 1,174 1,311 1,699 2,045 2,462 2,756 3,396
30 0,683 1,173 1,310 1,697 2,042 2,457 2,750 3,385
40 0,681 1,167 1,303 1,684 2,021 2,423 2,704 3,307
50 0,679 1,164 1,299 1,676 2,009 2,403 2,678 3,261
60 0,679 1,162 1,296 1,671 2,000 2,390 2,660 3,232
70 0,678 1,160 1,294 1,667 1,994 2,381 2,648 3,211
80 0,678 1,159 1,292 1,664 1,990 2,374 2,639 3,195
90 0,677 1,158 1,291 1,662 1,987 2,368 2,632 3,183
100 0,677 1,157 1,290 1,660 1,984 2,364 2,626 3,174
200 0,676 1,154 1,286 1,653 1,972 2,345 2,601 3,131
300 0,675 1,153 1,284 1,650 1,968 2,339 2,592 3,118
400 0,675 1,152 1,284 1,649 1,966 2,336 2,588 3,111
500 0,675 1,152 1,283 1,648 1,965 2,334 2,586 3,107
\infty 0,674 1,150 1,282 1,645 1,960 2,326 2,576 3,090

Weblinks[Bearbeiten]

 Commons: Studentsche t-Verteilung – Sammlung von Bildern, Videos und Audiodateien

Einzelnachweise[Bearbeiten]

  1.  Josef Bleymüller, Günther Gehlert, Herbert Gülicher: Statistik für Wirtschaftswissenschaftler. 14. Auflage. Vahlen, 2004, S. 16.
  2. Frodesen, Skjeggestad, Tofte: Probability and Statistics in Particle Physics, Universitetsforlaget, Bergen - Oslo - Tromsö S. 141
  3. Shaw, W.T.: Sampling Student’s T distribution – Use of the inverse cumulative distribution function.. In: Journal of Computational Finance. 9, Nr. 4, 2006, S. 37–73.