Chi-Quadrat-Verteilung

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Chi Quadrat)
Wechseln zu: Navigation, Suche

Die Chi-Quadrat-Verteilung ist eine stetige Wahrscheinlichkeitsverteilung über der Menge der positiven reellen Zahlen. Im Allgemeinen ist mit „Chi-Quadrat-Verteilung“ die zentrale Chi-Quadrat-Verteilung gemeint. Ihr einziger Parameter n muss eine natürliche Zahl sein und heißt ihre Zahl der Freiheitsgrade.

Sie ist eine der Verteilungen, die aus der Normalverteilung abgeleitet wird. Hat man n Zufallsvariablen Zi, die unabhängig und standard normalverteilt sind, so ist die Chi-Quadrat-Verteilung mit n Freiheitsgraden definiert als die Verteilung der Summe der quadrierten Zufallsvariablen  Z_1^2 +\dotsb+ Z_n^2. Solche Summen quadrierter Zufallsvariablen treten bei der Schätzung der Varianz einer Stichprobe auf. Die Chi-Quadrat-Verteilung findet außerdem Anwendung bei den Chi-Quadrat-Tests.

Sie wurde 1875 eingeführt von Friedrich Robert Helmert, die Bezeichnung stammt von Karl Pearson (1900).[1]

Dichten der Chi-Quadrat-Verteilung mit verschiedenen Freiheitsgraden k

Inhaltsverzeichnis

[Bearbeiten] Definition

Dichte und Verteilung von mehreren Chi-Quadrat-verteilten Zufallsgrößen

Die Chi-Quadrat-Verteilung mit n Freiheitsgraden beschreibt die Verteilung der Summe n stochastisch unabhängiger quadrierter standardnormalverteilter Zufallsvariablen

\chi^2_n \sim Z_1^2 + \dotsb + Z_n^2,  mit Z_k\sim \mathcal{N}(0,1) für k = 1, \dots, n.

Das Zeichen \,\sim ist Kurzschreibweise für ' ist verteilt wie '. Die Summe quadrierter Größen kann keine negativen Werte annehmen.

[Bearbeiten] Dichte

Die Dichte fn der \chi_n^2-Verteilung mit n Freiheitsgraden hat die Form:

f_n(x) =
    \begin{cases}\displaystyle
      \frac{x^{\frac{n}{2}-1}e^{ -\frac x2}}{2^{\frac{n}{2}}\Gamma(\tfrac{n}{2})} & x>0 \\ 
      0                                                                                        & x\leq 0
    \end{cases}

Dabei steht Γ(r) für die Gammafunktion. Die Werte von \Gamma(\tfrac{n}{2}) kann man auch berechnen mit

\Gamma(\tfrac{1}{2}) = \sqrt\pi \; , \quad \Gamma(1) = 1 \; ,
\Gamma(r+1) = r \cdot \Gamma(r) \; \; \mbox{mit} \; r \in \mathbb{R}^+ .

[Bearbeiten] Verteilungsfunktion

Die Verteilungsfunktion kann man mit Hilfe der regularisierten unvollständigen Gammafunktion schreiben:

F_n(x)= P(\tfrac n2,\tfrac x2).

Wenn n eine natürliche Zahl ist, dann kann die Verteilungsfunktion (mehr oder weniger) elementar dargestellt werden:

P(\tfrac n2,\tfrac x2)=1-e^{ -\frac x2}\sum\limits_{k=0}^{n/2-1} \frac 1{\Gamma(k+1)} (\tfrac x2)^k, (n=2,4,\ldots),
P(\tfrac n2,\tfrac x2)=\operatorname{Erf}(\sqrt{\tfrac x2})-e^{ -\frac x2}\sum\limits_{k=0}^{\lfloor n/2\rfloor -1}\frac 1{\Gamma(k+\tfrac 32)} (\tfrac x2)^{k+\tfrac 12}, (n=1,3,\ldots),

wobei Erf die Fehlerfunktion bezeichnet. Die Verteilungsfunktion beschreibt die Wahrscheinlichkeit, dass \chi_n^2 im Intervall [0, x] liegt.

[Bearbeiten] Eigenschaften

[Bearbeiten] Erwartungswert

Der Erwartungswert der Chi-Quadrat-Verteilung mit n Freiheitsgraden ist

 \operatorname{E}\left(\chi^2_n\right) = n.

Unter der Voraussetzung einer standardnormalverteilten Grundgesamtheit sollte also bei richtiger Abschätzung der Varianz der Grundgesamtheit der Wert \chi_n^2 /n in der Nähe von 1 liegen.

[Bearbeiten] Varianz

Die Varianz der Chi-Quadrat-Verteilung mit n Freiheitsgraden ist

\operatorname{Var}(\chi^2_n) = 2n.

[Bearbeiten] Modus

Der Modus der Chi-Quadrat-Verteilung mit n Freiheitsgraden ist n − 2 für n\ge 2.

[Bearbeiten] Schiefe

Die Schiefe v der Chi-Quadrat-Verteilung mit n Freiheitsgraden ist

\operatorname{v}(\chi^2_n) = \frac{2 \sqrt{2}}{\sqrt{n}}.

Die Chi-Quadrat-Verteilung besitzt eine positive Schiefe, d.h. sie ist linkssteil bzw. rechtsschief. Je höher die Anzahl der Freiheitsgrade n, desto weniger schief ist die Verteilung.

[Bearbeiten] Kurtosis

Die Kurtosis (Wölbung) β2 der Chi-Quadrat-Verteilung mit n Freiheitsgraden ist gegeben durch

\beta_2=3 + \frac{12}{n}.

Der Exzess γ2 gegenüber der Normalverteilung ergibt sich damit zu  \gamma_2=\frac{12}{n}.[2] Daher gilt: Je höher die Anzahl der Freiheitsgrade n, desto geringer der Exzess.

[Bearbeiten] Charakteristische Funktion

Die charakteristische Funktion für X \sim \chi_n^2 hat die Form

\varphi_X(s) = \frac{1}{(1-2 i s)^{n/2}}.

[Bearbeiten] Summe χ2-verteilter Zufallsvariablen

Sind X_1,X_2,\ldots,X_n unabhängige Zufallsvariable, mit \,X_i\sim\chi^2(\nu_i), so gilt:

\sum_{i=1}^n X_i \sim\chi^2\left(\sum_{i=1}^n \nu_i\right)
.

Die Chi-Quadrat-Verteilung ist also reproduktiv.

[Bearbeiten] Nichtzentrale Chi-Quadrat-Verteilung

Wenn die normalverteilten Zufallsvariablen nicht bezüglich ihres Erwartungswertes \mu_i (i = 1, \ldots , n) zentriert sind (d.h. wenn nicht alle μi = 0 sind), erhält man die nichtzentrale Chi-Quadrat-Verteilung. Sie hat als zweiten Parameter neben n den Nichtzentralitätsparameter λ > 0.

Seien Z_i \sim \mathcal{N}(\mu_i,1),\,i=1,2,\ldots, n, so ist

\sum_{i=1}^n {Z_i}^2\sim \chi^2(n,\lambda) mit \lambda=\sum_{i=1}^n {\mu_i}^2.

Insbesondere folgt aus \,X\sim\chi^2(n-1) und Z\sim\mathcal{N}(\sqrt{\lambda},1), dass \,X+Z^2\sim\chi^2(n,\lambda) ist.

Eine zweite Möglichkeit, eine nichtzentrale Chi-Quadrat-Verteilung zu erzeugen, ist als Mischverteilung der zentralen Chi-Quadrat-Verteilung. Dabei ist

\chi^2(n+2\,j)=\chi^2(n,\lambda),

wenn j\sim\mathcal{P}\left(\tfrac{\lambda}{2}\right) aus einer Poisson-Verteilung gezogen wird.

[Bearbeiten] Dichtefunktion

Die Dichtefunktion der nichtzentralen Chi-Quadrat-Verteilung ist

f(x)=\frac{\exp{\left[-\frac{1}{2}(x+\lambda)\right]}}{2^{\frac{n}{2}}}\,
\sum_{j=0}^\infty \frac{x^{\frac{n}{2}+j-1}\lambda^j}{2^{2j}\,\Gamma\left(\frac{n}{2}+j\right)\,j!} für x\ge 0 , \,f(x)=0 für \,x< 0 .
[Bearbeiten] Darstellung durch modifizierte Bessel-Funktion

Die Dichtefunktion kann alternativ auch mit Hilfe der modifizierten Bessel-Funktion erster Gattung Iq(x) dargestellt werden:

f(x)=\frac{\exp{\left[-\frac{1}{2}(x+\lambda)\right]} x^{\frac{1}{2}(n-1)} \sqrt{\lambda}}{2(\lambda x)^{\frac{n}{4}}}\,
I_{\frac{n}{2}-1}\left(\sqrt{\lambda x}\right) für x\ge 0.

[Bearbeiten] Verteilungsfunktion

Die Verteilungsfunktion der nichtzentralen Chi-Quadrat-Verteilung kann mit Hilfe der Marcum-Q-Funktion QM(a,b) dargestellt werden. [3]

F (x) = 1 - Q_{\frac{n}{2}} \left( \sqrt{\lambda}, \sqrt{x} \right)

[Bearbeiten] Beispiel

Man macht n Messungen einer Größe x, die aus einer normalverteilten Grundgesamtheit stammen. Sei \overline{x} der Mittelwert der n gemessenen Werte und

s^2=\frac{1}{n-1}\sum_{k=1}^n(x_k-\overline{x})^2

die Stichprobenvarianz. Dann lässt sich z. B. das 95%-Konfidenzintervall für die Varianz σ2 angeben:

\tfrac{n-1}{\chi_b^2}\,s^2\leq\sigma^2\leq\tfrac{n-1}{\chi_a^2}\,s^2,

wobei \chi_b^2 durch F_{n-1}(\chi_b^2)= 0.975 und \chi_a^2 durch F_{n-1}(\chi_a^2)= 0.025 bestimmt wird, und deshalb auch \chi_a^2\leq n-1\leq\chi_b^2. Die Grenzen ergeben sich daraus, dass \tfrac{(n-1)s^2}{\sigma^2} wie \chi_{n-1}^2 verteilt ist.

[Bearbeiten] Herleitung der Verteilung der Stichprobenvarianz

Sei x_{1},\dots, x_{n } eine Stichprobe von n Messwerten, gezogen aus einer normalverteilten Zufallsvariablen X mit arithmetischem Mittelwert \overline{x}=\tfrac{1}{n}\sum_{k=1}^n x_i und Stichprobenvarianz s^2=\tfrac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2 als Schätzfunktionen für Mittelwert μ und Varianz σ2 der Grundgesamtheit.

Dann lässt sich zeigen, dass \tfrac{(n-1)s^2}{\sigma^2}=\sum_{i=1}^n \tfrac{(x_i-\overline{x})^2}{\sigma^2} verteilt ist wie \chi_{n-1}^2.

Dazu werden nach Helmert[4] die (xi) mittels einer orthonormalen Linearkombination in neue Variablen (yj) transformiert. Die Transformation lautet:

y_{1}=\tfrac{1}{\sqrt{2}}x_{1}-\tfrac{1}{\sqrt{2}}x_{2}
y_{2}=\tfrac{1}{\sqrt{6}}x_{1}+\tfrac{1}{\sqrt{6}}x_{2}-\tfrac{2}{\sqrt{6}}x_{3}
   \vdots
y_{n-1}=\tfrac{1}{\sqrt{n(n-1)}}x_{1}+\tfrac{1}{\sqrt{n(n-1)}}x_{2}+\dotsb +\tfrac{1}{\sqrt{n(n-1)}}x_{n-1}-\tfrac{n-1}{\sqrt{n(n-1)}}x_{n}
y_{n}=\tfrac{1}{\sqrt{n}}x_{1}+\tfrac{1}{\sqrt{n}}x_{2}+\dotsb +\tfrac{1}{\sqrt{n}}x_{n-1}+\tfrac{1}{\sqrt{n}}x_{n}=\sqrt{n}\overline{x}.

Die neuen unabhängigen Variablen yi sind wie X normalverteilt mit gleicher Varianz \sigma_{y_i}^2=\sigma_{x_i}^2=\sigma^2, (i=1,\dots, n), aber mit Erwartungswert \mathrm{E}(y_i) = 0, (i=1,\dots, n-1), beides aufgrund der Faltungsinvarianz der Normalverteilung.

Außerdem gilt für die Koeffizienten aij in y_{i}=\sum_{j=1}^n a_{i j}x_{j} wegen der Orthonormalität \sum_{i=1}^n a_{i j}a_{i k}=\delta_{j k} (Kronecker-Delta) und damit \sum_{i=1}^n y_{i}^2=\sum_{i=1}^n x_{i}^2.

Deshalb ergibt sich nun

(n-1) s^2=\sum_{i=1}^n (x_i-\overline{x})^2=\sum_{i=1}^n x_{i}^2-n\overline{x}^2=\sum_{i=1}^n y_{i}^2-y_{n}^2=\sum_{i=1}^{n-1} y_{i}^2

und schlussendlich nach Division durch σ2

(n-1)\frac{s^2}{\sigma^2}=\sum_{i=1}^{n-1} \frac{y_i^2}{\sigma^2}.

Der Ausdruck auf der linken Seite ist offenbar verteilt wie eine Summe von quadrierten standardnormalverteilten unabhängigen Variablen mit n − 1 Summanden, wie für \chi_{n-1}^2 gefordert.

Demnach ist also \sum_{i=1}^n \left( \tfrac{x_i-\overline{x}}{\sigma} \right)^2 \sim \chi_{n-1}^2, während laut Definition der Chi-Quadrat-Summe \sum_{i=1}^n \left( \tfrac{x_i-\mu}{\sigma} \right)^2 \sim \chi_{n}^2. Ein Freiheitsgrad wird hier 'verbraucht', denn der berechnete Mittelwert  \overline{x}=\tfrac{1}{n}\sum x_i ist im Gegensatz zum Mittelwert der Grundgesamtheit μ von den  \ x_i abhängig.

[Bearbeiten] Beziehung zu anderen Verteilungen

[Bearbeiten] Beziehung zur Gammaverteilung

Die Chi-Quadrat-Verteilung ist ein Spezialfall der Gammaverteilung. Ist X\sim \chi^2_n, so gilt

X \sim \Gamma(\tfrac{n}{2},\tfrac{1}{2}).

[Bearbeiten] Beziehung zur Normalverteilung

Quantile einer Normalverteilung und einer Chi-Quadrat-Verteilung
  • Für n \geq 30 ist Y = \sqrt{2X} - \sqrt{2n-1} näherungsweise standardnormalverteilt.
  • Für n > 100 ist die Zufallsvariable X näherungsweise normalverteilt, mit Erwartungswert n und Standardabweichung \sqrt{2n} bzw. bei einer nicht-zentralen Chi-Quadrat-Verteilung mit Erwartungswert n + λ und Standardabweichung \sqrt{2n + 4 \lambda}.

[Bearbeiten] Beziehung zur Exponentialverteilung

Eine Chi-Quadrat-Verteilung mit 2 Freiheitsgraden ist eine Exponentialverteilung \operatorname{Exp}(g) mit dem Parameter \, g=1/2.

[Bearbeiten] Beziehung zur Erlang-Verteilung

Eine Chi-Quadrat-Verteilung mit 2n Freiheitsgraden ist identisch mit einer Erlang-Verteilung \operatorname{Erl}(g,n) mit n Freiheitsgraden und \, g=1/2.

[Bearbeiten] Beziehung zur F -Verteilung

Wenn Y_{m}\, und X_{n}\, unabhängige \chi^{2}\,-verteilte Zufallsvariablen mit den Freiheitsgraden m und n sind, dann ist der Quotient

F_{m,n}=\frac{Y_{m}/m}{X_{n}/n}

eine Zufallsvariable, die der F-Verteilung mit den Freiheitsgraden (m,\,n) genügt.

[Bearbeiten] Beziehung zur stetigen Gleichverteilung

Für gerade n = 2m kann man die \chi_n^2-Verteilung als m-fache Faltung bilden mit Hilfe der gleichmäßig stetigen Dichte U(0,1):

\chi_n^2 = -\frac 12\ln{\left(\prod_{i=1}^m u_i\right)}=-\frac 12\sum_{i=1}^m \ln(u_i),

worin die ui m unabhängige gleichmäßig stetig verteilte Zufallsvariablen sind.

Für ungerade n gilt dagegen

\chi_n^2 = \chi_{n-1}^2 + \left[\mathcal{N}(0,1)\right]^{2}

[Bearbeiten] Herleitung der Dichtefunktion

Die Dichte der Zufallsvariable \chi^2_n=X_1^2+\dotsb + X_n^2, mit X_1,\dots ,X_n unabhängig und standardnormalverteilt, ergibt sich aus der gemeinsamen Dichte der Zufallsvariablen X_1,\dots ,X_n. Diese gemeinsame Dichte ist das n-fache Produkt der Standardnormalverteilungsdichte:

f_{X_1,\dots ,X_n}(x_1,\dots ,x_n)=\prod_{i=1}^n \frac{e^{-\frac12 x_i^2}}{\sqrt{2\pi}}=(2\pi)^{-\frac n2} e^{-\frac 12 (x_1^2+ \dotsb +x_n^2)}.

Für die gesuchte Dichte gilt:


\begin{align}
f_{\chi^2_n}(z) & =\lim_{h\to 0} \tfrac 1h P(z< \chi^2_n \le z+h) \\
& =\lim_{h\to 0} \tfrac 1h \int\limits_K (2\pi)^{-\frac n2} e^{-\frac 12 (x_1^2+ \dotsb +x_n^2)}\,dx_1 \ldots dx_n \\
& =(2\pi)^{-\tfrac n2} e^{-\frac z2} \lim_{h\to 0} \tfrac 1h \int\limits_K dx_1\ldots dx_n \\
\end{align}

mit K=\{z\leq x_1^2+ \dotsb +x_n^2\leq z+h\}.

Im Grenzwert ist die Summe im Argument der Exponentialfunktion gleich z, sie darf deshalb vor das Integral und den Limes gezogen werden.

Das verbleibende Integral

\int\limits_K dx_1\ldots dx_n = V_n(\sqrt{z+h})-V_n(\sqrt z)

entspricht dem Volumen der Schale zwischen der Kugel mit Radius \sqrt{z+h} und der Kugel mit Radius \sqrt z ,

wobei V_n(R)= \frac{\pi^{\frac n2}R^n}{\Gamma(\frac n2+1)} das Volumen der n-dimensionalen Kugel mit Radius R angibt.

Es folgt: 
\lim_{h\to 0} \frac 1h \int\limits_K dx_1\ldots dx_n = \frac{dV_n(\sqrt{z})}{dz} =\frac{\pi^{\tfrac n2}z^{\tfrac n2-1}}{\Gamma(\tfrac n2)}

und nach Einsetzen in den Ausdruck für die gesuchte Dichte:


f_{\chi^2_n}(z)= \frac{z^{\frac n2-1}e^{-\frac z2}}{2^{\frac n2}\Gamma(\frac n2)}
.

[Bearbeiten] Quantilfunktion

Die Quantilfunktion der χ2-Verteilung xp ist die Lösung der Gleichung p=P(\tfrac n2 , \tfrac {x_p}2) und damit prinzipiell über die Umkehrfunktion zu berechnen. Konkret gilt hier

x_p=2 P^{-1}\left(\tfrac n2 ,p\right),

mit P − 1 als Inverse der regularisierten unvollständigen Gammafunktion. Dieser Wert xp ist in der Quantiltabelle unter den Koordinaten p und n eingetragen.

Für wenige Werte n (1, 2, 4) kann man die Quantilfunktion explizit angeben:

 n=1:  x_p=2 (\operatorname{Erf}^{-1}(p))^2 ,
 n=2:  x_p=-2\, \ln(1-p),
 n=4:  x_p=-2 \,(1+W_{-1}(-(1-p)/e)) ,

wobei  \operatorname{Erf} die Fehlerfunktion, W_{-1}(x)\, den unteren Zweig der Lambertschen W-Funktion bezeichnet und e die Eulersche Zahl.

[Bearbeiten] Literatur

  • Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener: Statistik. 12. Auflage. Oldenbourg, 1999, ISBN 3-486-24984-3, S. 152 ff.

[Bearbeiten] Einzelnachweise

  1. F. R. Helmert. In: Zeitschrift fuer Math. und Physik 21, 1875, S. 102-219. Karl Pearson: On the Criterion that a Given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it Can Reasonably Be Supposed to have Arisen from Random Sampling. In: Philosophical Magazine 5, Band 50, 1900, S. 157-175. Zitiert nach L. Schmetterer: Mathematische Statistik. Springer, Wien 1966, S. 93
  2. Wolfram Mathworld
  3. Albert H. Nuttall: Some Integrals Involving the QM Function. In: IEEE Transactions on Information Theory. Nr. 21, 1975, ISSN 0018-9448, S. 95–96 (IEEE Xplore).
  4. Helmert, Astronomische Nachrichten 88, 1876, S.113-132

[Bearbeiten] Weblinks

Meine Werkzeuge
Namensräume
Varianten
Aktionen
Navigation
Mitmachen
Drucken/exportieren
Werkzeuge
In anderen Sprachen