Formelsammlung Stochastik

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Dies ist eine Formelsammlung zu dem mathematischen Teilgebiet Stochastik einschließlich Wahrscheinlichkeitsrechnung, Kombinatorik, Zufallsvariablen und Verteilungen sowie Statistik.

Notation[Bearbeiten]

In der Stochastik gibt es neben der üblichen mathematischen Notation und den mathematischen Symbolen folgende häufig verwendete Konventionen:

Wahrscheinlichkeitsrechnung[Bearbeiten]

Im Folgenden sei stets ein Wahrscheinlichkeitsraum (\Omega, \Sigma, P) gegeben. Darin ist der Ergebnisraum \Omega eine beliebige nichtleere Menge, \Sigma eine σ-Algebra von Teilmengen von \Omega, die \Omega enthält, und P ein Wahrscheinlichkeitsmaß auf \Omega.

Grundlagen[Bearbeiten]

Axiome: Jedem Ereignis A \in \Sigma wird eine Wahrscheinlichkeit P(A) zugeordnet, so dass gilt:

0\le P(A)\le 1,
P(\Omega)=1\, ,
für paarweise disjunkte Ereignisse A_1, A_2, \dots gilt P(A_1\cup A_2 \cup \dots)=P(A_1)+P(A_2)+\dots

Rechenregeln: Aus den Axiomen ergibt sich:

P(\emptyset) = 0
Für A \subset B gilt P(B \setminus A) = P(B) - P(A), insbesondere P(A) \le P(B)
Für das Gegenereignis \overline{A} = \Omega\setminus A gilt P(\overline{A}) = 1 - P(A)
P(A \cup B) = P(A) + P(B) - P(A \cap B)

Laplace-Experimente

P(A)=\frac{|A|}{|\Omega|} ={\rm \frac{Anzahl\;der\;g\ddot unstigen\;Ergebnisse}{Anzahl\;der\;m\ddot oglichen\;Ergebnisse}}

Bedingte Wahrscheinlichkeit

P(A \vert B) = P_{B}(A) = \frac{P(A \cap B)}{P(B)}

Satz von Bayes:

P(B \vert A) =\frac{P(B) P(A \vert B)}{P(B) P(A \vert B) + P(\overline{B}) P(A \vert \overline{B})}

Unabhängigkeit:

Zwei Ereignisse A, B sind unabhängig \Leftrightarrow P(A \cap B) = P(A) \cdot P(B)

Kombinatorik[Bearbeiten]

Fakultät: Anzahl der Möglichkeiten beim Ziehen aller n Kugeln aus einer Urne (ohne Zurücklegen):

n! = n\cdot(n-1)\cdot(n-2)\cdot \dots \cdot 3 \cdot 2 \cdot 1=n\cdot(n-1)!

wobei 0!=1!=1

  ohne Wiederholung
(von n Elementen)
 
(a,b,c)
mit Wiederholung
(von r + s + ... + t = n Elementen,
von denen jeweils r, s ... t nicht unterscheidbar sind)
(a,a,b)
Permutation
(a,b) \ne (b,a)
~n!~ \frac{(r + s + \ldots + t)!}{r! \cdot s! \cdot \ldots \cdot t!} = \frac{n!}{r! \cdot s! \cdot \ldots \cdot t!}

Binomialkoeffizient „n über k“

{n \choose k} = {n! \over k!(n-k)!}

Anzahl der Möglichkeiten beim Ziehen von k Kugeln aus einer Urne mit n Kugeln:

  ohne Wiederholung
(siehe Hypergeometrische Verteilung)
(a,b,c)
\{a,b,c\}
mit Wiederholung
(siehe Binomialverteilung)
(a,a,b)
\{a,a,b\}
Variation
(a,b) \ne (b,a)
{n \choose k}{\cdot k!} = \frac{n!}{ \left( n-k \right) !} ~n^k~
Kombination
\{a,b\} = \{b,a\}
{n \choose k} = \frac{n!}{{\left( n-k \right) !} \cdot k!} \left(\!\!{n \choose k}\!\!\right) = {n + k -1 \choose k} = \frac{ \left( n + k -1 \right)! }{{\left( n-1 \right)!  \cdot k!} }

Zufallsvariablen[Bearbeiten]

Diskrete Zufallsgrößen[Bearbeiten]

Eine Funktion f heißt Wahrscheinlichkeitsfunktion einer diskreten Zufallsgröße X, wenn folgende Eigenschaften erfüllt sind:

  1. Für alle x \in \mathbb{Z} gilt f(x) \ge 0
  2.  \sum_{ x \in \Z} f(x)= 1

Für die zugehörige Zufallsvariable gilt dann:

 P(X=x) = f(x)

Eine Zufallsgröße X und deren Verteilung heißen diskret, falls die Funktion f(x)=P(X=x) die Eigenschaft (2) hat. Man nennt f(x) die Wahrscheinlichkeitsfunktion von X.

 E(X) = \mu =  \sum_{ x \in \Z}\, x\cdot f(x)
 E(g(X)) = \sum_{ x \in \Z}\, g(x) \cdot f(x)
 V(X) = \sigma ^2 = \sum_{ x \in \Z}\, (x- \mu )^2 \cdot f(x)

Stetige Zufallsgrößen[Bearbeiten]

Eine Funktion f heißt Dichte(Funktion) einer stetigen Zufallsgröße X, wenn folgende Eigenschaften erfüllt sind:

  1. Für alle x \in \mathbb{R} gilt f(x) \ge 0
  2.  \int\limits_{-\infty}^{+\infty} f(x)\mathrm dx = 1

Für eine stetige Zufallsgröße gilt dann:

 P(a \le X \le b) = \int\limits_{a}^{b} f(x) \mathrm dx

Eine Zufallsgröße X und deren Verteilung heißen stetig, falls es eine geeignete Dichtefunktion f mit dieser Eigenschaft gibt. Die Funktion f heißt Dichte(Funktion) von X.

Für die Wahrscheinlichkeit gilt

P(X=a) = 0\, für alle a\in \mathbb{R}
P(a \le X \le b)=P(a < X \le b)=P(a \le X < b)=P(a < X < b)

Erwartungswert und Varianz sind gegeben durch

 E(X) = \mu = \int\limits_{-\infty}^{+\infty} x \cdot f(x) \mathrm dx
 E(g(X)) = \int\limits_{-\infty}^{+\infty} g(x) \cdot f(x) \mathrm dx
 V(X) = \sigma ^2 = \int\limits_{-\infty}^{+\infty} (x- \mu )^2 \cdot f(x) \mathrm dx

Erwartungswert, Varianz, Kovarianz, Korrelation[Bearbeiten]

Für den Erwartungswert E(X), die Varianz V(X), die Kovarianz \operatorname{Cov}(X,Y) und die Korrelation \varrho(X,Y) gelten:

E(aX+b) = aE(X) + b
E(X+Y) = E(X) + E(Y), allgemein E(\sum_{i=1}^n X_i) = \sum_{i=1}^n E(X_i)
Für unabhängige Zufallsvariablen X_i gilt: E(\prod_{i=1}^n X_i) = \prod_{i=1}^n E(X_i)
V(X) = E((X-E(X))^2) = E(X^2) - E(X)^2
V(aX + b) = a^2V(X)
Für unabhängige Zufallsvariablen X_i gilt: V(\sum_{i=1}^n X_i) = \sum_{i=1}^n V(X_i)
\operatorname{Cov}(X,Y) = E((X-E(X))(Y-E(Y))) = E(XY) - E(X)E(Y)
\operatorname{Cov}(X,Y)=\operatorname{Cov}(Y,X)
\operatorname{Cov}(aX+b,Y) = a\operatorname{Cov}(X,Y)
\operatorname{Cov}(X_1+X_2,Y) = \operatorname{Cov}(X_1,Y) + \operatorname{Cov}(X_2,Y)
V(X+Y) = V(X) + V(Y) + 2\operatorname{Cov}(X,Y)
\varrho(X,Y) = \frac{\operatorname{Cov}(X,Y)}{\sqrt{V(X)}\sqrt{V(Y)}}

Tschebyschow-Ungleichung:

P(|X-E(X)|\ge\alpha)\le\frac{V(x)}{\alpha^2}

Spezielle Verteilungen[Bearbeiten]

Binomialverteilung[Bearbeiten]

Gegeben ist n-stufiger Bernoulli-Versuch (d.h. n mal dasselbe Experiment, unabhängig voneinander, mit nur zwei möglichen Ausgängen und konstanten Wahrscheinlichkeiten) mit der Erfolgswahrscheinlichkeit p und der Misserfolgswahrscheinlichkeit q=1-p. Die Wahrscheinlichkeitsverteilung der Zufallsgröße X: Anzahl der Erfolge heißt Binomialverteilung.

Die Wahrscheinlichkeit für k Erfolge berechnet sich nach der Formel:

P(X=k) = \binom nk \cdot p^k \cdot q^{n-k}

Erwartungswert:

\mu=E(X)=n \cdot p

Varianz:

\sigma^2 = V(X) = n \cdot p \cdot q

Standardabweichung:

\sigma = \sigma(X)= \sqrt{V(X)} = \sqrt{n \cdot p \cdot q}

σ-Regeln[Bearbeiten]

(Wahrscheinlichkeiten von Umgebungen des Erwartungswertes bei Binomialverteilungen) Zwischen dem Radius einer Umgebung um den Erwartungswert und der zugehörigen Wahrscheinlichkeit der Umgebung gelten folgende Zuordnungen (falls \sigma >3):

Radius der Umgebung Wahrscheinlichkeit der Umgebung
0,68
0,955
0,997
Wahrscheinlichkeit der Umgebung Radius der Umgebung
0,90 1,64σ
0,95 1,96σ
0,99 2,58σ

Standardisieren einer Verteilung[Bearbeiten]

Hat die Zufallsvariable X eine Verteilung mit Erwartungswert EX=μ und Standardabweichung σ, dann wird die standardisierte Variable X* definiert durch

X^*=\frac{X-\mu}{\sigma}.

Die standardisierte Variable X* hat den Erwartungswert 0 und die Standardabweichung 1.

Poisson-Näherung[Bearbeiten]

Gegeben sei eine Binomialverteilung mit großem Stichprobenumfang n ≥ 100 und kleiner Erfolgswahrscheinlichkeit p≤0,1. Mithilfe von \mu=n\cdot p kann man dann näherungsweise die Wahrscheinlichkeit für k Erfolge berechnen:

 P(X=0) \approx e^{- \mu}
 P(X=k) \approx \frac{\mu}{k} \cdot P(X=k-1)

Die Beziehungen lassen sich zusammenfassen zu:

 P(X=k) \approx \frac{\mu ^k}{k!} \cdot e^{- \mu}

Poisson-Verteilung[Bearbeiten]

Gilt für die Verteilung einer Zufallsgröße X

 P(X=k) = \frac{\mu ^k}{k!} \cdot e^{- \mu}

Näherungsformeln von Moivre und Laplace[Bearbeiten]

Sei X eine binomialverteilte Zufallsgröße mit σ>4 (brauchbare Näherung besser σ>9). Die Wahrscheinlichkeit für genau und höchstens k Erfolge lässt sich näherungsweise berechnen durch:

P(X=k) \approx {1 \over \sigma}\cdot\varphi \left({k-\mu \over \sigma}\right)
P(X \le k) = F_X(k) \approx \varphi \left({k-\mu \over \sigma}\right)

Standardnormalverteilung[Bearbeiten]

Die Dichte(Funktion) \varphi (auch als Glockenkurve bekannt) der Standardnormalverteilung ist definiert durch:

 \varphi(x) = \frac{1}{\sqrt{2 \pi}}\, \mathrm{e}^{-\frac{1}{2} x^2}

und die Verteilungsfunktion \Phi durch:

\Phi(z) = \int\limits_{-\infty}^{z} \varphi (x) d x

Näherungsformeln für eine diskrete Verteilung unter Anwendung der Kontinuitätkorrektur:

P(X=k) \approx \Phi \left( \frac{k+0{,}5-\mu}{\sigma}\right) - \Phi \left( \frac{k-0{,}5-\mu}{\sigma}\right)
P(X\le k) \approx \Phi \left( \frac{k+0{,}5-\mu}{\sigma}\right)
P(a\le X\le b) \approx \Phi \left( \frac{b+0{,}5-\mu}{\sigma}\right) - \Phi \left( \frac{a-0{,}5-\mu}{\sigma}\right)

Hypergeometrische Verteilung[Bearbeiten]

In einer Grundgesamtheit vom Umfang N seien zwei Merkmalsausprägungen vom Umfang K bzw. N-K vertreten. Eine Stichprobe vom Umfang n werde genommen. Dann nennt man die Verteilung der Zufallsgröße: X: Anzahl der Exemplare der 1. Merkmalsausprägung in der Stichprobe einer hypergeometrischen Verteilung.

Die Wahrscheinlichkeit, dass in der Stichprobe vom Umfang n genau k Exemplare der 1. Merkmalsausprägung sind, ist:

P(X=k)={\binom{K}{k}\cdot\binom{N-K}{n-k}\over\binom{N}{n}}

N = Anzahl der Elemente, K = Anzahl der positiven Elemente, n = Anzahl der Ziehungen, k = Anzahl der Erfolge.

Sei p=\tfrac KN der Anteil, mit dem die 1. Merkmalsausprägung in der Gesamtheit vorkommt, dann gilt:

 \mu = E(X) = n\cdot p = n\cdot \frac{K}{N}
 \sigma^2 = V(X) = n\cdot p (1-p) \frac{N-n}{N-1}= n\cdot \frac{K}{N}\left(1-\frac{K}{N}\right)\frac{N-n}{N-1}

Geometrische Verteilung[Bearbeiten]

Gegeben ist ein Bernoulli-Versuch mit Erfolgswahrscheinlichkeit p. Die Verteilung der Zufallsgröße W: Anzahl der Stufen bis zum ersten Erfolg heißt geometrische Verteilung. Es gilt:

P(W=k) = p\cdot q^{k-1} (Erfolg genau beim k-ten Versuch)
\, P(W > k)=q^{k} (k Misserfolge hintereinander bzw. der erste Erfolg kommt erst nach dem k-ten Versuch)
P(W\le k)=1-q^{k} (Erfolg spätestens beim k-ten Versuch bzw. bis zum k-ten. Versuch tritt mindestens ein Erfolg ein)

Der Erwartungswert ist

 E(W) = \frac{1}{p}

Weitere[Bearbeiten]

Die unzähligen weiteren speziellen Verteilungen können hier nicht alle aufgeführt werden, es sei auf die Liste univariater Wahrscheinlichkeitsverteilungen verwiesen.

Approximationen von Verteilungen[Bearbeiten]

Unter gewissen Approximationsbedingungen können Verteilungen auch durcheinander approximiert werden um Berechnungen zu vereinfachen. Je nach Lehrbuch können die Approximationsbedingungen etwas unterschiedlich sein.

Nach
Von B(n, p) Po(\lambda) N(\mu,\sigma)
Diskrete Verteilungen
Binomialverteilung
B(n, p)
-- n>10, p<0{,}05,
\lambda:=np
np(1-p)\geq 9,
\mu:=np, \sigma^2:=np(1-p)
Hypergeometrische Verteilung
Hyp(N, M, n)
\frac{n}{N}<0{,}05
p:=\frac{M}{N}
n>10, \frac{M}{N} < 0{,}05,
\lambda:=n\frac{M}{N}
n\frac{M}{N}\left(1-\frac{M}{N}\right)\geq 9
\mu := n\frac{M}{N}, \sigma^2 := n\frac{M}{N}\left(1-\frac{M}{N}\right)\frac{N-n}{N-1}
Poisson-Verteilung
Po(\lambda)
-- \lambda>9,
\mu:=\lambda, \sigma^2:=\lambda
Stetige Verteilungen
Chi-Quadrat-Verteilung
\chi^2_n
n>30
\mu:=n, \sigma^2:=2n
Studentsche t-Verteilung
t_n
n>30
\mu:=0, \sigma^2:=1
Normalverteilung
N(\mu,\sigma)
--

Bei dem Übergang von einer diskreten Verteilung zu einer stetigen Verteilung kommt auch noch eine Stetigkeitskorrektur (wenn \sigma^2\leq 9 oder n\leq 60) in Betracht P(a \leq X_\text{diskret} \leq b) \approx P(a - 0{,}5 \leq X_\text{stetig} \leq b + 0{,}5) und insbesondere P(X_{diskret}=a) \approx P(a - 0{,}5 \leq X_\text{stetig} \leq a + 0{,}5).[1]

Kritische Werte[Bearbeiten]

Das \alpha-Level ist der Wert einer Wahrscheinlichkeitsverteilung für den gilt: F(x_\alpha) = \alpha. Es gibt eine Standardnotation für einige häufig verwendete Verteilungen:

Statistik[Bearbeiten]

Beschreibende Statistik[Bearbeiten]

Lagemaße[Bearbeiten]

Arithmetisches Mittel: \bar x = \frac{1}{n} \sum_{i=1}^n{x_i} = \frac{x_1 + x_2 + \cdots + x_n}{n}

Median

Modus

Streuungsmaße[Bearbeiten]

Stichprobenvarianz: s^2=\frac{1}{n}\sum\limits_{i=1}^n\left(x_i-\bar x\right)^2 = \frac{1}{n}\left(\sum\limits_{i=1}^n x_i^2 \right) - \bar{x}^2

Standardabweichung: s = \sqrt{s^2} = \sqrt{\frac{1}{n}\sum\limits_{i=1}^n\left(x_i-\bar x\right)^2}

Zusammenhangsmaße[Bearbeiten]

Empirische Kovarianz:

s_{xy} = \frac{1}{n}\sum_{i=1}^n{(x_i-\bar{x}) (y_i-\bar{y})} = \frac{1}{n} \left( \sum_{i=1}^n x_i y_i \right) - \bar{x}\bar{y},

Empirischer Korrelationskoeffizient:

r_{xy} = \frac{s_{xy}}{s_x \cdot s_y} = \frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sqrt{\sum(x_i-\bar x)^2\sum (y_i-\bar y)^2}}

Gleichung der Regressionsgeraden: y=ax+b mit

a=\frac{s_{xy}}{s_x^2}=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}
b=\bar y-a\bar x,

wobei \bar x und \bar y die arithmetischen Mittel bedeuten.

Mittelwerte[Bearbeiten]

Mittelwert Zwei Zahlen Allgemein
Modus Ausprägung mit höchster Häufigkeit
Median (Zentralwert) Sofern x_1, \dotsc, x_n sortiert sind:

\bar{x}_\mathrm{med} =\begin{cases}
 x_{(\frac{n+1}{2})}, & n\text{ ungerade,}\\
 \frac 12\left(x_{({\frac n2})} + x_{({\frac n2+1})}\right), & n \text{ gerade.}
\end{cases}

Arithmetisches Mittel \frac{a+b}2  \bar{x}_{\mathrm{arithm}} = \frac{1}{n} \sum_{i=1}^n{x_i} = \frac{x_1 + x_2 + \dotsb + x_n}{n}
Geometrisches Mittel \sqrt{ab}  \bar{x}_\mathrm{geom} = \sqrt[n]{\prod_{i=1}^n{x_i}} = \sqrt[n]{x_1 \cdot x_2 \dotsm x_n}
Harmonisches Mittel \frac2{\frac1a+\frac1b}  \bar{x}_\mathrm{harm} = \frac{n}{\sum\limits_{i=1}^n \frac{1}{x_i}} = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + \dotsb + \frac{1}{x_n}}
Quadratisches Mittel \sqrt{\frac{a^2+b^2}2}  \bar{x}_\mathrm{quadr} = \sqrt{\frac{1}{n}\sum_{i=1}^n{x_i^2}} = \sqrt {{x_1^2 + x_2^2 + \dotsb + x_n^2} \over n}

Schließende Statistik[Bearbeiten]

Parameter[Bearbeiten]

Im Allgemeinen werden in der Statistik unbekannte Parameter der Grundgesamtheit oder eines Modells mit griechische Buchstaben (z. B. \theta, \beta) bezeichnet.

  • Das arithmetische Mittel in der Grundgesamtheit: \mu.
  • Die Varianz in der Grundgesamtheit: \sigma^2.
  • Den Anteilswert einer dichotomen Variablen in der Grundgesamtheit: \pi.
  • Der Achsenabschnitt \beta_0 und die Steigung \beta_1 in einfachen linearen Regressionsmodell Y_i=\beta_0+\beta_1 x_i+U_i.

Schätzfunktionen[Bearbeiten]

Eine Schätzfunktion für einen unbekannten Parameter wird häufig durch einen Großbuchstaben der Parameterbezeichnung aus der beschreibende Statistik bezeichnet. Die Schätzfunktion ergibt sich aus den Stichprobenvariablen X_1, \ldots, X_n.

Parameter Bedingung Schätzfunktion Verteilung
\mu \bar{X}=\frac1n \sum_{i=1}^n X_i 1. X_i\sim N(\mu; \sigma^2) \Rightarrow \bar{X} \sim N(\mu;\sigma^ 2/n)

2. Wenn der zentrale Grenzwertsatz gilt, dann gilt \bar{X} \approx N(\mu;\sigma^ 2/n)

\sigma^2 \mu bekannt S^{*2}=\frac1n \sum_{i=1}^n (X_i-\mu)^2 X_i\sim N(\mu; \sigma^2) \Rightarrow \frac{nS^{*2}}{\sigma^2} \sim \chi^2_{n}
\sigma^2 \mu unbekannt S_n^2=\frac1{n-1} \sum_{i=1}^n (X_i-\bar{X})^2 X_i\sim N(\mu; \sigma^2) \Rightarrow \frac{(n-1)S_n^{2}}{\sigma^2} \sim \chi^2_{n-1}
\pi \Pi=\frac1n \sum_{i=1}^n X_i 1. Ziehen mit Zurücklegen: \Pi\sim B(n; \pi)

2. Ziehen ohne Zurücklegen: \Pi\sim Hyp(N; M; n)
    mit M=\pi\cdot N und N der Umfang der Grundgesamtheit.

\beta_0, \beta_1 B_k=\sum_{i=1}^n Y_i w_i^{(k)}(x_1,\ldots,x_n) Wenn U_i\sim N(0; \sigma_u^ 2), dann folgt B_k \sim N(\beta_k; \sigma_{B_k}^2)

Punktschätzer und Konfidenzintervalle[Bearbeiten]

Parameter Punktschätzer 1-\alpha Konfidenzintervall
\mu \hat{\mu}=\bar{x}=\frac1n \sum_{i=1}^n x_i 1. Wenn \sigma bekannt: [\bar{X}-z_{1-\alpha/2}\sigma/\sqrt{n};\bar{X}+z_{1-\alpha/2}\sigma/\sqrt{n}]
2. Wenn \sigma unbekannt: [\bar{X}-t_{n-1;1-\alpha/2}S/\sqrt{n};\bar{X}+t_{n-1;1-\alpha/2}S/\sqrt{n}]
\sigma^2 \hat{\sigma}^2=s_n^2=\frac1{n-1} \sum_{i=1}^n (x_i-\bar{x})^2
\pi \hat{\pi}=p=\frac1n \sum_{i=1}^n x_i 1. Ziehen mit Zurücklegen: Wenn \Pi\approx N\left(\pi; \tfrac{\pi(1-\pi)}{n}\right), dann gilt approximativ:

\left[\Pi-z_{1-\alpha/2} \sqrt{\tfrac{\pi(1-\pi)}{n}}; \Pi+z_{1-\alpha/2} \sqrt{\tfrac{\pi(1-\pi)}{n}}\right]

2. Ziehen ohne Zurücklegen: Wenn \Pi\approx N\left(\pi; \tfrac{\pi(1-\pi)}{n}\tfrac{N-n}{N-1}\right), dann gilt approximativ:

\left[\Pi-z_{1-\alpha/2} \sqrt{\tfrac{\pi(1-\pi)}{n} \tfrac{N-n}{N-1}}; \Pi+z_{1-\alpha/2} \sqrt{\tfrac{\pi(1-\pi)}{n} \tfrac{N-n}{N-1}}\right]

Bei der Berechnung eines Schätzintervalls mittels einer Stichprobe in 1. und 2. wird \pi durch p ersetzt.

Einzelnachweise[Bearbeiten]

  1. Yates, F. (1934). Contingency table involving small numbers and the χ2 test. Supplement to the Journal of the Royal Statistical Society 1(2): 217-235. JSTOR Archive for the journal

Weblinks[Bearbeiten]