Mischverteilung

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Der Begriff Mischverteilung oder zusammengesetzte Verteilung stammt aus der Wahrscheinlichkeitsrechnung.

Es wird zur Einführung ein Merkmal X betrachtet, das zwei Grundgesamtheiten G_1 und G_2 entstammt. Im stochastischen Modell handelt es sich also eigentlich um zwei Zufallsvariablen X_1 und X_2, häufig vom gleichen Verteilungstyp. Die Anteile der beiden Merkmale seien a_1, a_2 \in [0,1] mit a_1 + a_2 = 1. Beobachtet wird die Verteilung von X, die bestimmt wird von der totalen Wahrscheinlichkeit

P(X \le x) =  P(X \le x|X \mbox{ aus } G_1) \cdot a_1 + P(X \le x|X \mbox{ aus } G_2) \cdot a_2

bzw. als Mischverteilung mit den entsprechenden Verteilungsfunktionen

P(X \le x) =  F_1(x) \cdot a_1 + F_2(x) \cdot a_2.

Definition[Bearbeiten]

Lässt sich die Dichtefunktion einer stetigen Zufallsvariablen X als


f(x) = \sum_{k=1}^K a_k f_k ( x)

schreiben, so sagt man, dass X einer Mischverteilung folgt. Dabei sind die f_k(x) Dichtefunktionen von stetigen Zufallsvariablen X_k und die a_k Wahrscheinlichkeiten mit


\sum_{k=1}^{K} a_k = 1
.

Man kann leicht zeigen, dass unter diesen Bedingungen f nichtnegativ ist und


\int_{-\infty}^{\infty} f(x) dx = 1

erfüllt.

Entsprechend ergibt sich die Wahrscheinlichkeitsfunktion einer diskreten Mischverteilung als


\rho(x_i) = \sum_{k=1}^K a_k \rho_k (x_i)

aus den Wahrscheinlichkeitsfunktionen \rho_k von diskreten Zufallsvariablen X_k.

Eigenschaften[Bearbeiten]

Für die Momente von X gilt:


E(X^p) = \sum_{k=1}^K a_k \, E(X_k^p),~p \in \{1,2,3,\dotsc\}.

Dies folgt (im stetigen Fall) aus


E(X^p) = \int_{-\infty}^{\infty} x^p f(x) dx = \int_{-\infty}^{\infty} x^p \left( \sum_{k=1}^K a_k f_k 

(x) \right) dx = \sum_{k=1}^K a_k \left( \int_{-\infty}^{\infty} x^p f_k(x) dx \right).

Eine analoge Rechnung ergibt die Formel für den diskreten Fall.

Schätzen der Parameter[Bearbeiten]

Beispiel einer Mischverteilung, berechnet aus einem Modell mit den Parametern von drei einzelnen gewichteten Gaußverteilungen mit dem EM-Algorithmus. (berechnet mit dem R-Package 'mclust' [1])

Eine Möglichkeit zur Schätzung der Parameter der Wahrscheinlichkeitsdichte einer Mischverteilung ist die Anwendung des EM-Algorithmus (Expectation-Maximization). Damit können sogenannte Gaussian Mixture Models (GMM) berechnet werden, Wahrscheinlichkeitsdichtefunktionen in der Form der gewichteten Summe einzelner unimodaler Gaußverteilungen. Die GMM-Parameter werden von den Trainingsdaten mittels des iterativen EM-Algorithmus berechnet[2]. Mit den Parametern kann das Gaußmodell geschrieben werden als:

f(x|\lambda)={\displaystyle \sum_{k=1}^{K}}a_{k}f_{k}(x|\mu_{k},\Sigma_{k}),

wobei x ein d-dimensionaler Datenvektor (z. B. ein Merkmalsvektor aus Messwerten) ist, a_{k},k=1,\dotsc,M sind die Gewichte der einzelnen Gaußverteilungen von der Form:

f(x|\mu_{k},\Sigma_{k})=\frac{1}{\left(2\pi\right)^{\frac{d}{2}}|\Sigma_{k}|^{\frac{1}{2}}}\exp\left(-\frac{1}{2}(x-\mu_{k})\Sigma_{k}^{-1}(x-\mu_{k})\right)

mit dem Mittelwertvektor \mu_{k} und der Kovarianzmatrix \Sigma_{k}.

Das gemeinsame Gaußmodell wird durch die iterative Berechnung der Parameter \lambda (Mittelwerte, Kovarianzmatrix und Gewichte aus den Daten) erstellt.

Beispiel[Bearbeiten]

Verteilung des Gewichts der Forellen (g)

Ein Forellenzüchter verkauft Forellen in großen Mengen. Es wird im Herbst beim Leeren der Teiche eine Bestandsaufnahme gemacht. Dabei werden die herausgefischten Forellen gewogen. Es ergibt sich die Verteilung des Gewichts, wie in der Grafik zu ersehen ist. Die Zweigipfligkeit der Verteilung deutet auf eine Mischverteilung hin. Es stellt sich heraus, dass die Forellen zwei verschiedenen Teichen entstammen. Die Forellengewichte aus dem ersten Teich sind normalverteilt mit dem Erwartungswert 400 g und der Varianz 4900 g2 und die aus dem zweiten Teich mit dem Erwartungswert 600 g und der Varianz 8100 g2. Aus dem ersten Teich stammen 40 % der Forellen, aus dem zweiten 60 %. Es ergibt sich die Dichtefunktion f(x) = 0{,}4 \cdot \frac {1}{70 \cdot \sqrt{2\pi}} e^{-\frac {1}{2} \left(\frac{x-400}{70}\right)^2} + 0{,}6  \cdot \frac {1}{90 \cdot \sqrt{2\pi}} e^{-\frac {1}{2} \left(\frac{x-600}{90}\right)^2} (siehe Abbildung).

Referenzen[Bearbeiten]

  1. Fraley,Ch., Raftery, A.: 'MCLUST; Version 3 for R: Normal Mixture Modeling and Model-Based Clustering'
  2. Reynold. D.: Gaussian Mixture Models. MIT Lincoln Laboratory.

Siehe auch[Bearbeiten]

Bayessches Theorem, Diskriminanzanalyse, Kontaminierte Normalverteilung