Mischverteilung

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Der Begriff Mischverteilung oder zusammengesetzte Verteilung stammt aus der Wahrscheinlichkeitsrechnung.

Es wird zur Einführung ein Merkmal betrachtet, das zwei Grundgesamtheiten und entstammt. Im stochastischen Modell handelt es sich also eigentlich um zwei Zufallsvariablen und , häufig vom gleichen Verteilungstyp. Die Anteile der beiden Merkmale seien mit . Beobachtet wird die Verteilung von , die bestimmt wird von der totalen Wahrscheinlichkeit

bzw. als Mischverteilung mit den entsprechenden Verteilungsfunktionen

.

Definition[Bearbeiten | Quelltext bearbeiten]

Lässt sich die Dichtefunktion einer stetigen Zufallsvariablen als

schreiben, so sagt man, dass einer Mischverteilung folgt. Dabei sind die Dichtefunktionen von stetigen Zufallsvariablen und die Wahrscheinlichkeiten mit

.

Man kann leicht zeigen, dass unter diesen Bedingungen nichtnegativ ist und

erfüllt.

Entsprechend ergibt sich die Wahrscheinlichkeitsfunktion einer diskreten Mischverteilung als

aus den Wahrscheinlichkeitsfunktionen von diskreten Zufallsvariablen .

Eigenschaften[Bearbeiten | Quelltext bearbeiten]

Für die Momente von gilt:

Dies folgt (im stetigen Fall) aus

Eine analoge Rechnung ergibt die Formel für den diskreten Fall.

Schätzen der Parameter[Bearbeiten | Quelltext bearbeiten]

Beispiel einer Mischverteilung, berechnet aus einem Modell mit den Parametern von drei einzelnen gewichteten Gaußverteilungen mit dem EM-Algorithmus. (berechnet mit dem R-Package 'mclust' [1])

Eine Möglichkeit zur Schätzung der Parameter der Wahrscheinlichkeitsdichte einer Mischverteilung ist die Anwendung des EM-Algorithmus (Expectation-Maximization). Damit können sogenannte Gaussian Mixture Models (GMM) berechnet werden, Wahrscheinlichkeitsdichtefunktionen in der Form der gewichteten Summe einzelner unimodaler Gaußverteilungen. Die GMM-Parameter werden von den Trainingsdaten mittels des iterativen EM-Algorithmus berechnet[2]. Mit den Parametern kann das Gaußmodell geschrieben werden als:

,

wobei ein d-dimensionaler Datenvektor (z. B. ein Merkmalsvektor aus Messwerten) ist, sind die Gewichte der einzelnen Gaußverteilungen von der Form:

mit dem Mittelwertvektor und der Kovarianzmatrix .

Das gemeinsame Gaußmodell wird durch die iterative Berechnung der Parameter (Mittelwerte, Kovarianzmatrix und Gewichte aus den Daten) erstellt.

Beispiel[Bearbeiten | Quelltext bearbeiten]

Verteilung des Gewichts der Forellen (g)

Ein Forellenzüchter verkauft Forellen in großen Mengen. Es wird im Herbst beim Leeren der Teiche eine Bestandsaufnahme gemacht. Dabei werden die herausgefischten Forellen gewogen. Es ergibt sich die Verteilung des Gewichts, wie in der Grafik zu ersehen ist. Die Zweigipfligkeit der Verteilung deutet auf eine Mischverteilung hin. Es stellt sich heraus, dass die Forellen aus zwei verschiedenen Teichen stammen. Die Forellengewichte aus dem ersten Teich sind normalverteilt mit dem Erwartungswert 400 g und der Varianz 4900 g2 und die aus dem zweiten Teich mit dem Erwartungswert 600 g und der Varianz 8100 g2. Aus dem ersten Teich stammen 40 % der Forellen, aus dem zweiten 60 %. Es ergibt sich die Dichtefunktion (siehe Abbildung).

Siehe auch[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. Fraley,Ch., Raftery, A.: 'MCLUST; Version 3 for R: Normal Mixture Modeling and Model-Based Clustering'
  2. Reynold. D.: Gaussian Mixture Models. MIT Lincoln Laboratory.