Kreuzentropie

Die Kreuzentropie ist in der Informationstheorie und der mathematischen Statistik ein Maß für die Qualität eines Modells für eine Wahrscheinlichkeitsverteilung. Eine Minimierung der Kreuzentropie in Bezug auf die Modellparameter kommt einer Maximierung der Log-Likelihood-Funktion gleich.

Definition[Bearbeiten | Quelltext bearbeiten]

Sei $X$ eine Zufallsvariable mit Zielmenge $\Omega$ , die gemäß $P$ verteilt ist. Es sei weiter $Q$ eine Verteilung auf demselben Ereignisraum.

Dann ist die Kreuzentropie definiert durch:

H(X;P;Q)=H(X)+D(P\Vert Q)

Hierbei bezeichne $H(X)$ die Entropie von $X$ und $D(P\|Q)$ die Kullback-Leibler-Divergenz der beiden Verteilungen.

Äquivalente Formulierung[Bearbeiten | Quelltext bearbeiten]

Durch Einsetzen der beiden Definitionsgleichungen $H(X)=-\sum _{x\in X}P(x)\log P(x)$ und $D(P\|Q)=\sum _{x\in X}P(x)\cdot \log {\frac {P(x)}{Q(x)}}$ ergibt sich nach Vereinfachung im diskreten Fall

H(X;P;Q)=-\sum _{x\in \Omega }P(X=x)\cdot \log Q(X=x)\,.

und im stetigen Fall (mit Dichtefunktionen $p$ und $q$ )

H(X;P;Q)=-\int _{\Omega }p(x)\cdot \log q(x)\mathrm {d} x

Schätzung[Bearbeiten | Quelltext bearbeiten]

Zwar hat die Kreuzentropie eine vergleichbare Aussagekraft wie die reine Kullback-Leibler-Divergenz, erstere lässt sich jedoch auch ohne genaue Kenntnis von $P$ schätzen. In der praktischen Anwendung ist daher $Q$ meist eine Approximation einer unbekannten Verteilung $P$ .

Nach obiger Gleichung gilt:

H(X;P;Q)=E_{P}(-\log Q(X))

,

wobei $E$ den Erwartungswert gemäß der Verteilung $P$ bezeichnet.

Sind nun $x_{1};\dots ;x_{n}\in \Omega$ Realisierungen von $X\sim P$ , d. h. eine unabhängig und identisch gemäß $P$ verteilte Stichprobe. Dann ist der Stichprobenmittelwert ein erwartungstreuer Schätzer für die Kreuzentropie, welcher nach dem Gesetz der großen Zahlen konvergiert und seine Realisierung ist

{\hat {H}}(Q;n)=-{\frac {1}{n}}\sum _{i=1}^{n}\log Q(x_{i}).

Zusammenhang mit Log-Likelihood-Funktion[Bearbeiten | Quelltext bearbeiten]

Gegeben sei ein Modell mit Parametern $\theta$ und (Ausgabe-)Wahrscheinlichkeitsdichte $q_{\theta }$ welches die Wahrscheinlichkeitsdichte $p_{\mathrm {data} }$ annähern soll. Der wahre Wert der Parameter^[1] $\theta$ maximiert die erwartete Log-Likelihood-Funktion $E[\log(q_{\theta }(x))]=\int _{\Omega }dxp_{\mathrm {data} }(x)\log q_{\theta }(x)=-H(X;p_{\mathrm {data} },q_{\theta }).$

Diese Gleichungen können mithilfe von Stichproben genähert werden: $E[\log(q_{\theta }(x))]\approx {\widehat {\mathbf {E} }}_{n}[\log q_{\theta }(x);p_{\mathrm {data} }]={\frac {1}{n}}\sum _{i=1}^{n}\log q_{\theta }(x_{i})=-{\hat {H}}(X;p_{\mathrm {data} },q_{\theta })$ , wobei die Näherung wie unter Stichprobenmittelwert dargestellt folgt. Beachte, das Auftreten der Log-Likelihood-Funktion $l=\sum _{i}\log q_{\theta }(x_{i})$ in der Näherung, wobei die Skalierung ${\frac {1}{n}}$ die Lage des Maximums nicht verändert.

Abgeleitete Größen[Bearbeiten | Quelltext bearbeiten]

Die Größe $2^{H(X;P;Q)}$ beziehungsweise $2^{H(X)}$ wird auch als Perplexität bezeichnet. Sie wird vor allem in der Spracherkennung verwendet.

Siehe auch[Bearbeiten | Quelltext bearbeiten]

Scoring rule

Literatur[Bearbeiten | Quelltext bearbeiten]

Reuven Y. Rubinstein, Dirk P. Kroese: The Cross-Entropy Method – A Unified Approach to Combinatorial Optimization, Monte-Carlo Simulation and Machine Learning. Springer, 2004, ISBN 978-0-387-21240-1, doi:10.1007/978-1-4757-4321-0.

Weblinks[Bearbeiten | Quelltext bearbeiten]

Statistische Sprachmodelle Universität München (PDF; 531 kB)

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

↑ Denis Conniffe: Expected Maximum Log Likelihood Estimation. In: The Statistician. Band 36, Nr. 4, 1987, ISSN 0039-0526, S. 317, doi:10.2307/2348828.

[1] Denis Conniffe: Expected Maximum Log Likelihood Estimation. In: The Statistician. Band 36, Nr. 4, 1987, ISSN 0039-0526, S. 317, doi:10.2307/2348828.

[1]

Kreuzentropie

Inhaltsverzeichnis

Definition[Bearbeiten | Quelltext bearbeiten]

Äquivalente Formulierung[Bearbeiten | Quelltext bearbeiten]

Schätzung[Bearbeiten | Quelltext bearbeiten]

Zusammenhang mit Log-Likelihood-Funktion[Bearbeiten | Quelltext bearbeiten]

Abgeleitete Größen[Bearbeiten | Quelltext bearbeiten]

Siehe auch[Bearbeiten | Quelltext bearbeiten]

Literatur[Bearbeiten | Quelltext bearbeiten]

Weblinks[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

Navigationsmenü

Kreuzentropie

Definition[Bearbeiten | Quelltext bearbeiten]

Äquivalente Formulierung[Bearbeiten | Quelltext bearbeiten]

Schätzung[Bearbeiten | Quelltext bearbeiten]

Zusammenhang mit Log-Likelihood-Funktion[Bearbeiten | Quelltext bearbeiten]

Abgeleitete Größen[Bearbeiten | Quelltext bearbeiten]

Siehe auch[Bearbeiten | Quelltext bearbeiten]

Literatur[Bearbeiten | Quelltext bearbeiten]

Weblinks[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

Navigationsmenü

Suche