Kreuzentropie

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Die Kreuzentropie ist in der Informationstheorie und der mathematischen Statistik ein Maß für die Qualität eines Modells für eine Wahrscheinlichkeitsverteilung.

Definition[Bearbeiten]

Sei X eine Zufallsvariable mit Zielmenge \Omega, die gemäß P verteilt ist. Es sei weiter Q einer Verteilung auf demselben Ereignisraum.

Dann ist die Kreuzentropie definiert durch:

H(X;P;Q) = H(X) + D(P \Vert Q)

Hierbei bezeichne H(X) die Entropie von X und D(P \| Q) die Kullback-Leibler-Divergenz der beiden Verteilungen.

Äquivalente Formulierung[Bearbeiten]

Durch Einsetzen der beiden Definitionsgleichungen ergibt sich nach Vereinfachung im diskreten Fall

H(X;P;Q) = -\sum_{x \in \Omega} P(X=x) \cdot \log Q(X=x)\,.

und im stetigen Fall (mit Dichtefunktionen p und q)

H(X;P;Q) = -\int_{\Omega} p(x) \cdot \log q(x) \mathrm{d}x

Schätzung[Bearbeiten]

Zwar hat die Kreuzentropie eine vergleichbare Aussagekraft wie die reine Kullback-Leibler-Divergenz, erstere lässt sich jedoch auch ohne genaue Kenntnis von P schätzen. In der praktischen Anwendung ist daher Q meist eine Approximation einer unbekannten Verteilung P.

Nach obiger Gleichung gilt:

H(X;P;Q) = E(-\log Q(X))

Wobei E den Erwartungswert bezeichne.

Sind nun x_1; \dots ;x_n \in \Omega Realisierungen von X, d.h. eine unabhängig und identisch gemäß P verteilte Stichprobe, so ist also

H(Q;n) = - \frac{1}{n} \sum_{i=1}^n \log Q(x_i)

ein erwartungstreuer Schätzer für die Kreuzentropie.

Abgeleitete Größen[Bearbeiten]

Die Größe 2^{H(X;P;Q)} beziehungsweise 2^{H(X)} wird auch als Perplexität bezeichnet. Sie wird vor allem in der Spracherkennung verwendet.

Literatur & Weblinks[Bearbeiten]