Bedingte Entropie
In der Informationstheorie ist die bedingte Entropie ein Maß für die „Ungewissheit“ über den Wert einer Zufallsvariablen
, welche verbleibt, nachdem das Ergebnis einer anderen Zufallsvariable
bekannt wird. Die bedingte Entropie wird
geschrieben und hat einen Wert zwischen 0 und
, der ursprünglichen Entropie von
. Sie wird in der gleichen Maßeinheit wie die Entropie gemessen.
Speziell hat sie den Wert 0, wenn aus
der Wert von
funktional bestimmt werden kann, und den Wert
, wenn
und
stochastisch unabhängig sind.
Inhaltsverzeichnis |
[Bearbeiten] Definition
Seien
eine diskrete Zufallsvariable und
ihr Wertevorrat, das heißt
ist eine höchstens abzählbare Menge mit
.
soll jedes Element von
mit nicht negativer Wahrscheinlichkeit annehmen. Dann ist die Entropie von
durch
definiert, wobei für
typischerweise die Werte 2 (Bit) oder e (Nat) für die entsprechenden Einheiten angenommen werden.
Es sei nun
ein Ereignis mit
. Dann definiert man die bedingte Entropie von
gegeben
durch Ersetzen der Wahrscheinlichkeit durch die bedingte Wahrscheinlichkeit, d. h.
.
Jetzt sei
eine diskrete Zufallsvariable mit Wertevorrat
. Dann ist die bedingte Entropie von
gegeben
definiert als gewichtetes Mittel der bedingten Entropien von
gegeben den Ereignissen
für
, d. h.
.
Auf höherer Abstraktionsebene handelt es sich bei
um den Erwartungswert der Informationsfunktion
und bei
um die bedingte Erwartung der Informationsfunktion
bezüglich der von
aufgespannten
-Algebra.[1]
[Bearbeiten] Eigenschaften
Eine einfache Rechnung zeigt
,
also ist die Unsicherheit von
gegeben
gleich der Unsicherheit von
und
abzüglich der Unsicherheit von
.
Es ist
mit Gleichheit genau dann, wenn
und
stochastisch unabhängig sind. Dies folgt aus der Tatsache, dass
genau dann gilt, wenn
und
stochastisch unabhängig sind. Außerdem bedeutet es, dass
ist, also die komplette empfangene Information nur Fehlinformation ist. Analog geht die komplette Information von der Quelle X verloren, so dass dann auch keine Transinformation vorhanden ist.
Außerdem gilt
,
mit Gleichheit genau dann, wenn
funktional von
abhängt, d. h.
für eine Funktion
.
[Bearbeiten] Blockentropie
Übertragen auf eine multivariate Zufallsvariable
der Länge
, als Darstellung für einen
-Block von Symbolen
, lässt sich die bedingte Entropie
definieren als die Unsicherheit eines Symbols
(nach einem bestimmten vorgegebenen
-Block):
mit
,
wobei
die Blockentropie bezeichnet. Für die bedingte Entropie
, also die Unsicherheit eines Symbols nach einem
-Block, folgt:
Die Definitionen der Blockentropie und der bedingten Entropie sind im Grenzübergang gleichwertig, vgl. Quellentropie.
In engem Zusammenhang zur bedingten Entropie steht auch die Transinformation, die die Stärke des statistischen Zusammenhangs zweier Zufallsgrößen angibt.
[Bearbeiten] Beispiel
Sei X eine Quelle, die periodisch die Zeichen ...00100010001000100010... sendet.
Nun soll unter Berücksichtung vorangegangener Zeichen die bedingte Entropie des aktuell zu beobachtenden Zeichens berechnet werden.
[Bearbeiten] Keine berücksichtigten Zeichen
|
Die Berechnung erfolgt nach Definition der Entropie. |
Wahrscheinlichkeitstabelle:
|
[Bearbeiten] Ein berücksichtigtes Zeichen
|
Sei nun X:=xt und Y:=xt-1. Es ergeben sich folgende Wahrscheinlichkeiten: |
Wahrscheinlichkeitstabellen:
|
[Bearbeiten] Zwei berücksichtigte Zeichen
|
Sei X:=xt und Y:=(xt-2, xt-1). Es ergeben sich folgende Wahrscheinlichkeiten:
|
Wahrscheinlichkeitstabellen:
|
[Bearbeiten] Drei berücksichtigte Zeichen
|
Sind bereits drei nacheinander folgende Zeichen bekannt, so ist damit auch das folgende Zeichen determiniert (denn die Quelle verhält sich ja periodisch). Somit erhält man keine neue Information über das nächste Zeichen. Demnach muss die Entropie null sein. Dies kann man auch an der Wahrscheinlichkeitstabelle ablesen:
|
Erläuterung zu den Wahrscheinlichkeitstabellen
Die Tabellen beziehen sich auf die obige Beispielzeichensequenz.
Wobei gilt: Hier betrachtet man ein Zeichen X unter der Bedingung des vorangegangenen Zeichens Y. Ist beispielsweise ein Zeichen Y=1, so lautet die Frage: Mit welcher Wahrscheinlichkeit ist das darauffolgende Zeichen X=0 bzw. X=1 ? Für Y=1 ist das nächste Zeichen X immer 0. Somit ist P(X=0|Y=1) = 1. Außerdem folgt daraus, dass P(X=1|Y=1) = 0 ist, da die Zeilensumme immer Eins ist. |
Wobei gilt: Hier betrachtet man die Auftrittshäufigkeit einer Zeichenkombination. Man kann aus der Tabelle lesen, dass die Buchstabenkombinationen (0,1) und (1,0) genauso häufig auftreten. Die Summe aller Matrixeinträge ergibt Eins. |
[Bearbeiten] Entropie und Informationsgehalt
Die Entropie fällt bei diesem Beispiel umso stärker, je mehr Zeichen berücksichtigt werden (siehe auch: Markow-Prozess). Wenn die Anzahl der berücksichtigten Zeichen hinreichend groß gewählt wird, so konvergiert die Entropie gegen Null.
Möchte man den Informationsgehalt der gegebenen Zeichenfolge aus n=12 Zeichen berechnen, so erhält man nach Definition Iges = n⋅H(X|Y) bei...
- ...keinem berücksichtigten Zeichen 9,39 bit Gesamtinformation. (Informationsgehalt statistisch unabhängiger Ereignisse)
- ...einem berücksichtigten Zeichen 8,26 bit Gesamtinformation.
- ...zwei berücksichtigten Zeichen 6 bit Gesamtinformation.
- ...drei berücksichtigten Zeichen 0 bit Gesamtinformation.
[Bearbeiten] Einzelnachweise
- ↑ Olav Kallenberg: Foundations of Modern Probability. Springer, New York 2002, ISBN 0387953132, S. 220.

.
.
,
,
mit
,










![\qquad = \textstyle \frac{3}{4} \sdot
\begin{matrix}
\underbrace{H(X|Y=0)} \\
{}^{\rm H(\;P(X=0|Y=0)\;,\;P(X=1|Y=0)\;) }\\[-4.5ex]
\end{matrix}
+ \textstyle \frac{1}{4} \sdot
\begin{matrix}
\underbrace{H(X|Y=1)} \\
{}^{\rm H(\;P(X=0|Y=1)\;,\;P(X=1|Y=1)\;) }\\[-4.5ex]
\end{matrix}](http://upload.wikimedia.org/wikipedia/de/math/1/0/9/109cffe8550e0dea191e001fefe5cd6f.png)
![\qquad = \textstyle \frac{3}{4} \sdot H (\textstyle \frac{2}{3},\textstyle \frac{1}{3} ) +
\begin{matrix}
\textstyle \frac{1}{4} \sdot \underbrace{ H(1,0)} \\
{}^{\rm = 0}\\[-4.5ex]
\end{matrix}
=0,689 \, bit](http://upload.wikimedia.org/wikipedia/de/math/f/3/e/f3eba3c93f6975ca5b127aaa8e1972e2.png)









![= \textstyle \frac{1}{2} \sdot H(\textstyle \frac{1}{2}|\textstyle \frac{1}{2}) +
\begin{matrix}
\underbrace{\textstyle \frac{1}{4} \sdot H(1,0)} \\
{}^{\rm = 0}\\[-4.5ex]
\end{matrix}
+
\begin{matrix}
\underbrace{\textstyle \frac{1}{4} \sdot H(0|1)} \\
{}^{\rm = 0}\\[-4.5ex]
\end{matrix}](http://upload.wikimedia.org/wikipedia/de/math/3/a/6/3a633d2d25a5a0953d9996bc5f148757.png)



