Gibbs-Ungleichung

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

In der Informationstheorie ist die Gibbs-Ungleichung (nach J. W. Gibbs) eine Aussage über die Entropie einer diskreten Wahrscheinlichkeitsverteilung. Man erhält mit ihr eine untere Schranke der mittleren Codewortlänge von optimalen Präfixcodes und eine untere Schranke der mittleren Laufzeit von vergleichsbasierten Sortierverfahren.

Gibbs-Ungleichung[Bearbeiten]

Es seien p=(p_1,\dots,p_n) und q=(q_1,\dots,q_n) diskrete Wahrscheinlichkeitsverteilungen, d. h. p_i,q_i > 0 für alle i und \sum_{i=1}^np_i = \sum_{i=1}^nq_i =1. Dann gilt:

-\sum\limits_{i=1}^np_i\log_2p_i \leq -\sum\limits_{i=1}^np_i\log_2q_i

Gleichheit tritt genau dann auf, wenn p_i=q_i für alle i.

Beweis[Bearbeiten]

Für alle x>0 gilt die Ungleichung \ln x\le x-1, wobei Gleichheit nur im Fall x=1 auftritt.


Setzt man für x insbesondere \frac{q_i}{p_i} ein, so erhält man  \ln\left(\frac{q_i}{p_i}\right)\le \frac{q_i}{p_i}-1 \quad \forall i=1,...,n.


Multipliziert man die Ungleichung mit p_i durch und summiert über alle i, so erhält man

\sum_{i=1}^n p_i \ln\left(\frac{q_i}{p_i}\right)\le \sum_{i=1}^n (q_i-p_i)=\sum_{i=1}^n q_i-\sum_{i=1}^n p_i=1-1=0.


Nachdem \ln\left(\frac{q_i}{p_i}\right)=\ln(q_i)-\ln(p_i) ist, folgt daraus

\sum_{i=1}^n p_i \ln(q_i)\le \sum_{i=1}^n p_i \ln(p_i).


Bringt man die beiden Terme auf die jeweils entgegengesetzte Seite, so ist

-\sum_{i=1}^n p_i \ln(p_i)\le -\sum_{i=1}^n p_i \ln(q_i).


Anstelle des natürlichen Logarithmus lässt sich genauso gut jede andere Logarithmenbasis b>1 hernehmen, da \log_b(x)=\frac{\ln(x)}{\ln(b)} ist.

Man braucht die Ungleichung hierzu nur mit der positiven Zahl \ln(b) durchdividieren.


In der Informationstheorie bietet es sich an als Basis b=2 zu wählen.

Folgerungen[Bearbeiten]

Für die Entropie gilt

H(p_1,\dots,p_n) \leq \log_2 n,

mit Gleichheit genau dann, wenn p_i=\frac{1}{n} für alle i.


Wenn X,Y diskrete Zufallsvariablen sind, dann ist

H(X,Y) \leq H(X) + H(Y),

mit Gleichheit genau dann wenn X und Y stochastisch unabhängig sind.


Einige nützliche Anwendungen ergeben sich in Verbindung mit der Kraft-Ungleichung. Sei dazu ein vollständiger Binärbaum mit den Blatttiefen \ell_1,\dots,\ell_n und einer den Blättern zugeordneten Wahrscheinlichkeitsverteilung p=(p_1,\dots,p_n) gegeben. Dann gilt mittels q_i := 2^{-\ell_i}:

H(p_1,\dots,p_n) \leq -\sum\limits_{i=1}^np_i\log_22^{-\ell_i} = \sum\limits_{i=1}^np_i\ell_i

Die mittlere Blatttiefe ist also von unten durch die Entropie der dazugehörigen Wahrscheinlichkeitsverteilung beschränkt.

Damit ist dann klar, dass die mittlere Codewortlänge eines optimalen Präfixcodes von unten durch die Entropie der zugehörigen Wahrscheinlichkeitsverteilung der Symbole beschränkt ist. Gleichheit tritt hier genau dann auf, wenn p_i = 2^{-\ell_i} für alle i gilt, wobei \ell_i die Codewortlänge des i-ten Codewortes bezeichnet.

Bei vergleichsbasierten Sortierverfahren von n Elementen unter Gleichverteilungsannahme ergibt sich durch Betrachtung der mittleren Blatttiefe des binären Entscheidungsbaums die untere Schranke \log_2n!. Die average-case-Laufzeit eines vergleichsbasierten Sortierverfahrens verhält sich also asymptotisch wie n\log n.

Literatur[Bearbeiten]

  • U. Schöning: Algorithmik. Spektrum Akademischer Verlag, Heidelberg 2001.