Tunstall-Kodierung

Die Tunstall-Kodierung ist eine Form der verlustfreien Datenkompression und Entropiekodierung, die 1967 von Brian Parker Tunstall in seiner Doktorarbeit am Georgia Institute of Technology entwickelt wurde.^[1] Im Gegensatz zu ähnlichen Verfahren wie der Huffman-Kodierung ordnet die Tunstall-Kodierung einem Quellensymbol mit variabler Länge ein Codesymbol mit einer fixen Anzahl von Bits (Stellen) zu.^[2]

Verfahren

Als Beispiel soll die Datencodierung der Zeichenfolge "hello_world" dienen. Zur Vereinfachung sei weiters angenommen, dass der Umfang der Quellsymbole, das sogenannte Alphabet, nur die 8 Symbole {dehlorw_} umfassen soll. In diesem Fall lässt sich die Auftrittswahrscheinlichkeit der einzelnen Zeichen in der zu codierenden Zeichenfolge direkt angeben: Beispielsweise kommt das Zeichen 'l' in der 11 Zeichen langen Zeichenfolge dreimal vor, was einer Auftrittswahrscheinlichkeit von ³/₁₁ entspricht.

Für den ersten Iterationsschritt und den Aufbau des Suchbaums werden die einzelnen Auftrittswahrscheinlichkeiten aller 8 Quellsymbole bestimmt.

Durch weitere Iterationsschritte wird die Entropiecodierung verbessert. Im zweiten Iterationsschritt wird aus dem Baum das Blatt mit der höchsten Auftrittswahrscheinlichkeit genommen, in diesem Fall das Symbol l mit ³/₁₁, und alle Wahrscheinlichkeiten für das Symbol l gefolgt von einem der 8 weiteren möglichen Symbole gebildet. Auch in diesem Fall werden die Auftrittswahrscheinlichkeiten der einzelnen Symbole bzw. Symbolfolgen gebildet und absteigend im Baum sortiert, wie in der zweiten Abbildung dargestellt. So beträgt die Auftrittswahrscheinlichkeit der Symbolfolge ll in diesem Beispiel:

\left({3 \over 11}\right)^{2}={9 \over 121}

Daraus folgen in Summe 15 verschiedene Codewörter, welche mit $\lceil \log _{2}(15)\rceil =4$ Bits codiert werden koennen. Die Schreibweise $\lceil \cdot \rceil$ steht für die sogenannte Gauß-Klammer. Beispielsweise ist, wie in der Abbildung dargestellt, dem Symbol 'h' das Codewort w₁ = "0000" zugeordnet. Das Verfahren stoppt dann, wenn die Anzahl der Codewörter eine anfangs festgelegte Grenze erreicht bzw. überschritten hat. Hier ergibt sich also folgende Abbildung:

Wort	Code
w₁="h"	0000
w₂="e"	0001
w₃="lh"	0010
w₄="le"	0011
w₅="ll"	0100
w₆="lo"	0101
w₇="l_"	0110
w₈="lw"	0111
w₉="lr"	1000
w₁₀="ld"	1001
w₁₁="o"	1010
w₁₂="_"	1011
w₁₃="w"	1100
w₁₄="r"	1101
w₁₅="d"	1110
	1111

Würde die Tunstall-Kodierung in diesem Beispiel nach dem zweiten Iterationsschritt mit einem Umfang von 15 Codewörtern beendet werden, würde die Zeichenfolge "hello_world" Tunstall-kodiert folgende binäre Codefolge darstellen, darunter sind die zugeordneten Quellsymbole angegeben:

0000 0001 0100 1010 1011 1100 1010 1101 1001
 h    e    ll   o    _    w    o    r    ld

Literatur

Martin Bossert: Angewandte Informationstheorie. (PDF; 815 kB) Skript zur Vorlesung. Universität Ulm, April 2007, archiviert vom Original (nicht mehr online verfügbar); abgerufen am 5. April 2013.

Einzelnachweise

↑ Brian Parker Tunstall: Synthesis of noiseless compression codes. Georgia Institute of Technology, Dezember 1967 (gatech.edu).
↑ Variable to fixed Length Source Coding - Tunstall Codes. (PDF; 715 kB) Massachusetts Institute of Technology, Oktober 1994, abgerufen am 5. April 2013.

[tuns1-1] Brian Parker Tunstall: Synthesis of noiseless compression codes. Georgia Institute of Technology, Dezember 1967 (gatech.edu).

[mit1-2] Variable to fixed Length Source Coding - Tunstall Codes. (PDF; 715 kB) Massachusetts Institute of Technology, Oktober 1994, abgerufen am 5. April 2013.

[1]

[2]

Tunstall-Kodierung

Verfahren

Literatur

Einzelnachweise

Navigationsmenü

Suche