Videokompression

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Videokompression dient zur Reduzierung der Datenrate eines digitalisierten Videosignals, um es einfacher speichern oder übertragen zu können. Erzielbare Kompressionsraten liegen typischerweise zwischen 1:5 und 1:200.

Die Videokompression hat ihre Ursprünge in der Standbildkompression, einfachere Verfahren komprimieren die einzelnen Bilder eines Videos unabhängig voneinander und speichern den Ton unkomprimiert ab. Die erzielte Kompressionsrate liegt bei etwa 1:5. Weiterentwickelte Verfahren nutzen zur Kodierung auch Ähnlichkeiten zwischen den einzelnen Teilbildern und speichern auch den Ton komprimiert ab. Die damit erzielbaren Kompressionsraten liegen heutzutage oberhalb von 1:100 bei kaum reduzierter Qualität.

Die Standardisierung von Videokodierungsverfahren ist mittlerweile ein internationale Organisationen überspannender Prozess, an der die Moving Picture Experts Group (MPEG) wie die ITU beteiligt sind. Daher haben viele identische Verfahren verschiedene Bezeichnungen wie beispielsweise ITU H.264, MPEG-4 Version 3 oder MPEG-4 AVC, hinter denen sich der gleiche Codec verbirgt.

Physiologische Grundlage von Videokompression[Bearbeiten]

Die Kompressionsalgorithmen beruhen auf

  • Redundanzen des Videosignals (Redundanzreduktion) sowie
  • Unzulänglichkeiten und physiologischen Effekten des menschlichen Sehens (Irrelevanzreduktion).

Die Redundanzreduktion nutzt Ähnlichkeiten zwischen räumlich und zeitlich benachbarten Pixeln und errät deren Wert. Kodiert werden brauchen nur noch die Fehler. Erreichbar sind Kompressionfaktoren von 1:2 bis 1:5. Die Irrelevanzkodierung verwirft Informationen, die für den menschlichen Beobachter nicht oder kaum sichtbar sind. Dadurch ist eine weitere Kompression von typischerweise 1:2 bis 1:50 möglich, abhängig von Verfahren und geforderter Qualität.

Da die Farbauflösung aufgrund der Anatomie des Auges schlechter ist als die Auflösung von Helligkeitsunterschieden, kann man die Auflösung der Farbinformationen verringern, ohne dass die Unterschiede stark wahrgenommen werden könnten. Man spricht dabei von Chroma Subsampling. Viele Kompressionsverfahren verwenden diese Technik als einen ersten Schritt zur Reduktion.

Eine weitere Eigenschaft des visuellen Systems, die ausgenutzt werden kann, ist die Frequenzabhängigkeit. Man kann Bilder, ähnlich wie Töne, auch als Überlagerung von zweidimensionalen Schwingungen darstellen. Niedrige Bildfrequenzen sind für grobe Bildstrukturen verantwortlich, hohe für feine Details. Störungen in den verschiedenen Frequenzbereichen werden unterschiedlich stark wahrgenommen, was an einem einfachen Testbild gut verdeutlicht werden kann[1].

Diese Frequenzabhängigkeit wird über die Verwendung einer geeigneten Transformation in allen Videokompressionsverfahren der MPEG-Familie verwendet.

Mathematische Grundlagen[Bearbeiten]

Redundanzreduktion
Irrelevanzreduktion

Die Begriffe Redundanzreduktion und Irrelevanzreduktion stammen aus der Informationstheorie und beschreiben zwei verschiedene Ansätze zur Reduktion der Datenmenge, auch Datenkompression genannt, bei der Übertragung von Information. Dabei wird auf ein Modell zurückgegriffen, bei dem Information von einer Quelle zur Senke übertragen wird. Auf den konkreten Fall der Videokodierung übertragen, entspricht die Quelle der Folge von Videobildern wie sie in der ursprünglichen Kamera entstehen, die Senke entspricht dem Auge des Betrachters.

Redundanzreduktion[Bearbeiten]

Die Redundanzreduktion berücksichtigt die Eigenschaften der Quelle mit dem Ziel, die zu übertragende Datenmenge zu reduzieren. Im Fall der Videokodierung werden statistische Eigenschaften des Bildsignals, zum Beispiel Korrelation zwischen zeitlich und räumlich benachbarten Bildpunkten, ausgenutzt, um möglichst kompakten Code zu erzeugen. Dabei kommt die Kodierung mit variabler Codewortlänge (VLC „variable length coding“) zum Einsatz. Statt alle zu übertragenden Symbole mit konstanter Codewortlänge zu kodieren, werden häufiger auftretende beziehungsweise wahrscheinlichere Symbole mit kürzeren Codewörtern kodiert als seltenere Symbole. Da keine Informationen verloren gehen, spricht man von verlustloser Kodierung.

Irrelevanzreduktion[Bearbeiten]

Die Irrelevanzreduktion zielt darauf ab, diejenige Information bei der Übertragung auszulassen, die für die Senke nicht relevant ist. Konkret bedeutet dies im Fall der Videokodierung, dass nur ein Teil der Bilddaten übertragen wird. Dabei werden jene dadurch entstehenden Verzerrungen zugelassen, bei denen für den menschlichen Betrachter möglichst wenige Störungen wahrgenommen werden. Da Informationen verloren gehen, spricht man von verlustbehafteter Kodierung.

Vorwärts gerichtete diskrete Kosinustransformation[Bearbeiten]

Bei der vorwärts gerichteten diskreten Kosinustransformation (FDCT) wird das einzelne Videobild (Frame) in 8x8 große Pixel-Blöcke unterteilt, und diese werden nach ihrer Komplexität beurteilt. Dieser Schritt ist notwendig, damit der Codec „weiß“, für welche (komplexen) Pixelblöcke er viel Speicherplatz benötigt und für welche (einfachen) Blöcke weniger Bits genügen. Dies ist die Voraussetzung für die Irrelevanzreduktion.

Bewegungskorrektur[Bearbeiten]

Eine weitere Möglichkeit zur Verkleinerung der Datenmenge ist die Bewegungskorrektur (englisch motion compensation): Es werden nur die Unterschiede zum vorhergehenden Bild gespeichert. Es wird nach Pixelblöcken gesucht, die gegenüber dem letzten Frame verändert wurden. Für diese wird ein Bewegungsvektor gespeichert, die unbewegten werden einfach vom letzten Frame übernommen.

Siehe auch[Bearbeiten]

Weblinks[Bearbeiten]

 Commons: Videokompression – Sammlung von Bildern, Videos und Audiodateien

Einzelnachweise[Bearbeiten]

  1. Testbild zur Darstellung der Frequenzabhängigkeit der Auflösungswahrnehmung des menschlichen Auges