MP3

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Mp3)
Wechseln zu: Navigation, Suche
Dieser Artikel erläutert das Audio-Dateiformat. Für andere Bedeutungen, siehe MP3 (Begriffsklärung).

Vorlage:Infobox Dateiformat/Wartung/Entwickler fehltVorlage:Infobox Dateiformat/Wartung/Website fehlt

MPEG Audio Layer III
Mp3.svg
Dateiendung: .mp3
MIME-Type: audio/mpeg[1]
audio/MPA[2]
audio/mpa-robust[3]
Magische Zahl:

FFFB hex
\xFF\xFB (ASCII-C-Notation)

Art: Audio
Standard(s): ISO/IEC 11172-3, ISO/IEC 13818-3

MP3, Eigenschreibweise mp3, (Bezeichnung nach der Dateinamenserweiterung;[4] eigentlich MPEG-1 Audio Layer III oder MPEG-2 Audio Layer III) ist ein Verfahren zur verlustbehafteten Kompression digital gespeicherter Audiodaten. MP3 bedient sich dabei der Psychoakustik mit dem Ziel, nur für den Menschen wahrnehmbare Signalanteile zu speichern. Dadurch wird bei nicht oder nur kaum verringerter wahrgenommener Audioqualität eine starke Reduktion der Datenmenge möglich.

Bei einer Beispiel-Kompressionsdatenrate von 196 kbit/s, die bereits eine hohe Qualität ermöglicht, ist die Datenmenge einer MP3-Audiodatei dabei rund sieben Mal kleiner als auf einer Audio-CD. MP3 ist das dominierende Verfahren zur Speicherung und Übertragung von Musik auf Computern, Smartphones, im Internet und auf tragbaren Musikabspielgeräten (MP3-Player), obwohl es mittlerweile eine Anzahl von technisch weiterentwickelten Alternativen gibt. Das Verfahren wurde unter der Leitung von Karlheinz Brandenburg und Hans-Georg Musmann im Wesentlichen in Deutschland entwickelt.

Geschichte[Bearbeiten]

Grammophon, Tonband und MP3: deutsche Briefmarke von 2011 aus der Serie In Deutschland zu Hause: Einfallsreichtum – Deutsche Erfindungen
Der deutsche Elektrotechnik-Ingenieur und Mathematiker Karlheinz Brandenburg ist einer der maßgeblichen Entwickler des MP3-Verfahrens.

Entwickelt wurde das Format MP3 ab 1982 unter der Leitung von Hans-Georg Musmann von einer Gruppe um Karlheinz Brandenburg am Fraunhofer-Institut für Integrierte Schaltungen (IIS) in Erlangen sowie an der Friedrich-Alexander-Universität Erlangen-Nürnberg in Zusammenarbeit mit AT&T Bell Labs und Thomson. Ab 1989 wurde die Entwicklung innerhalb der ISO/IEC JTC1 SC29 WG11 (MPEG) fortgeführt. 1992 wurde es als Teil des MPEG-1-Standards festgeschrieben. Die Geschichte der Standardisierung und die Würdigung der Beiträge der Forscher ist in Genesis of the MP3 Audio Coding Standard by Hans Georg Musmann in IEEE Transactions on Consumer Electronics, Vol. 52, Nr. 3, pp. 1043-1049, August 2006 dargestellt. Die Dateinamenserweiterung .mp3 (als Abkürzung für ISO MPEG Audio Layer 3) wurde am 14. Juli 1995 nach einer institutsinternen Umfrage festgelegt; vorher wurde intern die Dateinamenserweiterung .bit verwendet.[4] Wie bei vielen der aktuellen Kodierverfahren sind Kernbereiche von MP3 durch Patente geschützt. Brandenburg wurde für die Entwicklung dieses Datenformates mehrfach ausgezeichnet.

Bereits Mitte der 1990er Jahre waren Abspielgeräte und Software für PCs im Umlauf, die es ermöglichten, komprimierte MP3-Dateien zu speichern und abzuspielen. Auch der Austausch solcher Dateien über das Internet vereinfachte sich: Selbst bei einfacher ISDN-Geschwindigkeit benötigte man für die Übertragung lediglich das zwei- bis dreifache der Abspielzeit; mit DSL-Leitungen lag die Übertragung sogar weit unterhalb der Spieldauer. Das führte bald zu einem regen Tauschhandel ohne Beachtung des Urheberrechts. Versuche der Musikindustrie, dagegen vorzugehen, sind bis heute von nur mäßigem Erfolg geprägt, zumal sich auch die Tauschsysteme immer weiter entwickeln und nach dem Peer-to-Peer-Prinzip ohne zentrale, kontrollierbare Instanzen auskommen. Ende der 1990er entstanden bereits große Ansammlungen von Musikdateien im Internet, wie zum Beispiel bei MP3.com oder Napster, was die Anzahl der Nutzer erheblich steigen ließ. Ab 1998 erschienen im Handel die ersten tragbaren MP3-Player.

Patente und Lizenzstreitigkeiten[Bearbeiten]

Die Fraunhofer-Gesellschaft und andere Unternehmen besitzen Softwarepatente auf Teilverfahren, die für MPEG-Kodierung eingesetzt werden. Ein alles umfassendes MP3-Patent gibt es nicht. Die Fraunhofer-Gesellschaft hat den größten Teil zur Entwicklung des MP3-Standards beigetragen und sich einige Verfahren zur MP3-Kodierung patentieren lassen. In einem Zusammenschluss mit Thomson besitzen beide Unternehmen 18 MP3-bezogene Patente. Seit September 1998, nachdem sich der MP3-Standard sechs Jahre lang etablieren konnte, verlangt FhG/Thomson Lizenzgebühren für die Herstellung von Hard- und Software, die das MP3-Format verwenden.

Bei der Entwicklung des Formats soll auf Patente der Bell Laboratories zurückgegriffen worden sein. Diese Rechte liegen derzeit bei Alcatel-Lucent, welche die Bell Labs übernommen haben. Das Unternehmen hat vor einigen Jahren Patentklagen gegen Microsoft, Dell und Gateway eingereicht. Im Verfahren gegen Microsoft wurden Lucent im Februar 2007 erstinstanzlich 1,52 Milliarden US-Dollar zugesprochen.[5] Dieses Urteil wurde allerdings im August 2007 vom Bundesbezirksgericht in San Diego aufgehoben.[6] Das Unternehmen Sisvel erhebt im Auftrag von Philips ebenfalls Ansprüche aus Patentverletzung.

Verfahren[Bearbeiten]

Eine Spektralanalyse des unkomprimierten Liedes Yesterday zeigt eine volle Bandbreite bis knapp 21 kHz …
… eine Spektralanalyse desselben Liedes MP3-komprimiert (Datenrate 128 kbit/s) zeigt, dass die Bandbreite sinnvollerweise bei der Encodierung auf etwa 15 kHz begrenzt wurde

Wie die meisten verlustbehafteten Kompressionsformate für Musik nutzt das MP3-Verfahren psychoakustische Effekte der menschlichen Wahrnehmung von Tönen und Geräuschen aus. Zum Beispiel kann der Mensch zwei Töne erst ab einem gewissen Mindestunterschied der Tonhöhe voneinander unterscheiden, vor und nach sehr lauten Geräuschen kann er für kurze Zeit leisere Geräusche schlechter oder gar nicht wahrnehmen. Man braucht also nicht das Ursprungssignal exakt abzuspeichern, sondern es genügen die Signalanteile, die das menschliche Gehör auch wahrnehmen kann. Die Aufgabe des Kodierers ist es, das originale Tonsignal nach festgelegten, an der Psychoakustik orientierten Regeln so aufzubereiten, dass es weniger Speicherplatz benötigt, aber für das menschliche Gehör noch genauso klingt wie das Original. Dabei spricht man bei subjektiver völliger Übereinstimmung von Original und MP3-Variante in der Wahrnehmung des Zuhörers von Transparenz. Die dabei vom Kodierer aus dem ursprünglichen Signal, zum Beispiel von einer Audio-CD, entfernten Daten bzw. Informationen gehen unwiederbringlich verloren, das heißt sind im MP3-Signal nicht mehr vorhanden und aus diesem auch prinzipiell nicht mehr rekonstruierbar. Dies erklärt den Ausdruck verlustbehaftete Kompression. Es gibt auch verlustlose Verfahren zur Audiodatenkompression wie FLAC, diese erreichen jedoch wesentlich geringere Kompressionsraten und sind weniger verbreitet.

Beim Abspielen des so erzeugten MP3-Signals erzeugt der Dekoder aus den reduzierten Daten ein für die überwiegende Anzahl von Hörern original klingendes analoges Tonsignal, das aber nicht mit dem Ursprungssignal identisch ist, da bei der Umwandlung in das MP3-Format Informationen entfernt wurden. Wenn man den zeitlichen Signalverlauf des MP3-Tonsignals mit dem Original vergleichen würde, etwa auf dem Schirm eines Oszilloskops, wären daher deutliche Unterschiede zu erkennen. Wegen der oben erwähnten Psychoakustik der menschlichen Wahrnehmung hört sich das MP3-Signal für einen Zuhörer dennoch – unter der Voraussetzung eines ausgereiften Kodierers und einer ausreichend hohen Datenrate (Bitrate) bei der Kodierung – genau wie das Original an.

Während die Dekodierung stets einem festgelegten Algorithmus folgt, kann die Kodierung nach verschiedenen Algorithmen erfolgen (z. B. Fraunhofer-Encoder, LAME-Encoder) und liefert dementsprechend unterschiedliche akustische Ergebnisse. Die Frage, ob dabei von manchen oder auch vielen Zuhörern wahrnehmbare Qualitätsverluste auftreten, hängt unter anderem von der Qualität des Kodierers, von der Komplexität des Signals, von der Datenrate, von der verwendeten Audiotechnik (Verstärker, Verbindungskabel, Lautsprecher) und schließlich auch vom Gehör des Hörers ab. Das MP3-Format erlaubt, neben festen Datenraten von 8 kbit/s bis zu 320 kbit/s, im freeformat-Modus auch beliebige freie Datenraten bis zu 640 kbit/s (Freeform-MP3). Allerdings sind nur wenige MP3-Player-Decoder für höhere Bitraten als den ISO-Standard (derzeit bis 320 kbit/s) ausgelegt.

Die Qualitätseindrücke sind recht subjektiv und von Mensch zu Mensch sowie von Gehör zu Gehör unterschiedlich. Die meisten Menschen können ab einer höheren Bitrate und bei Nutzung eines ausgereiften Enkodierers auch bei konzentriertem Zuhören das kodierte Material nicht mehr vom Ausgangsmaterial unterscheiden. Dennoch konnten in einem Hörtest des C't magazins gewisse Musikstücke, selbst bei 256 kBit/s, von CD-Qualität unterschieden werden. Allerdings wurde der Test im Jahr 2000 durchgeführt - seitdem haben sich die MP3-Encoder jedoch deutlich verbessert. Bei Menschen mit „abnormem“ Gehör (z. B. mit Hörschäden durch Knalltrauma) greifen die eingesetzten Mechanismen aber mitunter nicht wie vorgesehen, so dass ihnen Unterschiede zwischen kodiertem und Ausgangsmaterial eher auffallen (z. B. weil laute Töne, die das geschädigte Gehör schlecht hört, andere Töne nicht mehr gut verdecken können).[7]

Neben der Kodierung mit konstanter Datenrate (= schwankende Qualität, einhergehend mit der im zeitlichen Verlauf wechselnden Komplexität des Tonsignals) ist auch eine Kodierung mit konstanter Qualität (und damit schwankender Datenrate) möglich. Man vermeidet dadurch (weitgehend) Qualitätseinbrüche an schwierig zu kodierenden Musikstellen, spart jedoch andererseits bei ruhigen oder gar völlig stillen Passagen des Audiostromes an der Datenrate und somit an der endgültigen Dateigröße. Die Qualitätsstufe wird vorgegeben[8] und man erhält auf diese Art die dafür minimal notwendige Datei.

Datenkompression[Bearbeiten]

Mit zwei verschiedenen Bitraten komprimiertes Rechtecksignal
  • Ein erster Schritt der Datenkompression beruht zum Beispiel auf der Kanalkopplung des Stereosignals durch Differenzbildung, da die Daten des rechten und des linken Kanals in hohem Maße korreliert, sich also sehr ähnlich sind. Das ist ein verlustloses Verfahren, die Ausgangssignale können vollständig reproduziert werden (Mid/Side-Stereo).
  • Entsprechend der menschlichen Hörkurve werden Signalanteile in weniger präzise wahrnehmbaren Frequenzbereichen mit weniger Präzision dargestellt, indem das fouriertransfomierte Datenmaterial entsprechend quantisiert wird.
  • Sogenannte Maskierungseffekte werden ausgenutzt, um für den Höreindruck minderwichtige Signalanteile mit verringerter Präzision zu speichern. Das können etwa schwache Frequenzanteile in der Nähe von starken Obertönen sein. Ein starker Ton bei 4  kHz kann aber auch Frequenzen bis zu 11 kHz maskieren. Die größte Ersparnis bei der MP3-Enkodierung liegt daher darin, dass die Töne nur gerade so genau (mit so vielen Bits) abgespeichert werden, dass das dadurch entstehende Quantisierungsrauschen noch maskiert wird und nicht hörbar ist.
  • Die Daten, die in sogenannten „Frames“ vorliegen, werden schließlich Huffman-kodiert.

Bei starker Kompression werden öfter auch durchaus hörbare Signalanteile von der Kompression erfasst, sie sind dann als Kompressionsartefakte hörbar.

Ein Entwurfsfehler ist, dass das Verfahren blockweise angewandt wird und so am Ende einer Datei Lücken entstehen können. Das stört beispielsweise bei Hörbüchern, in denen ein zusammenhängender Vortrag zum besseren Auffinden der Passagen in einzelne Tracks zerlegt wurde. Hier fallen die letzten Blöcke als störende Pausen auf. Abhilfe schafft die Verwendung des LAME-Encoders, der exakte Längeninformationen hinzufügt, in Kombination mit einem Abspielprogramm, das mit diesen umgehen kann, etwa foobar2000 oder Winamp. Einige Abspielprogramme wie Windows Media Player unterstützen dieses Gapless Playback genannte Verfahren jedoch nicht. Apple iTunes unterstützt es ab Version 7.[9]

Kompression im Detail[Bearbeiten]

Die Kompression besteht aus folgenden Schritten:

  1. Subband-Transformation des Signals
  2. MDCT-Transformation des Signals, danach(!) wird das Signal in Blöcke eingeteilt.
  3. Bei Stereosignalen: Matrixierung: Entscheidung für jeden Block, ob Signal als Links-Rechts- oder als Mitte-Seite-Signal kodiert wird
  4. Quantisierung des Signals
  5. Huffman-Kodierung mit festen Codebüchern

Verlustbehaftet ist Schritt 4, die Hauptdatenreduktion folgt aus diesem Schritt und Schritt 5.

Hinweis: Im weiteren Text beziehen sich angegebenen Spektralbreiten und Zeiten auf ein Audiosignal mit 48 kHz Abtastfrequenz.

Subband-Transformation des Signals[Bearbeiten]

Bei der Subband-Transformation wird das Signal mithilfe einer polyphasen Filterbank in 32 gleich breite Frequenzbänder zerlegt (wie auch bei MPEG Layer 1, MPEG Layer 2 und dts). Die Filterbank arbeitet auf einem FIFO-Puffer mit einer Größe von 512 Samples, dem in einem Schritt immer 32 neue Samples zugeführt werden. Dadurch überlappen sich immer 16 Filterfenster auf dem Audiosignal.

Die Entscheidung gleich breite Frequenzbänder zu verwenden vereinfacht zwar die Filter, spiegelt jedoch nicht das menschliche Hörvermögen wider, dessen Empfindlichkeit nicht-linear von der Frequenz abhängt.

Da in der Praxis keine idealen Filter existieren, überlappen sich die Frequenzbereiche, sodass eine einzige Frequenz nach der Filterung auch in zwei benachbarten Subbändern auftreten kann.

Subbandfilterung ist belastet durch das Patent US 6,199,039.

MDCT-Transformation des Signals[Bearbeiten]

Die Signale der Subbänder werden nun durch die modifizierte diskrete Kosinustransformation (MDCT) in den Frequenzbereich überführt. Dadurch werden die Frequenzbänder weiter spektral aufgelöst. Die MDCT kann die Bänder entweder in kurzen Blöcken (12 Samples ergibt 6 Frequenzbänder) oder langen Blöcken (36 Samples, 18 Frequenzbänder) transformieren. Alternativ können auch die beiden niedrigsten Frequenzbänder mit langen Blöcken und die restlichen mit kurzen Blöcken transformiert werden. Lange Blöcke besitzen eine bessere Frequenzauflösung und sind geeigneter, wenn sich das Audiosignal im entsprechenden Rahmen nicht plötzlich ändert (Stationarität).[10]

Am Ausgang der MDCT wird das Signal in Blöcke eingeteilt. Aus 576 Eingangswerten (wenn man die Fensterbreite der Filter berücksichtigt, sind es eigentlich insgesamt 1663 Eingangswerte) werden durch zwei hintereinandergeschaltete Transformationen entweder

  • 576 Spektralkoeffizienten (lange Blöcke),
  • 3 × 192 Spektralkoeffizienten (kurze Blöcke) oder
  • 36 + 3 × 180 Spektralkoeffizienten (hybrider Block, kaum genutzt)

Matrizierung[Bearbeiten]

Für 2-Kanal-Stereosignale kann nun entschieden werden, ob das Signal entweder als Mono (Single-Channel), Stereo, Joint-Stereo oder Dual-Channel kodiert werden soll. Im Gegensatz zu AAC oder Ogg Vorbis ist diese Entscheidung global für alle Frequenzen zu treffen.

Das Stereo-Verfahren (nicht Joint-Stereo) ist (wie auch Dual-Channel) durch den Umstand verlustbehaftet, dass auch bei 320 kbit/s nur 160 kbit/s pro Kanal zur Verfügung stehen, jedoch werden je nach Komplexität wahlweise einem der beiden Kanäle unterschiedliche Bitraten zugewiesen. Dual-Channel speichert zwei unabhängige Monospuren (z. B. zweisprachige Textspuren) mit der gleichen Bitratencodierung; jedoch nicht zwingend jeder Decoder gibt beide Spuren auch gleichzeitig wieder.

Beim Joint-Stereo gibt es zwei Kodierverfahren: Intensitäts- und Mid/Side-Stereo, die auch kombiniert angewandt werden; beide Verfahren bilden aus der Summe beider Kanäle einen Mittenkanal (L+R), und aus der Lautstärkedifferenz der beiden Kanäle den Seitenkanal (L−R). Beim Intensitäts-Stereo wird im Gegensatz zum Mid-/Side-Stereoverfahren die Phase (Laufzeitunterschied) des Signals vernachlässigt. Das Joint-Stereoverfahren eliminiert die häufige Redundanz in den Stereokanälen, um die Signale mit höherer Bitrate als beim Stereo-Verfahren kodieren zu können; sind die Kanalsignale aber sehr unähnlich, fällt das Joint-Stereoverfahren auf die normale Stereo-Kodierung zurück.

Da das Tonsignal zunächst in Frequenzbänder ausdifferenziert wird, muss die Stereoinformation, sofern diese überhaupt vom Gehör verwertbar ist; auch ebenso differenziert kodiert werden. Hier kann, z. B. bei tiefen oder Frequenzen ab 2 kHz, Informationsgehalt eingespart werden, dadurch, dass die betreffenden nicht lokalisierbaren Signale nicht mehr kanalgetreu, sondern mit benachbarten Frequenzbändern subsumiert kodiert (Intensitäts-Stereo), oder aber in die Stereomitte gelegt werden.

Durch andauernde Weiterentwicklung der Codecs wird das Joint-Stereo-Verfahren neuerdings bei musiküblichen stark ähnlichen Stereokanälen durch die bessere Kompressionrate, höhere Bitratencodierung und das verlustfreie (außer tieffrequenziell) Stereoabbild als beste Lösung angesehen.

Quantisierung[Bearbeiten]

Die Quantisierung ist der wesentliche Schritt, bei dem Verluste bei der Kodierung auftreten. Er ist hauptsächlich für das Schrumpfen der Datenmenge verantwortlich.

Benachbarte Frequenzbänder werden zu Gruppen von 4 bis 18 Bins zusammengefasst. Diese bekommen einen gemeinsamen Skalenfaktor s=2N/4, mit dem sie quantisiert werden. Der Skalenfaktor bestimmt die Genauigkeit der Kodierung dieses Frequenzbandes. Kleinere Skalenfaktoren ergeben eine genauere Kodierung, größere eine ungenauere (oder gar keine Werte ungleich 0 mehr).

Aus x0, x1, …, x17 werden die Werte N und Q0, Q1, …, Q17 mit der Beziehung xi ~ Qi4/3 2N/4.

Die nichtlineare Kodierung Q4/3 (für negative Werte: −(−Q)4/3) ist erstmals in der MP3-Codierung eingeführt worden. MPEG Layer 1 und 2 nutzen eine lineare Kodierung.

Dieser Schritt ist im Wesentlichen für Qualität wie auch die Datenrate des entstehenden MP3-Datenstroms verantwortlich. Ihm zur Seite steht ein psychoakustisches Modell, das die Vorgänge im durchschnittlichen menschlichen Gehör nachzubilden versucht und die Steuerung der Skalenfaktoren steuert.

Huffman-Kodierung[Bearbeiten]

Die Skalenfaktoren N und die quantisierten Amplituden Q der einzelnen Frequenzen werden mittels fester Code-Tabellen Huffman-kodiert.

Die finale MP3-Datei besteht aus einer Aneinanderreihung von Frames, die mit einer Startmarke (Sync) beginnen und die einen oder zwei auf die oben beschriebene Art erzeugte Blöcke enthalten.

Dekompression[Bearbeiten]

Bei der Dekompression werden die Schritte der Kompression in umgekehrter Reihenfolge ausgeführt. Nach der Huffman-Dekodierung werden die Daten mittels inverser Quantisierung für die inverse modifizierte Cosinustransformation (IMCT) aufbereitet. Diese leitet ihre Daten weiter zu einer inversen Filterbank, die nun die ursprünglichen Samples berechnet (verlustbehaftet durch die Quantisierung im Kodierprozess).

Weiterentwicklung[Bearbeiten]

MP3 ist ein besonders im Internet sehr verbreitetes Format. In der Industrie wird es hauptsächlich für PC-Spiele verwendet. Es handelt sich um ein proprietäres Format, das als Nachfolger von MP2 entwickelt und in den ISO-Standard aufgenommen wurde.

In der Industrie wurde zu dieser Zeit schon an dem MDCT-basierten AAC gearbeitet, das sauberer entworfen ist und bei vergleichbarem Aufwand bessere Ergebnisse liefert.

Daneben (in Richtung einer hochqualitativen Kodierung) gibt es auch Weiterentwicklungen, um bei sehr niedrigen Datenraten (weniger als 96 kbit/s) noch eine akzeptable Klangqualität zu erreichen. Vertreter dieser Kategorie sind mp3PRO sowie MPEG-4 AAC HE beziehungsweise AAC+. Transparenz ist mit diesen Verfahren allerdings nur durch High Definition-(HD-)AAC erreichbar (AAC LC + SLS).

Zeichen für 5.1-Klang

Eine Erweiterung um Multikanalfähigkeiten bietet das MP3-Surround-Format des Fraunhofer-Instituts für Integrierte Schaltungen IIS. MP3-Surround erlaubt die Wiedergabe von 5.1-Ton bei Bitraten, die mit denen von Stereoton vergleichbar sind und ist zudem vollständig rückwärtskompatibel. So können herkömmliche MP3-Decoder das Signal in Stereo decodieren, MP3-Surround-Decoder aber vollen 5.1-Surround-Klang erzeugen.

Dafür wird das Multikanal-Material zu einem Stereosignal gemischt und von einem regulären MP3-Encoder kodiert. Gleichzeitig werden die Raumklanginformationen aus dem Original als Surround-Erweiterungsdaten in das „Ancillary-Data“-Datenfeld des MP3-Bitstroms eingefügt. Die MP3-Daten können dann von jedem MP3-Decoder als Stereosignal wiedergegeben werden. Der MP3-Surround-Decoder nutzt die eingefügten Erweiterungsdaten und gibt das volle Multikanal-Audiosignal wieder.

Weitere Entwicklungen betreffen Verfahren zum Urheberschutz, das unter Umständen in zukünftigen Versionen implementiert werden könnte.

Anwendung[Bearbeiten]

Audio-Rohmaterial benötigt viel Speicherplatz (1 Minute Stereo in CD-Qualität etwa 10 MB) und zum Transfer (beispielsweise über das Internet) hohe Datenübertragungsraten und/oder viel Zeit. Die verlustlose Kompression reduziert die zu übertragenden Datenmengen nicht so stark wie verlustbehaftete Verfahren, die für die meisten Fälle (Ausnahmen sind beispielsweise Studioanwendungen oder Archivierung) noch annehmbare Qualität liefern. So erlangte das MP3-Format für Audio-Daten schnell den Status, den die JPEG-Komprimierung für Bilddaten hat.

MP3 wurde in der breiten Öffentlichkeit vor allem durch Musiktauschbörsen bekannt. In der Warez-Szene wird bei vielen DVD-Rips als Tonspur das Audioformat MP3 verwendet. Mit CD-Ripper-Programmen ist es möglich, die Musik von Audio-CDs zu extrahieren und in MP3-Dateien auszugeben. Auch gibt es viele Programme, die es ermöglichen, MP3 durch eine Konvertierung in ein anderes Format zu verwandeln, aber auch umgekehrt (Beispiel: Audiospur eines YouTube-Videos (FLV) wird in eine MP3-Datei umgewandelt). Ein weiterer Anwendungsschwerpunkt waren MP3-Player, mit denen man auch unterwegs Musik hören kann. Heutzutage unterstützen auch die meisten Smartphones MP3-Dateien.

Im WWW finden sich zahlreiche Anwendungen für MP3-Technik, von selbstkomponierter Musik über (selbst)gesprochene Hörbücher, Hörspiele, Vogelstimmen und andere Klänge bis hin zum Podcasting. Musiker können nun auch ohne einen Vertrieb ihre Musik weltweit verbreiten und Klangaufnahmen ohne großen Aufwand (abgesehen von den GEMA-Gebühren, auch auf eigene Kompositionen, die bei der GEMA angemeldet sind) auf einer Website zur Verfügung stellen. Nutzer können über Suchmaschinen alle erdenklichen (nicht kommerziellen) Klänge und Musikrichtungen finden.

Auch bei multimedialer Software, vor allem bei PC-Spielen, werden die oft zahlreichen Audiodateien im MP3-Format hinterlegt. Zudem findet MP3 bei zahlreichen – meist kleineren – Online-Musikläden Anwendung.

Tagging[Bearbeiten]

Im Gegensatz zu moderneren Codecs boten MP3-Dateien ursprünglich keine Möglichkeit, Metadaten (beispielsweise Titel, Interpret, Album, Jahr, Genre) zu dem enthaltenen Musikstück zu speichern.

Unabhängig vom Entwickler des Formats wurde dafür eine Lösung gefunden, die von fast allen Soft- und Hardwareplayern unterstützt wird: Die ID3-Tags werden einfach an den Anfang oder das Ende der MP3-Datei gehängt. In der ersten Version (ID3v1) werden sie am Ende angehängt und sind auf 30 Zeichen pro Eintrag und wenige Standard-Einträge beschränkt. Die wesentlich flexiblere Version 2 (ID3v2) wird allerdings nicht von allen MP3-Playern (insbesondere Hardware-Playern) unterstützt, da hier die Tags am Anfang der MP3-Datei eingefügt werden. Auch innerhalb von ID3v2 gibt es noch beträchtliche Unterschiede. Am weitesten verbreitet sind ID3v2.3 und ID3v2.4, wobei erst ID3v2.4 offiziell die Verwendung von UTF-8-kodierten Zeichen zulässt (vorher waren nur ISO-8859-1 und UTF-16 zulässig). Viele Hardwareplayer zeigen aber UTF-8-Tags nur als wirre Zeichen an. Da ID3v2-Tags am Anfang der Datei stehen, lassen sich diese Daten beispielsweise auch bei der Übertragung über HTTP lesen, ohne erst die ganze Datei zu lesen oder mehrere Teile der Datei anzufordern. Um zu vermeiden, dass bei Änderungen die ganze Datei neu geschrieben werden muss, verwendet man üblicherweise Padding, das heißt man reserviert im Vorfeld Platz für diese Änderungen.

Die Metadaten aus dem ID3-Tag können beispielsweise genutzt werden, um Informationen zum gerade abgespielten Stück anzuzeigen, die Titel in Wiedergabelisten (Playlists) zu sortieren oder Archive zu organisieren.

Spezifikation[Bearbeiten]

Frame-Header[Bearbeiten]

Byte 1 Byte 2 Byte 3 Byte 4
  1    1    1    1    1    1    1    1    1    1    1                                                                                                          
Sync ID Layer Pr Bitrate Freq Pa Pv Kanal ModEx Cp Or Emph
Element Größe Beschreibung
Sync 11 Bit alle Bits sind auf 1 gesetzt
ID 2 Bit 0 = MPEG Version 2.5
1 = reserviert
2 = MPEG Version 2
3 = MPEG Version 1
Layer 2 Bit 0 = reserviert
1 = Layer III
2 = Layer II
3 = Layer I
Protection 1 Bit 0 = 16-Bit CRC nach dem Header
1 = keine CRC
Bitrate 4 Bit gemäß Bitraten-Tabelle
Samplingfrequenz 2 Bit gemäß Sampling-Tabelle
Padding 1 Bit 0 = Frame wird nicht aufgefüllt
1 = Frame mit Extraslot gefüllt
Slotgröße: Layer I = 32 Bits; Layer II+III 8 Bits
Private 1 Bit nur informativ
Kanalmodus 2 Bit 0 = Stereo
1 = Joint Stereo
2 = 2 Mono Kanäle
3 = ein Kanal (Mono)
Mode-Extension 2 Bit (nur für Joint Stereo)
gemäß Mode-Extension-Tabelle
Copyright 1 Bit 0 = ohne Copyright
1 = mit Copyright
Original 1 Bit 0 = Kopie
1 = Original
Emphasis 2 Bit 0 = keine
1 = 50/15 ms
2 = reserviert
3 = ITU-T J.17

Tabelle Bitraten (Angaben in kbps)
Wert MPEG 1 MPEG 2/2.5
Layer I Layer II Layer III Layer I Layer II/III
0 freies Format
1 32 32 32 32 8
2 64 48 40 48 16
3 96 56 48 56 24
4 128 64 56 64 32
5 160 80 64 80 40
6 192 96 80 96 48
7 224 112 96 112 56
8 256 128 112 128 64
9 288 160 128 144 80
10 320 192 160 160 96
11 352 224 192 176 112
12 384 256 224 192 128
13 416 320 256 224 144
14 448 384 320 256 160
15 nicht erlaubt

Tabelle Samplingfrequenz (Angaben in Hz)
Wert MPEG 1 MPEG 2 MPEG 2.5
0 44.100 22.050 11.025
1 48.000 24.000 12.000
2 32.000 16.000 8.000
3 reserviert

Tabelle Mode-Extension
Wert Layer I/II Layer III
0 Subbänder 4 bis 31 Intensity-Stereo: aus; M/S-Stereo: aus
1 Subbänder 8 bis 31 Intensity-Stereo: ein; M/S-Stereo: aus
2 Subbänder 12 bis 31 Intensity-Stereo: aus; M/S-Stereo: ein
3 Subbänder 16 bis 31 Intensity-Stereo: ein; M/S-Stereo: ein

Frame-Daten[Bearbeiten]

Auf den Frame-Header folgen die Frame-Daten (gegebenenfalls zunächst CRC), in denen die kodierten Audio-Daten enthalten sind. Die Frame-Daten enthalten immer genau 26 ms Audiodaten die, basierend auf den angegebenen Eigenschaften im Header, die entsprechende Datenlänge errechnet werden können. Die Größe eines Frames lässt sich dann mit der folgenden Formel berechnen, wobei die Division als Integer-Division durchzuführen ist:

Framegröße[bytes] = (144 × Bitrate) / Samplerate + Padding

Wenn bei komplexen Musikstücken die Menge an Daten nicht in einem Frame gespeichert werden können, bietet MP3 ein sogenanntes „byte reservoir“. Dieser Speicherbereich ist als zusätzlicher Platz für die Datei bestimmt und erweitert die Daten im entsprechenden Frame. Hierzu kodiert der Encoder vorangegangene Musikpassagen mit geringerer Bandbreite und füllt somit frühere Frames nicht vollständig aus, das sogenannte „byte reservoir“ entsteht. Dieser geschaffene freie Speicherplatz kann nun für die höhere Datenmenge komplexerer Musikpassagen genutzt werden. Die maximale Größe dieses Datenreservoirs beträgt 511 Byte, wobei ausschließlich vorangegangene Frames aufgefüllt werden dürfen.

Verbreitete Implementierungen[Bearbeiten]

Zum Codieren von MP3-Dateien stehen der lizenzpflichtige Encoder der Fraunhofer-Gesellschaft und der Encoder des Open-Source-Projektes LAME zur Verfügung. Daneben existieren der Referenzencoder der ISO dist10 und weitere Projekte wie beispielsweise Xing, blade und Gogo.

Als Decoder gibt es mpg123, MAD, libavcodec und weitere.

Alternative Formate[Bearbeiten]

Eine ≈128-kbit-/s-MP3-Datei im direkten Vergleich durch Spektralanalysen mit anderen verlustbehafteten Audiodatenkompressionsverfahren. Das unkomprimierte Lied The Power of Thy Sword zeigt im Gegensatz zur MP3-Datei eine volle Bandbreite bis etwa 21  kHz, wogegen die MP3-Datei nur etwa eine Bandbreite bis etwa 16 kHz aufweisen kann, das heißt allerdings nicht sofort, dass sich die Audioqualität drastisch verändert hat

Neben MP3 existieren zahlreiche weitere Audioformate. Das Format Vorbis ist quelloffen und wird von den Entwicklern als im Gegensatz zu MP3 patentfrei bezeichnet. Vorbis hat sich bei technischen Analysen und in Blindtests gegenüber MP3 vor allem in niedrigen und mittleren Bitratenbereichen als überlegen erwiesen, während im hohen Bereich (um 256 kbit/s) der Vorsprung minimal ist. Außerdem bietet Ogg-Vorbis Mehrkanal-Unterstützung und das Containerformat Ogg erlaubt zudem auch Video- und Textdaten.[11] Das wird aber nur von sehr wenigen MP3-Playern und Radios unterstützt.

RealAudio von RealMedia wurde vorwiegend für Audio-Datenströme (Streaming Audio) eingesetzt.

Das freie, auf MP2-Algorithmen basierende Musepack (früher MPEGPlus) wurde entwickelt, um bei Bitraten über 160  kbit/s noch bessere Qualität als das MP3-Format zu ermöglichen. Es konnte sich aber nicht breit durchsetzen, da es eher auf die Anwendung durch Enthusiasten im High-End-Bereich abzielt und im kommerziellen Bereich kaum unterstützt wird. Dateien im Musepack-Format erkennt man an der Erweiterung mpc oder mp+.[12]

Advanced Audio Coding (AAC) ist ein im Rahmen von MPEG-2 und MPEG-4 standardisiertes Verfahren, das von mehreren großen Unternehmen entwickelt wurde. Apple und RealMedia setzen dieses Format für ihre Online-Musikläden ein, und die Nero AG stellt einen Encoder für das Format bereit. Mit faac ist auch ein freier Encoder erhältlich.[13] AAC ist bei niedrigen Bitraten bis etwa 160 kbit/s MP3 in der Klangqualität überlegen – je niedriger die Bitrate, desto deutlicher –, erlaubt Mehrkanal-Ton und wird von der Industrie (zum Beispiel bei Mobiltelefonen und MP3-Playern) breit unterstützt.

Windows Media Audio (WMA) ist ein von Microsoft entwickeltes Audioformat und wird häufig für DRM-geschützte Downloads verwendet. Obwohl es auf vielen üblichen Plattformen abgespielt werden kann, hat es sich nicht gegen das MP3-Format behaupten können.

Wissenswertes[Bearbeiten]

Das Team um Brandenburg machte die ersten Praxistests mit der A-cappella-Version des Liedes Tom’s Diner von Suzanne Vega. Brandenburg hörte das Lied durch Zufall und empfand das Stück sogleich als geeignete Herausforderung für eine Audiodatenkompression.

Literatur[Bearbeiten]

  • Roland Enders: Das Homerecording Handbuch. Der Weg zu optimalen Aufnahmen. 3., überarbeitete Auflage, überarbeitet von Andreas Schulz. Carstensen, München 2003, ISBN 3-910098-25-8.
  • Thomas Görne: Tontechnik. Fachbuchverlag Leipzig im Carl Hanser Verlag, München u. a. 2006, ISBN 3-446-40198-9.
  • Hubert Henle: Das Tonstudio Handbuch. Praktische Einführung in die professionelle Aufnahmetechnik. 5., komplett überarbeitete Auflage. Carstensen, München 2001, ISBN 3-910098-19-3.
  • Michael Dickreiter, Volker Dittel, Wolfgang Hoeg, Martin Wöhr (Hrsg.), "Handbuch der Tonstudiotechnik", 8., überarbeitete und erweiterte Auflage, 2 Bände, Verlag: Walter de Gruyter, Berlin/Boston, 2014, ISBN 978-3-11-028978-7 oder e-ISBN 978-3-11-031650-6

Weblinks[Bearbeiten]

 Wiktionary: MP3 – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Einzelnachweise[Bearbeiten]

  1. RFC 3003
  2. RFC 3555
  3. RFC 5219
  4. a b MP3 wird 10 Jahre. 12. Juli 2007, abgerufen am 3. Februar 2011.
  5. heise.de: Microsoft sieht Hunderte von Firmen von MP3-Patentstreit betroffen
  6. heise.de: Microsoft erringt Erfolg im Streit um MP3-Patente
  7. heise.de, Carsten Meyer: Kreuzverhörtest. In: c't 6/2000, Abschnitt Siegerehrung
  8. AudioHQ über MP3-Qualität
  9. Apple.com: What is Gapless Playback (englisch)
  10.  David Salomon: Data Compression. The Complete Reference. 4. Auflage. Springer, 2007, ISBN 978-1-84628-602-5, S. 815.
  11. Digit-Life.com: OGG vs. LAME (englisch)
  12. hydrogenaudio.org: MPC vs VORBIS vs MP3 vs AAC at 180 kbps, 2nd checkup with classical music (englisch)
  13. SourceForge.net: Freeware Advanced Audio Coder (englisch)