Simon [ at ] WWWagner . org

Webseite von Simon Wagner :: Verschiedene Quellen > OS für Künstler > Ogg Vorbis-Intro

Eine Einführung in komprimiertes Audio mit Ogg Vorbis

Von Graham Mitchell

Autor der englischsprachigen Original-Version: Graham Mitchell.
Übersetzung: Simon Wagner.
(siehe Ende des Dokuments für die Erlaubnis zur Weiterverwendung der Übersetzung).

Letzte Version des englischsprachigen Originals: 30. August 2004.
Deutschsprachige Übersetzung: siehe Versionsgeschichte am Ende des Textes.

Die Übersetzung ist, wie auch das Original, unter einer Creative-Commons-Lizenz lizensiert.
Siehe Dateiende für genauere Angaben.

Dieses Dokument ist die Übersetzung einer der populärsten Einführungen zum Thema »Alternativen zu mp3«, die 2004 im Web zu finden war. Das Original wurde mehrmals in andere Sprachen übersetzt, bis dahin aber nicht ins Deutsche. Die Bedeutung des Vorbis-Codecs ist seither nicht geringer geworden, im Gegenteil. Die Einführung des <video>-tags in HTML5 wird es in Zukunft ermöglichen, Multimedia-Inhalte auf Webseiten ohne zusätzliche Browser-Plugins abzuspielen. Zusammen mit den Open-Source-Video-Codecs Theora und vp8 ist Ogg Vorbis der Codec der Wahl für eine Internetkultur ohne Softwarepatente. Für mehr Informationen zum Abspielen von Videos in HTML5 vgl. die ausgezeichnete Darstellung von Marc Pilgrim: Dive into HTML5, Kapitel 5 (in Englisch).
 

Lautsprecher im Belvedere-Park Lautsprecher im Park des Belvedere, Wien. Foto: Simon Wagner.

Eine Einführung in komprimiertes Audio mit Ogg Vorbis

Dieses Dokument ist eine Einleitung in komprimiertes Audio. Es behandelt die Grundlagen akustischer Wellen und ihrer digitalen Speicherung, die Frage, warum Komprimierung sein muss, die Grundlagen verlustbehafteter Audio-Komprimierung, und die Frage, warum Ogg Vorbis eine gute Wahl für komprimiertes Audio ist. Für das Verständnis vorausgesetz wird eine elementare Vertrautheit mit Physik und Computerterminologie auf der Ebene von Begriffen wie »bit«, »byte« und »Datei«.

Inhalt:

  1. Musikalische Klänge – eine kurze Einführung in Wellentheorie und Klangeigenschaften von Wellen
  2. Digitales Audio – wie analoge Klangwellen digital wiedergegeben werden
  3. Die Frage der Dateigröße – warum Komprimierung von digitalem Audio wünschenswert ist
  4. Verlustfreie Komprimierung – über diejenige Art von Komprimierung, bei der keine Information verloren geht
  5. Verlustbehaftete Komprimierung – warum unvollkommene Komprimierung dennoch gleich gut klingen kann
  6. Ein Bisschen über Bitraten – Definitionen von »Bitrate« und ihre Erörterung
  7. CBR? VBR? ABR? – verschiedene Konzepte des Umgangs mit Bitraten
  8. Einfach »Nein« zu Bitraten sagen – warum Bitraten als Maß für Klangqualität eine schwache Sache sind
  9. Warum Ogg Vorbis? – warum ich glaube, dass Ogg Vorbis für viele Zwecke das ideale komprimierte Audio-Format ist
  10. Warum kein Ogg Vorbis? – Gründe, warum Ogg Vorbis nicht das ideale komprimierte Audio-Format für Sie sein könnte
  11. Welche Klangqualität soll ich verwenden? – eine Besprechung brauchbarer Hörtests und Vorschläge zur Qualität
  12. Noch eine Bemerkung zum »Transkodieren« – warum es keine gute Idee ist, von einem komprimierten Audio-Format in ein anderes (z.B. von MP3 in Vorbis) zu konvertieren
  13. Diese Übersetzung vervielfältigen oder kopieren – wie diese Übersetzung rechtmäßig und ohne ausdrückliche Erlaubnis kopiert, weiterverbreitet oder übersetzt werden kann
  14. Versionsgeschichte – Änderungen an diesem Dokument

 

Musikalische Klänge

Musik wird aus Wellen gemacht. Sobald ein Geiger über eine Saite streicht, vibriert oder schwingt die Saite mit einer bestimmten Frequenz und erzeugt eine Tonschwingung. Diese pflanzt sich durch die Luft fort, trifft auf das Trommelfell und bewirkt, dass auch dieses schwingt. Das Gehirn interpretiert dann die Signale, die vom Trommelfell kommen, wodurch es den Ton »hört«.

In gleicher Weise gibt es alles, was sonst noch hörbar ist, nur, weil irgend etwas schwingt und Schallwellen erzeugt. Das ist bei einer Trompete die Luftsäule im Instrument selbst (das Blech verstäkt sie nur und bewirkt eine Färbung), bei einer E-Gittare der Konus des Lautsprechers, der sein Signal über den Verstäker von der schwingenden Seite erhält, und beim Sprechen oder Singen sind es die Stimmbänder, die schwingen. Alle diese Dinge erzeugen Schallwellen.

Tonwellendiagramm mit Frequenz- und Amplitudenangabe

Wie nun diese Wellen klingen, wird von den Eigenschaften der Wellen bestimmt: die Frequenz einer Welle gibt an, wieviel Mal pro Sekunde sie von ihrem höchsten zu ihrem niedrigsten Punkt und wieder zurück geht. Üblicherweise wird sie in Hertz (Hz) gemessen, der Anzahl der Zyklen pro Sekunde. Die durch die Frequenz der Welle bestimmte Eigenschaft ist dabei die Tonhöhe: hochfrequente Wellen sind für uns hohe Töne, niederfrequente tiefe. Als Durchschnittsmenschen können wir Frequenzen so zwischen 15 oder 20 Hertz und 20.000 Hz (20 kHz) hören.

Die Amplitude einer Welle gibt den halbierten Abstand zwischen dem höchsten Punkt der Welle und ihrem niedrigsten an. Je größer die Amplitude, desto lauter ist der Schall, was üblicherweise in Dezibel (dB) gemessen wird. Der Lautstärkebereich des menschlichen Ohrs ist eine komplizierte Sache – er hängt stark von der Frequenz des gehörten Tons ab, bewegt sich aber so etwa zwischen 0 und 120 dB, wobei jeder 10-dB-Schritt subjektiv als Verdoppelung der Lautstärke wahrgenommen wird. Es ist auch nicht uninteressant, dass jeder 3-dB-Schritt die Energie der Welle verdoppelt, aber das ist noch einmal ein anderes Thema.

Digitales Audio

Schon im 2. Weltkrieg hatten Wissenschaftler mit digitalem Audio experimentiert, das heißt, sie wandelten analoge (»natürliche«) Schallwellen in diskrete, gestufte Werte um. Das geschah, indem man den Klang viele Male pro Sekunde »sampelte«, also abtastetete, und den momentanen Zustand der Welle dadurch aufzeichnete, dass man ihre Amplitude und ihre Schwingungsrichtung (aufwärts oder abwärts) festhielt. Damit bei einer solchen Aufnahme keine unnatürlichen Verzerrungen entstehen, muss nach dem Nyquist-Theorem die Samplingrate (also die Anzahl von Abtastvorgängen pro Sekunde) mindestens zwei Mal so groß sein wie die höchste aufgenommene Frequenz.

Als Philips und Sony dann in den siebziger Jahren nach Wegen suchten, die Qualität von Musikaufnahmen zu verbessern, verfielen sie wieder auf das digitale Sampling. Man wählte eine Samplingrate von 44 100 Abtastvorgängen pro Sekunde – das war einerseits bereits über der Zielvorgabe, dem Doppelten der höchsten von Menschen hörbaren Frequenz, andererseits ließ sich die so entstehende Informationsmenge dem damaligen Stand der Technik entsprechend auf einem Videoband unterbringen, dem bevorzugten Speichermedium vor der Vervollkommnung der heutigen CDs.

Diagramm einer gesampelten Schallwelle

Jedes »Sample« ist eine Zahl zwischen -32 768 und 32 767 und damit als sechzehnstellige Binärzahl (d.h., mit 16 bit) beschreibbar. Angezeigt wird durch diese Zahl die Amplitudenhöhe der Schwingung im Augenblick des Sampelns. Eine gesampelte Welle, die zwischen -32 768 und +32 768 hin- und herschwingt, wäre also die lauteste Welle, die ein solches Format wiedergeben könnte, und eine zwischen -1 und +1 schwingende Welle wäre die leiseste; eine Folge von Nullen schließlich würde völlige Stille bezeichnen. Der Wertebereich für die Amplitude ist also recht fein abgestuft, sodass auch geringfügige Lautstärkeunterschiede genau wiedergegeben werden können. Audio-Aufnahmen auf diese Weise digital zu sampeln, wird PCM (Pulse Code Manipulation) genannt und ist die populärste Art der digitalen Abtastung.

Digitales PCM-Audio erzeugt ein ziemlich getreues Bild des »Live«-Sounds, und nur die geübtesten Hörer können mit einer guten Abspielanlage zwischen ihm und dem Original unterscheiden.

Die Frage der Dateigröße

Es ist möglich (und ganz leicht), Audiodateien einer Musik-CD auszulesen (zu »rippen«), in wav-Dateien auf einem Computer zu speichern und von dort jederzeit wiederzugeben. In dieser Qualität – der höchsten, in der man Musikdateien normalerweise käuflich erwerben kann – sollte man seine Musik also idealerweise überall hören: im Auto, auf dem Computer, vom Walkman, auf der Stereo-Anlage. Wieso ist das derzeit nicht machbar? Die Antwort heißt Dateigröße.

Ein bisschen Mathematik kann zeigen, wieviel Speicherplatz benötigt wird, um Klanginformationen in dieser Qualität zu speichern: jedes Sample hat 16 bit, d.h. 2 Byte; es gibt 44 100 Samples pro Sekunde, und zwar – da Musik heutzutage in Stereo aufgenommen wird, jeweils einmal für den rechten und einmal für den linken Kanal. Das ergibt den Wert von 2 × 44 100 × 2, also 176 400 Bytes für eine Sekunde Musik, und für nur eine Minute Audio mit CD-Qualität sind es schon 10 584 000 Byte, also ungefähr 10 MByte. Für Leute mit einer mehrere hundert Gigabyte großen Festplatte klingt das nicht sonderlich aufregend … – auf diese Weise kommt aber doch schnell viel zusammen.

Meine persönliche Musiksammlung besteht z.B. zur Zeit aus 1307 Songs auf 102 verschiedenen Alben (von denen einige Doppelalben sind). Die gesamte Spieldauer aller Nummern zusammen ist 5 243 Minuten und 23 Sekunden. Also mehr als drei Tage und 18 Stunden! Um das in der üblichen CD-Qualität zu speichern, bräuchte man geschätzte 53 Gigabyte Festplattenplatz. Natürlich kann ein moderner Computer mit so viel Platz aufwarten, sofern man ein bisschen Geld übrig hat – ein durchschnittlicher tragbarer Player hat aber nach wie vor kaum ein Zehntel davon. Und auch bei größeren Playern kann die Menge an Zeit, die man braucht, um all diese Dateien hinaufzuladen, ein Faktor sein.

Die immer größere Beliebtheit von Video-DVDs mit »Surround-Sound« macht das Problem nicht gerade kleiner: die Tonspur solcher DVDs besteht aus fünf Kanälen (links, rechts, mitte, links hinten, rechts hinten), was den Platzbedarf fast verdreifacht; und bei Musik-DVDs ist es noch schlimmer: bis zu sieben Kanäle mit 24-bit Samples bei 96 kHz, was beinah das zehnfache an Platz beansprucht!

Es sieht also ganz so aus, dass in der näheren Zukunft (zumindest bis tragbare Player mehrere Hundert Giga Speicherplatz haben werden) niemand seine komplette Musiksammlung mit sich herumtragen wird können.

Oder doch?

Eine Lösung gibt es zum Glück zumindest: Komprimierung. Komprimieren nennt man eine Technik, mit der man aus einer Datei eine andere Datei erzeugt, die weniger Platz braucht und doch dieselben Informationen enthält. Dabei gibt es zwei Möglichkeiten, und also gibt es zwei Kategorien von komprimierten Dateien: verlustfreie und verlustbehaftete.

Verlustfreie Komprimierung

Verlustfreie Kompression bedeutet, dass die komprimierte, kleinere Datei in die ursprüngliche unkomprimierte Datei ohne irgendeinen Informationsverlust zurück gewandelt werden kann. Das heißt: man nehme eine Datei, komprimiere sie, und wandle sie nachher wieder in eine unkomprimierte Datei um. Wenn die ursprüngliche Datei für jede Art von Eingabe-Datei zu hundert Prozent bit-für-bit identisch ist, dann ist das Kompressions-Schema (der Algorithmus) verlustfrei. Es geht unter keinen Umständen Information verloren.

Leider sind es gerade Audio-Dateien, wo verlustfreie Kompression schwierig ist. Komprimierungsprogramme für den täglichen Gebrauch, wie WinZip oder GNU/Linux gzip schaffen durchschnittlich nur fünf Prozent, und »Next-Generation«-Werkzeuge wie WinRAR oder GNU/Linux bzip2 bringen es auf ein paar Prozent mehr. Es gibt zwar besondere Kompressions-Werkzeuge, die speziell für die verlustfreie Komprimierung von Audio-Dateien entwickelt wurden (wie z.B. flac), aber sogar diese bringen es auf höchstens 50 % Verkleinerung der Dateigröße. Manchen mag das genug erscheinen, wirklich mobile Musikdateien müssen aber noch deutlich kleiner sein.

Verlustbehaftete Komprimierung

Bei Komprimierung mit Verlust geht zwangsweise Information verloren. Wenn man eine Datei, die man zuvor komprimiert hat, wieder dekomprimiert, kommt zwar etwas der originalen Datei Ähnliches, aber nichts mit ihr Identisches heraus. Für Programm-Dateien z.B. (die von einer Maschine bit für bit interpretiert werden müssen) ist das unbrauchbar, aber für Menschen ist es oft genau das Richtige. Der Trick besteht darin, kleine Informationsstückchen dort herauszuschneiden, wo sie nicht wahrgenommmen werden können.

Anders gesagt: verlustbehaftete Audio-Komprimierung funktioniert mit einem psychoakustischen Modell. Wenn man nämlich ein Modell dafür hat, wie unsere Ohren (und unser Gehirn) Klänge hören, lassen sich die Stellen mit denjenigen Informationen finden, die man ohnehin nicht wahrgenommen hätte; diese Informationen kann man dann herausschneiden. Eine vollständige Behandlung dieser Techniken übersteigt die Aufgabenstellung dieser Seite, doch möchte ich zumindest zwei Beispiele geben:

Obwohl Menschen technisch gesehen Tonhöhen bis zu 20 kHz zu hören vermögen, sind die meisten für alles, was über 15 kHz hinausgeht, taub – vor allem dann, wenn es gerade andere Klänge oder Geräusche gibt. Trotzdem enthalten Audio-Dateien in CD-Qualität Information, um solche Tonhöhen wiederzugeben. Wenn man also Töne jenseits der normalerweise hörbaren Grenze herausfiltert, vermindert sich die zu speichernde Informationsmenge, ohne dass die wahrgenommene Klangqualität beeinträchtigt wird. (Und selbst Menschen, die höhere Töne wahrnehmen können, werden sie nicht hören, wenn sie vor billigen Heimcomputer-Lautsprechern sitzen, die diese Frequenzen gar nicht wiedergeben können.)

Ein anderer, aber ähnlich bedeutsamer Fall sind z.B. laute Schläge mit der Basstrommel (bei Rock’n Roll mehrmals pro Sekunde). Unser Trommelfell ist in solchen Augenblicken, d.h. für einige Millisekunden, zu sehr mit der Verarbeitung der Schlagzeug-Schläge beschäftigt, als dass es überhaupt irgendwelche anderen Töne aufnehmen könnte. Durch das einfache Auslassen der unmittelbar nach solchen Schlägen folgenden Samples lässt sich also Information sparen, ohne die Qualität der wahrgenommenen Klänge zu beeinträchtigen. (Das ist freilich bislang bloß ein Beispiel: ich kenne keinen Encoder, der so etwas tatsächlich schon macht.)

Durch die Verwendung ausgefeilter Techniken ähnlich den soeben skizzierten erzielen nicht-verlustfreie Kompressions-Dateiformate wie z.B. Ogg Vorbis und mp3 Ergebnisse, die nachweisbar ununterscheidbar vom ursprünglichen Klang in CD-Qualität sind und doch nur zehn oder zwanzig Prozent von deren Größe haben.

Wenn man noch ein Schäuferl zulegt und mit diesen Techniken aggressiver umgeht, kommt man auf fünf Prozent der ursprünglichen Dateigröße für Dateien, die auf vielen der üblichen Geräte (man denke an normale UKW Radioqualität) noch immer recht gut klingen.

Ein Bisschen über Bitraten

Die Größe solcher Dateien wird letztlich durch die Bitrate bestimmt. Gemeint ist, wieviel Bits das Komprimierprogramm (anders gesagt, der Encoder) verwendet, um jeweils eine Sekunde Audio darzustellen. Gegenwätige unkomprimierte CD-Qualität braucht, wie gesagt, 176 400 Byte oder 1 411 200 bits, um eine einzelne Sekunde abzuspeichern. Das heißt also etwa eintausendvierhunderelf Kilobits pro Sekunde oder 1 411 kbps. Die üblichen verlustbehafteten Formate würden für das Abspeichern »derselben« Information dagegen nur irgend etwas zwischen 64 und 256 kbps verwenden.

Bitrates sagen aber nun – und das ist das Problem – bloß etwas über die Größe der Datei aus, nicht aber über ihre Qualität. So kann man z.B. ein Komprimierungsformat schreiben, das 256 kbps dadurch erreicht, dass es von den 1 411 200 bits jeder Sekunde nur die ersten 256 000 herausnimmt, also die ersten 18%. Es wäre natürlich schwachsinnig, anzunehmen, dass ein solchermaßen kodiertes Stück besser klingen würde als ein ganz normales 128 kbps-mp3, und jeder Hörtest wird die Unterlegenheit dieser Technik sofort beweisen.

Nun war das bei Fraunhofer und Thompson entwickelte mp3-Format – ein massiv durch Patente geschütztes Format, das zu seiner Zeit neue Grundlagen geschaffen hatte – das erste verlustbehaftete Audio-Kompressionswerkzeug, das weite Verbreitung bei den Anwendern fand, und weil das so ist, assoziieren die meisten noch heute bestimmte Bitrates mit bestimmten Qualitätsstufen.

Aber sogar innerhalb des nun in die Jahre kommenden mp3-Formats, ja sogar innerhalb derselben Bitrate (sagen wir, 128 kbps) variiert die Tonqualität von Encoder zu Encoder drastisch: der Xing-Encoder z.B. ist schnell, liefert aber auch bei 128 kbps dürftige Klangergebnisse, der LAME-Encoder hingegen ist etwas langsamer, erzeugt aber Dateien mit deutlich besserem Klang bei derselben Bitrate.

Noch wichtiger aber ist, dass neuere verlustbehaftete Audio-Kompressionstools wie z.B. WMA, AAC oder Ogg Vorbis andere psychoakustische Modelle verwenden und so die Klangqualität bei einer gegebenen Bitrate selbst gegenüber dem besten mp3-Encoder bemerkenswert verbessern.

CBR? VBR? ABR?

Bitraten allein sind also noch nicht die ganze Geschichte. Mehr noch, frühe mp3-Encoder und auch noch viele heutige verwenden eine sogenannte »Durchschnittsbitrate« (engl. average bit rate, daher ABR). Wenn wir also eine Datei mit 128 kbps encoden, wird der Encoder genau 128 kbps verwenden, um jeweils eine Sekunde des Stücks aufzuzeichnen, was auch immer sie enthalten mag. Die erste Zeiteinheit, die vielleicht aus zwei Trommelschlägen besteht, wird mit den verwendeten 128 kbps beinah exakt wiedergegeben werden. Wenn aber dagegen irgenwann in der Mitte des Stücks die Lead-Gitarre in einem Solo aufgeht, der Schlagzeuger über den Zimbeln alles andere vergisst und der Bass seinen funkigen Groove ablässt, dann muss der Encoder immer noch 128 Kilobits verwenden, obwohl auch 300 nicht zu wenig gewesen wären. Diese Sekunden werden also ziemlich dürftig wiedergegeben werden.

Neuere mp3-Encoder wie z.B. LAME unterstützen die sogenannte »variable Bitrate« (VBR). Damit hat der Encoder mehr Freiheit, Bits einzusparen, wo er nicht so viele braucht, um den Abschnitt gut wiederzugeben, und also »zusäzliche« Bits übrig zu haben, wenn er sie in Abschnitten, wo sie wirklich nötig sind, braucht. Dementsprechend kommen dabei Dateien heraus, die auch bei der gleichen angegebenen Bitrate ein wenig kleiner sind als ABR-Dateien und die dennoch in den Abschnitten, wo viel los ist, wesentlich besser klingen.

(Gelegentlich trifft man auch auf mp3s mit der Bezeichnung »CBR« (für constant bit rate), was heißt, dass jedes Sample der Datei genau die gleiche Anzahl von Bits verwendet. In Wirklichkeit verwendet aber mp3 ein Bit-Reservoir, um die Bitraten über kurze Zeitperioden durchschnittlich zu verteilen – technisch gesehen wird also ABR verwendet, und es ist unwahrscheinlich, dass irgenwelche komprimierten Audioformate richtiges CBR verwenden.

Was nun VBR-mp3s betrifft, so können sie, obwohl neuere mp3-Encoder sie unterstützen, dummerweise von einigen älteren tragbaren Hardware-mp3-Playern nicht abgespielt werden. Und selbst dann, wenn sowohl Encoder als auch Player diesen Modus unterstützen, wird er von vielen Leuten aus den verschiedensten Gründen – Gewohnheit, Unkenntnis usw. – nicht verwendet.

Hingegen wird VBR praktisch von allen Werkzeugen für verlustbehaftete Audio-Komprimierung unterstützt, die neuer sind als mp3, auch wenn es nicht alle per Voreinstellung aktiviert haben.

Einfach »Nein« zu Bitraten sagen

Tests bei Fraunhofer und Thomson hatten ergeben, dass 256 kbps für mp3s praktisch »CD-Qualität« sei; ihre Toningenieure konnten zwischen mp3s, die mit dieser Bitrate aufgenommen worden waren, und den ursprünglichen CDs kaum unterscheiden. Die Dateien hatten etwa 20 Prozent der ursprünglichen Dateigröße, waren qualitativ aber praktisch ununterscheidbar.

Seither sind 128 kbps-mp3s quasi zum Standard geworden. Sie klingen für den durchschnittlichen Hörer gut genug, obwohl viele Leute mit guter Ausrüstung den Unterschied hören können. Diese Dateien haben etwa ein Zehntel der ursprünglichen Dateigröße, was der Grund für die "Ein Megabyte pro Minute"-Faustregel ist, die der Handel heranzieht, um zu anzugeben, wieviel Musik auf einen bestimmten tragbaren mp3-Player passt.

Leute mit dumpfen Ohren oder einer schlechten Anlage oder mit dem irrationalen Wunsch, das Doppelte an Musik auf einen mp3-Player zu stopfen, kodieren mp3s mit 64 kbps. Solche Dateien klingen noch immer nicht sehr viel schlechter als UKW-Radio, haben aber nur ein Zwanzigstel an Größe. (Bei zahlreichen, aber nicht allen tragbaren Playern wird vom Gebrauch der 64 kbps anstatt der üblicheren 128 kbps ausgegangen, wenn sie mit »über 2 Stunden Speicherkapazität« werben.)

Das Problem mit solchen Faustregeln ist, dass sie nur für mp3 funktionieren. Heute gibt es jedoch viele Formate, die neuer sind als mp3 und die alle in der Klangqualität besser sind; gleichzeitig werden ausgeklügeltere psychoakustische Modelle entworfen, sodass sich der Klangqualitätsunterschied zwischen einer bestimmten Bitrate für mp3 und derselben Bitrate für ein davon verschiedenes Format weiter vergrößern wird.

Eine mit dem Ogg Vorbis-Format mit »Stufe 3« (von 10 Qualitätsstufen) kodierte Datei zum Beispiel kommt normalerweise auf eine durchschnittliche Bitrate von 112 kbps, klingt aber besser als ein 128 kbps-mp3 und ziemlich oft genauso gut wie ein 160 kbps-mp3.

Aus diesem Grund rät die Ogg Vorbis-Gemeinde davon ab, beim Kodieren bestimmte Bitraten erreichen zu wollen, und konzentriert sich stattdessen auf die Klangqualität selbst. Tatsächlich kümmern sich die Ogg Vorbis-Encoder normalerweise überhaupt nicht um Bitraten (der voreingestellte Arbeitsmodus ist VBR) und verwenden stattdessen eine Qualitäts-Skala von 1 bis 10 mit Schritten von etwa 0,01. Diese Qualitätsstufung ist ein Maß dafür, wie originalnah die Datei klingen soll; der Encoder verwendet dann so viel oder so wenig Bits wie notwendig, um den gewählten Qualitätsanforderungen gerecht zu werden. Zwar läuft jede Qualitäts-Auswahleinstellung auf eine grobe Durchschnitts-Bitrate hinaus, doch das ist ein Nebenprodukt der Encoder-Einstellungen – der Encoder selbst nimmt sich keine bestimmte Bitrate zum Ziel.

Die Qualitäts-Voreinstellung ist 3, was für den oder die DurchschnittsbenutzerIn in Ordnung sein sollte, da es eine bessere Klangqualität als ein 128 kbps-mp3 ergibt, aber gleichzeitig noch einmal um mehr als zehn Prozent kleiner ist. Wer beinah genau 128-kbps-mp3-Qualität will, kommt meist schon mit Qualitätsstufe 2 aus – was 25 % kleiner ist.

Ich gehe daher ab jetzt in dieser Beschreibung davon aus, dass Sie Musik im Ogg Vorbis-Format kodieren wollen.

Warum Ogg Vorbis?

Ogg Vorbis ist erstens deshalb eine gute Wahl, weil es von den neueren Formaten, die es so gibt, eine der besten Klangqualitäten hat. Kürzliche doppelt verdeckte Hörtest positionieren Ogg Vorbis in der höchsten Qualitätsstufe von allen komprimierenden Audio-Codecs der »zweiten« Generation. Das heißt, dass Sie entweder Platz sparen und dieselbe Qualität oder aber eine bessere Qualiät für denselben Platzbedarf bekommen können – oder eine Kombination von beidem (also ein wenig kleiner und ein bisschen klangvoller).

Zweitens ist Ogg Vorbis Open-Source (unter der BSD-Lizenz), und es ist darüber hinaus vollständig patentfrei. Das bedeutet, dass im Unterschied zu den meisten anderen Formaten Gerätehersteller, die Ogg Vorbis auf ihrem tragbaren Musik-Player unterstützen möchten, das tun können, ohne dafür Lizenzkosten zu zahlen. Software-Entwickler können das Ogg Vorbis-Format für Musik oder Klang in ihrem Spielen verwenden, ohne dafür um Erlaubnis bei irgendeinem mächtigen Unternehmen anzusuchen und ohne dafür Tantiemen zu zahlen. Die freie Zugänglichkeit des Codes für das Format bedeutet weiter, dass jedermann/jederfrau die Freiheit hat, die Ogg Vorbis-Tools auf die verschiedensten anderen Systeme (Prozessorarchitekturen) zu portieren, Unebenheiten im Programm auszubessern und den Code, wenn gewünscht, zu verbessern. Die BSD-Lizenz erlaubt es den Entwicklern sogar, den Code entsprechend ihren eigenen Bedürfnissen zu verändern, ohne ihre Änderungen zu veröffentlichen! Die meisten anderen Formate sind dagegen mit Patenten geschützt bzw. belastet und werden scharf überwacht.

Schließlich ist Ogg Vorbis intelligent entworfen. Es stellt Merkmale zur Verfügung, die die anderen Formate nicht haben:

  • Wer mit den id3-Tags von mp3 vertraut ist, wird auch deren Beschränkungen kennen; Ogg Vorbis stellt dagegen einen flexiblen Tagging-Standard zur Verfügung, der die vollständige Anpassung der Tags an eine bestimmte Datei erlaubt, einschließlich benutzerdefinierter Tags (z.B. »remixed von« oder was auch immer).
  • Ogg Vorbis-Datein unterstützen das sogenannte »Bitrate-Peeling«, das heißt, dass man eine Datei mit einer niedrigeren Bitrate aus einer solchen mit einer höheren ohne Umweg über die Originaldatei herstellen kann, und zwar in derselben Qualität, wie wenn man sie aus dem Original neu enkodiert hätte. Das wird zur Zeit von keinem anderen verlustbehafteten Audio-Codec unterstützt! (Anm.: Derzeitige Dateien sind peelbar, aber noch nicht besonders gut. Für eine bessere Unterstützung ist es nötig, den Encoder dahingehend abzuändern, dass er Daten auf peeling-freundlichere, aber trotzdem rückwärtskompatible Weise abspeichert. Daran wird zwar gearbeitet, aber nicht mit hoher Priorität, also eher langsam.)
  • Zuletzt sind Ogg Vorbis-Dateien nicht auf bloß zwei Audio-Kanäle (also links und rechts) beschränkt; sie unterstützen bis zu 255 unabhängige Kanäle und sind also die natürliche Wahl, um die 6 DVD-Audio-Kanäle zu Ihrem DivX-Video ☺ zu kodieren.

Noch etwas, der Klarheit wegen: der Name »Ogg« bezieht sich genau genommen auf ein allgemeines Container-Format, also eine Art genormter Verpackung, die viele unterschiedliche Arten von Multimedia-Dateien enthalten kann: verlustbehaftetes komprimiertes Audio (Ogg Vorbis), verlustbehaftetes komprimiertes Audio speziell für Sprache (Ogg Speex), verlustfreies komprimiertes Audio (Ogg Flac), verlustbehaftetes komprimiertes Video (Ogg Theora) usw. »Vorbis« ist dagegen der verlustbehaftet komprimierende Audio-Codec, der seine Encodings üblicherweise in Ogg-Dateien unterbringt. In dieser Beschreibung habe ich aber durchwegs den Terminus »Ogg« verwendet, um eine »Datei, die komprimiertes Audio im Vorbis-Format enthält«, zu bezeichnen (einfach, weil die Dateiendung »ogg« ist, so wie ich »mp3« verwendet habe, um »komprimiertes Audio im MPEG-Layer-3-Format« zu bezeichnen).

Warum kein Ogg Vorbis?

Es gibt ein paar Gebiete, wo Ogg Vorbis im Moment wahrscheinlich nicht das Passende ist, und meistens hat das mit Fragen der Mobilität und Ortsunabhängigkeit zu tun. Weil mp3 das erste weitverbreitete komprimierte Audio-Format war und schon lange verfügbar ist, unterstützt die meiste Hardware mp3. Umgekehrt heißt das, dass nicht alle tragbaren Player Ogg Vorbis unterstützen, vor allem ältere nicht. Insbesondere unterstützt der iPod derzeit das Ogg Vorbis-Format nicht, hauptsächlich weil Apple die Herausgabe der Spezifikationen verweigert, und Fans müssen ihn selber »umbauen«.

In ähnlicher Weise sollte man, wenn man Ogg Vorbis-Tondateien z.B. im Internet veröffentlicht, seinen HörerInnen helfen, etwas aufzutreiben, mit dem die Dateien auch abgespielt werden können. Stichprobenüberprüfungen ergeben, dass die meisten Windows-BenutzerInnen Tondokumente mit dem Windows-Media-Player abspielen, der Ogg Vorbis nicht von vornherein unterstützt (mir wurde aber gesagt, dass man eine Unterstützung zumindest mit älteren Versionen des Media-Players hinkriegen kann). Ganz ähnlich spielen Mac-User ihre Audio-Dateien fast immer mit iTunes ab, das ebenfalls nicht mit einer vorinstallierten Ogg Vorbis-Unterstützung ausgeliefert wird. (Anm. d. Übers.: Man muss also entweder zusätzliche Bibliotheken installieren, die den Funktionsumfang jener »Standard«-Programme erweitern, oder einen anderen Player verwenden, z.B. den viel gelobten VLC-Player.)

Ich persönlich verbreite keine Musikdateien, und zu Hause kann ich sie gut anhören, aber bei Ihnen mag die Lage anders sein – man sollte sich des Problems zumindest bewusst sein. Bei iTunes stelle ich mir vor, dass es Ogg Vorbis schließlich doch noch serienmäßig unterstützen wird, aber dass Microsoft dazu gebracht werden kann, solch einen offenen Standard zu unterstützen, ist vermutlich eher unwahrscheinlich.

Bei all dem ist zu beachten, dass weitverbreitete Akzeptanz, vor allem bei Hardware, bei jedem neuem Format schwierig und langsam ist (das gilt auch für WMA).

Welche Klangqualität soll ich verwenden?

Um herauszufinden, welche Qualitätsstufe Sie beim Encoden verwenden sollen, sollten Sie ein paar Hörtests machen. Nehmen Sie dazu, sofern das in Ihrem Land erlaubt ist, zunächst eine CD und verwenden Sie einen Ripper, um ein oder zwei Stücke als WAV-Datei auf Ihre Festplatte zu bekommen. (Wie oben erwähnt, werden Sie dafür einiges an Platz, d.h. ungefähr 10 MB pro Minute, brauchen.) Danach können Sie sie encoden – mit oggenc, wenn sie mit Kommandozeilen-Tools gut umgehen können, mit etwas wie OggDropXPd, wenn sie eine graphische Benutzeroberfläche wollen. (Anm. d. Übers., 2011: heutzutage sind diese Funktionen in vielen CD-Brennprogrammen gebündelt, wie z.B. in K3B.)

Encoden Sie die Test-Tracks zunächst unter Benutzung der Voreinstellungen:

oggenc Track_01.wav

Die Einstellungen waren VBR und Qualität 3. Hören Sie sich’s an und entscheiden Sie, wie es für Sie klingt. Klingt es gut oder gibt es etwas auszusetzen? Wenn es für Ihren Geschmack (und ihre Ausrüstung) fein klingt, dann kodieren Sie ihre ganze Musik einfach mit den Voreinstellungen, ohne sich über Bitraten, Qualität oder was auch immer Gedanken zu machen. Der einzige Maßstab, der wirklich zählt, sind ihre Ohren.

Falls die Dateien für Sie nicht so gut klingen, oder Sie, wenn sie es tun, neugierig sind, um wieviel besser sie noch klingen können, dann versuchen Sie sie jetzt noch einmal, diesmal mit Qualität 4, zu encoden. Verstellen Sie den Schieberegler auf OggDrop oder geben Sie Folgendes in die Kommandozeile ein:

oggenc -q 4 Track_01_q4.wav

Hören Sie sich die beiden Versionen an – können Sie einen Unterschied ausmachen? Wenn nicht, dann gibt es gar keinen Grund, nicht mit den Voreinstellungen zu kodieren. Wenn Sie keinen Unterschied hören können, verschwenden Sie beim Encoden mit höherer Qualität nur Platz.

Wenn Sie den Unterschied aber hören können, können Sie überlegen, ob der Gewinn an Klangqualität den Mehrverbrauch von Speicherplatz wert ist. Wenn ja, dann können Sie mit wiederholten Qualitätssteigerungen von, sagen wir, 0,5 fortfahren, bis Sie keinen Unterschied mehr hören. Über Qualität 7 wird übrigens kaum jemand noch irgendeinen Unterschied wahrnehmen, obwohl technisch gesehen die Qualität bis Stufe 10 kontinuierlich besser wird.

Wenn Ihnen Klangqualität besonders wichtig ist, dann möchten Sie vielleicht gerne ABX für Ihre Hörtests verwenden. ABX ist ein Set von Testmethoden, mit dem Sie auf endgültige und wiederholbare Weise bestimmen können, ob Sie wirklich Unterschiede zwischen zwei Sounddateien hören können. Die PC ABX Homepage ist ein guter Ort, um Starthilfe zu bekommen.

Auch der folgeden Rat könnte für Sie von Nutzen sein: Ogg Vorbis benutzt nicht-verlustfreie Kanalkopplung, was bedeutet, dass Redundanzen zwischen rechtem und linkem Kanal zusammengelegt werden, um Platz zu sparen. Die Dateien werden dadurch kleiner, aber technisch gesehen heißt das auch, dass das Stereobild einer Ogg Vorbis-Datei nicht mit dem ursprünglichen Stereobild übereinzustimmen braucht. Wenn dieses Stereobild aber für Sie wichtig ist, sollten Sie vielleicht mit Qualität 6 oder höher kodieren, ab wo die nicht-verlustfreie Kanalkopplung abgeschaltet wird und jede Kanalkopplung verlustfrei ist. Die meisten können den Unterschied nicht erkennen, aber vielleicht können Sie es.

Wenn Ihnen umgekehrt die Dateigröße bzw. -kleinheit wichtiger ist als die Klangqualität, dann versuchen Sie, die Qualität so weit herabzuschrauben, bis der Qualitätsverlust die größere Bedeutung bekommt. Einige Ogg Vorbis-BenutzerInnen (die mit den glücklich verstopften Ohren?) sagen, dass sie den Unterschied zwischen einer CD und einem »Qualität 0«-Ogg Vorbis-File nicht erkennen können! Solche Leute bringen ganz schön etwas auf ihren tragbaren Player und hören immer noch Musik in einer für sie annehmbaren Qualität.

Alle, die ihre Musik sowohl zu Hause (wo Festplattenplatz kein Thema ist) als auch auf einem tragbaren Player (wo die Platzfrage an oberster Stelle steht) anhören möchten, sollten in das höhere Format encoden. Wenn einmal gute Peeler erhältlich sein werden, wird eine Ogg Vorbis-Datei nachträglich immer noch »gepeelt« werden können, um aus ihr eine mit niedrigerer Qualität zu erstellen.

Einige Leute verwenden Ogg Vorbis auch, um über das Internet zu streamen (Direktübertragung ohne vorherigen Download). Für solche Unternehmungen ist eine variable Bitrate nicht geeignet. Denn auch wenn die die durchschnittliche Bitrate passt, so können (und werden) Bitraten-Spitzen den Bedarf an Übertragungsbandbreite überschreiten. In Ogg Vorbis gibt es daher den CBR-Modus und sogar die Möglichkeit, Bitraten-Ober- und Untergrenzen einzustellen, aber wir gehen hier nicht in die Einzelheiten, und zwar, weil die zum Erzeugen solcher Dateien verwendeten Techniken immer Dateien ergeben, die schlechter klingen als eine Datei mit derselben Größe, für die die Default-Einstellungen verwendet werden. Bandbreitengewährleistung hat ihren Preis.

Für jeden Normalverbraucher gilt: wann immer Sie Ogg Vorbis-Dateien anders kodieren als mit der Einstellung -q N, dann werden Sie Dateien erhalten, die qualitativ schlechter sind als es, bei gleichbleibender Dateigröße, mit Normaleinstellungen möglich wäre.

Noch eine Bemerkung zum »Transkodieren«

Viele Leute haben eine Menge Musik in mp3-Format, ohne die originale CD zu haben (räusper räusper); andere haben zwar die CDs, haben aber Monate mit dem Rippen und mp3-Encoden verbracht, und wollen das nicht alles noch einmal machen. All diese Leute sind oft versucht, ihre mp3 herzunehmen, sie in wav-Dateien zu dekomprimieren, und sie dann wieder nach Ogg Vorbis neu zu komprimieren. Ein paar sind sogar soweit gegangen, dafür Automatisierungen zu entwickeln.

Wenn Ihnen Qualität irgendwie von Bedeutung ist, sollten Sie das nie und nimmer machen! Ogg Vorbis verwendet zwar ähnliche, aber doch andere Technologien zum Einsparen von Information, und durch das »Transcodieren« verlieren Sie Information zweimal: genau wie das Fax einer Photokopie eines Faxes wird die »transcodierte« ogg-Datei in jedem Fall schlechter klingen als das ursprüngliche mp3.

Außerdem ist das für die meisten BenutzerInnen auch gar nicht notwendig, da ja sowieso beinah jeder Player, der oggs unterstützt, auch mp3s unterstützt, und Ihre mp3-Sammlung kann neben Ihrer gedeihenden ogg-Sammlung friedlich ihr Dasein fristen. Tatsächlich ist der einzige zwingende Grund, sich existierender mp3s zu entledigen, ein moralischer, nicht ein technischer: entweder weil Ihre mp3s unrechtmäßige Kopien waren, oder weil Sie vielleicht kein patentiertes Format verwenden möchten.

Wenn Ihre mp3s aber von außergewöhnlich hoher Qualität sein sollten (sagen wir, 256 kbps oder mehr), dann ist der Informationsverlust vermutlich so gering, dass der zusätzliche Verlust durch das Transkodieren nicht unbedingt ins Gewicht fällt; sie können dann in Ogg Vorbis-Dateien (vor alle solche mit niedrigerer Qualitätsstufe) konvertiert werden, ohne dass man den Unterschied zu sehr bemerkt.

 


id="part_13" Diese Übersetzung vervielfältigen oder kopieren

Obwohl Graham Mitchell das Copyright am englischen Original-Artikel und Simon Wagner das Copyright für die Übersetzung innehaben, ist jedermann/jederfrau gestattet, diese Übersetzung unter den Bedingungen der Creative-Commons-Lizenz mit Namensnennung und Weitergabe unter gleichen Bedingungen bei nicht-kommerzieller Verwendung in welcher Form auch immer zu vervielfältigen. Sie können sie in eine neue Sprache übersetzen, sie in ein Handout für einen Kurs aufnehmen, für Freunde oder Kollegen auf CD brennen, sie auf Ihrer Seite ins Internet stellen, vorausgesetzt, es handelt sich dabei um ein nicht-kommerzielles Projekt, und immer unter der Bedingung, dass Graham Mitchell als Autor und Simon Wagner als Übersetzer der deutschsprachigen Übersetzung ausgewiesen werden und dass in der Kopie ein Verweis (gedruckt oder als Link) zur URI des Originals (diese Datei) enthalten ist. Es ist bei all dem nicht erforderlich, mit dem Autor oder dem Übersetzer Kontakt aufzunhmen, doch schätzen es beide sehr, wenn Sie es dennoch tun.

Wenn Sie allerdings etwas anderes mit dieser Übersetzung vorhaben (z.B. substanzielle Streichungen für eine verkürzte Version, Redigieren einer veränderten Version oder eines Derivats, oder kommerzielle Weiterverwendung), so müssen sie bei Graham Mitchell und Simon Wagner um Erlaubnis anfragen. Beide möchten sich die Entscheidung von Fall zu Fall vorbehalten, doch stehen die Chancen gut, dass sie positiv ausfällt.

 

Versionsgeschichte

2011-02-20: Übersetzung durchgesehen, einige Aktualisierungen.
2007-05-18: Kleine Verbesserung nach einem Hinweis von Robert Osten.
2006-09-04: Die zwei Grafiken mit deutschen Texten versehen.
2006-09-03: Übersetzung online seit 3. September 2006.
2006-09-01: Einarbeitung der Änderungen im englischsprachigen Original nach Version 16 vom 30. August 2004.
2003-09-20: Übersetzung nach Version 13 des englischsprachigen Originals vom 18. April 2003 (war nie online).
Die erste Version des englischsprachigen Originals wurde am 6. Februar 2002 veröffentlicht (für Details zur englischsprachigen Versionsgeschichte siehe das Original).

 

Nach oben Zurück zur Übersicht

 

Gültiges XHTML 1.0! Gültiges CSS 2.0!

© für diese Seite: Simon Wagner, 2006. Webdesign: Simon Wagner. Letzte Aktualisierung: 2011-02-20.