Kurs 5: Audio-Editing

1. Überblick über Audioformate 1.1 Verlustbehaftete Audioformate mit MPEG Audioformaten

MPEG-1 Zur Reduzierung der für eine Speicherung bzw. Übertragung notwendigen Bitrate wurde Anfang der 90er Jahre der MPEG-1 Standard verabschiedet. Dieser beinhaltet drei so genannte Layer, die mit zunehmender Komplexität auch höhere Kompression erzielen. Alle Layer basieren auf dem Prinzip der Irrelevanzreduktion, d.h. Anteile des Audiosignals, die vom Gehör nicht wahrnehmbar sind, werden nicht übertragen oder gespeichert.

MPEG-1 Layer 1 - MP1 Der erste Layer besitzt die geringste Komplexität und Kompression. Es verwendet eine Filterbank mit 32 Frequenzbändern gleicher Bandbreite. Die Quantisierungsauflösung eines jeden Bands wird so gewählt, dass nicht wahrnehmbare Signalanteile im Quantisierungsrauschen untergehen. Die Codierung findet blockweise statt, wobei jeweils 1152 Eingangsamples je Kanal einen so genannten Frame bilden. Zur zusätzlichen Erhöhung der Kompression wird das so genannte "Joint Stereo"-Coding eingesetzt. Dies bedeutet, dass entweder beide Kanäle getrennt codiert werden ("stereo"-mode) oder das "Intensity Stereo"- Coding benutzt wird. Bei IS-Coding wird für hohe Frequenzen nur ein Mono-Signal übertragen, welches im Decoder in die Nähe der ursprünglichen Stereo- Position geschoben wird. MP1 wurde u.a. bei der DCC (digital compact Kassette) mit 384kbps für ein Stereo-Signal eingesetzt und hat sehr hohe Qualität erreicht, die laut Hörtests einiger HiFi-Zeitschriften bei Analogaufnahmen sogar DAT-Recorder überbieten konnte.

MPEG-1 Layer 2 - MP2 Der zweite Layer besitzt gegenüber Layer 1 eine höhere Komplexität und Kompression. MP2 setzt zwar immer noch nur eine Filterbank mit 32 Subbändern ein, die Zeitauflösung ist jedoch durch Bildung von so genannten Subframes erhöht worden. Ein Frame besteht hierbei aus 3 Subframes - durch diese Maßnahme kann innerhalb eines Frames der Nachmaskierungseffekt des Gehörs ausgenutzt werden. Weiterhin setzt MP2 ein gegenüber MP1 effizienteres Bitpacking ein. MP2 wird u.a. bei digitalem Rundfunk verwendet, wobei die Bitraten typischerweise im Bereich 192-256 kbps liegen.

MPEG-1 Layer 3 - MP3 Der dritte Layer ist der wohl bekannteste Layer. Erst mit MP3 schaffte die Verlustbehaftete Kompression von Audiodaten ihren Durchbruch. Aus technischer Sicht unterscheidet sich MP3 deutlich von den beiden anderen Layern: Es wird eine so genannte Hybrid-Filterbank eingesetzt, d.h. zuerst wird auch in MP1/2 eingesetzte Filterbank gefolgt von einer MDCT abgearbeitet. Die Frequenzauflösung wird durch die MDCT von 32 auf maximal 576 Frequenzbereiche erhöht. Bei tiefen Frequenzen kann somit eine Auflösung erreicht werden, die besser dem menschlichen Gehör angepasst ist. Da durch die Transformation mittels der MDCT bei speziellen Signalen die Zeitauflösung nur ungenügend ist, wurden zwei verschiedene Blocklängen eingeführt. Die so genannten "short blocks" besitzen eine Länge von 384 Samples gegenüber 1152 Samples bei "long blocks" und können damit eine hinreichend hohe Zeitauflösung bieten. Bei den Layern 1 und 2 ist eine solche Maßnahme nicht notwendig. Eine andere Erweiterung stellt die Ergänzung des "Joint Stereo" um das "Mid/Side"-Coding dar. Bei diesem wird nicht der linke und rechte Kanal (L/R), sondern ein Mitten- und Seitenkanal (M=(L+R)/2, S=(L-R)/2) übertragen. Bei monoartigen Signalabschnitten kann bei diesem Verfahren die Kompression erhöht werden. Obwohl zu Beginn des MP3-Hypes mit CD-Qualität bei 128 kbps geworben wurde, hat sich mittlerweile eine Bitrate im Bereich von 160-192 kbps etabliert. Dies liegt wohl zum einen an den seitdem schneller gewordenen Download-Verbindungen und den gesunkenen Preisen für HD-Speicherkapazität als auch dem gestiegenen Wunsch nach maximaler Qualität.

Digitales Videoediting mit Premiere 6.5

Kurs 5: Audio-Editing

MPEG-2 Nach MPEG-1 stellt der Standard MPEG-2 eine Erweiterung dar. Zum einen wurden die Layer um die Unterstützung weiterer Abtastraten wie auch erlaubter Bitraten erweitert. Zum anderen wurde ein neuer Audiocoder - MPEG-2 NBC (non backwards compatible), später als AAC (advanced audio coding) bezeichnet - entwickelt.

MPEG-4 Mit MPEG-4 haben auch andere Audiocoder Einzug gehalten. Es gibt spezielle Sprachcoder wie HVXC (harmonic vector excitation) und CELP (Code excited linear prediction), die auf die Übertragung von Sprachsignalen bei extrem niedrigen Bitraten optimiert sind, parametrische Coder, wie z.B. HILN (harmonics individual lines and noise), Twin-VQ und wiederum den AAC-Encoder, der um einige Module erweitert wurde.

MPEG-2/4 AAC Mit dem AAC (Advanced Audio Coder) ist von dem Konzept der Hybrid-Filterbank abgewichen worden. Der AAC setzt ausschließlich eine MDCT mit zwei verschiedenen Blocklängen ein. Bei "long blocks" werden 2048 Samples, bei "short blocks" 256 Samples verarbeitet, wodurch gegenüber MP3 sowohl eine höhere Frequenz- als auch Zeitauflösung erreicht wird. Der "Joint Stereo"-Mode ist gegenüber MP3 flexibler, da er unabhängig für Frequenzbereiche geschaltet werden kann und nicht, wie bei MP3, für den gesamten Frequenzbereich. Der AAC-Encoder besitzt außerdem einige Tools, wie z.B. LTP (long term prediction), PNS (perceptual noise substitution) und TNS (temporal noise shaping), die die Bitrate weiter absenken können. Nach dem Willen der Hersteller soll AAC der neue Standard im Netz werden und MP3 ablösen. Es gibt zurzeit jedoch nur wenige gute AAC-Encoder wie den Liquifier oder den Psytel-AAC.

MPEG-4 TwinVQ Dieses Format ist auch als VQF bekannt. Es stellt aus technischer Sicht einen Transformationscoder dar, wobei die Codierung der Daten mittels eines Vektor- Quantisierers erfolgt. Laut dem Entwickler NTT soll VQF bei 96 kbps in etwa die Qualität von 128 kbps MP3 erreichen. VQF verhält sich allerdings vollkommen anders als andere Audiocoder. Bei VQF leidet die Stereo-Abbildung enorm und codierte Dateien verlieren an Klarheit - speziell transiente Signalanteile wie z.B. Anschläge werden deutlich verwaschen. Andererseits kann man bei VQF stets eine hohe Bandbreite erwarten.

mp3PRO Mp3PRO ist bei genauer Betrachtung kein eigenständiges Audioformat, sondern eine Kombination aus MP3 und dem von Coding Technologies entwickelten SBR (spectral band replication). Das Ergebnis ist ein für niedrige Bitraten optimierter MP3 Codec, der für den Einsatz im Internet- und Digitalradio oder in portablen Abspielgeräten gedacht ist. Die Frequenzbandbreite "herkömmlicher" MP3's mit 64 kbps beträgt etwa 10 kHz. Das ist nur knapp die Hälfte der ursprünglichen Bandbreite und verantwortlich für den gewohnt dumpfen Klang solcher Dateien oder Streams. SBR ergänzt MP3 Dateien während der Codierung mit Informationen, aus denen der Decoder beim Abspielen hohe Frequenzanteile rekonstruiert. Diese sind zwar nicht mehr identisch mit dem Original, klingen aber ähnlich und führen dadurch zum gewünschten Höreffekt.

Digitales Videoediting mit Premiere 6.5

Kurs 5: Audio-Editing

mit non-MPEG Audioformaten

OGG Die freien MP3-Encoder bewegen sich patentrechtlich stets in einer Grauzone. Aus dieser Not entstand OGG Vorbis. Das Ergebnis ist ein Audiocoder der keine Patente verletzt und in Sachen Kompression und Qualität locker mit MP3 konkurrieren kann. Als Open Source Projekt gibt es eine breite Unterstützung für diverse Plattformen und Betriebssysteme. Auch die Spieleindustrie hat OGG Vorbis bereits für sich entdeckt. Der OGG-Encoder setzt auf reines VBR-Coding, d.h. er steuert die Bitrate in Abhängigkeit vom Bedarf für eine möglichst konstante Qualität.

Windows Media (WMA/ASF) Microsofts Eigenentwicklung setzt wie MP3 eine Hybrid-Filterbank ein und ist für niedrige Bitraten optimiert. Klanglich kann das Format nicht ganz überzeugen, in hohen Bitraten (max. 192kbps) ist keine transparente Qualität erreichbar, d.h. dass Unterschiede zwischen Original und kodierter Datei immer noch erkennbar sind. Microsofts Aussage, das Format erreiche schon bei 64kbit/s CD-Qualität, reiht sich nahtlos in Historie der Redmonder Marketing-Gags ein. Beim Benutzer selber hat sich das Format entgegen Microsofts Bestreben nicht durchgesetzt. Vielmehr hat die Redmonder Softwarefirma Konzerne angesprochen, die ihre Musik kostenpflichtig über das Internet vertreiben wollen, da das Format von Hause aus mit einem Kopierschutz (DRM) ausgestattet ist. ASF ist eigentlich kein Format, sondern ein "Hülle", die Streaming über das Internet ermöglicht.

MPEGplus - MP+/MPC MPEGplus ist der Geheimtipp für hochwertige Audiokompression. MPEGplus ist ein reiner Subband-Coder, so dass zunächst eher Ähnlichkeiten zu MPEG Layer 1 und 2 (MP1, MP2) als zum derzeit gebräuchlichsten Format MP3 bestehen. Die Verwandtschaft zu MP1 und MP2 beschränkt sich jedoch nur auf die grundlegende Verwendung von Teilbandzerlegung, Skalenfaktoren und Quantisierung. Das eigentliche Format - die Bitstromsyntax - ist eine vollkommen eigenständige Entwicklung und beinhaltet effiziente Methoden zur verlustfreien Kompression. Zusammen mit einer Vielzahl von Erweiterungen und Optimierungen am psychoakustischen Modell (welches für die Klangqualität verantwortlich ist) erreicht das Format eine hervorragende Qualität bei Bitraten von ca. 160-170kbps. Wie auch MP2, kann MPEGplus die Qualität bei niedrigeren Bitraten (128kbps und darunter) prinzipbedingt nicht halten. MPEGplus setzt wie Ogg Vorbis auf VBR-Coding, um eine konstante Qualität bei möglichst geringer Dateigröße zu erreichen.

RealAudio8/ATRAC3 Real verwendet bei RealAudio8 ATRAC3-Technik von Sony. Der Marktführer im Streaming-Bereich hatte mit dem früheren G2-Codec der Konkurrenz kein Paroli bieten können. Auch ATRAC3 ist ein Hybrid zwischen Transformations- und Subband-Codec und ist qualitativ irgendwo im Bereich der populären Formate MP3 und WMA anzusiedeln. Für den normalen Benutzer und zum Archivieren von Musik ist RealAudio8 wegen Reals proprietärer Politik und Auslegung auf Streaming gänzlich ungeeignet. ATRAC3 ist ein stärker komprimierendes Pendant des ATRAC-Verfahrens (derzeit in den Versionen 1 bis 4.5).

Digitales Videoediting mit Premiere 6.5

Kurs 5: Audio-Editing

1.2 Verlustfreie Audioformate

WAV (PCM) WAV ist der größte gemeinsame Nenner der Windows Audioformate. Das Macintosh-Äquivalent nennt sich AU. WAV ist eigentlich der Sammelbegriff für verschiedene Unterformate, von denen PCM das gebräuchlichste ist und meist mit WAV gleichgesetzt wird. Bei WAV (PCM) handelt es sich um eine unkomprimierte Aufzeichnung von Soundsamples: Das Zeitsignal eines Geräusches wird zu diskreten Zeitpunkten abgetastet, quantisiert, digitalisiert und abgespeichert. Je öfter und feiner man diese Werte erfasst, umso besser wird der Klang. Bei Musik in CD-Qualität wird 44.100 mal in der Sekunde ein solcher Momentanwert erfasst und mit einer "Genauigkeit" von 16 Bit, d.h. 2^16=65536 möglichen Werten, festgehalten. Mit Hilfe spezieller Programme (z.B. CDex, EAC, Audiograbber) können Audio CD's als WAV (PCM) Dateien auf die Festplatte übertragen werden. So gesehen, sind WAV (PCM) Dateien eine Kopie des Originals, sofern das CD-ROM Laufwerk nicht fehlerhaft ausliest oder die CD beschädigt ist. Eine Minute in CD Qualität benötigt etwa 10 MB Speicherplatz, den man auch im Zeitalter der immer größer werdenden Festplatten nicht so gerne hergibt. Am PC sind Audiodateien als WAV (PCM) und in CD Qualität (44.1 kHz, 16 Bit, Stereo) also meist das Ausgangsmaterial zur Erstellung Platz sparender Audiodateien in Formaten wie MP3. Zur Soundbearbeitung am heimatlichen PC ist WAV (PCM) dagegen erste Wahl.

Monkey's Audio / LPAC Anders als z.B. Dokumente oder Bilder sind Audiodateien sehr schlecht komprimierbar, da bei Musik der Fall einer identischen Wiederholung nur sehr selten gegeben ist. Aber genau auf solche Begebenheiten sind Huffmann oder Lempel-Ziv Algorhitmen, die z.B. in ZIP oder RAR Anwendung finden, angewiesen. Daher setzen die meisten verlustfreien Kompressoren prädikative Kodierung ein. Das Signal wird in einen Musik-Anteil und einen Rauschanteil zerlegt. Je nachdem, wie gut diese Vorhersage getroffen wurde, sollte Idealerweise der Rauschanteil ein Gaußsches weißes Rauschen sein, das sich mit üblichen Verfahren gut komprimieren lässt. Verlustfreie Audiocoder schaffen im Idealfall eine Kompression von 2:1. Üblicherweise beträgt die Größe 75% des Originals, wobei die Kompression stark vom jeweiligen Musikstück abhängt. Monkey's Audio und LPAC sind populäre Formate zur verlustfreien Kompression von WAV (PCM) Dateien, z.B. digitalisierten Originalaufnahmen aus dem Tonstudio (zur Archivierung oder späteren Nachbearbeitung). Die Tonqualität ist immer identisch mit dem Original und Prüfsummen fördern beschädigte Dateien zutage. Für beide Codecs gibt es Winamp-Plugins, die das direkte Abspielen der komprimierten Datei ermöglichen.

1.3. Beispiele verschiedener Kompressionen eines Songs (höre auch Beispiele aber bitte nicht mit kleinen Computerboxen !)

Länge des Songs 1 min 25 sec Im WAV- Format Als MP3

44,1kHz 16bit stereo 14. 695 KB 1.328 KB 44,1kHz 16bit mono 7.330 KB 44,1kHz 8bit stereo 7.330 KB 44,1kHz 8bit mono 3.665 KB 22,5kHz 8bit stereo 3.665 KB 22,5kHz 8bit mono 1.833 KB 1.329 KB

Digitales Videoediting mit Premiere 6.5

Kurs 5: Audio-Editing

2. Aufnahme und Recording von externen Audioquellen

2.1 Quellen zum Recording von Audiosignalen internes CD Laufwerk, DVD Laufwerk Externe Geräte (Micro, CD- Player, Mini Disc,….) externe Geräte über LINE IN anschließen

2.2 Vorbereiten der Aufnahme Auswählen

- Überprüfen der Anschlüsse - Einstellen der Aufnahmepegel: Lautstärkeregelung

Während der Aufnahme sollte der Regler angezeigt bleiben - Start eines Sound- Editors (“Wavelab 4.0” oder “SoundÆ Optionen Forge 6.0”) Æ Eigenschaften 2.3 Arbeit im Soundeditor Æ Lautstärke regeln für Aufnahme –-> Line In - Einstellung der Aufnahmequalität (44,1 kHz, 16 bit Stereo je nach Originalaufnahme) - „Record Stand by“ aktivieren - Auspegeln des Audiosignals - Record

ACHTUNG: Die Aufnahme darf einen Pegel von 0,0 dB nicht übersteigen (ansonsten Verzerrung des Signals)

2.4 Nachbearbeitung

An diesem Punkt gebe es eine Menge Menge Menge ….. zu erläutern. In Abhängigkeit der einzelnen Projekte wird die durch Konsultationen erfolgen.

Die wichtigsten Tools seien aber kurz erwähnt: - Normalisieren Erstellt den Maximalpegel (Einstellung max. 0,000 dB) der selektieren Aufnahme - Pegel verändern ähnlich dem Normalisieren (kann Aufnahme prozentual verschieben, bzw. auf einen bestimmten Wert „bringen“)) - Mute Stummschaltung (=Löschen von Teilabschnitten) - Fade IN/OUT Ansteigen bzw. Abschwellen des Pegels in einer bestimmten Zeit - Auswählen, Kopieren ,.. klar - Kicken kleine Verschiebung von Segmenten möglich - Zeitkorrektur verändert die Dauer einer Aufnahme OHNE die Tonhöhe zu verändern !!! (natürlich im vernünftigen Rahmen)

Digitales Videoediting mit Premiere 6.5

Kurs 5: Audio-Editing

- Tonhöhenkorrektur - Pitchen ähnlich der Tonhöhenkorrektur - Mischen von Aufnahmeabschnitten - spezielle Save Mod´s Aufnahmen können beim Speichern in verschieden Formate mit unterschiedlichen S-Frequenz und Bitrate gespeichert werden - Anzeige des Videos während der Aufnahme

3. Einbinden der Audiofiles in Premiere

Nach dem Schnitt der Audiodatei, wird sie analog einem Clip im Premiere eingeladen und positioniert. Ähnlich der Videodateien kann eine Audiodatei beliebig positioniert werden. Premiere bietet zusätzlich eine Reihe von Audiotools an, die genutzt werden können. Allerdings sollte der Audioclip wie beschrieben in einem Soundeditor bearbeitet werden.

Quellen: www.mpex.net

CD Auskopplung : „Wetterbericht“ REIBEISEN Produktion Januar 2002

Digitales Videoediting mit Premiere 6.5