Hochschule für und Fernsehen „Konrad Wolf“ Potsdam-Babelsberg Studiengang Ton

Anpassung von Filmmischungen an verschiedene Frameraten

Detailanalyse von Problematik und Methodik der notwendigen Tonhöhen- und Geschwindigkeitskorrektur von Soundtracks in der Postproduktion

Diplomarbeit vorgelegt von:

Michael Thumm Matrikel-Nr.: 4426

Erstgutachter: Bernhard Albrecht Zweitgutachter: Prof. Martin Steyer

Potsdam, 31.08.2012

Kurzinhalt Eine Geschwindigkeitsanpassung der Filmmischung an verschiedene Wiedergabemedien stellt einen der letzten Schritte während der Postproduktion von Filmen dar. In der Regel geht mit der Geschwindigkeitsveränderung eine Veränderung der Tonhöhe einher. Diese Arbeit zeigt die aktuell verwendeten Frameraten und deren Entstehung auf. Außerdem wird der Umgang mit einer veränderten Tonhöhe auf verschiedenen Wiedergabemedien bei kommerziellen Filmpro- duktionen erläutert. Ein Schwerpunkt liegt auf dem Test und Vergleich verschiedener Algorith- men zur Veränderung der Geschwindigkeit und Tonhöhe von Audiofiles. Hierbei wird detailliert auf die klanglichen Auswirkungen der Algorithmen auf eine Filmmischung eingegan- gen und diese durch einen Hörversuch beschrieben.

Inhalt

Einleitung ...... 1 1 Hintergrund ...... 3 1.1 Entstehung verschiedener Frameraten ...... 3 1.1.1 24 Frames pro Sekunde...... 3 1.1.2 30 Frames pro Sekunde...... 4 1.1.3 29,97 Frames pro Sekunde...... 6 1.1.4 23,976 Frames pro Sekunde ...... 7 1.1.5 25 Frames pro Sekunde...... 8 1.2 Verschiedene Medien und ihre Frameraten ...... 9 1.2.1 Kino...... 9 1.2.2 Analoges Fernsehen ...... 10 1.2.3 Digitales Fernsehen...... 10 1.2.4 DVD...... 14 1.2.5 Blu-ray Disc...... 15 1.2.6 Digital Cinema...... 17 1.2.7 HDCAM SR...... 19 1.3 Methoden zur Geschwindigkeits- und Tonhöhenveränderung von Audiosignalen19 1.3.1 Wiedergabe mit veränderter Abspielgeschwindigkeit...... 20 1.3.2 Phasen-Vocoder...... 21 1.3.2.1 Betrachtung als Filterbank...... 22 1.3.2.2 Betrachtung als Fourier-Transformation ...... 23 1.3.3 Wavelet-Transformation...... 25 1.3.3.1 Kontinuierliche Wavelet-Transformation...... 27 1.3.3.2 Diskrete Wavelet-Transformation...... 28 1.3.4 Bearbeitung von Signalen im Zeitbereich...... 29 1.3.4.1 Anfänge...... 29 1.3.4.2 Synchronized Overlap-Add (SOLA)...... 30 1.3.4.3 Pitch Synchronous Overlap-Add (PSOLA)...... 30 2 Aktuelle Situation ...... 33 2.1 Befragung Postproduktionsfirmen...... 33 2.1.1 Konvertierung in andere Abspielgeschwindigkeit...... 33 2.1.2 Tonhöhenkorrektur...... 34 2.2 Analyse DVDs und Blu-ray Discs ...... 36 2.2.1 Vorgehensweise...... 37 2.2.2 Vergleich zwischen BD und DVD Versionen ...... 38 2.2.3 DVDs und BDs mit Artefakten durch eine Tonhöhenkorrektur ...... 41 2.2.4 Wahrnehmung veränderter Tonhöhen von Filmsoundtracks ...... 41 2.3 Aktuelle Vorgehensweise bei der Frameratenkonvertierung ...... 43 2.3.1 Umspielung...... 43 2.3.2 Sample-Raten-Konvertierung (SRC)...... 43 3 Versuchsaufbau zum Vergleich verschiedener Algorithmen zur Geschwindigkeits- und Tonhöhenveränderung...... 45 3.1 Testsignale...... 45 3.2 Versuchseingrenzung...... 46 3.3 Vorgehensweise ...... 48

III

4 Test und Vergleich verschiedener Hard- und Software...... 49 4.1 Dolby Model 585...... 49 4.1.1 Funktionsweise ...... 49 4.1.2 Installation und Einstellungen...... 50 4.1.3 Klangeigenschaften ...... 52 4.2 Elastique Pitch...... 53 4.2.1 Bedienung und Einstellungen ...... 53 4.2.2 Klangeigenschaften ...... 54 4.3 MPEX...... 55 4.3.1 Bedienung und Einstellungen ...... 56 4.3.2 Klangeigenschaften ...... 57 4.4 DIRAC...... 58 4.4.1 Bedienung und Einstellungen ...... 58 4.4.2 Klangeigenschaften ...... 58 4.5 Radius...... 59 4.5.1 Bedienung und Einstellungen ...... 60 4.5.2 Klangeigenschaften ...... 61 4.6 Pitch 'n Time...... 63 4.6.1 Bedienung und Einstellungen ...... 64 4.6.2 Klangeigenschaften ...... 65 4.7 Vergleich der verschiedenen Algorithmen...... 67 5 Hörversuch...... 71 5.1 Aufbau...... 71 5.2 Beschreibung der zu beurteilenden Parameter...... 72 5.3 Versuchsablauf ...... 73 5.4 Versuchsauswertung...... 74 5.4.1 Statistik...... 74 5.4.2 Auswertung der Ergebnisse pro Algorithmus...... 77 5.4.3 Auswertung der Ergebnisse pro Parameter...... 80 5.5 Zusammenfassung und Auswertung Ergebnisse Hörversuch...... 86 6 Workflow Empfehlung...... 88 6.1 Wahl des Zielmediums...... 88 6.2 Frameratenkonvertierung...... 89 7 Schlussbetrachtung...... 91

IV

Anhang ...... 92 Versuchsanweisungen Hörversuch...... 92 Bewertungsbogen...... 93 Grafische Auswertung Hörversuch...... 93 Befragung Postproduktionsfirmen...... 99 Literaturverzeichnis ...... 105 Abbildungsverzeichnisverzeichnis...... 108 Tabellenverzeichnis...... 109 Eidesstattliche Erklärung...... 110 Danksagung ...... 111

V Einleitung

Einleitung Die Erstellung eines Soundtracks für einen Kinofilm ist zeit- und kostenaufwändig. Aktuelle Kinoproduktionen wie Batman-The Dark Knight Rises haben ein Budget von jeweils einer Million Dollar für die Tonpostproduktion und Mischung1 zur Verfügung. Sehr detailliert werden während der Tongestaltung und Mischung die verschiedenen Elemente eines Soundtracks bearbeitet und behandelt. Die Mischtonmeister sorgen für eine bewusst gewählte Klangfarbe des Dialogs, gestalten Räume und wägen sorgfältig zwischen der Gewichtung von Dialog, Musik und Effekten ab. Bei der Filmmusikproduktion werden mit großem Bedacht Mikrofone und Vorverstärker ausgewählt, um die bestmögliche Signalkette für das jeweilige Instrument sicherzustellen. Am Ende dieses Schaffensprozesses steht das Ausspiel der fertigen Filmmischung für verschie- dene Distributionsformate, denn ein wichtiger Teil neben der Auswertung im Kino stellt der weltweite Verkauf von DVDs und Blu-ray Discs (BD), sowie die Übertragung im Fernsehen dar. Die Wiedergabegeschwindigkeiten bzw. Frameraten der verschiedenen Wiedergabemedien sind allerdings nicht identisch. Dies muss beispielsweise auch beim Erstellen einer 25fps TV Mischung eines Hochschulfilms, der ursprünglich mit 24fps gedreht wurde, berücksichtigt werden. Fast genauso häufig kommt bei Hochschulproduktionen der Fall vor, dass nach einem 25fps Produktionsprozesses eine 24fps Version für ein DCP erstellt werden muss. Durch die Konvertierung verändert sich in der Regel nicht nur die Geschwindigkeit, sondern auch die Tonhöhe der aufwändig erstellten Soundtracks. Durch den gleichzeitigen Vertrieb eines auf BD und DVD liegen in Ländern mit PAL Fernsehsystem 24fps und 25fps Versionen des gleichen Films vor. Es stellt sich nun die Frage, ob die Zuschauer die verschiedenen Tonhöhen zwischen Kinobesuch und DVD-Abend oder einer Serie im Fernsehen und auf BD als störend bemerken und ob deshalb die Tonhöhe korrigiert werden sollte. In dieser Arbeit werden zunächst die geschichtlichen Entwicklungen, die zur parallelen Existenz verschiedener Frameraten führten, aufgezeigt. Außerdem werden die aktuell vorherrschenden Wiedergabegeschwindigkeiten benannt und Prinzipen zur Veränderung von Audiosignalen im Zeitbereich und in der Tonhöhe vorgestellt. In einem nächsten Schritt wird die aktuelle Vorgehensweise bei der Frameratenkonvertierung anhand einer Umfrage von Postproduktionsfirmen, sowie dem Vergleich von DVD und BD Produktionen analysiert. Es wird die Frage erörtert, wie bei nationalen und internationalen kommerziellen Filmproduktionen der Soundtrack in eine andere Framerate konvertiert wird und ob dabei die Tonhöhenveränderung ausgeglichen wird.

1 Aussage des Supervising Sound Editors von „The Dark Knight Rises” Richard King während eines Vortrages über Sound Design im Rahmen der European Film Academy Masterclass 2012 – The Image of the Sound.

1 Einleitung

Ein Schwerpunkt dieser Arbeit liegt auf dem Test und Vergleich verschiedener Algorithmen zur Zeit- und/oder Tonhöhenveränderung von Audiosignalen. Durch die Digitalisierung der Audiobearbeitung steht eine Vielzahl von Algorithmen zur Veränderung der Geschwindigkeit unter Beibehaltung der Tonhöhe zur Verfügung. Diese Arbeit versucht die klanglichen Auswirkungen dieser Algorithmen auf komplexe Signalzusammensetzungen, wie sie bei einer Filmmischung vorliegen, zu erfassen. Im persönlichen Vergleich gewonnene Erkenntnisse werden anschließend in einem Hörversuch objektiviert und die klanglichen Eigenschaften durch die Wertungen der Probanden detailliert beschrieben. Anhand dieser Ergebnisse lässt sich eine Aussage über die Eignung der verschiedenen Algorithmen für den speziellen Fall der Tonhö- henkorrektur einer Filmmischung treffen. Am Schluss steht eine Empfehlung für die Vorgehensweise bei einer Frameratenkonvertierung.

2 1 Hintergrund

1 Hintergrund

Im ersten Abschnitt dieser Arbeit wird zunächst auf die Entstehung verschiedener Frameraten eingegangen. Im Anschluss werden die Frameraten der aktuellen Vertriebswege und Speicher- medien erläutert. In einem weiteren Kapitel werden allgemeine Methoden zur Veränderung der Zeitdauer und/oder der Tonhöhe von Audiosignalen beschrieben.

1.1 Entstehung verschiedener Frameraten

Das folgende Kapitel versucht die geschichtlichen und technischen Entwicklungen, die zur Verwendung verschiedener Frameraten führten, darzustellen.

1.1.1 24 Frames pro Sekunde Während der Stummfilmzeit zwischen 1895 und dem Beginn des Übergangs zum Tonfilm um 1927 gab es keine einheitlichen Abspielgeschwindigkeiten für Filme. Thomas Edison empfahl eine Filmgeschwindigkeit von 46 Bilden pro Sekunde. Dieser Wert lag weit über den 16 Bildern pro Sekunde, die gemäß Joseph Plateau (1801–1883) notwendig sind, um eine flüssige Bewegung mit aufeinander folgenden Einzelbildern darzustellen. 16 Bilder pro Sekunde wurden im Allgemeinen bei der Filmproduktion verwendet. Edisons empfohlene Framerate von 46 Bildern pro Sekunde berücksichtigte allerdings die schnellen Wechsel zwischen Hell- und Dunkelphasen auf der Leinwand während des Bildvorschubs im Projektor. Diese verursachten ein Flimmern des Bildes, welches erst ab einem Bildwechsel von ungefähr 42 Bildern pro Sekunde nicht mehr wahrnehmbar ist. Aufgrund des hohen Verbrauchs an Filmmaterial wurden Filme von Edison aber größtenteils mit 24 Bildern pro Sekunde gedreht, was immerhin eine wesentlich höhere Bildwechselfrequenz als die zu dieser Zeit üblichen 16 Bildern pro Sekunde darstellte. Die Framerate bei der Aufnahme sagte allerdings nichts darüber aus, mit welcher Geschwindigkeit Filme vorgeführt wurden. Die Abspielgeschwindigkeit wurde unter anderem der angekündigten Vorführdauer des Films angepasst und vom Filmvorführer eingestellt. Falls eine Dauer von einer Stunde und 50 Minuten angekündigt war, wurde ein Film mit sieben Akten mit einer Geschwindigkeit von ungefähr 17 Bildern pro Sekunde vorgeführt. Ein Film mit neun Akten musste, um in das angekündigte Zeitfenster zu passen, mit 22 Bildern vorgeführt werden[WWW01]. Es war nicht ungewöhnlich, dass Filme mit höherer Geschwindigkeit vorgeführt wurden, als sie gedreht worden waren. 1925 wurde von der Society of Motion Picture Engineers eine Vorführgeschwindigkeit von 80 Fuß pro Minute, was 21,3 Bildern pro Sekunde entspricht, empfohlen. Dieser Wert wurde zunächst von den Kameramännern abgelehnt, die weiterhin mit den bewährten 16 Bildern pro Sekunde drehten. Aufgrund der höheren Abspielgeschwindigkeiten, die sich nun in den Kinos

3 1 Hintergrund durchsetzte, wurde durch die Produktionsfirmen Druck auf die Kameramänner ausgeübt und höhere Bildwechselfrequenzen wurden schon bei der Aufzeichnung üblich. Im Jahr 1926 suchte Warner Brothers nach einer Möglichkeit, sich von den Konkurrenten im Filmgeschäft abzuheben. Deshalb schloss Warner mit Western Electric einen Vertrag über die Nutzung eines dort entwickelten Nadeltonverfahrens mit der Aufzeichnung auf Wachsplatten und nannte das Tonverfahren „Vitaphone“1. Die Laufzeit dieser Platten betrug etwa 12 Minuten und entsprach damit ungefähr der Laufzeit eines Filmaktes. Der Chefingenieur von Western Electric, Stanley Watkins, untersuchte für Warner die durchschnittliche Geschwindigkeit, mit der Filme zu jener Zeit vorgeführt wurden. Dieser Wert lag zwischen 20 und 24 Bildern pro Sekunde in größeren und 26 Bildern pro Sekunde in kleineren Kinos. Watkins und sein Team legten daraufhin die Abspielgeschwindigkeit für die Tonwiedergabe durch das Vitaphon auf einen Wert von 24 Bildern pro Sekunde fest, was ihrer Meinung nach einen guten Kompromiss darstellte[WWW01]. Mit dem kommerziellen Erfolg des Tonfilms durch „The Jazz Singer“ im Jahre 1927 und der langsamen Ablösung des Stummfilms durch den Tonfilm setzen sich 24 Bilder pro Sekunde bei der Aufnahme und Wiedergabe von Filmen und Filmton durch. Ein weiterer Grund für die Wahl einer Bildwechselfrequenz von 24 Bildern pro Sekunde war, dass mit Hilfe der Flügelblende am Filmprojektor eine flimmerfreie Vorführung2 möglich wurde[WWW02]. Durch Öffnen und Schließen der Blende während der Projektion eines Filmbildes, wird ein Bild zwei- oder sogar dreimal gezeigt, was eine Bildfrequenz von 48 oder 72Hz ergibt und ein flimmerfreies Bild auf der Leinwand ermöglicht.

1.1.2 30 Frames pro Sekunde Das Schwarz-Weiß Fernsehen in den USA wurde im Jahre 1941 durch das erste National Television Standards Committee (NTSC) normiert. Diese Fernsehnorm beinhaltete unter anderem die Begrenzung des Signals eines Fernsehkanals auf 6MHz, eine Bildauflösung mit 525 Zeilen, eine Bildwechselfrequenz von 30 Bildern pro Sekunde und die damit zusammen- hängende Halbbildfrequenz von 60Hz[AAGF02]. Durch Übereinstimmung der Frequenz für den Wechsel der Halbbilder mit der in den USA verwendeten Netzfrequenz von 60Hz wollte man anfangs befürchteten Problemen bei der Synchronisation von Sender und Empfänger

1 Quelle: Ristow, Jürgen, „Vom Geisterbild zum Breitwandfilm“ S119, 1986, Leipzig, Fotokinoverlag 2 Die so genannte Flimmerfusionsfrequenz stellt die Grenze dar, bei der unterbrochene Lichtreize keinen Flimmereindruck hervorrufen. Die Werte dieser Grenzfrequenz verändern sich mit zunehmender Leuchtdichte. Bei geringer Leuchtdichte liegen sie zwischen 22 und 25 Hz und steigen dann mit zunehmender Leuchtdichte auf bis zu 90 Hz [WWW03].

4 1 Hintergrund entgegenwirken. Die im Videosignal enthaltenen Synchronsignale zur Synchronisation zwischen Sender und Empfänger stellten sich allerdings als ausreichend heraus. Ein weiterer Grund für die Verwendung der Netzfrequenz waren Bildstörungen am Empfänger, die durch Gleichspannungsanteile in der Stromversorgung verursacht werden konnten und sich durch schwarze, vertikal verlaufende Balken im Bild bemerkbar gemacht hätten[MGGF05]. Außerdem konnten die zur damaligen Zeit bei Dreharbeiten eingesetzten und direkt ans Stromnetz angeschlossenen Tageslichtlampen Interferenzen mit der Bildfrequenz hervorrufen. Des Weiteren wurde die Wechselspannung des Stromnetzes als Auslöser zur Bildspeicherung bei Kameras während Live-Übertragungen verwendet[WWW04]. Für die Festlegung der Halbbildfrequenz beim Fernsehen war also die vorhandene Netzfrequenz in den USA maßgeblich. Die Entwicklungen, die zur Festlegung auf 60Hz führten, fanden ca. 45 Jahre vor Einführung des Fernsehens in den USA statt. Zu Beginn der Wechselstromtechnik in den USA waren sehr hohe Stromwechselfrequenzen üblich. Westinghouse beispielsweise verwendete zwischen 1880 und 1890 eine Frequenz von 133Hz, die Firma Thomson-Housten 125Hz. Um 1890 bemerkte man bei Westinghouse, dass eine Netzfrequenz von 133Hz den Bau von Induktionsmotoren behinderte. Dies war der Hauptgrund für die Wahl einer niedrigeren Frequenz von 60Hz. Außerdem konnte man das Flackern von Bogenlampen mit dieser Frequenz verhindern. Bei General Electric stellte man im Jahr 1893 Probleme mit verkauften Produkten an die Firma Hartford fest. Eine Resonanz der Übertragungskabel, die durch die verwendeten 125Hz Stromversorgung hervorgerufen wurde, konnte durch Verringerung der Frequenz beseitigt werden. Der Ingenieur Steinmetz schlug vor, die Netzfrequenz zu halbieren, wobei man mit 62,5Hz sehr nahe bei den 60Hz, die beim Konkurrenten Westinghouse verwendet wurden, gelegen hätte. So entschied man sich zunächst für 50Hz, eine Frequenz die ebenfalls bei der Tochtergesellschaft AEG in Europa verwendet wurde. Das Mill Creek Kraftwerk in Südkalifor- nien wurde von General Electric 1893 mit 50Hz Wechselfrequenz zur Stromerzeugung gebaut. Die Umstellung auf 60Hz, die sich im Rest der USA durchsetzen sollten, erfolgte erst nach dem zweiten Weltkrieg. Im Jahr 1894 waren die Verkaufszahlen für Wechselstromtechnik bei General Electric schlech- ter als die des Konkurrenten Westinghouse, so dass General Electric seine Wechselstromtechnik auf 60Hz umstellte. Aufgrund von technischen und wirtschaftlichen Entwicklungen setzte sich in den USA eine Stromwechselfrequenz von 60Hz durch. Die vorherrschende Netzfrequenz wurde bei der Einführung des Fernsehens in den USA übernommen.

5 1 Hintergrund

1.1.3 29,97 Frames pro Sekunde Das Farbfernsehen wurde 1953 in den USA durch das zweite National Television Committee (NTSC), welches heute als Bezeichnung für die Art der Farbübertragung dient, normiert und eingeführt[AAGF02]. Die Kanalbreite eines Fernsehsenders wurde gegenüber dem Schwarz- Weiß Fernsehen nicht verändert und behielt den Wert 6MHz bei. Genauso wurde der Abstand von Bild- zu Tonträger mit 4,5MHz beibehalten[MGGF05]. Dem bisher verwendeten Luminanz-Signal wurde das Chrominanz-Signal, welches die Farbinformationen überträgt, hinzugefügt. Beide Signale werden mit Hilfe der Amplitudenmo- dulation übertragen und benötigen eine Trägerfrequenz. In Abbildung 1 sieht man im Spektrum die Seitenbänder, die ein amplitudenmoduliertes Signal erzeugt. Diese liegen im Abstand der Zeilenfrequenz[MGGF05]. Um gegenseitige Störungen der beiden Signale zu vermeiden, wurde die Trägerfrequenz des Chrominanz-Signals so gewählt, dass die Seitenbänder der Luminanz- und Chrominanz-Signale miteinander verschachtelt sind und nur geringe Interferenzen am Übergang von Chrominanz zu Luminanz auftreten können. Diese geschickte Verschachtelung kommt zu Stande, wenn die Trägerfrequenz des Chrominanz-Signals ein halbzahliges Vielfa- ches (Halbzeilen-Offset) der Zeilenfrequenz ist[WWW04]. Man entschied sich für den Faktor 227,5, was eine Trägerfrequenz von 3,583MHz für das Farbsignal ergeben hätte. Chrominanz-Träger (227,5fache Zeilenfrequenz)

Luminanz-Träger Ton-Träger (286fache Zeilenfrequenz)

Zeilenfrequenz: Halbzeilen-Offset Halbzeilen-Offset 15,734kHz

3,57955MHz

4,5MHz

Komplettes Frequenzband: 6MHz

Abb. 1 NTSC Signalzusammensetzung

6 1 Hintergrund

Um die Kompatibilität zum Schwarz-Weiß Fernsehen zu gewährleisten, sollte der Ton weiterhin mit Hilfe der Frequenzmodulation und einer Mittenfrequenz von 4,5MHz übertragen werden. Mit dieser Mittenfrequenz liegt der Bereich für die Toninformationen am oberen Ende des Sendekanals und in der Nähe der Farbinformationen. Wieder sollten Chrominanz- und Tonsignal spektral verschachtelt werden um Interferenzen zu vermeiden und wieder schien dafür ein Halbzeilen-Offset der beiden Trägerfrequenzen geeignet. Ein halbzahliges Vielfaches der Zeilenfrequenz, als Verhältnis zwischen Farb- und Tonträger, entspricht (aufgrund des schon bestehenden Halbzeilen-Offsets zwischen Luminanz- und Chrominanzsignal) einem ganzzahligen Vielfachen der Zeilenfrequenz.

Die Zeilenfrequenz fZ bei einem Fernsehsystem mit 525 Zeilen und 60 Halbbildern beträgt fZ=(525·60Hz)/2=15750Hz. Die Tonträgerfrequenz mit 4,5MHz soll aus oben genannten Gründen ein ganzzahliges Vielfaches der Zeilenfrequenz sein. Mit diesen Gegebenheiten ist die Tonträgerfrequenz aber das 285,714fache der Zeilenfrequenz. Um auf den angestrebten Faktor 286 zu kommen konnte man nun entweder die Tonträgerfrequenz um 4,5kHz nach oben verschieben, oder die Zeilenfrequenz verändern. Da aber die Mittenfrequenz des Tonträgers aus Kompatibilitätsgründen zum Schwarz-Weiß Fernsehen nicht verändert werden sollte, verringer- te man die Zeilenfrequenz. Dies erreichte man, in dem die Framerate von 30 auf 29,97 Bilder pro Sekunde gesenkt wurde. Mit 262,5 Zeilen pro Halbbild und 59,94 Halbbildern pro Sekunde erhält man eine Zeilenfrequenz von 15734,25 Hz. Auf diese Weise ist die verwendete Tonträ- gerfrequenz von 4,5MHz ein ganzzahliges Vielfaches, genauer das 286fache, der Zeilenfre- quenz [MGGF05]. Mit der Umstellung des amerikanischen Farbfernsehens auf eine Framerate von 29,97fps mussten auch Neuerungen bei der Konvertierung von Filmen für das Fernsehen eingeführt werden.

1.1.4 23,976 Frames pro Sekunde Diese Framerate entstand, um mit 24fps gedrehtes Filmmaterial in den NTSC Standard zu konvertieren. Bis zur Einführung des Farbfernsehens verwendete man in den USA lediglich den so genannten 2:3 Pull-Down um von 24fps im Kino zu 30fps für das Fernsehen zu gelangen. Dabei wird abwechselnd ein Filmbild auf zwei und das nächste Filmbild dann auf drei Halbbilder abgetas- tet. Bei diesem Vorgang, der auch Telecine genannt wird, wird die absolute Länge des Films nicht verändert[WWW05]. Artefakte im Bild werden „Telecine Judder“ genannt und machen sich in nicht ganz flüssigen Bewegungen bemerkbar[WWW06]. Durch die Veränderung der NTSC Framerate auf 29,97fps, was einer Verlangsamung um 0,1% zu ursprünglich 30fps entspricht, wird der Film vor dem 2:3 Pull-Down um 0,1% verlangsamt. Dies entspricht einer Framerate von 23,976fps.

7 1 Hintergrund

Der Ton muss von Film zu NTSC lediglich um 0,1% auf 23,976fps verlangsamt werden, um zum auf 29,97fps konvertierten Bild zu passen. Diese Verlangsamung ist allerdings kaum in einer Tonhöhenveränderung wahrnehmbar.

1.1.5 25 Frames pro Sekunde Die Normierung des europäischen Schwarz-Weiß Fernsehens fand nach dem zweiten Weltkrieg statt. Da Studiotechnik und Fernsehgeräte nach dem Krieg von den USA nach Europa importiert wurden, mussten die amerikanischen 60Hz Geräte an die europäischen 50Hz angepasst werden. Dies erreichte man am einfachsten, in dem man die Zeilenfrequenz der Geräte nicht veränderte und die Zeilenzahl anpasste. Die Zeilenfrequenz ergibt sich aus dem Produkt der Zeilenanzahl Z pro Halbbild und der Halbbildwechselfrequenz fH (Zf=Z·fH). Nun musste Z50·50Hz ungefähr

Z60·60Hz entsprechen. Da in den USA seit dem ersten NTSC eine Zeilenanzahl von 525 Zeilen verwendet wurde, ergab sich für Europa unter Beibehaltung der NTSC Zeilenfrequenz ein Fernsehsystem mit 625 Zeilen. Dieses wurde 1950 für einen Großteil Europas eingeführt. Frankreich und Großbritannien verwendeten 625 Zeilen erst mit der Einführung des Farbfernse- hens[MGGF05]. Die Netzfrequenz des Stromnetzes wurde wie in den USA aus oben genannten gründen als Halbbildfrequenz verwendet. Die Ursache für die Verwendung einer anderen Framerate beim Fernsehen in Europa im Vergleich zu den USA liegt also in der jeweils vorkommenden Netzfrequenz des Stromnetzes begründet. Die Einführung des Wechselstroms und die damit verbundenen Überlegungen zur Festlegung der Netzfrequenz fanden bereits Ende des 19. Jahrhunderts statt. In Deutschland wurde um 1885 zu Beginn der Stromerzeugung in Wechselstromtechnik jedes Kraftwerk für sich, mit eigener Frequenz betrieben. Diese lag zwischen 25 und 80Hz. Die verschiedenen Firmen begannen jedoch bald, sich innerhalb Europas bezüglich der verwendeten Frequenz bei der Wechselstromerzeugung abzusprechen. Zum Beispiel einigten sich AEG in mit der Maschinenfabrik Oerlikon auf eine Frequenz von 30Hz. Die Firma Ganz in Budapest wählte die Frequenz ihres Kraftwerks so, dass die damals verwendeten Bogenlampen nicht flimmerten und erzeugten Wechselstrom mit einer Frequenz von 42Hz. Da in Europa nach wie vor gleichzeitig verschiedene Wechselstromfrequenzen verwendet wurden, sollte herausgefunden werden, welche Frequenz die beste für das Stromnetz sei. Für den Betrieb von Motoren schienen niedrige Frequenzen, für das Erzeugen von Licht die Verwendung hoher Frequenzen günstiger. In den USA legte man sich bereits 1895 auf 60Hz für allgemeine Zwecke und auf 25Hz für Kraftübertragung fest. In Deutschland wurde zwischen 1894 und 1898 ein Wasserkraftwerk in Rheinfelden gebaut, das die in einem Radius von 20km liegenden Städte mit Strom versorgen sollte und für Deutschland eine zuvor nicht da gewesene Größe darstellte. Bei diesem Kraftwerk hatte man Generatoren

8 1 Hintergrund verbaut, die Wechselstrom mit einer Frequenz von 50Hz erzeugten. Beim Bau weiterer Kraftwerke in ganz Deutschland wurden AEG Generatoren zur Erzeugung von 50Hz Wechsel- strom verwendet. Diese Frequenz stellte den besten Kompromiss für die verschiedenen Anforderungen an den Strom dar. Für die Übertragung von Kraft waren eher niedrige Frequenzen günstig, für flimmerfreies Licht benötigte man mindestens 42Hz und für den Bau von Transformatoren mit günstigem Wirkungsgrad wären 60Hz und mehr erstrebenswert gewesen. 50Hz erschien als nächste Zehnerzahl nach den für das Licht erforderlichen 42Hz brauchbar, da die in den USA verwendeten 60Hz nur mit der dort parallel existierenden Frequenz zur Kraftübertragung, 25Hz, für sinnvoll befunden wurde. Bis die Netzfrequenz von 50Hz aber nicht nur eine Empfehlung des Verbandes Deutscher Elektrotechniker darstellte, sondern zur Norm in Deutschland wurde, sollte es noch bis ins Jahr 1928 dauern. Die Normierung auf 50Hz fand in England bereits 1914, in der Schweiz erst 1934 statt[NGWN08].

1.2 Verschiedene Medien und ihre Frameraten

Im folgenden Abschnitt werden die verwendeten Frameraten verschiedener Distributionsforma- te und Speichermedien beschrieben.

1.2.1 Kino Für Kinofilmproduktionen hat sich eine Framerate von 24 Bildern pro Sekunde nach verschie- denen geschichtlichen Entwicklungen, wie in Abschnitt 1.1.1 beschrieben, etabliert. 24 Bilder pro Sekunde sind ausreichend, um für das menschliche Auge eine flüssige Bewegung darzustel- len und durch die doppelte oder dreifache Projektion eines Bildes nimmt der Zuschauer kein Flimmern wahr. Allerdings werden aktuelle Produktionen, wie „The Hobbit“, bereits mit höheren Frameraten gedreht. Peter Jackson arbeitet mit 48fps pro Kamera, also 96fps für die Projektion des gesamten 3D Films. James Cameron plant die Fortsetzungen von „Avatar“ mit 60fps pro Kamera zu produzieren1. Dadurch dürften ruckelnde Kamerafahrten auch in 3D Filmen der Vergangenheit angehören. Ob und wie schnell die Kinos ihre Wiedergabegeräte umrüsten und ob sich am Ende wieder eine einzige Framerate für Kinofilmproduktionen abzeichnet, bleibt allerdings abzuwarten.

1 Quelle: http://www.techradar.com/news/home-cinema/high-definition/do-we-need-higher- frame-rates-1072784

9 1 Hintergrund

1.2.2 Analoges Fernsehen Die weltweit verwendeten analogen Fernsehsysteme unterscheiden sich bis auf wenige Details kaum. In allen Systemen wird das Bild zeilenweise zerlegt und von links nach rechts und oben nach unten am Empfänger wieder aufgebaut. Verschiedenheiten sind die Zeilenanzahl und die Framerate bzw. Teilbildfrequenz, Breite des Übertragungskanals, sowie die Art der Farbüber- tragung. Es gibt Fernsehsysteme mit 625 Zeilen und 25fps bzw. 50Hz Teilbildfrequenz oder 525 Zeilen mit 30fps bzw. 60Hz Teilbildfrequenz. Jeweils wurde darauf geachtet, dass die Teilbildfrequenz aus bereits genannten Gründen mit der Netzfrequenz übereinstimmt. Zur Farbübertragung kommen weltweit das NTSC, PAL oder SECAM Verfahren in einigen Abwandlungen zum Einsatz. Mit der Einführung des Farbfernsehens wurde 1953 die Teilbild- frequenz in den USA und weiteren Ländern mit 60Hz Netzfrequenz vom zweiten „National Television System Committee“ um 1‰ auf 29,97fps gesenkt. Das analoge Satellitenfernsehen wurde in Deutschland am 30.04.2012 abgeschaltet, so dass lediglich über Kabel weiterhin analoges Fernsehen empfangen werden kann. Aus Kompatibilitätsgründen bleiben die Frameraten des analogen Fernsehens auch beim digitalen Sendebetrieb sowohl in Ländern mit 50Hz, als auch in Ländern mit 60Hz Netzfre- quenz weiterhin von Bedeutung.

1.2.3 Digitales Fernsehen Der Begriff „Digitales Fernsehen“ (DTV) bezieht sich auf die Verbreitung von Standard Definition Television (SDTV) und High Definition Television (HDTV). HDTV ist hierbei der allgemeine Begriff für hoch auflösendes Fernsehen. Gemäß der Empfeh- lung ITU-R BT.709-5 sind ein Seitenverhältnis von 16:9 und eine Bildauflösung von 1920x1080i oder 1280x720p Pixel üblich. Die Verbreitung von digitalem Fernsehen wird weltweit von hauptsächlich zwei Organisationen standardisiert. Diese sind das „Advanced Television Systems Committee“ (ATSC) in Nordame- rika und das „Digital Video Broadcasting Project“ (DVB) für Europa und einen Großteil der restlichen Welt. Das Digital Video Broadcasting Project ist ein Zusammenschluss von Sendeanstalten, Herstel- lerfirmen und Standardisierungsbehörden und hat sich zum Ziel gesetzt, weltweit offene technische Standards für die Verbreitung digitalen Fernsehens zu entwickeln. Das DVB Projekt ging aus der European Launching Group im Jahre 1993 hervor. Die ersten Aufgaben bestanden darin, Techniken für die digitale Verbreitung von Fernsehinhalten über Satellit, Kabel und terrestrische Übertragung zu entwickeln. Diese Technik wurden vom European Telecommuni- cations Standards Institute (ETSI) dokumentiert und standardisiert. Zu diesen Standards gehören

10 1 Hintergrund die terrestrische Verbreitung von Fernsehen DBV-T, die Verbreitung über Satellit DVB-S und DVB-S2 und die Verbreitung über Kabel DVB-C[WWW07]. Über DVB-S und DVB-C ist in Deutschland HDTV zu empfangen und hat für Bild und Ton folgende Spezifikationen: DVB Video Codecs Codec MPEG-2 MPEG-4 AVC/H.264 VC-1

Tabelle 1 DVB Video Codecs[TRET11]

DVB MPEG-2 Bildformate Auflösung Seitenverhältnis Framerate Progresiv/ Von SDTV Interlaced Receiver dekodierbar 1080x1920 16:9 23,976, 24, 25, P N 29,97, 30 1080x1920 16:9 25, 29,97, 30 I N 720x1280 16:9 25, 50 P N 720x1280 16:9 23,976, 24, 29,97, P N 30, 59,94, 60

576x720 16:9 50 P N 576x720 4:3, 16:9 25 P Y 576x720 4:3, 16:9 25 I Y 576x544 4:3, 16:9 25 P Y 576x544 4:3, 16:9 25 I Y 576x480 4:3, 16:9 25 P Y 576x480 4:3, 16:9 25 I Y 576x352 4:3, 16:9 25 P Y 576x352 4:3, 16:9 25 I Y 480x720 16:9 59,94, 60 P N 480x720 4:3, 16:9 23,976, 24, P N 29,97, 30 480x720 4:3, 16:9 29,97, 30 I Y 480x640 4:3 23,976, 24, P Y 29,97, 30 480x640 4:3 29,97, 30 I Y 480x544 4:3, 16:9 23,976, 29,97 P Y 480x544 4:3, 16:9 29,97 I Y 480x480 4:3, 16:9 23,976, 29,97 P Y 480x480 4:3, 16:9 29,97 I Y 480x352 4:3, 16:9 23,976, 29,97 P Y 480x352 4:3, 16:9 29,97 I Y 288x352 4:3, 16:9 25 P Y 240x352 4:3, 16:9 23,976, 29,97 P Y

Tabelle 2 DVB MPEG-2 Bildformate[TRET11]

11 1 Hintergrund

DVB H264/AVC oder VC-1 Bildformate Bildzeilen Horizontale Seitenverhältnis Framerate Progressiv/ Von SDTV Pixel Interlaced Receiver dekodierbar 1080 1920, 1440, 16:9 23,976, 24 P N 1280, 960 25 I N P N 29,97, 30 I N 720 1280, 960, 16:9 25, 50 P N 640 23,976, 24, P N 29,97, 30, 59,94, 60 576 720 4:3, 16:9 25 P Y 4:3, 16:9 I Y 544, 480, 352 4:3, 16:9 25 P Y I Y 480 720, 640, 544, 4:3, 16:9 23,976, 24, P Y 480, 352 29,97, 30 29,97, 30 I Y 288 352 4:3 25, 50 P Y 25 I Y 240 352 4:3 23,976, 24, P Y 29,97, 30, 59,94, 60 29,97, 30 I Y

Tabelle 3 DVB H264/AVC oder VC-1 Bildformate[TRET11]

12 1 Hintergrund

DVB Audio • MPEG-1 • MPEG-2 • AC-3, Enhanced AC-3 • DTS • MPEG-4 AAC, MPEG-4 HE AAC, MPEG-4 HE AAC v2 [TRET11]

Gemäß den Normen des DVB Projects gibt es also kaum Einschränkungen, was die Framerate bei digitalem Fernsehen betrifft. Von der EBU sind allerdings vier HDTV Formate für Länder mit bisherigen 50Hz SDTV Bedingungen zugelassen[TREB10]. Diese sind: • 720p/50 mit 1280x720 Auflösung und 50fps progressiv • 1080i/25 mit 1920x1080 Auflösung und 25fps interlaced • 1080p/25 mit 1920x1080 Auflösung und 25fps progressiv • 1080p/50 mit 1920x1080 Auflösung und 50fps progressiv

Von diesen Formaten sind bei der ARD und ORF für HD-Programmbeiträge 1080i/25 und 1080p/25 (1080PsF1/25) erlaubt. Beim ZDF sind die Abtastformate 720p/50, 1080i/25 und für szenische Beiträge auch 1080p/25 (1080psf/25) erlaubt. Gesendet wird von beiden öffentlich rechtlichen Sendeanstalten allerdings im Format 720p/50. Der Grund hierfür sind Untersuchungen des Instituts für Rundfunktechnik in München und der EBU in Genf. Diese ergaben, dass das 720p/50 Format, besonders bei schnellen Bewegungen, einen besseren Bildeindruck ergibt als das 1080i/25 Format[WWW08].

Das 1982 gegründete amerikanische „Advanced Television Systems Committee“ lässt, ähnlich wie das DVB, eine Vielzahl von Bildformaten, Frameraten und Bildcodecs zu. Gesendet wird in den USA aber hauptsächlich im 1280x720p/59.94 Format[WWW09].

1 Die Abkürzung PsF steht für „Progressive segmented Frame“. Dies ist ein Verfahren, bei dem progressives Bildmaterial auf eigentlichen Interlaced Aufzeichnungs- und Übertragungsmedien gespeichert und übertragen werden kann. Hierbei wird jedes Bild auf zwei Halbbilder aufgeteilt (segmentiert). Bei dieser Aufteilung liegen im Gegensatz zu herkömmlichen interlaced Bildern keine Bewegungsinformationen zwischen den beiden Halbbildern. Bei der Wiedergabe werden beide Bilder zu einem Bild zusammengesetzt. Somit wird 1080i/50 zu 1080p/25 gewandelt. Allerdings ist dieses Verfahren nicht geeignet, um schnelle Bewegungen zu übertragen[PCDV07].

13 1 Hintergrund

ATSC MPEG-2, H264/AVC Bildformate Bildzeilen Horizontale Seitenverhältnis Framerate Progressiv/ Pixel Interlaced 1080 1920 16:9 23,976, 24, 25, 29,97, 30 P 25, 29,97, 30 I 720 1280 16:9 23,976, 24, 25, 29,97, P 30, 50, 59,94, 60 576 720 4:3, 16:9 25, 50 P 25 I 544, 480, 352 4:3, 16:9 25 P I 480 704 4:3, 16:9 23,976, 24, 29,97, P 30, 59,94, 60 29,97, 30 I 640 4:3 23,976, 24, 29,97, P 30, 59,94, 60 29,97, 30 I 288 352 4:3, 16:9 25 P

Tabelle 4 ATSC MPEG-2 oder H264/AVC Bildformate [TRAT08][TRAT09]

Die verwendeten Audioformate bei ATSC sind AC-3 und Enhanced AC-3[TRAT05].

Mit der Einführung des digitalen Fernsehens hätte man sich weltweit auf einen Standard einigen können. DVB und ATSC unterstützen die Bildformate, Codecs und Frameraten des jeweils anderen Standards. Aber sowohl in den USA als auch in Europa wurde auf Kompatibilität zu den bisher verwendeten analogen Formaten geachtet, so dass die verschiedenen Frameraten und auch deren notwendige Anpassung von PAL zu NTSC Ländern ihre Gültigkeit beibehalten.

1.2.4 DVD Die „Digital Video Disc“, oder „Digital Versatile Disc“ wurde im September 1995 vom DVD Forum1 vorgestellt. Der in diesen Spezifikationen enthaltene DVD-Video Standard ist zur Verbreitung von Filmmaterial eingeführt worden. Aufgrund der unterschiedlichen Frameraten in PAL und NTSC Ländern gibt es zwei Versionen der DVD-Video: DVD-Video PAL und DVD- Video NTSC[WWW10].

1 Damals noch unter dem Namen DVD Consortium.

14 1 Hintergrund

Diese haben folgende Spezifikationen: NTSC PAL Auflösung Framerate Codec Auflösung Framerate Codec 720x480 29,97i / 23,976 MPEG-2 720x576 25i MPEG-2 704x480 29,97i / 23,976 MPEG-2 704x576 25i MPEG-2 352x480 29,97i / 23,976 MPEG-2 352x576 25i MPEG-2 352x240 29,97p / 23,976p MPEG-2, 352x288 25p MPEG-2, MPEG-1 MPEG-1 Tabelle 5 DVD Spezifikationen

Bei der NTSC-DVD besteht bei Verwendung des MPEG-2 Codecs die Möglichkeit, Bild mit 29,97fps oder mit 23,976fps zu kodieren. Falls 23,976fps verwendet werden, was bei Filmen mit 24fps Original-Framerate meist der Fall ist, wird der 2:3 Pull-Down am DVD Player durchgeführt und das Bild auf 29,97fps gebracht. Auf einer DVD-Video können bis zu 8 Audio Streams unter Verwendung folgender Formate vorliegen: • Dolby Digital mit AC-3 Kompression • MPEG-2 Audio • PCM • DTS • SDDS

DTS und SDDS müssen allerdings nicht von allen Abspielgeräten unterstützt wer- den[WWW11].

1.2.5 Blu-ray Disc Die Blu-ray Disc (BD) wurde 2002 von der Blu-ray Association als optisches Speichermedium, das einen 405nm Laser zum Schreiben und Lesen von Daten verwendet, eingeführt[WWW12]. Durch den kleineren Laser-Punkt als bei CDs oder DVDs können die Pits und Lands auf der Oberfläche der BD dichter beieinander liegen. Somit wird die Speichermenge bei gleicher Größe des Datenträgers auf bis zu 50GB erhöht. Durch den erhöhten Speicherplatz und die größere abspielbare Datenrate können nun Filme in HD Auflösung vervielfältigt werden. Die dafür verwendete BD wird BD-ROM AV genannt und hat folgende Spezifikationen: BD-ROM AV Videocodecs Codec MPEG-2 MPEG-4 AVC/H.264 VC-1 Standard ISO/IEC 13818-2, ITU-T ISO/IEC 14496-10, ITU- SMPTE 421M Rec. H.262 T Rec. H.264

Tabelle 6 BD-ROM AV Videocodecs[TRBD05]

15 1 Hintergrund

BD-ROM AV Video Stream 2D Typ Auflösung Frames / Halbbilder pro Sekunde Seiten- verhältnis HD 1080 29,97i (auch 59,94i) 1920x1080 29,97 interlaced / 59,94 16:9 HD 1080 25i (auch 50i) 1920x1080 25 interlaced / 50 16:9 HD 1080 24p 1920x1080 24 progessiv 16:9 HD 1080 23,976 (auch 24p) 1920x1080 23,976 progressiv 16:9 HD 1080 29,97i (auch 59,94i) 1440x1080 29,97 interlaced / 59,94 16:9 HD 1080 25i (auch 50i) 1440x1080 25 interlaced / 50 16:9 HD 1080 24p 1440x1080 24 progessiv 16:9 HD 1080 23,976 (auch 24p) 1440x1080 23,976 progressiv 16:9 HD 720 50p 1280x720 50 progressiv 16:9 HD 720 24p 1280x720 24 progressiv 16:9 HD 720 23,976p (auch 24p) 1280x720 23,976 progressiv 16:9 SD 480 29,97i (auch 60i) 720x480 29,97 interlaced / 59,94 4:3, 16:9 SD 480 25i (auch 50i) 720x480 25 interlaced / 50 4:3, 16:9

Tabelle 7 BD-ROM AV Video Stream 2D Spezifikationen[TRBD05] BD-ROM AV Video Stream 3D Typ Auflösung Frames / Halbbilder pro Sekunde Seiten- verhältnis HD 1080 23,976p (auch 24p) 1920x1080 23,976 progressiv (x2) 16:9 HD 720 59,94p (auch 60p) 1280x720 59,94 progressiv 16:9 HD 720 50p 1280x720 50 progressiv 16:9

Tabelle 8 BD-ROM AV Video Stream 3D Spezifikationen[WWW12] BD-ROM AV Video Audio LPCM Dolby Dolby Dolby DTS DTS- DTS- Digi Digital Digital True Digital HD HD Rise Plus HD Surround High Master DRA Resolu- Audio tion Audio Kanal- 8 5.1 7.1 8 5.1 8 8 7.1 bei bei bei 48kHz, anzahl 48kHz, 48kHz, 96kHz 96kHz 96kHz 6 6 6 bei 192kHz bei 192kHz bei 192kHz Bitrate 16, 20, 24 16 - 24 16 - 24 16 - 24 16, 20, 24 16, 20, 16, 20, 16 - 24 24 24 Sampling- 48kHz 48kHz 48kHz 48kHz 48kHz 48kHz 48kHz 48kHz frequenz 96kHz 96kHz 96kHz 96kHz 96kHz 192kHz 192kHz 192kHz Streams 32 32 32 32 32 32 32 32

Tabelle 9 BD-ROM AV Video Audio Spezifikationen[TRBD05]

16 1 Hintergrund

Trotz der großen Anzahl verschiedener Frameraten, die der BD Standard unterstützt, werden die meisten Blu-ray Discs mit einer Framerate von 23,976fps veröffentlicht[WWW13]. Ein Grund dafür ist die Herstellung in den USA und die Kompatibilität zur US SD Fernsehnorm. Außerdem erforderte der 2005 von der damals noch European Information, Communications and Consumer Electronics Industry Technology Association (EICTA) genannten Vereinigung von Eletronikverbänden und Elektrounternehmen (heute DIGITALEUROPE) eingeführte „HD Ready“ Standard lediglich die Unterstützung einer Bildwechselfrequenz von 60Hz am Display. Mit dem „2:3-Pulldown“, der im BD Player berechnet wird, können die 23,976fps auf der BD an die 60Hz des Fernsehgerätes angepasst werden. Die Bezeichnung 60Hz gilt laut DIGITA- LEUROPE als Sammelbegriff für alle Bildwechselfrequenzen um 60Hz, also auch für 59,94Hz[TRDE12]. Seit der Einführung des „HD ready 1080p“ Standards im Jahre 2007 wird nun auch die Darstellung von Bildwechselfrequenzen mit 50Hz, 60Hz und auch 24Hz1 von Displays mit diesem Logo gefordert[WWW14]. Beim Ansehen einer BD sollte man also die korrekte Bildwechselfrequenz, sowohl am Abspielgerät als auch am Display, einstellen. Die Wiedergabe mit 24fps ist nur bei Geräten mit „HD ready 1080p“ Logo möglich.

1.2.6 Digital Cinema Die im Jahre 2002 gegründete Digital Cinema Initiatives (DCI), ein Zusammenschluss von Disney, Fox, Paramount, Sony Pictures Entertainment, Universal und Warner Bros, hat es sich zum Ziel gesetzt, Spezifikationen für das digitale Kino zu schaffen und zu dokumen- tieren[WWW15]. Hierfür wurden einige Begriffe definiert:

Das Digital Source Master (DSM) wird als Sammelbegriff für alle digitalen Endprodukte einer Filmproduktion verwendet. Dazu können Vorlagen für die Filmkopie, Fernsehversion, DVD Version und auch das Master für digitales Kino gehören. Dieses Master wird Digital Cinema Distribution Master (DCDM) genannt und beinhaltet verschiedene Datensätze in verschiedenen Formaten, die Bild, Ton in verschiedenen Sprachfas- sungen und Untertitel beinhalten. Wie bei bisherigen Filmkopien ist der Film in einzelne Akte aufgeteilt. Im DCDM liegen die jeweiligen Datensätze noch einzeln vor, können aber bereits in einem Kino, beispielsweise zur Qualitätskontrolle, abgespielt werden. Für das DCDM sind die File-Formate, im Gegensatz zum allgemein gehaltenen DSM, festgelegt: Bild darf entweder in 4K Auflösung mit 24fps, oder in 2K mit 24 oder 48fps im XYZ TIFF- Format vorliegen.

1 Genauer gesagt ein Vielfaches davon, also 48Hz oder 72Hz.

17 1 Hintergrund

Ton soll im Broadcast Wave-Format in einer Auflösung von 48 oder 96kHz mit 24Bit vorhan- den sein. Dies bedeutet, dass bei einer Abspielgeschwindigkeit von 24fps 2000 Samples bei 48kHz und 4000 Samples bei 96kHz pro Frame abgespielt werden. Das DCDM unterstützt bis zu 16 Audiokanäle mit festgelegter Kanalfolge. 2009 fügte die Society of Motion Picture & Television Engineers (SMPTE) die Frameraten 25fps, 30fps, 50fps und 60fps den bereits bestehenden 24fps und 48fps dem Digital Cinema Standard hinzu[WWW19]. Der Grund, warum dennoch meist digitale Kinokopien mit 24fps erstellt werden, sind die auf 24fps eingestellten DCP Server in den Kinos. An diesen müssen zunächst die zusätzlichen Frameraten implementiert werden.

Zur Verteilung an die jeweiligen Kinos werden die im DCDM vorliegenden Datensätze in ein Digital Cinema Package (DCP) gewandelt. Dort liegen Bild und Ton aktweise in Form von Material eXchange Format (MXF) Files vor. Die Bildinformationen sind nun JPEG 2000 komprimiert, die Tonfiles liegen in linearer PCM mit 48 oder 96kHz und 24Bit vor. Die einzelnen Bild-, Ton- und Untertitelfiles werden „Trackfiles“ genannt und sind die kleinsten Bausteine im DCP. Die im XML Format vorliegenden, so genannten „Composition Playlists“ legen fest, welche Bild- und Tontracks kombiniert und in welcher Reihenfolge (aktweise) diese zusammengehörigen Tracks abgespielt werden. Für jede Sprachversion wird eine eigene Composition Playlist erstellt. Das DCP wird verschlüsselt und zusammen mit der über den Inhalt Auskunft gebenden „Package List“ als „Distribution Package“ an die verschiedenen Kinos geliefert. Dort werden die Daten entschlüsselt und entpackt, so dass ein vorführbares DCDM vorliegt. Die Abfolge der einzelnen Arbeitsschritte ist also:

DSM --> DCDM --> DCP -->DCDM*

Dieser von der DCI spezifizierte Verteilungsweg für digitale Kinoinhalte soll das digitale Gegenstück zur 35mm Filmkopie darstellen. Aus diesem Grund wurde zunächst eine Abspielge- schwindigkeit von 24fps (bei 2K Bildauflösung auch 48fps) vorgeschrieben. Die durch die SMPTE nachträglich hinzugefügten Frameraten können erst nach der Umstellung der Wieder- gabegeräte in den Kinos verwendet werden und finden zurzeit kaum Anwendung.

18 1 Hintergrund

1.2.7 HDCAM SR HDCAM SR (Superior Resolution)[WWW16] von Sony ist die Bezeichnung für ein Aufzeich- nungsformat von digitalem Videosignal auf Band. HDCAM SR wurde 2003 als Ergänzung zu dem 1997 eingeführten HDCAM Standards auf den Markt gebracht. Durch die Entwicklung eines neuen Bandes mit Magnetpartikeln, die im Vergleich zu herkömmlichem HDCAM Band ungefähr halb so groß sind, lässt sich die volle HD Auflösung mit 1920x1080 Pixeln aufzeich- nen. Außerdem stehen bei HDCAM SR 12 Tonkanäle mit 48kHz/24Bit zur Verfügung. Die hohe Bildauflösung und die hohe Anzahl an Tonspuren ist der Grund dafür, dass HDCAM SR beim Fernsehen und auch an der HFF als Mastermedium verwendet wird. Außerdem unterstützt dieses Format nahezu alle Frameraten bei HD Auflösung[WWW17]: • 23,976PsF • 24PsF • 25PsF • 25PsF • 29,97PsF • 50i • 59,94i

1.3 Methoden zur Geschwindigkeits- und Tonhöhenveränderung von Audiosignalen

Eine Veränderung der Abspielgeschwindigkeit und die damit einhergehende Tonhöhenverände- rung ist die älteste Art und Weise, um die Dauer von Audiofiles zu modifizieren. Nach wie vor ist diese Methode weit verbreitet. Geschwindigkeits- und Tonhöhenveränderung von Audiosignalen, ohne die gleichzeitige Veränderung des jeweils anderen Parameters und ohne deutliche Einbußen an Qualität ist erst seit Ende der 1990er Jahre möglich. Seit diesem Zeitpunkt lässt es die Leistung von Computern zu, Berechnungen zur Veränderung der Zeit und Tonhöhe in Echtzeit durchzuführen[WWW18]. In aktuellen Algorithmen kommen hauptsächlich zwei verschiedene Arbeitsprinzipien zum Einsatz: Verfahren, die das Signal im Frequenzbereich betrachten und Verfahren, die Audiosignale im Zeitbereich analysieren. Auf dem Prinzip, das Signal im Frequenzbereich zu analysieren, basiert der so genannte Phasen-Vocoder. Die Grundlagen für diesen, das Bearbeiten von Audiosignalen im Zeitbereich und die Umset- zung der Wiedergabe mit veränderter Abspielgeschwindigkeit in digitaler Umgebung sollen im folgenden Abschnitt beschrieben werden.

19 1 Hintergrund

1.3.1 Wiedergabe mit veränderter Abspielgeschwindigkeit Die einfachste Methode um die Geschwindigkeit von Audiosignalen zu verändern ist die Wiedergabe mit veränderter Abspielgeschwindigkeit. Bei der Umsetzung mit analogem Tonband wird die Bandlaufgeschwindigkeit erhöht oder erniedrigt, was mit einer erhöhten oder verringerten Tonhöhe einhergeht. Das veränderte Signal kann nun wieder aufgenommen werden. Wenn das Audiosignal digital vorliegt besteht die Möglichkeit, dieses digital-analog zu wandeln, um es dann nach einer folgenden analog-digital Wandlung mit veränderter Laufge- schwindigkeit des Aufnahmesystems wieder aufzunehmen. Spielt man dieses Material nun in der ursprünglichen Geschwindigkeit ab, so erhält man ein in der Zeit beschleunigtes oder verlangsamtes, allerdings auch in der Tonhöhe verändertes, Audiosignal. Das gleiche Ergebnis erhält man, wenn man die Samplingfrequenz des AD Wandlers bei der Wiedergabe verändert und das Signal mit ursprünglicher Laufgeschwindigkeit wieder aufnimmt. Eine Vorraussetzung für dieses Verfahren ist die Verwendung hochwertiger AD und DA Wandler. Bei einer rein digitalen Signalverarbeitung wird das Audiomaterial zunächst mit einer anderen

Samplerate fs, varispeed, als bei der ursprünglichen Abtastung, abgespielt. Danach muss eine Sample-Raten-Konvertierung durchgeführt werden. Diese findet zwischen der veränderten

Wiedergabesamplerate fs, varispeed und der Ausgangssamplerate fs, Ausgang, die meist der Eingangs- samplerate fs, Eingang entspricht, statt. Um eine zeitliche Streckung des Signals zu erreichen gilt:

fs, Eingang > fs, varispeed < fs, Ausgang, mit fs als Samplingfrequenz Das bedeutet, dass durch die Sample-Raten-Konvertierung mehr Samples generiert werden müssen, als im Ausgangsmaterial vorhanden sind. Dies geschieht, in dem zwischen die bereits vorhandenen Samples neue Samples mit dem Wert 0 eingefügt werden. Im nächsten Schritt wird zwischen den ursprünglich vorhandenen und neu hinzugefügten Samples (meist linear) interpoliert. Um das Signal zu verkürzen findet folgender Zusammenhang Anwendung: fs, Eingang < fs, varispeed >fs, Ausgang Bei dieser Umrechnung sind im Ausgangssignal der Sample-Raten-Konvertierung weniger Samples als im Eingangssignal vorhanden. Der Vorgang wird Dezimierung genannt[DPTP02]. Das Weglassen von Samples kommt einer Limitierung des Signals (ähnlich der Abtastung eines analogen Signals) gleich, wobei Aliasing zu Problemen führen kann[TPIP10]. Deshalb muss das

Signal vor der Dezimierung durch einen Tiefpassfilter mit Grenzfrequenz bei fs, Ausgang/2 gefiltert werden.

20 1 Hintergrund

1.3.2 Phasen-Vocoder Der Phasen-Vocoder wurde 1966 von James Flanagan und Roger Golden vorgestellt. Er diente dazu Sprachsignale mit verringerter Datenrate elektronisch zu übertragen. Der Name Phasen- Vocoder soll diese Technologie vom allgemein bekannten Channel-Vocoder unterscheiden. Das Prinzip des digitalen Algorithmus wird als „Analyse-Synthese Technik“ bezeichnet. Dies bedeutet, dass ein Eingangssignal nach einem mathematischen Modell analysiert wird. Dieses gibt Parameter aus, die das Signal durch zeitlich veränderliche Werte repräsentieren. Die anschließende Synthese basiert auf den ausgegebenen Werten des Modells. Durch die Analyse gewonnene Parameter können vor der Synthese modifiziert werden. Wie im Folgenden gezeigt wird, gilt dies auch für die Veränderung der Zeitdauer und der Tonhöhe eines Signals. Beim Phasen-Vocoder wird das Signal durch eine Vielzahl von Bandpassfiltern in Sinuswellen zerlegt. Die Analyse liefert sich über die Zeit verändernde Amplitude und Frequenz. Für die Synthese steuern diese Amplitude und Frequenz eine Reihe von Oszillatoren (ein Oszillator pro Bandpass Filter) an, deren summierte Ausgänge das resynthetisierte Signal ergeben.

1 Amplitude OSC Frequenz

2 OSC

Eingang Ausgang +

OSC

n OSC

Abb. 2 Aufbau Phasen-Vocoder

Es gibt zwei mathematisch gleichwertige Betrachtungen des Phasen-Vocoders: Die „Filterband Interpretation“ und die Interpretation als Fourier-Transformation.

21 1 Hintergrund

1.3.2.1 Betrachtung als Filterbank Bei der „Filterbank Interpretation“ besteht die Analyse-Einheit des Phasen-Vocoders aus vielen Bandpass Filtern mit feststehender Mittenfrequenz. Diese haben alle die gleichen Filtereigen- schaften und sind gleichmäßig über das komplette Spektrum verteilt. Jeder dieser Filter gibt eine sich über die Zeit verändernde Amplitude und Frequenz aus. Die Filter im Phasen-Vocoder haben eine andere Funktionsweise als bei herkömmlichen Audioanwendungen. Im Folgenden soll ein Bandpass Filter betrachtet werden. sin(2π ft )

x Umwandlung von Radius horizontaler und vertikaler Darstellung in Eingang polare Darstellung Messung des Phase Unterschieds zwischen zwei + Phase Unwrapping x Samples

Mittenfrequenz f cos(2π ft ) des Bandpasses Abb. 3 Filteraufbau Phasen-Vocoder

Das Eingangssignal wird zunächst auf zwei parallele Wege aufgeteilt. In einem Weg wird das Signal mit einer Sinuswelle mit einem Amplitudenwert von eins und einer Frequenz, die die Mittenfrequenz des jeweiligen Bandpass Filters darstellt, multipliziert. Auf dem zweiten Weg wird das Signal statt einer Sinuswelle mit einer Cosinuswelle multipliziert. Das Ergebnis beider Multiplikationen sind Signale, deren komplettes Frequenzspektrum um den Wert der Sinus- oder Cosinuswelle nach oben und unten moduliert wird. Hat man beispielsweise ein Eingangs- signal von 55Hz und multipliziert dieses mit einem Sinus mit einer Frequenz von 50Hz, so erhält man Werte von 5Hz bis 105Hz. Das Signal wird also in Teile bei 5Hz und bei 105Hz getrennt. Der Phasenunterschied der Signale nach der Multiplikation beträgt 90 Grad. Dieser Unterschied liegt in den Eigenschaften der Sinus- und Cosinusfunktion begründet: sin(α )=cos(90º -α ) Im nächsten Schritt durchlaufen beide Signale einen Tiefpass Filter, so dass nur der nach unten modulierte Teil des Signals, im Beispiel Werte um 5Hz, im weiteren Verlauf verwendet wird. Die bis hierher durchgeführten Bearbeitungsschritte werden „Heterodyning“ und die beiden um 90 Grad versetzten Signale „Sinusoide“ genannt. Diese werden nun zur Darstellung einer Sinusschwingung in Kreisform verwendet.

22 1 Hintergrund

Bei dieser werden für jeden Zeitab- y schnitt ein horizontaler Wert x0 und ein vertikaler Wert y0 benötigt. Der vertikale Wert erreicht sein Maximum y0 genau eine viertel Kreisbewegung r nachdem der horizontale Wert sein φ Maximum erreicht hat, also mit einem x0 x Phasenversatz von 90 Grad. Genau diese Eigenschaft haben die aus dem Heterodyning hervorgehenden Sinusoide. 2 2 Im nächsten Schritt werden die r= x0 + y 0 vertikalen und horizontalen Werte y 0  φ = arctan   durch die in Abbildung 4 dargestellten x0 

Formeln in einen konstanten Wert für Abb. 4 Darstellung Sinus am Einheitskreis den Radius r und den sich über die Zeit verändernden Werte des Winkels φ (der Phase) umgeformt. Um mit diesen beiden Werten zur Frequenz des Signals zu gelangen muss nun die Anzahl an Kreisbewegungen in einem bestimmten Zeitabschnitt gemessen werden. Dazu misst man die Werte des Winkels in aufeinander folgenden Samples, subtrahiert diese voneinander und teilt diesen Wert dann durch den Zeitunterschied der Samples. Da der Startwert des Winkels nicht immer bei 0 ist und bei der Messung von zeitlich aufeinander folgenden Werten die 360 Grad Grenze überschritten werden kann, müssen nach dem Überschreiten von 360 Grad zu den folgenden Werten 360 Grad addiert werden. Diese Addition wird „Phase Unwrapping“ genannt. In einem letzten Schritt wird die ermittelte Frequenz um die Mittenfrequenz des Bandpass Filters ergänzt. Die nach dem Phase Unwrapping erhaltene Frequenz ist nicht mit der Mittenfre- quenz des Bandpassfilters zu verwechseln. Auf diese Weise erhält man zeitveränderliche Werte für Amplitude und Frequenz, die das Zeitverhalten eines Signals beschreiben[DMPV86].

1.3.2.2 Betrachtung als Fourier-Transformation Eine weitere Interpretation des Phasen-Vocoders erhält man mit Hilfe der Fourier- Transformation. Im Gegensatz zur Filterbank, bei der ein Filter zeitliche Informationen über eine Frequenz liefert, erhält man bei der Fourier-Transformation das komplette Frequenzspektrum des Signals zu einem Zeitpunkt. Um hier Informationen über das Verhalten einer Frequenz über einen gewissen Zeitraum zu erhalten, müssen mehrere Fourier-Transformationen nacheinander

23 1 Hintergrund durchgeführt werden (in der Praxis Short Time Fourier-Transformationen STFT). Das Signal wird mit Hilfe so genannter Fenster in kleinere Abschnitte zerlegt. Diese Abschnitte sind so klein, dass angenommen werden kann, dass sich das Signal innerhalb des Fensters nicht im Zeitbereich verändert. Anschließend werden die einzelnen Fourier-Transformationen aneinander gereiht betrachtet. Bei der Filterbankbetrachtung entsteht das synthetisierte Signal aus einer Addition von Sinuswellen, bei der STFT müssen inverse Fourier-Transformationen der einzelnen Fenster durchgeführt, aneinander gereiht und interpoliert werden.

Der Phasen-Vocoder trennt also das Signal in einzelne Frequenzbänder auf. In jedem dieser Bänder wird dann die zeitliche Entwicklung der jeweiligen Mittenfrequenz beschrie- ben[DMPV86]. Deshalb kann der Phasen-Vocoder zur Veränderung der Dauer eines Audiosignals verwendet werden. Die in der Filterbank Betrachtung beschriebene Amplitude und Frequenz, die den Oszillator steuern, enthalten lediglich zeitliche Informationen über das Signal. Wenn man diese Werte mit Hilfe von Interpolation verlängert, ändert sich lediglich der zeitliche Verlauf des Ausgangssignals und nicht dessen Tonhöhe. Die Veränderung der Tonhöhe eines Signals, ohne dessen Dauer zu verändern, gelingt, in dem man das Signal um den gewünschten Faktor der Tonhöhenänderung verlängert und es danach durch eine Sample Rate Konvertierung um den gleichen Faktor beschleunigt. Der Phasen-Vocoder ist aber auch dafür bekannt, dem zu bearbeitenden Signal Artefakte hinzufügen, die als „phasig“, „hallig“ oder als Verlust von Klarheit und Präsenz beschrieben werden. Sprache beispielsweise klingt nach der Bearbeitung durch einen Phasen-Vocoder so, als ob Rauminformationen eines kleinen Raums hinzugefügt worden wären. Dies führt zu dem Eindruck, dass der Sprecher bezogen auf die Tiefenstaffelungsebene nach hinten rückt[LJPV97]. Da beim Phasen-Vocoder das Audiosignal durch Sinus- und Cosinusschwingungen beschrieben wird, hat dieses Verfahren Probleme bei der Analyse und Darstellung von impulshaften Signalen. Eine Möglichkeit Transienten besser zu verarbeiten ist es, das Signal nach Transienten und diese umgebende, zugehörige Signalteile zu untersuchen. Diese werden beispielsweise bei der zeitlichen Veränderung des Signals nicht bearbeitet[AXSP02]. In aktuellen Pitch und Time Shift Programmen kommen weiterentwickelte und verbesserte Formen des Phasen-Vocoders zum Einsatz.

24 1 Hintergrund

1.3.3 Wavelet-Transformation Um die Wavelet-Transformation zu beschreiben ist es nötig, die Eigenschaften der Short-Time- Fourier-Transformation (STFT) näher zu betrachten. Das Problem der schlechten Verarbeitung von transienten Signalanteilen beim Phasen-Vocoder liegt in den Eigenschaften der dort verwendeten STFT begründet. Würde man lediglich eine Fourier-Transformation über die komplette Dauer des Signals durchführen, hätte man eine genaue Angabe über die Frequenzzusammensetzung des Signals ohne jegliche Zeitinformatio- nen. Erst durch die Fensterung des Signals erhält man Informationen über dessen zeitlichen Verlauf. Die Heisenbergsche Unschärferelation, die ursprünglich im Bereich der Quantenme- chanik Aussagen über die Messbarkeit komplementärer Eigenschaften von Teilchen (beispiels- weise Ort und Impuls) trifft, kann auch im Bereich der Messung von Signalen im Zeit- und Frequenzbereich angewendet werden. Sie besagt, dass zwei komplementäre Eigenschaften1 eines Signals nicht zur gleichen Zeit beliebig genau gemessen werden können. Im Falle der STFT bedeutet dies, dass durch die Fensterung des Signals überhaupt erst eine Aussage über den zeitlichen Verlauf möglich ist, aber gleichzeitig eine schlechtere Darstellung der Frequenz- ebene verursacht wird. Eine kleine Größe des Fensters verursacht eine gute zeitliche Auflösung, aber eine schlechte Auflösung im Frequenzbereich. Große Fensterabschnitte stellen den Frequenzbereich sehr gut, aber den Zeitbereich schlecht dar[MJWT02]. Um diese Eigenschaften der STFT zu umgehen, wurde nach anderen Methoden der Signalanalyse gesucht. Eine veränderte Herangehensweise stellt die „Multiskalenanalyse“ (MRA, englisch: multireso- lution analysis), die bei der Wavelet-Transformation Anwendung findet, dar.

1 In diesem Falle Zeitverlauf und Frequenzzusammensetzung.

25 1 Hintergrund Frequenz Frequenz

Zeit Zeit

FT: gleichmäßige Auflösung im Zeit- Wavelet-Transformation: und Frequenzbereich Zeit- und Frequenzbereich mit unterschiedlicher Auflösung

Abb. 5 Vergleich FT und Wavelet Transformation

Im Unterschied zur Fourier-Transformation, bei der jeder Teil des Spektrums gleich gut oder schlecht dargestellt wird, werden bei der MRA verschiedene Frequenzbereiche mit verschiede- nen Frequenzauflösungen analysiert. Hohe Frequenzen werden mit einer sehr guten zeitlichen, aber schlechteren Frequenzauflösung dargestellt, tiefe Frequenzen mit einer sehr guten Zeit-, aber weniger guten Frequenzauflösung. Diese Art der Analyse ist bei Signalen mit lange andauernden tiefen Frequenzen und sehr kurz andauerndem hohen Frequenzanteil am wir- kungsvollsten. Außerdem haben real existierende Signale oftmals eine solche Zusammenset- zung. Somit ist es möglich sowohl eine genaue Aussage über das Spektrum, als auch über den zeitlichen Verlauf des Spektrums zu treffen[PRWT01]. Die Eigenschaften dieser Transformation werden durch die Verwendung von Wavelets im Gegensatz zur Sinus- und Cosinusfunktion bei der Fourier-Transformation, erreicht. Ein Wavelet ist eine Funktion, die auf einer Kreisbewegung beruht und deren Integral immer null ergibt. Die Amplitude beginnt im Nullbereich, steigt an und fällt wieder zurück auf Null.

26 1 Hintergrund

Abb. 6 Meyer Wavelet1 Mexican Hat Wavelet2 Die wichtigste Eigenschaft von Wavelets ist die Skalierbarkeit, was einer Dehnung oder Stauchung gleichkommt und für die unterschiedlich ausgeprägte Frequenzauflösung sorgt. Ein schmales Wavelet sorgt für eine niedrige Frequenzauflösung bei hoher Zeitauflösung, ein breites für eine hohe Frequenzauflösung bei geringer Zeitauflösung. Die Verschiebung des Wavelet auf der Zeitachse (Translation) ist für die Erfassung der zeitlichen Auflösung des Signals verantwortlich[MJWT02].

1.3.3.1 Kontinuierliche Wavelet-Transformation Nachdem man sich für ein Wavelet, das so genannte „Motherwavelet“, entschieden hat, wird das zu analysierende Signal zum Zeitpunkt Null mit dem Wavelet multipliziert. Das Ergebnis dieser Multiplikation ist der Wavelet-Koeffizient. Dieser gibt an, wie sehr das zu analysierende Signal mit dem Wavelet übereinstimmt. Für große Ähnlichkeit mit der Frequenz des Wavelets wird ein großer Wert des Koeffizienten ausgegeben. Diese Berechnung wird nun, nachdem das Wavelet entlang der Zeitachse verschoben wurde, zu jedem Zeitpunkt entlang der Zeitachse des Signals wiederholt durchgeführt. Bei jeder neuen Position wird erneut ein Wavelet-Koeffizient berechnet. Sobald das Signal komplett zeitlich bearbeitet wurde und alle Koeffizienten für diese Skalierung des Wavelet berechnet sind, wird das Wavelet gedehnt bzw. größer skaliert. Nun werden erneut Koeffizienten entlang der Zeitachse berechnet, das Wavelet breiter skaliert usw. Je breiter die Wavelets werden, desto schlechter ist die Zeitauflösung bei gleichzeitig besser werdender Frequenzauflösung[PRWT01]. Die Nachteile der Kontinuierlichen Wavelet-Transformation sind der hohe Rechenaufwand und viele redundante Werte, da sich die Wavelets bei der Verschiebung auf der Zeitachse überlap- pen.

1 Quelle: http://commons.wikimedia.org/wiki/File:Wavelet_-_Meyer.png?uselang=de 2 Quelle: http://de.wikipedia.org/w/index.php?title=Datei:Wavelet_- _Mex_Hat.png&filetimestamp=200806061n75345

27 1 Hintergrund

1.3.3.2 Diskrete Wavelet-Transformation Die Funktionsweise der kontinuierlichen Wavelet-Transformation besteht darin, das zu analysierende Signal auf Ähnlichkeit mit dem Wavelet zu vergleichen und diesen Vergleich mit unterschiedlich skalierten Wavelets entlang der Zeitachse durchzuführen. Durch Stephane Mallat und Yves Meyer wurde 1988 ein Algorithmus bestehend aus einer Reihe von digitalen Hoch- und Tiefpassfilterpaaren (Quadrature Mirror Filters) vorgestellt, durch den eine diskrete Wavelet-Transformtion durchgeführt werden konnte. Die beiden zeigten, dass die Werte des hochpassgefilterten Signals den Wavelet-Koeffizeinten entsprechen und die Tiefpassfilterung der Skalierung des Wavelets gleichkommt[MJWT02].

a0 2 2

Stufe 1 Wavelet-Koeffizienten a1 d1 a +d =a 2 2 1 1 0

a d Stufe 2 Wavelet-Koeffizienten 2 2 a2+d2=a1 2 2

a d Stufe 3 Wavelet-Koeffizienten 3 3 a3+d3=a2 2 2

a d Stufe 4 Wavelet-Koeffizienten 4 4 a +d =a 4 4 3 Abb. 7 Reihe von Hochpass- und Tiefpassfiltern zur diskreten Wavelet-Transformation

Durch das Hoch- und Tiefpassfilterpaar wird das Signal im Frequenzbereich ohne Verlust von Informationen genau halbiert. Eine Filterung bedeutet im digitalen Bereich eine Faltung des Signals mit dem digitalen Filter. „Das Wavelet selbst ist die Impulsantwort des Hochpassfilters, die Skalierungsfunktion entspricht der Impulsantwort des Tiefpassfilters“[MJWT02] Seite 25. Im jeweils hoch- und tiefpassgefilterten Signalanteil können nun, gemäß dem Abtasttheorem von Nyquist und Shannon, die Hälfte der Samples weggelassen werden, da durch die Tiefpass- filterung nur noch die Hälfte der ursprünglich im Signal enthaltenen Frequenzen vorliegen. Diese Bearbeitung verschlechtert die Zeitinformationen des Signals, da die Hälfte der Samples weggelassen wird. Gleichzeitig verbessert sich die Frequenzauflösung, da das neue Signal nur noch den halben Frequenzumfang beinhaltet. Diese Filterreihe wird so lange fortgesetzt, bis lediglich zwei Samples des Ausgangssignals verbleiben[PRWT01].

28 1 Hintergrund

Die diskrete Wavelet-Transformation ermöglicht eine genauere zeitliche Darstellung des Frequenzverlaufs eines Signals als es durch die STFT möglich ist. Sie ist Grundlage für den DIRAC Algorithmus, der in der TimeFactory2 von Prosoniq und in Wavelab zur Veränderung der Zeitdauer und Tonhöhe von Audiosignalen verwendet wird.

1.3.4 Bearbeitung von Signalen im Zeitbereich Im Gegensatz zur Analyse von Signalen im Frequenzbereich, die eine sehr hohe Rechenleistung erfordern, ist die Analyse im Zeitbereich einfacher und eignet sich deshalb auch für Anwendun- gen in Echtzeit. Das Prinzip hierbei ist es, das Audiosignal in sehr kleine zeitliche Abschnitte mit einer jeweiligen Dauer zwischen 10ms und 40ms zu zerlegen. Die Verlängerung oder Verkürzung des Signals geschieht dann durch geschickte Wiederholung bzw. Auslassung einzelner Ab- schnitte[LJTA02].

1.3.4.1 Anfänge Die erste Umsetzung dieses Ansatzes war eine 1954 von Fairbanks, Everitt und Jaeger vorgestellte Bandmaschine, die mit vier, auf einem rotierenden Zylinder befestigten, Wiederga- beköpfe ausgestattet war. Wenn der erste Wiedergabekopf, der in diesem Beispiel entgegen der Bandlaufrichtung rotiert, den Kontakt zum Tonband verliert, hat bereits der nächste Wiedergabekopf Kontakt zum Tonband und liest den gleichen Bandabschnitt noch einmal aus, was einer Verlängerung des Signals entspricht. Eine Tonhöhenveränderung nach unten wird erreicht, wenn der Zylinder in Bandlaufrichtung rotiert. In diesem Fall gibt es Zeitabschnitte ohne Bandkontakt eines Wiedergabekopfes. Eine Veränderung der Dauer eines Signals ohne Tonhöhenveränderung ergibt sich, wenn man die Wiedergabegeschwindigkeit des Tonbandes verändert1 und die Tonhöhe mit Hilfe der rotierenden Wiedergabeköpfe ausgleicht[LJTA02].

Weitere Möglichkeiten des Time und Pitch Shifting ergeben sich durch die Annahme, dass ein periodisches Signal vorliegt.

1 Was einer erneuten Abtastung des Signals entspricht.

29 1 Hintergrund

1.3.4.2 Synchronized Overlap-Add (SOLA) Dieses Verfahren zur Bearbeitung von Signalen im Zeitbereich wurde 1985 von Ruocos und Wilgus vorgestellt. Ziel ist es, einzelnen Signalabschnitte überlappend anzuordnen und beide Abschnitte mit einem Crossfade zu verbinden[LJTA02].

Gesamtes Signal

Abschnitt 1 Abschnitt 2 Abschnitt 3 Überlappung für Time Stretching

Abschnitt 1 Abschnitt 2 Abschnitt 3

t Überlappung mit Crossfade

Abb. 8 Time-Stretching mit SOLA

Dabei wird darauf geachtet, dass die sich überlappenden Teile zweier Abschnitte größtmögliche Ähnlichkeit besitzen. Bei starker Periodizität des Signals ist ein Vielfaches eines periodischen Abschnittes für die Überlappung am besten, da sich beide überlappenden Teile in diesem Fall beinahe gleichen. Je nach Größe der Überlappung wird das Signal in der Zeitdauer verlängert oder verkürzt[DPTP02] Es gibt verschiedene Methoden, die die Ähnlichkeit von Signalen im Überlappungsbereich bestimmen. Hier sollen die Kreuzkorrelation und die durchschnittliche Magnitudendifferenz genannt werden. Je nach festgestellter maximaler Ähnlichkeit wird nun die Dauer der einzelnen zu wiederholenden Abschnitte festgelegt. Diese können Werte von 10ms bis zu 60ms anneh- men. Auch die Dauer des Crossfades wird der Ähnlichkeit der sich überlappenden Signalstücke angepasst[LJTA02].

1.3.4.3 Pitch Synchronous Overlap-Add (PSOLA) Diese auch mit dem Namen „Time-Domain Harmonic Scaling“ bezeichnete Weiterentwicklung des SOLA wurde 1990 von Moulines und Charpentier zur Bearbeitung von Sprachsignalen entwickelt. Zur Veränderung eines Signals im Zeitbereich wird die Tonhöhe des Eingangssig- nals geschätzt und die daraus resultierende Periodizität zur Trennung und Überlappung des Ausgangssignals wie beim SOLA verwendet.

30 1 Hintergrund

Pitch Shifting mit dem PSOLA liegt die Annahme zu Grunde, dass Sprache aus einer Serie glottaler Impulse besteht, die durch den sich über die Zeit verändernden Vokaltrakt gefiltert werden[LJTA02]. Die Anzahl der Impulse pro Zeitabschnitt ist für die Tonhöhe verantwortlich. Für die Tonhöhenveränderung geht man davon aus, dass sowohl die Impulse aus der Glottis als auch die Tonhöhe in jedem Segment bekannt sind. Bereiche des Signals, die zwischen einzelnen Impulsen liegen werden nun durch Überlappungen und Crossfades neu zusammengefügt, so dass eine neue Folge von Impulsen entsteht.

TTT

TTT|||

Abb. 9 Tonhöhenveränderung mit PSOLA

Da die Tonhöhe des Signals durch die Anzahl an Impulsen bestimmt wird, ändert sich durch den PSOLA lediglich diese. Um die dabei entstehende Verkürzung oder Verlängerung des Signals auszugleichen, werden einzelne Segmente wiederholt oder ausgelassen. Da die Zerteilung und das wieder Zusammenfügen des Signals unter Beachtung der Tonhöhe (Pitch synchron) und ohne Sampleraten-Konvertierung erfolgt, werden die Formanten in Amplitude und Frequenz nicht beeinflusst. Dies ist das hervorstechende Merkmal des PSOLA. Für die Veränderung der Tonhöhe ist der PSOLA bedeutend, da durch diese Bearbeitung keine Formanten beeinflusst oder verändert werden. Im Gegensatz dazu existiert die Tonhöhenverän- derung durch Time Stretching und anschließendem Resampling, wie sie beispielsweise von einem Phasen-Vocoder durchgeführt werden kann. Das Resampling verändert das komplette Spektrum eines Signals und besonders bei Sprache können bereits kleine Veränderungen im Formantbereich die Natürlichkeit des Klanges beeinflussen[LJTA02].

31 1 Hintergrund

Die Schwierigkeit bei der Bearbeitung eines Signals mit eben beschriebener Methode ist es, vor der eigentlichen Bearbeitung die Tonhöhe und die Position der Impulse korrekt abzuschätzen bzw. zu errechnen. Dies ist besonders bei polyphonen Klangquellen kaum möglich. Eine Verbesserung des PSOLA stellt die Auftrennung des Signals in verschiedene Frequenzbänder mit Tonhöhen- oder Zeitveränderungen im jeweiligen Frequenzband dar. Verwendet wird dieser Ansatz zum Time- und Pitch Shifting in aktuellen Programmen wie Melodyne und AutoTune, aber auch im Elastique-Verfahren von zPlane[WWW18].

32 2 Aktuelle Situation

2 Aktuelle Situation

Im folgenden Kapitel sollen die aktuellen Vorgehensweisen bei der Anpassung von Filmmi- schungen an verschiedene Abspielgeschwindigkeiten dargestellt werden. Außerdem wird die Frage erörtert, ob und mit welchen Methoden dabei auch die veränderte Tonhöhe korrigiert wird. In einem weiteren Schritt werden DVD und BD Disc Produktionen miteinander vergli- chen. Dabei soll herausgefunden werden, ob eine Tonhöhenkorrektur bei der Veränderung der Abspielgeschwindigkeit mittlerweile üblich ist.

2.1 Befragung Postproduktionsfirmen

Um herauszufinden, welche aktuell die gängigen Vorgehensweisen bei der Frameraten- Konvertierung von Filmmischungen sind und ob dabei auch die Tonhöhe verändert wird, wurden diverse Tonpostproduktionsfirmen in Deutschland und den USA nach deren Arbeits- weise und Meinung zum Thema Tonhöhenkorrektur bei veränderter Abspielgeschwindigkeit gefragt. Aus Deutschland gaben Bernd Clauss, Technical Manager Sound Film & TV Group bei ARRI, Rudi Neuber, Chef Ingenieur für die Tonstudios der Cinepostproduction „Bavaria Bild&Ton“, Eric Horstmann, technischer Leiter von Rotor Film und Stefan Rüdel, Cheftonmeister der interaudio Tonstudios GmbH über die jeweiligen Vorgehensweisen in den verschiedenen Firmen Auskunft. Außerdem waren es Nathan Bishop von NBC Universal, Greg Geier von Sony PMC und Peter Eliuk von dbcsound, die meine Fragen beantworteten.

2.1.1 Konvertierung in andere Abspielgeschwindigkeit Um die Geschwindigkeit einer Filmmischung zu verändern, meist ist dies von 24fps zu 25fps der Fall, wird im Allgemeinen die Sample-Raten-Konvertierungs-Option (SRC) in Pro Tools mit höchster einzustellender Konvertierungsqualität („Tweak Head“) verwendet. Diese wird beim Import von Session-Daten oder Audiofiles durchgeführt. Die Gründe für die Sample-Raten-Konvertierung innerhalb Pro Tools sind, dass nach Hörver- gleichen keine Qualitätsunterschiede zur Umspielung in Echtzeit festzustellen sind[BFRN] und die Phasenbeziehungen der einzelnen Kanäle zueinander beibehalten werden[BFSR]. Dies ist besonders wichtig, wenn die Erstellung von zweikanaligen TV Mischungen erst nach der Geschwindigkeitsänderung stattfindet. Nicht zu unterschätzen ist außerdem der zeitliche Vorteil gegenüber einer Umspielung in Echtzeit und die schnelle Kontrolle der Synchronität zum in der Geschwindigkeit veränderten vorliegenden Bild[BFEH], die innerhalb Pro Tools sehr einfach möglich ist. Die Qualität des Algorithmus, der von Pro Tools zur Sample-Raten-Konvertierung

33 2 Aktuelle Situation verwendet wird, ist im Vergleich mit anderen Algorithmen sehr gut und wird als ausreichend betrachtet. Es ist bekannt, dass es bessere Algorithmen zur Sample-Raten-Konvertierung, als der in Pro Tools verwendete, gibt. Die Unterschiede sind aber zu gering, als dass sich die Verwen- dung dieser und damit die Einführung eines komplizierteren Konvertierungsprozesses lohnen würde[BFNB].

2.1.2 Tonhöhenkorrektur Die Entscheidung, ob eine Mischung auch in der Tonhöhe korrigiert wird, trifft in der Regel der Auftraggeber und ist oft vom noch vorhandenen Budget des Filmprojekts abhängig[BFBC]. Die Durchführung der Tonhöhenkorrektur wird von einem Mischtonmeister im Mischatelier vorgenommen, was weitere Kosten für Studiozeit und Tonmeister verursacht. Ein wichtiger Grund dafür ist, dass der Tonmeister, der den Film gemischt hat, das Ausgangsmaterial sehr genau kennt und eventuell auftretende Veränderungen oder Artefakte in der Mischung schnell bemerkt[BFBC]. Gemäß den Richtlinien der amerikanischen Tongewerkschaften bedeutet eine Veränderung der Tonhöhe eine Veränderung der Mischung und darf nur von einem Mischton- meister in einem Mischatelier durchgeführt werden[BFNB]. Die Antworten auf die Frage, ob es bereits üblich ist, bei veränderter Abspielgeschwindigkeit auch die Tonhöhe zu korrigieren, fallen sehr unterschiedlich aus. Sie reichen von „um ehrlich zu sein, ich wurde seit Jahren nicht nach einer Tonhöhenkorrektur gefragt[BFPE]“ bis zu „seit diesem Projekt wird bei uns nahezu jeder Film nach der Beschleunigung auf 25fps auch in der Tonhöhe korrigiert[BFRN]“. In einigen Fällen wird von einer Tonhöhenkorrektur abgeraten, um eventuell auftretende Artefakte zu vermeiden[BFNB][BFEH]. Es kommt aber genauso vor, dass Kunden von der Möglichkeit der Tonhöhenkorrektur gehört haben und diese nun auch gerne für ihr Projekt in Anspruch nehmen möchten. Dafür sind sie dann auch bereit, die zusätzlich anfallenden Kosten zu übernehmen[BFRN]. Die Gründe für oder gegen eine Tonhöhenkorrektur sind vielfältig. Ein starkes Argument dagegen sind eventuell auftretende Artefakte. Auf der anderen Seite gibt es Filme, deren Inhalt eine Tonhöhenkorrektur erfordern. Als Beispiel soll hier „Die Päpstin“ von Sönke Wortmann aus dem Jahr 2009 genannt werden. In diesem Film gibt sich eine Frau als Mann (den Papst) aus und spricht deshalb in sehr tiefer Tonlage. Die Wirkung dieser tiefen Stimme wäre nach einer Beschleunigung des Films auf 25fps und einer um beinahe einen Halbton nach oben veränderten Tonhöhe nicht mehr die von Regie und Schauspielerin beabsichtige gewesen. Also wurde die beschleunigte Mischung wieder um 4% nach unten in der Tonhöhe korrigiert[BFRN]. Ein weiteres Beispiel sind Musicals wie West Side Story oder Das Phantom der Oper. Da hier der musikalische Inhalt eine sehr wichtige Rolle spielt, sollen die Musikstücke nicht in verschiedenen Tonarten wiedergegeben werden[BFNB].

34 2 Aktuelle Situation

Außerdem gibt es auch Schauspieler, die eine erhöhte Tonlage ihrer Stimme nicht mögen und eine Tonhöhenkorrektur anfordern[BFNB][BFRN]. Falls eine in der Geschwindigkeit veränderte Mischung wieder auf die ursprüngliche Tonhöhe gebracht werden soll, wird in den meisten Fällen von einer Bearbeitung der kompletten Mischung abgeraten. Die Tonhöhenkorrektur wird dann so früh wie möglich, also in den Stems der Filmmischung, durchgeführt. So können auf den jeweiligen Inhalt (Dialog, Musik und Effekte) zugeschnittene Algorithmen, aus Hard- oder Software, angewendet wer- den[BFBC][BFRN]. Außerdem können auf diese Weise auch nur Teile der Mischung in der Tonhöhe verändert werden. Da besonders bei Audiomaterial mit transientem Signalanteil, wie beispielsweise Foleys oder bei diversen Effekten, leicht Artefakte auftreten können und der Klang nach dem Pitch Shifting als „räumlich“ oder „matschig“ beschrieben wird, ist eine Möglichkeit den Effektstem nicht in der Tonhöhe zu korrigieren. Die veränderte Tonhöhe beispielsweise einer Autotür oder Explosion wird nicht so leicht wahrgenommen wie die veränderte Stimme bekannter Schauspieler oder die andere Tonart im Film verwendeter, aber auch aus dem Radio bekannter, Popmusik[BFBC][BFEH]. Die Tonhöhenkorrektur in den Stems durchzuführen stellt so lange kein Problem dar, bis eine internationale Auswertung des Films stattfindet und die Aufnahmen und Mischung der Synchronversion von anderen Studios durchgeführt werden. In der Regel bekommen diese lediglich eine kombinierte Mischung aus Musik und aufgefüllten Effekten zugeschickt, die die erforderliche Bearbeitung mit verschiedenen Mitteln unmöglich macht. Die jeweiligen Länder bekommen die Tonfiles zugeschickt, die sie anfordern. Dies können bei Kinofilmen lediglich die 24fps Version des Tons oder aber eine schon beschleunigte 25fps PAL Version sein. Außerdem würde das Zusammenstellen der Stems und der Versand weitere Kosten verursachen, die dem Trend mit immer knapperen Budgets zu produzieren widersprechen[BFNB]. Auf die Frage, welche Hard- oder Software bei der Tonhöhenkorrektur zum Einsatz kommt, gehen die Antworten auseinander. Auch innerhalb der verschiedenen Firmen gibt es zum Teil keinen standardisierten Weg und es kommt verschiedene Hard- oder Software zum Einsatz. Allerdings ist die Verwendung von Hardware auf das Model 585 von Dolby beschränkt. Dieses wird von Dolby nicht mehr hergestellt und kann bei Bedarf geliehen werden. Die Erfahrungen mit dem Model 585 sind geteilt. In Fällen, in denen dieses Gerät zum Einsatz kommt, gibt es die Rückmeldung, dass es sehr gut für Sprache funktioniert. Allerdings können dann für Musik und Effekte auch diverse Software Lösungen zum Einsatz kommen. Wie genau die Tonhöhenkor- rektur durchgeführt wird, entscheidet der jeweilige Tonmeister. Es kann vorkommen, dass innerhalb eines Stems für eine Stelle, an der das bisher verwendete Plugin Artefakte erzeugt, ein anderes Plugin oder eine andere Einstellung verwendet werden muss. Des Weiteren gibt es aber auch Firmen, deren Tonmeister diverse Soft- und Hardware getestet und sich für eine reine Software Lösung entschieden haben. Grund hierfür waren leicht hörbare

35 2 Aktuelle Situation

Artefakte, die durch die getestete Hardware bei der Tonhöhenveränderung erzeugt wurden. Als ausprobiert wurden hier das Model 585 von Dolby und auch drei miteinander verkoppelte Stereogeräte der französischen Firma genesis genannt. In mehreren Firmen, die befragt wurden, ist Pitch ’n Time von Serato das Plugin, welches bei Tonhöhenkorrekturen, nach Test diverser Hard- und Software, zum Einsatz kommt. Als weitere Software, die zur Tonhöhenkorrektur verwendet wird, wurden TimeFactory von Prosoniq und XForm von Avid genannt. Ein Problem, welches durch die Tonhöhenkorrektur nicht gelöst werden kann und von allen Befragten als eine schwerwiegende Veränderung des Films bezeichnet wird, ist die veränderte Geschwindigkeit bei der Konvertierung zwischen verschiedenen Frameraten, die im Ton besonders stark bei Musik auffällt.

2.2 Analyse DVDs und Blu-ray Discs

Um herauszufinden, ob es mittlerweile üblich ist, bei der Veränderung der Abspielgeschwindig- keit von Filmmischungen auch die Tonhöhe zu korrigieren, werden im folgenden Abschnitt die Tonhöhen der Soundtracks von BDs mit der Tonhöhe der DVD Versionen des gleichen Films verglichen. Auf BD liegen die Mischungen in der Originalgeschwindigkeit des Films1, auf PAL DVDs um 4,16% beschleunigt mit 25fps vor. Bei der Auswahl der Filme waren die Kinocharts des Jahres 2011 und bereits an der HFF vorhandene BDs und DVDs maßgeblich. Außerdem wurden BDs mit DVDs verglichen, über die in diversen Internetforen2 Beschwerden wegen einer falschen Tonhöhe zu lesen waren. Ein weiteres Augenmerk lag auf BD und DVD Versionen von Fernsehserien. Hierbei kann sich der Zuschauer auf Grund des regelmäßigen Sehens stärker an die jeweilige Sprechtonhöhe der Synchronsprecher gewöhnen. Anhand der Stichproben sollten die üblich verwendeten Frameraten bei BD Veröffentlichungen von Kinofilmen und Fernsehserien aufgezeigt werden.

1 Bei Kinofilmen, die mit 24fps gedreht wurden, sind es aus Kompatibilitätsgründen zu NTSC bei nordamerikanischen Produktionen 23,976 fps. Dieser geringe Geschwindigkeitsunterschied von 0,1% ist allerdings kaum wahrnehmbar. 2 Quellen: Herr der Ringe: http://audiovision.de/forum/index.php?page=Thread&postID=5544 Dr. House Staffel 6: http://forum.cinefacts.de/222569-dr-house-staffel-6-auf-blu-ray-tonhoehe- falsch-umtausch.html Verschiedene BDs: http://forum.cinefacts.de/202790-diese-blu-rays-haben-eine-verpfuschte- deutsche-tonspur-mangels-tonhoehenanpassung.html

36 2 Aktuelle Situation

2.2.1 Vorgehensweise BDs wurden mit dem über USB an ein Mac Book Pro angeschlossenen BD-ROM Laufwerk PX-B120U der Firma Plextor und die DVDs mit dem im MacBook Pro eingebauten MATSHI- TA DVD-R UJ-8A8 Laufwerk wiedergegeben. Als Audiointerface diente das Fireface UFX von RME. Durch die Loopback Funktion in der von RME mitgelieferten TotalMix FX Software konnten die Ausgänge der Software-Player intern auf Hardware-Eingänge des Audiointerfaces geroutet werden. Diese wurden dann in der DAW Pro Tools 10 wieder aufgenommen. Abgehört wurden die Soundtracks über A7 Lautsprecher der Firma ADAM Audio. Als Software-Player für die BDs diente der Mac Blu-ray Player V2.2.4, die DVDs wurden vom VLC Player V2.0.1 abgespielt. Aufgenommen wurden die 5.1 Mischungen der Filme. Bei den BDs lagen diese meist in DTS- HD Master Audio oder nicht datenreduziert in linearer Puls-Code Modulation (LPCM) vor. Auf den DVDs wurden Dolby Digital Datenströme mit AC3 Datenreduktion abgespielt. Da es bei diesem Vergleich lediglich um die Tonhöhe der verschiedenen Mischungen ging, wurden jeweils die ersten fünf bis zehn Minuten in Originalsprache und, wenn vorhanden, die deutsche Synchronisation der BDs und DVDs wieder aufgenommen und verglichen. Um Informationen über die Framerate und Art der Audiostreams der BDs und DVDs zu erhalten, fand die Software BDinfo für BDs und makeMKV für DVDs Verwendung.

37 2 Aktuelle Situation

2.2.2 Vergleich zwischen BD und DVD Versionen Die folgende Tabelle zeigt die Auswertung des Vergleichs zwischen BD und DVD Version verschiedener Kinofilme. Tonhöhen- Titel korrektur Framerate Studio Jahr 1 BD Das Schweigen der Lämmer deutsche Tonspur tiefer als auf der tonhöhenkorrigierten DVD 23,976 fps MGM 2009 DVD Das Schweigen der Lämmer ja 25fps MGM 2004 2 BD Herr der Ringe - 23,976 fps Warner Bros 2010 DVD LOTR ja 25fps Warner Bros 2004 3 BD Star Wars 3-Die Rache der Sith 23,976 fps 20th Century Fox 2011 DVD Star Wars 3-Die Rache der Sith nein 25fps 20th Century Fox 2005 4 BD Alien Die Rückkehr 23,976 fps 20th Century Fox 2010 DVD Alien Die Rückkehr nein 25fps 20th Century Fox 2006 5 BD Narnia Der König von Narnia 23,976 fps Disney 2008 DVD Narnia Der König von Narnia nein 25fps Disney 2006 6 BD Magnificent 7 deutsche Tonspur tiefer als auf der tonhöhenkorrigierten DVD 23,976 fps MGM 2010 DVD Magnificent 7 ja 25fps MGM 2006 7 BD Casino Royale 23,976 fps MGM 2007 DVD Casino Royale nein 25fps MGM 2007 8 BD Ratatouille 23,976 fps Disney 2008 DVD Ratatouille nein 25fps Disney 2008 9 BD SLUMDOG_MILLIONAER 23,976 fps PROKINO 2009 DVD SLUMDOG_MILLIONAER ja 25 fps PROKINO 2009 10 BD Apocalypse Now Redux 23,976 fps ARTHAUS 2011 DVD Apocalypse Now Redux nein 25fps UNIVERSUM 2009 11 BD Avatar 23,976 fps 20th Century Fox 2010 DVD Avatar nein 25 fps 20th Century Fox 2010 12 BD Alice im Wunderland 23,976 fps Disney 2010 DVD Alice im Wunderland nein 25fps Disney 2010 13 BD Kampf der Titanen 23,976 fps Warner Bros 2010 DVD Kampf der Titanen nein 25fps Warner Bros 2010 14 BD RIO 23,976 fps 20th Century Fox 2011 DVD RIO nein 25fps 20th Century Fox 2011

38 2 Aktuelle Situation

Tonhöhen- Titel korrektur Framerate Studio Jahr 15 BD Black Swan 23,976 fps 20th Century Fox 2011 DVD Black Swan nein 25fps 20th Century Fox 2011 16 BD Gullivers Reisen 23,976 fps 20th Century Fox 2011 DVD Gullivers Reisen nein 25fps 20th Century Fox 2011 17 BD Lost Highway 23,976 fps Concorde 2011 DVD Lost Highway nein 25fps Concorde 2011 18 BD Pirates of the Caribbean 4 23,976 fps Disney 2011 DVD Pirates of the Caribbean 4 nein 25fps Disney 2011 19 BD THOR 3D 23,976 fps Paramount 2011 DVD THOR nein 25 fps Paramount 2011 20 BD The King's Speech 23,976 fps UNIVERSUM 2011 DVD The King's Speech ja 25fps UNIVERSUM 2011 21 BD PINA 23,976 fps Warner Bros 2011 DVD PINA nein 25 fps Warner Bros 2011 22 BD KOKOWÄÄH 23,976 fps Warner Bros 2011 DVD KOKOWÄÄH ja 25fps Warner Bros 2011 23 BD Die Drei Musketiere 23,976 fps Constantin 2012 DVD Die Drei Musketiere ja 25fps Constantin 2012 24 BD Die Schlümpfe 23,976 fps Sony 2012 DVD Die Schlümpfe nein 25fps Sony 2012 25 BD Tim und Struppi 23,976 fps Sony 2012 DVD Tim und Struppi nein 25fps Sony 2012 26 BD Männerherzen 2 24 fps Warner Bros 2012 DVD Männerherzen 2 ja 25fps Warner Bros 2012 27 BD Harry Potter und die Heiligtümer des Todes - Teil 2 23,976 fps Warner Bros 2012 DVD Harry Potter und die Heiligtü- mer des Todes - Teil 2 nein 25fps Warner Bros 2012

Tabelle 10 Tonhöhenvergleich zwischen BDs und DVDs

Beim Vergleich der BD Version mit der DVD Version von 27 Kinofilmen hatten 8 DVD Produktionen die gleiche Tonhöhe im Vergleich zur BD. Hierbei war auffällig, dass von den Produktionsfirmen mit dem größten Marktanteil 20111, Warner Bros, Paramount und 20th

1 Quelle: http://www.insidekino.com/DJahr/D2011.htm

39 2 Aktuelle Situation

Century Fox, lediglich bei den deutschen Produktionen von Warner Bros, Kokowääh und Männerherzen 2, eine Tonhöhenkorrektur durchgeführt wurde. Auch bei Filmen von Disney gab es keine Produktion, bei der die Tonhöhe des Soundtracks auf der DVD der Tonhöhe des Sountracks auf der BD entsprach. Von den acht tonhöhenkorrigierten Soundtracks stammten drei aus deutschen Produktionen von Warner und Constantin, zwei von MGM, und jeweils eine aus Filmen von Warner, Universum und Prokino, deren Tonpostproduktion in England oder Deutschland durchgeführt worden war.

20

Filme mit veränderter Tonhöhe 15 Filme mit korrigierter Tonhöhe

10

5

0 überprüfte Kinofilme international national

Abb. 10 Anteil tonhöhenkorrigierter Filme

Diese Ergebnisse entsprechen den Aussagen von Nathan Bishop[BFNB] von NBC Universal und Peter Eliuk[BFPE] von dbc sound, die berichteten, dass Tonhöhenkorrekturen nicht die Regel sind und nur in besonderen Fällen durchgeführt werden. Durch die Resultate dieses stichprobenartigen Vergleichs kann gezeigt werden, dass eine Tonhöhenkorrektur bei der Frameratenkonvertierung nicht den Regelfall darstellt. Besonders bei amerikanischen Produktionsfirmen ist diese nicht üblich. In England und Deutschland, wo das Problem von gleichzeitig existierenden verschiedenen Tonhöhen stärker im Vordergrund steht, wird häufiger eine Tonhöhenkorrektur vorgenommen.

40 2 Aktuelle Situation

2.2.3 DVDs und BDs mit Artefakten durch eine Tonhöhenkorrektur Bei den DVDs oder BDs mit gleicher Tonhöhe wurden die jeweiligen Filme auf Artefakte in der Tonspur überprüft. Zwei der acht tonhöhenkorrigierten DVDs waren dabei auffällig. Bei der DVD von The King’s Speech wurden zu Beginn des Films während eines ruhigen Musikeinsatzes von Klavier und Streichern ein unruhiges Klangbild, Echos und ein mit Blubbern zu beschreibender Effekt bemerkt. Diese Unreinheiten waren auf der BD nicht festzustellen und sind somit mit hoher Wahrscheinlichkeit auf die angewandte Tonhöhenkorrek- tur zurück zu führen. Diese Vermutung bestätigte sich, nachdem verschiedene Algorithmen getestet und deren Artefakte beschrieben wurden. Die Artefakte auf der DVD von The King’s Speech klingen stark nach den Veränderungen, die durch eine Bearbeitung mit dem Dolby Model 585 entstehen können. Eine weitere auffällige BD Veröffentlichung war der erste Teil der Herr der Ringe Trilogie aus der Special Extended Edition. Dort war der Sprachklang der deutschen Synchronversion phasig und verschwommen. Außerdem klang der Downmix auf zwei Spuren unklar und diffus. Die Klangeigenschaften und zu hörenden Artefakte dieser beiden Produktionen sind als nicht zufrieden stellend zu bezeichnen. Besonders bei einer teuren und als hochwertig angesehenen BD Veröffentlichung ist es schade und verärgert die Konsumenten, wenn die Tonqualität der BD (wie im Beispiel von Herr der Ringe) schlechter als die Tonqualität der DVD zu bezeichnen ist.

2.2.4 Wahrnehmung veränderter Tonhöhen von Filmsoundtracks Durch den gleichzeitigen Verkauf von BDs und PAL DVDs und deren verschiedene Frameraten ist es den Zuschauern inzwischen leichter möglich, unterschiedliche Tonhöhen zu bemerken. Die veränderte Tonhöhe fällt meist bei Synchronversionen von Fernsehserien nach einer Konvertierung von 25fps zu 24fps auf. In diesem Fall wird zum Teil das IT1 bereits vor der deutschen Synchronisation von den amerikanischen 23,976fps ohne Tonhöhenkorrektur auf 25fps beschleunigt. Auf dieses 4,16% höher klingende IT synchronisieren dann die deutschen Sprecher, wodurch im Fernsehen und auf DVD PAL die Tonhöhen der deutschen Sprecher korrekt wiedergegeben werden. Wird nun von einem amerikanischen Studio eine BD veröffent- licht, wird diese mit der ursprünglichen Bildgeschwindigkeit von 23,976fps produziert. Die deutsche Tonspur muss also von 25fps auf 23,976fps verlangsamt werden. Bei dieser Konvertie- rung erreichen Musik und Effekte wieder ihre Originaltonhöhe, die Stimmen allerdings werden

1 IT: internationale Tonspur, auf englisch M&E (Music and Effects), beinhaltet Musik, Foleys, Atmo- sphären und Toneffekte.

41 2 Aktuelle Situation

71cent zu tief wiedergegeben. Dass dieser Unterschied stark auffällt, belegen verschiedene Internetforen sowie Umtauschaktionen diverser Produktionsfirmen: • Ein Beispiel für die gerade beschriebenen zu tiefen Stimmen ist die BD Veröffentli- chung der sechsten Staffel der amerikanischen Fernsehserie „Dr. House“. In diesem Fall konnten die BDs bei Universal umgetauscht werden1. Außerdem ist bei Amazon der Hinweis „Bitte beachten Sie: Auftretende Tonprobleme entstehen durch die Konvertie- rung von 24fps-Material zu PAL“ zu lesen2. • Die BDs der Serie „The Big Bang Theorie“ hatten im Vergleich zur DVD ebenfalls zu tiefe deutsche Synchronstimmen. Dies wird von Fans der Serie bemerkt und bemängelt. • Ein weiteres Beispiel für zu tiefe Synchronspuren auf BDs sind bereits tonhöhenkorri- gierte DVD PAL Soundtracks, die für eine BD Veröffentlichung ohne Tonhöhenkorrek- tur verlangsamt werden. Beispiele aus dem BD DVD Vergleich hierfür sind „Das Schweigen der Lämmer“ und „Magnificent 7“. Weitere zu tiefe Soundtracks sind auf einer Liste im Internetforum Cinefacts3 zu finden. • Eine BD Veröffentlichung, die eine Umtauschaktion nach sich zog, war die Veröffentli- chung der „Herr der Ringe Special Extended“ Edition im Juli 20114. Bereits beim ton- höhenkorrigierten 25fps Soundtrack der DVD beschwerten sich Zuschauer über den „leiernden“ Klang von lang ausgehaltenen Tönen in der Filmmusik. Dieser 25fps Soundtrack wurde für die BD auf 23,976fps verlangsamt, was in einer tieferen Tonhöhe als die der originalen deutschen 24fps Kinoversion resultierte. Offensichtlich lag War- ner die deutsche 24fps Kinoversion zur Erstellung der BD nicht vor. Die zu tiefe Ton- spur wurde im Zuge einer weiteren Veröffentlichung korrigiert und die BDs der ersten Ausgabe konnten umgetauscht werden. Dennoch waren viele Kunden bei einem Preis für das komplette BD Set von 155EUR über die zunächst falsche Tonhöhe verärgert.

Die Veränderung der Tonhöhe um +71cent durch die Beschleunigung von 24fps auf 25fps ist als nicht so auffällig zu beschreiben. Beschwerden über eine falsche Tonhöhe sind hier weniger zu finden. Offensichtlich haben sich Zuschauer aus Ländern mit PAL Fernsehsystem über die Jahre an die höheren Stimmen im Fernsehen und auf DVD gewöhnt. Dennoch sollte durch die

1 Quelle: http://forum.cinefacts.de/222569-dr-house-staffel-6-auf-blu-ray-tonhoehe-falsch-umtausch.html 2 Quelle: www.amazon.de/Dr-House-Season-6- Bluray/dp/B004N45ZHM/ref=dp_return_1?ie=UTF8&n=284266&s=dvd-de 3 Quelle: http://forum.cinefacts.de/202790-diese-blu-rays-haben-eine-verpfuschte-deutsche-tonspur- mangels-tonhoehenanpassung.html 4 Quelle: http://www.cinefacts.de/blu-ray-news/26523-umtauschdetails-der-herr-der-ringe-extended-blu- rays.html

42 2 Aktuelle Situation gleichzeitige Existenz von 24fps BDs und 25fps DVDs und der immer wiederkehrenden Notwendigkeit, Filmmischungen in eine andere Framerate zu konvertieren, auch hier über eine Anpassung der Tonhöhe nachgedacht werden.

2.3 Aktuelle Vorgehensweise bei der Frameratenkonvertierung

Die Wiedergabe mit veränderter Abspielgeschwindigkeit ist die am meisten verbreitete Art und Weise, um Filmmischungen an eine andere Framerate anzupassen und stellt die Synchronität zum Bild sicher. Ein Vorteil hierbei ist, dass die Phasenbeziehungen der verschiedenen Kanäle untereinander erhalten bleiben, da jeder Kanal auf die gleiche Art und Weise in der Zeit und somit aber auch in der Tonhöhe verändert wird.

2.3.1 Umspielung Die ursprüngliche Art, um die Geschwindigkeit einer Filmmischung zu verändern, ist die Wiedergabe mit veränderter Abspielgeschwindigkeit und erneutes Aufnehmen inklusive veränderter Tonhöhe. Diese Vorgehensweise kann auf verschiedene Arten analog oder digital in Echtzeit umgesetzt werden. Eine Möglichkeit stellt die Wiedergabe mit veränderter Abspielgeschwindigkeit durch Umspielen der Mischung zwischen zwei Perfo-Magnetbandmaschinen dar. Hierbei läuft die Aufnahmemaschine mit veränderter Geschwindigkeit gegenüber der Wiedergabemaschi- ne[BFEH]. Eine halb digitale Umsetzung des gleichen Prinzips ist die erneute Aufnahme der Filmmischung über ein digitales Aufzeichnungsgerät wie den Dubber MMP16 von Tascam. Hier können bis zu 16 Spuren pro Gerät auf SCSI Festplatten aufgezeichnet und wiedergegeben werden. Der Dubber synchronisiert sich dabei auf eine um die gewünschte Veränderung eingestellte Wordclock, wie sie beispielsweise vom Syncgenerator „nanosyncs HD“ von Rosendahl ausgegeben werden kann. An diesem Gerät sind Beschleunigungen und Verlangsa- mungen der Wordclock um +/- 0,1% und +/- 4% einstellbar[BFBC][BFRN].

2.3.2 Sample-Raten-Konvertierung (SRC) Die Sample-Raten-Konvertierung innerhalb einer DAW ist die heute gängige Methode, um Filmmischungen in eine andere Wiedergabegeschwindigkeit zu konvertieren. Alle befragten Postproduktionsfirmen arbeiten mit Pro Tools und verwenden dort beim Import von Audiodateien oder Session Daten vorhandene Voreinstellungen, die mittels SRC eine auf Frameratenkonvertierung voreingestellte Geschwindigkeitsveränderung berechnen. Hierbei wird das Audiofile mit einer der gewünschten Veränderung entsprechenden Abtastrate „wiedergege-

43 2 Aktuelle Situation ben“ und dann in die Abtastrate der Zielsession konvertiert1. Die Qualität der SRC wird hierbei auf „Tweak Head“, oder auf Deutsch „Ultrapräzise“ eingestellt.

Abb. 11 Pro Tools Import von Audiodateien oder Session Daten mit SRC

Auch bei der SRC von Audiofiles gibt es verschiedene Algorithmen diverser Hersteller. Allerdings ist die Einbindung einer weiteren Soft- oder Hardware bei der Erstellung verschiede- ner Deliveries zu aufwändig und die Qualität des in Pro Tools verwendeten Algorithmus zufrieden stellend[BFNB].

1 Weitere Informationen zur Qualität von Sample-Raten-Konvertierungen verschiedener Soft- und Hardware sind unter http://src.infinitewave.ca/ zu finden.

44 3 Versuchsaufbau zum Vergleich verschiedener Algorithmen zur Geschwindigkeits- und Tonhöhenveränderung

3 Versuchsaufbau zum Vergleich verschiedener Algorithmen zur Geschwindigkeits- und Tonhöhenveränderung

Im folgenden Kapitel werden verschiedene Algorithmen zur Veränderung der Tonhöhe und Geschwindigkeit von Audiofiles auf ihre Funktionalität und Klangeigenschaften in Bezug auf die spezielle Anwendung der Konvertierung von Filmmischungen in verschiedene Frameraten getestet und miteinander verglichen.

3.1 Testsignale

Als Testsignale dienten hauptsächlich vier verschiedene Ausschnitte aus Filmmischungen der HFF. Es lagen sowohl die gesamte Mischung (SRD), als auch die Stems der jeweiligen Projekte vor: • Der erste Testausschnitt stammt aus dem Animationsfilm „Das Weihnachtsbaumsoziali- sierungsprojekt“ (WSP). Dieser Film ist wie ein Werbespot aufgebaut und besteht aus einem Sprecher, Orchesterscore und Soundeffekten. Er wurde ausgewählt, da hier im Studio aufgenommene Sprache ohne die sonst am Filmset aufgenommenen Hinter- grundgeräusche und Musik gleichzeitig verändert werden müssen. Spurbelegung: - SRD: L, C, R Ls, Rs, LFE - Dialogstem: L, C, R, Ls, Rs, M1, M2 - Musikstem: L, C, R, Ls, Rs, LFE - Effektstem: L, C, R, Ls, Rs, LFE • Der zweite Testausschnitt sind einige aneinander gereihte Sequenzen aus dem Film „Kriegerin“. Dieser Film steht exemplarisch für „normale“ Originaltonproduktionen. Außerdem wurde diese Mischung aufgrund der Kinoauswertung von Dolby abgenom- men und ist damit mit kommerziellen Produktionen vergleichbar. Inhaltlich kommen Abschnitte mit Voiceover und gleichzeitig sehr flächig komponierter Musik, sowie Dialog am Meer, auf einer Wiese oder im Haus vor. Spurbelegung: - SRD: L, C, R Ls, Rs, LFE - Dialogstem: L, C, R, Ls, Rs - Musikstem: L, C, R, Ls, Rs, LFE - Effektstem: L, C, R, Ls, Rs, LFE

45 3 Versuchsaufbau zum Vergleich verschiedener Algorithmen zur Geschwindigkeits- und Tonhöhenveränderung

• Als drittes Beispiel diente der Anfang des Dokumentarfilms „Roadcrew“ mit sehr rauschhaftem Originalton, sowie dem Einsatz von Rockmusik. Spurbelegung: - SRD: L, C, R Ls, Rs, LFE - Dialogstem: L, C, R - Musikstem: L, C, R, Ls, Rs, LFE - Effektstem: L, C, R, Ls, Rs, LFE • Der Kriegsfilm „B-Day“ steht als Beispiel für laute Actionsequenzen mit transienten Schusssalven und Explosionen. Da in diesem Film kein Dialog und keine Musik vor- kommen, entspricht die Gesamtmischung einem Effektstem. Deshalb wurde nur die komplette Mischung bearbeitet. Spurbelegung: - SRD: L, C, R Ls, Rs, LFE Die Spurbelegungen der verschiedenen Mischungen und Stems waren bis auf die leicht variierenden Dialogstems identisch. Die Effektstems beinhalteten Atmosphären, Synchronge- räusche und Toneffekte. Außerdem wurde aus den verschiedenen Ausschnitten der BD Mischungen aus Kapitel 2.2.2 ein 60 Minuten dauerndes „Mixed Tape“ diverser Filmmischungen unterschiedlicher Genres zusammengestellt und bearbeitet. Hier waren unter anderem die Anfänge von „Harry Potter 7/1“, „Star Wars 3“, „The King’s Speech“, „Männerherzen 2“, „Die Drei Musketiere“ und auch die Fernsehserie „The Big Bang Theorie“ vertreten. Innerhalb der 60 Minuten lagen verschiede- ne ein Frame lange Sinussignale zur Überprüfung der Synchronität und Phasenkohärenz zwischen den verschiedenen Kanälen vor. Des Weiteren waren Impulsfolgen eingearbeitet, um das zeitliche Verhalten an transienten Inhalten der verschiedenen Algorithmen zu überprüfen. Außerdem konnte aufgrund der Länge des Audiofiles von 60 Minuten eine Aussage über die Dauer der Berechnung zur Tonhöhen- und Zeitveränderung getroffen werden. Diese Ausschnitte wurden nur als komplette Mischung und nicht in Stems bearbeitet.

3.2 Versuchseingrenzung

Bei der Auswahl der verschiedenen Algorithmen und Geräte war die Möglichkeit maßgeblich, mehrere Kanäle mit gleich bleibender Phasenbeziehung zu bearbeiten. Diese Eigenschaft ist besonders wichtig, da alle mehrkanaligen Filmmischungen im DVD oder BD Player auf zwei Kanäle zusammengefasst werden können. Verändert man die Phasenlage der einzelnen Kanäle zueinander, funktioniert dieser Downmix nicht mehr.

46 3 Versuchsaufbau zum Vergleich verschiedener Algorithmen zur Geschwindigkeits- und Tonhöhenveränderung

Der Schwerpunkt beim Test der verschiedenen Geräte, Plugins oder Algorithmen lag auf dem Anwendungsfall Frameratenkonvertierung von Filmmischungen. Hierbei wurde auf die in Europa üblichen Konvertierungen von 24fps zu 25fps und umgekehrt eingegangen. Die Tonhöhenunterschiede, die bei einer Konvertierung von 24fps zu 23,976fps entstehen, sind kaum wahrnehmbar und wurden deshalb nicht in den Versuch einbezogen. Folgende Zeitwerte (gerundet auf 10 Dezimalstellen) treten bei der Umrechnung in eine andere Framerate auf: • 24fps zu 25fps: 104.1666666667% • 25fps zu 24fps: 96.0% Die allgemeine Formel, um die prozentuale Veränderung zwischen zwei Wiedergabegeschwin- digkeiten zu berechnen, lautet:  EingangsFramerate− AusgangsFramerate   i100%  AusgangsFramerate 

Um aus einem Geschwindigkeitsverhältnis den Unterschied der Tonhöhe in Cent zu berechnen, findet folgende Formel Anwendung:  AusgangsFramerate  lg   EingangsFramerate  i1200cent [WWW24] lg 2 Damit gilt (aufgerundet) für den Tonhöhenausgleich bei der Frameratenkonvertierung: • 24fps zu25fps: +71cent • 25fps zu 24fps: -71cent

47 3 Versuchsaufbau zum Vergleich verschiedener Algorithmen zur Geschwindigkeits- und Tonhöhenveränderung

3.3 Vorgehensweise

Im ersten Schritt der Tonhöhen- und Zeitveränderungen wurde jedes Gerät, Plugin und jeder Algorithmus für sich betrachtet und versucht, die bestmöglichen Ergebnisse zu erzielen. Die Frameratenkonvertierung fand in beide bereits beschriebene Richtungen, unabhängig von der Originalwiedergabegeschwindigkeit, auf 104,166667% und 96% der Ursprungsgeschwin- digkeit statt. Um die Vergleichbarkeit zwischen Verfahren zu gewährleisten, die sowohl Zeitdauer als auch Tonhöhe verändern können, und Verfahren, die lediglich die Tonhöhe beeinflussen, wurden zusätzlich die Mischungen und Stems in einem ersten Konvertierungsschritt mit veränderter Tonhöhe beschleunigt und verlangsamt. Dies geschah über die bei allen befragten Postprodukti- onsfirmen verwendete Sample-Raten-Konvertierung (SRC) innerhalb von Pro Tools. Die über SRC veränderten Audiofiles dienten nicht nur als Grundlage zur Tonhöhenveränderung, sondern auch zur Überprüfung der Synchronität bei in der Zeit und in der Tonhöhe veränderten Signalen. Nach der Geschwindigkeitsänderung mit veränderter Tonhöhe wurden die Testsignale in einem weiteren Schritt mit den verschiedenen Verfahren in der Tonhöhe korrigiert. Diese Vorgehens- weise wurde in einigen Internetforen empfohlen, um die Synchronität zum Bild sicher zu stellen. Außerdem wird bei den befragten Postproduktionsfirmen im Falle einer Tonhöhenkor- rektur auf diese Art und Weise vorgegangen. Um eine vergleichbare Aussage über die Berechnungsdauer der verschiedenen offline Algo- rithmen zu treffen, wurde ausschließlich auf einem Macbook Pro mit 2,5GHz i7 Prozessor und 8GB RAM Arbeitsspeicher gearbeitet.

48 4 Test und Vergleich verschiedener Hard- und Software

4 Test und Vergleich verschiedener Hard- und Software

Im folgenden Abschnitt werden die Funktionsweise und Klangeigenschaften verschiedener Algorithmen zur Veränderung der Dauer und Tonhöhe von Audiosignalen beschrieben und getestet. Zunächst werden Produkte behandelt, die lediglich die Tonhöhe verändern. Hierzu zählen das Dolby Model 585 und Elastique Pitch von zplane. Anschließend werden Plugins beschrieben, die sowohl die Tonhöhe als auch die Dauer von Audiosignalen verändern können.

4.1 Dolby Model 585

Das Dolby Model 585 wurde im Jahr 2003 zu einem Preis von ca. 8000EUR auf den Markt gebracht. Es ist das einzige Hardwaregerät, das bei den befragten Postproduktionsfirmen im Einsatz ist. Es wird heutzutage nicht mehr gebaut und kann nur noch von Dolby geliehen werden1.

4.1.1 Funktionsweise Die grundsätzliche Funktionsweise des Models 585 ist die in Kapitel 1.3.4 beschriebene Veränderung von Audiosignalen im Zeitbereich. Das Audiosignal wird analysiert und kleine Abschnitte werden wiederholt oder ausgelassen, um eine zeitliche Veränderung zu erreichen. Das Besondere am Model 585 ist die Art und Weise, wie die zu wiederholenden oder auszulas- senden Abschnitte ausgewählt werden. Dazu wird eine so genannte „Auditory Scene Analysis“ (ASA) durchgeführt. Hierbei wird anhand von spektralen Veränderungen unter Berücksichti- gung aller Eingangskanäle versucht, das Audiosignal in einzelne Ereignisse zu unterteilen und es gemäß dieser, mittels Wiederholungen oder Auslassungen und Überlappungen, im Zeitbe- reich zu verändern. Die Tonhöhenveränderung geschieht im Anschluss durch erneutes Abtasten des Signals. Außerdem bleiben die Phasenbeziehungen der Kanäle untereinander erhalten, so dass spätere Downmixes möglich werden[CBHQ03].

1 Quelle: Email von Dolby

49 4 Test und Vergleich verschiedener Hard- und Software

4.1.2 Installation und Einstellungen

Abb. 12 Dolby Model 585 Ein- und Ausgänge1

Das Model 585 ist ein Echtzeit Time und Pitch Shifter, arbeitet mit 48kHz Abtastrate (+/-15%) und besitzt acht BNC AES-1995 Eingänge. Da jede der acht BNC Buchsen für zwei Tonkanäle zuständig ist, liegt jeder Eingang doppelt vor. Es ist egal, welche der beiden Eingangsbuchsen mit einem Signal beschickt wird, da die jeweils andere Buchse das Signal durchschleift. Soll dies nicht geschehen, muss die frei bleibende BNC Buchse mit einem 75 Ω Widerstand terminiert werden. Gleiches gilt für die beiden „AES Ref“.-BNC Eingangsbuchsen, an welchen ein separates AES Signal, aus welchem die Wordclock ausgelesen wird, anliegen kann. Des Weiteren besitzt das Model vier Ausgänge, an denen ebenfalls BNC Buchsen mit anliegenden AES-1995 Signalen verbaut sind. Um AES Signale anzuschließen, die über ein XLR Kabel übertragen werden, ist eine Impedanz- anpassung der bei XLR Verbindungen verwendeten 110 Ω an die bei BNC Verbindungen verwendeten 75 Ω und eine Adaptierung der Stecker notwendig. Adapter inklusive Impedanz- wandler und Terminierungswiderstände lagen dem von Dolby geliehenen Gerät bei. Das Testgerät wurde im Cinetra Studio der HFF anstatt des bereits in die Nexus Kreuzschiene eingebundenen DA78 von Tascam angeschlossen. Somit konnten die Ein- und Ausgänge des Gerätes über Nexus beschaltet werden. Die Wordclock wurde aus dem an Kanal eins und zwei anliegenden AES Signal ausgelesen. Das Model 585 ist in der Lage, Audiomaterial gleichzeitig in der Länge und in der Tonhöhe zu verändern. Dazu muss das zu verändernde Programm auf den im Gerät verbauten Speicher aufgenommen und die zu wählende Geschwindigkeitsveränderung (+/-15%) eingestellt werden.

1 Quelle: Manual Dolby Model 585

50 4 Test und Vergleich verschiedener Hard- und Software

Der interne Speicher des 585 kann bei 48kHz Abtastrate vier Minuten einer sechskanaligen oder knapp drei Minuten einer achtkanaligen Mischung speichern. Damit eignet sich diese Funktion eher für die Anwendung bei Trailern und Werbung. Für eine Tonhöhenkorrektur von länger dauernden Filmmischungen ist eine Zeitveränderung außerhalb des Models 585 notwendig. Eine Möglichkeit besteht im Zuspiel und erneuter Aufnahme durch zwei unabhängige DAWs, bei der der Zuspieler mit veränderter Geschwindig- keit läuft. Eine weitere Option, die in diesem Test verwendet wurde, ist die Geschwindigkeits- veränderung durch die SRC Funktion beim Import in Pro Tools. Somit konnte mit nur einer DAW das Signal zeitverändert wiedergegeben und nach der Bearbeitung durch das Model 585 tonhöhenkorrigiert aufgenommen werden. Bei der Verwendung des Models 585 mit gleichzeitiger Bildwiedergabe müssen die 400 bis 480ms Delay, die in diesem Bereich am Gerät eingestellt werden können, beachtet und ausgeglichen werden. Außerdem ist zunächst eine der folgenden Kanalkonfigurationen und bei Bedarf die Festlegung des LFE Kanals in den Menüs „Program Config“ und „Operating Mode“ vorzunehmen.

Program Channel 1/2 Channel 3/4 Channel 5/6 Channel 7/8 Configuration 5.1 + 2 1L/1R 1C/1LFE 1Ls/1Rs 2L/2R 5.1 + 2x1 1L/1R 1C/1LFE 1Ls/1Rs 2C/3C 4 + 4 1L/1R 1C/1S 2C/2S 2L/2R 4 + 2 + 2x1 1L/1R 1C/1S 3C/4C 2L/2R 4 + 2x2 1L/1R 1C/1S 3L/3R 2L/2R 4 + 4x1 1L/1R 1C/1S 4C/5C 2C/3C 4x2 1L/1R 3L/3R 4L/4R 2L/2R 3x2 + 2x1 1L/1R 3L/3R 4C/5C 2L/2R 2x2 + 4x1 1L/1R 3C/4C 5C/6C 2L/2R 2 + 6x1 1L/1R 4C/5C 6C/7C 2C/3C 8x1 1C/2C 3C/4C 5C/6C 7C/8C 5.1 1L/1R 1C/1LFE 1Ls/1Rs None 4 + 2 1L/1R 1C/1S None 2L/2R 4 + 2x1 1L/1R 1C/1S None 2C/3C 3x2 1L/1R 3L/3R None 2L/2R 2x2 + 2x1 1L/1R 3C/4C None 2L/2R 2 + 4x1 1L/1R 4C/5C None 2C/3C 6x1 1C/2C 3C/4C 5C/6C None 4 1L/1R 1C/1S None None 2 + 2 1L/1R None None 2L/2R 2 + 2x1 1L/1R None None 2C/3C 4x1 1C/2C 3C/4C None None 7.1 1L/1R 1C/1LFE 1Ls/1Rs 1BLs/1BRs 7.1 Scrn 1L/1R 1C/1LFE 1Ls/1Rs 1BLs/1BRs

Tabelle 11 Kanalkonfiguration Dolby Model 585

51 4 Test und Vergleich verschiedener Hard- und Software

Da für die Geschwindigkeitsveränderung nun außerhalb des Models 585 gesorgt wurde, musste lediglich der zu verändernde Tonhöhenwert im „Pitch“–Menü in Prozent eingestellt werden. Die Tonhöhenveränderung findet in einem Bereich von +/-15% statt. Für die Tonhöhenveränderung gibt es zusätzlich die Einstellmöglichkeit „Sensitivity“. Diese ist in Werten zwischen „1-low“ und „5-high“ einstellbar und ist dafür verantwortlich, wie sehr weniger prominente Audioereignisse in die Bearbeitung einbezogen werden. Falls diese zu starke Beachtung erfahren, können die im Vordergrund stehenden Ereignisse falsch, oder zu stark bearbeitet werden. Der für die meisten Anwendungen empfohlene und voreingestellte Wert „5-high“ soll nur beim Auftreten von Artefakten geringer eingestellt und der geringere Wert nur für die problematische Stelle verwendet werden.

4.1.3 Klangeigenschaften Durch den achtkanaligen Aufbau des Models 585 ist es eher für die Tonhöhenkorrektur kompletter Mischungen gedacht. Um genauer herauszufinden wie gut verschiedene Audioinhal- te bearbeitet werden, wurden auch die Stems der verschiedenen Mischungen in der Tonhöhe korrigiert. Bei der Bearbeitung kompletter Mischungen ist zu sagen, dass die Tonhöhenkorrektur über große Strecken sehr gut funktioniert. Artefakte fielen meist bei Musikeinsätzen auf. Dies war sowohl bei Orchestermusik oder Rockmusik als auch bei Synthesizerflächen mit E-Gitarre als Soloinstrument der Fall. An einigen Stellen konnte durch einen geringen Sensitivitätswert eine Verringerung der Artefakte erreicht werden. Der Klang dieser Artefakte kann als „Stottern“ oder „Blubbern“ beschrieben werden. Besonders bei Orchestermusik waren die Artefakte so stark, dass man die Tonhöhenkorrektur als kaum verwendbar beschreiben muss und sie traten sowohl bei den HFF Filmen, als auch bei den verschiedenen kommerziellen Filmmischungen auf. Dieses Ergebnis bestätigte sich bei der Tonhöhenkorrektur der einzelnen Stems. Die Dia- logstems klangen nahezu vollständig sehr gut. Leichte Artefakte konnten nur im direkten Vergleich mit der Originalversion bei sehr rauschhaftem Hintergrund wie Meeresrauschen oder schwierigem Originalton festgestellt werden. Bei Einstellung eines geringeren Sensitivitätswer- tes traten diese kaum oder gar nicht mehr auf. Gleiches gilt für die Effektstems. Hier traten leichte Artefakte bei Meeresrauschen auf. Sehr transiente Inhalte wurden fast ohne Verlust wiedergegeben und der Unterschied nur im direkten Vergleich mit dem Original bemerkt. Bei den Musikstems waren nicht immer befriedigende Ergebnisse zu erzielen, besonders bei Orchestermusik mit verschiedenen Sensitivitätseinstellungen. Zwar traten weniger Artefakte als bei der Veränderung der kompletten Mischung auf, dennoch waren diese deutlich wahrnehmbar. Dies mag bei der Wiedergabe auf einer Heimanlage unproblematisch sein, da es aber durchaus

52 4 Test und Vergleich verschiedener Hard- und Software vorkommt, dass die Kinoversion eines Films eine andere Framerate als die Framerate beim Dreh des Film hat (Herstellung eines DCPs mit 24fps eines zunächst fürs Fernsehen mit 25fps hergestellten Films) ist die Tonhöhenkorrektur solcher Stellen mit dem Model 585 in Frage zu stellen. Abschließend ist zu sagen, dass der Algorithmus des Models 585 für Sprache sehr gute Resultate lieferte, was durch die Verwendung des SOLA zu erwarten war. Die Hoffnung, dass dieses Gerät eine Tonhöhenkorrektur einer kompletten Mischung ohne sehr konzentriertes Abhören durch einen Mischtonmeister leistet, wurde nicht erfüllt. Bei der Bearbeitung der Stems traten, obwohl der gleiche Algorithmus verwendet wurde, weniger Artefakte als bei der Bearbeitung kompletter Mischungen auf. Dies ist wahrscheinlich der weniger komplexen Signalzusammensetzung geschuldet. Die Tonhöhenveränderung einzelner Stems ist zu empfehlen, da sich das durch Musik hervorge- rufene „Stottern“ und „Blubbern“ auch auf die Sprache auswirkte. Besonders bei rauschhaften Signalen und Musik muss mit Artefakten gerechnet werden. Da das Model 585 acht Kanäle bearbeiten kann, ist bei der Tonhöhenkorrektur eines kompletten Films in Stems mit der dreifachen Filmdauer und zusätzlicher Zeit zur Einstellung des Sensitivitätswertes für bestimm- te Stellen inklusive erneuter Aufnahme zu rechnen.

4.2 Elastique Pitch

Elastique Pitch ist ein Echtzeit Pitch Shift Plugin im RTAS, VST und AU Format der Berliner Firma zplane. Es kostet 149EUR und kann sowohl auf MAC als auch auf Windows verwendet werden. Das Plugin verwendet die „Elastique Pro Pitch Shift Engine“ von zplane. Weitere Versionen des Elastique Algorithmus sind „Elastique efficient“ und „Soloist“. Der Elastique Algorithmus kommt unter anderem in Ableton Live, Cubase und seit Version 5.5 auch in Nuendo zum Einsatz[WWW20]. Die Arbeitsweise des Pitch Shift Plugins ist eine in verschiedenen Frequenzbändern arbeitende Version der in Kapitel 1.3.4 beschriebenen Bearbeitung von Audiosignalen im Zeitbe- reich[WWW18].

4.2.1 Bedienung und Einstellungen Elastique bearbeitet in Echtzeit bis zu acht Kanäle unter Beibehaltung der Phasenlage zueinan- der. Es unterstützt Abtastraten von 44.1kHz bis 192kHz und erlaubt eine gekoppelte und unabhängige Veränderung der Tonhöhe (Pitch) und der Formanten (des Timbres) von +/-12 Halbtönen. Die Latenz bei 48kHz beträgt laut Herstellerangaben 150ms, die Anzeige in Pro Tools gab eine Latenzzeit von 11264 Samples, was etwa 235ms entspricht, an.

53 4 Test und Vergleich verschiedener Hard- und Software

Um phasengekoppelt sechs, oder bei machen Stems sieben oder acht Spuren in der Tonhöhe zu verändern, ist in Pro Tools (HD oder ab Complete Production Toolkit 2) eine Mehrkanalspur erforderlich. Die Eingabe des Wertes zur Tonhöhenveränderung erfolgt entweder in Prozent oder in Halbtonschritten. Für die üblichen Postproduktionskonvertierungen sind alle wichtigen Voreinstellungen vertreten.

Abb. 13 Screenshot Elastique

Da dieses Plugin lediglich die Tonhöhe verändern kann, dienten als Ausgangsmaterial die bereits über SRC in Pro Tools verlangsamten oder beschleunigten Mischungen und Stems. Durch die SRC werden die Formanten in gleicher Weise wie die Grundtonhöhe des Signals verschoben, deshalb wurden diese (Timbre) in Elastique mit der Tonhöhenveränderung (Pitch) gekoppelt (Link).

4.2.2 Klangeigenschaften Zunächst ist festzustellen, dass Elastique1 in den meisten Fällen dem Signal keine sofort hörbaren Artefakte hinzufügt. Erst im Vergleich mit der Originalversion stellte sich heraus, dass

1 Im Gegensatz zum Model 585, das über lange Strecken ohne Artefakte arbeitet, dann an manchen Stellen dem Signal aber sehr deutliche Artefakte hinzufügt.

54 4 Test und Vergleich verschiedener Hard- und Software die Transienten im tonhöhenkorrigierten Audiofile weniger ausgeprägt waren. Die Mischungen waren in der Tiefenstaffelungsebene etwas nach hinten gerückt. Dieses Ergebnis erhielt man sowohl in der kompletten Mischung, als auch bei der Tonhöhenkorrektur der Stems. Bei Dialog fiel auf, dass sowohl eine gewisse Rauhigkeit als auch eine Stimme, die mit zwei Tonhöhen spricht, auftreten konnte. Dies ließ sich auch durch das einzelne Bearbeiten des Dialogstems nicht entscheidend reduzieren. Durch den Verlust der Transienten war die Sprache weniger deutlich artikuliert. Im Beispiel der Mischung von „Kriegerin“ war der Sprachklang nach der Tonhöhenveränderung nicht zufrieden stellend. Bei den Effektstems fiel der Verlust von Transienten besonders bei Foleys auf. Im Beispiel des Kriegsfilms „B-Day“ wurden einige Schüsse „verschluckt“ und waren nach der Tonhöhenkor- rektur nur noch sehr unsauber vorhanden. Die Mischung verlor an Präzision und klang etwas „matschig“. Bei Musik traten bei diesem Algorithmus Artefakte, am stärksten im Nachhall der Orchestermu- sik, auf. Dort wurde ein Stottern oder ein zusätzliches transientes Schallereignis dem Signal hinzugefügt. Außerdem verlor das Schlagzeug in der Rockmusik bei „Roadcrew“ an Attack und Punch. Zusammenfassend ist zu sagen, dass den verschiedenen Mischungen durch Elastique, außer bei einigen Dialogstellen, keine überdeutlichen Artefakte hinzugefügt wurden. Vielmehr veränderte sich das komplette Klangbild. Durch den Verlust von Transienten ging die Klarheit und Präzision der Soundtracks etwas verloren. Bei einer Verwendung für Sounddesign lassen sich durch die Möglichkeit, Tonhöhe und Formanten getrennt und automatisiert zu bearbeiten, mit Elastique sicherlich interessante Effekte erzielen.

4.3 MPEX

Das von Stephan M. Bernsee entwickelte Verfahren „Minimum Perceived Loss Time Compres- sion/Expansion“ kam 1996 auf den Markt, ist in unterschiedlichen Versionen erhältlich und kommt in verschiedenen DAWs zum Einsatz. Unter anderem findet es in Nuendo und Pyramix (Pyramix MPEX Plugin) Verwendung. Außerdem sind mehrere von Stephan M. Bernsee entwickelte Algorithmen (MPEX 2, MPEX 3, ClearScale, DIRAC, qDIRAC) in der Software Timfactory 2 für MAC implementiert. Diese durch die Firma Prosoniq vertriebene Software kostet 399EUR und wurde zum Test des aktuellen Algorithmus MPEX 3 verwendet. Die Funktionsweise von MPEX basiert auf einer Mustererkennung durch ein künstliches neuronales Netz (ANN). Bei der Bearbeitung werden Muster in einem Signalbereich erkannt und es wird versucht den weiteren Signalverlauf zu bestimmen. Mit diesen Informationen

55 4 Test und Vergleich verschiedener Hard- und Software können vorhersagbare Signalanteile fortgesetzt und stochastische Signalanteile von der Bearbeitung ausgeschlossen werden1.

4.3.1 Bedienung und Einstellungen Die Timefactory 2 von Prosoniq ist eine für sich abgeschlosse Software und nicht in eine DAW integrierbar. Auch hier ist es möglich, mehrere Kanäle phasengekoppelt zu bearbeiten. Dazu muss entweder ein Mehrkanalfile importiert oder ein Mehrkanalfile aus verschiedenen Monofiles innerhalb der Timefactory erstellt werden. Dies ist auch mit Monofiles unterschiedli- cher Formate, Abtastrate und Dauern möglich. Falls die Files eine unterschiedliche Dauer haben, wird am Ende der kürzeren Datei Stille eingefügt, bis die Dauer des längsten Files erreicht ist. Bei verschiedenen Abtastraten werden alle Files in die Abtastraten der zuerst ausgewählten Datei konvertiert. Ein Nachteil bei der Bearbeitung von Mehrkanaldateien besteht bei deren Abhörmöglichkeit. Die verschiedenen Spuren werden abwechselnd auf die Kanäle eins und zwei geroutet, so dass ein wirkliches Abhören (wenn auch nur eines einfach generierten 2.0 Downmixes) nicht möglich ist.

Abb. 14 Sreenshot TimeFactory 2

Nach der Auswahl des MPEX 3 Algorithmus stehen verschiedene Voreinstellungen für spezifische Audioinhalte zur Verfügung. Diese sind bei MPEX 3: Preview, Fast, Voice fast, Voice best, Poly fast, Poly good, Poly best und Transscribe.

1 Quelle: Email von Stephan M. Bernsee

56 4 Test und Vergleich verschiedener Hard- und Software

Die Einstellungen zur Tonhöhen- und/oder Zeitveränderung werden im „Time/Pitch“–Bereich vorgenommen. Hier können Längenangaben in Prozent, Tonhöhen in Halbtönen und Cent, und Formanttonhöhe in Cent eingestellt werden. „Transpose“ ändert Tonhöhe und Dauer des Audiofiles in gleichem Maße, „Natural Pitch“ behält die Formanten eines Klanges bei, so dass eine natürlich klingende Tonhöhenveränderung möglich wird. Die so genannten „Expert Settings“ beinhalten die für die Anwendung bei der Frameratenkon- vertierung sehr nützliche Einstellmöglichkeit einer Eingangs- und Ausgangsframerate. Gemäß der Eingaben in diesen Feldern ändern sich die Filedauer und bei angewählter Transposition auch die Tonhöhe.

4.3.2 Klangeigenschaften Die Frameratenkonvertierung von kompletten Mischungen war mit verschiedenen Einstellungen nur mit deutlichen Klangeinbußen möglich. Bei Beschleunigung und Verlangsamung der Mischungen unter Beibehaltung der Tonhöhe waren die Artefakte stärker, als bei der Tonhö- henkorrektur einer vorher über SRC in der Zeit veränderten Mischung. Die Artefakte sind als Rauhigkeit oder Stimmdopplung zu beschreiben. An manchen Stellen kam der Eindruck von hinzugefügten „Whooshes“ oder mitschwingenden Tönen auf. Für die Bearbeitung der Dialogstems traten mit der Einstellung „poly best“ weiterhin mit- schwingende Töne und „Whoohes“ auf, weshalb „Voice best“ für die Dialogstems eingestellt wurde. Damit ließen sich sehr gute Ergebnisse erzielen. Es traten keine deutlichen Artefakte auf, allerdings war der Sprachklang an einigen Stellen leicht rauer und hatte weniger transiente Signalinformationen. Damit rückte der Dialog in der Tiefenstaffelungsebene etwas nach hinten. Die gleichen Aussagen lassen sich sowohl über die Effekt- als auch über die Musikstems treffen. In beiden Fällen wurde mit der Einstellen „poly best“ die besten Ergebnisse erzielt. Bei Musik fiel das „Nach-Hinten-Rücken“ in der Tiefenstaffelungsebene etwas deutlicher auf als bei Effekten. Der Kriegsfilm „B-Day“ konnte mit MPEX 3 nicht erfolgreich in der Tonhöhe verändert werden. Hier waren der Verlust von Transienten und „blubbernde“ Schüsse wahr- nehmbar. Insgesamt betrachtet lassen sich mit MPEX 3 Frameratenkonvertierungen ohne deutliche Artefakte vornehmen, so lange die einzelnen Stems mit verschiedenen Voreinstellungen bearbeitet werden. Des Weiteren ist festzustellen, dass die Voreinstellung „Voice best“ eine wesentlich kürzere Bearbeitungszeit erfordert als „Poly best“. So benötigte die Tonhöhenverän- derung des 04:50min dauernden Ausschnittes aus „Roadcrew“ für den Dialogstem ca. 30s, für den Effektstem 7min. Mit MPEX ließen sich sehr gute Ergebnisse sowohl bei der Tonhöhenveränderung als auch bei der Zeitveränderung unter Beibehaltung der Tonhöhe einzelner Stems erzielen. Im Allgemeinen rückten die verschiedenen Mischungen in der Tiefenstaffelungsebene leicht nach hinten. Dies

57 4 Test und Vergleich verschiedener Hard- und Software wurde allerdings nur im direkten Vergleich mit den Originaldateien bemerkt. Außerdem war auffällig, dass (selbst wenn lediglich eine Tonhöhenveränderung vorgenommen wurde) innerhalb des Audiofiles das gesamte Programm bis zu 15ms nach hinten verschoben war, so dass die veränderten Dateien noch einmal von Hand angelegt werden mussten und in Pro Tools nicht einfach übereinander gelegt werden konnten.

4.4 DIRAC

Der DIRAC Algorithmus ist ebenfalls in die Timefactory 2 implementiert. Außerdem findet er in Wavelab Verwendung. DIRAC ist der neueste entwickelte Algorithmus von Stephan M. Bernsee und basiert auf den Prinzipien der in Kapitel 1.3.3 beschriebenen Wavelet Transforma- tion.

4.4.1 Bedienung und Einstellungen Durch die Verwendung der Wavelet Transformation ist es bei DIRAC möglich, die Qualität in Bezug auf die Darstellung von Zeit- oder Frequenzinhalten zu skalieren. Dies geschieht mittels des „Lambda“ Wertes. Die Einstellmöglichkeiten lauten: Preview, Voice (l=1), Duet (l=2), Standard (l=3), Smooth (l=4) und Classics (l=5). Geringe Lambdawerte sorgen für eine sehr gute Zeitauflösung, wogegen hohe Lambdawerte eine sehr gute Frequenzauflösung ermöglichen. Die „Standard“ Einstellung stellt den Kompro- miss zwischen Zeit- und Frequenzgewichtung dar. Außerdem kann die Qualität der Berechnung eingestellt werden. Da es sich bei den Testsignalen um Endprodukte der Filmtonherstellung handelt, wurde aus den Möglichkeiten „Preview“, „Good“, „Better“ und „Best“ stets das zeitaufwändigste „Best“ gewählt.

4.4.2 Klangeigenschaften Auch mit DIRAC gelang weder die Zeitbearbeitung unter Beibehaltung der Tonhöhe, noch die reine Tonhöhenveränderung einer durch SRC in eine andere Framerate konvertierten gesamten Mischung. Bei hohen Lambdawerten waren transiente Signalanteile verschmiert und der Dialog klang phasig, bei geringen Lambdawerten trat ein Flattern in flächigeren Abschnitten auf. Mit der Einstellung des mittleren Lambdawertes „drei“ war für komplette Mischungen das beste Ergebnis zu erzielen. Allerdings entstand hierbei der Eindruck, dass die komplette Mischung leiser wird und nach hinten rückt. Außerdem veränderte sich der Stimmklang, welcher mit hinzugefügter Rauhigkeit und phasigem Klang beschrieben werden kann. Bei den Dialogstems wurden die dafür vorgesehenen Lambdawerte eins und zwei getestet. Dabei konnte festgestellt werden, dass stellenweise ein Wert von eins oder ein Lambdawert von zwei zu besseren Ergebnissen führte. Die Artefakte bei zu geringem Lambda lassen sich als

58 4 Test und Vergleich verschiedener Hard- und Software

Echos oder Stottern beschreiben. Allerdings wird die Darstellung von Transienten bei höheren Lambdawerten schlechter, so dass für Dialog grundsätzlich die Einstellung l=1 besser funktio- nierte. Sobald Stottern oder Echos (in langen „S-Lauten“) auftraten, konnten diese mit l=2 beseitig werden. Grundsätzlich klang die Stimme nach der Bearbeitung mit DIRAC etwas rauer. Bei den Effektstems wurden die besten Ergebnisse mit einem Lambdawert von l=3 erzielt. Diese Einstellung funktionierte sehr gut für transiente Foleys aber auch für flächige Atmosphä- ren wie Meeresrauschen oder Synthesizer Flächen. Lediglich für den Kriegsfilm „B-Day“ ließ sich keine geeignete Einstellung finden. Entweder wurden den Schüssen eine Art „Blubbern“ hinzugefügt oder während Meeresrauschen und Windböen wurde das Signal rau und granular. Für Musik war ebenfalls die Einstellung l=3 mit den besten Ergebnissen verbunden. Tonale und transiente Signalanteile wurden auf diese Weise gut abgebildet. Hohe Lambdawerte resultierten in einem starken Verlust von Transienten. Insgesamt ließen sich mit dem DIRAC Algorithmus sehr gute Ergebnisse bei Zeitveränderung unter Beibehaltung der Tonhöhe oder alleiniger Veränderung der Tonhöhe erzielen. Dies war allerdings nur bei Bearbeitung der einzelnen Stems mit verschiedenen Einstellungen möglich. Im direkten Vergleich mit den Originalfiles fiel auf, dass durch die Bearbeitung die Mischungen in der Tiefenstaffelungsebene etwas weiter nach hinten rückten und rauer wirkten. Zur Bearbeitungszeit ist zu sagen, dass mit steigendem Lambdawert die Berechnungszeit zunimmt. Bei einem Wert von l=3 wird ca. die Hälfte der Filedauer für die Berechnung benötigt, bei einem Wert von l=5 ist mit der doppelten Filedauer zu rechnen. Wie bei MPEX waren die Inhalte bei gleicher Filedauer innerhalb der Datei nach vorne oder hinten verschoben, so dass wieder ein Anlegen von Hand notwendig wurde.

4.5 Radius

Radius ist ein Algorithmus zur Zeit- und Tonhöhenveränderung von Audiosignalen der Firma Izotope. Er wird unter anderem im Restaurations- Bundle RX2 von Izotope, als Plugin für Logic Pro und Soundtrack Pro, in Cakewalks SONAR 6, Pro Tools Elastic Audio und im X-Form Plugin für Pro Tools verwendet. Die Funktionsweise basiert auf einer weiter entwickelten Form des Phasen- Vocoders[WWW23]. Für den Test von Radius wurde das 439EUR kostende X-Form Plugin für Pro Tools benutzt. Hier sind einige Einstellungen, die beispielsweise im RX Bundle möglich sind, nicht vorhanden. Dafür können im Pro Tools Audio Suite Plugin bis zu 48 Spuren phasenkohärent bearbeitet werden, während RX2 nur Stereodateien bearbeiten kann. Radius erlaubt Zeitveränderungen im Bereich zwischen 12,5% und 800% der ursprünglichen Dauer und Tonhöhenveränderungen zwischen +/-36 Halbtönen. Abtastraten werden bis zu 192kHz unterstützt.

59 4 Test und Vergleich verschiedener Hard- und Software

4.5.1 Bedienung und Einstellungen XForm ist in vier Bereiche eingeteilt: Audio, Time, Transient und Pitch. Oberhalb der Plugin Oberfläche muss zur phasenkohärenten Bearbeitung mehrerer Spuren der „multi-input mode“ ausgewählt sein.

Abb. 15 Screenshot X-Form

Im Audio Bereich kann zwischen drei verfügbaren Varianten des Algorithmus gewählt werden. „Polyphonic“ ist für komplexe Klangzusammensetzungen und nicht harmonische Inhalte wie Schlagzeug, „Monophonic“ für Stimme oder einstimmige Instrumente vorgesehen1. Außerdem kann das Signal in der Lautstärke um bis zu 6dB herabgesetzt werden, um Übersteuerungen zu vermeiden. Wie der Name sagt, werden im Bereich Time neben der Zeitdarstellung in der gewünschten Einheit (Bars/Beats, Min:Sec, Time Code, Feet+Frames, Samples) die Einstellungen für eine

1 Die dritte Einstellung „Poly“ ist aufgrund der reduzierten Berechnungsqualität für ein schnelles Vorhören gedacht.

60 4 Test und Vergleich verschiedener Hard- und Software

Bearbeitung im Zeitbereich vorgenommen. Im Shift Fenster wird die gewünschte Dauer der Audiodatei in Prozent eingestellt. Es werden lediglich zwei Dezimalstellen angezeigt, allerdings können bis zu zehn Dezimalstellen berücksichtigt werden. Die Berechnung richtet sich nach der gesamten eingegebenen Prozentzahl. Des Weiteren wird der zu bearbeitende Zeitbereich grob über die 2x, 4x, und 8x Buttons eingestellt. Im Falle einer Frameratenkonvertierung also 2x. Im Bereich Transient können für den Polyphonic und Monophonic Modus jeweils verschiedene Parameter eingestellt werden. Für Polyphonic legt Sensitivity fest, wie Radius transiente Signalanteile analysiert und wie sehr diese in die Berechnung einbezogen werden. Transient Sensitivity ist in einem Bereich von 0 bis 10 einstellbar. Beim Öffnen des Plugins ist ein Wert von 1,5 voreingestellt, obwohl Izotope einen Ausgangswert von 5 empfiehlt[WWW23]. Falls der Monophonic Modus gewählt wurde, ist die Fenstergröße in einem Bereich von 10ms bis 100ms einstellbar. Große Werte werden für tieffrequente, transientenarme Klänge und kleine Werte für perkussive, tonale Klänge empfohlen. Die voreingestellten 25ms sollen laut Izotope für die meisten Signale die besten Ergebnisse erzielen. Im Pitch Segment des X-Form Plugins wird die gewünschte Tonhöhe in Halbtönen und Cent oder Prozent eingegeben. Außerdem können durch Aktivierung der Formanteinstellungen diese unabhängig von der Tonhöhe eingestellt werden. Die Unterschiede in den Einstellungen zwischen RX und X-Form sind unter anderem die Einstellung der „Pitch Coherence“ und „Phase Coherence“. Diese sorgen für die Erhaltung der ursprünglichen Obertonstruktur und die Beibehaltung der Phasenlage bei Mehrkanalaudiofiles1. Außerdem können bei der Formantbearbeitung die Bearbeitungsstärke (Strength) und die Art und Weise, wie Formanten aus dem Gesamtsignal herausgetrennt werden (Width) eingestellt werden. Alle eben genannten Einstellungen sind nur im RX Bundle und nicht in X-Form enthalten[WWW23].

4.5.2 Klangeigenschaften Eine komplette Mischung mit X-Form erfolgreich zu bearbeiten, gelang leider nicht. Bei Verwendung der Polyphonic Einstellung und verschiedenen Sensitivitätswerten war der Sprachklang phasig und ein Verlust von Transienten zu bemerken. Mit größeren Sensitivitäts- einstellungen wurde dieser zwar geringer, konnte aber nicht vollständig behoben werden. Bei der Einstellung Monophonic war besonders bei Musikeinsätzen ein Blubbern und Stottern wahrzunehmen. Die Synchronität bei einer Zeitbearbeitung unter Beibehaltung der Tonhöhe war sehr gut.

1 Hohe Werte sorgen für eine sehr gute Phasenkohärenz, bei gleichzeitig hinzugefügter Rauheit.

61 4 Test und Vergleich verschiedener Hard- und Software

Bei den Dialogstems ergaben sich klanglich unterschiedliche Ergebnisse. Unter Verwendung der Polyphonic Einstellung war der Dialog phasig, weshalb grundsätzlich mit dem für Stimme vorgesehenen Monophonic Modus gearbeitet wurde. Im Falle des im Studio aufgenommenen Sprechers aus dem Beispiel „WSP“ ließen sich an einigen Stellen Artefakte, die als Blubbern beschrieben werden können, mit einer eingestellten Fenstergröße von 50ms für den kompletten Stem nicht vermeiden. Wenn für die gleiche Stelle die Fenstergröße auf 25ms herabgesetzt wurde, traten die Artefakte nicht mehr auf. Es stellte sich heraus, dass eine Fenstergröße von 50ms über weite Strecken die besten Ergebnisse lieferte. Für alle anderen Dialogstems waren mit dieser Einstellung sehr gute Ergebnisse, mit kaum wahrnehmbarem Verlust von Transienten beim direkten Vergleich mit dem Ausgangsma- terial, zu erzielen. Bei den Effektstems wurden die ersten Versuche mit der Polyphonic Einstellung durchgeführt. Wieder bei „WSP“ traten starke, das Stereobild betreffende Artefakte auf. Bei einem Vogelflat- tern wurde das Signal mit verschiedenen Sensitivitätswerten phasig und die Richtungszuord- nung verschwamm. Erst mit dem Monophonic Modus wurde das Vogelflattern ohne Artefakte bearbeitet, dafür traten aber nun an anderen Stellen Stottern und Blubbern auf. Auch bei den anderen Effektstems musste an diversen Stellen mit dem jeweils anderen Modus oder anderen Fenster- oder Sensitivitätseinstellungen gearbeitet werden, um dann aber sehr gute Ergebnisse zu erzielen. Dies ist bei einer Berechnungsdauer des Polyphonic Modus von ungefähr vierfacher Filedauer insgesamt sehr zeitaufwändig. Für Musikstems waren nicht immer zufrieden stellende Ergebnisse zu erzielen. Bei Orchester- musik funktionierte die Tonhöhenveränderung mit dem Polyphonic Modus, bei gleicher Sensitivitätseinstellung 10, nach oben besser als nach unten. Bei Rockmusik gingen mit der gleichen Einstellung Bassinformationen verloren. Setzte man die Sensitivität herab, wurde dem Signal Blubbern hinzugefügt. Auch die Synthesizer- und sphärischen Gitarrenklänge aus Kriegerin konnten nicht ohne Artefakte bearbeitet werden. Insgesamt ist zu sagen, dass die Dialogbearbeitung mit X-Form als sehr gut bezeichnet werden kann. Allerdings muss hierbei von Stelle zu Stelle mit einer anderen Fenstergröße gearbeitet werden, was einen sehr hohen Zeitaufwand bedeutet. Wenn ein Abschnitt ohne das Hinzufügen von Artefakten konvertiert wurde, ist er klanglich kaum vom Original zu unterscheiden. Das Gleiche gilt für Musik und Effektstems. Da hier eventuell sogar zwischen den zwei Hauptmodi gewechselt werden muss und die Polyphonic Einstellung die vierfache Filedauer an Berechnungszeit benötigt, gestaltet sich die Bearbeitung eines kompletten Films als sehr zeitaufwändig. Um Zeit zu sparen empfiehlt, es sich in jedem Fall, den Musikstem von Cue zu Cue zu bearbeiten.

62 4 Test und Vergleich verschiedener Hard- und Software

4.6 Pitch 'n Time

Pitch ’n Time des neuseeländischen Herstellers Serato ist ein Pro Tools Audio Suite, Logic und Fairlight Plugin, das seit 1998 auf dem Markt ist. Es kann in den drei Versionen Pitch ’n Time Pro für ca. 650EUR, Pitch ’n Time LE mit eingeschränktem Funktionsumfang und Pitch ’n Time FE für Fairlightsysteme für jeweils 325EUR erworben werden. Da in der LE Version von Pitch ’n Time die für die Frameratenkonvertierung wichtigen verschiedenen Algorithmus- Voreinstellungen fehlen, wurde Pitch ’n Time Pro zum Test verwendet. Bei dieser Version wird bisher Pro Tools 10 nicht offiziell unterstützt, allerdings traten bei der Verwendung des Plugins in Pro Tools 10 keine Probleme auf. Pitch ’n Time Pro kann die Geschwindigkeit von Audiofiles von 50% bis zu 200% der ursprünglichen Dauer verändern. Tonhöhenänderungen sind in einem Bereich von +/-36 Halbtönen möglich. Außerdem können bis zu 48 Spuren unter Berücksichtigung der Phasenbe- ziehungen und einer Abtastrate bis zu 192kHz bearbeitet werden. Das Prinzip des in Pitch ’n Time verwendeten Algorithmus ist eine patentierte, weiterentwickel- te Variante des Phasen-Vocoders[WWW18]. Außerdem wird mittels einer Auditory Scene Analysis ein Model der menschlichen Wahrnehmung bei der Analyse des Audiomaterials verwendet, um besser festzulegen, welche Signalteile bearbeitet oder nicht verändert werden sollen[WWW21].

63 4 Test und Vergleich verschiedener Hard- und Software

4.6.1 Bedienung und Einstellungen Pitch ’n Time Pro ist ein Pro Tools Audio Suite Plugin und arbeitet offline. Oberhalb des eigentlichen Pluginfensters ist zur Berücksichtigung der Phasenlage bei der Bearbeitung mehrerer Kanäle der „Multi-channel mode“ auszuwählen. Die Benutzeroberfläche ist in vier Bereiche eingeteilt.

Abb. 16 Screenshot Pitch ’n Time Pro

In der obersten Fläche werden die so genannten „generellen“ Einstellungen vorgenommen, wozu vor allem die Wahl des Algorithmus gehört. Es stehen drei Auswahlmöglichkeiten zur Verfügung. Diese sind: • A für tonale Klänge • B für transiente Klänge • V für Stimme

64 4 Test und Vergleich verschiedener Hard- und Software

Des Weiteren muss ähnlich wie bei X-Form der Bereich (Range) in dem das Audiomaterial bearbeitet wird zwischen 2x, 4x oder 8x gewählt werden. Die Einstellungen „scale“ und „grid“ beziehen sich auf die grafische Darstellung bei Zeit- und Tonhöhenverläufen, die mit Pitch‚’n Time realisiert werden können. Um einen Wert für die Zeitveränderung einzugeben, gibt es im „Time“ Bereich drei Möglich- keiten: • Die Eingabe eines festen Faktors als Verhältnis, BPM oder in Prozent • Die Eingabe eines Zeitverlaufs um beispielsweise ein Ritardando zu erzeugen • Ähnlich der Arbeitsweise von Elastic Audio in Pro Tools können hier Signalabschnitte anhand der Wellenform innerhalb des Audiofiles früher oder später platziert werden. Außerdem ist es möglich, sich eine „Guide“ Wellenform als Referenz für das zu verän- dernde Signal anzeigen zu lassen.

Für die Bearbeitung von Filmmischungen ist lediglich die Eingabe eines konstanten Faktors notwendig. Im „Length“ Bereich kann zwischen einer Anzeige von Samples, Hours:Min:Secs, Time code und Feet + Frames gewählt werden. Es wird jeweils Start, Ende und Dauer des Eingangs- und Ausgangssignal angezeigt. Um ein Audiofile einem anderen Ausschnitt anzupassen, kann mit der Funktion „Capture“ die Länge des aktuell ausgewählten Bereiches gespeichert und auf ein zu bearbeitendes Audiofile angewendet werden. Für die Bearbeitung der Tonhöhe gibt es, ähnlich wie bei der Zeitbearbeitung, drei Auswahl- möglichkeiten: • Die Eingabe eines festen Wertes über Quell- und Zieltonart, Halbtöne und Cent und einer Prozentzahl • Die Einstellung eines Tonhöhenverlaufs anhand eines Graphen • Im so genannten „Varispeed Mode“ werden die bereits eingestellten Zeitveränderungen durch veränderte Abspielgeschwindigkeit mit veränderter Tonhöhe umgesetzt.

4.6.2 Klangeigenschaften Mit Pitch ’n Time Pro war weder bei einer Zeitveränderung unter Beibehaltung der Originalton- höhe noch bei der Tonhöhenkorrektur einer bereits beschleunigten oder verlangsamten kompletten Mischung ein zufrieden stellendes Ergebnis zu erzielen. Bei den Algorithmen A und B klangen die Dialoge phasig und verschwommen, mit dem Algorithmus V waren Dialoge in Ordnung, aber Musik klang wie mit einem Modulationsrad an einem Synthesizer in der Tonhöhe verändert. Bei der Bearbeitung der 60 Minuten dauernden zusammen geschnittenen verschiedenen kommerziellen Mischungen traten die gleichen Artefakte auf.

65 4 Test und Vergleich verschiedener Hard- und Software

Allerdings konnte, egal ob bei Zeit- und/oder Tonhöhenveränderung, die Synchronität zum Bild beibehalten werden. Die mit dem V Algorithmus bearbeiteten Dialogstems blieben nahezu frei von Artefakten. Originalton von guter Qualität ließ sich erfolgreich bearbeiten. Bei rauschhaftem Material trat eine Art Stottern auf. Eine Veränderung der Tiefenstaffelungsebene war auch im direkten Vergleich mit dem Original nicht wahrzunehmen. Bei den Effektstems wurden schnell die Algorithmen A und B favorisiert. Bei Algorithmus A ging die Ausprägung von Transienten, besonders bei Foleys, leicht und nur im direkten Vergleich bemerkbar zurück und einigen Atmosphären wurde eine phasige Komponente hinzugefügt. Bei B wurden die Transienten besser dargestellt. Dafür klangen nun einige Atmosphären so phasig, dass sie als nicht verwendbar bezeichnet werden müssen. Für die Bearbeitung von Musik funktionierte Algorithmus A am besten. Hierbei war ein leichter Verlust von Transienten und eine damit verbundene etwas leiser wirkende Mischung nur im direkten Vergleich mit dem Originalmaterial zu bemerken. Hallfahnen wurden ohne Stottern oder Blubbern dargestellt. Bemerkenswert war außerdem die sehr schnelle Bearbeitungszeit. Für ein sechskanaliges File von 60 Minuten Dauer wurden lediglich 6:40min benötigt. Abschließend ist festzustellen, dass mit Pitch ’n Time brauchbare Zeit- und Tonhöhenbearbei- tungen bei der Frameratenkonvertierung zu erreichen sind. Allerdings hat das Plugin mit rauschhaften Signalanteilen Probleme. Diese traten trotz unterschiedlicher Voreinstellungen sowohl bei rauschhaftem Dialog als auch bei Atmosphären auf. Falls eine Tonhöhenkorrektur mit Pitch ’n Time im Laufe der Erstellung verschiedener Ausspielungen vorgesehen ist, scheint es ratsam, einen eigenen Atmosphärenstem zu erstellen und diesen gar nicht oder nur an relevanten Stellen in der Tonhöhe zu korrigieren.

66 4 Test und Vergleich verschiedener Hard- und Software

4.7 Vergleich der verschiedenen Algorithmen

Nach der sehr genauen Betrachtung der einzelnen Algorithmen und detailliertem Vergleich der bearbeiteten Stems mit den Originalstems ist zunächst zu bemerken, dass ein Großteil der festgestellten Artefakte bei gleichzeitigem Abhören aller Stems auf Grund von Verdeckung nicht mehr oder kaum wahrgenommen wird. Außerdem können klangliche Veränderungen oftmals nur im direkten Vergleich mit der Originalmischung festgestellt werden. Dennoch ist eine größtmögliche klangliche Ähnlichkeit zum aufwändig erstellten Soundtrack in der Originalgeschwindigkeit wünschenswert. Diese spielt eine größere Rolle, wenn (im Gegensatz zu internationalen Fassungen amerikanischer Produktionen) am Produktionsprozess stark beteiligte Gewerke wie Regie, Schnitt und Schauspieler, die in der Geschwindigkeit veränderte Version des Films zu sehen und zu hören bekommen. Obwohl durch die Bearbeitung in Stems die schwerwiegendsten Artefakte vermieden werden können, verändern einige Algorithmen den Gesamtklang einer Mischung stärker wahrnehmbar als andere. Manche Verfahren erfordern einen für die praktische Anwendung unverhältnismäßig hohen Zeitaufwand, wobei die dann erzielten Ergebnisse zum Teil hervorragende Klangeigen- schaften aufweisen. In der folgenden Tabelle sind einige Merkmale der getesteten Algorithmen gegenübergestellt.

67 4 Test und Vergleich verschiedener Hard- und Software nTime nTime nTime nTime ja ja ja ’ ’ ’ ’ nein nein 7min RTAS, Fairlight Time Pro Time Passagen rauschhaften Pitch Pitch Pitch Pitch Pitch Pitch Phasen-Vocoder Phasing, Stottern Phasing, in 650EUR für 650EUR ’n Pitch ja ja ja ja nein Logic XForm Radius Radius Radius Radius Bundle 240min Phasing 439EUR für 439EUR izotope RX2 RTAS (XForm), RTAS Phasen-Vocoder ja ja ja ja ja 28min DIRAC DIRAC DIRAC DIRAC Präsenz Wavelab Wavelet- 399EUR in 399EUR Rauhigkeit, Rauhigkeit, Verlust von Verlust Timefactory2, Timefactory 2 Transformation ja ja ja ja ja ANN 85min MPEX MPEX MPEX MPEX 399EUR in 399EUR nach hinten Timefactory2, Timefactory 2 Nuendo, Pyramix Nuendo, Klangbild rückt in rückt Klangbild Tiefenstaffelungsebene Tiefenstaffelungsebene ja ja nein nein nein OLA echtzeit 149EUR Rauhigkeit nach hinten, Elastique Pitch Elastique Pitch Elastique Elastique Pitch Elastique Pitch Elastique RTAS, RTAS, VST,AU Klangbild rückt in rückt Klangbild Tiefenstaffelungsebene Tiefenstaffelungsebene ja ja ja ca. ca. nein OLA mehr gebaut bedingt echtzeit Stottern, 8000EUR vor allem Blubbern, bei bei Musik Hardware wird wird nicht Model585 Model585 Model585 Model585

- -

(60min (60min6 6 r Frameraten r Frameraten r r r r r Frameraten r Frameraten r r r r ü ü ü ü ü ü ü ü f f f f f f f f henbearbeitung henbearbeitung henbearbeitung henbearbeitung hrung hrung hrung hrung hlten hlten hlten ö ö hlten hlten hlten ö ö ü ü ü ü ä ä ä ä Arbeitsprinzip Arbeitsprinzip Tonh Tonh Zeitbearbeitung Zeitbearbeitung Ausf Ausf Presets Presets Feineinstellung des Feineinstellung des gew gew Algorithmus Algorithmus Kosten Kosten Presets Presets verschiedene verschiedene Audioinhalte Audioinhalte Artefakte Artefakte Zeitaufwand Zeitaufwand Arbeitsprinzip Arbeitsprinzip Tonh Tonh Zeitbearbeitung Zeitbearbeitung Ausf Ausf Presets Presets Feineinstellung des Feineinstellung des gew gew Algorithmus Algorithmus Kosten Kosten Presets Presets verschiedene verschiedene Audioinhalte Audioinhalte Artefakte Artefakte Zeitaufwand Zeitaufwand KanalAudiofile PAL KanalAudiofile PAL Beschleunigung) Beschleunigung)

Tabelle 12 Vergleich verschiedener Algorithmen

68 4 Test und Vergleich verschiedener Hard- und Software

An das einzige getestete Hardwaregerät, das Dolby Model 585, wurden aufgrund des ursprüng- lich hohen Anschaffungspreises und durch die explizite Herstellung des Geräts zur Frameraten- konvertierung hohe Erwartungen gestellt. Klanglich konnte das Gerät bei Dialog und Effekten überzeugen. Sprache klang präsent und war kaum vom Original zu unterscheiden. Allerdings muss das Model 585 für die Tonhöhenveränderung von Musik als nur bedingt verwendbar beschrieben werden. Die hierbei auftretenden Artefakte ließen sich auch mit diversen Einstel- lungen nicht gänzlich vermeiden. Durch den achtkanaligen Aufbau lag nahe, dass es mit diesem Gerät möglich ist komplette Mischungen zu bearbeiten. Allerdings wurden bei der Bearbeitung einzelner Stems deutlich bessere Ergebnisse erzielt. Eine klangliche Veränderung, die bei mehreren getesteten Verfahren auftrat, war eine veränder- te Darstellung der Mischung bezogen auf die Tiefenstaffelungsebene. Die Mischungen rückten ein Stück nach hinten und verloren an Griffigkeit und Präsenz. Bei Elastique Pitch und MPEX fielen diese Auswirkungen besonders auf. Da eine Frameratenkonvertierung ein Teilgebiet des Masterings darstellt, ist es fraglich, ob diese klanglichen Veränderungen hinzunehmen sind, denn ohne direkten Vergleich mit dem Original war der Unterschied nicht wahrnehmbar. Bei DIRAC war außerdem ein raueres Klangbild, das besonders bei Dialog auffiel, an verschie- denen Stellen bemerkbar. Der Sprachklang wirkte härter und verschwommener. Die Veränderungen, die Phasen-Vocoder basierte Algorithmen hervorrufen, entsprachen den in Kapitel 1.3.2 beschriebenen Artefakten. Die geringere Ausprägung von Transienten war besonders bei Foleys und Effekten zu bemerken. Allerdings fiel im Gegensatz zu Elastique Pitch, DIRAC und MEPX eine nicht oder kaum veränderte Tiefenstaffelungsebene auf. Radius war durch seine sehr lange Berechnungszeit und durch die Notwendigkeit einzelne Passagen mit veränderten Einstellungen erneut zu bearbeiten, nicht einfach zu handhaben. Um erfolgreich zu arbeiten, war ein enormer Zeitaufwand erforderlich und dennoch mussten die klanglichen Ergebnisse sorgfältig abgehört und bei Bedarf korrigiert werden. Hierzu standen diverse Parameter zur Verfügung, deren Auswirkungen auf das Klangbild ausprobiert werden mussten. Die mit diesem sehr hohen Aufwand erzielten Ergebnisse waren bei Sprache und Effekten klanglich hervorragend und kaum vom Original zu unterscheiden. Bei Musik verloren die bearbeiteten Signale allerdings an Bassinformationen. Pitch ’n Time fiel durch sehr kurze Berechnungszeiten positiv auf. Sprache und Musik konnten mit den zur Verfügung gestellten Einstellungen so bearbeitet werden, dass sie kaum vom Original zu unterscheiden waren. Allerdings hatte dieser Algorithmus Probleme mit der Bearbeitung von rauschhaften Signalanteilen. Bei der Tonhöhenkorrektur von Sprache am Meer oder sehr rauschhaftem Originalton war ein Stottern in den Sprechpausen hörbar. In der Regel wurden diese Artefakte von Atmosphären und Effekten verdeckt, ihr Auftreten ließ sich aber nicht verhindern. Ähnliche klangliche Auswirkungen hatte Pitch ’n Time auch auf Atmosphä- ren.

69 4 Test und Vergleich verschiedener Hard- und Software

Sobald diese und weitere Effekte in einem Stem zusammengefasst sind, können für transientes und flächiges Material vorgesehene Presets nicht mehr erfolgreich eingesetzt werden, da entweder Atmosphären stotternd oder Effekte mit verringerten Transienten dargestellt werden. Keiner der getesteten Algorithmen bietet eine einfache Möglichkeit, Filmmischungen ohne Veränderung der Tonhöhe in eine andere Framerate zu konvertieren.

70 5 Hörversuch

5 Hörversuch

Die in Kapitel 4 beschriebenen, durch eine Tonhöhenbearbeitung hervorgerufenen, subjektiven Veränderungen des Klangbildes sollen nun in einem Hörversuch genauer erfasst und objekti- viert werden. Hierbei geht es um die empfundenen Unterschiede, die von fachlich geschulten Hörern (Expert Listener) festgestellt werden können.

5.1 Aufbau

Da die Unterschiede zwischen den einzelnen Algorithmen in ihrer Ausprägung als sehr gering zu beschreiben sind, sollten die bearbeiteten Mischungen jeweils mit den Originalen verglichen werden. Bei den tonhöhenkorrigierten Mischungen wurden lediglich die um 4,16% beschleunig- ten und um 71cent in der Tonhöhe nach unten korrigierten Versionen verwendet. Ein Grund hierfür war, eine überschaubare Dauer für den Hörversuch zu erreichen. Außerdem entsprach die gewählte Veränderung einer Beschleunigung von 24fps auf 25fps, welche den Regelfall für eine Frameratenkonvertierungen darstellen sollte. Für die Durchführung des Hörversuchs wurde als Grundprinzip die Semantische Differenzial Technik gewählt. Hierbei werden den Probanden zu beurteilende Parameter vorgegeben. Die Aufgabe der Probanden besteht darin, die Ausprägung dieser Parameter zu erfassen. Zu diesem Zweck werden antonyme Adjektivpaare und eine siebenstufige bipolare Skala zur Beurteilung der Ausprägung eines Adjektivs vorgegeben (z.B. „leise-laut“, „glatt-rau“). Eine starke Ausprägung zu einem Adjektiv hin entspricht bei sieben Stufen einem Wert von drei. Keine Tendenz zu einem der Adjektive entspricht dem Wert null. Die Verwendung von Adjektivpaa- ren soll den Probanden die Beurteilung der dargebotenen Mischungen erleichtern und einen direkteren sprachlichen Zugang zur Beschreibung des eben Gehörten bieten. Außerdem ist es im Alltag üblich, Dinge in Kategorien zu unterteilen[HJKH08]. Da es sich bei diesem Hörversuch stets um den Vergleich zu einer anderen Version und nicht um eine absolute Beschreibung der Wahrnehmung handelte, wurde bei den Adjektivpaaren der Komparativ verwendet. Außerdem wurde konkret nach dem Vorkommen verschiedener Artefakte gefragt. Hierbei handelte es sich um die im Selbstversuch am häufigsten bemerkten Veränderungen. Auf einer Skala von eins bis sieben konnte zwischen „nicht vorhanden“ und „vorhanden“ gewählt werden. Die bearbeiteten Mischungen wurden in summierten Stems parallel zur originalen Gesamtmi- schung dargeboten. Der Grund hierfür lag darin, dass durch die einzelne Bearbeitung von Stems mit verschiedenen Feineinstellungen bessere Ergebnisse erzielt wurden, als bei Bearbeitung einer gesamten Mischung.

71 5 Hörversuch

Während der Darbietung war es den Teilnehmern möglich zwischen beiden Versionen beliebig oft hin und her zu schalten. Bei den Probanden handelte es sich ausschließlich um Tonmeister- studenten mit Erfahrung im Vergleich verschieden bearbeiteter Audioinhalte.

5.2 Beschreibung der zu beurteilenden Parameter

Die Parameter, die während des Hörversuchs abgefragt wurden, leiten sich aus den persönlichen Erfahrungen beim Vergleich der verschiedenen Algorithmen ab. Außerdem wurden die Adjektivpaare und die Art der Darbietung an zwei Personen in einem kleinen Vorversuch getestet und danach modifiziert. • Der Parameter Klangfarbe wurde in die Bereiche subjektiver Präsenzeindruck (mit dem Adjektivpaar „weicher-härter“), Rauhigkeit („glatter-rauer“, „unsauberer-reiner“) und Bassmanagement („dünner-basslastiger“) unterteilt. Bei den Begriffen Präsenzeindruck und Bassmanagement sollte auf eine veränderte spektrale Zusammensetzung der dargebotenen Mischungen eingegangen werden. Die verringerte Darstellung von Transienten, S- T- und Zischlauten wurde bei verschiede- nen Algorithmen festgestellt und sollte über den Präsenzeindruck beschrieben werden. • Der Begriff „Rauhigkeit“ mit dem Adjektivpaar „glatter-rauer“ entspricht hier nicht der psychoakustischen Empfindungsgröße, sondern beschreibt eine hauptsächlich bei Spra- che festzustellende Veränderung, die durch hinzugefügte rauschhafte Signalanteile ent- steht. • Ein weiterer Parameter wurde durch den Begriff Raumeindruck beschrieben. Dieser wurde in die Unterbegriffe „veränderte Räumlichkeit“ mit dem Adjektivpaar „räumli- cher-trockener“ und „Tiefenstaffelung bezogen auf die Lautsprecherebene“ mit „weiter hinten–weiter vorne“ unterteilt. Das Hinzufügen des Raumeindrucks eines kleinen Raumes ist eine bekannte Eigen- schaft von Phasen-Vocodern und sollte mit dem Adjektivpaar „räumlicher-trockener“ erfasst werden. Außerdem wurde im persönlichen Vergleich festgestellt, dass einige Algorithmen die Raumtiefenwahrnehmung veränderten. Diese Veränderung sollte im Hörversuch durch die Probanden verifiziert werden. • Ein weiterer Parameter bezieht sich auf den dem Überbegriff Dynamik zuzuordnenden Lautheitseindruck („lauter-leiser“). Hier sollte die Frage beantwortet werden, ob eine tonhöhenkorrigierte, beschleunigte Mischung lauter oder leiser als das Original wirkt. • Die Ausprägung der Lokalisationsschärfe wurde durch das Adjektivpaar „verschwom- mener-klarer“ erfasst. Durch hinzugefügte Artefakte wirkte Sprache im Selbstversuch unschärfer und wurde, bezogen auf die Lokalisation, weniger präzise abgebildet.

72 5 Hörversuch

• Der letzte Parameter Stereoeindruck sollte die empfundene räumliche Ausdehnung der Mischung durch das Adjektivpaar „schmaler-breiter“ erfassen.

Bei jedem der abgefragten Parameter wurde außerdem angegeben, auf welche Mischungsbe- standteile (Dialog, Musik, Effekte) bei der jeweiligen Beurteilung zu achten ist. Des Weiteren wurde konkret nach dem Vorhandensein von folgenden Artefakten gefragt. • Phasigkeit (Phasiness) ist ein Artefakt, das vor allem durch Algorithmen, die auf einem Phasen-Vocoder basieren, dem bearbeiteten Signal hinzugefügt werden. Über die Spra- che wird durch die Veränderung der Phasenlage eine Art Kammfilter gelegt. • Die Artefakte Stottern und Blubbern traten vor allem bei Algorithmen auf, die im Zeit- bereich arbeiten. Besonders in Ausklängen und Hallfahnen konnte die Wiederholung von Signalanteilen, die im Hintergrund vorkommen, festgestellt werden.

5.3 Versuchsablauf

Der Hörversuch fand im Raum U097 der HFF über die dort vorhandene C200 Konsole von SSL und die Lautsprecher O 300D von Klein und Hummel statt. In einem ersten Schritt wurden alle Versuchsteilnehmer schriftlich über die zu untersuchenden Parameter und den genauen Versuchsablauf informiert. Außerdem wurden die auszufüllenden Testbogen vorgelegt und aufkommende Fragen beantwortet. In einem nächsten Schritt wurden die Parameter Lautheitseindruck, Tiefenstaffelungsebene, Rauhigkeit sowie die Artefakte Stottern, Blubbern und Phasigkeit vorgestellt. Hierzu konnte jeweils während eines kurzen Loops zwischen einem unbearbeiteten und artefaktbehafteten Signal umgeschaltet werden. Dies geschah durch die gleichzeitige Betätigung zweier „CUT“- Schalter an Gruppenfadern der SSL Konsole. Auf diese Weise wurden die Probanden in den genauen Ablauf des Hörversuchs eingeführt. Im Anschluss daran wurde der Vergleich der verschiedenen Algorithmen mit der Originalversi- on durchgeführt. Die Probanden waren darüber informiert, dass die zu vergleichenden Abschnit- te in der Geschwindigkeit verschieden sein konnten, aber stets die gleiche Tonhöhe beinhalte- ten. Als nächstes wurden jeweils fünf kurze Ausschnitte aus den Filmen Weichnachtsbaumsoziali- sierungsprojekt, Kriegerin und Roadcrew vorgespielt. Es wurde darauf geachtet, möglichst verschiedene Audioinhalte zu präsentieren. Während dieser 1.50 min dauernden Ausschnitte konnte beliebig oft zwischen Original und bearbeiteter Version umgeschaltet und erste Ergebnisse notiert werden. Im Anschluss daran wurden jeweils zwei kürzere Ausschnitte aus den Filmen Weichnachtsbaumsozialisierungsprojekt und Kriegerin so lange im Loop vorge- spielt, bis der jeweilige Proband zu allen abgefragten Parametern ein Ergebnis aufgeschrieben hatte. Dieser Vorgang wurde für alle sechs Algorithmen durchgeführt.

73 5 Hörversuch

Außerdem ist zu sagen, dass die Abfolge der Algorithmen während des Hörversuchs und die Reihenfolge der zu hörenden Parameter auf dem Versuchsbogen von Proband zu Proband zufällig waren1.

5.4 Versuchsauswertung

Ziel des Hörversuchs war es, genaue Informationen über die klanglichen Auswirkungen der verschiedenen Algorithmen zu erhalten. Zu diesem Zweck wurde der Hörversuch mit einer Expertengruppe von 14 Tonmeisterstudenten und einem Diplomtonmeister durchgeführt. Diese Zahl ist für ein repräsentatives Ergebnis zu gering. Auch die Möglichkeit, selbst beliebig oft zwischen beiden Versionen umzuschalten, beeinflusst die Wertung der einzelnen Probanden. Dennoch habe ich mich für diese Art des Hörvergleichs entschieden, da nur so auf eine schnelle und intuitive Art und Weise die Beispiele mit gering ausgeprägten Unterschieden verglichen werden konnten. Außerdem trägt diese Vorgehensweise der Tatsache Rechnung, dass im Umgang mit Audiobearbeitung und dem Vergleich verschiedener Bearbeitungsschritte erfahrene Probanden am Hörversuch teilnahmen.

5.4.1 Statistik Zur Auswertung des Hörversuchs wurden Methoden der beschreibenden Statistik herangezogen. Der Grund hierfür ist, dass sich die beschreibende Statistik im Gegensatz zur mathematischen Statistik mit der Auswertung nicht messbarer, in der Natur vorkommenden Größen beschäf- tigt[HBKS98]. Die Ergebnisse eines Hörversuchs fallen in diese Kategorie. Bei den hier vorliegenden Antworten aus dem Hörversuch werden keine Aussagen getroffen, die einer spezifischen Kategorie (wie Geschlecht oder Familienstand) zuzuordnen sind. Deshalb sind diese nicht „nominal“ zu skalieren. Die Werte, die nach diesem Hörversuch vorliegen, geben eine Relation zwischen den abgefrag- ten Parametern wieder und werden deshalb „ordinalskalierte“ Variablen genannt[DPLA08]. Ein weiteres Merkmal dieser Art von Datensatz ist, dass die Unterschiede zweier Rangstufen zwischen zwei Parametern nicht gleich bleibende Intervalle angeben, sondern eine Tendenz darstellen. Beispielsweise stellt bei der Frage, ob die zu vergleichende Mischung lauter oder leiser empfunden wird, ein Wert von zwei in Richtung „lauter“ nicht dar, dass das Beispiel 2 doppelt so laut wahrgenommen wird wie Beispiel 1, das mit einem Wert von eins bezeichnet wurde. Um diesen Sachverhalten Rechnung zu tragen, stellt die beschreibende Statistik spezielle Kennwerte zur Verfügung. Diese wurden zur Auswertung des Hörversuchs verwen- det[HBKS98].

1 Zu diesem Zweck wurden zufällig generierte Zahlenfolgen der Website http://www.random.org/sequences/ verwendet.

74 5 Hörversuch

Der Medianwert liegt bei der Anordnung aller Messwerte nach ihrer Größe genau in der Mitte. Das bedeutet, dass 50% der Messerwerte kleiner oder gleich und 50% der Messwerte größer oder gleich dem Medianwert sind. Um die Daten genauer zu beschreiben, wird zusätzlich der Interquartilsbereich dargestellt. Zwischen erstem und drittem Quartil liegen 50% der gesamten Antworten, während jeweils weitere 25% unter dem ersten und über dem dritten Quartil liegen. Die Darstellung von Datensätzen durch Median und Quartile findet häufig bei Versuchen mit geringen Probandenzahlen Anwendung[WWW22]. Die Berechnung des Medians, sowie des ersten und dritten Quartils lässt sich durch folgende Formel durchführen:

m−1 Anteilswert− ∑ fi i=1 Zu= x mu + ⋅h [HBKS98] fm

Zu: Median bzw. Quartil von der unteren Grenze aus berechnet xmu: untere exakte Grenze der Eingriffsspielraumklasse Anteilswert mit n= Anzahl der Teilnehmer: • n⋅ 0,5 für den Median; • n⋅ 0,25 für das erste Quartil; • n⋅ 0,75 für das dritte Quartil fm: Addierte Werte der Häufigkeiten innerhalb der Eingriffsspielraumklasse fi: Addierte Häufigkeiten aller Klassen unterhalb der Eingriffsspielraumklasse h: Klassenbreite

Um die Klasse zu bestimmen, in die der so genannte Eingriffsspielraum fällt, addiert man die Zahl der Zuordnungen bei der ersten Klasse beginnend bis die Summe ≥ dem Anteilswert für die jeweilige Berechnung ist. Die Klasse, in welcher der Wert dieser Summe erreicht wird ist die Eingriffsspielraumklasse. Die untere exakte Grenze einer Antwortklasse mit einer Breite von 1 und einer Klassenmitte, die wie hier durch eine ganze Zahl dargestellt wird, liegt 0,5 unterhalb der Klassenmitte. Beispielsweise liegt die untere exakte Grenze der Klasse 2 bei 1,5.

75 5 Hörversuch

Ein Maß für die Verteilung der erfassten Daten ist der Dispersionsindex D. Er kann Werte zwischen 0 und 1 annehmen, wobei 0 keinerlei Verteilung der Werte und eine Zuordnung zu einer einzigen Klasse bedeutet. 1 hingegen sagt aus, dass die Häufigkeit der genannten Antworten in allen Klassen gleich ist. Ein Wert von <0,8 gibt an, dass eine Konzentration hin zu einer Antwortklasse vorliegt, dagegen sind Werte >0,95 ein Merkmal dafür, dass die Antworten gleichmäßig verteilt sind. Die Formel für den Dispersionsindex lautet: k  ⋅2 − 2 k n∑ ni  i=1  D = [HBKS98] n2 ⋅() k −1 n: Anzahl aller Teilnehmer k: Anzahl der Klassen ni: Anzahl der Messwerte in der i-ten Klasse

76 5 Hörversuch

5.4.2 Auswertung der Ergebnisse pro Algorithmus Bevor nun die konkreten Ergebnisse des Hörversuchs interpretiert werden, ist zu sagen, dass ein Großteil der Probanden die zu hörenden Unterschiede als sehr gering beschrieb. Deshalb traten im Hörversuch kaum Wertungen für extreme Klassen auf. Dennoch kann mit den vorliegenden Ergebnissen eine klangliche Beschreibung des jeweiligen Algorithmus durchgeführt werden.

DIRAC Dispersionsindex Parameter: weicher härter rauer glatter Klangfarbe unsauberer reiner dünner basslastiger

räumlicher trockener Raum- eindruck weiter hinten weiter vorne

Dynamik leiser lauter Stereo- schmaler breiter eindruck Lokalisations- verschwommener klarer schärfe -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 17 Ergebnis Hörtest DIRAC

Bei DIRAC ist deutlich zu sehen, dass das bearbeitete Signal als rauer zu beschreiben ist. Auch die Werte des Dispersionsindex zeigen an, dass die Urteile der Probanden eine deutliche Tendenz aufweisen. Die veränderte Klangfarbe wurde von einigen Probanden als Klirren beschrieben.

77 5 Hörversuch

Elastique Dispersionsindex Parameter: weicher härter rauer glatter Klangfarbe unsauberer reiner dünner basslastiger

räumlicher trockener Raum- eindruck weiter hinten weiter vorne

Dynamik leiser lauter Stereo- schmaler breiter eindruck Lokalisations- verschwommener klarer schärfe -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 18 Ergebnis Hörtest Elastique

Die Ergebnisse, die Auskunft über den Algorithmus Elastique geben, zeigen, dass eine deutliche Veränderung des gesamten Klangbildes stattfindet. Durch den Verlust von Transienten ist das Klangbild weicher und rückt in der Tiefenstaffelungsebene nach hinten. Zwar ist die Verteilung der Antworten nicht so eindeutig wie bei DIRAC, doch liegt kein Wert des Dispersionsindex über den auf eine gleichmäßige Streuung hinweisenden 0,95. Bei Elastique fällt weiterhin auf, dass ein Verlust an empfundener Lautstärke und Bassinformationen festzustellen ist. Die Veränderung der Breite einer Mischung weist nicht eindeutig auf eine Antwortklasse hin. Dennoch zeigt sich eine Tendenz dahingehend, dass die wahrgenommene Stereobreite einer Mischung nach einer Bearbeitung mit Elastique als geringer zu bezeichnen ist.

Model 585 Dispersionsindex Parameter: weicher härter rauer glatter Klangfarbe unsauberer reiner dünner basslastiger

räumlicher trockener Raum- eindruck weiter hinten weiter vorne

Dynamik leiser lauter Stereo- schmaler breiter eindruck Lokalisations- verschwommener klarer schärfe -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 19 Ergebnis Hörtest Model 585

Die Betrachtung der Medianwerte beim Model 585 lässt auf sehr gute klangliche Eigenschaften schließen. Eindeutig werden bearbeitete Mischungen gleich bleibend im Bezug auf Dynamik und Bassmanagement wahrgenommen. Eine Veränderung des Signals ist bei den Parametern Tiefenstaffelungsebene („weiter hinten- weiter vorne“), Lokalisationsschärfe und Stereobreite festzustellen. Die große Streuung der

78 5 Hörversuch

Nennungen bei den Parametern, die sich auf Klangfarbe und Raumeindruck beziehen, lässt keine eindeutige Aussage über diese zu.

MPEX Dispersionsindex Parameter: weicher härter rauer glatter Klangfarbe unsauberer reiner dünner basslastiger

räumlicher trockener Raum- eindruck weiter hinten weiter vorne

Dynamik leiser lauter Stereo- schmaler breiter eindruck Lokalisations- verschwommener klarer schärfe -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 20 Ergebnis Hörtest MPEX Der mit Blick auf den Interquartilsbereich eindeutigste Unterschied zum Original bei MPEX ist die Veränderung der Wahrnehmung bezogen auf die Lautheit und ein leichter Verlust an Bassinformationen. Hierdurch bedingt ist auch die veränderte Wahrnehmung der Tiefenstaffe- lungsebene. Die Verteilung der Antworten zu diesem Parameter ist zwar breit gestreut, dennoch sind die Wertungen der Probanden ein Hinweis darauf, dass sich eine Veränderung in der Wahrnehmung der Tiefenstaffelungsebene feststellen lässt. Die Aussagen über die Klangfarbe lassen auf eine leichte Verringerung der Transienten schließen.

Pitch 'n Time Dispersionsindex Parameter: weicher härter rauer glatter Klangfarbe unsauberer reiner dünner basslastiger

räumlicher trockener Raum- eindruck weiter hinten weiter vorne

Dynamik leiser lauter Stereo- schmaler breiter eindruck Lokalisations- verschwommener klarer schärfe -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 21 Ergebnis Hörtest Pitch ’n Time

Bei Pitch ’n Time ist eindeutig ein leichter Rückgang der empfundenen Lautstärke festzustellen. Die Wahrnehmung von Räumlichkeit und der Tiefenstaffelungsebene wird nicht verändert. Die Werte über die Klangfarbe lassen kein eindeutiges Urteil zu, deuten aber auf eine veränderte

79 5 Hörversuch

Darstellung von Transienten hin. Des Weiteren wurde von den Probanden ein leichter Verlust von Bassinformationen bemerkt.

Radius Dispersionsindex Parameter: weicher härter rauer glatter Klangfarbe unsauberer reiner dünner basslastiger

räumlicher trockener Raum- eindruck weiter hinten weiter vorne

Dynamik leiser lauter Stereo- schmaler breiter eindruck Lokalisations- verschwommener klarer schärfe -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 22 Ergebnis Hörtest Radius Durch die Antworten über Radius lässt sich zunächst der bei Phasen-Vocodern übliche Rückgang von Transienten feststellen. Überraschend deutlich wird aufgezeigt, dass durch Radius Bass- und Rauminformationen geringer dargestellt werden. Außerdem wirkten die Mischungen auf die Probanden breiter. Die Parameter Lautstärke und Tiefenstaffelungsebene bleiben durch Radius nahezu unverändert.

Zusammenfassend kann festgestellt werden, dass eine Tonhöhenveränderung nicht ohne die Beeinflussung anderer klanglicher Parameter durchgeführt werden kann. Wie stark diese jedoch verändert werden und um welche Parameter es sich handelt ist von Algorithmus zu Algorithmus verschieden.

5.4.3 Auswertung der Ergebnisse pro Parameter Um die verschiedenen Algorithmen besser vergleichen zu können, werden im folgenden Abschnitt Median, die beiden Quartile und Dispersionsindex bezogen auf das jeweilige Adjektivpaar dargestellt.

80 5 Hörversuch

Zunächst wird auf die Adjektive eingegangen, die Auskunft über den Parameter Klangfarbe geben.

Klangfarbe - Transienten Dispersionsindex

weicher härter DIRAC Elastique

Model 585 MPEX Pitch 'n Time Radius -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 23 Vergleich der Algorithmen im Bezug auf Transientendarstellung

Klangfarbe - Rauhigkeit Dispersionsindex

rauer glatter DIRAC Elastique

Model 585 MPEX Pitch 'n Time Radius -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 24 Vergleich der Algorithmen im Bezug auf Rauhigkeit

Klangfarbe - Bassmanagement Dispersionsindex dünner basslastiger

DIRAC

Elastique

Model 585

MPEX

Pitch 'n Time

Radius -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 25 Vergleich der Algorithmen im Bezug auf Bassmanagement

81 5 Hörversuch

Die Adjektivpaare, die sich auf den Parameter Klangfarbe beziehen, veranschaulichen sehr deutlich, wie stark der jeweilige Algorithmus die spektrale Zusammensetzung der Mischungen verändert. Die am häufigsten auftretende Veränderung von transienten Signalanteilen ist eine geringere Ausprägung dieser nach der Tonhöhenkorrektur. Besonders deutliche Unterschiede wurden bei Elastique und Radius festgestellt. Bei Pitch ’n Time sind die Antworten der Probanden stark gestreut, doch deuten auch diese Ergebnisse auf eine verringerte Darstellung von Transienten hin. Lediglich DIRAC wird als etwas härter klingend empfunden. Dies lässt sich durch die deutlich hinzugefügte Rauhigkeit erklären. Der Dispersionsindex beim Adjektivpaar „weicher – rauer“ zeigt an, dass die Veränderung der Transienten verschieden stark wahrgenommen wird.

Die Frage nach hinzugefügter Rauhigkeit lässt sich recht eindeutig beantworten. Durch eine Tonhöhenbearbeitung wird das Klangbild durch alle Algorithmen, bis auf Elastique, leicht rauer. Durch DIRAC wird ein stark rauerer Klang hervorgerufen. Dieser wurde vor allem bei Sprache festgestellt.

Ähnliches trifft auf die Wahrnehmung von Bassinformationen zu. Bei der Mehrzahl der Algorithmen gehen durch die Bearbeitung Bassinformationen verloren. Stark ausgeprägt ist dieser Verlust bei Radius und Elastique. Positiv fällt in diesem Zusammenhang das Model 585 auf. Im Hörversuch konnte, auch durch den Dispersionsindex bestätigt, kein Rückgang im Bassbereich festgestellt werden.

82 5 Hörversuch

In den folgenden Abbildungen werden die Ergebnisse der Adjektivpaar dargestellt, die Auskunft über den Parameter Raumeindruck geben sollen.

Raumeindruck Dispersionsindex

räumlicher trockener DIRAC Elastique

Model 585 MPEX Pitch 'n Time Radius -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 26 Vergleich der Algorithmen im Bezug auf Raumeindruck

Tiefenstaffelungsebene Dispersionsindex weiter hinten weiter vorne DIRAC Elastique

Model 585 MPEX Pitch 'n Time Radius -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 27 Vergleich der Algorithmen im Bezug auf Tiefenstaffelungsebene

In Bezug auf die wahrgenommene Räumlichkeit treten nur sehr geringe Veränderungen auf. Lediglich bei Radius ist klar ein Verlust von Rauminformationen festzustellen. Die beiden Phasen-Vocoder Radius und Pitch ’n Time fügen wider Erwarten keine Räumlichkeit hinzu. Die Werte bei MPEX zeigen ebenfalls den Verlust von Rauminformationen an. Die Ausprägung dieses Rückgangs wurde durch die Probanden allerdings nicht eindeutig bestätigt. Deutlichere Unterschiede können im Bezug auf die Tiefenstaffelungsebene festgestellt werden. Am eindeutigsten und am stärksten ausgeprägt wurde ein „Nach-Hinten-Rücken“ der Mischung bei Elastique wahrgenommen. Aber auch beim Model 585 ist dieser Effekt leicht festzustellen. Bei MPEX sind die Antworten stark gestreut, so dass hier über dieses Adjektivpaar keine eindeutige Aussage getroffen werden kann. Dennoch wird eine Veränderung der Tiefenstaffe- lung wahrgenommen. Dies bestätigen auch mehrfache Anmerkungen der Probanden, die innerhalb der Mischung einen Rückgang der Tiefenstaffelung beschrieben und auf dem

83 5 Hörversuch

Versuchsbogen keinen Parameter, der diese Veränderung beschreibt, finden konnten. Sprache und Orchester rückten dichter zusammen, als dies in der Originalversion der Fall war.

Das folgende Adjektivpaar „lauter – leiser“ geht auf die Wahrnehmung der Lautheit im Vergleich zur Originalversion ein.

Dynamikeindruck Dispersionsindex

leiser lauter DIRAC Elastique

Model 585 MPEX Pitch 'n Time Radius -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 28 Vergleich der Algorithmen im Bezug auf Dynamikeindruck

Bei allen Algorithmen ist eine leicht verringerte Lautheit festzustellen. Stark ausgeprägt ist der Rückgang bei Elastique, wobei auch Pitch ’n Time einen deutlichen, wenn auch geringer ausgeprägten Verlust von Lautheit aufweist. Radius und das Model 585 weisen nahezu keine Veränderung der wahrgenommenen Lautstärke auf.

Die Auswirkungen der verschiedenen Algorithmen, bezogen auf die Parameter Stereoeindruck und Lokalisationsschärfe, werden in den folgenden beiden Abbildungen durch die Adjektivpaa- re „schmaler – breiter“ und „verschwommener – klarere“ veranschaulicht.

Stereoeindruck Dispersionsindex

schmaler breiter DIRAC Elastique

Model 585 MPEX Pitch 'n Time Radius -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 29 Vergleich der Algorithmen im Bezug auf Stereoeindruck

84 5 Hörversuch

Lokalisationsschärfe Dispersionsindex verschwommener klarer

DIRAC Elastique

Model 585 MPEX Pitch 'n Time Radius -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 30 Vergleich der Algorithmen im Bezug auf Lokalisationsschärfe

Die Ergebnisse zu den Parametern Stereoeindruck und Lokalisationsschärfe weisen auf keine deutlichen Unterschiede zum Original hin. Elastique und Pitch ’n Time haben die Tendenz, das Klangbild schmaler darzustellen, wogegen Radius und das Model 585 eine etwas breitere Abbildung zur Folge haben. Zur Lokalisationsschärfe ist zu sagen, dass eher eine Tendenz zu einer unpräziseren Ortung, vor allem des Dialogs, festgestellt wurde. Wieder weist Elastique die deutlichste Ausprägung in Richtung „verschwommener“ auf, aber auch das Model 585 und Radius verursachen diese Wahrnehmung.

Zuletzt wird auf die konkrete Wahrnehmung von Artefakten eingegangen.

Stottern, Blubbern Dispersionsindex nicht vorhanden vorhanden

DIRAC Elastique

Model 585 MPEX Pitch'n Time Radius 1 2 3 4 5 6 7 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Median 2. Quartil

Abb. 31 Vergleich der Algorithmen im Bezug auf die Artefakte „Stottern, Blubbern“

85 5 Hörversuch

Phasigkeit Dispersionsindex nicht vorhanden vorhanden

DIRAC Elastique

Model 585 MPEX Pitch'n Time Radius 1 2 3 4 5 6 7 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Median 2. Quartil

Abb. 32 Vergleich der Algorithmen im Bezug auf das Artefakt „Phasigkeit“

Gefragt nach der direkten Wahrnehmung der beiden vor dem Hörversuch vorgestellten Artefakttypen Stottern, Blubbern und Phasigkeit, zeigen die Medianwerte an, dass diese Artefakte kaum wahrgenommen werden. Am ehesten wird Stottern und Blubbern bei DIRAC und Pitch ’n Time festgestellt. Das Artefakt Phasigkeit ist den Erwartungen gemäß bei einem Phasen-Vocoder basierten Algorithmus, Pitch ’n Time, am ehesten wahrzunehmen. Überra- schend ist hierbei, dass Radius, welches ebenfalls als Phasen-Vocoder arbeitet, bei diesem Artefakt sehr gut abschneidet. DIRAC, Elastique und das Model 585 fügen den Mischungen in sehr geringer Ausprägung eine phasige Komponente hinzu.

5.5 Zusammenfassung und Auswertung Ergebnisse Hörversuch

Die Ergebnisse des Hörversuchs bestätigen zu einem großen Teil die zuvor festgestellten klanglichen Veränderungen durch eine Tonhöhenbearbeitung. Diese wurden von den meisten Probanden als sehr gering und hinnehmbar eingestuft. Direkte Artefakte wurden kaum wahrgenommen. Zunächst ist festzustellen, dass keiner der getesteten Algorithmen das Klangbild komplett unverändert lässt. Welche Veränderungen hingenommen werden können und welche klangli- chen Eigenschaften als nicht akzeptabel empfunden werden, war von Proband zu Proband verschieden. Schon bei der Vorstellung verschiedener Artefakte vor der Durchführung des Hörversuchs gab es keine Artefaktklasse, die allen Probanden gemeinsam entweder sehr deutlich oder kaum auffiel. So muss am Ende der Tonmeister, der eine Tonhöhenkorrektur durchführt, entscheiden, ob das erzielte Ergebnis zufrieden stellend ist. Durch den Hörversuch können nun genauere Beschreibungen der Klangeigenschaften der jeweiligen Algorithmen erfolgen.

86 5 Hörversuch

Elastique ist der Algorithmus, der in den meistern Parametern den Klang einer bearbeiteten Mischung deutlich wahrnehmbar verändert. Besonders der Verlust von Transienten, Lautheit, Bassinformationen und ein damit einhergehendes „Nach-Hinten-Rücken“ in der Tiefenstaffe- lungsebene machen diesen Algorithmus für eine dem Mastering zuzuordnende Aufgabe eher ungeeignet. Die Bearbeitung von Musik und die Verwendung im Sounddesign durch die unabhängige und automatisierbare Veränderung von Tonhöhe und Formanten scheinen eher die Stärken dieses Algorithmus zu sein. DIRAC schnitt bis auf die hinzugefügte Rauhigkeit bei allen anderen abgefragten Parametern sehr gut ab. Allerdings ist das deutliche Hinzufügen von klirrenden, rauschhaften Signalanteilen als starke Veränderung des Klangbildes, besonders des Dialogs, zu bezeichnen. Es ist fraglich, ob bei einem Film diese Auswirkungen durch eine Tonhöhenkorrektur akzeptabel sind. Das Dolby Model 585 erzielte im Durchschnitt ebenfalls sehr gute klangliche Ergebnisse. Dennoch ist hierbei zu beachten, dass die im Hörversuch verwendeten Mischungen aus getrennt bearbeiteten Stems aufgebaut waren. Um Sprache oder Effekte in der Tonhöhe zu verändern ist das Model 585 sehr geeignet. Es muss aber darauf hingewiesen werden, dass für die Bearbei- tung der Musik ein anderer Algorithmus herangezogen werden sollte. MPEX verändert Mischungen durch eine geringer empfundene Lautstärke und ein „Nach- Hinten-Rücken“ in der Tiefenstaffelungsebene. Von mehreren Probanden wurde zusätzlich ein Verlust von Raumtiefeninformationen beschrieben. Pitch ’n Time verändert das Klangbild in den meisten der abgefragten Parameter nur leicht und kaum wahrnehmbar. Am deutlichsten wird eine etwas geringere Lautheit empfunden. Bei den Parametern Klangfarbe und Bassmanagement lassen die Antworten der Probanden keine eindeutige Aussage zu. Allerdings war Pitch ’n Time der Algorithmus, für den in beiden Artefaktklassen Wertungen in Richtung Wahrnehmbarkeit von Artefakten getroffen wurden. Radius verringert die Ausprägung von Transienten und Bassinformationen deutlich. Außerdem ist ein leichter Verlust an Rauminformationen festzustellen.

87 6 Workflow Empfehlung

6 Workflow Empfehlung

In den folgenden Abschnitten soll ein möglicher Arbeitsablauf zur Erstellung von Deliveries in verschiedenen Frameraten beschrieben werden. Dieser basiert auf den Erkenntnissen und Ergebnissen, die durch die Recherche zu diesem Thema und den Vergleich verschiedener Algorithmen zur Geschwindigkeits- und Tonhöhenveränderung, gewonnen werden konnten.

6.1 Wahl des Zielmediums

Der wahrscheinlich wichtigste Schritt, um bei der Erstellung von Deliveries die Tonspur in bestmöglicher Qualität zur Verfügung zu stellen, ist die frühzeitige Festlegung der Framerate vor Drehbeginn. Hierbei sollte mit dem Produktions- und Kameradepartment festgehalten werden, mit welcher Framerate gedreht werden wird. Bei der Wahl der Filmlaufgeschwindigkeit sollte das angestrebte Hauptauswertungsmedium entscheidend sein, damit bei der Wiedergabe durch dieses Medium keine Veränderung in der Geschwindigkeit und Tonhöhe auftritt. Nun sollen die in Europa und an der HFF üblichen Fälle und Möglichkeiten beschrieben werden. Ist eine Kinoauswertung geplant, welche die Erstellung einer 35mm Kopie und eines DCPs zur Folge hat, ist die aktuell zu verwendende Geschwindigkeit 24fps. Bei der Wahl dieser Framera- te ist sicher gestellt, dass unter den kritischsten Abhörbedingungen (im Kino) der Film in ursprünglicher Geschwindigkeit und Tonhöhe wiedergegeben wird. Für die Fernsehauswertung und die Erstellung einer DVD PAL muss in diesem Fall eine 25fps Version des Films erstellt werden. Hierbei eine Tonhöhenkorrektur durchzuführen ist ratsam, aber durch die Gewöhnung der Zuschauer an die PAL-Beschleunigung nicht zwingend erforderlich. Einen Sonderfall stellt die Erstellung eines HDCAM Bandes dar, da nicht alle HDCAM-Player 24fps wiedergeben können1. Ein Band mit 24fps wird dann vom Wiedergabegerät auf 25fps beschleunigt. Zur Auswertung auf BD kann die Originalgeschwindigkeit des Films von 24fps beibehalten werden, oder auf den „nordamerikanischen“ (und auch in Europa meist verwendeten) Stan- dard[BFPE] von 23,976fps konvertiert werden. Dabei ist zu beachten, dass nur Fernseher mit dem „HD ready 1080p“ Logo in der Lage sind, 24fps wiederzugeben. Die Verlangsamung um 0,1% auf 23,976fps ohne Tonhöhenkorrektur verursacht einen nicht wahrnehmbaren Tonhöhen- unterschied, so dass eine Frameratenkonvertierung durch eine Sample-Raten-Konvertierung durchgeführt werden kann. Falls der Film für das Fernsehen produziert wird, muss dieser mit 25fps gedreht werden. Diese Framerate kann genau so auf DVD PAL, BD2, oder bei einer Festivalauswertung auf HDCAM

1 Quelle: http://www.sony.de/pro/product/hdcamvtrs/j-h1/features#features 2 Allerdings interlaced und nicht progressiv.

88 6 Workflow Empfehlung und HDCAM SR verwendet werden. Ist dennoch eine Kinoauswertung oder lediglich das Erstellen eines DCPs geplant, muss nach heutigem Stand der Kinoserver ein DCP mit 24fps erstellt werden. Die Verlangsamung um 4% verändert die Klangfarbe von Stimmen in einer Art und Weise, dass sie auch für Laien „unnatürlich“ und „wie eingeschlafen“ klingen. In diesem Fall ist eine Tonhöhenkorrektur anzuraten. Diese Bearbeitung erfordert von allen Tonhöhenkor- rekturen die meiste Sorgfalt. Der Grund hierfür liegt darin, dass die tonhöhenkorrigierte Mischung unter den für Film bestmöglichen Abhörbedingungen, im Kino, wiedergegeben wird. Dort werden eventuell auftretende Artefakte leichter und deutlicher wahrgenommen, als dies in der Regel bei einer Wiedergabe über eine Heimanlage der Fall ist. In allen gerade beschriebenen Fällen besteht nach wie vor die Notwendigkeit, den fertig gestellten Soundtrack in eine andere Framerate zu konvertieren.

6.2 Frameratenkonvertierung

Zur Überprüfung der Synchronität und zur Erstellung eines korrekten Startbandes ist es unbedingt notwendig, ein Videofile in der neuen Geschwindigkeit zu verwenden. Dieses ist vom Schnittdepartment anzufordern. Zunächst ist die Entscheidung zu treffen, ob Zeit und Mittel für eine Konvertierung unter Beibehaltung der Originaltonhöhe zur Verfügung stehen. Ist dies nicht der Fall kann schnell und einfach eine komplette Mischung durch eine SRC innerhalb einer DAW in eine andere Laufgeschwindigkeit konvertiert werden. Die Veränderung der Tonhöhe ist dann in Kauf zu nehmen. Falls eine Tonhöhenkorrektur angedacht ist, so ist diese unbedingt in den Stems der Mischung durchzuführen, da nur so auf die verschiedenen Inhalte abgestimmte Algorithmen oder Voreinstellungen Verwendung finden können. Zuerst muss entschieden werden, ob zunächst eine Geschwindigkeitsveränderung mit veränder- ter Tonhöhe und anschließender Tonhöhenkorrektur durchgeführt werden soll oder ob in einem Schritt die Geschwindigkeit unter Beibehaltung der Tonhöhe angepasst wird. Alle getesteten Algorithmen waren in der Lage eine zum Bild synchrone Geschwindigkeitsveränderung unter Beibehaltung der Tonhöhe durchzuführen. Innerhalb der Audiofiles waren tolerierbare Geschwindigkeitsschwankungen bis maximal 15ms festzustellen1.

1 Diese Schwankungen wurden durch die in das 60 Minuten dauernde eingearbeitete Impulsfolgen und ein Frame dauernde Synchronpieper ermittelt. In Pro Tools wurde durch die „Tab To Transient“ Funktion zwischen lediglich durch SRC veränderter und durch den jeweiligen Algorithmus bearbeiteter Mischung der Abstand zwischen den Testsignalen gemessen.

89 6 Workflow Empfehlung

Da es durch die Tonhöhenveränderung an einzelnen Stellen zu hörbaren Artefakten kommen kann und in diesem Fall die Verwendung eines durch SRC bearbeiteten Files mit veränderter Tonhöhe einen klanglich akzeptablen Kompromiss darstellt (dies gilt vor allem für den Effektstem), ist es ratsam die Frameratenkonvertierung in zwei Schritten, mit SRC und anschließende Tonhöhenkorrektur, durchzuführen. Dies ist innerhalb einer DAW am komforta- belsten. So können durch SRC bearbeitete Audiofiles und durch SRC bearbeitete und tonhöhen- korrigierte Audiofiles auf verschiedenen Spuren oder Playlists gleichzeitig vorliegen und stehen schnell zum Vergleich zur Verfügung. Dialog- und Musikstems mit unterschiedlichen Voreinstellungen zu bearbeiten ist, wenn es das Plugin zulässt, sehr empfehlenswert. Die Notwendigkeit einer Tonhöhenkorrektur für den Effektstem ist von Fall zu Fall abzuwägen. Für einzelne, auf Musik oder Dialog abgestimmte Stellen, ist eine Bearbeitung der Tonhöhe erforderlich, in der Regel ist der Tonhöhenunterschied von Atmosphären und Foleys nur sehr schwer wahrnehmbar. Der Effektstem stellt mit rauschhaften Atmosphären und transienten Synchrongeräuschen, wie Schritte oder Türen, für jeden Algorithmus eine schwierige Aufgabe dar. Die meisten Voreinstellungen erzielen entweder eine Verbesserung bei der Darstellung von transienten oder von stationären Klängen, so dass eine von beiden Komponenten mit der schlechteren Einstellung bearbeitet wird1.

Der Vergleich der verschiedenen Algorithmen hat gezeigt, worin die Stärken und Schwächen der verschiedenen Verfahren liegen. Es gibt keine Soft- oder Hardware, die völlig unbedenklich und ohne gründliches Abhören der Ergebnisse verwendet werden kann. Welches Verfahren nun Verwendung findet bzw. welche klanglichen Veränderungen vom Mischtonmeister als akzeptabel befunden werden, ist von Fall zu Fall verschieden. Elastique und DIRAC haben bei den in dieser Arbeit verwendeten Testsignalen die schwer- wiegendsten klanglichen Veränderungen hervorgerufen. Das Dolby Model 585 lieferte bei Dialog sehr überzeugende Ergebnisse, ist für Musik aber eher ungeeignet. Radius benötigt einen sehr hohen Zeitaufwand, sowie von Stelle zu Stelle angepasste Einstellungen. Pitch ’n Time und MPEX stellen einen Kompromiss zwischen Klangqualität und Zeitaufwand dar und können als Grundlage für eine Tonhöhenkorrektur verwendet werden. Dennoch ist mit keinem Algorithmus sicher gestellt, dass jede Stelle innerhalb eines Films artefaktfrei zu bearbeiten ist. Treten klangliche Probleme durch die Tonhöhenbearbeitung auf, muss für diese Stellen eine andere Voreinstellung oder ein anderer Algorithmus verwendet werden.

1 Werden bereits in der Mischung Stems, die Atmosphären von transienten Toneffekten trennen erstellt, kann auch während der Tonhöhenveränderung besser auf die unterschiedlichen Signalzusammensetzun- gen eingegangen werden.

90 7 Schlussbetrachtung

7 Schlussbetrachtung

Die weltweite Digitalisierung des Fernsehens hat bisher zu keiner international standardisierten Framerate geführt, da jeweils auf Kompatibilität zum ursprünglich verwendeten analogen Fernsehen geachtet wurde. Auf der anderen Seite wird bei Kinofilmproduktionen, besonders im 3D Bereich, mit höheren Frameraten von bis zu 60fps gearbeitet. Es bleibt abzuwarten, ob am Ende dieser Entwicklungen eine einheitliche Framerate steht. Für die Postproduktion von Soundtracks bedeutet dies, dass weiterhin Ausspielungen in verschiedenen Frameraten erstellt werden müssen. Durch die gleichzeitige Existenz von Fernsehen mit 25fps, PAL DVD und BD haben Zuschauer stärker die Möglichkeit verschiedene Tonhöhen zu bemerken, so dass Überlegungen über eine Tonhöhenkorrektur unerlässlich werden. Es konnte gezeigt werden, dass es bei amerikanischen Produktionen unüblich ist, den Tonhö- henunterschied bei einer Frameratenkonvertierung auszugleichen und die Studios nicht bereit sind den Mehraufwand zu bezahlen. Dies mag auch daran liegen, dass innerhalb der USA bei der Auswertung im Fernsehen, auf DVD und BD die verwendete Framerate von 23,976fps einen kaum bemerkbaren Unterschied zur originalen Kinoversion darstellt. Tonhöhenkorrektu- ren werden häufiger in Ländern durchgeführt, die ehemals das PAL Fernsehsystem verwende- ten. Durch den Vergleich verschiedener Algorithmen zur Geschwindigkeits- und/oder Tonhöhenver- änderung von Audiosignalen, angewendet auf Filmsoundtracks, konnte eine Aussage darüber getroffen werden, in wie fern sich der jeweilige Algorithmus für eine Frameratenkonvertierung eignet. Die oftmals geringen Unterschiede zum Original wurden im Hörversuch erfasst, so dass die klanglichen Auswirkungen genau beschrieben werden konnten. Eine Tonhöhenkorrektur kann mit den aktuell zur Verfügung stehenden Mitteln zu einem Ergebnis führen, das kaum vom Original zu unterscheiden ist. Dafür ist eine genaue Kenntnis über die klanglichen Auswirkungen der verwendeten Algorithmen sowie das konzentrierte Abhören durch einen Tonmeister erforderlich. Abschließend ist zu sagen, dass eine Tonhöhenkorrektur bei der Frameratenkonvertierung einen Teil dazu beitragen kann, eine in der Geschwindigkeit veränderte Ausspielung zu erstellen, die eher der ursprünglichen Version des Films entspricht, als es ohne Tonhöhenkorrektur der Fall gewesen wäre.

91 Anhang

Anhang

Versuchsanweisungen Hörversuch

Vergleich verschiedener Algorithmen zur Tonhöhenkorrektur bei der Frameratenkonver- tierung von Filmmischungen

Herzlich Willkommen zum Vergleich verschiedener Verfahren zur Tonhöhenkorrektur durch einen Hörversuch.

Zunächst werden verschiedene auftretende Artefakte vorgestellt und benannt. Anhand dieser Beispiele werden die zu beurteilenden Parameter definiert.

• Der Parameter Klangfarbe beschreibt die spektrale Zusammensetzung des Signals. Durch den Unterbegriff Rauhigkeit werden nicht natürlich wirkende, rauschhafte Sig- nalanteile beschrieben • Der Raumeindruck beschreibt die akustische Umgebung, in der ein Schallereignis wahrgenommen wird • Mit Tiefenstaffelung ist die Wahrnehmung des Schallereignisses bezogen auf die Laut- sprecherebene gemeint. Durch die Bearbeitung können die Mischungen in der Wahr- nehmung nach „hinten“ oder „vorne“ rücken • Durch Lautheit wird der subjektiv empfundene Lautstärkeeindruck beschrieben • Der Begriff Stereobreite bezieht sich auf die Wahrnehmung der räumlichen Ausdeh- nung der Klangzusammensetzung

Während der Wiedergabe des Audiomaterials können Auffälligkeiten oder erste Ergebnisse auf den Parameterbogen notiert werden. Hierbei ist es wichtig, dass stets die Unterschiede von Version zwei bezogen auf Version eins angegeben werden. Die Ausprägung der Unterschiede ist in Ziffern von 1 bis 3 anzugeben. Kann kein Unterschied festgestellt werden ist der Wert „Null“ anzukreuzen. Versuchsablauf: • Es werden fünf Ausschnitte verschiedener Mischungen am Stück vorgespielt. Wäh- renddessen ist es möglich zwischen zwei unterschiedlichen Versionen der Mischungen beliebig oft umzuschalten. (Es ist möglich, dass beide Varianten eine unterschiedliche Abspielgeschwindigkeit beinhalten. Die Tonhöhe der beiden Mischungen ist gleich.) • Im nächsten Schritt werden zwei kurze Stellen nacheinander im Loop wiedergegeben. Wieder ist es möglich zwischen beiden Versionen beliebig oft umzuschalten. Während der Wiedergabe in einer Schleife kann genauer auf Unterschiede geachtet werden.

Der gesamte Vorgang wird fünfmal wiederholt.

Vielen Dank für die Teilnahme

92 Anhang

Bewertungsbogen

Name:______Studienjahr:_____ Algorithmus:____ Die Unterschiede von Version zwei bezogen auf Version eins sind anzugeben Parameter Definition 3 2 1 0 1 2 3 Bemerkungen Raumeindruck veränderte Räumlichkeit räumlicher trockener Dialog Tiefenstaffelung bezogen auf weiter hinten weiter vorne Lautsprecherebene gesamte Mischung Lokalisation Eindeutigkeit der verschwommener klarer Richtungswahrnehmung Dialog Klangfarbe subjektiver Präsenzeindruck weicher härter verringerte S-, T- und Zischlaute, Transienten Dialog, Musik, Effekte Rauhigkeit glatter rauer Dialog unsauberer reiner Baßmanagement dünner basslastiger Musik Stereoeindruck empfundene Stereobreite schmaler breiter Dynamik Lautheitseindruck leiser lauter gesamte Mischung

Parameter Definition 1 2 3 4 5 6 7 Bemerkungen Artefakte Stottern, Blubbern nicht vorhanden vorhanden Musik, Dialog Phasigkeit nicht vorhanden vorhanden Dialog, Effekte

Grafische Auswertung Hörversuch

DIRAC Dispersionsindex Parameter: weicher härter rauer glatter Klangfarbe unsauberer reiner dünner basslastiger

räumlicher trockener Raum- eindruck weiter hinten weiter vorne

Dynamik leiser lauter Stereo- schmaler breiter eindruck Lokalisations- verschwommener klarer schärfe -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 17 Ergebnis Hörtest DIRAC

93 Anhang

Elastique Dispersionsindex Parameter: weicher härter rauer glatter Klangfarbe unsauberer reiner dünner basslastiger

räumlicher trockener Raum- eindruck weiter hinten weiter vorne

Dynamik leiser lauter Stereo- schmaler breiter eindruck Lokalisations- verschwommener klarer schärfe -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 18 Ergebnis Hörtest Elastique

Model 585 Dispersionsindex Parameter: weicher härter rauer glatter Klangfarbe unsauberer reiner dünner basslastiger

räumlicher trockener Raum- eindruck weiter hinten weiter vorne

Dynamik leiser lauter Stereo- schmaler breiter eindruck Lokalisations- verschwommener klarer schärfe -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 19 Ergebnis Hörtest Model 585

MPEX Dispersionsindex Parameter: weicher härter rauer glatter Klangfarbe unsauberer reiner dünner basslastiger

räumlicher trockener Raum- eindruck weiter hinten weiter vorne

Dynamik leiser lauter Stereo- schmaler breiter eindruck Lokalisations- verschwommener klarer schärfe -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 20 Ergebnis Hörtest MPEX

94 Anhang

Pitch 'n Time Dispersionsindex Parameter: weicher härter rauer glatter Klangfarbe unsauberer reiner dünner basslastiger

räumlicher trockener Raum- eindruck weiter hinten weiter vorne

Dynamik leiser lauter Stereo- schmaler breiter eindruck Lokalisations- verschwommener klarer schärfe -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 21 Ergebnis Hörtest Pitch ’n Time

Radius Dispersionsindex Parameter: weicher härter rauer glatter Klangfarbe unsauberer reiner dünner basslastiger

räumlicher trockener Raum- eindruck weiter hinten weiter vorne

Dynamik leiser lauter Stereo- schmaler breiter eindruck Lokalisations- verschwommener klarer schärfe -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 22 Ergebnis Hörtest Radius

Klangfarbe - Transienten Dispersionsindex

weicher härter DIRAC Elastique

Model 585 MPEX Pitch 'n Time Radius -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 33 Vergleich der Algorithmen im Bezug auf Transientendarstellung

95 Anhang

Klangfarbe - Rauhigkeit Dispersionsindex

rauer glatter DIRAC Elastique

Model 585 MPEX Pitch 'n Time Radius -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 34 Vergleich der Algorithmen im Bezug auf Rauhigkeit

Klangfarbe - Bassmanagement Dispersionsindex dünner basslastiger

DIRAC

Elastique

Model 585

MPEX

Pitch 'n Time

Radius -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 35 Vergleich der Algorithmen im Bezug auf Bassmanagement

Raumeindruck Dispersionsindex

räumlicher trockener DIRAC Elastique

Model 585 MPEX Pitch 'n Time Radius -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 36 Vergleich der Algorithmen im Bezug auf Raumeindruck

96 Anhang

Tiefenstaffelungsebene Dispersionsindex

weiter hinten weiter vorne DIRAC Elastique

Model 585 MPEX Pitch 'n Time Radius -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 37 Vergleich der Algorithmen im Bezug auf Tiefenstaffelungsebene

Dynamikeindruck Dispersionsindex

leiser lauter DIRAC Elastique

Model 585 MPEX Pitch 'n Time Radius -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 38 Vergleich der Algorithmen im Bezug auf Dynamikeindruck

Stereoeindruck Dispersionsindex

schmaler breiter DIRAC Elastique

Model 585 MPEX Pitch 'n Time Radius -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 39 Vergleich der Algorithmen im Bezug auf Stereoeindruck

97 Anhang

Lokalisationsschärfe Dispersionsindex verschwommener klarer

DIRAC Elastique

Model 585 MPEX Pitch 'n Time Radius -3 -2 -1 0 1 2 3 0,5 0,6 0,7 0,8 0,9 1

1. Quartil Median 2. Quartil

Abb. 40 Vergleich der Algorithmen im Bezug auf Lokalisationsschärfe

Stottern, Blubbern Dispersionsindex nicht vorhanden vorhanden

DIRAC Elastique

Model 585 MPEX Pitch'n Time Radius 1 2 3 4 5 6 7 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Median 2. Quartil

Abb. 41 Vergleich der Algorithmen im Bezug auf die Artefakte „Stottern, Blubbern“

Phasigkeit Dispersionsindex nicht vorhanden vorhanden

DIRAC Elastique

Model 585 MPEX Pitch'n Time Radius 1 2 3 4 5 6 7 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Median 2. Quartil

Abb. 42 Vergleich der Algorithmen im Bezug auf das Artefakt „Phasigkeit“

98 Anhang

Befragung Postproduktionsfirmen

27.04.2012 Telefonat mit Bernd Clauss, Technical Manager Sound Film & TV Group bei Arri

Auf welche Art und Weise beschleunigen oder verlangsamen Sie Filmmischungen um sie an andere Frameraten anzupassen? (Umspielung mit ADDA Wandlung und dabei Wiedergabe oder Aufnahme mit veränderter Geschwindigkeit, Sample Rate Konvertierung, Time Stretch Software/Plugins)? BC: Es gibt kein standardisiertes Verfahren. Möglichkeiten sind Umspielung mit veränderter Clock (Tascam Dubber MMP16) oder Umrechnung im Pro Tools. Meist wird die Umrechnung in Pro Tools gewählt.

Wird bei Veränderung der Abspielgeschwindigkeit auch die Tonhöhe angepasst? BC: Ein wichtiger Faktor dafür ist, ob am Ende der Postproduktion noch Geld dafür übrig ist. Hier gibt es beide Fälle: Es wird nur der komplette Mix in der Zeit verändert („es ist ja ein Kinofilm“), es wird auch die Tonhöhe angepasst.

Wer entscheidet, ob eine Mischung nur beschleunigt/verlangsamt, oder ob auch die Tonhöhe angepasst wird? (Produktionsfirma, Regisseur, Sound Supervisor) BC: Das entscheidet der Kunde. Wir sind ein Dienstleister. Würde ARRI nach einer Empfehlung gefragt werden, so würde auch eine Tonhöhenkorrektur durchgeführt werden.

Wenn eine Tonhöhenkorrektur durchgeführt wird, wird dann der komplette Mix oder werden Stems (mit unterschiedlichen Einstellungen) bearbeitet? BC: Wir empfehlen so früh wie möglich die Zeitveränderung und Tonhöhenkorrektur durchzuführen. Dieser Zeitpunkt ist ab der Erstellung der Stems.

Wird zur Tonhöhenkorrektur Hardware (Dolby Model 585) oder Software (Serrato Pitch´n Time, Avid XForm...)verwendet? BC: Das entscheidet der jeweilige Tonmeister. Er muss das Ergebnis künstlerisch Vertreten und kennt auch das Tonmaterial am besten. Ein standardisiertes Verfahren empfehlen wir nicht. Wir besitzen das Dolby Model 585, was unserer Erfahrung nach sehr gut für Dialog funktioniert. Dieses Gerät arbeitet allerdings in Echtzeit und erzeugt ein nicht unerhebliches Delay, was wieder ausgeglichen werden muss. Es kann aber auch sein, dass ein Tonmeister die Algorithmen in Nuendo bevorzugt und zu diesem Zweck ein Nuendosystem verwendet. Außerdem verwenden wir auch eine Anzahl an Plugins. Da muss von Fall zu Fall entschieden werden. Es kann auch sein, dass innerhalb des Musikstems, von Cue zu Cue, eine andere Einstellung oder anderes Plugin Verwendung findet. Eine Möglichkeit könnte es sein, den Dialog mit dem Dolby Model 585 und die Musik mit Software in der Tonhöhe zu korrigieren, aber die Effekte mit veränderter Tonhöhe zu belassen. Ob eine Explosion einen Halbton höher oder tiefer ist, ist nicht so auffällig. Bei uns kommen das Dolby Model 585 und verschiedene Plugins zum Einsatz. Hierbei ist aber auch zu beachten, dass das Dolby Gerät ca. 8000EUR kostet und es auch bei Plugins eine sehr große Preisspanne gibt. Wir gehen davon aus, dass bei uns sehr hochwertige Produkte zum Einsatz kommen.

Ein weiteres Problem, das bei der Framratenkonvertierung auftaucht, ist die Veränderung des Taktes. Dagegen können wir leider nichts tun.

Die Beschleunigung von 24fps auf 25fps funktioniert meiner Meinung nach sehr gut. Von 25fps auf 24fps kann ich nicht empfehlen.

99 Anhang

03.05.2012 Gespräch mit Eric Horstmann Technischer Leiter Rotor Film, vorher The Post Republic

Auf welche Art und Weise beschleunigen oder verlangsamen Sie Filmmischungen um sie an andere Frameraten anzupassen? (Umspielung mit ADDA Wandlung und dabei Wiedergabe oder Aufnahme mit veränderter Geschwindigkeit, Sample Rate Konvertierung, Time Stretch Software/Plugins)? EH: Dies geschieht meist über eine SRC im Pro Tools. Dies klingt meiner Erfahrung nach am besten. Außerdem hat man sofort die Kontrolle anhand des Quicktimefilms, ob die Konvertierung synchron ist. Manchmal findet auch Pitch´n Time von Serato oder die TimeFactory von Prosoniq Verwendung.

Wird bei Veränderung der Abspielgeschwindigkeit auch die Tonhöhe angepasst? Das hängt davon ab, ob der Kunde das möchte und ob er diese Tonhöhenkorrektur auch bezahlen kann/möchte.

Wer entscheidet, ob eine Mischung nur beschleunigt/verlangsamt, oder ob auch die Tonhöhe angepasst wird? (Produktionsfirma, Regisseur, Sound Supervisor) Dies entscheidet der Kunde. Ich rate eigentlich davon ab, da das Ergebnis meist nicht zufrieden stellend ist. Außerdem ist der Kunde in den wenigsten Fällen dazu bereit, den Mehraufwand zu bezahlen.

Wenn eine Tonhöhenkorrektur durchgeführt wird, wird dann der komplette Mix oder werden Stems (mit unterschiedlichen Einstellungen) bearbeitet? Wenn eine Tonhöhenkorrektur durchgeführt wird, dann empfehle ich Dialog und FX über Varispeed zu verändern und dort die Tonhöhe zu belassen. Lediglich der Musikstem sollte in der Tonhöhe korrigiert werden. Artefakte hört man meiner Meinung nach besonders schnell bei Dialog, transienten Effekte oder auch Foleys. Schritte draußen klingen dann auf einmal „matschig“ und seltsam räumlich.

Ein großes Problem, besonders bei Filmen mit viel Popmusik im Soundtrack, ist die Veränderung der Geschwindigkeit. Dagegen können wir leider gar nichts machen, bis die Bildleute die Konvertierungen vielleicht irgendwann ohne Veränderung der Dauer hinbekommen.

Wird zur Tonhöhenkorrektur Hardware (Dolby Model 585) oder Software (Serato Pitch´n Time, Avid XForm...)verwendet? Das Dolby Model 585 haben wir nicht hier. Aber die Tonhöhenveränderungen, die ich von diesem Gerät schon gehört habe, haben mich nicht begeistert. Ich habe gute Erfahrungen mit Pitch´n Time von Serato, Avid XForm und vor allem mit Prosoniqs TimeFactory gemacht. Mit den Ergebnissen, die TimeFactory liefert, war ich zum Teil sehr zufrieden. Leider ist diese Software sehr auf Musik ausgerichtet. Wenn sie Algorithmen, die auf die Bedürfnisse von Filmsoundtracks ausgerichtet sind, beinhalten würde, könnte ich mir sehr gute Ergebnisse vorstellen.

Früher haben wir die Frameraten Konvertierung mit Perfomaten gemacht. Dabei haben wir bei der Aufnahme einen der beiden Perfomaten mit veränderter Abspielgeschwindigkeit laufen lassen und das Audiosignal dann wieder aufgenommen.

03.05.2012 eMail von Stephan Rüdel Diplom-Toningenieur, Cheftonmeister interaudio Tonstudio GmbH

Hallo Herr Thumm, ich kann zwar nicht für alle Kino-Film-Mischungen sprechen, aber wohl für einige. Generell gibt es hierbei keine fixe Bearbeitung, vielmehr machen das die Produktionsfirmen wohl so, wie sie es eben machen. Soll heissen: wird ein Kinofilm im (deutschen) TV gezeigt, gilt, dass bei einer 24 fps 35mm Produktion das Bild ja mit 25 fps wiedergegeben (eigentlich schon gemazt) wird. Insofern läuft natürlich auch der Ton schneller und höher. Gilt sicherlich für recht viele (wenn nicht die meisten) Filme. (BTW laufen Filme in manchem Kino bereits im Projektor mit 25 fps, weil dann der Vorführer mehr Zeit hat zwischen den Vorstellungen). dem deutschen Zuhörer fällt dies offensichtlich meistens nicht auf....

100 Anhang

Bei einigen Produktionen wird der Ton fürs TV korrigiert (also tiefer gerechnet) um die originale Tonhöhe wieder zu erlangen (wobei natürlich die Geschwindigkeit nach wie vor schneller ist).

Hängt m.E. nach vom Inhalt des Filmes ab, aber auch von der Produktionsfirma (kostet ja, insofern wird kalkuliert nach dem Motto "hört's einer?").

Wir konvertieren von 24 fps nach 25 fps eigentlich immer per Sample Rate Conversion (im Pro Tools), weil da recht sicher gestellt ist, dass die Phasengenauigkeit erhalten bleibt. Tonhöhe wird (wenn überhaupt) mittels Dolby CAT 585 erstellt. Manchmal in STEMS manchmal der ganze 5.1 Mix. Hängt wiederum davon ab, ob wir einen TV Downmix (limitiert oder nach R128 machen...) oder nicht...

Weiss nicht, ob das Ihre Fragen ausreichend beantwortet - sonst mailen Sie mir doch noch mal.

11.05.2012 eMail von Stephan Rüdel Diplom-Toningenieur, Cheftonmeister interaudio Tonstudio GmbH

Hallo Herr Thumm,

Über den Cat 585 ist zu sagen, dass der eben phasenstarr den 5.1 Ton pitchen kann. Also nicht 3 Durchläufe, sondern nur einer. Das Gerät kann in beide Richtungen pitchen, es lässt sich die Latenzzeit einstellen (was wiederum der internen Bearbeitungszeit entspricht), getaktet wird über den AES Eingang oder wordclock - recht professionell.

Klingt gut, Artefakte kenne ich aus dem Gerät nicht, Audiofiles klingen prima. Deswegen verwenden wir ihn ja auch (wie auch andere Firmen, die sich das Gerät jedes Mal bei Dolby ausleihen, wir haben es sozusagen im Auftrag von Dolby hier bei uns stehen).

Betreffs einer eventuellen Bedienungsanleitung müssten Sie schon mit Dolby referieren - falls Sie diese benötigen.

Ich kann mich erinnern, dass es mal seitens einer anderen Firma 3 verkoppelte Stereomaschinen gab, aber das war keine absolut phasenstarre Lösung, soweit ich weiss. Mir ist kein anderes Gerät bekannt, dass in dieser Qualität diese Anforderung so gut löst.

08.05.2012 Telefonat mit Rudi Neuber Technischer Leiter Ton Cinepostproduction Bavaria Bild &

Auf welche Art und Weise beschleunigen oder verlangsamen Sie Filmmischungen um sie an andere Frameraten anzupassen? (Umspielung mit ADDA Wandlung und dabei Wiedergabe oder Aufnahme mit veränderter Geschwindigkeit, Sample Rate Konvertierung, Time Stretch Software/Plugins)? RN: Bis vor kurzem haben wir die Beschleunigung von Mischungen in einer Überspielung gemacht, da unsere Tonmeister davon überzeugt waren, dass dieser Weg klanglich der Beste sei. Dabei wurde die Mischung nach einer DA Wandlung wieder aufgenommen. Die Aufnahmemaschine lief dabei mit veränderter Geschwindigkeit. Nach erneuten Vergleichen und Hörtest sind wir aber zu dem Ergebnis gekommen, dass die Sample Rate Conversion in Pro Tools keinen klanglichen Unterschied macht und Verändern die Geschwindigkeit von Mischungen seitdem auf diese Art und Weise.

Wird bei Veränderung der Abspielgeschwindigkeit auch die Tonhöhe angepasst? RN: Das erste Mal, dass wir eine Tonhöhenkorrektur der 25fps Version eines Films durchgeführt haben, war auf Kundenwunsch bei „Die Päpstin“. In diesem Film übernimmt eine Frau das Amt des Papstes und spricht entsprechend mit tiefer Stimme. Bei der Beschleunigung der Mischung ohne Tonhöhenkorrektur hätte die erhöhte Stimmlage für eine andere Wahrnehmung der Hauptdarstellerin gesorgt. Dies wollte der Kunde vermeiden. Das zweite Projekt war der Film von Bushido. Hier ging es wohl auch um die Sprechtonhöhe von Bushido. Diese sollte auf DVD und im Fernsehen nicht anders klingen als im echten Leben. Seit diesem Zeitpunkt hat es sich wohl bei unseren Kunden herumgesprochen, dass wir auch die Tonhöhe bei veränderter Abspielgeschwindigkeit korrigieren können. Bei nahezu allen folgenden Projekten haben

101 Anhang wir bei der 25fps Version eine Tonhöhenkorrektur auf Kundenwunsch durchgeführt. Diese sind außerdem auch bereit die Kosten für den Mehraufwand zu tragen. Denn die Tonhöhenkorrektur erfordert einen Tonmeister und auch Studiozeit.

Wenn eine Tonhöhenkorrektur durchgeführt wird, wird dann der komplette Mix oder werden Stems (mit unterschiedlichen Einstellungen) bearbeitet? Wir haben das nur ein oder zweimal mit kompletten Mischungen versucht. Dabei haben wir sehr schnell bemerkt, dass beim Pith Shifting einer kompletten Mischung sehr schnell Artefakte auftreten. Seit diesem Zeitpunkt führen wir die Tonhöhenkorrektur nur noch in den Stems durch.

Wird zur Tonhöhenkorrektur Hardware (Dolby Model 585) oder Software (Serrato Pitch´n Time, Avid XForm...)verwendet? Wir haben diverse Geräte getestet, unter anderem auch das Dolby Model 585 und auch Hardware der französischen Firma Genesis. Von Genesis waren das sogar nur Stereogeräte, so dass wir gleich mehrere hätten kaufen müssen. Unsere Tonmeister waren aber von beiden Geräten nicht überzeugt und konnten bei Tests sehr schnell hörbare Artefakte feststellen. Seit einiger Zeit verwenden wir nun Pitch’n Time von Serrato. Hier auch mit unterschiedlichen Einstellungen für den jeweiligen Stem. Sollte dann beim erneuten Zusammenmischen etwas auffallen, kann die entsprechende Stelle auch mit anderer Einstellung noch einmal gemsicht werden. Auf diese Weise sind wir mir den Ergebnissen zufrieden.

09.05.2012 eMail von Peter Eliuk technical manager & re-recording mixer bei dbc sound inc in Vancouver

Hi Michael!

To be truthful, I haven't been asked to pitch correct any elements in years. 90 percent of the time I only deliver in one frame rate. These days its 23.98 as a North American standard. Afterwards, if Pal deliverables are needed, most of the time the Labs will create the Pal Master Tapes. I am not sure (though I doubt) whether or not they do pitch correction during that conversion.

When I do have to deliver for Pal, I do not pitch correct if I speed correct (which I do with Protools) In fact, I will often get asked to deliver my audio without time correction for Pal, but rather to simple lay the "23.98" audio in a 25fps timeline. I have no idea how the picture side can get away with this but they seem to, somehow. So I''m afraid I can't be of much help. It hasn't come up as an issue, really. Best of luck. Peter

11.05.2012 eMail von Nathan Bishop Sound Transfer NBC Universal Diese eMails stellen die persönliche Meinung von Nathan Bishop dar und sind nicht als offizielle Antwort von NBC Universal zu verstehen.

Hi Michael,

Your email has been forwarded to me, and I will give my best shot at answering your questions. For the simplest answer, pitch correction is avoided in almost all but a few cases due to the adverse artifacts it causes the audio. The more complex answer is that the methods we use are dependent on the source and the end result.

Most film/feature material for theatrical distribution is shot at 24fps, and as long as it is exhibited as such in a theater, the audio pitch is not altered in any meaningful way. Home video, as you mention in your email, is a different set of challenges. I’m probably going to repeat some things you already know, but bear with me.

Originally there were only two standards for home video, NTSC at 29.97fps and PAL at 25fps. To present film based material in either of the formats, it had to be converted. For NTSC, it was slowed down by 0.1% to 23.976fps, and then went through a 2:3 Pulldown process by which odd and even lines

102 Anhang are repeated to create new frames. For PAL, it was sped up by 4.16% so no new frames were created, the originals were played back fast. Of course, this resulted in a pitch change with the speed change, but at the time there were no pitch correction processes, so it was left as pitched up.

With the advent of digital processing for both video and audio, we were given new choices of being able to pitch correct the audio, but also the possibility of altering the video frames. Unfortunately, both of these creates undesired artifacts, so it was decided to only use them in certain scenarios.

For audio pitch correction, the main use is usually on musicals, such as West Side Story or Phantom of the Opera. That way, you would not have people in different parts of the world listening to the same featured songs in different keys. Even this is not a de-facto standard, but used on an as-requested basis. Also there are some actors who I cannot mention that do not like the sound of their voice pitched up, so they request pitch correction.

On the other hand, we have had tools for the last decade or more to do a conversion to the video, by which the source frames are analyzed and the motion of the pixels plotted with various vectors. Then using a process called motion compensated frame blending, new frames are created as a mixture of the old frames. Unfortunately, this causes issues with motion artifacts where the vectors aren’t able to track correctly, distorting the video in some areas, and you also end up with motion blur across all of the frames. Essentially, you are trading audio artifacts for video artifacts if you were to use this as a means of standards converting from NTSC to PAL or Film to PAL. This process is sometimes referred to as an Alchemist conversion, named for the box manufactured by Snell and Wilcox.

Where the video conversion is preferred is if you have material shot with video cameras running at 29.97 or 25 interlaced. How the chips in these cameras record is they capture every other line first, then the alternate lines second. Well, this takes a small amount of time between capturing lines, so the image has actually shifted somewhat in this timeframe. This causes the image for half the lines to be different from the other half, often called interlacing. The only way to standards convert is to run this through a processing box like the Alchemist. Again, since the frames are converted in real-time, no pitch shift takes place but it also causes the same blended frame artifacts. In America, we see all European TV program- ming that way, and I imagine a large amount of our television that was not shot on film is presented the same way in Europe. Some Live concerts are also done in this manner. That way you do not have to alter the audio in any way, presenting the music as first with the video as second.

With Bluray and HDTV, we now have a system of playback that can handle many different frame rates and standards. To cut costs, most TVs now are made the same no matter what country they will be used in, except for the power supply. A HDTV sold in America can playback PAL and a HDTV sold in Germany can playback NTSC. Of course, both of these TVs can also play 23.976 or 24fps material as well. Again, to cut costs, it was decided by American studios that some Bluray material would be made at 23.976, no matter where it is released. The players have built-in functionality to add a 2:3 pulldown to make NTSC, or even to play the material back 4.16% fast to PAL if needed.

Well, I hope this helps you out. If you have any further questions feel free to email me back.

All the best,

Nathan Bishop

103 Anhang

22.05.2012 eMail von Nathan Bishop Sound Transfer NBC Universal

Hi Michael,

I apologize for my late response. Work has been very busy lately, so I have not had much free time.

For material that is released in Germany in theaters, the situation has become better. We are now sending out video and audio running at true 24fps, which when they dub to no speed change is necessary. At this point, Television is the big area that is still having speed up/pitch issues, but also any feature length material that was not shown theatrically. A large part of the problem is that, as I mentioned in the previous email, there is no exact standard. Some people will request the material as PAL that has been sped up, some will request the material at 24F that has not. Also, some of the foreign territories we deliver do their own pitch change, some do not.

In our audio department, we only do pitch changes when specifically requested, as it is an extra cost. I find that with all of the studios cutting costs, they are not willing to pay for the extra work, even if we had a perfect pitch changing algorithm. According to U.S. Union guidelines, any such pitch changing would constitute altering the mix, and thus would have to be handled by a mixer on a dubbing stage. This is not a cheap thing to do.

As far as pitch correcting stems, again it would depend on cost involved and if the stems were even available. On most of the Universal titles, we only send out a combined Music and Filled Effects mix. Any dubbing facility that receives such would only be able to pitch change across the whole thing. If a facility requests stems, again it is an extra cost not only in time involved to package them together but also in data cost to send them.

When we do pitch change, we have found software to provide better results than hardware. Serato is the go-to Plugin we currently use. When we speed up or slow down the audio, we do so using the SRC in Pro Tools. Instead of changing the ProTools rate and re-recording to another machine, we simply SRC on Import with TweakHead settings. Industry testing of SRC algorithms have found that ProTools has one of the better algorithms, producing a very close to ideal SRC. There are a few better algorithms out there, but the difference is not enough to warrant complicating the process further.

In the end, there is no simple answer to your question. If we send 25F to Germany, and they record without pitch correction, it will play on TV with normal dialogue but pitched M&E. When we make the 23.98 Bluray, we either end up with pitched down dialogue and normal M&E or normal dialogue and pitched up M&E. If we send 25F to Germany and they pitch correct the M&E and then record dialogue, it will sound completely normal when played on TV. However, when we make the 23.98 Bluray, we either have to pitch all of it down, or pitch correct a second time, introducing even more artifacts.

The only clear answer is to have everyone run at 24F. If German TV, Theaters, American TV, and Theaters all ran at 24, then you would have no pitch problems and would have no interoperability problems. However, the concept of 25F/29.97F has been embedded for over 60 years. Even with HDTV, it seems no one was quite ready to make the switch to a world-wide standard, mostly as it would have caused problems with SD signals. Perhaps the next version of HDTV will finally unify everything.

-Nathan

104 Anhang

Literaturverzeichnis

[AAGF02] Abramson, Albert, „Die Geschichte des Fernsehens”, 1.Auflage (2002), München: Wilhelm Fink Verlag [AXSP02] Amatriain, X; Bonada, J; Loscos, A; Serra, X, „Spectral Processing“ in „Digital Audio FX”, Seite 373-435, 1.Auflage (2002), West Sussex: John Wiley & Sons Ltd [CBHQ03] Crockett, Brett G., „High Quality Multi-channel Time-Scaling and Pitch- Shifting using Auditory Scene Analysis”, AES Convention Paper 5948, 2003, New York: presented at the 115th AES Convention [DPLA08] Dette, Philipp von; Faude, Oliver; Meyer, Tim, „Leitfaden zur statistischen Auswertung von empirischen Studien”, 2008, Paderborn: Institut für Sport- medizin, Universität Paderborn [DMPV86] Dolson, Mark, „The Phase Vocoder: A Tutorial“ in Computer Music Journal, Vl. 10, No. 4, pp. 14-27, 1986, Cambridge, The MIT Press [DPTP02] Dutilleua, P., De Poli, G., Zölzer, U., „Time-Segment Processing“ in „Digital Audio FX”, Seite 201-236, 1.Auflage (2002), West Sussex: John Wiley & Sons Ltd [HBKS98] Hartwig, Bodo, „Klangvergleich eines historischen Spinetts mit einer originalgetreuen Kopie”, Diplomabreit im Studiengang Ton- und Bildtech- nik an der Fachhochschule Düsseldorf, 1998, Düsseldorf [HJKH08] Hellbrück, Jürgen; Ellermeier, Wolfgang; Kohlrausch, Armin; Zeitler, Alfred, „Kompendium zur Durchführung von Hörversuchen in Wissenschaft und industrieller Praxis“, 2008, Berlin: Deutsche Gesellschaft für Akustik e.V. [LJTA02] Laroche, Jean, „Time and Pitch Scale Modification of Audio Signals“ in „Applications of Digital Signal Processing to Audio and Acoustics”, Seite 289-303, erste Auflage 2002, New York: Kluwer Academic Publishers [LJPV97] Laroche, Jean; Dolson, Mark, „Phase-Vocoder: About this phasiness business“, 1997, Electrical Engineering Department, Columbia University, New York [MGGF05] Mahler, Gerhard, „Die Grundlagen der Fernsehtechnik – Systemtheorie und Technik der Bildübertragung“, 1.Auflage (2005), Berlin: Springer-Verlag [MJWT02] Maier, Josef, „Wavelets - Ein neues Werkzeugin der digitalen Signal- und Bildanalyse”, 2002, München, Vorlesungsskript Hochschule für angewandte Wissenschaften [NGWN08] Neidhöfer, Gerhard, „Der Weg zur Normfrequenz 50Hz“ in Bulletin 17 Seite 29-34, 2008, Fehraltorf, SEV/AES [PRWT01] Polikar, Robi, „The Wavelet Tutorial”, 2001, Glassboro, Rowan University Web Servers [PCDV07] Poynton, Charles, „Digital Video and HDTV – Algorithms and Interfaces“, 5. Auflage 2001, San Francisco: Morgan Kaufmann Publishers [RJGL86] Ristow, Jürgen, „Vom Geisterbild zum Leinwandfilm“, 1.Auflage (1986), Leipzig: VEB Fotokinoverlag [SUPV05] Schmidt, Ulrich, „Professionelle Videotechnik“, 4. Auflage (2005), Berlin: Springer-Verlag [TPIP10] Park, Tae Hong, „Introduction to Digital Signal Processing – Computer Musically Speaking“, 1.Auflage (2010), Singapore: World Scientific Pub- lishing Co. Pte. Ltd.

105 Anhang

Technische Richtlinien

[TRAT05] ATSC Document A/52B, „Digital Audio Compression Standard (AC-3, E- AC-3) Revision B”, 2005, Washington D.C. [TRAT09] ATSC Document A/53 Part 4, „ATSC Digital Television Standard: Part 4 – MPEG-2 Video System Characteristics”, 2009, Washington D.C. [TRAT97] ATSC Document A/63, „Standard for Coding 25/50 Hz Video”, 1997, Washington D.C. [TRAT08] ATSC Document A/72 Part 1, „ATSC Standard: Video System Characteris- tics of AVC in the ATSC Digital Television System”, 2008, Washington D.C. [TRBD05] Blu-ray Disc Association, „ White paper Blu-ray Disc Format 2.B Audio Visual Application Format Specifications for BD-ROM“, 2005 [TRDE12] Digitaleurope, „HD ready 1080p License Agreement”, 2012 [TREB10] EBU – TECH 3299, „High Definition (HD) Image Formats for Television Production”, 2010, Genf [TRET11] ETSI TS 101 154 V1.10.1 (2011-06), „Digital Video Broadcasting (DVB); Specification for the use of Video and Audio Coding in Broadcasting Appli- cations based on the MPEG-2 Transport Stream”, 2011, Sophia Antipolis Cedex

Internetadressen gelesen am 20.08.2012

[WWW01] Brownlow, Kevin, „Silent Films-What Was the Right Speed?”, 1980 http://web.archive.org/web/20110708155615/http:/www.cinemaweb.com/sile ntfilm/bookshelf/18_kb_2.htm [WWW02] Read, Paul; Meyer Mark-Paul, „Restoration of Motion Picture Film”, 2000, Woburn, Butterworth-Heinemann http://books.google.de/books?id=OKZzxUV33zUC&pg=P- A7&hl=de&source=gbs_selected_pages&cad=3#v=onepage&q&f=false, Seite 24 [WWW03] Schmidt, Robert F.; Lang, Florian; Thews, Gerhard, “Physiologie des Menschen mit Pathophysiologie”, 29, Auflage, 2004, Berlin, Springer- Verlag http://books.google.de/books?hl=de&id=Ig0Ah9bpYfAC&dq=flimmerfusi- onsfrquenz&q=flimmerfusionsfrequenz#v=snippet&q=flimmerfusionsfreque nz&f=false, Seite 389 [WWW04] Wikipedia Artikel „National Television Systems Committee“ http://de.wikipedia.org/wiki/National_Television_Systems_Committee [WWW05] Apple Cinema Tools Online Handbuch, „Frame Rate Basics” http://documentation.apple.com/en/cinematools/usermanual/ [WWW06] Wikipedia Artikel „Telecine“ http://en.wikipedia.org/wiki/Telecine [WWW07] DVB Website http://www.dvb.org/about_dvb/history/ [WWW08] ARD Website http://www.ard-digital.de/ARD-Digital/FAQ/HDTV---Format/HDTV--- Format [WWW09] Website „VideoHelo.com” http://forum.videohelp.com/threads/316677-NTSC-HDTV-is-usually- broadcast-at-23-976fps-yes

106 Anhang

[WWW10] Wikipedia Artikel „DVD-Video” http://en.wikipedia.org/wiki/DVD-Video [WWW11] Website „DVD Demystified” http://www.dvddemystified.com/dvdfaq.html#3.4 [WWW12] Website „Hughsnews” http://www.hughsnews.ca/faqs/authoritative-Blu-ray-disc-bd-faq/4-physical- logical-and-application-specifications#4.1 [WWW13] Website „AVSForum” http://www.avsforum.com/t/1155731/new-unofficial-blu-ray-audio-and- video-specifications-thread [WWW14] Wikipedia Artikel „HD Ready” http://de.wikipedia.org/wiki/HD_ready [WWW15] DCI Website http://www.dcimovies.com/ [WWW16] Wikipedia Artikel „HDCAM” http://de.wikipedia.org/wiki/HDCAM#B.C3.A4nder [WWW17] http://www.sony.de/biz/product/hdcamvtrs/srw-5500-2/features [WWW18] Bernsee, Stephan M., „Mit Helium gegen Godzilla - Zeitkorrektur mit Steinbergs Wavelab 6“ http://recording.de/Magazin/Workshops/Wissen/33/Mit+Helium+gegen+Go dzilla+-+Zeitkorrektur+mit+Steinbergs+WaveLab+6.html#article [WWW19] Kleijn, Kommer, „Additional Frame Rates Standardized by SMPTE“ http://www.imago.org/index.php?new=76 [WWW20] zplane Website http://www.zplane.de/index.php?page=description-elastique [WWW21] Serato Website http://serato.com/pitchntime-le/support/1649/why-does-serato-pitch-n-time- work-better-than-other-time-and-pitch-shifters [WWW22] HEADacoustics Website http://www.headacoustics.de/de/nvh_application_notes_jury_evaluation.htm [WWW23] Izotope RX online Manual http://www.izotope.com/support/help/rx/index.html [WWW24] Wikipedia Artikel „Cent (Musik)” http://de.wikipedia.org/wiki/Cent_%28Musik%29

Befragung Postproduktionsfirmen

[BFNB] Bishop, Nathan, Sound Transfer bei NBC Universal, eMails am 11.05. und 22.05.2012 [BFBC] Clauss, Bernd, Technical Manager Sound Film & TV Group ARRI, Telefonat am 27.04.2012 [BFPE] Eliuk, Peter, technical manager & re-recording mixer bei dbc sound inc, eMail am 09.05.2012 [BFEH] Horstmann, Eric, Technischer Leiter Rotor Film, persönliches Gespräch am 03.05.2012 [BFSR] Rüdel, Stephan, Diplom Toningenieur und Cheftonmeister bei interaudio Tonstudio GmbH, eMails am 03.05. und 11.05.2012 [BFRN] Neuber, Rudi, Chef Ingenieur der Tonstudios bei Cinepostproduction - Bavaria Bild & Ton, Telefonat am 08.05.2012

107 Anhang

Abbildungsverzeichnisverzeichnis

Abb. 1 NTSC Signalzusammensetzung...... 6 Abb. 2 Aufbau Phasen-Vocoder...... 21 Abb. 3 Filteraufbau Phasen-Vocoder ...... 22 Abb. 4 Darstellung Sinus am Einheitskreis ...... 23 Abb. 5 Vergleich FT und Wavelet Transformation...... 26 Abb. 6 Meyer Wavelet; Mexican Hat Wavelet ...... 27 Abb. 7 Reihe von Hochpass- und Tiefpassfiltern zur diskreten Wavelet-Transformation ...... 28 Abb. 8 Time-Stretching mit SOLA ...... 30 Abb. 9 Tonhöhenveränderung mit PSOLA ...... 31 Abb. 10 Anteil tonhöhenkorrigierter Filme...... 40 Abb. 11 Pro Tools Import von Audiodateien oder Session Daten mit SRC...... 44 Abb. 12 Dolby Model 585 Ein- und Ausgänge ...... 50 Abb. 13 Screenshot Elastique...... 54 Abb. 14 Sreenshot TimeFactory 2...... 56 Abb. 15 Screenshot X-Form...... 60 Abb. 16 Screenshot Pitch ’n Time Pro ...... 64 Abb. 17 Ergebnis Hörtest DIRAC...... 77 Abb. 18 Ergebnis Hörtest Elastique ...... 78 Abb. 19 Ergebnis Hörtest Model 585...... 78 Abb. 20 Ergebnis Hörtest MPEX ...... 79 Abb. 21 Ergebnis Hörtest Pitch ’n Time ...... 79 Abb. 22 Ergebnis Hörtest Radius ...... 80 Abb. 23 Vergleich der Algorithmen im Bezug auf Transientendarstellung ...... 81 Abb. 24 Vergleich der Algorithmen im Bezug auf Rauhigkeit ...... 81 Abb. 25 Vergleich der Algorithmen im Bezug auf Bassmanagement...... 81 Abb. 26 Vergleich der Algorithmen im Bezug auf Raumeindruck ...... 83 Abb. 27 Vergleich der Algorithmen im Bezug auf Tiefenstaffelungsebene...... 83 Abb. 28 Vergleich der Algorithmen im Bezug auf Dynamikeindruck...... 84 Abb. 29 Vergleich der Algorithmen im Bezug auf Stereoeindruck...... 84 Abb. 30 Vergleich der Algorithmen im Bezug auf Lokalisationsschärfe...... 85 Abb. 31 Vergleich der Algorithmen im Bezug auf die Artefakte „Stottern, Blubbern“...... 85 Abb. 32 Vergleich der Algorithmen im Bezug auf das Artefakt „Phasigkeit“ ...... 86

108 Anhang

Tabellenverzeichnis

Tabelle 1 DVB Video Codecs ...... 11 Tabelle 2 DVB MPEG-2 Bildformate ...... 11 Tabelle 3 DVB H264/AVC oder VC-1 Bildformate ...... 12 Tabelle 4 ATSC MPEG-2 oder H264/AVC Bildformate]...... 14 Tabelle 5 DVD Spezifikationen ...... 15 Tabelle 6 BD-ROM AV Videocodecs...... 15 Tabelle 7 BD-ROM AV Video Stream 2D Spezifikationen...... 16 Tabelle 8 BD-ROM AV Video Stream 3D Spezifikationen...... 16 Tabelle 9 BD-ROM AV Video Audio Spezifikationen...... 16 Tabelle 10 Tonhöhenvergleich zwischen BDs und DVDs ...... 39 Tabelle 11 Kanalkonfiguration Dolby Model 585...... 51 Tabelle 12 Vergleich verschiedener Algorithmen...... 68

109 Anhang

Eidesstattliche Erklärung

Ich erkläre hiermit an Eides Statt, dass ich die vorliegende Arbeit selbstständig und ohne Benutzung anderer als der angegebenen Hilfsmittel angefertigt habe und die den benutzten Quellen wörtlich oder inhaltlich entnommene Stellen als solche kenntlich gemacht habe.

______Potsdam, 30 August 2012

110 Anhang

Danksagung

Zuerst möchte ich mich bei allen Teilnehmern meines Hörversuchs für ihre Geduld bedanken. Ein herzlicher Dank geht auch an Bernd Clauss, Scot Deer, Peter Eliuk, Greg Geier, Scott Hecker, Eric Horstmann, Rudi Neuber, Stephan Rüdel und besonders Nathan Bishop für die bereitwillige Auskunft über die Vorgehensweise bei Frameratenkonvertierungen in den verschiedenen Postproduktionsfirmen. Für die Unterstützung beim Vergleich der verschiedenen Algorithmen bedanke ich mich herzlich bei Stephan M. Bernsee, Christian Lerch, Martin Schwerdtfeger und David Ziegler. Einige Personen, die mich in besonderer Weise bei dieser Arbeit unterstützt haben möchte gerne namentlich erwähnen: Bernhard Albrecht, Bettina Bertók, Paul Rischer, Karl-Heinz Sass, Carina Schlage, Anne-Kathrin Thumm, Ursula Thumm, Bernd Thumm und Paul Wollstadt.

111