Binauraler Ton Für Einen Interaktiven VR-Film

Binauraler Ton für einen interaktiven VR-Film

Masterarbeit im Studiengang Audiovisuelle Medien

vorgelegt von Pablo Knupfer

am 14. März 2018

an der Hochschule der Medien Stuttgart

Fakultät Electronic Media

zur Erlangung des akademischen Grades Master of Engineering

Erstprüfer: Prof. Oliver Curdt

Zweitprüfer: Prof. Dr. Simon Wiest Eidesstaatliche Erklärung

Hiermit versichere ich, Pablo Knupfer, ehrenwörtlich, dass ich die vorliegende Masterarbeit mit dem Titel: „Binauraler Ton für einen interaktiven VR-Film“ selbstständig und ohne fremde Hilfe verfasst und keine anderen als die angegebenen Hilfsmittel benutzt habe. Die Stellen der Arbeit, die dem Wortlaut oder dem Sinn nach anderen Werken entnommen wurden, sind in jedem Fall unter Angabe der Quelle kenntlich gemacht. Die Arbeit ist noch nicht veröffentlicht oder in anderer Form als Prüfungsleistung vorgelegt worden.

Ich habe die Bedeutung der ehrenwörtlichen Versicherung und die prüfungsrechtlichen Folgen (§26 Abs. 2 Bachelor-SPO (6 Semester), § 24 Abs. 2 Bachelor-SPO (7 Semester), § 23 Abs. 2 Master-SPO (3 Semester) bzw. § 19 Abs. 2 Master-SPO (4 Semester und berufsbegleitend) der HdM) einer unrichtigen oder unvollständigen ehrenwörtlichen Versicherung zur Kenntnis genommen.

Stuttgart, den 14. März 2018

______Pablo Knupfer Zusammenfassung

Die vorliegende Arbeit gibt einen Überblick über unterschiedliche Techniken für die Produktion von Audio für Virtual Reality. Neben verschiedenen Mikrofonsystemen werden für VR geeignete Audioformate vorgestellt und Softwares zur Audioproduktion für lineare und interaktive VR- Anwendungen verglichen. Anhand der vorgestellten Möglichkeiten wird eine geeignete Produktionstechnik für einen interaktiven VR-Film entwickelt und deren Anwendung dokumentiert.

Abstract

This work creates an overview of technique for the production of audio for virtual reality. Various microphone systems and audio formats for VR are introduced. Furthermore different software, which can be used for producing linear and interactive VR experiences, is compared. Based on this research a suitable production technique for an interactive VR movie is developed, used and documented.

Danksagung

Vielen Dank an das Team „Asperity“ für die Möglichkeit an dem Projekt teilhaben zu dürfen, sowie an das Techniklager der Filmakademie Baden-Württemberg.

Vielen Dank für den Beistand und die Unterstützung durch meine Familie, Florian Beck, Siri Gögelmann, Victor Gogröf, Marie Pattberg, Marcel Remy und Karen Schuster.

Einen besonderen Dank für das Verständnis und die Unterstützung der Kollegen beim SWR Stuttgart Außenübertragung Hörfunk.

Weiter einen großen Dank an die folgenden Sponsoren für die Unterstützung der Produktion mit großartigen Produkten: Audio Ease, Avid, Blue Ripple Sound, Schoeps Mikrofone, Sennheiser Mikrofone, VisiSonics.

Inhaltsverzeichnis

Zusammenfassung...... I

Danksagung ...... II

Abkürzungsverzeichnis ...... VI

Abbildungsverzeichnis ...... VII

Tabellenverzeichnis ...... X

Formelverzeichnis ...... X

1. Einleitung ...... 1

2. Virtual Reality ...... 2

2.1 Charakterisierung von VR ...... 2

2.2 Interaktive versus lineare VR ...... 3

2.3 Räumliches Hören ...... 4

2.4 Binauraltechnik...... 6

3. VR-Audio ...... 7

3.1 Anforderungen ...... 7

3.2 Wiedergabe über Kopfhörer...... 7

3.3 Formate für VR-Audio ...... 8

3.3.1 Ambisonics ...... 8

3.3.1.1 Grundlagen ...... 9

3.3.1.2 Kodierung ...... 10

3.3.1.3 Higher Order Ambisonics ...... 11

3.3.1.4 Vorteile ...... 11

3.3.1.5 Nachteile ...... 12

3.3.1.6 Ambisonics-Formate ...... 13

3.3.2 Objektbasiertes Audio ...... 14

3.3.2.1 Prinzip ...... 14

3.3.2.2 Vorteile ...... 14

3.3.2.3 Nachteile ...... 15 III

3.3.2.4 Beispiele für Codecs mit objektbasiertem Audio ...... 15

3.3.3 Quad-binaural...... 16

3.4 Mikrofonsysteme für VR ...... 17

3.4.1 Ambisonics ...... 17

3.4.1.1 First-Order-Ambisonics-Mikrofonarrays ...... 17

3.4.1.2 Higher-Order-Ambisonics-Mikrofonarrays ...... 19

3.4.2 Quad-Binaural ...... 21

3.4.3 Stereophone Mikrofonarrays ...... 22

3.4.3.1 ORTF-3D ...... 23

3.4.3.2 ESMA mit 3D-Erweiterung ...... 24

4. VR-Audio-Produktion ...... 26

4.1 Lineare VR ...... 26

4.1.1 Software zur Produktion von Ambisonics-Tonmischungen ...... 26

4.1.1.1 Facebook 360 Spatial Workstation und Audio Ease 360pan ...... 27

4.1.1.2 DearVR ...... 30

4.1.1.3 Blue Ripple Sound ...... 31

4.1.1.4 Vergleich ...... 36

4.1.2 Software zur Produktion von objektbasierten Mischungen ...... 39

4.1.2.1 Merging Technologies Pyramix 11 für MPEG-H und ADM ...... 39

4.1.2.2 Weitere Produktions-Software für MPEG-H ...... 42

4.1.2.3 Magix Sequoia für ADM ...... 42

4.2 Interaktive VR ...... 43

4.2.1 Unity ...... 45

4.2.2 Wwise ...... 51

4.2.3 FMOD Studio ...... 64

4.2.4 Fabric ...... 74

4.2.5 Vergleich ...... 81

5. Umsetzung des interaktiven VR-Filmes „Asperity“ ...... 89

5.1 Beschreibung von „Asperity“ ...... 89

5.2 Anforderungen an den Ton ...... 90

5.3 Verwendete Technik für Audio ...... 90

5.3.1 Middleware ...... 90

5.3.2 Kopfhörer ...... 91

5.3.3 Körperschallwandler ...... 91

5.4 Vorproduktion ...... 92

5.5 Produktion ...... 93

5.5.1 3D-Atmo ...... 93

5.5.2 Dialog...... 94

5.6 Integration ...... 95

5.6.1 Binauralisierung ...... 95

5.6.2 Lineares Intro...... 96

5.6.3 Interaktiver Film ...... 97

5.7 Fazit ...... 99

6. Zusammenfassung ...... 100

7. Literaturverzeichnis ...... 101

Abkürzungsverzeichnis

3DOF – Three degrees of freedom

6DOF – Six degrees of freedom

ADM – Audio Definition Model

API - Application Programming Interface

BPM – Beats per minute

BRIR – Binaural Room Impulse Response

BWF – Broadcast Wave Format

DAW – Digital Audio Workstation

DCA – Digitally Controlled Amplifier

DSP – Digital Signal Processor

ESMA – Equal Segment Microphone Array

FOA – First Order Ambisonics

HRIR – Head-Related Impulse Response

HPF – Hochpass-Filter

HRTF – Head-Related Transfer Function

HOA – Higher Order Ambisonics

HMD – Head-Mounted Display

PCM – Pulse-Code-Modulation

RTPC – Real Time Parameter Control

SC – Side-Chain

TPF – Tiefpass-Filter

VCA – Voltage Controlled Amplifier

VR – Virtual Reality

Abbildungsverzeichnis

Abbildung 1: Kategorisierung der VR-Landschaft (Bildquelle: Susal, Krauss, Tsingos & Altman, 2016, S. 2) ...... 3 Abbildung 2: Kopfbezogenes Koordinatensystem zur Beurteilung der Hörereignisrichtung (Bildquelle: Dickreiter, 2014, S. 128) ...... 4 Abbildung 3: Richtungsbasierende Frequenzbänder nach Versuchen von Blauert bei der Richtungslokalisation auf der Medienebene (Sengpiel, o.J.a) ...... 5 Abbildung 4: Six degrees of freedom (6DOF) (Bildquelle: Susal et al., 2016, S. 3) ...... 7 Abbildung 5: Kopfbezogenes Koordinatensystem (Bildquelle: Blauert & Braasch, 2008, S. 88) ...... 9 Abbildung 6: Darstellung der winkelabhängigen Amplitude 푌푚푛휎 der sphärischen Harmonischen (0. bis 2. Ordnung) mit den in der Fourier-Bessel-Reihe verwendeten Indizes (Slavik & Weinzierl, 2008, S. 661). (Bildquelle: https://en.wikipedia.org/wiki/Spherical_harmonics) ...... 10 Abbildung 7: Sennheiser AMBEO VR MIC (Bildquelle: https://de- de.sennheiser.com/img/10069/product_detail_x2_tablet_AMBEO_VR_Mic-sennheiser-01.jpg) .. 17 Abbildung 8: MH Acoustics em32 Eigenmike® (links) und VisiSonics 5/64 Audio Visual Camera (rechts) in relativen Größenverhältnissen (Bildquellen: https://mhacoustics.com/sites/default/files/s1_0.jpg, http://visisonics.com/wp- content/uploads/2014/09/newcamera.jpg) ...... 20 Abbildung 9: Quad-binaurales Mikrofonarray 3Dio Omni Binaural Microphone (Bildquelle: https://cdn.shopify.com/s/files/1/0995/9804/products/Omni_2_WebReady_grande.jpg?v=14652 82518) ...... 21 Abbildung 10: ORTF-3D in Windkorb von unten (Bildquelle: https://www.hauptmikrofon.de/images/ORTF3D_TopView_small.jpg) ...... 23 Abbildung 11: Anordnung der Kapseln als vertikales XY-Mikrofonpaare (Bildquelle: Wittek & Theile, 2017, S. 6) ...... 23 Abbildung 12: ESMA mit vier vertikal ausgerichteten MS-Mikrofonanordnungen zur 3D-Aufnahme (Bildquelle: Lee, 2016, S. 9) ...... 25 Abbildung 13: Einstellung des globalen Raummodells in der Facebook 360 Spatial Workstation (Bildquelle: Facebook 360 Spatial Workstation) ...... 27 Abbildung 14: Spatialiser-Plugin der Facebook 360 Spatial Workstation zum 3D-Panning von Schallquellen (Bildquelle: Facebook 360 Spatial Workstation)...... 27 Abbildung 15: Automation der Parameter und Panning in der Rektangularprojektion des sphärischen Videos in der Audio Ease 360pan Suite (Bildquelle: Audio Ease 360pan Suite) ...... 28

VII

Abbildung 16: Radar in der Audio Ease 360pan Suite zum Anzeigen von Schallquellen (Bildquelle: Audio Ease 360pan Suite) ...... 28 Abbildung 17: Metering-Plugin in der Facebook 360 Spatial Workstation (Bildquelle: Facebook 360 Spatial Workstation)...... 29 Abbildung 18: dearVR von Dear Reality zum 3D-Panning von Schallquellen (Bildquelle: Dear Reality dearVR) ...... 30 Abbildung 19: Hemisphärischer Panner (Bildquelle: Blue Ripple Sound, 2018b, S. 48) ...... 31 Abbildung 20: O3A View beim Schreiben einer Panning-Automation innerhalb der VR mit HMD (Bildquelle: Blue Ripple Sound, 2018d, S. 1) ...... 32 Abbildung 21: O3A MS5 algorithmisches Hall-Plugin für Ambisonics 3. Ordnung mit ausführlichen Einstellungsmöglichkeiten (Bildquelle: Blue Ripple Sound, 2018c, S. 23) ...... 33 Abbildung 22: O3A Shoebox-Plugin für Raum-Modelling (Bildquelle: Blue Ripple Sound, 2018c, S. 37) ...... 34 Abbildung 23: Pyramix 11 Track Layout mit objektbasiertem Audio (Bildquelle: http://www.merging.com/resources/img/news/prs/Track-layout-OBA_1200px.jpg) ...... 39 Abbildung 24: Export nach ADM (Bildquelle: http://www.merging.com/resources/img/news/prs/ADM-export_1200px.jpg) ...... 40 Abbildung 25: Beschriftung der Achsen der Space Navigator 3D-Maus von 3DConnexion für 3D- Panning in Pyramix 11 (Bildquelle: Ryan, 2016) ...... 41 Abbildung 26: Space Navigator 3D-Maus von 3DConnexion (Bildquelle: https://www.3dconnexion.de/fileadmin/templates/images/SN_Gallery/01_iso_right.jpg) ...... 41 Abbildung 27: Einsatz von Audio-Middleware nach Kategorisierung in AAA, Pro Casual und Indie Games 2017 (Schmidt) (Bildquelle: https://static.wixstatic.com/media/ebb935_43f7757147854a74bcbe9587ca0010d5~mv2.jpg/v1/fi ll/w_630,h_352,al_c,q_80,usm_0.66_1.00_0.01/ebb935_43f7757147854a74bcbe9587ca0010d5~ mv2.jpg) ...... 43 Abbildung 28: Preise pro Spiel in USD in Abhängigkeit vom Budget (Audiokinetic, o.J.i; Firelight Technologies, o.J.f; Tazman-Audio, o.J.b) ...... 44 Abbildung 29: Distanz-Kurven in Unity. Dabei besteht die X-Achse aus der Distanz der Schallquelle vom Hörer und die Y-Achse aus den jeweiligen Eigenschaften (Bildquelle: https://docs.unity3d.com/uploads/Main/AudioDistanceFunctions.png) ...... 46 Abbildung 30: Audio-Mixer-Fenster in Unity (Bildquelle: Unity 2017.3.1f1) ...... 47 Abbildung 31: Definieren des Snapshot-Übergangs eines Parameters (Bildquelle: https://docs.unity3d.com/uploads/Main/AudioMixerTransitionOverrides.png) ...... 47 Abbildung 32: Unity Timeline mit Audio-Tracks (Bildquelle: Unity 2017.3.1f1) ...... 48

VIII

Abbildung 33: Unity Profiler in „Channel and groups“-Ansicht (Bildquelle: Unity 2017.3.1f1) ...... 49 Abbildung 34: Transport Control in Wwise (Bildquelle: Audiokinetic, 2017, S. 37) ...... 52 Abbildung 35: Schematic-View in Wwise (Bildquelle: Audiokinetic, 2017, S. 216) ...... 53 Abbildung 36: Real Time Parameter Control in Wwise (Bildquelle: Audiokinetic, 2017, S. 126) ...... 55 Abbildung 37: User Defined 3D-Panning in Wwise (Bildquelle: Audiokinetic, 2017, S. 164) ...... 56 Abbildung 38: Attenuation Curve Editor in Wwise zur Simulation von Distanz und Richtwirkung (Bildquelle: Audiokinetic, 2017, S. 157) ...... 57 Abbildung 39: Mischpult (oben) und Soundcaster (unten) in Wwise (Bildquelle: Audiokinetic, 2017, S. 236) ...... 59 Abbildung 40: Music Segment Editor in Wwise (Bildquelle: Wwise v2017.2.1) ...... 60 Abbildung 41: Event Track mit „Single Instrument“ in FMOD (Bildquelle: FMOD Studio 1.10.03) ...... 65 Abbildung 42: Distance Attenuation im Spatializer in FMOD (Bildquelle: FMOD Studio 1.10.03) ...... 68 Abbildung 43: 3D Preview in FMOD mit angezeigtem Abstrahlkegel und Ausbreitung (Bildquelle: FMOD Studio 1.10.03) ...... 69 Abbildung 44: Post-Fader Send, Delay und Chorus in FMOD (Bildquelle: https://www.fmod.com/docs/studio/images/signalChainExample.png)...... 70 Abbildung 45: Adaptive Musik durch Transition-Regionen in FMOD (Bildquelle: FMOD Studio 1.10.03) ...... 71 Abbildung 46: Custom Curve Editor von Fabric (Bildquelle: Fabric 2.4) ...... 76 Abbildung 47: Definierte Übergänge in Music Component von Fabric (Bildquelle: http://s3.amazonaws.com/screensteps_live/images/tazman- audio/288045/2/rendered/1c787f40-fd3f-4625-adcd-7ba929693b4e_display.png)...... 78 Abbildung 48: Screenshot aus „Asperity“ – Blick des Users nach links zum Piloten des Shuttles...... 89 Abbildung 49: Screenshot aus „Asperity“ – Blick nach vorne mit Bildschirm für Kommunikation mit Missionskontroll-zentrum, Master-Alarm-Knopf und ISS im Hintergrund...... 89 Abbildung 50: Nutzer auf dem spezialangefertigten Spaceshuttle-Sitz mit Beyerdynamic DT-770 Kopfhörer, HTC Vive HMD, HTC Vive Controller und Joystick ...... 89 Abbildung 51: Atmo-Aufnahme für Spaceshuttle ...... 93 Abbildung 52: Atmo-Aufnahme für Raumklang in Intro ...... 93 Abbildung 53: Anordnung der unteren Kanal-Ebene der ORTF-3D-Aufnahme in Audio Ease 360pan Suite (Bildquelle: Audio Ease 360pan Suite) ...... 93 Abbildung 54: Anordnung der oberen Kanal-Ebene der ORTF-3D-Aufnahme in Audio Ease 360pan Suite (Bildquelle: Audio Ease 360pan Suite) ...... 93 Abbildung 55: Dreharbeiten von im Shuttle eingeblendeten Video von Ground-Control ...... 94

Abbildung 56: Pro Tools Session zur Erstellung von Dialog-Stems für die einzelnen Abschnitte von „Asperity“ (Bildquelle: Pro Tools) ...... 94 Abbildung 57: Capture Log in Wwise mit den Fehlermeldungen beim Einsatz von RealSpeace3D in „Asperity“ (Bildquelle: Wwise v2017.2.1) ...... 95 Abbildung 58: Oculus Spatializer in Wwise (Bildquelle: https://scontent-frt3- 2.xx.fbcdn.net/v/t39.2365- 6/18309151_1855720148014394_8182416502838788096_n.jpg?oh=742f05be7cb18d05786ac85 0c57f190b&oe=5B4D70E6) ...... 96 Abbildung 59: Screenshot der Rektangularprojektion des sphärischen Videos im Intro von „Asperity“ – Leinwand mit Imagefilme der „Asperity Technologies Corp.“ ...... 96 Abbildung 60: Screenshot der Rektangularprojektion des sphärischen Videos im Intro von „Asperity“ – Starts des Spaceshuttles ...... 96 Abbildung 61: Ausschneiden eines Dialog-Teils innerhalb eines Dialog-Stems im Source Editor in Wwise (Bildquelle: Wwise v2017.2.1) ...... 97 Abbildung 62: Playlist eines Dialog-Stems im "Sequence Container" in Wwise (Bildquelle: Wwise v2017.2.1) ...... 98

Tabellenverzeichnis

Tabelle 1: Vergleich der Funktionsumfänge verschiedener Ambisonics-Plugins ...... 36 Tabelle 2: Von Wwise unterstützte Plattformen (Audiokinetic, o.J.l) ...... 51 Tabelle 3: Von FMOD unterstützte Plattformen (Audiokinetic, o.J.l; Firelight Technologies, o.J.a, Firelight Technologies, o.J.b, Firelight Technologies, o.J.h, Firelight Technologies, o.J.i, Firelight Technologies, 2016) ...... 64 Tabelle 4: Vergleich der Funktionsumfänge von Wwise, FMOD, Fabric und Unity...... 81

Formelverzeichnis

Formel 1: Fourier-Bessel-Reihe ...... 9

1. Einleitung

Virtual Reality könnte die Welt der Unterhaltungsindustrie in den nächsten Jahren stark verändern. Zwar ist es fraglich, ob bestehende mediale Formate komplett verdrängt werden, doch eines ist bereits klar: VR-Technik ermöglicht, im Vergleich zu traditionellen Medienformen, neue Darstellungsformen und ein intensiveres Erfahren von Inhalten. Dabei spielt der Ton neben dem Bild eine zentrale Rolle. Seit den Verkaufsstarts der HTC Vive, der Oculus Rift und PlayStation VR im Jahr 2016 (Berg, 2016; Kolokythas, 2016; Zwingmann, 2016) können auch Privatkonsumenten1 durch Head-Mounted Displays und Kopfhörer VR-Inhalte im eigenen Zuhause erfahren. Die Echtzeit-Binauralisierung von Toninhalten ermöglicht dabei im Zusammenhang mit Headtracking die Wiedergabe von 3D-Sound auf konventionellen Kopfhörern.

Abhängig vom Grad der Interaktion des Nutzers mit dem Medium ist die Produktion von diesen Toninhalten mit speziellen Arbeitsabläufen verbunden, welche in dieser Arbeit untersucht werden sollen. Es folgt zunächst eine Einführung in Virtual Reality, die Darlegung der damit angestrebten Ziele und eine Kategorisierung von VR anhand der möglichen Interaktion. Nach einer Einführung über das räumliche Hören wird die Binauraltechnik näher betrachtet, da diese die Grundlage für die Binauralisierung von 3D-Audio darstellt. Im Anschluss werden die Anforderungen an VR-Audio, die dafür verwendeten Formate, sowie geeignete Mikrofonsysteme behandelt. Es folgt ein Überblick über die Produktion der Inhalte, wobei die dafür verwendbare Software gegenübergestellt wird. Das letzte Kapitel erarbeitet eine Produktionstechnik für den interaktiven VR-Film „Asperity“ und dokumentiert deren Umsetzung.

1 Für die Verbesserung des Textflusses und der Lesbarkeit wird in dieser Arbeit bei Personenbezeichnungen ausschließlich die grammatikalisch männliche Form verwendet, außer es handelt sich explizit um eine Aussage über eine weibliche Person. Diese Vorgehensweise impliziert keinerlei Wertung. 1

2. Virtual Reality

2.1 Charakterisierung von VR

Die Idee der virtuellen Realität ist nach Behrends (2015, S. 42) alle Eigenschaften der realen Umgebung auszublenden und durch virtuelle Reize zu ersetzen. Wird die Simulation der virtuellen Welt von einem Computer durchgeführt, so kann die perfekte virtuelle Realität laut Dörner, Jung, Grimm, Broll & Göbel (2013, S. 8–9) als perfekte Benutzungsschnittstelle für Software begriffen werden. Nutzer würden vergessen, dass sie mit einem Computer interagieren und so handeln wie sie es in der realen Welt gewohnt sind.

VR-Systeme können folgendermaßen charakterisiert werden:

„Virtual Reality refers to immersive, interactive, multi-sensory, viewer-centered, three-dimensional computer generated environments and the combination of technologies required to build these environments.“ (Cruz-Neira, SIGGRAPH ’93 Course Notes „Virtual Reality Overview“ nach Dörner et al., 2013, S. 13)

Dörner, Jung et al. (2013, S. 13–14) beschreiben es so, dass 3D-Inhalte auf dreidimensionalen Displays dargestellt und multisensorisch (zum Beispiel visuell, auditiv und taktil) präsentiert werden. Körperbewegungen werden im dreidimensionalen Raum verfolgt, wodurch in Echtzeit 3D- Interaktionen simuliert werden können. Zudem stellt das Tracking der Position und Orientierung des Nutzers (Head-Tracking) die Grundlage für die blickpunktabhängige Bildgenerierung von VR-Systemen dar. Dadurch wird es ermöglicht, in Echtzeit eine dreidimensionale Umgebung aus der Perspektive des Nutzers darzustellen.

Verfahren zur sensorischen Erfassung von Nutzeraktionen sind unter anderem optisches Tracking, 3D- Mäuse, mechanische Eingabegeräte, akustisches Tracking, elektromagnetisches Tracking, Inertial- Tracker (mit Trägheits- beziehungsweise Beschleunigungssensoren), Bewegungsplattformen, Finger- Tracking und Eye-Tracking (Grimm, Herold, Hummel & Broll, 2013).

Für die Ausgabe von Inhalten werden auf visueller Ebene Monitore, Projektionssysteme oder Head- Mounted Displays, auf akustischer Ebene Mehrkanalsysteme oder Kopfhörer (Travis, 1996, S. 110) und auf haptischer Ebene Vibrationsmotoren und Subwoofer verwendet (Grimm, Herold, Reiners & Cruz- Neira, 2013).

Für diese Ausgabegeräte definieren Slater und Wolbur (1997 nach Dörner et al., 2013, S. 14) die folgenden vier technischen Eigenschaften, welche die physikalische Immersion2 bilden:

1. Der Nutzer soll von der äußeren Umgebung isoliert sein und alle Sinneseindrücke sollen ausschließlich vom Computer generiert werden. 2. Es sollen möglichst viele Sinne angesprochen werden. 3. Die Ausgabegeräte sollen den Nutzer vollständig umgeben. 4. Die Ausgabegeräte sollen durch hohe Auflösung und Qualität eine „lebendige“ Darstellung ermöglichen.

Da beispielsweise Head-Mounted Displays (HMD) ausschließlich computergenerierte visuelle Eindrücke ermöglichen, sind diese als immersive Displays zu betrachten, wobei HMDs mit größerem Sichtfeld, immersiver als HMDs mit kleinem Sichtfeld sind (Dörner et al., 2013, S. 14).

Die Interaktion mit der virtuellen Realität ist jedoch bisher noch immer durch den Verlust von Raumbezügen beschränkt, welche durch den Gleichgewichtssinn und die Tiefensensibilität vermittelt werden (Behrends, 2015, S. 42). Es ist eine große Herausforderung das Körpergefühl des Nutzers mit seinen visuellen und auditiven Reizen zu vereinen (Cue to Create, 2013 nach Behrends, 2015, S. 42).

2.2 Interaktive versus lineare VR

Abbildung 1: Kategorisierung der VR-Landschaft (Bildquelle: Susal, Krauss, Tsingos & Altman, 2016, S. 2)

VR-Erlebnisse können nach Susal, Krauss, Tsingos & Altman (2016, S. 2) in interaktive und lineare Anwendungen unterteilt werden (s. Abbildung 1). Zur interaktiven VR gehören Spiele und interaktive

2 Bei dem Begriff der Immersion ist nach Sherman und Craig (2003 nach Dörner, Jung, Grimm, Broll und Göbel, 2013, S. 14) zwischen physikalischer und mentaler Immersion zu unterscheiden, wobei ersteres zum Beispiel die technische Eigenschaft eines VR-Displays darstellt und letzteres die mentale Qualität beim Erleben von VR (Dörner et al. 2013, S. 14). 3

Filme, bei denen der Zuschauer in Echtzeit das Geschehen steuert und aktiver Akteur in der Storyline ist. Zur linearen VR gehören filmische oder experimentelle Geschehnisse, bei denen der Zuschauer seinen Standpunkt steuern oder Verzweigungspunkte innerhalb einer linearen Zeitachse auswählen kann. Den Inhalt an sich kann er dabei jedoch nicht verändern. Aber er kann in der Lage sein, den Ton abhängig von der Blickrichtung zu beeinflussen, wie zum Beispiel die Verstärkung von Elementen mit direkter Sichtverbindung (ebd.).

2.3 Räumliches Hören

Die räumliche Wahrnehmung des Gehörs besteht nach Dickreiter (2014, p. 127) aus der Richtungswahrnehmung und der Entfernungswahrnehmung. Durch diese beiden Komponenten wird die räumliche Ausdehnung einer Schallquelle wahrgenommen (ebd.). Für die Beschreibung der Hörereignisrichtung vom Kopf des Hörers wird ein Koordinatensystem aus der Horizontal-, Frontal- und Medianebene verwendet (s. Abbildung 2) (ebd.).

Abbildung 2: Kopfbezogenes Koordinatensystem zur Beurteilung der Hörereignisrichtung (Bildquelle: Dickreiter, 2014, S. 128)

Auf der horizontalen Ebene werden Hörereignisse durch Laufzeitdifferenzen und frequenzabhängige Pegelunterschiede zwischen beiden Ohren lokalisiert (Dickreiter, 2014, S. 127–128). Auf der Medienebene ist keine interaurale Pegel- und Laufzeitdifferenz vorhanden. Die Hörereignisrichtung wird hierbei durch individualspezifische richtungsbestimmende Frequenzbänder für vorne, oben und hinten ermittelt (Blauert, 1974 nach Blauert & Braasch, 2008, S. 94). Durch die charakteristische Filterwirkung der Außenohren werden bei breitbandigen Signalen bestimmte Spektralanteile angehoben und abgesenkt, wodurch Hörereignisse einer Schalleinfallsrichtung zugeordnet werden können (Blauert & Braasch, 2008, S. 95) (s. Abbildung 3). 4

Abbildung 3: Richtungsbasierende Frequenzbänder nach Versuchen von Blauert bei der Richtungslokalisation auf der Medienebene (Sengpiel, o.J.a)

In Abbildung 3 lässt sich unter anderem erkennen, dass mit der größten relativen Häufigkeit das Band um 1 kHz als „hinten“ lokalisiert wird. Der Erhebungswinkel zum Hörereignis auf der Medianebene und die Lokalisation von vorne und hinten werden durch spektrale Veränderungen gebildet (Dickreiter, 2014, S. 128). Auf der Frontalebene erfolgt die Beurteilung der Hörereignisrichtung durch Laufzeitdifferenzen und komplexe Klangfarben- und Pegeldifferenzen (ebd.).

Die Schallübertragung aus dem Freifeld für einen bestimmten Schalleinfallswinkel am Eingang des Gehörgangs wird dabei durch die Außenohrübertragungsfunktion (HRTF3) beschrieben (Sengpiel, o.J.b). Die damit verbundenen spektralen Besonderheiten werden von Görne (2015, S. 126) als „HRTF- Kammfilter“ bezeichnet. Webers (2007, S. 232) beschreibt diese spezielle Eigenschaft des Gehörgangs als frequenzabhängige Richtcharakteristik. Durch eine Bewegung des Kopfes und die damit verbundene Veränderung der HRTF werden weitere Richtungsinformationen gewonnen (Görne, 2015, S. 126).

Damit der von der HRTF erzeugte Kammfilter in Bezug auf die Richtungslokalisation eine möglichst große Wirkung erzielen kann, ist ein breitbandiges Schallsignal mit hochfrequentem Anteil nötig (Görne, 2015, S. 126). Schmalbandige Signale können hingegen auf der Medianebene nicht lokalisiert

3 Head-Related Transfer Function 5 werden (Dickreiter, 2014, S. 132). Weiter ist die Lokalisation zuverlässiger, wenn das Schallsignal dem Hörer bereits bekannt ist (Blauert & Braasch, 2008, S. 95; Görne, 2015, S. 126).

2.4 Binauraltechnik

Eine Voraussetzung für die optimale Wiedergabe von Signalen über Kopfhörer ist, dass Stereosignale gemäß dem natürlichen Hören Laufzeit- und Pegelunterschiede enthalten und beide Kanäle anhand der HRTF gefiltert wurden (Görne, 2015, S. 131). Die binaurale Reproduktion eines Schallfeldes kann einerseits durch die Aufnahme mit Kunstkopfmikrofonen oder sich in den Ohren befindenden Sondenmikrofonen, andererseits durch die Faltung von raumbezogenen Aufnahmen im Computer mit einer gespeicherten HRTF erreicht werden (ebd.). Ohne dieser Vorgehensweise kommt es beim Hören über Kopfhörer zur sogenannten Im-Kopf-Lokalisation, da das Außenohr keinen Einfluss auf das Schallfeld hat und dadurch Phantomschallquellen auf einer Verbindungslinie im Kopf zwischen beiden Ohren angeordnet werden (ebd.).

Durch Messungen von Impulsantworten von Lautsprechern in bestimmten Winkeln für das linke und rechte Ohr werden HRTFs (Head-Related Transfer Function), HRIRs (Head-Related Impulse Response) oder BRIRs (Binaural Room Impulse Response) erstellt (Shivappa, Morrell, Sen, Peters & Salehin, 2016, S. 3). HRTFs und HRIRs charakterisieren, wie eine Person im Freifeld einen Klang (aus einem Lautsprecher) aus einer bestimmten Richtung und Distanz empfängt (ebd.). BRIRs erfassen zusätzlich die akustischen Effekte eines Raumes (ebd.).

Um also ein binaurales Stereosignal für Kopfhörer aus einer VR-Audio-Repräsentation zu erstellen, werden Datensätze von HRTFs (beziehungsweise BRIRs) genutzt, um Lautsprechersignale mit der geeigneten Impulsantwort zu filtern (Shivappa et al., 2016, S. 3). Folglich wird für jede spezifische Lautsprecherposition die dazugehörige HRTF (beziehungsweise BRIR) benötigt (ebd.).

Durch BRIRs werden häufig lokale Räume erfasst und simuliert, in denen mit Kopfhörern gehört werden soll (Shivappa et al., 2016, S. 3). Dies hilft bei der Externalisierung, Immersion und Lokalisierung von Ton (ebd.).

3. VR-Audio

Dieses Kapitel stellt die Anforderungen an Audio für VR heraus, geht auf die damit verbundene Wiedergabe über Kopfhörer ein und erläutert für VR geeignete Audio-Formate.

3.1 Anforderungen

Für VR-Anwendungen wird eine flexible, räumliche Darstellung von Audio benötigt, da der Zuschauer zu jeder Zeit seinen Blickwinkel (3DOF4) und gegebenenfalls zusätzlich seine Position (6DOF, s. Abbildung 4) frei verändern kann (Susal et al., 2016, S. 3). Aus diesem Grund ist es nötig, dass der Ton aus jeder beliebigen Richtung nahtlos, mit gleicher Qualität und mit derselben räumlichen Präzision dargestellt wird. Abbildung 4: Six degrees of freedom (6DOF) (Bildquelle: Susal et al., 2016, S. 3)

Dabei sollten nicht-diegetische Hintergrundelemente oder Musik bei der Mischung aber trotzdem bevorzugt kopfbezogen gehalten werden (Susal et al., 2016, S. 5). Das heißt, dass Kopfbewegungen nicht zu einem veränderten Rendering dieser Signale führen. Diegetische Soundeffekte oder Dialoge sollten hingegen szenenbezogen sein und sich an die getrackten Kopfbewegungen des Nutzers anpassen (ebd.). Diese Abgrenzung kann beispielsweise als künstlerisches Element für Sprecherstimmen eingesetzt werden (Susal et al., 2016, S. 7).

3.2 Wiedergabe über Kopfhörer

Die traditionelle Wiedergabe über Lautsprechersysteme mit einem Head-Mounted Display (HMD stellt nach Oculus (o.J.b) aufgrund von Headtracking und der Bewegung des Nutzers eine Sackgasse dar. Kopfhörer haben hingegen die Vorteile, dass eine akustische Isolation des Hörers von der Umwelt stattfindet, Headtracking vereinfacht wird und – im Falle von Headsets – ideal platzierte Mikrofone eingesetzt werden können (ebd.). Zusätzlich ist eine einfache dreidimensionale Audiowiedergabe mittels Binauraltechnik möglich.

4 Three degrees of freedom 7

Weiter konnte von Hanschke et al. (2016 nach Shivappa et al., 2016, S. 4) gezeigt werden, dass über Kopfhörer mit dynamischem Headtracking immersive, kanalbasierte Inhalte in verhältnismäßig gleicher immersiver Qualität wiedergeben werden können, wie über Lautsprecher.

Ein VR-Audio-System mit Kopfhörern muss nach Shivappa et al. (2016, S. 3) zusätzlich zu den generellen Qualitätsanforderungen von Ton zu Bild folgende Kriterien erfüllen: Es muss eine akkurate Lokalisierung von Ton in alle Richtungen erfolgen und eine dynamische Binauralisierung des Schallfeldes durch Headtracking. Dabei ist eine präzise, hochauflösende Rotation des Schallfeldes nötig, welche mit der menschlichen Wahrnehmung in einer Auflösung von bis zu einem Grad übereinstimmt. Weiter darf die Latenz zwischen Bewegung und Ton nicht wahrnehmbar sein.

Gleichzeitig kann es jedoch auch wünschenswert sein einige Elemente, durch das Umgehen von binauralem Processing während der Wiedergabezeit, in höherer Klangtreue zu rendern (Susal et al., 2016, S. 5). Dies kann speziell bei Musik sinnvoll sein, da Instrumente wie Snaredrums durch die HRTF Präzision und Attack verlieren können (Susal et al., 2016, S. 7). In diesem Fall ist es empfehlenswert diese von der Binauralisierungsprozess auszuschließen.

3.3 Formate für VR-Audio

Aktuell werden hauptsächlich Ambisonics und objektbasiertes Audio verwendet (Susal et al., 2016, S. 3). Weiter kommt für lineares VR-Audio das kanalbasierte Quad-binaurale Format zum Einsatz (Lee, 2016, S. 2).

3.3.1 Ambisonics

Bereits in den 1970er Jahren wurden die theoretischen Grundlagen vom Ambisonics-Verfahren überwiegend von dem Mathematiker Michael Gerzon entwickelt (Gerzon, 1973 nach Slavik & Weinzierl, 2008, S. 559). Das Verfahren ermöglicht eine theoretisch beliebig genaue Übertragung von realen, dreidimensionalen Schallfeldern sowie das Synthetisieren von virtuell erzeugten (Slavik & Weinzierl, 2008, S. 659). Dabei nimmt die Genauigkeit mit der Anzahl der für die Übertragung verwendeten Kanäle bei der Aufnahme und Anzahl der Lautsprecher bei der Wiedergabe zu (ebd.). Während sich das Verfahren früher auf dem Tonträgermarkt nicht durchsetzen konnte, hat es seit Ende der 1990er Jahre durch die Einführung von Higher Order Ambisonics (HOA) ein Revival erlebt (Nicol & Emerit, 1999; Mal•ham, 1999 nach Slavik & Weinzierl, 2008, S. 660). Die Aufnahme in den MPEG-H Standard (ISO/IEC 23008-3) kann dabei als großer Erfolg bewertet werden (Meyer & Elko, 2016, S. 1).

3.3.1.1 Grundlagen

Ambisonics basiert auf einem physikalischen Ansatz, der die vorkommende Wellenfront am Ort des Hörers codiert (Susal et al., 2016, S. 3). Dabei wird das dreidimensionale Schallfeld durch eine Fourier- Bessel-Reihe beschrieben und die Richtung aus der Perspektive des Hörers durch Kugelkoordinaten (Radius r, Azimuth φ und Elevation δ, s. Abbildung 5) angegeben (Slavik & Weinzierl, 2008, S. 660).

Abbildung 5: Kopfbezogenes Koordinatensystem (Bildquelle: Blauert & Braasch, 2008, S. 88)

Es gilt:

∞ 푚 휎 휎 푝(푟) = ∑ 푖 푗푚(푘푟) ∑ 퐵푚푛 푌푚푛 (휑, 훿) 푚=0 0≤푛≤푚,휎=±1

Formel 1: Fourier-Bessel-Reihe

휎 휎 Die mit dem Faktor der Komponenten 퐵푚푛 multiplizierten Funktionen 푌푚푛 werden als sphärische Harmonische bezeichnet (Slavik & Weinzierl, 2008, 669-661). Das Schallfeld 푝(푟) besteht aus Überlagerung von sphärischen Harmonischen der Ordnung 푚, welche radial mit sphärischen 푚 Besselfunktionen 푗푚(푘푟) und einem Phasenfaktor 푖 gewichtet werden (Slavik & Weinzierl, 2008, 휎 S. 661). In Abbildung 6 wird die winkelabhängige Amplitude der sphärischen Harmonischen 푌푚푛 dargestellt. Anhand der sphärischen Besselfunktion lässt sich erkennen, dass der Schalldruck im 1 Ursprung (푘푟 = 0) bereits durch die Harmonische 0. Ordnung 퐵00 gegeben ist (ebd.). Die Harmonischen höherer Ordnung synthetisieren das Schallfeld dann weiter in zunehmendem Abstand vom Ursprung (ebd.).

1 푌00(푊) 0. Ordnung:

−1 1 1 1. Ordnung: 푌11 (푌) 푌10(푍) 푌11(푋)

−1 −1 1 1 1 2. Ordnung: 푌22 (푉) 푌21 (푇) 푌20(푅) 푌21(푆) 푌22(푈)

휎 Abbildung 6: Darstellung der winkelabhängigen Amplitude 푌푚푛 der sphärischen Harmonischen (0. bis 2. Ordnung) mit den in der Fourier-Bessel-Reihe verwendeten Indizes (Slavik & Weinzierl, 2008, S. 661). (Bildquelle: https://en.wikipedia.org/wiki/Spherical_harmonics)

휎 Für die Reproduktion des Schallfeldes werden die Komponenten 퐵푚푛 der Fourier-Bessel-Reihe (s. Formel 1) übertragen (Slavik & Weinzierl, 2008, S. 661). Eine größere Anzahl an übermittelten Komponenten führt dabei zu einer genaueren Synthese und Resynthese des Schallfeldes. Die 1 −1 Komponente 퐵00 stellt den Schalldruck im Ursprung dar (in Ambisonics-Terminologie W), 퐵11 , −1 1 퐵11 und 퐵10 stellen die Druckgradienten beziehungsweise die Schnellekomponenten in die drei Richtungen des Raumes dar (in Ambisonics-Terminologie X, Y, Z). Diese vier Komponenten bilden das vierkanalige B-Format (FOA5).

Für die Synthese und Resynthese eines Schallfeldes mit Ambisonics 푚-ter Ordnung, werden (푚 + 1)2 Übertragungskanäle (Komponenten) benötigt (Slavik & Weinzierl, 2008, S. 662).

3.3.1.2 Kodierung

휎 Die Encodierung bedeutet, bei Ambisonics, die Komponenten 퐵푚푛 eines realen oder virtuellen Schallfeldes durch ein Ambisonics-Mikrofon oder basierend auf einem Schallfeld-Modell zu gewinnen (ebd.). Die Dekodierung und Resynthese dieser Komponenten für eine zentrale Hörposition erfolgt dann durch Überlagerung von Lautsprechersignalen (ebd.). Eine größere Anzahl von Komponenten führt zu einem größeren korrekt resynthetisierten Bereich (ebd.). Voraussetzend ist dabei, dass das aufgenommene Schallfeld eine ebene Welle ist und die Lautsprecher bei der Wiedergabe ebenfalls ebene Wellen abstrahlen (ebd.).

5 First Order Ambisonics 10

Diese ebene Welle wird anhand ihrer Einfallsrichtung durch reelle Gewichtungsfaktoren zu den Ambisonics-Komponenten enkodiert, welche die Übertragungskanäle bilden und für eine konkrete Lautsprecherkonfiguration bei der Wiedergabe dekodiert werden müssen (ebd.). Dabei werden die Wiedergabesignale aus den Komponenten und der Konfiguration des Wiedergabesystems abgeleitet. Dies setzt aber voraus, dass die Anzahl der Lautsprecher mindestens so hoch ist wie die der Ambisonics-Komponenten. Andernfalls treten mehr mathematische Gleichungen als unbekannte Variablen auf und es kann keine korrekte Lösung garantiert werden (Slavik & Weinzierl, 2008, S. 663).

Die räumliche Information des Schallfeldes wird bei Ambisonics direkt in den PCM-Wellenformen der Signale codiert (Susal et al., 2016, S. 3). Die Signale können dann weiter manipuliert (zum Beispiel rotiert) und auf einer Vielfalt von Wiedergabesystemen, inklusive binaural über Kopfhörer, decodiert werden (ebd.).

3.3.1.3 Higher Order Ambisonics

Ordnungen höher als FOA werden als Higher Order Ambisonics (HOA) bezeichnet. Diese bieten im Gegensatz zu FOA eine präzisere und akkuratere Darstellung des gesamten Schallfeldes in höherer räumlicher Auflösung (Shivappa et al., 2016, S. 4). Weiter ist der Sweetspot größer als bei FOA (Bertet et al., 2009 nach Shivappa et al., 2016, S. 4). Untersuchungen von Frank & Zotter (2017) über die Größe dieses optimalen Hörbereichs des reproduzierten Schallfeldes bei unterschiedlichen Ambisonics Ordnungen haben ergeben, dass der mediane Radius des Sweetspots bei Ambisonics 1. Ordnung die Hälfte des Lautsprecherradius beträgt und bei 3. Ordnung zwei Drittel.

Hörtests von Thresh, Armstrong & Kearney (2017) mit optimierten echten und virtuellen Lautsprecherarrays und mit Hilfe eines generischen HRTFS-Satzes haben ergeben, dass bei der Zunahme der Ambisonics Ordnung von der 1. auf die 3. die größte Verbesserung der Lokalisierungsschärfe, mit einer Zunahme von 7° bis 10°, auftritt. Die Zunahme auf Ambisonics 5. Ordnung habe lediglich zu einer Zunahme von ca. 2° geführt. Das weist laut Thesh et al. (2017) darauf hin, dass bei der Simulation mit BRIRs ohne individuelle HRTFs, der Nutzen von Ambisonics 5. Ordnung im Vergleich zu 3. Ordnung nur einen geringen Vorteil bringt.

3.3.1.4 Vorteile

Da sphärische Harmonische die Grundlage von Ambisonics darstellen, wird eine effiziente und flüssige Rotation des Schallfeldes ermöglicht (Shivappa et al., 2016, S. 4). Durch spezielle Algorithmen ist es möglich die HOA-Koeffizienten, unabhängig von der Komplexität der Szene und Anzahl der für das

Rendering benutzten virtuellen Lautsprecher effizient zu binauralisieren (ebd.). Das stellt für eine auf Headtracking basierende Binauralisierung von VR-Audio auf Geräten mit schwacher Rechenleistung einen wichtigen Vorteil dar (ebd.). Da Audio auf dem Gerät des Konsumenten gerendert wird, können von binauralen bis zu immersiven Surround Sound Systemen alle standardisierten und nicht- standardisierten Wiedergabesetups versorgt werden (Shivappa et al., 2016, S. 4–5).

Weiter ist bei Ambisonics eine effiziente und akkurate Darstellung des Schallfeldes mit einer begrenzten Anzahl von Komponenten möglich, welche nur von der Ordnung der Darstellung abhängt (Shivappa et al., 2016, S. 4). Außerdem können diese Koeffizienten unabhängig von der Komplexität der Szene auf eine feste Bandbreite komprimiert werden (ISO/IEC, 2015 nach Shivappa et al., 2016, S. 4). Dadurch wird eine sehr hohe räumliche Auflösung und Klangtreue bereitgestellt, ohne dass deren Komplexität durch die Bandbreite von Objekten oder Kanälen begrenzt wird (Shivappa et al., 2016, S. 5). Ein weiterer Vorteil sind die kompakten Mikrofon-Arrays, durch welche das Schallfeld aufgenommen wird (Shivappa et al., 2016, S. 6).

Ambisonics wird zudem bereits von Facebook und Google zur Veröffentlichung von 360°-Videos genutzt wird (Facebook, o.J.; YouTube, o.J.), was eine kostengünstige Verbreitung ermöglicht.

3.3.1.5 Nachteile

Ein Nachteil vom HOA ist, dass eine stark steigende Anzahl von PCM-Kanälen benötigt wird, um detailliertere räumliche Informationen zu codieren: lediglich vier Kanäle für FOA, aber bereits sechzehn Kanäle für 3rd Order (Susal et al., 2016, S. 3). Aus diesem Grund bleibe Ambisonics hauptsächlich in niedriger Ordnung praktikabel. Dabei kann es jedoch zu einem Qualitätsverlust kommen, was Wittek (2015) folgendermaßen beschreibt:

„Als Speicherformat für beliebige räumliche Signale ist Ambisonics sehr gut geeignet, aber wiederum nur, wenn die Ordnung groß genug ist. Ein Speicherformat mit nur vier Kanälen (bei Ambisonics heißen diese 4 Kanäle erster Ordnung W, X, Y, Z) erzeugt aus jeder 3D-Aufnahme einen Brei, denn die vormals gute Signaltrennung im 3D-Setup wird durch die Mischung auf 4 Kanäle zerstört.“

Die niedrige Auflösung von FOA beschränkt die korrekte Resynthese des Schallfeldes, speziell für hohe Frequenzen, auf einen kleinen Sweetspot (Bertet, Daniel & Moreau, 2006).

Weiter ist das Ambisonics-Format hauptsächlich für 3DOF-Wiedergabeszenarien geeignet (Susal et al., 2016, S. 3). Bei 6DOF müssten für jedes Verhalten unterschiedliche Sub-Mixe erstellt werden.

Beim Einsatz von Ambisonics tritt in Bezug auf nicht-diegetischen Filmton das Problem auf, dass innerhalb einer Ambisonics-Mischung nur ein Mono-Signal nicht-diegetisch platziert werden kann. Dies stellt zum Beispiel für den Einsatz von Musik in Stereo einen Nachteil dar. Weiter ist es nicht möglich einzelne Elemente aus dem Binauralisierungsprozess auszuschließen, da ein Decoder ohne Meta-Daten die Binauralisierung einer Ambisonics-Mischung durchführt.

3.3.1.6 Ambisonics-Formate

Die Unterschiede der folgenden Ambisonics-Formate liegen innerhalb ihrer Kanalanordnung und Normalisierung. Im Folgenden werden für VR relevante Formate und ihre Eigenschaften kurz dargelegt. ambiX

Bei ambiX sind die Kanäle nach der Ambisonics Channel Number (ACN) angeordnet, welche aus den Koeffizienten der jeweiligen sphärischen Harmonischen abgeleitet werden (Chapman et al., 2009, S. 3). Die daraus resultierende Kanalanordnung für die Kanäle 0 bis 15 ist (W), (Y, Z, X), (V, T, R, S, U), (Q, O, M, K, L, N, P). Hierbei sind die jeweiligen Ordnungen von 0 bis 3 durch Klammern dargestellt. Die sphärischen Harmonischen sind dabei nach der Schmidt Semi-Normalisierung (SN3D) normalisiert (Carpentier, 2017, S. 2).

FuMa

Bei FuMa erfolgt die Normalisierung der sphärischen Harmonischen hingegen nach dem eigenen Schema von Furse und Malham (ebd.), wobei zusätzlich der W-Kanal mit 1/√2 gewichtet wird und die Kanalanordnung der ersten 16 Kanäle aus (W), (X, Y, Z), (R, S, T, U, V), (K, L, M, N, O, P, Q) besteht (Malham, 2003, S. 3–4). Hierbei sind die jeweiligen Ordnungen von 0 bis 3 durch Klammern dargestellt.

FuMa mit MaxN-Normalisierung

Weiter gibt es noch die Variante einer FuMa-Kanalanordnung mit MaxN-Normalisierung, welche zum Beispiel von Audiokinetic Wwise (Audiokinetic, o.J.n) genutzt wird. Diese Normalisierung unterscheidet sich von der FuMa-Normalisierung jedoch lediglich in der Gewichtung des W-Kanals (Carpentier, 2017, S. 2).

Hybrid Higher Order Ambisonics (Facebook)

Facebook hat für seine 360°-Videos ein achtkanaliges Format entwickelt, welches von Facebook selbst als Hybrid Higher Order Ambisonics bezeichnet wird (Fugal & Nair, 2017; Harvey, 2017). Es wird dabei die Soundqualität von HOA mit acht Kanälen angestrebt. Durch den Encoder der Facebook 360 Spatial Workstation ist es möglich dieses Format zu erstellen. 13

3.3.2 Objektbasiertes Audio

3.3.2.1 Prinzip

Objektbasierte Ansätze stellen eine komplexe auditive Szene als eine Sammlung einzelner Elemente dar, welche jeweils aus einer Audio-Wellenform und Metadaten bestehen (Susal et al., 2016, S. 3). Diese Metadaten verkörpern die künstlerische Intention, die für die Übertragung des Audio-Elements in das finale Reproduktionssystem spezifiziert wird. Dafür werden allgemein monophone Audiospuren benutzt, welche als Audio-Objekte auf horizontaler Ebene oder im dreidimensionalen Raum anhand von Metadaten positioniert werden (ebd.). Basierend auf diesen Metadaten wird die Szenerie bei der Wiedergabe vom Konsumenten durch einen Rendering-Algorithmus konstruiert (Shivappa et al., 2016, S. 4). Durch Audio-Objekte können zudem virtuelle 3D-Lautsprechersetups erstellt und zur binauralen Synthese verwendet werden (Wittek, 2015; Wittek & Theile, 2017, S. 9). Auf diese Weise können zum Beispiel auch traditionelle Surround-Anordnungen wiedergegeben werden.

Interaktive Sound-Engines von Videospielen oder Simulatoren manipulieren auf eine ähnliche Weise Sound-Objekte zu Punktschallquellen in komplexen, dynamischen Klanglandschaften. Aus diesem Grund sind sie in der Lage eine große Anzahl von Metadaten zu speichern, die das Verhalten der Objekte bestimmen (Susal et al., 2016, S. 3).

3.3.2.2 Vorteile

Da positionierende Metadaten, zum Beispiel anhand von Head-Tracking, dynamisch modifiziert werden können, eigenen sich objektbasierte Darstellungen gut für VR-Anwendungen (Susal et al., 2016, S. 4). Im Gegensatz zu Ambisonics, bieten sie nach Susal et al. (2016, S. 4) eine bessere Mischung aus räumlicher Treue und Interaktivität, da Objekte diskret und individuell mit Metadaten versehen werden können, die spezifisches Verhalten im Rendering-Prozess kennzeichnen. Die räumliche Genauigkeit ist ebenfalls nur von Metadaten abhängig und ist nicht direkt an die Anzahl von Kanäle gebunden (ebd.). Aus diesen Gründen ist objektbasiertes Audio besonders gut für Anwendungen geeignet, die 6DOF-Wiedergabe mit hoher räumlicher Genauigkeit benötigen (ebd.).

Objektbasiertes Audio ermöglicht Nutzern zudem eine Personalisierung von Inhalten. Neben einer Auswahl an verschiedenen Sprachen, kann zum Beispiel die Lautstärke der Sprache einzelner Schauspieler individuell angepasst werden, um dem Dialog folgen zu können (Susal et al., 2016, S. 7).

Objekte können entweder individuell durch eine diskrete HRTF-Faltung pro Objekt oder durch einen Satz von virtuellen Lautsprechern binauralisiert werden. Letzteres wird dann durch eine HRTF-Faltung pro Lautsprecher binauralisiert (Shivappa et al., 2016, S. 4).

3.3.2.3 Nachteile

Der objektbasierte Ansatz benötigt jedoch im Vergleich zum kanalbasierten Produktions-Workflow einen weiteren Arbeitsschritt, in dem Metadaten für die Objekte generiert werden (Susal et al., 2016, S. 4). Dies kann automatisch oder durch einen Mixing-Engineer geschehen und besonders in Live- Anwendungen eine Herausforderung darstellen (ebd.). Für diese Problematik existieren jedoch verschiedene Lösungen. Beispiele hierfür sind die Konvertierung von räumlichen Mikrofonsignalen in Sets aus Objekten oder Kanälen (Tsingos et al., 2016; Merimaa, 2002; Meyer & Elko, 2004 nach Susal et al., 2016, S. 4) und automatisches Panning durch Tracking (Susal et al., 2016, S. 4).

Bei der Aufnahme von objektbasiertem Audio muss akustisches Übersprechen vermieden werden, da diese die Lokalisation und das Timbre des gerenderten Audio-Objekts beeinflussen (Shivappa et al., 2016, S. 4). Außerdem erfordert eine rein objektbasierte Repräsentation den Einsatz von individuellen Audiospuren. Das bedeutet, dass die benötigte Bandbreite für die Übertragung einer Klangszene zu jedem Zeitpunkt von der Anzahl an gleichzeitig vorhandenen Objekten und somit von ihrer Komplexität abhängt (ebd.). Da typische filmische Inhalte den gleichzeitigen Einsatz von hunderten Objekte benötigen, ist die benötigte Bandbreite für Streaming oder Übertragung zu hoch. Lösungen, die aus diesem Grund mehrere Objekte miteinander verbinden oder ein kanalbasiertes Bett nutzen, mindern allerdings die hohe räumliche Auflösung und die Möglichkeit des flexiblen Renderings von objektbasiertem Audio (ebd.).

3.3.2.4 Beispiele für Codecs mit objektbasiertem Audio

Objektbasiertes Audio wird in verschiedenen für VR geeigneten Codecs eingesetzt.

Dolby AC-4

Mit Dolby AC-4 ist es möglich kanalbasiertes und objektbasiertes Audio mit den zugehörigen Metadaten wie Objekttyp, Position, Ausbreitung und vielen mehr in einem Bitstrom zu übertragen (Dolby Laboratories, 2015, S. 22). Dabei können abhängig von der Codierung Lautsprecheranordnungen bis 9.1.4 (vier Höhenkanäle) übertragen werden (Dolby Laboratories, 2015, S. 8). Diese können dann vom Renderer für die Wiedergabe mit Kopfhörern aufbereitet werden (Dolby Laboratories, 2015, S. 23).

Allerdings empfiehlt Dolby für VR die Verbreitung als MP4 mit dem Dolby-Digital-Plus (.ec3) Bitstrom für Dolby Atmos for Virtual Reality Applications (Dolby Laboratories, o.J.). Durch den darin enthaltenen Dolby Atmos Decoder und Kopfhörer-Renderer, könne auf diese Weise die beste Wiedergabequalität erreicht werden. Außerdem unterstützt der Dolby Atmos VR Player für Android, Windows oder macOS

15 lediglich Dolby Digital (.ac3) und das auf Dolby Digital basierende Dolby-Digital-Plus (Dolby Laboratories, 2017, S. 3). Dies bedeutet, dass es zwar möglich ist, die Kanäle für eine 7.1- Lautsprecheranordnung zu übertragen (Dolby Laboratories, 2008) und als virtuelle Lautsprecheranordnung abzuspielen, objektbasiertes Audio oder 3D-Lautsprecheranordnungen aber nicht möglich sind.

MPEG-H

MPEG-H von Fraunhofer fügt kanalbasiertes Audio, Ambisonics und objektbasiertes Audio mit den zugehörigen Metadaten in einem Audio-Bitstrom zusammen (Fraunhofer IIS, 2017b, S. 3). MPEG-H Audio ist Teil des ATSC 3.0-Standards für Digitalfernsehen (Fraunhofer IIS, 2017c) und wird in Südkorea bereits seit 2017 im terrestrischen 4K-Fernsehen eingesetzt (Fraunhofer IIS, 2017a). MPEG-H kann 128 Audiokanäle, 128 Audio-Objekte und HOA bis zur 29. Ordnung übertragen, wobei für den Heimbereich eine Beschränkung auf 7.1.4 oder 5.1.4 (mit vier Höhenkanälen) als sinnvoll betrachtet wird (Fleischmann, 2017). Während Fraunhofer zu Beginn verschiedene Standard-Hall-Algorithmen für das Rendern auf dem Endgerät angeboten hat, ist die aktuelle Produktionsweise, dass vorproduzierte Hall- Effekte über virtuelle Lautsprechersetups zugemischt werden (Gieselmann, 2016). Für eine binaurale Wiedergabe in VR mit Kopfhörern wurde von Fraunhofer der Renderer Cingo entwickelt, welcher 3D- Kanalkonfigurationen und Ambisonics unterstützt und gleichzeitig die freie Positionierung von Sound- Objekten im virtuellen Raum um den Hörer erlaubt (Fraunhofer IIS, 2017b, S. 2–4).

ADM

Das Audio Definition Model (ADM) ist ein standardisiertes, offenes, auf XML basierendes Metadaten- Modell für die Beschreibung von kanalbasiertem und objektbasiertem Audio und HOA innerhalb von Wave-Files im Broadcast Wave Format (BWF) (Geier, Carpentier, Noisternig & Warusfel, 2017; Pike, Taylor, Parnell & Melchior, 2016, S. 4). Dabei wird das objektbasierte Audio durch einen Satz von Parametern für zum Beispiel Position und Ausdehnung im 3D-Raum, Sprache oder Lautstärke beschrieben (International Telecommunication Union, 2016, S. 3; Pike et al., 2016, S. 4).

3.3.3 Quad-binaural

Quad-binaural besteht aus vier Paar vorgerenderten, binauralen Stereokanälen für die Orientierung des Kopfs nach vorne, hinten, links und rechts (Lee, 2016, S. 2). Entsprechend der Kopfrotation werden diese dann überblendet, was jedoch zu einer geringen Lokalisationsgenauigkeit und Klangver- färbungen aufgrund von Kammfiltern führt (ebd.). Weiter unterstützt dieses System nur die Rotation entlang der Horizontalebene und nicht alle Ebenen des dreidimensionalen Raumes.

3.4 Mikrofonsysteme für VR

Für die Aufnahme von VR-Audio gibt es verschiedene Ansätze, die eine Aufnahme des 3D-Schallfeldes anstreben. Dabei wird im Folgenden von einer Wiedergabe über Kopfhörer im Zusammenhang mit HMDs und Headtracking ausgegangen. Da eine Kunstkopfaufnahme nicht die Möglichkeit bietet den Ton an die Blickrichtung des Nutzers anzupassen, ist diese für VR-Anwendungen nicht relevant.

3.4.1 Ambisonics

Mikrofone für Ambisonics basieren auf der „mathematischen Theorie der Schallfeldabtastung auf einer kugelsymmetrischen Oberfläche“ (Gerzon, 1975 nach Weinzierl, 2008, S. 592) und sind im A-Format bereits seit Mitte der 1970er erhältlich (Weinzierl, 2008, S. 592).

3.4.1.1 First-Order-Ambisonics-Mikrofonarrays

Abbildung 7: Sennheiser AMBEO VR MIC (Bildquelle: https://de-de.sennheiser.com/img/10069/product_detail_x2_tablet_AMBEO_VR_Mic-sennheiser-01.jpg)

A-Format-Mikrofone (zum Beispiel Soundfield MKV, Sennheiser AMBEO VR MIC, Core Sound TetraMic oder Oktava MK-4012 4-D) bestehen aus vier Nieren (beziehungsweise bei Soundfield aus vier breiten Nieren), die in der Form eines Tetraeders angeordnet sind (Bates, Gorzel, Ferguson, O’Dwyer & Boland, 2016, S. 2; Core Sound, o.J.; Octava, o.J.; Sennheiser, o.J.; Sennheiser, 2016; Weinzierl, 2008, S. 592). Die Kapselabstände werden dabei durch elektronische Kompensation auf den Mittelpunkt des Tetraeders interpoliert, und es wird eine Koinzidenz bis zu Frequenzen von ca. 10 kHz erreicht (Weinzierl, 2008, S. 592).

Diese vier, durch ein derartiges Mikrofon erhaltenen Signale, werden als A-Format bezeichnet und können durch Matrizierung in das B-Format umgewandelt werden (Sennheiser, o.J.; Weinzierl, 2008, S. 593):

A-Format: 1: Front Left Up (FLU) 2: Front Right Down (FRD) 3: Back Left Down (BLD) 4: Back Right Up (BRU)

B-Format: W = FLU + FRD + BLD + BRU X = FLU + FRD – BLD – BRU Y = FLU – FRD + BLD – BRU Z = FLU – FRD – BLD + BRU

Diese vier Signale im B-Format sind koinzident (Weinzierl, 2008, S. 578) und können als das Signal eines auf drei Raumdimensionen erweiterten MS-Verfahrens verstanden werden (Weinzierl, 2008, S. 41). Das W-Signal liefert mit einer Kugel-Mikrofoncharakteristik den Druckanteil. X, Y und Z liefern mit der Mikrofoncharakteristik Acht Gradienten-Anteile für die Richtung entlang der X-,Y- und Z-Achse im dreidimensionalen Raum (ebd.). Also X für vorne-hinten, Y für links-rechts und Z für oben-unten.

In von Bates & Boland (2016) und Bates et al. (2017) durchgeführten Versuchen mit Hörtests hatte das Soundfield MKV im Vergleich zum Sennheiser AMBEO VR MIC und Core Sound TetraMic die besten Ergebnisse in der klanglichen Qualität. In Bezug auf die Richtungsgenauigkeit lieferte das Sennheiser AMBEO VR MIC die besten Ergebnisse. Jedoch wurde die klangliche Qualität des Sennheiser AMBEO VR MICs im Vergleich zum Soundfield MKV und Core Sound TetraMic als geringer eingestuft.

Wittek (2015) kritisiert FOA-Mikrofone folgendermaßen:

Mit Ambisonics erster Ordnung kann keine fehlerfeie Reproduktion erreicht werden, denn die Mathematik dahinter stimmt nur für eine Tennisball-große Hör- zone. Deshalb gelten eher die Gesetze der Stereofonie - das heißt, ein Ambisonics- Mikrofon erster Ordnung ist nichts anderes als ein koinzidentes Mikrofon mit den bekannten Vorteilen (einfach, wenige Kanäle, flexibel) und Nachteilen (sehr breite, unpräzise Phantomschallquellen, mangelhafte räumliche Qualität).

Aufgrund ihrer hohen Kanalkohärenz, sind FOA-Mikrofone nicht in der Lage räumliche Klangbilder zu erzeugen (Lee, 2016, S. 2). Weiter sei es bei FOA-Mikrofonen nicht möglich alle virtuellen Lautsprecher mit unabhängigen Signalen zu versorgen, wodurch ein kompromissbehaftetes Resultat entstehe (Wittek, 2015). Es komme zu Übersprechen auf den virtuellen Lautsprechersignalen (Wittek & Theile, 2017, S. 4).

3.4.1.2 Higher-Order-Ambisonics-Mikrofonarrays

Durch Higher-Order-Ambisonics-Mikrofone ist es möglich räumlich höher aufgelöste Aufnahmen als mit First-Order-Ambisonics-Mikrofonen zu erzeugen.

Das em32 Eigenmike® von MH Acoustics (s. Abbildung 8, links) besteht aus einem kreisförmigen Mikrofonarray aus 32 14 mm große Elektret-Kondensatormikrofone mit Kugelcharakteristik, welche sich auf einer Kugel mit einem Durchmesser von 8,4 cm befinden (Bates et al., 2016, S. 2; MH Acoustics LLC, o.J.). In der Kugel befinden sich zusätzlich die programmierbaren Mikrofonvorverstärker und 24- bit A/D-Wandler (Bates et al., 2016, S. 2; MH Acoustics LLC, 2013, S. 2). Diese werden durch ein CAT- 5-Kabel mit der Eigenmike® Microphone Interface Box (EMIB) verbunden, welche die Signale des em32-Arrays in einen Firewire-Audio-Stream konvertiert (MH Acoustics LLC, 2013, S. 2). Durch die dazu gehörende EigenStudio®-Softwareanwendung können die rohen Mikrofonsignale aufgenommen werden, bestimmte Mikrofone kalibriert und FOA und HOA-Signale generiert werden (Bates et al., 2016, S. 2).

Bei der verwendeten Technik handelt es sich um Beamforming, wobei das Schallfeld wie bei Ambisonics in sphärische Harmonische zerlegt, encodiert und dann eine gewünschte Ausgabe – bei Beamforming, ein Beampattern – erzeugt wird (Meyer & Elko, 2016, S. 1–2). Durch die hohe Anzahl an Mikrofonen ist es möglich die Signale in Ambisonics 4. Ordnung zu konvertieren (Shivappa et al., 2016, S. 6).

In den bereits zuvor erwähnten Versuchen von Bates & Boland (2016) und Bates et al. (2017) wurde festgestellt, dass das em32 Eigenmike® im Vergleich zum Sennheiser AMBEO VR Mic, Core Sound TetraMic und Soundfield MKV in Bezug auf die Richtungsgenauigkeit die besten Ergebnisse liefert, was in Bezug auf die Klangfarbe und klangliche Qualität jedoch nicht zugetroffen hat. Diese wurde, wie bereits erwähnt, beim Soundfield MKV als am besten eingestuft.

Abbildung 8: MH Acoustics em32 Eigenmike® (links) und VisiSonics 5/64 Audio Visual Camera (rechts) in relativen Größenverhältnissen (Bildquellen: https://mhacoustics.com/sites/default/files/s1_0.jpg, http://visisonics.com/wp- content/uploads/2014/09/newcamera.jpg)

VisiSonics bietet mit der VisiSonics 5/64 Audio/Visual Camera ein kreisförmiges Mikrofonarray aus 64 Mikrofonen in Kombination mit fünf Kameras an (VisiSonics Corporation, o.J.a). Diese sind auf einer 20,32 cm großen Kugel aus Aluminium befestigt (ebd.). Bei der verwendeten Technik handelt es sich ebenfalls um Beamforming (VisiSonics Corporation, o.J.c, S. 1). Durch die hohe Anzahl an Mikrofonen wird eine sehr hohe räumliche Auflösung von Ambisonics bis zur 7. Ordnung ermöglicht (Shivappa et al., 2016, S. 6; VisiSonics Corporation, o.J.c, S. 1). Jedoch ist der Frequenzbereich des Mikrofons Aufgrund der Bauweise auf 200 – 7000 Hz beschränkt (VisiSonics Corporation, o.J.c, S. 1).

Vielkanalige HOA-Mikrofonarrays scheitern nach Wittek (2015) durch zu geringe Kanaleffizienz und klangliche Qualität. Des Weiteren sind die aktuell erhältlichen Mikrofone sehr teuer und benötigen aufgrund der großen Anzahl an Kanälen eine erhöhte Rechenleistung bei der binauralen Synthese (Lee, 2016, S. 1–2).

3.4.2 Quad-Binaural

Ein quad-binaurales Mikrofonarray (s. Abbildung 9) besteht aus einem Kopf oder Würfel an dem vier Paare künstliche Ohren um 90° versetzt und in jeweils entgegengesetzter Richtung angebracht sind. In ihren künstlichen Gehörgängen befindet sich jeweils ein Mikrofon mit Kugelcharakteristik, welches das Signal bereits mit der HRTF des entsprechenden Außenohres aufnimmt.

Abbildung 9: Quad-binaurales Mikrofonarray 3Dio Omni Binaural Microphone (Bildquelle: https://cdn.shopify.com/s/files/1/0995/9804/products/Omni_2_WebReady_grande.jpg?v=1465282518)

Aus diesem Grund ist bei diesem Verfahren eine nachträgliche Binauralsynthese der Signale unnötig (Lee, 2016, S. 2). Die Technik blendet anhand der Kopfrotation die Signale der benachbarten Ohrpaare über. Dieser Ansatz führt zu einer geringen Lokalisationsgenauigkeit und Klangverfärbungen aufgrund von Kammfiltern (ebd.). Hinzukommt, dass die Mikrofone im Vergleich zu FOA-Mikrofonen teurer sind (ebd.).

3.4.3 Stereophone Mikrofonarrays

Die Signale eines stereophonen Mikrofonarrays können für die Wiedergabe in VR als virtuelle 3D- Lautsprechsetups binauralisiert werden (Wittek, 2015; Wittek & Theile, 2017, S. 9). Dafür werden sie in der jeweiligen VR-Authoring-Umgebung als geeignete, headgetrackte, statische Audio-Objekte definiert und nach einem 3D-Preset (wie zum Beispiel Dolby 5.1.4 oder Auro3D 9.1, jeweils ohne Center-Lautsprecher) oder in der Form eines Würfels um den Hörer angeordnet (ebd.). Jedoch setzen die meisten der standardisierten Lautsprecherkonfigurationen ihre Priorität auf die frontale Klangbühne, um das filmische Geschehen in einem Bildschirm zu begleiten (Shivappa et al., 2016, S. 4). Dabei werden andere Bereiche hingegen überhaupt nicht oder nur dünn abgedeckt, wodurch keine akkurate Darstellung aus diesen Richtungen möglich sei.

Weiter sei es nach Shivappa et al. (2016, S. 4) schwierig, kanalbasiertes Audio an eine sich ändernde Blickrichtung anzupassen, da die komplette virtuelle Lautsprecherkonfiguration virtuell, durch Aktualisierung der HRTFs anhand der neuen Richtung jedes einzelnen Lautsprechers, versetzt werden muss. Dies benötige einen präzisen Satz von HRTFs für alle möglichen virtuellen Lautsprecherpositionen, sowie eine sehr genaue Signalverarbeitung in Echtzeit. Speziell bei schnellen Kopfbewegungen ist dieser Prozess anfällig für Artefakte und Klangverfärbungen (Lindau et al., 2008, nach Shivappa et al., 2016, S. 4). Diese Fehler können die angestrebte Illusion komplett zerstören (Shivappa et al., 2016, S. 4). Diesem Argument gegen virtuelle Lautsprecher wiedersprechen Wittek & Theile (2017, S. 4) mit der Begründung, dass in VR generell virtuelle Lautsprecheranordnungen verwendet werden, um Signale binaural zu synthetisieren. Dabei erzeugen viele Renderer dünne Gitter (zum Beispiel Ambisonics 3. Ordnung) aus virtuellen Lautsprechern auf welche sich bewegende Objekte durch Panning geroutet werden (ebd., S.9).

Nach Theile & Wittek (2011 nach Wittek & Theile, 2017, S. 4) sind die Anforderungen an ein stereophones Mikrofonarray für 3D dieselben wie bei zwei- oder fünfkanaliger Stereophonie:

• Um Kammfilter zu vermeiden, muss eine Signaltrennung zwischen allen Kanälen herrschen, wobei kein Signal mit signifikantem Pegel auf mehr als zwei Kanälen anliegen darf. • Pegel- und Laufzeitunterschiede zwischen benachbarten Kanälen erzeugen die gewünschten Abbildungseigenschaften. • Dekorrelation des Diffusfeldes führt zu einer optimalen Umhüllung und Klangqualität.

3.4.3.1 ORTF-3D

Das Schoeps ORTF-3D (s. Abbildung 10) besteht aus zwei Ebenen in denen jeweils vier Supernieren auf einem Rechteck mit einer Kantenlänge von 10 cm auf 20 cm als ORTF-Surround angeordnet sind (Wittek, 2015; Wittek & Theile, 2017, S. 5). Dabei betragen die horizontalen Mikrofonöffnungswinkel 100° und 80°. Dies stellt eine Abwandlung von der traditionellen ORTF-Anordnung aus Nieren mit einem Mikrofonabstand von 17,5 cm und einem Mikrofonöffnungswinkel von 110° (Theile, Dickreiter, Graul, Camerer & Spikofski, 2014, S. 16) dar.

Abbildung 10: ORTF-3D in Windkorb von unten (Bildquelle: https://www.hauptmikrofon.de/images/ORTF3D_TopView_small.jpg)

Die ohne Abstand direkt übereinander positionierten Mikrofone sind als vertikales 90° X/Y-Mikrofonpaare nach oben und unten gerichtet, um in vertikaler Ebene eine weitere Signaltrennung zu erzeugen (Wittek, 2015; Wittek & Theile, 2017, S. 6–7). Dies ist aufgrund der hohen Richtwirkung der Supernieren möglich und basiert auf den Erkenntnissen von Lee & Gribben (2014 nach Wittek & Theile, 2017), dass eine Dekorrelation im Diffusfeld in Vertikalebene für das Gehör weniger relevant ist

Abbildung 11: Anordnung der Kapseln als als in der Horizontalebene. Dadurch wird die sehr kompakte vertikales XY-Mikrofonpaare (Bildquelle: Wittek & Theile, 2017, S. 6) Bauweise ermöglicht. 23

Lee (2016, S. 2) stellt jedoch die Problematik heraus, dass bei einem ORTF-Surround der Stereophone Aufnahmewinkel zwischen allen zweikanaligen stereophonen Segmenten nicht gleich groß ist und aus diesem Grund nicht die gleichmäßige 360°-Lokalisierung einer ESMA-Anordnung (Equal Segment Microphone Array, s. folgendes Kapitel) bei der Wiedergabe erreicht werden kann, welche für VR- Audio wichtig ist. Schoeps (o.J.) selbst bezeichnet die klanglichen Eigenschaften und 360°-Darstellung ihres kompakteren ORTF-Surround hingegen als wie bei einem „IRT-Kreuz“, was eine ESMA-Anordnung darstellt.

3.4.3.2 ESMA mit 3D-Erweiterung

Lee (2016) hat nach dem ESMA6-Design von Williams (2008 Lee, 2016, S. 2) das Konzept für ein 3D- Mikrofonarray für VR entwickelt. Dieses ist von Williams ursprünglich entwickelt worden, um ein gleichmäßiges 360°-Abbild in der Surround-Wiedergabe zu erzeugen und stellt die Basisphilosophie für das Design von auf Äquivalenzstereophonie basierenden Mikrofonarrays für VR-Audio dar. ESMAs besitzen einen gleich großen Mikrofonöffnungswinkel aller nebeneinanderliegenden Mikrofone. Dadurch wird derselbe Aufnahmewinkel zwischen allen nebeneinanderliegenden stereophonen Mikrofonsegmenten gebildet. Dabei sollten die durch ein ESMA aufgenommenen Signale idealerweise durch ein Lautsprecherarray mit derselben Winkelanordnung wie das Mikrofonarray wiedergegeben werden (Lee, 2016, S. 2).

Aufgrund der Praktikabilität des Mikrofonarrays habe sich Lee auf eine quadrophone Surround-Basis mit vier Mikrofonen beschränkt, jedoch lasse sich der ESMA-Ansatz beliebig zur Erhöhung der Richtungsauflösung erweitern (zum Beispiel oktogonales Array). Lees (2016) Versuche mit einer koinzidenten Anordnung und Mikrofonabständen von 24 cm, 30 cm und 50 cm zeigten, dass die äquivalenzstereophonen Anordnungen eine höhere Lokalisierungsgenauigkeit und Gleichmäßigkeit haben. Außerdem führe der Mikrofonabstand von 50 cm zu einer höheren Genauigkeit und Gleichmäßigkeit als 30 cm und 24 cm, wobei die Unterschiede nicht drastisch seien.

Da vergrößerte vertikale Mikrofonabstände nicht zu einer Steigerung der wahrgenommenen Größe des 3D-Eindrucks führen (Lee & Gribben, 2014 nach Lee, 2016, S. 9), aber Pegeldifferenzen zur Steigerung des wahrgenommenen vertikalen Winkels (Barbour, 2003 nach Lee, 2016, S. 9), hat sich Lee für ein vertikales MS-System zur Erweiterung des quadrophonen ESMAs auf 3D entschieden (s. Abbildung 12).

6 Equal Segment Microphone Array 24

Abbildung 12: ESMA mit vier vertikal ausgerichteten MS-Mikrofonanordnungen zur 3D-Aufnahme (Bildquelle: Lee, 2016, S. 9)

Dieses bestehe aus vertikal ausgerichteten Mikrofonen mit Acht-Charakteristik und Nieren. Die Achten könnten direkt auf die Höhenkanäle übertragen werden, wenn neben der horizontalen Lokalisation nur eine Erweiterung des Höreindrucks benötigt werde. Dabei würden die Achten, durch ihre Charakteristik und Ausrichtung, eine maximale Ausblendung von horizontalem Direktsound ermöglichen, ohne dabei die horizontale Lokalisation von Quellen zu beeinflussen. Wenn eine vertikale Lokalisation gewünscht sei, könnten die Paare aus Achten und Nieren anhand des MS-Verfahrens dekodiert und in Paare, bestehend aus nach oben und unten zeigenden, gerichteten Mikrofonen konvertiert werden. Aus der Kombination von Niere und Acht entstehe dadurch, bei einem Mitte/Seite-Verhältnis von 1, das Äquivalent zu einem Paar Hypernieren mit einem Mikrofonöffnungswinkel von 130°. Jedoch müsse die Performance für beide Szenarios in einer weiteren Studie überprüft werden.

4. VR-Audio-Produktion

Die Produktion von VR-Audio unterscheidet sich anhand der benötigten Interaktivität. Während zum Beispiel bei VR-Games Audio in Echtzeit in der Game Engine generiert wird, um weitere Interaktion zu ermöglichen, werden die Inhalte bei linearen VR-Filmen offline, beziehungsweise im Fall von Live- Events live produziert (Susal et al., 2016, S. 2). Da es bei beiden Formen der VR für den Zuschauer möglich ist den Blick in alle Richtungen zu wenden und dadurch die Darstellung von Audio während des Abspielvorgangs zu beeinflussen, wird die Erstellung und Bereitstellung von Inhalten in einem flexiblen Audioformat benötigt, welches räumliche Transformationen und Modifikationen von Elementen innerhalb des Mischvorgangs ermöglicht (ebd.).

4.1 Lineare VR

Die Audio-Produktion und Postproduktion von linearen VR-Erlebnissen ist ähnlich wie bei traditionellen filmischen Inhalten. Aus Aufnahmen von Raum-, Ambisonics oder einzelnen Mikrofonen wird von einem Toningenieur durch ein Mischpult oder eine DAW eine Tonmischung für die binaurale Reproduktion über Kopfhörer erstellt. Das Monitoring kann dabei unter anderem über Kopfhörer mit Head-Tracking erfolgen. Die finale Mischung kann dann als Kanäle, Objekte, vorgerenderte Ambisonics-Darstellung oder einer Kombination aus allem ausgespielt werden.

Die essentielle Komponente beim Mischen für VR ist die Positionierung der verschiedenen Soundelemente im virtuellen Raum, sodass diese mit der Video-Referenz übereinstimmen (Susal et al., 2016, S. 4). Das 3D-Panning für lineare VR-Filme erfolgt im Gegensatz zum traditionellen Anwendungsfall anhand der Rektangularprojektion des sphärischen Videos. In diesem egozentrischen Bezugsrahmen werden der Horizontalwinkel, der Vertikalwinkel und die Entfernung von virtuellen Schallquellen definiert.

4.1.1 Software zur Produktion von Ambisonics-Tonmischungen

Im Folgenden sollen verschiedene Plugin-Lösungen für die Erstellung von Ambisonics-Tonmischungen innerhalb einer DAW vorgestellt werden. Dabei wurden aus einer Vielzahl von Produkten, eine Auswahl aus unterschiedlichen Preisbereichen mit einem unterschiedlich großen Umfang an Funktionen getroffen.

4.1.1.1 Facebook 360 Spatial Workstation und Audio Ease 360pan

Durch Plugins wie Facebook 360 Spatial Workstation und Audio Ease 360pan Suite ist es möglich in einer DAW wie Pro Tools HD oder Reaper Ambisonics- Mischungen für sphärische Videos zu erstellen (AUDIO EASE B.V., o.J.c, S. 1; Facebook 360, 2017, S. 8). Auf die jeweiligen Mono-, Stereo- oder 4.0-Spuren (bei Facebook 360 Spatial Workstation auch 5.0, 6.0 oder 7.0) werden dazu am Ende der Effektkette ein Plugin zum 3D-

Abbildung 14: Spatialiser-Plugin der Facebook 360 Spatial Workstation zum 3D- Panning (s. Abbildung) platziert, Panning von Schallquellen (Bildquelle: Facebook 360 Spatial Workstation) welches einen Ambisonics- Output erstellt. Ebenso können auch direkt Aufnahmen von Ambisonics-Mikrofonen verwendet und für eventuelle Korrekturen in der Ausrichtung rotiert werden. Für das Monitoring wird auf einem Ambisonics-Master dann ein entsprechendes Plugin zur binauralen Synthese platziert, welches in Echtzeit die binaurale Ausgabe für Kopfhörer anhand der Blickrichtung des Bildausschnitts im 360°- Video in einem Videofenster simuliert. Dabei unterscheiden sich die Spatial Workstation und die 360pan Suite neben dem Preis – Facebook 360 Spatial Workstation ist kostenlos und Audio Ease 360pan Suite 3 kostet aktuell knapp 300 € (AUDIO EASE B.V., o.J.b) – in einigen Punkten. Die Audio Ease 360pan Suite beinhaltet einen Faltungshall mit einer Vielzahl von, mit einem Ambisonics- Mikrofon aufgenommenen, Impulsantworten (AUDIO EASE B.V., o.J.c, S. 15), während die Facebook 360 Spatial Workstation hingegen Raum-Modelling (s. Abbildung 14) mit Reflektionspfaden aus bis zu 3 Reflektionen betreibt (Facebook 360, 2017, S. 7) und keinen eigenen Hall anbietet. Bei der 360pan Suite können verschiedene Hallräume und bei der Spatial Workstation das globale Raummodell Abbildung 13: Einstellung des globalen Raummodells in der Facebook 360 Spatial Workstation (Bildquelle: Facebook 360 direkt aus dem jeweiligen Plugin für das 3D- Spatial Workstation) 27

Panning angesteuert und durch einen Distanz-Regler mit beeinflusst werden (s. Abbildung 13 und Abbildung 15) (AUDIO EASE B.V., o.J.c, S. 5; Facebook 360, 2017, S. 6). Zusätzlich ist es mit 360pan auch möglich den Hall mit meinem konventionellen Ambisonics-Send anzusteuern (AUDIO EASE B.V., o.J.c, S. 5).

Abbildung 15: Automation der Parameter und Panning in der Rektangularprojektion des sphärischen Videos in der Audio Ease 360pan Suite (Bildquelle: Audio Ease 360pan Suite)

Beide Anwendungen ermöglichen analog zur Positionierung auch die Automation der Position von Schallquellen auf der Rektangularprojektion des sphärischen Videos. Bei der Spatial Workstation ist zusätzlich ein Surround-Panner vorhanden, um den Abstand der Schallquelle zu definieren (s. Abbildung 13). Weiter unterscheiden sich die zwei Anwendungen darin, dass die 360pan Suite alle Schallquellen gleichzeitig in dem Haupt-Videofenster darstellen kann und eine Automation von Position, Lautstärke, Hallanteil, sowie der Ausbreitung des Halls der jeweiligen Quelle ermöglicht (s. Abbildung 15) (AUDIO EASE B.V., o.J.c, S. 5). Außerdem gibt es bei 360pan Suite die Möglichkeit mit einem

Abbildung 16: Radar in der Audio Radar die Intensität von Schallquellen unter anderem direkt auf dem Ease 360pan Suite zum Anzeigen Video anzuzeigen (Abbildung 16) (ebd., S.8). von Schallquellen (Bildquelle: Audio Ease 360pan Suite)

Darüber hinaus ermöglichen beide Anwendungen durch einen „Position Blur“- (360pan Suite) beziehungsweise „Spread“-Regler (Spatial Workstation) eine prozentuale Einstellung von Punktschallquellen zu diffusen und dadurch als näher empfundenen Schallquellen (AUDIO EASE B.V., o.J.c, S. 5; Facebook 360, 2017, S. 7). Dadurch kann in extremer Einstellung zum Beispiel eine Mono- Erzählerstimme fest mittig im Kopf und unabhängig von Kopfbewegungen positioniert werden. Wird eine von der Kopfbewegung unabhängige Stereo- Wiedergabe erwünscht, muss diese Spur separat gerendert und bei der Wiedergabe zusammengefügt werden. In der Spatial Workstation ist ein Metering-Plugin enthalten, welches für diesen Zweck auf der Ambisonics- Summe und der Stereo-Spur platziert wird und diese in kombinierter Form und unabhängig von der aktuell simulierten Kopfrotation misst (s. Abbildung 17) (Facebook 360, 2017, S. 13–14). Dabei wird die maximal mögliche Lautstärke angegeben, so als würde der Zuschauer immer in die „lauteste“ Richtung schauen. Mit der 360pan Suite ist es möglich Mixe in bis zu Ambisonics 3. Ordnung zu erstellen (AUDIO EASE B.V., o.J.a), während bei der Spatial Workstation Abbildung 17: Metering-Plugin in der Facebook 360 Spatial Workstation (Bildquelle: Facebook 360 Spatial Workstation) dies aktuell nur bis zur 2. Ordnung (ambiX) möglich ist (Facebook 360, 2017, S. 1). Jedoch unterstützt letztere den Einsatz von VR-Brillen (Oculus Rift DK1 und DK2 auf macOS oder Oculus Rift und HTC Vive auf Windows) (ebd., S.2), während die 360pan Suite mit Hilfe eines an den Kopfhörern befestigten Trackers Kopfbewegungen in Echtzeit simuliert (AUDIO EASE B.V., o.J.c, S. 16). Als weitere Features bietet die Spatial Workstation einen eingebauten Doppler-Effekt, wodurch Schallquellen in Abhängig von ihrer Distanz verzögert werden, als auch die Möglichkeit mit stereoskopischen Videos zu arbeiten (Facebook 360, 2017, S. 7). Weiter ist es möglich den Winkel für den beim Monitoring verwendeten Fokus und das Pegel außerhalb dieses Fokusbereichs individuell einzustellen (Facebook 360, 2017, S. 12).

4.1.1.2 DearVR

Ein weiteres Plugin, mit welchem innerhalb einer DAW Ambisonics-Mischungen erzeugt werden können, ist dearVR von Dear Reality. Es stellt eine Kombination aus einem 3D-Panner, einem Raummodell für Reflektionen und einem Faltungshall dar (s. Abbildung 18) (Dear Reality, 2017).

Abbildung 18: dearVR von Dear Reality zum 3D-Panning von Schallquellen (Bildquelle: Dear Reality dearVR)

Der Unterschied zur Facebook 360 Spatial Workstation und Audio Ease 360pan besteht jedoch darin, dass Schallquellen ohne eine spezielle Videoreferenz mit einem 3D-Panner platziert werden. Dieser kann zwischen einem kartesischen Koordinatensystem zum freien Verschieben der Schallquelle und einem Polarkoordinatensystem zur Veränderung der jeweiligen Winkel und des Abstands umgeschaltet werden. Dabei wird in einem zweidimensionalen Koordinatensystem gearbeitet, welches zwischen X- und Z-Achse, Y- und Z-Achse, sowie X- und Y-Achse umgeschaltet werden kann. Mit dem „Occlusion“-Regler kann eine Verdeckung von Schallquellen durch Objekte simuliert werden (Dear Reality, 2017, S. 8). Dadurch können ähnlich wie bei der Spatial Workstation und 360pan Punktschallquellen diffuser gemacht werden. Besonders ist an dearVR, dass ein Ambisonics- Faltungshall und ein variables Raummodell für Reflektionen enthalten sind. Als Output-Format kann Ambisonics in 1. bis 3. Ordnung in FuMa oder ambiX ausgewählt werden, sofern dies die genutzte DAW ermöglicht. Mehrkanalige Signale müssen auf getrennten Mono-Spuren mit jeweils einer Instanz des dearVR-Plugins als einzelne Punktschallquellen dargestellt werden (Dear Reality, 2017).

Der Preis von dearVR beträgt aktuell ohne Mehrwertsteuer 349 USD (Plugin Alliance, o.J.).

Das Platzieren der Schallquellen ist ohne direkte Referenz zum Video jedoch schwieriger und ungenauer. Ferner führt die Kombination aus 3D-Panner und Hallgerät dazu, dass jedes umgewandelte Mono-Signal eine eigene Hall-Instanz benötigt, was speziell bei langen Hallzeiten rechenintensiv werden kann.

4.1.1.3 Blue Ripple Sound

Ein Anbieter einer Vielzahl an HOA-Plugins ist Blue Ripple Sound. Im Folgenden soll ein Überblick über die Funktionen eines Teils der angebotenen Plugins gegeben werden.

O3A Core

Die kostenlose O3A Core Plugin-Library stellt für Ambisonics 3. Ordnung verschiedene 3D-Panner und Visualisierer ohne Videobezug, Decoder, Converter, Meter, sowie Plugins zur Rotation des Schallfeldes und virtuelle Mikrofone zur Verfügung (Blue Ripple Sound, o.J.b, Blue Ripple Sound, 2018a).

Neben dem klassischen 3D-Panner aus Azimuth und Elevation und einem Panner mit Rektangularprojektion, gibt es einen hemisphärischen Panner, der ebenfalls mit Azimuth und Elevation gesteuert werden kann (Blue Ripple

Sound, 2018d, S. 47–57). Abbildung 19: Hemisphärischer Panner (Bildquelle: Blue Ripple Sound, 2018b, S. 48)

O3A View

Das Plugin-Paket O3A View stellt für einen Preis von £349 (Blue Ripple Sound, o.J.a) eine separate Videoanwendung für HMDs7 und konventionelle Displays zur Verfügung, welche alle Formate von klassischem Film bis 360°-Video mit und ohne Stereographie unterstützt (Blue Ripple Sound, 2018d, S. 1). Über eine Netzwerkschnittstelle wird die Videoanwendung mit der DAW verbunden und gesteuert (Blue Ripple Sound, 2018d, S. 17). Weiter ist es möglich bestimmte O3A-Plugins innerhalb dieser Videoansichten zu steuern. So können zum Beispiel Panning-Automationen mit den Controllern der HTC Vive innerhalb der VR oder mit der Maus auf der konventionellen Videoansicht geschrieben werden (s. Abbildung 20) (Blue Ripple Sound, 2018d, S. 1, 16). Für die Anzeige der Parameter bestimmter Plugins innerhalb der Videoansicht, muss zuvor lediglich ein „View“-Button innerhalb der jeweiligen Plugins aktiviert werden (Blue Ripple Sound, 2018d, S. 17). Des Weiteren kann eine Visualisierung der Lautstärkeintensität an die Videoanzeige gekoppelt werden (ebd.). Zur Hilfe bei der

7 Es wird HTC Vive empfohlen, anderen HMDs wie zum Beispiel Oculus Rift sind auch möglich Blue Ripple Sound (2018d, S. 16). 31

Platzierung von Schallquellen können zusätzlich Gitterlinien für Winkel oder die Kanten eines würfelförmigen Raumes innerhalb der Videoansicht angezeigt werden (Blue Ripple Sound, 2018d, S. 21).

Abbildung 20: O3A View beim Schreiben einer Panning-Automation innerhalb der VR mit HMD (Bildquelle: Blue Ripple Sound, 2018d, S. 1)

Da die Synchronisation anhand der Timeline des Projekts innerhalb der DAW und der Video-Zeit erfolgt, ist es möglich einen großen Versatz einzustellen, um kein Audio direkt am Start des Projektes platzieren zu müssen (Blue Ripple Sound, 2018d, S. 35). Weiter können Latenzen durch kleine Verschiebungen ausgeglichen werden.

Ein weiteres nützliches Tool dieses Plugin-Pakets ist der enthaltene O3A Decoder für das Monitoring von Ambisonics VR-Tonmischungen dritter Ordnung in binauralem Stereo für Kopfhörer. Dabei können sechs verschiedene HRTF-Decoder von Blue Ripple Sound, ein MS-Decoder oder der von YouTube eingesetzte Decoder für 1st Order Ambisonics ausgewählt werden (Blue Ripple Sound, 2018d, S. 31). Durch einen „Normalise“-Schalter ist es dabei möglich die Pegel der verschiedenen Decoder angleichen zu lassen, was einen Direktvergleich des Klangs ohne Pegelunterschiede ermöglicht. Weiter ist es möglich die Größe des Fokusbereichs und die Intensität des Pegelunterschieds außerhalb des Fokusbereichs einzustellen. Darüber hinaus ist optional ein Brickwall-Limiter vorhanden, um Clipping zu verhindern.

O3A Reverb

Mit der O3A Reverb Plugin-Library bietet Blue Ripple Sound für £349 eine große Auswahl an verschiedenen Hall-Plugins für Ambisonics dritter Ordnung an (Blue Ripple Sound, o.J.b).

Mit dem MS3 und MS5 sind algorithmische Hall-Plugins enthalten, die erste und späte Reflektionen erzeugen (Blue Ripple Sound, 2018c, S. 2). Beide Plugins nutzen denselben Hall-Algorithmus und unterscheiden sich darin, dass beim MS3 zehn Parameter für Einstellungen vorhanden sind und beim MS5 (s. Abbildung 21) um die neunzig. Dabei ist keine Richtungssteuerung der späten Reflektionen möglich (Blue Ripple Sound, 2018c, S. 25). Neben individuellen Einstellungen können auch Presets ausgewählt werden. Das O3A Early Reflections-Plugin simuliert mit demselben Algorithmus wie der MS3 und MS5 eine einzige erste Reflektion (ebd.).

Abbildung 21: O3A MS5 algorithmisches Hall-Plugin für Ambisonics 3. Ordnung mit ausführlichen Einstellungsmöglichkeiten (Bildquelle: Blue Ripple Sound, 2018c, S. 23)

Der O3A Reverb – Convolution stellt einen einfachen Faltungshall mit 3D-Impulsantworten dar (ebd.). Dabei ist der Output jedoch nicht von der räumlichen Richtung der Eingabe abhängig. Er wird durch die Richtung der verwendeten Impulsantwort bestimmt. Der O3A Reverb – Shaped Convolution nutzt ebenfalls 3D-Impulsantworten, ermöglicht jedoch, die Richtung anhand der Eingabe zu formen (Blue Ripple Sound, 2018c, S. 33). Diese Formung kann prozentual zwischen der Richtung der Eingabe und der 3D-Impulsantwort eingestellt werden.

Das O3A Shoebox-Plugin fungiert im Gegensatz zu den bisher erwähnten Hall-Plugins gleichzeitig als 3D-Panner (ebd.). Aus einem Mono-Signal wird eine Ausgabe in Ambisonics dritter Ordnung erzeugt. Dabei wird ein rechteckiger Raum als akustisches Modell benutzt, um für einen gepannten Sound Reflektionen an den Wänden zu berechnen. Aus diesem Grund ist es nicht sinnvoll, das Plugin als Effekt-Send einzusetzen, da in diesem Fall alles an die selbe Stelle positioniert werden würde (Blue Ripple Sound, 2018c, S. 3).

Abbildung 22: O3A Shoebox-Plugin für Raum-Modelling (Bildquelle: Blue Ripple Sound, 2018c, S. 37)

O3A Manipulators

Blue Ripple Sound bietet mit der O3A Manipulators für £399 eine vielseitige Plugin-Library zur Bearbeitung von Ambisonics-Tonmischungen oder Aufnahmen dritter Ordnung (Blue Ripple Sound, o.J.b). In dieser sind unter anderem 3D-Panner enthalten, die ein Distanz-Modell, die Möglichkeit die Größe von Schallquellen einzustellen, sowie das Erstellen von Automationen anhand eines

34 kartesischen 3D-Koordinatensystems erlauben (Blue Ripple Sound, 2018b, S. 20–25). Des Weiteren ist ein HOA-Kompressor enthalten, welcher ermöglicht, die Dynamik einzuschränken. Dies geschieht entweder für das gesamten Schallfeld, für bestimmte unabhängige Richtungen oder in einer Kombination aus beidem (Blue Ripple Sound, 2018b, S. 26–27). Der O3A Diffuser erlaubt eine „Weichzeichnung“ der Mischung durch die kontrollierbare Abschwächung von Transienten und die Kontrolle über deren Ausbreitung im Raum (Blue Ripple Sound, 2018b, S. 29–30). O3A Directional Emphasis und O3A Directional Mask erlauben es innerhalb eines Ambisonics-Mix dritter Ordnung Ton aus einer bestimmten Richtung zu betonen oder abzuschwächen (Blue Ripple Sound, 2018b, S. 30–34). Zusätzlich ist mit dem O3A Graphic Equalizer ein grafischer Terzbandequalizer mit 31 Frequenzbändern (Blue Ripple Sound, 2018b, S. 36), mit dem O3A Parametric Equalizer ein parametrischer Equalizer (Blue Ripple Sound, 2018b, S. 45–46) und mit dem O3A Low/High Pass Filter ein Hoch- beziehungsweise Tiefpass Butterworth-Filter mit variabler Ordnung und Cutoff-Frequenz (Blue Ripple Sound, 2018b, S. 38–39) enthalten. Durch O3A Move ist es möglich, Ton innerhalb eines Ambisonics- Mixes in eine andere Richtung zu verschieben (Blue Ripple Sound, 2018b, S. 40–41) und mit O3A Portal ist dies mit einer ganzen Region möglich (Blue Ripple Sound, 2018b, S. 47–48). Weiter können mit letzterem Plugin auch zwei Regionen miteinander vertauscht werden. Durch O3A Reflection ist es möglich das gesamte Schallfeld entlang einer das Zentrum kreuzenden Fläche zu spiegeln und dadurch zum Beispiel Ton auf der rechten Seite mit Ton auf der linken Seite zu tauschen (Blue Ripple Sound, 2018b, S. 50). Mittels O3A Screen Resizer ist es möglich, Sounds an eine geänderte Bildschirmgröße durch Streckung oder Erweiterung anzupassen und dadurch ihre zum Video relative Positionen zu erhalten (Blue Ripple Sound, 2018b, S. 52–53). Der O3A Spatial Equalizer ermöglicht mit einem grafischen Terzbandequalizer mit 31 Frequenzbändern Ton aus unterschiedlichen Richtungen innerhalb eines Ambisonics-Mix zu bearbeiten (Blue Ripple Sound, 2018b, S. 54–55). Die zu bearbeitenden Bereiche werden dafür eingefärbt. Die O3A Spatial Mask ermöglicht nach demselben Prinzip den Pegel in bestimmten Bereichen zu verändern (Blue Ripple Sound, 2018b, S. 58). Weiter ermöglicht O3A Spatial Mask Split durch das Einfärben eines Bereichs die Trennung einer Ambisonics- Mischung dritter Ordnung (16 Kanäle) in zwei Ambisonics-Mischungen innerhalb einer Ausgabe mit 32 Kanälen (Blue Ripple Sound, 2018b, S. 61). Diese können nach einer getrennten Bearbeitung mit dem O3A Join-Plugin wieder vereint werden. Mit O3A Spotlight ist es möglich nur einen bestimmten, beliebig großen Bereich eines Schallfeldes auszuwählen und alles andere auszublenden (Blue Ripple Sound, 2018b, S. 63). O3A Spotlight Split bietet dieselbe Funktionalität in Kombination mit einer Auftrennung in zwei separate Ambisonics-Mischungen, im selben Prinzip wie bei O3A Spatial Mask Split (Blue Ripple Sound, 2018b, S. 65–66). O3A Zoom und O3A Zoom XYZ bieten die Möglichkeit, durch Manipulation den Eindruck zu erwecken, als ob sich die Perspektive des Hörers verändern beziehungsweise sich das Schallfeld bewegen würde (Blue Ripple Sound, 2018b, S. 68–71).

4.1.1.4 Vergleich

In der folgenden Tabelle 1 werden die Funktionalitäten der Facebook 360 Spatial Audio Workstation, Audio Ease 360 Pan, Dear Reality dearVR und von mehreren Produkten von Blue Ripple Sound zusammengefasst und gegenübergestellt.

Tabelle 1: Vergleich der Funktionsumfänge verschiedener Ambisonics-Plugins

Facebook Audio Ease Dear Blue Rippel Blue Rippel Sound 360 Spatial 360 Pan Reality Sound O3A O3A View Audio dearVR Core O3A Reverb Workstation O3A Manipulators Preis kostenlos 296,31 € 349 USD kostenlos View: £349 (≈ 393 (≈ 294 €) €) Reverb: £349 (≈ 393 €) Manipulators: £399 (≈ 449,54 €) Ambisonics 2 3 3 3 3 Ordnung 3D-Panning mit ✔ ✔ Nein, nur Nein, nur 3D- View: ✔ Videoreferenz 3D-Panner Panner ohne Reverb: Nein, nur ohne Video- 3-Panner beim O3A Video- referenz Shoebox-Plugin referenz Manipulators: Nein, nur 3D- Panner Binauraler ✔ ✔ - - View: ✔ (sieben Decoder für verschiedene) Monitoring 3D-Hall - Faltungs- Faltungs- - Reverb: hall mit hall Faltungshall mit einstell- und ohne barer Richt- einstellbare wirkung Richtwirkung und algorithmischer Hall Reflektionen Einstellung - Einstellung - Reverb: Einstellung durch Raum- von Höhe, von von Abstand zu Modelling Breite und Abstand zu individuellen Länge des Fläche v., Flächen v., h., l., r., Raumes h., l., r., o., o., u. und weitere (Reflektions- u. Einstellungs- pfade aus 3 möglichkeiten Reflektionen) Erstellen diffuser ✔ ✔ ✔ - Manipulators: ✔ Schallquellen VR-Videoplayer ✔ ✔ - - View: ✔

Facebook Audio Ease Dear Blue Rippel Blue Rippel Sound 360 Spatial 360 Pan Reality Sound O3A O3A View Audio dearVR Core O3A Reverb Workstation O3A Manipulators HMD-Support Oculus Rift Nur Head- - - View: HTC Vive DK1 und DK2 Tracker für empfohlen, Oculus auf macOS Kopfhörer Rift und andere auch oder Oculus möglich Rift und HTC Vive auf Windows Visualizer - Mit und - Verschie- - ohne dene, aber Video- ohne Video- referenz referenz Meter Ambisonics 2. - - ✔ - Ordnung + Stereo-Spur in Kombination Rotation von ✔ ✔ - ✔ - Ambisonics- Aufnahmen Nachbearbeitung - - - - Manipulators: von Ambisonics- Kompressor, Aufnahmen Diffuser, Richtungsbetonung, räumlicher EQ, räumliche Trennung u.v.m.

Es gibt große Unterschiede im Preis und innerhalb der Funktionalität der betrachteten Plugins. Facebook 360 Spatial Workstation ist kostenlos und bietet mit einem Raummodell für erste Reflektionen, einem Videoplayer für HMDs und einem Decoder für binaurales Monitoring grundlegende Tools für die Erstellung von Ambisonics-Mischungen zweiter Ordnung. Jedoch enthält dieses Plugin-Paket keinen Ambisonics-Hall, was dazu führt, dass für eine Änderung der Position oder der Distanz eines Objekts Automationen im Facebook 360 Spatialiser Plugin und in einem separaten Hall-Plugin geschrieben werden müssen. Dennoch stellt die Individualisierbarkeit des Raummodells einen besonderen Mehrwert dar für Reflektionen, die bei der 360pan Suite von Audio Ease nicht enthalten ist. Die 360pan Suite bieten stattdessen einen simplen Workflow für die Automation von Panning, Hall-Sends und für die Ausbreitung des Halls, mit der Verwendung eines Ambisonics- Faltungshalles und einer Vielzahl an Impulsantworten. Durch den Decoder der 360pan Suite besteht zudem die Möglichkeit, 3D-Mischungen mit einem Head-Tracker und ohne ein HMD zu beurteilen. Dies stellt zwar eine gewisse Problematik dar, da nicht dieselbe Erfahrung wie mit einem HMD stattfindet.

Dennoch kann dies als Optimierung eines Workflows betrachtet werden, bei dem die Mischung und das Schreiben von Automationen nicht in VR erfolgen und ein HMD lediglich zur Kontrolle genutzt wird. O3A View von Blue Ripple Sound überwindet diese Problematik dadurch, dass das Steuern von Plugin- Parametern und das Panning von Schallquellen vollständig innerhalb der VR ermöglicht wird.

Zudem bieten die Plugin-Libraries von Blue Ripple Sound im Vergleich zu denen der anderen Anbieter die vielfältigsten Möglichkeiten zur Erstellung und Bearbeitung von Ambisonics-Mischungen dritter Ordnung. Bei O3A Manipulators können HOA-Aufnahmen oder Mischungen auf vielfältige Weise nachbearbeitet und verändert werden, was bei den Plugins der anderen Hersteller – bis auf die Rotation von Ambisonics-Aufnahmen – nicht möglich ist. Beim O3A Decoder können zudem unterschiedliche HRTF-Decoder für das Monitoring genutzt und diese untereinander verglichen werden.

Da dearVR von Dear Reality keine Möglichkeit für das Panning anhand eines Videos bietet, ist eine akkurate Positionierung und Panning-Automation von Schallquellen unmöglich. Aus diesem Grund ist das Plugin nicht für die Arbeit mit Videos zu empfehlen.

In Bezug auf die Bearbeitung von Ambisonics in DAWs bleibt es spannend, welche Möglichkeiten die Zukunft bringen wird. Pro Tools HD bietet beispielsweise mit der Version 12.8.2 erst seit Oktober 2017 Ambisonics-Busse bis zur 3. Ordnung an (Avid Technology, 2017; Sherbourne, 2017). Komplette VR- Workflows sind bisher selten zu finden. Der Einsatz individueller HRTFs ist aufgrund ihrer aufwändigen Erstellung eher unwahrscheinlich, jedoch könnte dies auf Produktionsseite eine akkuratere Ortung ermöglichen. Abzuwarten bleibt zudem, ob Mainstream-Portale wie YouTube (aktuell FOA) oder Facebook (Hybrid-Order-Ambisonics mit 8 Kanälen) höhere Ordnungen ermöglichen oder eine Auswahl unterschiedlicher HRTFs in ihren Decodern anbieten werden.

4.1.2 Software zur Produktion von objektbasierten Mischungen

Die Software für die Produktion von objektbasierten Mischungen ermöglicht das Platzieren und Bewegen von Audio-Objekten im dreidimensionalen Raum sowie das Monitoring von diesen mit einem Renderer. Da es sich bei Dolby Atmos for VR mit dem Dolby-Digital-Plus (.ec3) Bitstrom lediglich um ein virtuelle Surround-Lautsprecheranordnung ohne Höhenebene und ohne Audio-Objekte handelt, wurde bewusst auf eine Vorstellung der Produktionstechnik aus 3D-Panner, VR-Video-Player und Renderer für die Arbeit in Pro Tools verzichtet.

4.1.2.1 Merging Technologies Pyramix 11 für MPEG-H und ADM

In der DAW Pyramix 11 von Merging Technologies wurde ein vollständiger 3D-Workflow für die Erstellung von Masterfiles mit objektbasierten Audiometadaten entwickelt, die mit MPEG-H Audio und dem Audio Definition Model (ADM) kompatibel sind (Merging Technologies, 2017). Dabei wurde der zuvor für Dolby Atmos entwickelte Workflow in einen umfassenden Workflow für die TV-Produktion mit zusätzlichem Mehrsprachen-Support abgeändert.

Abbildung 23: Pyramix 11 Track Layout mit objektbasiertem Audio (Bildquelle: http://www.merging.com/resources/img/news/prs/Track-layout-OBA_1200px.jpg)

Aus dem Pyramix 11 Projekt kann direkt nach ADM exportiert oder ein MPEG-H Authoring Tool Projekt erstellt werden (s. Abbildung 24) (Merging Technologies, 2017). Dieses MPEG-H Authoring Tool von Fraunhofer ermöglicht das Authoring, Monitoring und den Export in MPEG-H Audio.

Abbildung 24: Export nach ADM (Bildquelle: http://www.merging.com/resources/img/news/prs/ADM-export_1200px.jpg)

Weiter ist es in Pyramix 11 möglich, jedes erdenkliche Lautsprechersetup zwischen Mono und NHK 22.2 ohne zusätzliche Plugins mit den entsprechenden Bussen zu mischen und zu mastern (Merging Technologies, o.J.b). Nach der Konfiguration der Busse, ist es möglich, Sounds durch einen 3D-Panner im dreidimensionalen Raum zu positionieren. Da dabei die X-, Y- und Z-Koordinaten an jeden Bus gesendet werden, ist es selbst bei unterschiedlicher Anzahl von Kanälen möglich, das Panning einer beliebigen Anzahl von Bussen gleichzeitig zu steuern.

Darüber hinaus sind mit dem Flux Verb Full Reverb und dem Flux Verb Sessions Reverb mehrkanalige Hallplugins in einigen Pyramix Software-Paketen8 enthalten (Merging Technologies, o.J.b).

Die Monitor-Sektion ermöglicht es, alle Kanäle der Ausgangsbusse zu verarbeiten und Down-Mixe für jedes andere Format zu erstellen (Merging Technologies, o.J.b). Gleichzeitig sind Steuermöglichkeiten für Lautsprecher wie Phase, mute und solo vorhanden.

Eine weitere Besonderheit von Pyramix 11 ist eine mehrkanalige, Timeline-basierte Effektverarbeitung (Merging Technologies, o.J.a). Dafür können Signalketten aus VST (VST3) und VS3-Plugins erstellt werden und direkt auf einen Mono- oder mehrkanaligen Clip in der Timeline angewandt werden, während Edits und Fades erhalten bleiben. Diese Effektketten aus Plugins können mit ihren

8 Flux Verb Session Reverb ist in Pyramix Native Standard & MassCore Standard enthalten und Flux Verb Full Reverb in Native Pro, MassCore Pro & MassCore Extended (Merging Technologies (o.J.b)) 40

Einstellungen in einem eigenen File gespeichert werden, um sie in anderen Pyramix 11-Projekten aufzurufen.

Für das Arbeiten mit Ambisonics (bis zur 4. Ordnung), einen 360°-Video-Player und das Monitoring mit verschiedenen HRTFs mit und ohne Hall (Engler & Jacques, 2017), kann die kostenpflichtige9 VST- basierte B<>com Spatial Audio Toolbox vollständig integriert werden (Merging Technologies, o.J.a).

Zudem ist eine Steuerung des 3D-Panners durch die 3D-Mäuse Space Navigator (s. Abbildung 25) und SpaceMouse Pro von 3DConnexion möglich (Ryan, 2016). Abbildung 26 vermittelt eine Vorstellung von deren Bedienung.

Abbildung 25: Space Navigator 3D-Maus von 3DConnexion (Bildquelle: https://www.3dconnexion.de/fileadmin/template s/images/SN_Gallery/01_iso_right.jpg)

Abbildung 26: Beschriftung der Achsen der Space Navigator 3D- Maus von 3DConnexion für 3D-Panning in Pyramix 11 (Bildquelle: Ryan, 2016)

9 Leider konnten auch durch eine Anfrage per Email keine Informationen über den Preis herausgefunden werden. 41

4.1.2.2 Weitere Produktions-Software für MPEG-H

Das AMS™ Authoring and Monitoring System von Linear Acoustics unterstützt vollständig das MPEG- H-TV-Audio-System (Fraunhofer IIS, 2017d). Es können für den Live-Betrieb in Echtzeit personalisierte 3D-Audioprogramme für ATSC-3.0-basiertes Digitalfernsehen erstellt, gerendert und überwacht werden (ebd.).

Fraunhofer ist dabei, das Cingo Composer Plugin für VR-Audio zu entwickeln und hat bereits eine Beta- Version veröffentlicht (Fraunhofer IIS, o.J.a, Fraunhofer IIS, o.J.b, Fraunhofer IIS, o.J.c, Fraunhofer IIS, o.J.d, Fraunhofer IIS, o.J.e). Dabei handelt es sich um ein Plugin für VST und AAX mit dem es möglich ist, einen 3D-Audio-Mix innerhalb einer DAW zu erstellen, diesen zu überwachen, mit Headtracking zu monitoren und in MPEG-H zu exportieren.

Mit der zweiten Version von Spatial Audio Designer von New Audio Technology soll MPEG-H mit einem kompletten Workflow, Monitoring und Export eines MPEG-H-Masters unterstützt werden (New Audio Technology, 2016).

4.1.2.3 Magix Sequoia für ADM

Magix arbeitet aktuell in Kooperation mit dem Orpheus Projekt an der Integration eines Workflows für objektbasiertes Audio in Form des ADM in Sequoia (Orpheus, 2016). Spuren stellen individuelle Objekte dar und Ordner-Spuren repräsentieren die Audio-Content-Ebene der ADM-Hierarchie (ebd.). Lautstärke- und Panning-Informationen der Objekte werden anhand von Automationskurven dargestellt und werden mit der ADM-Datei exportiert (Orpheus, 2017, S. 11). Dabei erfolgt das Panning mit einem 3D-Panner anhand von Koordinaten im 3D-Raum (Orpheus, 2017, S. 12). Weiter ist es ebenfalls möglich, ADM-Dateien zu importieren (ebd.). Zusätzlich können Metadaten durch Tags in einem Editor hinzugefügt werden, wie zum Beispiel die Sprache des Inhalts oder die Möglichkeit, gemuted zu werden (Orpheus, 2017, S. 16).

Das Rendering von objektbasiertem Audio erfolgt aktuell durch den MPEG-H-Renderer, der bisher aber nur eine sehr einfache Konvertierung erlaubt (Orpheus, 2017, S. 15).

Jedoch sind in diesem Zusammenhang noch keine Informationen über einen integrierten Videoplayer für VR bekannt.

4.2 Interaktive VR

Für VR-Erlebnisse mit 6DOF-Interaktion werden Sounds bevorzugt in einem allozentrischen Bezugsrahmen relativ zur Umgebung positioniert (Susal et al., 2016, S. 4). Das bedeutet, dass Sounds direkt in der virtuellen Umgebung platziert werden. Auf diese Weise wird es ermöglicht, dass der Hörer den Abstand und seine Position in Relation zur Schallquelle verändern kann. Weiter kommt ein Umgebungsmodell zum Einsatz, welches durch Nachhall, Distanzdämpfung, Quellenrichtwirkung u.v.m. charakterisiert ist (Susal et al., 2016, S. 5). Die Steuerung des Modells ist in Form von Metadaten in den jeweiligen Inhalten inbegriffen, sodass der Rendering-Algorithmus die Mischung an die Hörposition anpassen kann (ebd.).

Ton für interaktive VR-Erlebnisse kann einerseits direkt in Game Engines, wie zum Beispiel Unity oder Unreal angelegt werden, andererseits durch die Zuhilfenahme einer speziellen Middleware für Audio (auch Sound-Engine bezeichnet). Wie man in der GameSoundCon Game Audio Industry Survey 2017 (Schmidt, 2017) gut erkennen kann, sind, neben Selbstentwicklungen, Wwise und FMOD die von Spieleherstellern im AAA-, Pro Casual- und Indie-Bereich am meisten eingesetzten Audio-Middlewares (s. Abbildung 27).

Abbildung 27: Einsatz von Audio-Middleware nach Kategorisierung in AAA, Pro Casual und Indie Games 2017 (Schmidt) (Bildquelle: https://static.wixstatic.com/media/ebb935_43f7757147854a74bcbe9587ca0010d5~mv2.jpg/v1/fill/w_630,h_352,al_c,q_8 0,usm_0.66_1.00_0.01/ebb935_43f7757147854a74bcbe9587ca0010d5~mv2.jpg)

Bei Pro Casual Games kommt Fabric verhältnismäßig viel zum Einsatz. Auffällig ist jedoch, dass bei der Mehrzahl der Indie Games, aber auch bei Pro Casual und AAA Games, auf eine Audio-Middleware komplett verzichtet wird. Speziell im AAA, aber auch Pro Casual Games Bereich wird auch häufig eine eigene angepasste Audio-Engine genutzt.

In der folgenden Tabelle sind die Preise für Lizenzen von Fabric, FMOD und Wwise gegenübergestellt.

$20.000

$18.000

$16.000

$14.000

$12.000

$10.000

$8.000

$6.000

$4.000

$2.000

$0 < $150.000 $150.000 – $400.000 – $500.000 – $1.000.000 – > $1.500.000 $400.000 $500.000 $1.000.000 $1.500.000

Fabric FMOD Wwise

Abbildung 28: Preise pro Spiel in USD in Abhängigkeit vom Budget (Audiokinetic, o.J.i; Firelight Technologies, o.J.f; Tazman- Audio, o.J.b)

Für Indies mit einem Budget unter 500.000 USD bietet Firelight Technologies (o.J.f) eine freie FMOD Lizenz für eine Spielveröffentlichung pro Jahr (sonst 2.000 USD pro Spiel). Tazman-Audio (o.J.b) bietet Fabric für Projekte mit einem Budget unter 100.000 USD komplett frei an und bietet für Budgets zwischen 100.000 und 400.000 USD eine freie Spielveröffentlichung (sonst 750 USD pro Spiel). Audiokinetic (o.J.q) bietet die kostenlose Wwise „Starter“-Lizenz für kommerzielle Projekte mit einem Budget unter 150.000 USD an, welche aber eine Limitierung auf 500 Sounds beinhaltet.

Nicht-kommerzielle und akademische Projekte erhalten von Audiokinetic (o.J.r) kostenlose Lizenzen. Dies ist bei Firelight Technologies (o.J.f) FMOD ebenfalls der Fall. FMOD und Wwise unterscheiden sich in Bezug auf ihr Preisangebot weiter darin, dass bei FMOD und Fabric alle unterstützenden Plattformen im Preis inbegriffen sind. Bei Wwise kostet jede weitere Plattform abhängig vom Budget 750 USD (Budget < 150.000 USD), 3000 USD (Budget < 1.500.000 USD) und 12.000 USD (Budget > 1.500.000 USD).

Jedoch gelten die Preise für Wwise nur für Spiele. Für andere Projekte (zum Beispiel Filmproduktionen, Simulationen u.v.m.) gelten gesonderte Preise. Auf unterschiedliche Support-Pläne der drei Anbieter soll hier nicht weiter eingegangen werden.

4.2.1 Unity

Da es in Game Engines möglich ist, Audio ohne die Hinzunahme einer Middleware einzusetzen, soll im Folgenden Unity auf den Funktionsumfang für Audio untersucht werden.

Unity unterstützt die Kanalformate 1.0, 2.0, 3.0, 4.0, 5.0, 5.1 und 7.1 (Unity Technologies, 2017c). Dabei können nutzerseitig durch einen Down- beziehungsweise Upmix die Formate unterschiedlicher Ausgabegeräte ausgegeben werden (Unity Technologies, 2017a, Unity Technologies, 2017b). Der Import von Audio-Dateien ist in den Formaten MPEG layer 3 (.mp3), Ogg Vorbis (.ogg), Microsoft Wave (.wav) und Audio Interchange File Format (.aiff /. aif) möglich (Unity Technologies, o.J.b). Weiter werden die Tracker-Module Ultimate Soundtracker module (.mod), Impulse Tracker module (.it), Scream Tracker module (.s3m) und FastTracker 2 module (.xm) unterstützt (Unity Technologies, 2017h), sowie Ambisonics 1. Ordnung im B-Format in ambiX (Unity Technologies, 2017j).

Unity unterstützt die Plattformen iOS, Android, Windows, Universal Windows Plattform, Mac, Linux/Steam OS, WebGL, PlayStation 4, PlayStation Vita, Xbox One, Wii U, Nintendo 3DS, Oculus Rift, Google Cardboard Android & iOS, Steam VR PC & Mac, PlayStation VR, Gear VR, Windows Mixed Reality, Daydream, Android TV, Samsung SMART TV, tvOS, Nintendo Switch, Fire OS, Facebook Gameroom, Apple ARKit, Google ARCore und Vuforia (Unity Technologies, o.J.a).

Für die Binauralisierung von Audio für VR können Oculus Spatializer, Microsoft HRTF Spatializer, (Unity Technologies, 2017i), Steam Audio (Valve Corporation, o.J.), RealSpace3D (VisiSonics Corporation, o.J.b) oder DearVR (Dear Reality, o.J.) verwendet werden. Letzteres bietet zusätzlich die Möglichkeit, mit DearVR Spatial Connect in einer DAW geschriebene Automationsdaten als objektbasiertes Audio nach Unity zu exportieren (ebd.).

4.2.1.1 Funktionsweise

In Unity werden Audio-Clips durch Audio-Sources abgespielt. Audio-Sources und Audio-Listener werden an Objekte im 3D-Raum angebracht, wodurch deren Positionierung simuliert wird.

4.2.1.2 Abwechslungsreiche Sounds

Playlisten oder per Zufall innerhalb eines Pools ausgewählte Sounds müssen durch selbstgeschriebene Scripts erzeugt werden. Eine vorgefertigte Component für diesen Zweck ist nicht enthalten.

4.2.1.3 Panning und räumliche Positionierung

Audio-Sources können in ihrer ursprünglichen Kanalzuordnung geroutet oder als Mono-Downmix im 3D-Raum positioniert werden. Darüber hinaus ist es möglich zwischen diesen beiden Möglichkeiten zu überblenden und somit den Einfluss der 3D-Engine auf die Audio-Source festzulegen (Spatial Blend).

Dies kann unter anderem durch Distanz-Kurven geschehen. Des Weiteren ist ein Stereo-Panner vorhanden.

4.2.1.4 Distanzverhalten

Das Verhalten von Audio-Sources bei zunehmender Distanz kann durch eine logarithmische, lineare oder benutzerdefinierte Distanz-Kurve definiert werden. Durch letztere ist es möglich, Lautstärke, Spatial Blend, Ausbreitung, TPF und den auf Reverb-Zonen gerouteten Signalanteil in Abhängigkeit von der Distanz der Quelle zum Hörer beliebig festzulegen. Reverb-Zonen ermöglichen es Bereiche für den Einsatz von Hall, sowie deren Abbildung 29: Distanz-Kurven in Unity. Dabei besteht die X- Radius und Übergangsbereich zu definieren. Achse aus der Distanz der Schallquelle vom Hörer und die Y- Achse aus den jeweiligen Eigenschaften (Bildquelle: In den Audio-Projektsettings ist es möglich, dafür https://docs.unity3d.com/uploads/Main/AudioDistanceFuncti ons.png) einen globalen Faktor für logarithmische Lautstärke-Distanzkurven festzulegen.

4.2.1.5 Richtwirkung

Diese zuvor erwähnte Ausbreitung von Stereo- oder Mehrkanalton im Lautsprechersetup kann durch einen Winkel zwischen 0° und 360° festgelegt werden und durch eine Distanzkurve gesteuert werden.

4.2.1.6 Routing & Mixing

Die Ausgänge der jeweiligen Audio-Sources werden auf Audio-Mixer-Groups innerhalb eines Audio- Mixers geroutet, der das Signal letztendlich dem Audio-Listener ausgibt. Ein Audio-Mixer besitzt immer eine Master-Group, innerhalb welcher eine Hierarchie aus Audio-Mixer-Groups erzeugt wird. Für eine Audio-Mixer-Group können Änderungen an Lautstärke und Pitch vorgenommen werden. Sie besitzt eine VU-Anzeige, kann auf solo oder stumm geschaltet werden. Des Weiteren ist es möglich per Inserts Effekte auf Signale anzuwenden, deren Parameter zu verändern oder einen Bypass anzuwenden. Durch Sends und Returns können Signale zwischen verschiedenen Bussen ausgetauscht und Ducking durchgeführt werden. Zusätzlich ist es möglich mehrere Audio-Mixer zu erstellen und diese gleichzeitig einzusetzen. Die Ausgabe eines Audio-Mixers kann auf Audio-Mixer-Groups innerhalb anderer Audio- Mixer geroutet werden.

Abbildung 30: Audio-Mixer-Fenster in Unity (Bildquelle: Unity 2017.3.1f1)

Durch das Anlegen verschiedener Mixer-Views ist es möglich, bestimmte Audio-Mixer-Groups auszublenden. Anhand von Snapshots können alle Parametereinstellungen innerhalb eines Mixers festgehalten werden.

Mithilfe des „Edit in Play Mode“-Schalter ist es entweder möglich, den aktuellen Snapshot eines Audio- Mixers während der Ausführung von Spiel-Code in Echtzeit zu bearbeiten oder dessen zu Zustand vom Spiel steuern zu lassen.

4.2.1.7 Spielzustände

Für verschiedene Spielzustände können verschiedenen Snapshots erstellt werden, welche anhand der Spiel-Logik gewechselt werden. Diese Übergänge erfolgen standardmäßig durch lineare Interpolation zwischen den Start- und Endwerten, können aber für Abbildung 31: Definieren des Snapshot-Übergangs eines Parameters (Bildquelle: https://docs.unity3d.com/uploads/Main/AudioMixerTransitionOverrides.png) alle Parameter individuell eingestellt werden (s. Abbildung 31).

Ebenfalls können beliebige Parameter innerhalb einer Audio-Mixer-Group anhand eines Scripts manipuliert werden. Dadurch wird der Parameter zusätzlich aus Snapshots ausgeschlossen.

4.2.1.8 Effekte

Unity bietet verschiedene DSP-Effekte, die auf Audio-Sources, Audio-Listener und Audio-Mixer angewandt werden können. Für diese sind ein TPF, HPF, Echo, Distortion, Chorus und ein algorithmischer Hall enthalten. Für Audio-Mixer gibt es zusätzlich Flanger, Normalisierer, Parametrischen EQ, Pitch Shifter, Kompressor, und weitere HPF und TPF.

Des Weiteren ist für eine Audio-Source die Intensität eines Doppler-Effektes einstellbar. Dies kann auch global in den Audio-Projektsettings definiert werden.

4.2.1.9 Unity Timeline

Abbildung 32: Unity Timeline mit Audio-Tracks (Bildquelle: Unity 2017.3.1f1)

Für die Erstellung von filmischen Inhalten oder Spielsequenzen existiert in Unity eine Timeline. Durch diese ist es möglich, Audio-Clips auf Audio-Tracks zu platzieren. Diese Tracks können verschiedenen Audio-Sources zugeordnet werden. Audio-Clips auf den Tracks können anhand automatischer oder manueller Kurven übergeblendet werden. Zusätzlich ist es möglich, sie zeitlich zu strecken oder zu stauchen und sie zu loopen. Ferner können ihre Start- und Endposition oder ihre Dauer festgelegt werden.

4.2.1.10 Mikrofonsignale und fremde Quellen

Unity besitzt mit der Microphone-Class eine API, um durch ein Script vorhandene Mikrofone zu finden und Aufnahmen durchzuführen. Eine vorgefertigte Component ist dafür nicht vorhanden.

4.2.1.11 Debugging

Mit dem Unity Profiler ist es möglich die Performance des Audio-Systems zu überwachen. In einem Graphen wird die Anzahl der insgesamt abspielenden Audio-Sources und Audio-Voices pro Frame dargestellt, sowie der von der Audio-Engine genutzte Arbeitsspeicher und CPU. Da der „PlayOneShot“- Befehl Audio-Voices nutzt, die nicht bei den abspielenden Audio-Sources angezeigt werden, unterscheidet sich diese Anzahl von der Anzahl der Audio-Voices (Unity Technologies, 2017g).

Abbildung 33: Unity Profiler in „Channel and groups“-Ansicht (Bildquelle: Unity 2017.3.1f1)

Weitere Werte wie die Anzahl pausierter Audio-Sources, Anzahl an Audio-Clips, sowie eine Aufschlüsselung über die Nutzung des Arbeitsspeichers und der CPU für einzelne Elemente innerhalb der Audio-Engine werden in einer Liste Ansicht angezeigt. Zusätzlich werden in einer tabellarischen Ansicht Informationen über das Abspielverhalten der vorhandenen Sound-Events mit den zugehörigen Mixern und Mixer-Groups bereitgestellt, wie zum Beispiel welche Audio-Sources welche Audio-Clips abgespielt haben, die abgespielte Lautstärke, die Distanz zum Audio-Listener und die Länge der Abspielzeit. Durch das Klicken auf die jeweilige Zeile ist es dann möglich die zugehörigen Audio-Sources und Clips im Projekt-Browser und Hierarchie-Fenster anzuzeigen.

4.2.1.12 Speicher- & Prozessornutzung

Für eine Audio-Source kann anhand eines numerischen Wertes von 0 bis 256 ihre Priorität gegenüber anderen innerhalb einer Szene existierenden Audio-Sources definiert werden.

Für importierte Audio-Clips können jeweils weitere Einstellungen getroffen werden, um Speicher und Prozessor zu entlasten. So ist es möglich, mit mehrkanaligem Audio einen Mono-Downmix mit anschließender Peak-Normalisierung durchzuführen oder Clips verzögert auf einem separaten Thread im Hintergrund zu laden, ohne den Haupt-Thread zu blockieren (Unity Technologies, 2017d). Per Default werden nämlich alle Audio-Clips beim Laden einer Szene zunächst vorgeladen. Überdies ist einstellbar, ob Audio-Dateien direkt beim Laden dekomprimiert werden, komprimiert im Speicher gehalten und beim Abspielen dekomprimiert werden oder gestreamt werden (ebd.). Abhängig von der Zielplattform können mit PCM, ADPCM, Vorbis/MP3 und HEVAG verschiedene Formate ausgewählt werden, um abhängig vom jeweiligen Sound einen sinnvollen Kompromiss zwischen Qualität,

Dateigröße und Belastung der CPU zu finden. Zudem ist es für die PCM und ADPCM-Formate möglich, eine automatische Optimierung oder eine manuelle Reduktion der Samplerate durchzuführen, um die Dateigröße zu verkleinern. Für Vorbis/MP3 ist dies durch die Einstellung der Qualität der Kompression möglich. Komprimiertes Audio ist am besten für lange Dateien wie zum Beispiel Hintergrundmusik oder Dialog geeignet, während PCM und ADPCM besser für kurze Soundeffekte geeignet sind (Unity Technologies, 2017d).

Audio-Mixer in Unity besitzen einen Kontrollmechanismus, der eine Sekunde nach dem Abspielen einer Audio-Source eine Lautstärkemessung am eigenen Ausgang durchführt und anhand dieser entscheidet, ob der Mixer deaktiviert werden kann (Unity Technologies, 2017e). Beim erneuten Abspielen von Audio-Sources wird dieser dann wieder aktiviert. Dies geschieht anhand eines definierbaren Schwellenwertes. Auf diese Weise wird vermieden, dass CPU-Ressourcen aufgrund einer großen Anzahl von ungenutzten Mixern ausgeschöpft werden.

In den Audio-Projektsettings kann durch den Audio-Manager die Größe des DSP-Buffers festgelegt werden, um eine bessere Performance oder geringere Latenzen zu erreichen. Außerdem kann die Anzahl der gleichzeitig abgespielten, reellen Voices eingestellt werden, was die CPU-Nutzung stark beeinflusst. Wird diese Anzahl überschritten, werden die am wenigsten hörbaren Voices zu virtuellen Voices bis sie wieder lauter werden oder zuvor lautere Voices nicht mehr abgespielt werden (Unity Technologies, 2017f). Dabei wird ein fortgeführter Abspielvorgang virtueller Voices simuliert. Die dafür verwendete Anzahl virtueller Voices kann ebenfalls festgelegt werden. Wenn diese überschritten wird, werden die am wenigsten hörbaren Voices gestoppt (ebd.).

4.2.2 Wwise

Wwise unterstützt eine Vielzahl an Plattformen. Diese sind in der folgenden Tabelle 2 aufgelistet.

Tabelle 2: Von Wwise unterstützte Plattformen (Audiokinetic, o.J.l)

Plattform VR Wwise Wwise Unity Unreal Unreal Platform Authoring SDK Engine 3 Engine 4 Application Android Google ✔ ✔ ✔ Cardboard, Daydream, Gear VR iOS ✔ ✔ ✔ Linux ✔ ✔ ✔ Mac ✔ ✔ ✔ ✔ Windows Oculus 7/8/10 XP/Vista ✔ Certified ✔ Rift, HTC /7/8/10 Epic Vive, developers Microsoft only HoloLens Windows Phone ✔ 8 Nintendo 3DS ✔ ✔ ✔ PlayStation 3 ✔ ✔ PlayStation 4 PlayStation ✔ ✔ ✔ VR PlayStation Vita ✔ ✔ ✔ Xbox 360 ✔ ✔ ✔ Xbox One ✔ ✔ ✔ Wii U ✔ ✔ Nintendo Switch ✔ ✔ ✔

Wwise unterstützt mit 0.1, 1.0, 2.0, 3.0, 4.0, 5.1, 7.1, Dolby 5.1.2, Dolby 7.1.2, Dolby 7.1.4, Auro 9.1, Auro 10.1, Auro 11.1 und Auro 13.1. eine Vielzahl an Kanalkonfigurationen (Audiokinetic, o.J.m). Dabei können Audiodateien mit Sampleraten bis 96 kHz und Bittiefen bis 32 Bit (werden jedoch auf 24 Bit konvertiert) in AMB oder WAV eingesetzt werden (Audiokinetic, o.J.p). Abhängig vom Quellmaterial, Ausgabegerät und Plattform kann ein Downmix nach dem AC3-Standard (Audiokinetic, o.J.e, Audiokinetic, o.J.m), sowie ein Upmix erfolgen (Audiokinetic, o.J.d). Ambisonics wird im B-Format bis zur 3. Ordnung mit 16 Kanälen in FuMa mit maxN-Normalisierung unterstützt (Audiokinetic, o.J.o). Weiter wird auch MIDI unterstützt.

Darüber hinaus ist es möglich, Ausgabegeräte mit nicht-standardisierter Hardware in der Form von selbst entwickelten Plugins zu integrieren (Audiokinetic, o.J.a). Diese können auch als zusätzliches, zweites Ausgabegerät genutzt werden (Audiokinetic, o.J.f).

Für die Binauralisierung von Audio für VR können Microsoft HRTF (Audiokinetic, o.J.g), RealSpace3D, Oculus Spatializer und Google Resonance Audio als Plugin eingebunden werden, sowie in Zukunft Steam Audio (Audiokinetic, o.J.h).

Hinzukommend ist es möglich, die DAW Nuendo von Steinberg mit Wwise zu verbinden und auf diese Weise Audio direkt zu importieren.

4.2.2.1 Funktionsweise

Die Kommunikation von Wwise und der Game Engine erfolgt durch sogenannte Game Calls, die von der Game Engine gesendet werden. Diese lösen in der Sound Engine Events aus, die in dieser weiterverarbeitet werden. Durch diese werden Sounds gestartet. Dabei kann das Abspielverhalten von weiteren Parametern beeinflusst werden. Der Export von Wwise-Projekten in die Game Engine erfolgt durch die Generierung von Soundbanks. Diese werden in der Game Engine geladen und beinhalten Sounds und das zuvor definierte Abspielverhalten.

4.2.2.2 Aufbau

In Wwise sind spezielle Funktionen in verschiedenen Fenstern, sogenannten Views zu finden. Diese sind für jeweils unterschiedliche Aufgaben anhand von Presets in Layouts kombiniert, können aber auch individuell geöffnet oder kombiniert werden. Im Folgenden sollen lediglich grundlegende Layouts mit ihrer Funktionalität vorgestellt werden.

Profile Layout Das Profile Layout bietet Möglichkeiten während des Spielbetriebs alle Vorgänge innerhalb der Sound Engine und die Performance zu überwachen.

Designer Layout Das Designer Layout ermöglicht im Project Explorer die Erstellung und Organisation von Events und Sound-Objekten, sowie Bussen. Zur Organisation dieser verschiedenen Objekte können Work-Units angelegt werden, welche aus XML-Files bestehen.

Abbildung 34: Transport Control in Wwise (Bildquelle: Audiokinetic, 2017, S. 37)

In diesem Layout befindet sich auch die Transport Control, wodurch Sound-Objekte abgespielt werden können. Ferner kann das Abspielverhalten im Zusammenhang mit Switches, States und RTPCs getestet

52 und konvertierte Audiofiles mit den Originalen verglichen werden. Auf diese wird in dem später folgenden Kapiteln eingegangen.

Interactive Music Layout Das Interactive Music Layout stellt ein Layout für die Erstellung von interaktiver Musik dar. Es besitzt viele Elemente die ebenfalls im Designer Layout vorhanden sind und spezielle Views für interaktive Musik.

Mixer Layout Das Mixing Layout beinhaltet ein Mischpult-Übersicht, in welche beliebig Objekte und Busse angeordnet werden können. Events gehören dabei nicht dazu, da diese als Trigger für Sound-Objekte fungieren und selbst nicht gemischt werden können. Die Ansicht ermöglicht individuelle Anpassungen.

Soundbank Layout Im Soundbank Layout werden für das Spiel anhand der Events Soundbanks generiert. Diese beinhalten Audio-Assets und Anweisungen, wie diese abgespielt werden sollen.

Schematic View In der Schematic View (s. Abbildung 35) ist es möglich, anhand eines Strukturdiagramms einen Überblick über die Beziehungen der Objekte innerhalb eines Projekts zu erhalten. Durchgehende Linien zeigen die Struktur der Beziehungen an, gestrichelte Linien das Routing. Durch groß-gestrichelte Linien wird angezeigt, wenn innerhalb eines Objekts der Output des Eltern-Outputs überschrieben wurde. Überdies kann die Ansicht angepasst und Eigenschaften der Objekte wie zum Beispiel Lautstärke, Pitch, TPF, HPF u.a. angezeigt und verändert werden.

Abbildung 35: Schematic-View in Wwise (Bildquelle: Audiokinetic, 2017, S. 216)

4.2.2.3 Abwechslungsreiche Sounds

Die Kunst beim Sound Design für Computerspiele besteht darin, aus einer begrenzten Anzahl an Sounds für maximale Abwechslung zu sorgen und eine vielfältige Klanglandschaft zu erstellen, die bei langem Spielen nicht repetitiv wirkt. Dies ist speziell für häufig erklingende Sounds wichtig und kann in Wwise durch eine Kombination aus Pitching und dem Abspielen von in Stücke aufgeteilte, randomisierten Audiofiles erreicht werden (Audiokinetic, 2017, S. 80–98).

Im Sound Property Editor ist es möglich, die Werte wie Pitch, HPF, TPF oder Lautstärke per Zufall zu variieren. Dafür werden Bereiche definiert, innerhalb dieser die nach dem Zufallsprinzip ausgewählten Werte liegen.

Durch das Anlegen von Objekten in Random Containern können diese randomisiert abgespielt werden. Dabei ist es möglich, Regeln für Randomisierung zu definieren, wie zum Beispiel, dass die letzten beiden ausgewählten Objekte gemieden werden müssen oder, dass erst die komplette Liste von Objekten abgearbeitet sein muss, bevor ein Objekt erneut abgespielt wird.

Mithilfe von Squence Containern ist es möglich, darin befindliche Objekte in einer schrittweisen oder kontinuierlichen Sequenz abzuspielen. Schrittweise bedeutet in diesem Fall, dass bei einem Event immer nur ein einzelnes Objekt abgespielt wird und die definierte Reihenfolge auf diese Weise bei einem erneuten Eintreten des Events Schritt für Schritt durchgearbeitet wird. Kontinuierlich bedeutet hingegen, dass bei einem Event die gesamte definierte Reihenfolge aus Objekten in kontinuierlicher Form abgespielt wird. Für Momente der Stille innerhalb einer kontinuierlichen Sequenz gibt es ein dafür vorgesehenes Silence-Objekt, dessen Länge ebenfalls randomisiert werden kann.

Auf diese Weise ist es möglich, Sounds in einen Sequence Container mit einer kontinuierlichen Sequenz aus einzelnen Random Containern aufzuteilen. Diese können zusätzlich noch randomisierte Eigenschaften enthalten, wodurch eine maximale Varianz erreicht wird (Audiokinetic, 2017, S. 80–97).

Importierte Audiodateien können für diesen Zweck in Wwise zugeschnitten und als unterschiedliche Objekte gespeichert werden.

4.2.2.4 Spielzustände

Für die Anpassung von Sounds an Gegebenheiten innerhalb des Spiels können Switches, Parameter und States eingesetzt werden. Diese werden bei Wwise als Game Syncs bezeichnet.

Switches Um zum Beispiel Fußschritte für verschiedene Untergründe einzusetzen, können Switches verwendet werden. Für die Kommunikation mit der Game Engine wird dafür eine Switch Group erstellt, die als eine Art Schalter fungiert. Innerhalb dieser werden verschiedene Switches erzeugt, welche 54 verschiedene Schalterstufen repräsentieren. Die Audio-Objekte für diese Schalterstellungen werden dann mit diesen Schalterstellungen verknüpft.

Parameter Um zum Beispiel die Beschleunigung eines Fahrzeugs zu simulieren, ist es möglich numerische Game Parameter aus der Game Engine zu übertragen und anhand dieser Sounds zu modifizieren. Diese stellen Zahlenwerte innerhalb eines definierten Bereichs dar. Durch die sogenannte Real Time Parameter Control (RTPC) können Eigenschaften eines Objekts wie Lautstärke, Pitch, LPF, HPF, aber auch der Output-Bus, Aux-Sends oder andere Werte beeinflusst werden. Das jeweilige Verhalten wird anhand eines Graphen definiert. Die X-Achse besteht aus dem Game Parameter und die Y-Achse aus der jeweiligen Eigenschaft des Objekts (s. Abbildung 36).

Abbildung 36: Real Time Parameter Control in Wwise (Bildquelle: Audiokinetic, 2017, S. 126)

Mittels Blend Containern können mehrere Objekte gleichzeitig abgespielt werden. Diesen können auf Blend-Tracks angeordnet werden, um sie anhand von Game-Parametern ineinander zu überblenden oder Lautstärke, Pitch, HPF oder TPF zu verändern.

States Für globale Events wie zum Beispiel das Schwimmen unter Wasser können in Wwise States eingesetzt werden, um zum Beispiel einen TPF anzuwenden. Diese werden innerhalb einer State Group erstellt. In dieser kann dann die Dauer eines Übergangs zwischen States definiert werden. Darüber hinaus kann anhand des States für beliebige Objekte zum Beispiel ein Offset für Lautstärke, Pitch, TPF und HPF eingestellt, Effekte auf Bypass geschalten, Sends manipuliert oder ihre Priorität geändert werden.

4.2.2.5 Panning und räumliche Positionierung

In Wwise existieren drei verschiedene Arten der Positionierung von Schallquellen. Diese können anhand des Spiels oder manuell im 3D-Raum positioniert werden oder anhand von 2D- Panning. Zudem ist die ursprüngliche Kanalanordnung der Audiodatei möglich.

Bei „3D Game Defined“-Positionierung erfolgen beispielsweise Panning, Lautstärke, Hall mit Mono-Schallquellen anhand der Position von Objekten im 3D-Raum der Game Engine.

Wenn keine Game-Objekte für das 3D-Panning vorhanden sind, ist es möglich, diese mit der Abbildung 37: User Defined 3D-Panning in Wwise (Bildquelle: Audiokinetic, 2017, S. 164) „3D User Defined“-Positionierung zu simulieren. Dafür können Schallquellen innerhalb des 3D-Raumes anhand von unterschiedlichen Pfaden positioniert und automatisiert werden (s. Abbildung 37). Sie haben dann ebenfalls ein Distanzverhalten wie Objekte im 3D-Raum der Game Engine und können ihre Position mit der Orientierung des Hörers verändern oder unabhängig von dieser positioniert bleiben. Weiter ist mit einem 2D-Panner auch konventionelles, statisches Surround -Panning möglich.

Zusätzlich kann anhand eines Parameters per RTPC zwischen 2D und 3D-Positionierung gewechselt werden, was aber keinen weichen Übergang ermöglicht.

4.2.2.6 Distanzverhalten

Abbildung 38: Attenuation Curve Editor in Wwise zur Simulation von Distanz und Richtwirkung (Bildquelle: Audiokinetic, 2017, S. 157)

Für die Simulation von Distanz bietet Wwise die Möglichkeit Veränderungen von Sounds in Relation zur Distanz in Dämpfungskurven zu definieren. Dies erfolgt analog zur RTPC über einen Graphen mit der Distanz als Parameter (s. Abbildung 38). Durch diesen kann das Verhalten von Lautstärke, Auxiliary Sends, TPF, HPF, Ausbreitung und eine Art Fokus der Ausbreitung eingestellt werden (s. Abbildung 38). Um diese Kurven auf mehrere Objekte gleichzeitig anwenden zu können, ist es möglich, aus ihnen Sharesets anzulegen.

4.2.2.7 Richtwirkung

Das Abstrahlverhalten von Schallquellen kann durch einen Winkel für den Fokus, einen Winkel für eine Übergangszone, den maximalen Lautstärkeverlust im Offset, TPF und HPF definiert und simuliert werden (s. Abbildung 38, rechts unten).

4.2.2.8 Effekte

Auf Audio-Objekte oder Busse können verschiedene Effekte angewandt werden. Nützlich ist dabei für von Interaktion unabhängige Effekte die Möglichkeit diese bereits vorab zu rendern, um CPU zu sparen. Ferner ist es möglich Sharesets anzulegen, um Eigenschaften auf mehrere Objekte zu übertragen.

Wwise bietet eine große Anzahl an integrierten Plugin-Effekten wie Delay, Guitar Distortion, Pitch Shifter, Time Stretcher, Flanger, Harmonizer, Stereo Delay, Tremolo, Kompressor, Expander, Gain, Meter, Peak Limiter, parametrischer EQ, Recorder und zwei unterschiedlich rechenintensive, algorithmische Halle (Audiokinetic, o.J.h). Mit dem Recorder ist es möglich, Aufnahmen von AMB, WAV oder WEM-Files innerhalb von Wwise zu erstellen (Audiokinetic, o.J.s). Für Premium-Entwickler wird ein Faltungshall, ein Tool zur Erstellung von haptischem Feedback von Eingabegeräten, sowie Wwise Reflect (Audiokinetic, o.J.h) angeboten. Mit letzterem ist es möglich, dynamisch zwischen der Position der Schallquelle und des Empfängers anhand von reflektierenden Oberflächen und der vorhandenen Raumgeometrie erste Reflektionen zu erzeugen. Zusätzlich sind verschiedene Soundgeneratoren vorhanden, die neben verschiedenen Wellenformen, Sweeps und Rauschen auch Wind und Whooshes generieren und durch Realtime-Parameter von der Game Engine manipuliert werden können. Durch ihren Einsatz ist es zusätzlich möglich, CPU und Speicher zu sparen (Audiokinetic, o.J.t). Außerdem ist ein Synthesizer mit zwei Oszillatoren enthalten, welcher über Midi oder anhand einer Basis-Frequenz gesteuert werden kann. Letztere kann auch durch Realtime-Parameter manipuliert werden. Überdies ist durch SoundSeed Impact möglich, eine enorme Anzahl an klanglichen Variationen eines einzigen Audiofiles zu erstellen und diese mit Realtime-Parametern zu beeinflussen. Weiter gibt es eine große Anzahl kommerzieller Partner-Plugins, sowie kommerzielle und nichtkommerzielle Community- Plugins. Ferner unterstützt Wwise die Entwicklung eigener Plugins für Effekte, Klangerzeuger oder Modelling (Audiokinetic, o.J.c).

4.2.2.9 Signalfluss & Mixing

In Wwise gibt es Busse, Auxiliary Busse und sogenannte Actor Mixer. In letzteren können Audiofiles im Project Explorer organisiert werden. Daneben kann ein Actor Mixer als eine Art VCA beziehungsweise DCA betrachtet werden, da die Addition beziehungsweise Subtraktion eines Offsets mit Werten wie zum Beispiel der Lautstärke, Pitch, HPF und TPF auf die darin befindlichen Objekte ermöglicht wird. Dabei sind Verschachtelungen mehrerer Actor Mixers möglich. Außerdem ist es in einem Actor Mixer möglich, einen Output-Bus festzulegen.

In Bussen kann neben der Lautstärke für den Output der Summe – wie bei einem Actor Mixer – ein Versatz für beispielsweise Lautstärke und Pitch der auf den Bus gerouteten Objekte eingestellt werden. Ebenfalls ist es möglich, eine Side-Chain für Ducking auszuwählen.

Der Pegel für Auxiliary-Sends kann manuell oder spieldefiniert eingestellt werden. Bei letzterem wird der Pegel durch Game-Calls innerhalb der Game Engine von der Seite des Programmierers gesteuert. Durch einen Regler in Wwise sind feine Nachjustierungen dieser Werte möglich. Auf diese Weise ist es möglich, Effekte wie beispielsweise Hall und Delay auf einem Auxiliary-Bus einzusetzen und zum Beispiel Übergänge zwischen verschiedenen Räumen innerhalb eines Computerspiels zu simulieren. 58

Durch einen Master Secondary Bus ist es möglich, bestimmte Geräte mit sekundären Audio- Ausgabepfaden wie zum Beispiel PlayStation 4-Controller anzusteuern. Ferner können mithilfe des Master Motion Busses Motion-Effekte wie Vibration in bestimmten Controllern ausgelöst werden.

Wwise ermöglicht in dem sogenannten Soundcaster mehrere Sounds gleichzeitig abzuspielen und Events und deren Abspielverhalten zu simulieren (s. Abbildung 39, unten). Dem Sounddesigner wird dadurch ermöglicht, unabhängig von der Game Engine bereits eine Mischung zu erstellen.

In Kombination dazu können mit dem Mischpult des Mixing Layouts die verschiedenen Eigenschaften von Objekte und Bussen eingestellt werden (s. Abbildung 39, oben). Darüber hinaus ist es möglich, Einstellungen für bestimmte States vorzunehmen und somit anhand dieser verschiedene Snapshots zu erstellen.

Abbildung 39: Mischpult (oben) und Soundcaster (unten) in Wwise (Bildquelle: Audiokinetic, 2017, S. 236)

Obendrein ist der Einsatz von Hardware-Controllern möglich. Dafür können dessen Elemente mit beliebigen Funktionen und Objekt-Eigenschaften belegt werden.

4.2.2.10 Testen des Verhaltens von Audio

Nachdem mittels bereits erwähntem Soundcaster Events und deren Abspielverhalten unabhängig von der Game Engine simuliert wurden, ist es für die Feinabstimmung der Mischung möglich, Wwise mit

59 dem Videospiel zu verbinden, Änderungen in Echtzeit durchzuführen und diese im Spiel zu testen. Wwise kann dafür in bestimmte States springen oder sich diese vom Spiel vorgeben lassen.

4.2.2.11 Adaptive Musik

Wwise beinhaltet spezielle Strukturen und Funktionen für adaptive Musik. Aus einer begrenzten Anzahl von musikalischen Fragmenten kann ein abwechslungsreicher Soundtrack erschaffen werden, der die Stimmung des Spielgeschehens unterstreicht. Durch Music Switch Container kann Musik anhand von States oder Switches ausgewählt und einzelne Music Segments oder Music Segments innerhalb eines Music Playlist Containers abgespielt werden. Ein Music Segment besteht aus einem oder mehreren Music Tracks auf welchen Audio-Clips innerhalb einer Timeline platziert werden (Abbildung 40).

Abbildung 40: Music Segment Editor in Wwise (Bildquelle: Wwise v2017.2.1)

Für diese Segmente werden Zeit-Einstellungen angelegt, welche das Tempo in BPM, die Taktart, eine zusätzliche Methode zur Unterteilung in ein Grid (zum Beispiel vier Takte oder ganze Note) und ein Offset für diese Unterteilung in Millisekunden beinhalten. Weiter werden ein Entry Cue und Exit Cue als Marker für den Beginn und Schluss innerhalb eines Segments platziert, um dieses beim Abspielvorgang mit anderen Segmenten zu synchronisieren. Für zusätzliche Flexibilität bei Übergängen können außerdem Custom Cues gesetzt werden.

Innerhalb eines Music Switch Containers oder Music Playlist Containers können zwischen den Segmenten verschiedene Übergänge definiert werden. Es ist zum Beispiel einstellbar, ob ein Übergang sofort, zum nächsten Grid, zum nächsten Takt, zur nächsten Zählzeit, zum nächsten Cue, zum nächsten Custom Cue oder zum nächsten Exit Cue eintritt. Dabei können für das Quell- und das Ziel-Segment eingestellt werden, ob diese nach dem Exit Cue weiter oder bereits vor dem Entry Cue abgespielt werden sollen. Ebenfalls können Fades definiert oder ein zusätzliches Segment als Übergangspassage abgespielt werden. Auf diese Weise ist es möglich, nahtlose Übergänge zu erzeugen. 60

Music Tracks, Music Segments, Music Playlist Container und Music Switch Container können außerdem durch Realtime-Parameter vom Spiel manipuliert werden. Dies ermöglicht zum Beispiel den Mix von Music Tracks innerhalb von Music Segments anhand von Spielparametern zu verändern.

Darüber hinaus unterstützt Wwise den Einsatz von MIDI und ermöglicht die Erstellung von MIDI Instrumenten.

4.2.2.12 Mehrsprachen-Unterstützung

In Wwise können innerhalb eines Projekts mehrere Sprachen erstellt und eine Referenz-Sprache definiert werden. Für Dialog existiert das Sound Voice-Objekt, welches mit Audio-Dateien in unterschiedlicher Sprache verknüpft wird. Es ist zu jeder Zeit der Entwicklung möglich, zwischen den Sprachen umzuschalten, diese anzuhören und zu simulieren.

4.2.2.13 Mikrofonsignale und fremde Quellen

Durch das Audio Input Source Plugin ist es möglich, Audio einer externen Quelle wie einem Netzwerk- Stream, einem angeschlossenen Mikrofon oder von einer Datei auf der Festplatte, die nicht Teil des Wwise-Projekts ist, zu nutzen (Audiokinetic, o.J.b).

4.2.2.14 Unity Timeline Integration

Unity besitzt für die Erstellung von filmischen Inhalten oder Spielsequenzen eine Timeline, welche von Wwise in Form von einer Event-Spur und RTPC-Spur unterstützt wird. Diese Spuren können an beliebige Game-Objekte gebunden werden. Auf der jeweiligen Spur werden anschießend Clips für zu übermittelnde Events und RTPCs platziert. Die RTPC-Werte können mit dem Unity Curve Editor anhand von Keyframes definiert werden.

4.2.2.15 Speicher- und Prozessornutzung

Speicheroptimierung Da der für ein Computerspiel genutzte Speicher begrenzt ist und dieser mit oft aufwendiger Grafik geteilt werden muss, gibt es in Wwise speziell vorgesehene Funktionen. Prinzipiell ist zu empfehlen, dass mehrere Soundbanks für Sounds erstellt werden, welche nicht in jedem Level benötigt werden, um somit nur die nötigen Sounds in den Speicher zu laden (Audiokinetic, 2017, S. 254). Zur Verwaltung des für Audio vorgesehenen Speichers ist es möglich, im Soundbank Manager eine maximale Größe des Speicherbudgets in Bytes festzulegen. Nach der Generierung einer Soundbank kann deren Größe mit diesem Budget verglichen werden.

Sollte diese das Speicherbudget überschreiten, gibt es die Möglichkeit, die Audio-Files zu konvertieren. Dafür können unterschiedliche Sharesets für Konvertierungseinstellungen für verschiedene Typen von Sounds erstellt werden. Neben Samplerate, Anzahl der Kanäle, Dateiformat und Qualität der 61

Codierung können für bestimmte Formate weitere Einstellungen vorgenommen werden. Hier gilt es einen Kompromiss zwischen der Größe der Dateien und der Prozessor-Nutzung für die Dekomprimierung der komprimierten Dateien zu finden. Im Transport-Control ist es möglich, die konvertierten Files mit den Originalen zu vergleichen.

Eine zusätzliche Möglichkeit, um speziell bei langen Files wie Musik oder Atmo Systemspeicher zu sparen, ist das Streaming von der Festplatte, CD oder DVD (Audiokinetic, 2017, S. 271–273). Jedoch ist dabei die benötigte Zeit für die Lokalisierung und Zugriff auf das Speichermedium und die mögliche Bandbreite zu beachten. Um dabei Latenzen beim Beginn des Abspielvorgangs zu verhindern, ist es möglich, den Anfang der Datei bereits zuvor in den Speicher laden zu lassen (Audiokinetic, o.J.k).

Prozessoroptimierung Jeder abgespielte Sound stellt eine Voice dar und nutzt Prozessorzyklen (Audiokinetic, 2017, S. 273). Da deren Anzahl sehr hoch werden kann und überlagerte Sounds trotzdem berechnet werden müssen, kann Rechenleistung verschwendet werden. Aus diesem Grund ist es in Wwise möglich, für verschiedene Plattformen mit unterschiedlicher Rechenleistung eine Mindest-Lautstärke für das Rendern von Audio-Objekten zu definieren, sowie die maximale Anzahl an Voices. Außerdem können diese Einstellungen für alle Sound-Objekte, Actor-Mixer und Audio-Busse auch separat eingestellt werden.

Um der Gefahr vorzubeugen, dass dadurch wichtige Audio-Objekte entfernt werden, kann zusätzlich eine Abspiel-Priorität eingestellt werden. Weiter ist es möglich, Objekten in Abhängigkeit ihrer Distanz eine höhere beziehungsweise niedrigere Priorität zuzuordnen.

Sounds, deren Lautstärke zu gering ist, können zu einer Virtual Voice List hinzugefügt werden. Sobald ihre Lautstärke wieder den Schwellenwert überschreitet oder die Anzahl der zeitgleich abgespielten Audio-Objekte geringer als das Limit ist, werden diese wieder zu einer Physical Voice und gerendert. Dabei ist es möglich, einen fortgeschrittenen Abspielvorgang zu simulieren, von der zuletzt hörbaren Position weiter abzuspielen oder den Abspielvorgang erneut von vorne zu beginnen.

4.2.2.16 Debugging

Das Profile Layout bietet Möglichkeiten alle Vorgänge innerhalb der Sound Engine zu überwachen. Die Nutzung von CPU, Speicher und Bandbreite für jede von der Sound-Engine durchgeführte Aktivität wird in Echtzeit grafisch oder anhand einer Liste dargestellt. Darüber hinaus können detaillierte Informationen über die Abläufe in der Sound-Engine angezeigt werden, wie zum Beispiel ausgelöste Events und alle ausgeführten Aktionen oder die Anzahl an Events, Sends, Objekten, Übergängen, Streams, sowie die Anzahl virtueller, physischer und aller Voices. Außerdem können die Lautstärke von Voices, Bussen, der Ausgabe und vieles mehr in Echtzeit überwacht werden und Statistiken über Audio- 62

Elemente im Spiel erzeugt werden. Des Weiteren ist es durch den Voice Graph möglich, eine Bus- Hierarchie von aktuell abgespielten Voices anhand eines Strukturdiagramms darzustellen.

Das Game Object Profiler Layout ermöglicht obendrein die Überwachung von bestimmten Objekten im Spiel. Dabei ist es möglich, diese Objekte visuell in einer dynamischen, dreidimensionalen Repräsentation darzustellen und ihre RTPC-Werte zu verfolgen.

4.2.3 FMOD Studio

FMOD Studio unterstützt eine große Anzahl unterschiedlicher Plattformen, welche in der folgenden Tabelle 3 aufgelistet sind.

Tabelle 3: Von FMOD unterstützte Plattformen (Audiokinetic, o.J.l; Firelight Technologies, o.J.a, Firelight Technologies, o.J.b, Firelight Technologies, o.J.h, Firelight Technologies, o.J.i, Firelight Technologies, 2016)

Plattform VR Platform FMOD Studio FMOD Studio Unity Unreal Authoring API Engine 4 Application Android Google ✔ ✔ ✔ Cardboard, Daydream, Gear VR iOS ✔ ✔ ✔ Linux ✔ ✔ ✔ Mac ✔ ✔ ✔ ✔ Windows Oculus Rift, ✔ XP/Vista ✔ ✔ HTC Vive, /7/8/10 Microsoft HoloLens Windows ✔ ✔ Phone 8.1 PlayStation 3 ✔ PlayStation 4 PlayStation VR ✔ ✔ ✔ PlayStation ✔ ✔ Vita Xbox 360 ✔ Xbox One ✔ ✔ ✔ Wii U ✔ ✔ Nintendo ✔ ✔ Switch HTML5 ✔

Es werden die Kanalformate Mono, Stereo, 4.0, 5.0, 5.1, 7.1 und 7.1.4 unterstützt (Firelight Technologies, o.J.g). Das für die Produktion genutzte Format kann schließlich beim Nutzer durch einen automatischen Down- beziehungsweise Upmix auf die Lautsprecherkonfiguration des Ausgabegerätes angepasst werden (ebd.). Neben den Audio-Dateiformaten WAV, MP3, Ogg Vorbis, AIFF und FLAC wird eine Vielzahl spezieller Formate unterstützt, sowie MIDI und die Tracker-Module Impulse Tracker (.it), Scream Tracker (.s3m), Extended Module File Format (.xm) und Module File Format (.mod) (Firelight Technologies, o.J.d). Ambisonics wird in 1. Ordnung im B-Format in ambiX durch das mitgelieferte Resonance Audio Plugin von Google unterstützt (Google Developers, 2018).

Des Weiteren wird die Binauralisierung von Audio für VR durch die Plugins von Oculus Spatializer, Google Resonance Audio Spatializer, GoogleVR Spatializer (Firelight Technologies, o.J.c) und Steam Audio ermöglicht (Valve Corporation, 2018).

4.2.3.1 Funktionsweise

Wie Wwise basiert FMOD Studio auch auf Events, die ausgelöst werden und deren Parameter vom Spiel-Code manipuliert werden können. Diese Events triggern und manipulieren auf Event Tracks Instruments, die Audio-Signale erzeugen, welche verändert oder umgeleitet werden können. In den FMOD Studio Versionen 1.09 und früher wurden diese Instruments noch als Sound Module bezeichnet (Firelight Technologies, 2018b). Um die Inhalte eines FMOD Studio Projekts in ein Spiel zu implementieren, werden sogenannte Banks erzeugt. Diesen werden Events zugeordnet.

Im Gegensatz zu Wwise arbeitet FMOD Studio unter anderem mit einer Spurenansicht, was an eine DAW erinnern lässt. Events besitzen Event Tracks, auf denen Sound-Module platziert werden. Diese geben Audio aus, wenn sich die Abspielposition auf der Spur in der sogenannten Trigger Region des Instruments befindet. Abbildung 41: Event Track mit „Single Instrument“ in FMOD (Bildquelle: FMOD Studio 1.10.03) 4.2.3.2 Aufbau

FMOD Studio besitzt verschiedene Ansichten, um bestimmte Aufgaben durchzuführen.

Event Editor Im Event Editor werden Events erstellt, diese mit Audio-Assets von Instruments verbunden, deren Abspielverhalten definiert und Automationen erstellt. Diese Events werden anschließend mit Banks verknüpft.

Mixer Im Mixer können die erstellten Events auf Gruppen-Busse geroutet, es kann außerdem weiteres Routing auf Gruppen-Busse vorgenommen und die erstellten Busse können mit einer Mischpult- Ansicht gemischt werden. Ferner ist es möglich, VCAs, Sends und Returns zu erstellen, sowie Snapshots oder Automationen für bestimmte Spielsituation.

Profiler Durch den Profiler ist es möglich Daten und Audio im Spielbetrieb aufzuzeichnen und eine detaillierte Fehleranalyse durchzuführen.

Instruments Instruments spielen mit ihnen verknüpftes Audio ab oder triggern Events oder Snapshots. Sie können auf der Spur eines Events oder eines Spiel-Parameters platziert werden und werden getriggert, solange sich die Abspielposition innerhalb ihrer Trigger Region befindet. Es existieren verschiedene Typen mit verschiedenen Funktionalitäten. Diese können z.T. entweder synchron oder asynchron betrieben werden. Synchron bedeutet in diesem Fall, dass die Länge der Trigger Region des Instruments bestimmt wie lange das Audio-Asset abgespielt wird, was bei kurzen Assets durch den Loop-Modus erreicht werden kann. Asynchron bedeutet hingegen, dass Audio-Assets unabhängig von der Länge der Trigger Region immer in kompletter Länge abgespielt werden.

Single Instruments Single Instruments spielen, wie der Name bereits erwarten lässt, ein einzelnes Audio-File ab. Sie sind synchron, können aber auf asynchron umgeschaltet werden.

Multi Instruments Multi Instruments können hingegen eine Playlist aus Single Instruments, Programmer Instruments und Event Instruments enthalten. Diese können zufällig oder in fester Reihenfolge abgespielt werden. Auf diese Weise kann eine Variation der Sounds erzeugt werden. Multi Instruments sind synchron, können aber auf asynchron umgeschaltet werden.

Event Instruments Event Instruments spielen die Ausgabe eines Events ab, auf das verwiesen wird. Dabei handelt es sich bei Referenced Events um normale Events, die ihren eigenen Mixer-Bus enthalten und auf die in jedem anderen Event verwiesen werden kann. Auf ein Nested Event kann hingegen nur von dem Eltern-Event- Bus verwiesen werden. Dieses besitzt auch keinen eigenen Mixer-Bus und übernimmt alle Einstellungen vom Eltern-Mixer-Bus. Event Instruments sind immer asynchron.

Scatterer Instruments Scatterer Instruments erzeugen kontinuierlich Instanzen von 2D oder 3D Instruments in ihrer Playlist. Dabei werden ihre Positionen bei 3D- oder 2D-Events zufällig generiert. Dies ist besonders für das Erschaffen von Atmo nützlich. Scatterer Instruments sind immer asynchron.

Programmer Instruments Programmer Instruments stellen ein leeres Instrument dar, das Rückrufe generiert. Durch diese Rückrufe können alle möglichen Audio-Files abgespielt werden, unabhängig davon, ob sie ein Teil des FMOD Studio Projekts sind oder nicht. Dies kann für viel Dialog und Lokalisierung in Kombination mit Audio-Tabellen ein Vorteil sein (Firelight Technologies, 2018c). Programmer Instruments sind synchron, können aber auf asynchron umgeschaltet werden.

Plugin Instruments Plugin Instruments sind Instrumente, die beliebige Arten von benutzerdefiniertem Sound erzeugen, wie zum Beispiel ein Soundgenerator oder Synthesizer. Diese können auch selbst entwickelt werden. Sie können abhängig von ihrem Design synchron oder asynchron sein. Bei FMOD Studio sind bereits ein Plugin Instrument für die Generierung von Motorensounds und unterschiedlichem Wetter enthalten, welche anhand von Realtime-Parametern manipuliert werden kann.

Snapshot Instruments Snapshots Instruments starten einen Snapshot und die damit verbundenen Einstellungen im Mixer. Diese werden so lange angewandt, wie das Instrument getriggert wird. Da sie kein Audio abspielen, sind sie weder synchron, noch asynchron.

4.2.3.3 Parameter und Cues

Durch Parameter und Cues ist es möglich, das Verhalten von Events zu beeinflussen. Parameter sind numerische Variablen, die durch Spielcode upgedated werden und mit Eigenschaften von Events verbunden sind. Sie können für Automationen von Eigenschaften von Spuren, Effekten und anderer Module innerhalb der Signalkette eingesetzt werden und das Abspielverhalten eines Events durch Logische Marker innerhalb der Timeline steuern. Darüber hinaus ist es möglich, anhand der Parameter- Werte Instrumente zu triggern.

Durch Cues wird die Information übermittelt, dass der Abspielvorgang einer Event-Instanz einen folgenden Sustain Point ignoriert und weiter abgespielt wird. Diese werden in dem später folgenden Kapitel „4.2.3.12 Adaptive Musik“ näher erklärt.

4.2.3.4 Modulatoren

Modulatoren sind in der Lage, die Werte eines Events zeitabhängig, aber unabhängig von der Timeline zu verändern. Dabei können durch verschiedene Modulatoren verschiedene Effekte erzeugt werden.

Random-Modulatoren Durch Random-Modulatoren ist es möglich, Properties um einen definierbaren Wert variieren zu lassen, wie zum Beispiel die Laustärke. In diesem Fall stellt der ursprüngliche Wert des Properties den höchsten Wert dar und der für die Modulation definierte Wert die maximale Abweichung von diesem nach unten. Bei der Anwendung auf ein Pitch-Property, erflogt hingegen eine Abweichung nach oben und unten vom ursprünglichen Wert.

AHDSR-Modulatoren Ein AHDSR-Modulator kann auf Instrumente, Events und Snapshots angewandt werden. Wird das verknüpfte Element gestartet, werden die zu modulierenden Eigenschaften von neutralen Werten auf

67 spezifizierte erhöht. Beim Stoppen erfolgt dies in umgekehrter Reihenfolge. Dies ermöglicht den Einsatz dieser Modulatoren für Fade-Ins und Fade-Outs, die unabhängig von der Abspielposition sind.

Side-Chain-Modulatoren Mit Side-Chain-Modulatoren ist es möglich, Properties anhand eines Thresholds zu modulieren. Dabei können der Wert der Modulation und Attack- und Release-Zeiten eingestellt werden.

4.2.3.5 Panning und räumliche Positionierung

Wenn eine Spur oder ein Bus als Stereo- oder eine höhere Lautsprecherkonfiguration eingestellt ist, ist es möglich, die Ausgabe zwischen den vorhandenen Lautsprechern zu pannen. Dies geschieht abhängig von der Kanal-Konfiguration durch einen Stereo-, Surround-Panner, Surround-Panner mit LFE-Regler oder Surround-Panner mit LFE-Regler und einem Regler für Höhenkanäle (bei Surround 7.1.4). Auf diese Weise ist mit dem FMOD Spatializer eine manuelle räumliche 3D-Positionierung von Sounds möglich. Diese haben dann ebenfalls ein Distanzverhalten wie Objekte im 3D-Raum der Game Engine. Für individuelle Einstellungen können Lautsprecher innerhalb der Konfigurationen auch deaktiviert werden. Obendrein ist es möglich die Richtung und den Abstand der Schallquelle zu automatisieren oder modulieren.

Durch den FMOD Object Spatializer oder den mitgelieferten Resonance Audio Spatializer von Google erfolgt dann die räumliche Darstellung von 3D-Objekten innerhalb der Game Engine anhand ihrer Position.

4.2.3.6 Distanzverhalten

Im Spatializer und 3D Object Spatializer sind vier Kurven- Presets für die Abnahme der Lautstärke in Relation zu Distanz enthalten. Außerdem kann der Minimal- und Maximalabstand der Schallquelle für die Anwendung der Kurve definiert werden (s. Abbildung 42). Durch die 3D- Preview (s. Abbildung 43) ist es möglich dies zu simulieren. Für individuelle Kurven ist es möglich, anhand des Distanz-Parameters Automationen mit dem Abbildung 42: Distance Attenuation im Spatializer in FMOD (Bildquelle: FMOD Studio 1.10.03) Gain-Plugin zu schreiben. Dies kann dann zu einem Preset konvertiert werden, um es auf mehrere Objekte anzuwenden. Auf diese Weise ist auch die Automation von HPF, TPF oder beliebigen anderen Effekten, sowie Sends zu Hallgeräten möglich.

4.2.3.7 Richtwirkung

Durch den Spatializer oder 3D Object Spatializer ist es möglich die Winkel des Abstrahlkegels eines Events zu definieren und diesen in der 3D-Preview zu simulieren (s. Abbildung 43). Zusätzlich kann auch die empfundene Größe des Sounds durch dessen Umhüllung eingestellt werden.

4.2.3.8 Signalfluss & Mixing

Wie bereits erwähnt stellen Events kleine Mixer dar. Für das Mixing müssen sie jedoch zunächst auf Gruppen-Busse geroutet werden. Dies geschieht durch das Verschieben der Events via Drag Abbildung 43: 3D Preview in FMOD mit angezeigtem Abstrahlkegel und & Drop in jeweilige Gruppen-Busse im Routing Browser. Dabei ist Ausbreitung (Bildquelle: FMOD Studio 1.10.03) es auch möglich, unterschiedliche Sub-Gruppen aus Gruppen- Bussen zu erstellen. Die Group-Busse in der obersten Ebene sind auf den Master-Bus geroutet.

Die erstellten Gruppen-Busse können mit dem Mixing Desk gemischt werden. Weiter ist es möglich, VCAs, Snapshots, Sends, sowie Effekte anzuwenden oder eine Side-Chain zu erstellen. Diese Effektmodule, Sends oder Side-Chain können immer Pre- oder Post-Fader positioniert werden. Durch Drag & Drop lässt sich deren Reihenfolge schnell beliebig verändern. Sends werden dabei immer auf Return-Busse geroutet.

4.2.3.9 Snapshots für verschiedene Spielsituationen

Für verschiedene Spielsituationen können im Mixer unterschiedliche Snapshots erzeugt werden, die von Game-Code oder von Events durch Snapshot Trigger Regionen getriggert werden. Dabei können beliebig viele, unterschiedliche Properties von Bussen und deren Effekten oder Sends ausgewählt und von dem Snapshot eingeschlossen werden. Alle anderen Properties werden von diesen nicht verändert. Die für einen Snapshot ausgewählten Properties können (wie die Properties eines Events) automatisiert und moduliert werden. Durch Modulation des „Intensity“-Reglers mit zum Beispiel einem AHDSR-Modulator, können Übergänge zwischen den Snapshots erstellt werden. 100% dieses Reglers entsprechen dabei den Werten des Snapshots und 0% den Werten des Originals. Dazwischen werden die Werte der betroffenen Properties jeweils auf eine dazwischenliegende Position eingestellt.

Es gibt in FMOD Overriding Snapshots und Blending Snapshots. Wenn mehrere Overriding Snapshots dasselbe Property beeiflussen, überschreiben sich diese. Snapshots die sich im Snapshot Browser oben befinden, haben eine höhere Priorität, werden zuletzt angewandt und überschreiben die weiter unten angeordneten Snapshots. Jedoch ist zu beachten, dass trotzdem alle Snapshots angewandt werden, was speziell bei Intensity-Werten größer als 0 % und kleiner als 100 % einen Unterschied macht. 69

Blending Snapshots unterscheiden sich von Overriding Snapshots lediglich darin, dass Volume Properties miteinander kombiniert und nicht überschrieben werden.

4.2.3.10 Testen des Verhaltens von Audio

Die Sandbox ermöglicht es, Events und Snapshots in einem spielähnlichen Kontext anzuhören, ohne das Live Update mit einem laufenden Spiel nutzen zu müssen. Auf diese Weise kann das Verhalten der Events in 3D angehört werden und das Projekt gemischt werden.

Durch das sognannte Live Update ist es möglich, FMOD Studio mit einem laufenden Spiel zu verbinden, Änderungen am Projekt vorzunehmen und die Ergebnisse in Echtzeit zu testen. Jedoch ist es dabei nicht möglich, Audio-Assets hinzuzufügen oder zu entfernen. Um dies zu tun, müssen zunächst neue Banks generiert werden. Ebenso müssen die fertigen Änderungen schließlich als neue Banks in das Spiel importiert werden.

4.2.3.11 Effekte

In FMOD Studio ist es möglich auf Event-Tracks oder Bussen an jeder beliebigen Stelle in der Signalkette, sowie vor als auch hinter dem Fader, Effektmodule zu positionieren (s. Abbildung 44). Des Weiteren können diese frei zwischen anderen Effekten oder Sends eingefügt werden.

Abbildung 44: Post-Fader Send, Delay und Chorus in FMOD (Bildquelle: https://www.fmod.com/docs/studio/images/signalChainExample.png)

Neben einem 3-bandingen EQ, einem Multiband-EQ, verschiedenen Hochpass- und Tiefpass-Filtern, einem parametrischen EQ, einem Chorus, einem Kompressor, einem Faltungshall, einem algorithmischen Hall, einem Kanal-Mixer, Distortion, einem Delay, einem Flanger, Gain, einem Limiter, einem Pitch Shifter, einem Tremolo, einem Loudness Meter, verschiedenen Spatializern, einem Distanzfilter und einem binauralen Renderer, ist ein sogenannter Transceiver enthalten. Diese senden eingehende Signale an alle anderen Transceiver-Effekte im Projekt, summieren diese und geben sie gleichzeitig aus. Überdies ist es möglich, Preset Effekte anzulegen, die auf mehrere Events angewandt werden können und bei Änderungen alle aktualisiert werden. Neben diesen Effekten ist es durch

70 sogenannte Event Macros möglich, den Master-Track eines Events zu pitchen oder einen Dopplereffekt für bewegende 3D-Game-Objekte zu erstellen.

Zusätzlich ist es möglich, eigene Plugins zu entwickeln und diese in FMOD zu integrieren (Firelight Technologies, o.J.e).

4.2.3.12 Adaptive Musik

Adaptive Musik kann in FMOD Studio anhand von synchronen Instrumenten und Markern innerhalb der Timeline erzeugt werden. Auf dem sogenannten Logic Track können logische Marker gesetzt werden, die das Abspielverhalten innerhalb der Timeline eines Events auf unterschiedliche Weise manipulieren.

Abbildung 45: Adaptive Musik durch Transition-Regionen in FMOD (Bildquelle: FMOD Studio 1.10.03)

Nach dem Erstellen eines Tempomarkers mit dem Tempo in BPM und der Taktart, ist es möglich, von Parametern getriggerte Sounds quantisiert anhand von Intervallen in Takt und Tempo zu triggern. Durch Loop-Regionen innerhalb der Timeline ist es möglich, bestimmte Sektionen der Komposition wiederholt abzuspielen. Durch Transition-Marker und Transition-Regionen ist es möglich, innerhalb der Timeline zu Destination-Markern zu springen. Erstere sind Zeitpunkte für einen Übergang. Letztere beschreiben Bereiche, in denen ein Übergang stattfinden kann. Dies kann durch ein quantisiertes Intervall für den Übergang gekoppelt werden. Für beide Transition-Arten können Bedingungen definiert werden, welche Bereiche von Werten eines Parameters darstellen. Ferner ist es möglich, diese durch eine prozentuale Wahrscheinlichkeit weiter zu beeinflussen. Um von Transition-Marker oder -Region zum Destination-Marker zusätzlich einen Übergang abzuspielen, können Transition- Timelines eingesetzt werden, welche einen extra eingefügten Bereich in der Timeline darstellen.

Durch Sustain-Punkte ist es möglich, den Abspielvorgang innerhalb der Timeline auf deren Position zu pausieren. Dies bedeutet jedoch nicht, dass das Event pausiert wird, da nur synchrone Instrumente aufhören Sound auszugeben. Ebenso werden Effekte, Modulatoren und Automationen nicht beeinflusst. Durch Cues (s. Kapitel „4.2.3.3 Parameter und Cues“) ist es möglich, diesen Abspielvorgang fortzusetzen.

4.2.3.13 Mehrsprachen-Unterstützung

Durch Programmer Instruments ist es möglich, anhand von Audio-Tabellen entsprechende Dialog- Zeilen in der jeweiligen Sprache auszuwählen. Diese Tabellen werden im Quellenverzeichnis für die jeweilige Sprache in „keys.txt“-Dateien gespeichert und entsprechend ausgewählt.

4.2.3.14 Mikrofonsignale und fremde Quellen

Mit der FMOD Low Level API ist es möglich, Audio mit einem Mikrofon aufzunehmen, dies bereits während der Aufnahme abzuspielen und Echtzeit-Effekte anzuwenden (Firelight Technologies, o.J.d). Darüber hinaus ist es möglich Audio aus dem Internet zu streamen.

4.2.3.15 Speicher- und Prozessornutzung

Speicheroptimierung Abhängig von der Hardware und Grenzen verschiedener Plattform können in FMOD Studio verschiedene Komprimierungs- und Codierungseinstellungen getroffen werden. Auf diese Weise ist es möglich, ein Projekt für den Export auf verschiedene Plattformen zu nutzen. Dabei ist es möglich, eine gleiche Plattform mehrmals hinzuzufügen, um verschiedene Hardware-Typen darzustellen, wie zum Beispiel zwei Desktop-Plattformen für Windows und Mac (Firelight Technologies, 2018e). Abhängig von der Plattform können jeweilige Einstellungen für das Format der Codierung und dessen Qualität getroffen werden. Ferner kann das benötigte Kanalformat eingestellt werden.

Zusätzlich ist es möglich, maßgeschneiderte Codierungseinstellungen für individuelle Assets oder Ordner festzulegen und damit die globalen Einstellungen der jeweiligen Plattform zu überschreiben. Diese beinhalten das Format der Codierung, Qualität oder Samplerate und Einstellungen, ob das File komprimiert oder dekomprimiert geladen oder gestreamt werden soll. Dieses komprimierte Asset kann abgespielt und zur Kontrolle mit dem Original verglichen werden.

Des Weiteren ist es möglich, Effekte für bestimmte Plattformen weg zu lassen, was speziell bei rechenintensiven Effekten wie zum Beispiel langen Hallfahnen nützlich sein kann.

Um den Speicher zu entlasten, können lange und zeitlich unkritische Audio-Assets (wie zum Beispiel Musik oder Atmo) gestreamt werden. Standardmäßig werden alle importierten Audiodateien mit einer

Länge über 10 Sekunden zunächst automatisch für Streaming eingestellt, was aber gerendert werden kann (Firelight Technologies, 2018d).

Prozessoroptimierung Durch das Virtual Voice System in FMOD ist es möglich, eine enorme Anzahl von Sounds gleichzeitig abzuspielen, aber nur eine begrenzte Anzahl davon tatsächlich zu rendern (Firelight Technologies, o.J.j). Voices werden abhängig von ihrer Echtzeit-Hörbarkeit dynamisch virtuell oder gerendert. Durch Event Macros kann für ein Event weiter eingestellt werden, wie viele Instanzen von diesem zur selben Zeit existieren dürfen. Zusätzlich kann das Verhalten definiert werden für den Fall, dass bereits die maximale Anzahl an Instanzen erreicht ist und eine neue Instanz erzeugt wird. In diesem Fall ist es möglich, die älteste, die am weitesten entfernte oder die leiseste Instanz zu stoppen, die neue Instanz zu virtualisieren oder keine neue Instanz zu erstellen. Ferner kann eingestellt werden, in was für einem zeitlichen Abstand dieselbe Instanz erneut abgespielt werden kann, um ein zeitgleiches Abspielen dieser zu verhindern. Überdies ist es möglich, für das Virtual Voice System die Priorität von Events zu definieren. Auf diese Weise wird festgelegt wie wichtig es ist, dass ein Event nicht virtualisiert wird. Instanzen mit niedriger Priorität werden dadurch schneller aussortiert. Zwischen Event-Instanzen mit gleicher Priorität entscheidet ein effektiv höherer Lautstärkewert für das Bestehen einer Instanz (Firelight Technologies, 2018a).

4.2.3.16 Debugging

Durch den Profiler ist es möglich, beim Live Update Sessions aufzunehmen und anhand dieser Daten Probleme zu analysieren. Dafür können relevante Busse in die Session hinzugefügt werden. Eine solche aufgenommene Session beinhaltet die Audio-Ausgabe des Spiels und die ausgeführten API-Calls, was ermöglicht, die Session ohne Live Update erneut abzuspielen und zu untersuchen. Außerdem werden alle abgespielten Events, die CPU- und Speicher-Nutzung, die benötigte Bandbreite, sowie die Anzahl an Voices und Instanzen, die Lebensdauer von Instanzen und die Laustärke des Master-Busses grafisch dargestellt.

Im „Playback with API Capture“-Modus ist es möglich, an dieser aufgenommenen Session Änderungen vorzunehmen und zu testen wie diese den aufgenommenen Mix beeinflussen. Dafür werden die API- Calls der aufgenommenen Session mit neu generiertem Ton abgespielt.

4.2.4 Fabric

Tazman bietet mit Fabric eine Möglichkeit, innerhalb von Unity eine Vielzahl von Audiofeatures zu nutzen und damit Unitys Funktionsumfang für Audio zu erweitern. Dabei werden von Unity weiterhin dieselben Plattformen, Kanalformate (Tazman-Audio, 2014) und Audio-Dateiformate unterstützt (s. Kapitel „4.2.1 Unity“), ebenso Ambisonics 1. Ordnung im B-Format.

Für die Binauralisierung von Audio für VR ist es möglich, Oculus Spatializer, GoogleVR, RealSpace3D, Phonon 3D oder (für bereits existierende Kunden) 3DCeption einzubringen (Tazman-Audio, o.J.a).

4.2.4.1 Funktionsweise

Fabric basiert auf Scripten, die in der Form von Components in Unity hinzugefügt werden können. Durch Event-Trigger werden Events mit einer bestimmten Aktion an Fabric gesendet. Diese können neben dem Abspielen, dem Stoppen oder Pausieren eines Sounds, dem Panning, dem Festlegen von Pitch, Lautstärke, Parametern oder Switches viele weitere Befehle enthalten. Der Aufruf kann dabei durch die Funktion eines Game-Objekts oder anhand von Code erfolgen. Jede Component, die durch Event-Listener auf dieses Event hört, wird auf dieses antworten und eine Aktion ausführen.

Durch den Event Manager wird diese Liste aus Events und die Übermittlung von Events zwischen Spiel- und Fabric-Components verwaltet. Für die Verwaltung der Fabric-Components wird der Fabric Manager genutzt. Durch ihn können globale Einstellungen für Musik getroffen werden, anhand welcher sich bestimmte Components synchronisieren können.

4.2.4.2 Components

Components können in Fabric als XML-File gespeichert oder geladen werden. Sie verfügen über eine große Anzahl an Einstellungen, wie zum Beispiel die Anzahl ihrer Instanzen, Lautstärke, Pitch, zufälliger Versatz für Lautstärke und Pitch, Fades, Einstellungen für ihre Virtualisierung, sowie eine Anzeige über ihre aktuelle und maximale CPU-Auslastung. Da Components hierarchisch angeordnet sind und Properties ihrer Eltern-Components erben, existieren auch Optionen, diese in der Kinder-Component zu überschreiben.

Die Audio Component stellt die Basis-Component dar. Durch sie kann ein festgelegter Audio-Clip abgespielt werden. Darüber hinaus ist es möglich, diesen zu loopen (unendlich oder bestimmte Anzahl), den Sound zufällig im 3D-Raum zu positionieren und ihn durch globale Einstellungen für Musik auf den Takt oder in beliebiger Form zu verzögern. Zusätzlich ist es möglich, im Audio-File Marker und Regionen anzulegen, zu laden oder diese per Zufall zu erzeugen. Diese können für Loops oder zur Benachrichtigung der Eltern-Component genutzt werden.

4.2.4.3 Abwechslungsreiche Sounds

Variation innerhalb von Sounds können unter anderem durch die Random Component erzeugt werden. Diese triggert ihre Kinder-Components in zufälliger Reihenfolge oder in zufälliger Reihenfolge ohne Wiederholungen. Dabei ist es möglich, die Kinder-Components unterschiedlich zu gewichten. Sie können geloopt werden und dabei nacheinander abgespielt oder anhand einer definierten Verzögerung erneut getriggert werden. Ferner ist es bei mehreren Instanzen möglich, eine gemeinsame Random-No-Repeat-History untereinander zu teilen und auf diese Weise das mehrmalige Abspielen von gleichen Sounds zu verhindern. Zusätzlich ist es möglich, eine Verzögerung für das erste Abspielen, jeden Abspielvorgang oder eine zufällige Verzögerung anzuwenden. Ein ähnliches Verhalten wie die Random Component hat auch die Random Audio Clip Component, jedoch mit dem Unterschied, dass diese direkt Audio-Clips verwendet und keine Audio Components.

Des Weiteren kann eine Sequence Component für Abwechslung sorgen. Diese spielt ihre Kinder- Components anhand einer Playlist ab, was kontinuierlich oder in fortschreitender Form pro Event geschehen kann. Obendrein ist ein Offset für den Übergang definierbar oder zufällig innerhalb eines Bereichs generierbar.

Durch die Silent Component ist es außerdem möglich, eine festgelegte oder zufällige Länge von Stille zu definieren, welche in Kombination mit anderen Components verwendet werden kann.

Mithilfe der Intro Loop Component kann nach einem Intro, eine Loop-Sektion und beim Stoppen der Component, eine Outro-Sektion abgespielt werden. Es besitzt dieselben Properties für Übergänge wie die Squence Component.

4.2.4.4 Spielzustände

Runtime Parameter Durch Runtime Parameter ist es möglich, anhand einer Vielzahl von vordefinierten oder benutzerdefinierten Parametern des Spiels Components zu manipulieren. Durch die Kurven eines Graphen werden die Parameter auf Properties einer Component gemappt. Überdies ist es auch möglich, Parameter durch einen eingebauten Signalgenerator generieren zu lassen.

Zusätzlich ist es möglich, Marker auf Runtime Parameter und Timelines zu positionieren und dadurch Parameter anhand eines Namens zu setzen. Durch globale Parameter können mehrere Components zur selben Zeit gesteuert werden.

Switch Component Durch eine Switch Component ist es möglich, eine bestimmte Kinder-Component anhand einer Option innerhalb des Spiels zu triggern. Zudem ist es durch globale Switches möglich, mehrere Components zur selben Zeit zu steuern.

4.2.4.5 Panning und räumliche Positionierung

Fabric unterstützt sowohl im 3D-Raum in Unity angeordnete Schallquellen, als auch deren statische ursprüngliche Kanalzuordnung. Das Panorama für Stereo kann dabei auch per Zufallsgenerator positioniert werden. Zusätzlich ist es möglich, zwischen der 3D-Engine und dem Stereosignal zu blenden und Zwischeneinstellungen zu verwenden.

4.2.4.6 Distanzverhalten

Für Components kann die Lautstärke entweder anhand einer logarithmischen, linearen oder maßgeschneiderten Kurve abgeschwächt werden. Für diese Kurve kann eine minimale und maximale Distanz definiert werden. Durch den Custom Curve Editor wird es ermöglicht, global und individuell für Components Kurven anzulegen. Diese bestehen aus RollOff, Spatial Blend, Reverb ZoneMix und Spread (s.

Abbildung 46). Abbildung 46: Custom Curve Editor von Fabric (Bildquelle: Fabric 2.4) 4.2.4.7 Richtwirkung

Durch das Spread Level ist es innerhalb von Components möglich, einen Winkel von 0 bis 360° für die Ausbreitung eines Sounds zu definieren.

4.2.4.8 Routing & Mixing

Die unterschiedlichen Fabric-Components können entweder direkt oder über einen Audio-Bus auf eine Audiomixer-Group innerhalb von Unity geroutet werden. Der Umweg über den Bus bietet zusätzlich die Möglichkeit Laustärke und Pitch zu verändern, sowie die Anzahl an Voices zu begrenzen. Die Mischung, sowie die verschiedenen Snapshots können dann innerhalb von Unitys Audio-Mixer erzeugt werden. Doch vor dem Routing auf eine Unity Audio-Mixer-Group können bereits innerhalb von Fabric anhand von unterschiedlichen Components Signale gemixt werden.

Durch die Group Component ist es möglich, die Lautstärke und den Pitch aller Components innerhalb ihrer Hierarchie zu steuern, diese zu muten oder sie solo zu schalten. Sie stellen eine Art Bus dar, der in der Mixer View von Fabric angezeigt und manipuliert werden kann.

Daneben bietet das Mixer Window eine Mixer-Ansicht mit der Lautstärke und Pitch von Group Components verändert und diese stumm oder solo geschaltet werden können. Um Components zusammenzufassen und ihre Lautstärkeverhältnisse anzupassen, ohne diese in der Mixer-View anzuzeigen, kann die Blend Component genutzt werden.

Mit der Sample Player Component ist es möglich, in mehrkanaligen Audiofiles die Lautstärke einzelner Kanäle zu verändern und Marker von Loopregionen aus WAV-Dateien zu lesen oder diese manuell zu setzen.

Durch die Volume Meter Component ist es möglich, Audio-Levels innerhalb einer Component in einem Mixdown aller Audioquellen der Kinder-Components anzeigen zu lassen.

Durch die Side Chain Component ist es möglich, die Lautstärke einer Component anhand eines Meters einer beliebigen anderen Component zu reduzieren. Stattdessen ist es auch möglich, eine beliebige Component als Eingabe für die Side-Chain zu verwenden, was ungenauer ist, aber wenig CPU genötigt.

Während der Ausführung von Code in Unity können an den Fabric-Components zwar Änderungen durchgeführt, aber nur getestet und nicht gespeichert werden, da diese nach dem Stoppen des Codes verloren gehen.

4.2.4.9 Snapshots

Mit dem Dynamic Mixer ist es schließlich möglich, Gruppen-Presets für die Group Components zu erzeugen, in denen Offsets für Lautstärke, Pitch, sowie Fades definiert werden können. Diese erstellten Gruppen-Presets können anhand von Events getriggert werden. Überdies ist es möglich, durch den Audio-Mixer-Manager anhand von Fabric-Events verschiedene Snapshots innerhalb von Unitys Audio- Mixer auszulösen und zwischen diesen zu wechseln.

4.2.4.10 Testen des Verhaltens von Audio

Durch den Previewer ist es möglich, Components mit angebrachten Event-Listenern abzuspielen und diese in einer Session anzuordnen. Dadurch können die Components miteinander verglichen werden. Basic-Properties können angepasst, sowie Parameter oder Switches der jeweiligen Components ausgewählt werden.

4.2.4.11 Effekte

Durch die DSP Component ist es möglich, DSP-Effekte auf Kinder-Components anzuwenden. Zu den von Fabric mitgelieferten Effekten gehört ein Stereo Spreader, der aus Mono-Quellen Stereo-Signale erzeugt. Ein Audio Panner ermöglicht Änderungen der Lautstärke einzelner Kanäle einer 7.1- Lautsprecherkonfiguration. Mit dem Sample Player Panner kann die Lautstärke einzelner Kanäle eines mehrkanaligen Audio-Clips geändert werden. Mithilfe den Audio Capture kann abgespieltes Audio als WAV zu exportiert werden. Innerhalb von Components kann die Lautstärke eines Doppler-Effekts definiert werden. Zusätzlich können Effekte von Unity genutzt werden. Zu diesen gehören Chorus, Distortion, Echo, Hall, HPF und TPF.

Ferner ist zu beachten, dass weitere Effekte von Unity eingesetzt werden können, sobald auf eine Audio-Mixer-Group innerhalb des Audio-Mixers von Unity geroutet wurde. Zu diesen gehören ein Flanger, Normalisierer, parametrischer EQ, Pitch Shifter, Kompressor und zwei verschiedene TPF und HPF.

Plugin Host ermöglicht den Einsatz von VST-Plugins in Kombination mit Unitys Audio-Mixer.

4.2.4.12 Adaptive Musik

Im Fabric Manager können globale Einstellungen für Musik getroffen werden, anhand welcher sich bestimmte Components synchronisieren können. Diese Einstellungen bestehen aus dem Tempo in BPM, der Taktart und des Zeitpunkts des Übergangs (nächste Zählzeit, nächster Takt oder das Ende des Audio-Clips). Dadurch ist es möglich, ausgelöste Audio Components auf den Takt zu verzögern.

Mit der Music Component ist es möglich, wie bei der Switch Component, zwischen ihren Kinder- Components umzuschalten, jedoch mit dem Zusatz, dass dazwischen ein

Übergangsteil abgespielt werden Abbildung 47: Definierte Übergänge in Music Component von Fabric kann. Zusätzlich können die globalen (Bildquelle: http://s3.amazonaws.com/screensteps_live/images/tazman- audio/288045/2/rendered/1c787f40-fd3f-4625-adcd- Musik-Einstellungen überschrieben 7ba929693b4e_display.png) werden, um Musik in verschiedenen Tempi und Taktarten zu unterstützen und den Zeitpunkt des Übergangs zwischen Audio Components individuell anzupassen. Dafür können neben der nächsten Zählzeit, dem nächsten Takt und dem Ende des Audio-Clips auch im Audio-File gesetzte Marker genutzt werden. Wie bereits im Kapitel „4.2.4.2 Components“ erwähnt, können diese Marker außerdem für die Erstellung von Loopregionen eingesetzt werden.

Anhand der Timeline Component ist es möglich, Sounds oder musikalische Elemente zu schichten und zu überblenden. Vom Spiel übermittelte Parameter können durch diese mit Lautstärke- oder Pitch- Kurven verbunden werden und Components anhand von Bereichen innerhalb der Timeline aktivieren.

Fabric ermöglicht den Einsatz von MIDI. Mithilfe der MIDI Component können MIDI-Dateien geladen und als Spuren in der Fabric-Hierarchie genutzt werden. Ferner ist es durch den REX Importer möglich, Loop-Dateien im REX-Format zu importieren und anhand des Tempos der Musik zu synchronisieren.

4.2.4.13 Mehrsprachen-Unterstützung

Die Dialog Audio Component unterstützt verschiedene Sprachen, ohne dabei Fabrics Hierarchie duplizieren zu müssen. Dafür werden für ein Projekt zuvor die unterschiedlichen Sprachen angelegt.

4.2.4.14 Mikrofonsignale und fremde Quellen

Durch die Mic Audio Component ist es möglich, Signale eines Mikrofons im Spiel zu erfassen, wie jede andere Art von Audioquelle zu behandeln und zum Beispiel Effekte auf diese anzuwenden. Mithilfe der WWW Audio Component können durch Unitys WWW-Klasse Audio-Clips von einer http-Adresse oder aus einem beliebigen Ordner abgespielt werden (Tazman-Audio, o.J.c).

4.2.4.15 Speicher- & Prozessoroptimierung

Für Events kann die maximale Anzahl ihrer zeitgleich vorhandenen Instanzen global im Fabric-Manager oder lokal in Components festgelegt werden. Die Anzahl virtueller Events und den dafür genutzten Lautstärkeschwellenwert können global definiert werden. Für Busse kann die maximale Anzahl an Voices ebenfalls festgelegt werden. Zusätzlich ist es möglich, das Abspielen von mehreren Instanzen auf demselben Game-Objekt zu erlauben oder zu unterbinden. Besonders wichtigen Components kann eine hohe Priorität beigemessen werden. Dadurch werden diese gegenüber Components mit geringerer Priorität bevorzugt.

Durch den Stealing Mode kann ein Verhalten für den Fall, dass die maximale Anzahl an Instanzen erreicht wird, definiert werden. Es ist möglich die älteste, die neuste, die am weitesten entfernte oder keine Instanz zu ersetzen.

Die Möglichkeit der Virtualisierung erlaubt es, den Abspielvorgang von Events außerhalb einer bestimmten Distanz zu stoppen und die Instanz ihrer Component freizugeben, aber weiterhin die Position zu verfolgen. Auf diese Weise können zum Beispiel bei einer großen Anzahl von Ambient- Sounds Ressourcen geschont werden. Für die Virtualisierung können für den Abspielvorgang der Components verschiedene Einstellungen getroffen werden. So kann dieser nach dem virtuellen Dasein an zuvor pausierter Position fortgesetzt oder anhand der verstrichenen Zeit fortgesetzt, sowie neu begonnen werden. Um die Speichernutzung und Performance weiter zu verbessern, können für

Components zusätzlich Volume-Schwellenwerte definiert werden. Liegt der Wert der Component bei einem Event darunter, wird sie nicht abgespielt. Wird eine bereits abspielende Component leiser und unterschreitet dabei den Schwellenwert, wird sie zu einer virtuellen Component umgewandelt. Die Anzahl an virtuellen Components kann eingestellt werden.

Durch Dynamic AudioClip Loading kann Fabric automatisch den Ladevorgang von Audiodaten in den Speicher verwalten. Nach dem ersten Abspielen bleibt ein Clip im Speicher, bis alle Instanzen ihren Abspielvorgang gestoppt haben. Des Weiteren kann innerhalb von Components eingestellt werden, ob Audiodaten asynchron im Hintergrund geladen werden ohne den Unity Thread zu blockieren oder ob der Ladevorgang im Moment des Referenzierens durch eine Audio Component erfolgt.

Mittels Audio Spline ist es möglich, entlang eines Splines Event-Trigger mit geringster Distanz zum Hörer zu positionieren. Dies umgeht die sonst benötigten Berechnungen mit mehreren Schallquellen und kann zum Beispiel für einen Fluss eingesetzt werden.

4.2.4.16 Debugging

Der Debug Log kann in der Konsolenausgabe von Fabric verarbeitete Fehler, Warnungen und Informationen anzeigen, sowie beim Auftreten eines Fehlers die Ausführung von Code stoppen. Mit dem Event Monitor können aktive Events mit Component, zugehörigem Game-Objekt, Position, Lautstärke, Pitch, 2D-Panner, Anzahl an Instanzen und virtueller Instanzen und Status aufgelistet werden.

Der Event Log erlaubt die Folge von Events zu überwachen und dadurch fehlende Events und potentielle Probleme zu erkennen.

Durch die Graph View ist es möglich, Components während der Laufzeit hierarchisch mit Informationen über ihren Zustand in einem Strukturdiagramm darstellen zu lassen und dadurch ihre Beziehungen zu überprüfen.

4.2.5 Vergleich

In der folgenden Tabelle 4 werden Wwise, FMOD, Fabric und Unity anhand ihrer Funktionsumfänge miteinander verglichen.

Tabelle 4: Vergleich der Funktionsumfänge von Wwise, FMOD, Fabric und Unity

Wwise FMOD Fabric Unity

Aufbau Modular in Spurenbasiert mit Unity Unity Containern Triggern Components Components

Kanalformate 0.1, 1.0, 2.0, 3.0, 1.0, 2.0, 4.0, 5.0, 1.0, 2.0, 3.0, 4.0, 1.0, 2.0, 3.0, 4.0, 4.0, 5.1, 7.1, 5.1, 7.1 und 7.1.4 5.0, 5.1 und 7.1 5.0, 5.1 und 7.1 Dolby 5.1.2, Dolby 7.1.2, Dolby 7.1.4, Auro 9.1, Auro 10.1, Auro 11.1 und Auro 13.1 Mehrsprachen- ✔ ✔ ✔ - Support

MIDI ✔ ✔ ✔ ✔

Tracker-Module - ✔ ✔ ✔ Infrastruktur für ✔ ✔ ✔ - Adaptive Musik Ambisonics 3. Ordnung in 1. Ordnung in 1. Ordnung in 1. Ordnung in (B-Format) FuMa mit maxN- ambiX ambiX ambiX Normalisierung Verarbeitung von ✔ Nur mit API-Script ✔ Nur mit API- Mikrofonsignalen Script Echtzeit-Mixing ✔ ✔ ✔ (mit Unity ✔ Audio-Mixer) Eingebauter - ✔ ✔ ✔ Doppler-Effekt SC für Ducking ✔ ✔ ✔ ✔ Effekt-Plugins HPF, TPF, 3-Band-EQ, HPF, TPF, TPF, HPF, parametr. EQ Multiband-EQ, parametr. EQ parametr. EQ HPF, TPF, (mit Unity parametr. EQ, Audio-Mixer) Delay, Stereo Delay, Echo, algorithm. Echo, algorithm. Delay, Faltungshall, Hall Hall Faltungshall, algorithm. Hall zwei unterschiedliche algorithm. Halle Distortion Distortion Distortion Distortion Flanger, Flanger, Tremolo, Chorus, Flanger Chorus, Flanger Tremolo, Chorus (Mit Unity Harmonizer Audio-Mixer)

Wwise FMOD Fabric Unity

Effekt-Plugins Pitch Shifter, Pitch Shifter Pitch Shifter Pitch Shifter Time Stretcher (durch Unity Audio-Mixer) Kompressor, Kompressor, Kompressor, Kompressor, Expander, Peak Limiter Normalisierer Normalisierer Limiter (durch Unity Audio-Mixer) Recorder - Recorder - Meter, Gain Meter, Gain - - - Kanal-Mixer Kanal-Mixer, - Stereo-Spreader Soundgenerato- Soundgenerator - - ren, Synthesizer dynamische - - - erste Reflektionen anhand der Geometrie des 3D-Raumes Panning und Statisches 2D- Abhängig von Stereo-Panner Stereo-Panner räumliche Panning mit Kanalkonfiguration Positionierung Surround- Stereo-, Surround- Panner und 3D-Panner Statische oder Statische oder Beliebiges Beliebiges automatisierte automatisierte Blenden Blenden räumliche 3D- räumliche 3D- zwischen zwischen Positionierung Positionierung ursprünglicher ursprünglicher (abhängig oder (fest gekoppelt an Kanalanordnung Kanalanordnung unabhängig von Orientierung des und und der Orientierung Nutzers) spielgesteuerter spielgesteuerter des Nutzers) Positionierung Positionierung im 3D-Raum im 3D-Raum Spielgesteuerte Spielgesteuerte Spielgesteuerte Spielgesteuerte Positionierung Positionierung im Positionierung Positionierung im 3D-Raum 3D-Raum im 3D-Raum im 3D-Raum Distanz-Verhalten Kurven für Preset-Kurven für Kurven für Kurven für TPF, Lautstärke, Laustärke, Lautstärke, Hall, Lautstärke, Hall, Auxiliary-Sends, Distanzparameter Ausbreitung und Ausbreitung, HPF, TPF, auch für beliebige Blenden Blenden Ausbreitung und Automationen zwischen Stereo zwischen Stereo Fokus der einsetzbar und 3D-Sound- und 3D-Sound- Ausbreitung Engine Engine Echtzeit- ✔ ✔ ✔ (Nur durch Steuerung von eigene Scripts) Parametern Snapshots für ✔ ✔ ✔ ✔ Spielzustände Switches ✔ - ✔ -

Wwise FMOD Fabric Unity Tools für die Random und Multi Instruments Random und (Nur durch Variation von Sequence für zufälliges oder Sequence eigene Scripts) Sounds Container sequenziertes Component Abspielen Random-Pitch, Random- Random-Pitch, (Nur durch Random- Modulation auf Random- eigene Scripts) Lautstärke beliebigen Lautstärke Parametern Random-HPF, Scatterer Random-Stereo- (Nur durch Random-TPF, Instruments Panning eigene Scripts) Random-Delay, erzeugen Random- kontinuierlich Looping Instanzen von 2D- oder 3D Instruments mit zufälliger Positionierung Voice- Maximale Maximale Anzahl Maximale Anzahl an Management- Anzahl an Voices an Instanzen von Anzahl reeller reellen und System definierbar Events definierbar Voices in virtuellen Voices (global und für Components definierbar Objekte) und Bussen, virtuelle Voices global definierbar Definierbare Definierbare Definierbare Definierbare Prioritäten Prioritäten Prioritäten Prioritäten Definierbare Definierbarer Definierbare - Mindest- zeitlicher Mindestlaut- Lautstärke und Mindestabstand stärke Distanz für reelle zwischen Voices Instanzen Abspielverhalten Verhalten für das Verhalten für - virtueller Voices Ersetzen von das Ersetzen definierbar Instanzen von Instanzen definierbar definierbar - - Mehrere - Instanzen auf demselben Game-Objekt erlauben oder unterbinden Möglichkeiten für ✔ ✔ (Funktionalität ✔ Konvertierung von Unity) und Streaming Möglichkeiten (nur in Music ✔ (nur in Timeline (nur in Unity Timeline-basiert Segment Editor) Component) Timeline) zu Arbeiten

Wwise FMOD Fabric Unity

Einbindung in Clips für Events - - Platzierung von Unity Timeline und RTPC auf Audio-Clips, Spuren anlegen definieren von Start- und Endposition, Fades, Time Stretching, Loopen Debugging Grafische Grafische Auflistung der Grafische Darstellung und Darstellung von Abfolge von Darstellung und Auflistung von CPU-, Events Auflistung von CPU-, Speichernutzung CPU-, Speichernutzung und Bandbreite Speichernutzung und Bandbreite und Anzahl abspielender Audio-Sources und Voices Logging von Logging von API- Auflistung aller Tabelle mit ausgelösten Calls und grafische aktiven Events Informationen Events und allen Darstellung von mit über das ausgeführten ausgelösten Components, Abspielverhalten Aktionen Events zugehörigem aktiver Sound- Game-Objekt, Events (von Position, Audio-Sources Lautstärke, verwendete Pitch, 2D- Audio-Clips, Panner, Anzahl Lautstärke, an Instanzen Distanz, und virtueller Abspiellänge Instanzen und u.v.m.) Status Liste oder Grafische - Tabelle mit grafische Darstellung von Lautstärke an Darstellung mit Lautstärke von Audio-Sources, Lautstärke von Master-Bus Mixers, Mixer- Voices, Bussen, Groups und Ausgabe u.v.m. Audio-Listener Liste oder Grafische Anzeige Anzeigen von Auflistung der grafische mit Anzahl an Fehlern, Anzahl aller Darstellung mit Voices, Instanzen, Warnungen und abspielenden Anzahl an sowie die Informationen oder Events, Sends, Lebensdauer von in Konsole, pausierenden Objekten, Instanzen Ausführung von Audio-Sources Übergängen, Code bei und Audio-Clips, Streams, Voices Fehlern stoppen Aufschlüsselung der CPU- und Speichernutzung

Wwise FMOD Fabric Unity Debugging Struktur- - Struktur- Tabelle zeigt diagramm zur diagramm zur hierarchisch die Darstellung von Darstellung zugehörigen Beziehungen hierarchischer Mixer und zwischen den Beziehungen Mixer-Groups an Objekten zwischen den Components Struktur- - - - diagramm zur Darstellung der Bus-Hierarchie von aktuell abgespielten Voices Überwachung Live-Sessions - - von Game- aufzeichnen und Objekten und analysieren, deren aufgezeichnete dynamische 3D- Live-Sessions mit Visualisierung Änderungen erneut abspielen, ohne dabei mit Game Engine verbunden zu sein Erstellung von - - - Statistiken über Audio-Elemente Autarkes Testen Simulation von Simulation von - - Events und Events und Verhalten von Snapshots in Sounds ohne einem Game Engine spielähnlichen möglich Kontext ohne Game Engine möglich Binauralisierung Oculus Oculus Spatializer Oculus Oculus Spatializer, Google Resonance Spatializer, Spatializer, Microsoft HRTF Audio Spatializer, GoogleVR, Microsoft HRTF Spatializer, GoogleVR RealSpace3D, Spatializer, Google Spatializer, Steam Phonon 3D, Steam Audio, Resonance Audio 3DCeption RealSpace3D, Audio DearVR Spatializer, RealSpace3D

Durch die Middlewares FMOD und Wwise wird eine klare Trennung zwischen Sounddesigner und Programmierer erreicht, was bei Unity oder Fabric nicht der Fall ist. Wwise bietet dem Sounddesigner durch seinen Aufbau einen hohen Grad an Unabhängigkeit, da anhand von ausgelösten Events das Verhalten von Sounds vollständig in Wwise definiert und beliebig beeinflusst werden kann. Aus diesem Grund reicht es aus, in der Game Engine lediglich Events auszulösen und dadurch die Position und die benötigten Parameter zu übermitteln. FMOD ermöglicht dem Sounddesigner ebenfalls einen hohen Grad an Unabhängigkeit, jedoch reicht es hier nicht immer aus in der Game Engine Events auszulösen. So muss zum Beispiel ein bereits abspielender Sound durch den Einsatz der API gestoppt werden. In Wwise ist dies durch den Aufruf eines weiteren Events möglich, wofür zusätzlich Fades definiert werden können.

Zwar erscheint einem Sounddesigner FMOD durch das an eine DAW erinnernde Spurenprinzip eventuell zunächst vertrauter als Wwise, jedoch bringt genau dieser Aufbau gewisse Einschränkungen mit sich. In Wwise können zum Beispiel Sounds in einen Sequence Container mit mehreren Random Containern aufgetrennt werden. Auf diese Weise ist es möglich, für häufig wiederkehrende Sounds eine maximale Variation zu erzeugen. Sobald ein beliebig langer Sound aus dem ersten Random Container fertig abgespielt wurde, wird ein Sound aus dem zweiten abgespielt. Dabei sind beliebig tiefe Verschachtelungen von Containern möglich. Zwar bietet FMOD die Möglichkeit, durch hintereinander platzierte Multi Instruments auf der Timeline einen ähnlichen Effekt zu erzielen, allerdings existiert in diesem Fall beim Einsatz von unterschiedlich langen Sounds eine Einschränkung, da die Länge des ersten Multi Instruments statisch sein muss. Dadurch wird eine fest definierte Zeit für das erste Multi Instrument benötigt, bis das zweite Multi Instrument abgespielt werden kann. Bis auf diese Einschränkung können in FMOD durch Kombinationen aus Multi Instruments und Event Instruments auch beliebige Verschachtelungen erzeugt werden.

Ein Vorteil des Timeline-basierten Ansatzes von FMOD ist die Erstellung von beliebigen Timeline- basierten Automationen auf Events, Gruppen-Bussen, Sends, Returns oder VCAs. Dies ermöglicht speziell für filmische beziehungsweise lineare Sequenzen die einfache Veränderung von Parametern. In Wwise ist eine derartige Funktionalität nicht vorhanden, jedoch ist es möglich in der Unity Timeline Realtime-Parameter in Wwise zu steuern und auf diese Weise beliebige Automationen auf beliebigen Objekten zu erstellen. Außerdem ermöglicht die Unity Timeline das Auslösen von Events in Wwise. Ein Workaround für lineare Automationen in Wwise ohne den Einsatz der Unity Timeline kann von der Game Engine durch die Übermittlung eines Parameters ab einem bestimmten Zeitpunkt für die vergangene Zeit erfolgen. Auf diese Weise stellt der X-Wert des Graphen für die RTPC in Wwise die Zeit dar und anhand des Parameters kann eine Timeline-basierte Automation erstellt werden. Dieser Workaround ist in Fabric ebenfalls nötig, um eine derartige Funktionalität zum Beispiel mit der

Timeline Component zu erhalten. Fabric bietet nämlich keine Unterstützung der Unity Timeline, was bei FMOD ebenfalls der Fall ist. In Unity selbst ist eine derartige Funktionalität für Automationen von Audio trotz Timeline innerhalb von linearen Sequenzen nur durch selbstgeschriebene Scripte oder das Auslösen von Snapshots möglich.

Das Auslösen und Überblenden zwischen verschiedenen Snapshots durch Events ist in Wwise, FMOD, Fabric und Unity möglich. Dabei können Übergänge zwischen diesen definiert werden. In Unity werden Snapshots innerhalb eines Audio-Mixers fest für alle Fader der enthaltenen Audio-Mixer-Groups definiert. Zwischen diesen Einstellungen kann durch Events gewechselt werden. FMOD bietet durch Overriding Snapshots die Möglichkeit, für einzelne Fader Einstellungen festzulegen und durch Blending Snapshots Fader-Stellungen in Relation zu ihrer aktuellen Stellung zu verändern. In Wwise werden diese anhand von States durch Offsets immer relativ verändert. Fabric erweitert Unitys Möglichkeiten ebenfalls mit dieser Funktionalität. Jedoch ist die Erstellung dieser Einstellungen innerhalb von Fabric nicht während der Ausführung von Code möglich, was die Anfertigung dieser Snapshots und deren Korrekturen umständlich gestaltet. Aus diesem Grund stellt die Arbeit mit dem Audio-Mixer von Unity auch im Zusammenhang mit Fabric ein essentielles Element dar.

In Wwise und Fabric ist es möglich, Switches anzulegen, die durch Ereignisse umgeschaltet werden können. Anhand dieser ist es möglich, Sounds von wiederkehrenden Events auszutauschen oder zu verändern, wie zum Beispiel Fußschritte auf verschiedenen Untergründen. Diese Funktionalität ist in FMOD nicht vorhanden, kann jedoch durch die Übermittlung von definierten Parametern umgesetzt werden.

Die Spatial Blend-Funktion von Fabric und Unity zum beliebigen Blenden zwischen ursprünglicher Kanalanordnung und spielgesteuerter Positionierung im 3D-Raum ist in FMOD und Wwise nicht vorhanden. Ein ähnlicher Effekt kann jedoch auch durch einen Crossfade zwischen einem 3D- positionierten und einem 2D-Sound-Objekt mit derselben, gleichzeitig abgespielten Audiodatei erzielt werden.

Ein wichtiger Vorteil von Wwise und FMOD stellen die Tools zur autarken Erstellung einer Mischung dar, da der Sounddesigner auf diese Weise unabhängig vom Programmierer vorarbeiten und dadurch zu gegebener Zeit bereits vorgemischtes Sounddesign integriert werden kann. Da Wwise durch States, Switches und Parameter die größeren Möglichkeiten bietet, innerhalb der Sound-Engine Abhängigkeiten zu erstellen, sind die Testmöglichkeiten für diese durch den Soundcaster dementsprechend ausführlicher. In FMODs Sandbox besteht hingegen neben der Überprüfung vom Verhalten von Parametern die Möglichkeit, die Bewegung von Sound-Objekten sowie deren Verhalten in Bezug auf die Distanz und Position zum Hörer zu simulieren.

Ein weiterer Vorteil von Wwise und FMOD ist der Einsatz von Soundgeneratoren und Synthesizern. So können in Wwise neben den Signalen eines gewöhnlichen Signalgenerators auf eine einfache und effiziente Weise Wind oder unterschiedliche Whooshes erzeugt und anhand von Realtime-Parametern vom Spiel manipuliert werden. In FMOD ist dies für Motorensounds und Wetter möglich. FMOD ermöglicht für diesen Zweck die Entwicklung eigener Synthesizer und Soundgeneratoren. In Wwise ist zusätzlich ein Synthesizer enthalten, der tonal anhand von Realtime-Parametern gesteuert werden kann. Unity und Fabric verfügen über keine derartige Funktionalität, jedoch können Tracker-Module genutzt werden. Dies ist mit FMOD ebenfalls möglich, nicht aber mit Wwise.

Wwise, FMOD und Fabric bieten im Gegensatz zu Unity Möglichkeiten für die Erstellung von adaptiver Musik. Anhand von Spielzuständen können vorkomponierte Abschnitte mit definierten Übergängen nacheinander abgespielt, sowie einzelne Elemente innerhalb eines sich wiederholenden Loops verändert werden. Dabei unterscheiden sich die drei Programme in der Vorgehensweise. In FMOD werden alle Abschnitte der interaktiven Musik auf den Spuren einer Timeline angelegt. Auf dieser wird abhängig von Spielparametern durch definierte Marker oder Regionen zu Zielpositionen gesprungen. In Wwise werden musikalische Abschnitte als einzelne, separate Segmente mit Audio-Clips auf einer oder mehreren Spuren erstellt und ihre Übergangspositionen definiert. Diese können durch Playlists oder ausgelöste Spielzustände anhand definierter Übergänge nacheinander abgespielt werden. Die Vorgehensweise von Fabric ähnelt in diesem Fall Wwise, da hierbei ebenfalls einzelne Abschnitte erstellt und anhand von definierten Übergängen nacheinander abgespielt werden. Diese sind jedoch nur in geringerem Ausmaß einstellbar, da beispielsweise keine Fades oder ein selbst definiertes Grid mit Offsets möglich sind.

Abschließend bleibt festzuhalten, dass der Einsatz von Middleware für Sounddesigner große Vorteile in Bezug auf die Unabhängigkeit, Flexibilität und die Möglichkeiten, interaktives und abwechslungsreiches Audio zu erstellen, bietet. Weiter ist es nur durch FMOD und Wwise möglich, bereits vor der Integration in das Spiel das Spielverhalten zu simulieren und Mischungen zu erzeugen. Die Erstellung von adaptiver Musik wird speziell durch Fabric, FMOD und Wwise ermöglicht.

5. Umsetzung des interaktiven VR-Filmes „Asperity“

5.1 Beschreibung von „Asperity“

Abbildung 48: Screenshot aus „Asperity“ – Blick des Users Abbildung 49: Screenshot aus „Asperity“ – Blick nach vorne nach links zum Piloten des Shuttles mit Bildschirm für Kommunikation mit Missionskontroll- zentrum, Master-Alarm-Knopf und ISS im Hintergrund

Der interaktive VR-Film “Asperity” handelt von dem Flug eines Spaceshuttles der „Asperity Technologies Corp.“ zur ISS. Dabei ist der Nutzer ein Weltraumtourist, welcher neben dem Piloten im Cockpit des Shuttles sitzt. Durch automatische Ansagen einer Sprecherstimme wird der Tourist im Shuttle begrüßt und über bestimmte Zustände informiert. Während des Fluges besteht eine audiovisuelle Kommunikation zum Missionskontrollzentrum der „Asperity Technologies Corp.“. Zusätzlich werden Funksprüche eines Mitgliedes der ISS empfangen. Nach unvorhergesehenen technischen Problemen stirbt der Pilot und der Nutzer muss nach Anweisungen vom Missionskontrollzentrum selbst das Shuttle zur ISS steuern und andocken.

„Asperity“ wird in Echtzeit in Unity für das HTC Vive HMD gerendert. Dabei werden die Blickrichtung des Spielers und die Position dessen Kopfes verfolgt. Darüber hinaus kommt für Interaktionen ein Joystick und der HTC Vive Controller zum Einsatz. Die Position von letzterem wird ebenfalls im Vive VR- System überwacht. Der Nutzer sitzt dabei auf einem spezialangefertigten Spaceshuttle-Sitz mit Anschnallgurten, Abbildung 50: Nutzer auf dem spezialangefertigten Spaceshuttle-Sitz mit welche seinen Bewegungsfreiraum einschränken. Beyerdynamic DT-770 Kopfhörer, HTC Vive HMD, HTC Vive Controller und Joystick

5.2 Anforderungen an den Ton

„Asperity“ besteht technisch und inhaltlich aus zwei Teilen. Im Intro wird ein Imagefilm des Unternehmens „Asperity Technologies Corp.“ und der Start des Spaceshuttles in der Form eines reinen 360°-Videos abgespielt. Der darauffolgende eigentliche Film unterscheidet sich dann in zwei Punkten von einem 360°-Video. Zum einen sind Momente vorhanden bei denen der Spieler mit der Umwelt interagieren, Knöpfe drücken und das Spaceshuttle mit einem Joystick steuern muss, zum anderen ist es für den sitzenden Spieler möglich neben dem Blickwinkel die Position seines Kopfes durch die Bewegung des Oberkörpers in begrenztem Maße zu verändern (6DOF). Da bei 360°-Videos nur eine Veränderung des Blickwinkels möglich und die Position des Zuschauers fest vorgegeben ist, ist es somit selbst für die linearen Abschnitte des Films – das Intro ausgenommen – nicht möglich Audio-Software für 360°-Videos einzusetzen. Eine derartige Veränderung des Perspektive könnte nicht wiedergegeben werden.

Um somit diesen Anforderungen gerecht zu werden, ist es notwendig, Software für die Ton-Produktion in Computerspielen zu verwenden. Der damit verbundene Workflow ist jedoch für die Unberechenbarkeit in Computerspielen optimiert. Aus diesem Grund stellt es eine Herausforderung dar, die vielseitigen Tools möglichst optimal einzusetzen und einen geeigneten Workflow mit diesen zu entwickeln.

Obwohl der Pilot einen Helm trägt und die Kommunikation in der Realität per Funk durch Mikrofone und Kopfhörer erfolgen würde, sollte im Film eine binaurale Lokalisation der Schallquellen im Cockpit erfolgen. Der akustischen Immersion und dem räumlichen Klang wurde eine höhere Priorität als dem Realismus zugesprochen.

5.3 Verwendete Technik für Audio

Für die Produktion und Wiedergabe von Audio wurde vorab die geeignete Soft-, Middle- und Hardware zusammengestellt und mit dem Team von „Asperity“ besprochen.

5.3.1 Middleware

Bei „Asperity“ war kein Programmierer als festes Mitglied im Team vorhanden, sondern kam nur auf Bedarf bei konkreten Problemen dazu. Aus diesem Grund war es für das Projekt essentiell, dass der Sounddesigner möglichst unabhängig arbeiten kann. Des Weiteren war von Anfang an klar, dass der Film iterativ umgesetzt wird und aus diesem Grund der Sounddesigner nicht erst nach einem Picture-

Lock mit der hauptsächlichen Arbeit beginnen kann, da es diesen nicht geben wird. Die Vertonung musste vorab und parallel erfolgen.

Durch den Einsatz von FMOD oder Wwise sind diese Anforderungen in vergleichbarem Maße erfüllbar. Da „Asperity“ in Unity gerendert wird und Wwise den Einsatz der Unity Timeline für das Auslösen von Events und das Übertragen von Realtime-Parametern unterstützt, fiel die Entscheidung auf Wwise.

5.3.2 Kopfhörer

„Asperity“ soll auf Messen und in Museen ausgestellt werden. Aus diesem Grund wurden geschlossene Kopfhörer gewählt, um eine Isolation von der Umwelt zu ermöglichen. In-Ear-Systeme kamen aufgrund der Hygiene nicht in Frage. Um HRTFs nicht zu verfälschen, sollten Kopfhörer mit einem möglichst linearen Frequenzgang eingesetzt werden. Aus diesem Grund wurden von Sonarworks individuell ausgemessene Beyerdynamic DT-770 Kopfhörer angeschafft, deren Frequenzgang durch den Einsatz von Sonarworks Reference 4 Headphone Edition kalibriert wird. Als Audio-Ausgabegerät wird ein Focusrite Scarlett 2i4 eingesetzt.

5.3.3 Körperschallwandler

Um zusätzlich tiefe Frequenzen über den Spaceshuttle-Sitz wiedergeben zu können, wird bei „Asperity“ ein Körperschallwandler eingesetzt. Dieser soll das VR-Erlebnis auf der haptischen Eben bereichern. Jedoch hat sich dafür der Einsatz eines separaten LFE-Kanals in Kombination mit Kopfhörern als komplizierteres Vorhaben erwiesen, da Wwise keine 2.1-Kanalkonfigurationen unterstützt. Darüber hinaus wird für Kopfhörer und Lautsprecher ein unterschiedliches Panning durchgeführt (Audiokinetic, o.J.j). Da der Einsatz des Körperschallwandlers ohne separaten Kanal, dessen Einsatz als Effekt im Sounddesign einschränkt, ist dies als suboptimal zu betrachten. Zwar ist es möglich, in Wwise durch selbstentwickelte Plugins, nicht standardisierte Audiogeräte zu integrieren und diese zusätzlich als zweites Ausgabegerät zu nutzen (Audiokinetic, o.J.a, Audiokinetic, o.J.f), jedoch war dies innerhalb des zeitlichen Rahmens des Projektes nicht durchführbar. Aus diesem Grund wurde eine alternative Lösung für den Einsatz des Körperschallwandlers mit Hilfe eines Arduinos entwickelt. Dieser wird von Unity angesteuert und spielt vorproduzierte Audiodateien ab. Auf diese Weise ist es möglich, den Körperschallwandler unabhängig von den Kopfhörern mit einem separaten Signal zu versorgen. Dafür wird ein Fischer Amps ButtKicker Mini LFE in Kombination mit einer The T.amp S-75 MK II Endstufe eingesetzt.

5.4 Vorproduktion

Der Ton für „Asperity“ wurde zu einem Großteil anhand des Drehbuchs, Moodboards und in Absprache mit dem Regisseur in Pro Tools als Layouts im Stereo- und Ambisonics-Format vorproduziert. Auf diese Weise konnten Sounds bereits als Referenz für die Erstellung von Animationen und für die Komposition von Musik verwendet werden. So wurde der Imagefilm im Intro des Filmes zuerst vollständig auf der Tonebene umgesetzt. Dies geschah zunächst mit einem Layout-Sprecher, damit bereits in diesem frühen Stadium mit der Komposition von Musik begonnen werden konnte. Dieser wurde dann durch den eigentlichen Sprecher ersetzt. Das Bild wurde erst im Nachhinein erstellt, als der Imagefilm mit Sprecher, Musik und Sounddesign erstellt war. Dies führte zwar dazu, dass das Sounddesign erneut angepasst werden musste, jedoch entsprachen die vom Regisseur gewählten Bewegtbilder zu einem Großteil den durch das Sounddesign vermittelten Bildern, was dazu führte, dass die Änderungen sehr gering waren und hauptsächlich aus dem Verschieben und Anpassen der bereits vorhandenen Sounds bestanden. Zusätzlich konnten Probleme in der Mischung von Sounddesign und Musik bereits früh erkannt und zum Teil durch eine Änderung der Komposition gelöst werden.

Anhand der für die Layouts verwendeten Pro Tools Session wurden schließlich die Audio-Assets für Wwise als einzelne Clips exportiert. Auf diese Weise war es möglich die Sounds bereits vorab zu beurteilen.

5.5 Produktion

5.5.1 3D-Atmo

Abbildung 52: Atmo-Aufnahme für Raumklang in Intro Abbildung 51: Atmo-Aufnahme für Spaceshuttle

Mit dem Schoeps ORTF-3D und dem Sennheiser AMBEO VR Mic wurden bereits während der Vorproduktion mehrere 3D-Atmo-Aufnahmen durchgeführt. Es wurden diese beiden Mikrofonsysteme gewählt, um einen direkten Vergleich der jeweiligen Vor- und Nachteile zu ermöglichen. Für das Intro des Filmes wurde die Atmo in verschiedenen Gebäuden aufgenommen. Für das Cockpit des Spaceshuttles wurden mehrere Züge und ein VW T5 mit Klimaanlage aufgenommen.

Zur Beurteilung und zum Vergleich der aufgenommenen 3D-Atmos ohne HMD vor der Integration in Unity, wurde die Audio Ease 360pan Suite mit dem darin enthaltenen binauralen Encoder in Pro Tools HD, im Zusammenhang mit einem Headtracker genutzt. Die mit dem ORTF-3D erstellten Aufnahmen wurden dafür um die Hörposition in Form eines Würfels auf einem Ambisonics-Bus 3. Ordnung angeordnet (s. Abbildung 53 und Abbildung 54).

Abbildung 53: Anordnung der unteren Kanal-Ebene der Abbildung 54: Anordnung der oberen Kanal-Ebene der ORTF- ORTF-3D-Aufnahme in Audio Ease 360pan Suite (Bildquelle: 3D-Aufnahme in Audio Ease 360pan Suite (Bildquelle: Audio Audio Ease 360pan Suite) Ease 360pan Suite)

Dabei hat das ORTF-3D klanglich und in Bezug auf die übermittelte Räumlichkeit subjektiv mehr überzeugt. Die binaural encodierte Stereo-Basis war breiter als beim AMBEO. Zudem war der Klang des AMBEO weniger ausgeglichen und dünner.

5.5.2 Dialog

Für die Stimme des Piloten wurde Matt K. Baker und für den Sprecher des Imagefilmes und der automatischen Ansagen im Spaceshuttle Fraser W. Deacon vom Regisseur engagiert. Die Sprachaufnahmen wurden von beiden in ihren Home-Studios in den USA durchgeführt.

Bei den Dreharbeiten für das Video der audiovisuellen Kommunikation zum Missionskontrollzentrum erfolgte die Tonaufnahme am Set.

Die Sprachaufnahmen des Mitglieds der ISS wurden mit einem studentischen Sprecher im Tonstudio der Filmakademie Baden- Württemberg durchgeführt. Abbildung 55: Dreharbeiten von im Shuttle eingeblendeten Video von Ground-Control

Da im Spaceshuttle die audiovisuelle Kommunikation zum Missionskontrollzentrum als Video abgespielt wird, war es besonders wichtig dessen Synchronität von Bild und Ton bei allen Zuständen im Film zu erhalten. Aus diesem Grund wurden vom Regisseur die einzelnen Abschnitte in einem Adobe Premiere Projekt mit dem Video vom Missionskontrollzentrum vorbereitet, um die Timings für Dialoge zwischen dem Piloten, dem Missionskontrollzentrum und dem ISS-Mitglied zu erstellen. Diese wurden als OMF in Pro Tools importiert, nachbearbeitet und als einzelne Stems ab den jeweiligen Startpunkten der Abschnitte exportiert (s. Abbildung 56).

Abbildung 56: Pro Tools Session zur Erstellung von Dialog-Stems für die einzelnen Abschnitte von „Asperity“ (Bildquelle: Pro Tools)

5.6 Integration

Die Audio-Clips aus der Pro Tools Session für die Sound-Layouts wurden in ein Wwise-Projekt importiert, ihre Position definiert und alle benötigten Events erstellt. Um Pegelspitzen zu begrenzen, wurde ein Limiter auf dem Master-Audio-Bus platziert. Des Weiteren wurden bereits States und das Verhalten von Sounds definiert, wie zum Beispiel das Einsetzen eines TPF nach dem Zerbrechen der Scheibe im Spaceshuttle und das Verschieben seiner Grenzfrequenz nach dem Verstopfen des Lochs. Ebenso wurde bereits definiert, dass bestimmte Sounds durch bestimmte Events ausgefadet oder gestoppt werden. Dieses Verhalten wurde durch das Auslösen von Events im Soundcaster überprüft und bereits eine Mischung erstellt.

5.6.1 Binauralisierung

Für die Binauralisierung von Audio-Objekten wurde zunächst RealSpace3D von VisiSonic eingesetzt, was klanglich überwältigende Ergebnisse lieferte. Leider führte der Einsatz von RealSpace3D aber gleichzeitig beim Starten von „Asperity“ zu einer extremen Beanspruchung des Speichers und zu den Fehlermeldungen „Insufficient memory in pool: Default. Attempted alloc size: 79593296 bytes“ und „Voice Starvation“ (s. Abbildung 57). Dies führte zusätzlich dazu, dass Ton und Bild nicht mehr synchron waren. Das Problem trat bereits bei der Binauralisierung eines einzelnen Audio-Objektes auf.

Abbildung 57: Capture Log in Wwise mit den Fehlermeldungen beim Einsatz von RealSpeace3D in „Asperity“ (Bildquelle: Wwise v2017.2.1) 95

Da zuvor bei der Integration von RealSpace3D in Unity die Default Pool Size auf 100000 Kilobyte erhöht worden war, war die Fehlermeldung mit 79593,296 Kilobyte nicht nachvollziehbar. Der Support von VisiSonic und der Einsatz unserer Programmierer führten zu keiner Lösung des Problems, weshalb von dem Einsatz von RealSpace3D abgesehen wurde. Stattdessen wurde der Oculus Spatializer eingesetzt. Wie RealSpace3D wird dieser in Wwise auf einem Bus als Plugin eingebunden und besitzt ein einstellbares Raummodell für erste und späte Reflektionen (s. Abbildung 58). Dessen Maße wurden an die Größe des Cockpits in „Asperity“ angepasst. Audio- Objekte, die binauralisiert werden sollen, werden dafür auf diesen Bus geroutet. Der

Oculus Spatializer ist zudem in der Lage FOA Abbildung 58: Oculus Spatializer in Wwise (Bildquelle: https://scontent-frt3-2.xx.fbcdn.net/v/t39.2365- im ambiX-Format binaural zu decodieren 6/18309151_1855720148014394_8182416502838788096_n.jpg?o (Oculus, o.J.a). h=742f05be7cb18d05786ac850c57f190b&oe=5B4D70E6)

5.6.2 Lineares Intro

Im Intro des Filmes befindet sich der Zuschauer vor einer Leinwand auf welcher der Imagefilm der „Asperity Technologies Corp.“ abgespielt wird (s. Abbildung 60).

Abbildung 59: Screenshot der Rektangularprojektion des Abbildung 60: Screenshot der Rektangularprojektion des sphärischen Videos im Intro von „Asperity“ – Leinwand mit sphärischen Videos im Intro von „Asperity“ – Starts des Imagefilme der „Asperity Technologies Corp.“ Spaceshuttles

Für diese wurde eine virtuelle Stereo-Lautsprecheranordnung aus Audio-Objekten in Wwise erstellt. Auf dieser wird der für den Imagefilm vorproduzierte Ton abgespielt. Für die Atmo des Raumes wurden

96 die Signale einer ORTF-3D-Aufnahme in Wwise als einzelne Audio-Objekte in Form eines Würfels fest im 3D-Raum um die Hörposition positioniert.

Die zunächst diegetische Musik und Booster innerhalb des auf der Leinwand gezeigten Filmes werden dann beim Start des Spaceshuttles nicht-diegetisch. Dies wird durch eine Überblendung zwischen den beiden fest im 3D-Raum positionierten Signalen und einem kopfbezogenen Stereo-Signal erreicht. Als das Shuttle abhebt und der Bildausschnitt des sphärischen Videos von der Leinwand auf das ganze 360°-Bild wechselt (s. Abbildung 59), wird dieser nicht-diegetische Ton mit dem diegetischen Ton einer FOA-Atmo und den Schreien einzelner Vögel, als bewegte Audio-Objekte, angereichert.

Der Ton des Imagefilmes und die Atmo werden gestreamt, um die langen Audiodateien nicht vollständig in den Speicher laden zu müssen. Die Atmo wurde mithilfe von Conversion ShareSets zusätzlich in Vorbis konvertiert. Dieser Vorgang hatte keine entscheidenden klanglichen Einbußen und verringerte die Bandbreite beim Streaming. Um den Ton des Imagefilmes synchron mit dem Bild abzuspielen wurde die „Zero Latency“-Option für das Streaming aktiviert und 100 ms der Datei im Speicher vor Beginn des Abspielvorgangs bereits vorgeladen.

5.6.3 Interaktiver Film

Zunächst wurden in Unity für die benötigten Positionen von Sounds Objekte definiert, von welchen aus Wwise-Events ausgelöst werden. Die verschiedenen Abschnitte von „Asperity“ bestehen in Unity aus verschiedenen Zuständen. Da der Programmierer aufgrund dieses logischen Aufbaus den Einsatz der Unity Timeline als nicht optimal befunden hat, wurde von ihm ein Script geschrieben, welches beim Erreichen eines Zustands, Events mit der jeweiligen Position auslösen kann. Dabei ist es möglich, ein Delay zu setzen, um speziell bei den linearen Abschnitten zwischen unterschiedlichen Zuständen Events auslösen zu können.

Die Dialoge und das Video vom Missionskontrollzentrum haben innerhalb dieser einzelnen Abschnitte das Timing vorgegeben. Es gibt Dialogblöcke, die ohne eine mögliche Interaktion des Nutzers zu einem nächsten Zustand führen und Interaktionsblöcke mit Dialog, deren nächster Zustand von der Interaktion des Nutzers abhängt.

Abbildung 61: Ausschneiden eines Dialog-Teils innerhalb eines Dialog-Stems im Source Editor in Wwise (Bildquelle: Wwise v2017.2.1)

Die aus Pro Tools exportierten Dialog-Stems wurden in Wwise zugeschnitten (s. Abbildung 61) und in mehrere Sequence Container aus Sound-Objekten und Silence- Objekten unterteilt (s. Abbildung 62). Auf diese Weise war es möglich das Timing zu erhalten und beim Streaming der Sounds keine Bandbreite für Stille innerhalb der WAV- Dateien zu verschwenden. Dies hatte den Vorteil, dass pro Charakter innerhalb eines linearen Abschnittes nur ein Abbildung 62: Playlist eines Dialog-Stems im Event innerhalb von Unity ausgelöst werden musste und "Sequence Container" in Wwise (Bildquelle: Wwise v2017.2.1) alles Weitere in Wwise verarbeitet werden konnte.

Die Dialog-Teile wurden ebenfalls anhand von ShareSets in vertretbarer Qualität in Vorbis konvertiert. Darüber hinaus werden sie auch mithilfe der „Zero Latency“-Option gestreamt. Die Signale der ORTF3D-Atmo innerhalb des Spaceshuttles wurden genauso wie die im Intro angeordnet. Diese werden ebenfalls im Vorbis-Format gestreamt. Die Atmo wurde zunächst noch mit einer tieffrequenten Surround-Atmo und einzelnen Loops, tonal abgestimmter Gebläse, erweitert. Das Ziel dieser tonalen Abstimmung war das Erzeugen von Akkorden, um die Stimmung im Shuttle subtil zu ändern. Die vielen Sound-Objekte erhöhten die Bandbreite und Anzahl der Streams jedoch kritisch, weshalb die Surround-Atmo vorab in Pro Tools auf die ORTF-3D-Atmo summiert werden musste. Zusätzlich wurden die Loops der Gebläse durch von SoundSeed Air generierten Gebläse-Sound ersetzt. Dies ermöglichte ebenfalls das Erzeugen von Akkorden und sparte CPU und Speicher. Für den Aufprall mit der ISS wird mit dem Wwise Tone Generator ein 8,1 s langer Sweep von 60 auf 20 Hz erzeugt, um auf ressourcenschonende Weise zusätzliches Low-End zu erzeugen.

Im Gegensatz zu Dialog und Atmo wurden die kürzeren Sound-Effekte im PCM-Format verwendet und nicht konvertiert, um deren Qualität nicht zu verringern. Diese werden von Unity im benötigten Moment ausgelöst.

Foleys für den Piloten konnten erst zu einem sehr späten Zeitpunkt der Produktion aufgenommen werden, da dessen finale Bewegungen erst dann fertig animiert waren. Diese wurden ebenfalls in Vorbis konvertiert und werden als Stream wiedergegeben.

Bis auf elektronische Alarmsounds wurden alle Sounds vom Oculus Spatializer binauralisiert. Auf diese Weise konnten Ressourcen geschont werden, da die schmalbandigen Alarme ohnehin ein suboptimales Signal für die Ortung darstellen.

Für Lautstärke-Automationen wurden in Wwise verschiedene States erstellt. Anhand derer wurden Offsets für die Lautstärke von verschiedenen Sound-Objekten festgelegt. Diese werden von Events

98 ausgelöst. Diese Offsets wurden zunächst mithilfe des Soundcasters vorab eingestellt und später beim Mischvorgang mit laufendem Spiel optimiert. Dabei wurden die States vom Spiel ausgelöst und das ausgewählte Offset und der Übergang vom Sounddesigner optimiert. Der Mischvorgang wurde zunächst mithilfe einer weiteren Person durchgeführt, welche mit dem HMD und Kopfhörern „Asperity“ anschaute. Dabei hat Sounddesigner mit zusätzlichen Kopfhörern das Geschehen auf einem Bildschirm verfolgt und in Echtzeit Korrekturen an der Mischung durchgeführt. Auf diese Weise musste er nicht immer das HMD auf- und abziehen. Nach dieser Vorgehensweise wurde die Mischung vom Sounddesigner mit HMD überprüft und letzte Änderungen wurden durchgeführt.

Als die Vertonung und die Mischung fertiggestellt waren, wurden die tieffrequenten Audio-Dateien für den vom Arduino gesteuerten Buttkicker erstellt. Dafür wurde in Wwise auf einem Auxiliary-Bus ein Limiter und der Wwise Recorder als Effekte platziert. Dieser Recorder erzeugt aus den ankommenden Signalen WAV-Dateien im Stereo-Format, welche in Pro Tools bearbeitet, in MP3 konvertiert und in den Arduino eingebunden wurden.

5.7 Fazit

Mit dem Einsatz von Wwise war es möglich, binauralen Ton für den interaktiven VR-Film „Asperity“ in hoher Qualität zu produzieren. Durch Dialoge, Foleys und die achtkanalige Atmo des ORTF-3D- Mikrofonarrays wurde eine hohe Anzahl an Streams erreicht, was aufgrund der benötigten Bandbreite deren Konvertierung in das Vorbis-Format verlangte. Durch Kompression wurde somit ein Kompromiss zwischen der benötigten Dateigröße und klanglicher Qualität eingegangen.

Da die Programmierer von „Asperity“ keine Unity Timeline einsetzten, wurden anhand von States Automationen für die Lautstärke erstellt. Die Erstellung von States und deren Verknüpfung mit Events war zunächst mit einem erhöhten Aufwand verbunden. Nach dieser Vorarbeit war es jedoch möglich, effizient die Lautstärke zu automatisieren.

Eine weitere Herausforderung war die Erstellung von Sounds ohne vorhandenes Bewegtbild, da das Team vorab produzierte Sounds als Referenz für die Erstellung von Animationen verwendete. Diese Vorgehensweise ermöglichte jedoch zugleich eine eigenständige Vorarbeit. Dabei wurde die Möglichkeiten genutzt, das Verhalten von Sounds in Wwise vorab zu definieren und zu testen. In Kombination stellte dies mit der iterativen Vorgehensweise des Entwicklerteams einen großen Vorteil dar und war für die Einhaltung der Fristen essentiell, da die Entwicklung bis zum Schluss andauerte.

6. Zusammenfassung

In dieser Arbeit wurden die Technik und die Arbeitsabläufe untersucht, mit denen Toninhalte für Virtual Reality produziert werden können. Dabei wurde festgestellt, dass für die Tonaufnahme für Virtual Reality sowohl Ambisonics-Mikrofone als auch quad-binaurale oder stereophone Mikrofonarrays eingesetzt werden können. Sie weisen jedoch jeweils unterschiedliche Vor- und Nachteile auf.

Für lineare VR-Anwendungen ist unter anderem die Produktion im Ambisonics-Format geeignet, da spezielle Plugins innerhalb von DAWs für einfache Arbeitsabläufe zur Verfügung stehen. Das 3D- Panning ist dabei anhand der Rektangularprojektion des sphärischen Videos ein effizienter Ansatz für eine akkurate Platzierung von Schallquellen. Allerdings sollte die Mischung zu einem späteren Zeitpunkt mit einem HMD überprüft werden. Beim Panning und Schreiben von Automationen in VR ist es hingegen direkt möglich die Mischung vollständig zu beurteilen.

Codecs wie MPEG-H bieten ebenfalls Möglichkeiten, Audio für lineare VR-Anwendungen zu produzieren und zusätzlich Audio-Objekte mit Metadaten für den Rendering-Prozess zu versehen.

Der Einsatz von objektbasiertem Audio ist für interaktive VR-Anwendungen besonders geeignet, da dadurch der Ton an eine Veränderung der Position im 3D-Raum angepasst werden kann. Die Erstellung von solchen Audio-Objekten kann entweder direkt in einer Game Engine, wie beispielsweise Unity und Unreal, erfolgen, oder mithilfe von spezieller Middleware. Unity bietet bereits Möglichkeiten, das Verhalten und die Eigenschaften von Audio-Objekten zu definieren, in Echtzeit zu mischen, Effekte einzusetzen und Snapshots auszulösen. Diese Werkzeuge können durch den Einsatz von Fabric innerhalb von Unity erweitert werden. Durch die Verwendung der Middlewares FMOD oder Wwise erlangt der Sounddesigner zusätzlich einen hohen Grad an Unabhängigkeit vom Programmierer. Zudem erhält er die Möglichkeit, Audio auf eine einfach Weise interaktiv und abwechslungsreich zu gestalten. Die Erstellung von adaptiver Musik wird durch Fabric, FMOD oder Wwise ermöglicht.

Mit der Hilfe von Wwise konnte für den interaktiven VR-Film „Asperity“ binauraler Ton in hoher Qualität produziert werden. Der Ton wurden vorab produziert und als Referenz für die Erstellung von Animationen und die Komposition von Musik verwendet. Dabei wurden in Wwise die Möglichkeiten genutzt, vorab das Verhalten von Audio zu erstellen und unabhängig von der Game Engine zu überprüfen. Lautstärke-Automationen wurden in Wwise anhand von States erstellt. Aufgrund einer erhöhten Anzahl an Streams, mussten Audiodateien konvertiert werden, um die benötigte Bandbreite zu reduzieren.

100

7. Literaturverzeichnis

AUDIO EASE B.V. (o.J.a). 360pan Suite, AUDIO EASE B.V. Zugriff am 23.01.2018. Verfügbar unter https://www.audioease.com/360/ AUDIO EASE B.V. (o.J.b). Audio Ease online store, AUDIO EASE B.V. Zugriff am 23.01.2017. Verfügbar unter https://www.audioease.com/store/ AUDIO EASE B.V. (o.J.c). The 360pan suite 2. AAX - Pro Tools HD for Mac manual 1.0. 360pan suite 3, AUDIO EASE B.V. Verfügbar unter https://www.audioease.com/360/files/360pan-suite-3-Pro- Tools-Manual-1.0.pdf Audiokinetic. (o.J.a). Audio Device Plug-ins, Audiokinetic. Zugriff am 08.03.2018. Verfügbar unter https://www.audiokinetic.com/library/edge/?source=Help&id=thirdparty_and_custom_audio_de vices Audiokinetic. (o.J.b). Audio Input Source Plug-in, Audiokinetic. Zugriff am 12.02.2018. Verfügbar unter https://www.audiokinetic.com/library/edge/?source=SDK&id=referencematerial__audioinput.ht ml Audiokinetic. (o.J.c). Audio Plug-ins, Audiokinetic. Zugriff am 04.03.2018. Verfügbar unter https://www.audiokinetic.com/library/edge/?source=SDK&id=effectplugin.html Audiokinetic. (o.J.d). Creating Audio Conversion Settings ShareSets, Audiokinetic. Zugriff am 04.03.2018. Verfügbar unter https://www.audiokinetic.com/library/edge/?source=Help&id=creating_audio_conversion_settin gs_sharesets Audiokinetic (Hrsg.). (o.J.e). Downmix Tables. Zugriff am 03.03.2018. Verfügbar unter https://www.audiokinetic.com/library/2017.2.0_6500/?source=Help&id=downmix_tables Audiokinetic (Hrsg.). (o.J.f). Integrating Secondary Outputs. Zugriff am 08.03.2018. Verfügbar unter https://www.audiokinetic.com/library/edge/?source=SDK&id=integrating__secondary__outputs. html Audiokinetic. (o.J.g). MS HRTF, Audiokinetic. Zugriff am 28.02.2018. Verfügbar unter https://www.audiokinetic.com/library/2016.2.1_5995/?source=Help&id=ms_hrtf_plug_in Audiokinetic. (o.J.h). Plug-ins, Audiokinetic. Zugriff am 05.02.2018. Verfügbar unter https://www.audiokinetic.com/products/plug-ins/ Audiokinetic. (o.J.i). Pricing | Audiokinetic, Audiokinetic. Zugriff am 09.01.2018. Verfügbar unter https://www.audiokinetic.com/pricing/

101

Audiokinetic. (o.J.j). Speakers vs Headphones Panning Rules, Audiokinetic. Zugriff am 09.03.2018. Verfügbar unter https://www.audiokinetic.com/library/edge/?source=Help&id=speakers_vs_headphones_pannin g_rules Audiokinetic. (o.J.k). Streaming Your Media, Audiokinetic. Zugriff am 21.02.2018. Verfügbar unter https://www.audiokinetic.com/library/edge/?source=Help&id=streaming_media Audiokinetic. (o.J.l). Supported Platforms, Audiokinetic. Zugriff am 05.02.2018. Verfügbar unter https://www.audiokinetic.com/products/supported-platforms/ Audiokinetic (Hrsg.). (o.J.m). Understanding Channel Configurations. Zugriff am 03.03.2018. Verfügbar unter https://www.audiokinetic.com/library/2017.2.0_6500/?source=Help&id=understanding_channel _configurations Audiokinetic. (o.J.n). Using Ambisonics, Audiokinetic. Zugriff am 19.01.2018. Verfügbar unter https://www.audiokinetic.com/library/edge/?source=Help&id=using_ambisonics Audiokinetic. (o.J.o). Using Ambisonics, Audiokinetic. Zugriff am 05.02.2018. Verfügbar unter https://www.audiokinetic.com/library/edge/?source=Help&id=using_ambisonics Audiokinetic. (o.J.p). What Media Files are Supported?, Audiokinetic. Zugriff am 05.02.2018. Verfügbar unter https://www.audiokinetic.com/library/edge/?source=Help&id=what_media_files_are_supported Audiokinetic. (o.J.q). Wwise for Games. Choose the plan that is right for your needs, Audiokinetic. Zugriff am 11.01.2018. Verfügbar unter https://www.audiokinetic.com/pricing/ Audiokinetic. (o.J.r). Wwise for Games. The following price chart is for games projects only, Audiokinetic. Zugriff am 11.01.2018. Verfügbar unter https://www.audiokinetic.com/pricing/for- games/ Audiokinetic. (o.J.s). Wwise Recorder, Audiokinetic. Zugriff am 05.02.2018. Verfügbar unter https://www.audiokinetic.com/library/edge/?source=Help&id=wwise_recorder_plug_in_effect Audiokinetic. (o.J.t). Wwise SoundSeed, Audiokinetic. Zugriff am 04.03.2018. Verfügbar unter https://www.audiokinetic.com/products/plug-ins/soundseed/ Audiokinetic. (2017). Wwise-101 Certification Course. 7 Lessons, 7 Quizzes, 1 Exam, Audiokinetic. Zugriff am 28.01.2018. Verfügbar unter https://www.audiokinetic.com/download/lessons/wwise101_en.pdf Avid Technology. (2017). Avid Knowledge Base. Pro Tools 12.8.2 Release Info, Avid Technology. Verfügbar unter http://avid.force.com/pkb/articles/download/Pro-Tools-12-8-2-Release-Info Bates, E. & Boland, F. (Hrsg.). (2016). Spatial Music, Virtual Reality, and 360 Media. Verfügbar unter http://www.aes.org/e-lib/browse.cfm?elib=18496

102

Bates, E., Dooney, S., Gorzel, M., O’Dwyer, H., Ferguson, L. & Boland, F. M. (Hrsg.). (2017). Comparing Ambisonic Microphones—Part 2. Verfügbar unter http://www.aes.org/e- lib/browse.cfm?elib=18607 Bates, E., Gorzel, M., Ferguson, L., O’Dwyer, H. & Boland, F. M. (Hrsg.). (2016). Comparing Ambisonic Microphones – Part 1. Verfügbar unter http://www.aes.org/e-lib/browse.cfm?elib=18317 Behrends, J. (2015). Interreaction (interaktive Medien und Kommunikation im Raum - eine Einführung für Gestalter). Stuttgart: avedition. Berg, R. (2016). PlayStation VR: Revolution oder Elektro-Schrott? Sonys VR-Brille im Test!, Computerbild. Zugriff am 02.01.2018. Verfügbar unter http://www.computerbild.de/artikel/cbs- News-Sony-Playstation-VR-8975488.html Bertet, S., Daniel, J. & Moreau, S. (Hrsg.). (2006). 3D Sound Field Recording with Higher Order Ambisonics - Objective Measurements and Validation of Spherical Microphone. Zugriff am 02.01.2018. Verfügbar unter http://www.aes.org/e-lib/browse.cfm?elib=13661 Blauert, J. & Braasch, J. (2008). Räumliches Hören. In S. Weinzierl (Hrsg.), Handbuch der Audiotechnik (S. 87–121). Berlin, Heidelberg: Springer Berlin Heidelberg. Blue Ripple Sound. (o.J.a). O3A View, Blue Ripple Sound. Zugriff am 23.01.2018. Verfügbar unter http://www.blueripplesound.com/products/o3a-view Blue Ripple Sound. (o.J.b). Pro Audio Products, Blue Ripple Sound. Zugriff am 23.01.2018. Verfügbar unter http://www.blueripplesound.com/product-listings/pro-audio Blue Ripple Sound. (2018a). O3A Core Plugins User Guide v2.1.5, Blue Ripple Sound. Zugriff am 23.01.2018. Verfügbar unter http://www.blueripplesound.com/sites/default/files/O3ACore_UserGuide_v2.1.5.pdf Blue Ripple Sound. (2018b). O3A Manipulators Plugins User Guide v2.1.5, Blue Ripple Sound. Zugriff am 23.01.2018. Verfügbar unter http://www.blueripplesound.com/sites/default/files/O3AManipulators_UserGuide_v2.1.5.pdf Blue Ripple Sound. (2018c). O3A Reverb Plugins User Guide v2.1.5, Blue Ripple Sound. Zugriff am 23.01.2018. Verfügbar unter http://www.blueripplesound.com/sites/default/files/O3AReverb_UserGuide_v2.1.5.pdf Blue Ripple Sound. (2018d). O3A View Plugins User Guide v2.1.5, Blue Ripple Sound. Zugriff am 23.01.2018. Verfügbar unter http://www.blueripplesound.com/sites/default/files/O3AView_UserGuide_v2.1.5.pdf Carpentier, T. (Hrsg.). (2017). Normalization Schemes in Ambisonic. Does it Matter? Verfügbar unter http://www.aes.org/e-lib/browse.cfm?elib=18645

103

Chapman, M., Ritsch, W., Musil, T., Zmölnig, I., Pomberger, H., Zotter, F. et al. (Hrsg.). (2009). A stadard for interchange of ambisonic signal sets. Including a file standard with metadata. Zugriff am 19.01.2018. Verfügbar unter https://iem.kug.ac.at/fileadmin/media/iem/projects/2009/ambixchange09.pdf Core Sound. (o.J.). Core Sound TetraMic. TetraMic Specifications, Core Sound. Zugriff am 04.01.2018. Verfügbar unter http://www.core-sound.com/TetraMic/2.php Dear Reality. (o.J.). dearVR. 3D audio virtual reality, Dear Reality. Zugriff am 27.01.2018. Verfügbar unter http://dearvr.com/ Dear Reality. (2017). dearVR pro User Manual v1.0, Dear Reality. Zugriff am 21.01.2018. Verfügbar unter https://files.plugin-alliance.com/products/dearvr_pro/dearvr_pro_manual_en.pdf Dickreiter, M. (2014). Schallwahrnehmung. In M. Dickreiter, V. Dittel, W. Hoeg & M. Wöhr (Hrsg.), Handbuch der Tonstudiotechnik. Band 1. Berlin [u.a.]: De Gruyter. Dolby Laboratories. (o.J.). How do I distribute my content with the Atmos mix?, Dolby Laboratories. Zugriff am 20.01.2018. Verfügbar unter https://kb.developer.dolby.com/support/solutions/articles/16000020268-how-do-i-distribute- my-content-with-the-atmos-mix- Dolby Laboratories. (2008). Technical Paper: Dolby Digital Plus, Dolby Laboratories. Zugriff am 26.02.2018. Verfügbar unter https://www.dolby.com/us/en/technologies/dolby-digital-plus- audio-coding-tech-paper.pdf Dolby Laboratories. (2015). Dolby AC-4: Audio Delivery for Next-Generation Entertainment Services, Dolby Laboratories. Zugriff am 26.01.2018. Verfügbar unter https://www.dolby.com/us/en/technologies/ac-4/Next-Generation-Entertainment-Services.pdf Dolby Laboratories. (2017). Dolby Atmos VR Player Guide, Dolby Laboratories. Zugriff am 26.01.2018. Verfügbar unter http://developerdownload.dolby.com/docs/Dolby_Atmos_VR_Player_Guide.pdf Dörner, R., Jung, B., Grimm, P., Broll, W. & Göbel, M. (2013). Einleitung. In R. Dörner, W. Broll, P. Grimm & B. Jung (Hrsg.), Virtual und Augmented Reality (VR / AR) (Grundlagen und Methoden der Virtuellen und Augmentierten Realität, S. 1–31). Berlin, Heidelberg: Springer Vieweg. Engler, M. & Jacques, D. (2017). Bcom plugins, Merging Technologies. Zugriff am 26.01.2018. Verfügbar unter https://confluence.merging.com/display/PUBLICDOC/Bcom+plugins Facebook. (o.J.). Facebook Media - Facebook 360, Facebook. Zugriff am 30.12.2017. Verfügbar unter https://www.facebook.com/facebookmedia/get-started/360 Facebook 360. (2017). Facebook 360 Spatial Workstation User Guide. Release 3.0. Firelight Technologies. (o.J.a). Deployment, Firelight Technologies. Zugriff am 08.02.2018. Verfügbar unter http://www.fmod.org/documentation/#content/generated/engine_ue4/deployment.html

104

Firelight Technologies. (o.J.b). Firelight Technologies FMOD Studio API. Introduction, Firelight Technologies. Zugriff am 08.02.2018. Verfügbar unter https://www.fmod.com/resources/documentation- api?page=content/generated/common/introduction_web.html#/ Firelight Technologies. (o.J.c). Firelight Technologies FMOD Studio API. Spatial Audio, Firelight Technologies. Zugriff am 24.02.2018. Verfügbar unter https://www.fmod.com/docs/api/content/generated/overview/spatialaudio.html Firelight Technologies. (o.J.d). FMOD Low Level API - An Overview, Firelight Technologies. Zugriff am 12.02.2018. Verfügbar unter https://www.fmod.com/resources/documentation- api?page=content/generated/common/lowlevel_introduction.html#file-formats-1 Firelight Technologies. (o.J.e). FMOD Studio Plug-in SDK, Firelight Technologies. Zugriff am 04.03.2018. Verfügbar unter http://www.fmod.org/documentation/#content/generated/overview/plugin_api_dsp.html Firelight Technologies. (o.J.f). Licensing - FMOD, Firelight Technologies. Zugriff am 09.01.2018. Verfügbar unter https://www.fmod.com/licensing Firelight Technologies. (o.J.g). Mixing, Firelight Technologies. Zugriff am 03.03.2018. Verfügbar unter https://www.fmod.com/docs/studio/mixing.html Firelight Technologies. (o.J.h). UE4 Integration, Firelight Technologies. Zugriff am 08.02.2018. Verfügbar unter http://www.fmod.org/documentation/#content/generated/engine_ue4/overview.html Firelight Technologies. (o.J.i). Unity Integration 2, Firelight Technologies. Zugriff am 08.02.2018. Verfügbar unter http://www.fmod.org/documentation/#content/generated/engine_new_unity/overview.html Firelight Technologies. (o.J.j). Virtual Voice System, Firelight Technologies. Zugriff am 08.02.2018. Verfügbar unter https://www.fmod.com/resources/documentation- api?page=content/generated/overview/virtualvoices.html#/ Firelight Technologies. (2016). FMOD Studio 1.08 released, Firelight Technologies. Zugriff am 08.02.2018. Verfügbar unter http://www.fmod.org/fmod-studio-1-08-released/ Firelight Technologies. (2018a). FMOD Studio 1.10.03 User Manual. 12. Event Macro Controls Reference, Firelight Technologies. Zugriff am 08.02.2018. Verfügbar unter https://www.fmod.com/resources/documentation-studio?page=event-macro-controls- reference.html#priority Firelight Technologies. (2018b). FMOD Studio 1.10.03 User Manual. 2. FMOD Studio Concepts, Firelight Technologies. Zugriff am 07.02.2018. Verfügbar unter https://www.fmod.com/resources/documentation-studio?page=fmod-studio-concepts.html

105

Firelight Technologies. (2018c). FMOD Studio 1.10.03 User Manual. 5. Working with Instruments, Firelight Technologies. Zugriff am 07.02.2018. Verfügbar unter https://www.fmod.com/resources/documentation-studio?page=working-with-instruments.html Firelight Technologies. (2018d). FMOD Studio 1.10.03 User Manual. 6. Asset Management, Firelight Technologies. Zugriff am 08.02.2018. Verfügbar unter https://www.fmod.com/resources/documentation-studio?page=managing-assets.html Firelight Technologies. (2018e). FMOD Studio 1.10.03 User Manual. 7. Getting Events into Your Game, Firelight Technologies. Zugriff am 08.02.2018. Verfügbar unter https://www.fmod.com/resources/documentation-studio?page=getting-events-into-your- game.html Fleischmann, J. (2017, 14. Mai). MPEG-H – ein Audioformat der nächsten Generation (NGA), Tech- Magazin. Zugriff am 25.01.2018. Verfügbar unter http://tech-magazin.de/2017/05/mpeg-h-ein- audioformat-der-naechsten-generation-nga/ Frank, M. & Zotter, F. (Hrsg.). (2017). Exploring the Perceptual Sweet Area in Ambisonics. Verfügbar unter http://www.aes.org/e-lib/browse.cfm?elib=18604 Fraunhofer IIS. (o.J.a). AES NEW YORK 2017, Fraunhofer IIS. Zugriff am 26.01.2018. Verfügbar unter https://www.iis.fraunhofer.de/de/muv/2017/143-aes.html Fraunhofer IIS. (o.J.b). IBC 2017, Fraunhofer IIS. Zugriff am 26.01.2018. Verfügbar unter https://www.iis.fraunhofer.de/de/muv/2017/ibc-2017.html Fraunhofer IIS. (o.J.c). Inter BEE 2017, Fraunhofer IIS. Zugriff am 26.01.2018. Verfügbar unter https://www.iis.fraunhofer.de/en/muv/2017/interbee2017.html Fraunhofer IIS. (o.J.d). Mobile World Congress 2017, Fraunhofer IIS. Zugriff am 26.01.2018. Verfügbar unter https://www.iis.fraunhofer.de/de/muv/2017/mwc-2017.html?wcmmode=disabled Fraunhofer IIS. (o.J.e). NAB Show 2017, Fraunhofer IIS. Zugriff am 26.01.2018. Verfügbar unter https://www.iis.fraunhofer.de/de/muv/2017/nabshow-2017.html Fraunhofer IIS. (2017a). Audio und Medientechnologien @IBC 2017, Fraunhofer IIS. Zugriff am 25.01.2017. Verfügbar unter https://www.iis.fraunhofer.de/de/muv/2017/ibc- 2017/amm_ibc2017.html Fraunhofer IIS. (2017b). Fraunhofer IIS: Delivering a complete suite of solutIons for the next generation of virtual realIty audio, Fraunhofer IIS. Zugriff am 25.01.2018. Verfügbar unter https://www.iis.fraunhofer.de/content/dam/iis/de/doc/ame/wp/FraunhoferIIS_Technical- Paper_Virtual-Reality.pdf Fraunhofer IIS. (2017c). MPEG-H TV Audio System nun offizieller ATSC 3.0-Standard. Fraunhofer Audio Blog, Fraunhofer IIS. Zugriff am 25.01.2018. Verfügbar unter http://www.audioblog.iis.fraunhofer.de/mpeg-h-standard-atsc-3-0/

106

Fraunhofer IIS. (2017d). Neues Produktionstool von Linear Acoustic unterstützt MPEG-H. Fraunhofer Audio Blog, Fraunhofer IIS. Zugriff am 25.01.2018. Verfügbar unter http://www.audioblog.iis.fraunhofer.de/linear-acoustic-ams/ Fugal, H. & Nair, V. (2017). Spatial audio — bringing realistic sound to 360 video, Facebook. Zugriff am 09.01.2018. Verfügbar unter https://code.facebook.com/posts/412047759146896/spatialaudio-bringing-realistic-sound-to-360-video/ Geier, M., Carpentier, T., Noisternig, M. & Warusfel, O. (Hrsg.). (2017). Software tools for objectbased audio production using the Audio Definition Model. Zugriff am 26.01.2018. Verfügbar unter http://vdt-icsa.de/program/2017-09-08-directivity-arts-foyer-ligeti-hall/10-40-geier/ Gieselmann, H. (2016). MPEG-H 3D Audio: Fraunhofer experimentiert mit 3D- und VR-Sound, Heise Medien. Verfügbar unter https://www.heise.de/newsticker/meldung/MPEG-H-3D-Audio- Fraunhofer-experimentiert-mit-3D-und-VR-Sound-3496079.html Google Developers. (2018). Get started with Resonance Audio for FMOD, Google Developers. Zugriff am 08.02.2018. Verfügbar unter https://developers.google.com/resonance- audio/develop/fmod/getting-started Görne, T. (2015). Tontechnik (Hören, Schallwandler, Impulsantwort und Faltung, digitale Signale, Mehrkanaltechnik, tontechnische Praxis, mit 33 Tabellen). München: Hanser. Grimm, P., Herold, R., Hummel, J. & Broll, W. (2013). VR-Eingabegeräte. In R. Dörner, W. Broll, P. Grimm & B. Jung (Hrsg.), Virtual und Augmented Reality (VR / AR) (Grundlagen und Methoden der Virtuellen und Augmentierten Realität, S. 97–125). Berlin, Heidelberg: Springer Vieweg. Grimm, P., Herold, R., Reiners, D. & Cruz-Neira, C. (2013). VR-Ausgabegeräte. In R. Dörner, W. Broll, P. Grimm & B. Jung (Hrsg.), Virtual und Augmented Reality (VR / AR) (Grundlagen und Methoden der Virtuellen und Augmentierten Realität, S. 127–156). Berlin, Heidelberg: Springer Vieweg. Harvey, S. (2017). Inside Facebook’s VR Audio Initiative, NewBay Media, LLC. Zugriff am 09.01.2018. Verfügbar unter https://www.prosoundnetwork.com/post-and-broadcast/inside-facebooks-vraudio-initiative International Telecommunication Union. (2016). Recommendation ITU-R BS.2076-1. Audio Definition Model, International Telecommunication Union. Zugriff am 26.01.2018. Verfügbar unter https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.2076-1-201706-I!!PDF-E.pdf Kolokythas, P. (2016). Oculus Rift jetzt im deutschen Handel erhältlich, PC-Welt. Zugriff am 02.01.2018. Verfügbar unter https://www.pcwelt.de/news/Oculus-Rift-ab-20.-September-im- deutschen-Handel-erhaeltlich-10025966.html Lee, H. (Hrsg.). (2016). Capturing and Rendering 360º VR Audio Using Cardioid Microphones. Verfügbar unter http://www.aes.org/e-lib/browse.cfm?elib=18511

107

Malham, D. (2003). Higher order Ambisonic systems. Zugriff am 19.01.2018. Verfügbar unter https://www.york.ac.uk/inst/mustech/3d_audio/higher_order_ambisonics.pdf Merging Technologies. (o.J.a). Pyramix 11 - New Features, Merging Technologies. Zugriff am 26.01.2018. Verfügbar unter http://www.merging.com/products/pyramix/ Merging Technologies. (o.J.b). Pyramix Key Features, Merging Technologies. Zugriff am 26.01.2018. Verfügbar unter http://www.merging.com/products/pyramix/key-features Merging Technologies. (2017). Pyramix 11.1 To Include Full Object Based Audio Workflow, Merging Technologies. Zugriff am 25.01.2018. Verfügbar unter http://www.merging.com/news/news- stories/pyramix-11-1-to-include-full-object-based-audio-workflow Meyer, J. & Elko, G. (Hrsg.). (2016). A Qualitative Analysis of Frequency Dependencies in Ambisonics Decoding Related to Spherical Microphone Array Recording. Verfügbar unter http://www.aes.org/e-lib/browse.cfm?elib=18316 MH Acoustics LLC. (o.J.). Products, MH Acoustics LLC. Zugriff am 04.01.2018. Verfügbar unter https://mhacoustics.com/products MH Acoustics LLC. (2013). em32 Eigenmike®microphone array release notes (v17.0), MH Acoustics LLC. Zugriff am 05.01.2018. Verfügbar unter https://www.mhacoustics.com/sites/default/files/ReleaseNotes.pdf New Audio Technology. (2016). The Spatial Audio Designer Version 2, New Audio Technology. Verfügbar unter https://www.newaudiotechnology.com/en/the-spatial-audio-designer-version-2/ Octava. (o.J.). MK-4012 4-D Ambisonic A-format Mikrofon, Octava. Zugriff am 02.01.2018. Verfügbar unter http://www.oktava-shop.com/Kleinmembran-und-Mittelmembran- Kondensatormikrofone/MK-012-01-Oktava-12.html Oculus. (o.J.a). Features, Oculus. Zugriff am 09.03.2018. Verfügbar unter https://developer.oculus.com/documentation/audiosdk/latest/concepts/audiosdk- features/#audiosdk-features-supported Oculus. (o.J.b). Listening Devices, Oculus. Zugriff am 30.12.2017. Verfügbar unter https://developer.oculus.com/documentation/audiosdk/latest/concepts/audio-intro-devices/ Orpheus. (2016). Sequoia – The main audio production tool of ORPHEUS, Orpheus. Verfügbar unter https://orpheus-audio.eu/sequoia-the-main-audio-production-tool-of-orpheus/ Orpheus. (2017). Implementation and documentation of objectbased editing and mixing, Orpheus. Zugriff am 27.02.2018. Verfügbar unter https://orpheus-audio.eu/wp- content/uploads/2017/12/orpheus-d3.6_impl.doc-of-ob-editing-and-mixing.pdf Pike, C., Taylor, R., Parnell, T. & Melchior, F. (Hrsg.). (2016). Object-Based 3D Audio Production for Virtual Reality Using the Audio Definition Model. Zugriff am 26.01.2018. Verfügbar unter http://www.aes.org/e-lib/online/download.cfm/18498.pdf?ID=18498

108

Plugin Alliance. (o.J.). Dear Reality dearVR pro, Plugin Alliance. Zugriff am 21.01.2018. Verfügbar unter https://www.plugin-alliance.com/en/products/dearvr_pro.html Ryan, R. (2016). 3DConnexion Mouse - Configuration Guide, Merging Technologies. Zugriff am 26.01.2018. Verfügbar unter https://confluence.merging.com/display/PUBLICDOC/3DConnexion+Mouse+- +Configuration+Guide Schmidt, B. (2017). GameSoundCon Game Audio Industry Survey 2017, GameSoundCon. Zugriff am 09.01.2018. Verfügbar unter https://www.gamesoundcon.com/single- post/2017/10/02/GameSoundCon-Game-Audio-Industry-Survey-2017 Schoeps. (o.J.). Plug-and-Play setup for Surround Ambience Recording ORTF Surround Outdoor Set, Schoeps. Zugriff am 11.01.2018. Verfügbar unter http://www.schoeps.de/en/products/ortf- surround-outdoor-set Sengpiel, E. (o.J.a). Die Richtungswahrnehmung nicht nur in der Medianebene. Zugriff am 01.03.2018. Verfügbar unter http://www.sengpielaudio.com/DieRichtungswahrnehmungMedianebene.pdf Sengpiel, E. (o.J.b). Kopfbezogene Übertragungsfunktion HRTF. Zugriff am 01.03.2018. Verfügbar unter http://www.sengpielaudio.com/KopfbezogeneUebertragungsfunktionHRTF.pdf Sennheiser. (o.J.). TECHNISCHE DATEN, Sennheiser. Zugriff am 02.01.2018. Verfügbar unter http://www.sennheiser-sites.com/responsive- manuals/AMBEO_VR_MIC/DE/index.html#page/AMBEO%2520VR%2520MIC%2FVR_MIC_05_Tec hnischedaten_DE.5.1.html%23ww1018471 Sennheiser. (2016). Shape the Future of Audio, Sennheiser. Zugriff am 04.01.2018. Verfügbar unter https://en-us.sennheiser.com/shape-the-future-of-audio-ambeo Sherbourne, S. (2017). Ambisonics and VR/360 Audio in Pro Tools | HD, Avid Technology. Zugriff am 21.01.2018. Verfügbar unter http://www.avidblogs.com/ambisonics-vr360-audio-pro-tools-hd/ Shivappa, S., Morrell, M., Sen, D., Peters, N. & Salehin, S. M. A. (Hrsg.). (2016). Efficient, Compelling, and Immersive VR Audio Experience Using Scene Based Audio/Higher Order Ambisonics. Zugriff am 16.12.2017. Verfügbar unter http://www.aes.org/e-lib/browse.cfm?elib=18493 Slavik, K. M. & Weinzierl, S. (2008). Wiedergabeverfahren. In S. Weinzierl (Hrsg.), Handbuch der Audiotechnik (S. 609–985). Berlin, Heidelberg: Springer Berlin Heidelberg. Susal, J., Krauss, K., Tsingos, N. & Altman, M. (Hrsg.). (2016). Immersive Audio for VR. Zugriff am 16.12.2017. Verfügbar unter http://www.aes.org/e-lib/browse.cfm?elib=18512 Tazman-Audio. (o.J.a). Fabric Manual. VRAudio Overview, Tazman-Audio. Zugriff am 10.02.2018. Verfügbar unter http://fabric-manual.com/m/Fabric/l/627716-vraudio-overview Tazman-Audio. (o.J.b). Licensing, Tazman-Audio. Zugriff am 11.01.2018. Verfügbar unter http://www.tazman-audio.co.uk/licensing

109

Tazman-Audio. (o.J.c). WwwAudioComponent, Tazman-Audio. Zugriff am 12.02.2018. Verfügbar unter http://fabric-manual.com/m/Fabric/l/288076-wwwaudiocomponent Tazman-Audio. (2014). AudioPanner, Tazman-Audio. Zugriff am 11.02.2018. Verfügbar unter http://fabric-manual.com/m/Fabric/l/290569-audiopanner Theile, G., Dickreiter, M., Graul, W., Camerer, F. & Spikofski, G. (2014). Tonaufnahme und Tonwiedergabe. In M. Dickreiter, V. Dittel, W. Hoeg & M. Wöhr (Hrsg.), Handbuch der Tonstudiotechnik. Band 1 (S. 217–369). Berlin [u.a.]: De Gruyter. Thresh, L., Armstrong, C. & Kearney, G. (Hrsg.). (2017). A Direct Comparison of Localization Performance When Using First, Third, and Fifth Ambisonics Order for Real Loudspeaker and Virtual Loudspeaker Rendering. Zugriff am 04.01.2018. Verfügbar unter http://www.aes.org/e- lib/browse.cfm?elib=19261 Travis, C. (Hrsg.). (1996). A Virtual Reality Perspective on Headphone Audio. Zugriff am 17.12.2017. Verfügbar unter http://www.aes.org/e-lib/browse.cfm?elib=7082 Unity Technologies. (o.J.a). Ein Build, Bereitstellung überall, Unity Technologies. Zugriff am 10.02.2018. Verfügbar unter https://unity3d.com/de/unity/features/multiplatform Unity Technologies. (o.J.b). Unity User Manual (2017.3). Audio files, Unity Technologies. Zugriff am 10.02.2018. Verfügbar unter https://docs.unity3d.com/Manual/AudioFiles.html Unity Technologies. (2017a). Audio Settings, Unity Technologies. Zugriff am 04.03.2018. Verfügbar unter https://docs.unity3d.com/Manual/class-AudioSettings.html Unity Technologies. (2017b). AudioSettings.Reset, Unity Technologies. Zugriff am 04.03.2018. Verfügbar unter https://docs.unity3d.com/ScriptReference/AudioSettings.Reset.html Unity Technologies. (2017c). AudioSpeakerMode, Unity Technologies. Zugriff am 03.03.2018. Verfügbar unter https://docs.unity3d.com/ScriptReference/AudioSpeakerMode.html Unity Technologies. (2017d). Unity User Manual (2017.3). Audio Clip, Unity Technologies. Zugriff am 18.02.2018. Verfügbar unter https://docs.unity3d.com/Manual/class-AudioClip.html Unity Technologies. (2017e). Unity User Manual (2017.3). Audio Group Inspector, Unity Technologies. Zugriff am 18.02.2018. Verfügbar unter https://docs.unity3d.com/Manual/AudioMixerInspectors.html Unity Technologies. (2017f). Unity User Manual (2017.3). Audio in Unity 5.0, Unity Technologies. Zugriff am 18.02.2018. Verfügbar unter https://docs.unity3d.com/Manual/UpgradeGuide5- Audio.html Unity Technologies. (2017g). Unity User Manual (2017.3). Audio Profiler, Unity Technologies. Zugriff am 23.02.2018. Verfügbar unter https://docs.unity3d.com/Manual/ProfilerAudio.html Unity Technologies. (2017h). Unity User Manual (2017.3). Tracker Modules, Unity Technologies. Verfügbar unter https://docs.unity3d.com/Manual/TrackerModules.html

110

Unity Technologies. (2017i). Unity User Manual (2017.3). VR Audio Spatializers, Unity Technologies. Zugriff am 24.02.2018. Verfügbar unter https://docs.unity3d.com/Manual/VRAudioSpatializer.html Unity Technologies. (2017j, 10. August). Unity User Manual (2017.3). Ambisonic Audio, Unity Technologies. Zugriff am 11.02.2018. Verfügbar unter https://docs.unity3d.com/Manual/AmbisonicAudio.html Valve Corporation. (o.J.). Steam Audio, Valve Corporation. Zugriff am 24.02.2018. Verfügbar unter https://valvesoftware.github.io/steam-audio/ Valve Corporation. (2018). Steam Audio. Beta 12: FMOD Studio plugin and more, Valve Corporation. Zugriff am 24.02.2018. Verfügbar unter http://steamcommunity.com/games/596420/announcements/detail/1568807608827638582 VisiSonics Corporation. (o.J.a). Products. VisiSonics 5/64 Audio/Visual Camera, VisiSonics Corporation. Zugriff am 05.01.2018. Verfügbar unter http://visisonics.com/products-2/#camera VisiSonics Corporation. (o.J.b). RealSpace3D Audio, VisiSonics Corporation. Zugriff am 24.02.2018. Verfügbar unter https://realspace3daudio.com/ VisiSonics Corporation. (o.J.c). VisiSonics 5/64 Frequency Range and Resolution, VisiSonics Corporation. Zugriff am 05.01.2018. Verfügbar unter http://visisonics.com/white-papers/ Webers, J. (2007). Handbuch der Tonstudiotechnik für Film, Funk und Fernsehen [digitales und analoges Audio Recording]. Poing: Franzis. Weinzierl, S. (2008). Aufnahmeverfahren. In S. Weinzierl (Hrsg.), Handbuch der Audiotechnik (S. 551– 607). Berlin, Heidelberg: Springer Berlin Heidelberg. Wittek, H. (2015). "ORTF-3D": eine Mikrofontechnik für Atmoaufnahmen in 3D-Audio und VR. Zugriff am 11.01.2017. Verfügbar unter https://www.hauptmikrofon.de/de/stereo-3d/3d-audio/ortf-3d Wittek, H. & Theile, G. (Hrsg.). (2017). Development and Application of a Stereophonic Multichannel Recording Technique for 3D Audio and VR. Zugriff am 04.01.2018. Verfügbar unter http://www.aes.org/e-lib/browse.cfm?elib=19266 YouTube. (o.J.). Use spatial audio in 360-degree and VR videos, YouTube. Zugriff am 30.12.2018. Verfügbar unter https://support.google.com/youtube/answer/6395969?hl=en&ref_topic=2888648 Zwingmann, D. (2016). HTC Vive: Vermutlich 50.000 VR-Brillen verkauft, PC-Games. Zugriff am 02.01.2016. Verfügbar unter http://www.pcgames.de/HTC-Vive-Hardware-261074/News/50000- VR-Brillen-verkauft-1195113/

111