Immersive Audio XR

BERUFSBILD IMMERSIVES AUDIO FÜR XR-PROJEKTE

engl. Audio Producer XR

Alles Neu hier: Besonderheiten bei Konzeption, Produktion, Aufnahme, Gestaltung, Mischung und Auslieferung der Tonebene von XR-Projekten

(auch: Sounddesigner*in XR, Sound Supervisor XR)

Ein Text von Martin Rieger mit freundlicher Unterstützung von Ana Monte

I Einleitung

Virtual Reality Sound stellt an den Ton ganz neue Anforderungen, sowohl aus technischer als auch aus kreativer Sicht. Vereinfacht lässt sich sagen, dass der Sound in VR einen dreidimensionalen Höreindruck erzeugen soll, und das mit genauso wie ohne Headtracking.

Extended Reality ist der Oberbegriff für Virtual Reality (VR), Augmented Reality (AR) und Mixed Reality (MR). Spatial Audio spielt in jedem dieser Bereiche eine ganz andere Rolle. Doch alles der Reihe nach, denn zu Beginn erst einmal ein großes „Achtung“: Die meisten Tonmeister*innen reden von VR, meinen aber eigentlich 360° Videos. Solche Produktionen sind aber nur eine sehr kleine Nische von der ganzen virtuellen Realität Es gibt nämlich zwei große Einschränkungen: 360° Videos sind wie herkömmliche Filme zeitlich linear und ermöglichen zweitens nur eine Rotation der Blickrichtung um drei Achsen: X, Y und Z. Auch bekannt als drei Freiheitsgrade (3DoF, three degrees of freedom). Der Hype um solche Produktionen ist bereits abgeflaut und wird in Zukunft wohl nur eine untergeordnete Rolle spielen.

Soweit zum Thema XR. Kommen wir nun zum Hype-Thema “immersiv”. Die Euphorie unter den Film Sound Tonmeister*innen ist groß und das Thema auf den einschlägigen Tagungen ein Dauerbrenner. Dabei steht „immersives Audio“ gerne als Synonym für „3D Audio“.

Aber wo und wann kann 3D Audio überhaupt einen Mehrwert bieten? Es gilt herauszufiltern, wo die neue Technologie bestmöglich funktioniert und was vielversprechende Anwendungsgebiete sein könnten.

Die Möglichkeiten, mit 3D Audio zu arbeiten, sind schier unbegrenzt. Dabei denken die allermeisten Kolleg*innen erst einmal an Dolby Atmos für immersive Film- oder Musikproduktionen. Doch das ist nur ein kleiner Teil der denkbaren Anwendungen!Wir wollen uns hier nur auf die für die bvft relevantesten beschränken. Denn es entsteht gerade ein riesiger Urwald an neuen Formaten, Geräten, Plugins und Distributionswegen, von denen wir heute vielleicht noch nicht einmal wissen. Folglich kann es sich durchaus lohnen selber zum/zur Abenteurer*in zu werden und sich in den Dschungel zu stürzen.

15259654_1613454728958865_6659847214835082452_o

II Zuständigkeitsbereiche und Schlüsselkompetenzen

Originaltonaufnahme

Für die Aufnahmen unterwegs und im Studio müssen die Tonmeister*innen einen guten Überblick über die verfügbarenmehrkanaligen Mikrofon-Arrays haben. Diese eignen sich meist für den Einsatz als sogenannte Beds. Dabei sind aber kanalbasierte Formate wie 5.1, 7.1 und 7.1.2 eher zweitrangig. Sie sind zwar etabliert im Kontext von Filmton, bilden den Ton aber nicht kugelförmig, also aus allen Seiten gleichmäßig ab, wie es immersives Audio meist verlangt. Denn oft wird bei der späteren Wiedergabe der Ton noch um die Raumachsen rotiert.

Spätestens hier stolpert man über den Begriff Ambisonics. Dieses Aufzeichnungs- und Transportformat existiert bereits seit einigen Jahrzehnten, schaffte aber erst in Kombination mit 360° Videos seinen großen Durchbruch. Es existieren bereits von verschiedensten Herstellern recht erschwingliche Mikrofone, welche über vier tetraedisch angeordnete Kapseln verfügen. Damit erstellte Rohaufnahmen werden als Ambisonics A-Format bezeichnet und anschliessend softwareseitig in das B-Format übertragen, in dem in Ambisonics gemischt wird.

Vor- und Nachteile des Formats sollen hier nicht weiter diskutiert werden. Es geht hierdarum zu zeigen, dass während der Aufnahme manchmal noch nicht einmal klar ist, auf welchem Endgerät oder welcher Plattform die spätere Produktion einmal landet. Es können also genau so gut ein ORTF-3D oder ein Omni-Binaurales Mikrofon die richtige Wahl sein.

Der wichtigste Unterschied zum klassischen Filmton ist, dass etwa die Tonangel bei 360° Videos komplett wegfällt. Sonst wäre der Tonmensch samt Boom im VR Bild zu sehen. Daher ist auch hier eine solide Funkanlage notwendig. Gefordert ist also einerseits ein 3D-Bed aufzunehmen, das den Ton möglichst gut aus allen Richtungen einfängt und andererseits ist es essentiell die einzelnen Audio-Objekte zusätzlich möglichst isoliert aufzunehmen. Dabei gelten ganz andere Regeln als beim klassischen Film, da auf einmal kriegsentscheidend ist, wer aus welcher Richtung spricht und wie die Szene räumlich aufgelöst wird.

Sounddesign & Musik

Mittlerweile sind viele Tools in den gängigen DAWs wie ProTools und Nuendo verfügbar, aber eben nicht alle. Schnell stößt man an Grenzen in Form von Bus-Größen oder Lautsprecherkonfigurationen. Daher kann sich aktuell noch der Umweg über Reaper lohnen wo man quasi ohne Einschränkungen arbeitet und im Zweifel eigene Skripte schreiben kann. Apropos Skripte, an die kommt man spätestens dann in Unity so gut wie nicht vorbei, doch dazu später mehr…

Musik wird in den allermeisten Fällen in Stereo produziert. Im immersiven Bereich gibt es dafür eine dezidierte Head-Locked Stereo Spur. Dies ist ein Audio-Track, der sich nicht verändert, egal ob die Blickrichtung vom Hörer geändert wird. Problem daran ist, dass dieser statische Soundtrack gerne gegen den immersiven Soundtrack arbeitet und dessen Lokalisation kaputt macht.

Daher kann es Sinn machen, sich Effekte und Musik in objekt-basierten Formaten anliefern zu lassen. Leider wird oft auf Seiten der Auftraggeber ein klassischer Ansatz mit Musik und Voice-Over gewählt. Damit bleibt für den eigentlich O-Ton so gut wie kein Platz mehr seine Wirkung zu entfalten, da dann drei Tonebenen irgendwie miteinander harmonieren müssten, aber dabei irgendwo zwischen diegetisch und nicht-diegetisch “hängen”.

Folgerichtig denken wir den Ton lieber einfacher und überfrachten den Soundtrack nicht von Anfang an.. Meist kommen eh noch visuelle Elemente hinzu, die die Nutzenden schon genug fordern, da braucht es vielleicht gar nicht noch epische Musik und einen Werbesprecher.

Lineare versus immersive Mischung

Man darf sich nichts vormachen: Es gibt nicht nur keine Format-Standards und einen bunten Strauß an Mikrofon-Möglichkeiten, sondern genauso wenig gibt es Standards zur Messung von Lautheit. Hier haben AudioEase und die FB360 Workstation LUT-Ansätze, die versuchen das Schallfeld-Signal zu messen, zumindest für 360° Videos. Wichtig ist v.a. dass der Mix nicht zu laut ist und es später im Decoder beim Binauralisieren oder dem Verteilen auf Lautsprecher zu Problemen kommt. Klingt einfach gesagt, ist nur in vielen Fällen schwer vorauszuahnen, da man sich absolut nicht auf Pegel verlassen kann.

Außerdem muss man sich von der Illusion verabschieden, dass mit 3D Audio der Ton immer genau so klingt, wie man es sich vorstellt bzw. produziert hat. So nutzen beispielsweise Facebook und YouTube verschiedene HRTF-Modelle für die Binauralisierung, womit ein und dieselbe Mischung auf verschiedenen Plattformen deutlich unterschiedlich klingt. Das betrifft nicht nur das Timbre sondern auch die Lokalisation und Mischverhältnisse mit dem Head-Locked Anteil.

Apropos Head-Locked: Diese bereits erwähnte optionale Stereospur wird meist für Musik genutzt, kann aber ebenso für Voice-Over verwendet werden. Durch die In-Kopf-Lokalisation wird dem Nutzer schnell klar, dass die ihn so ansprechende Person nicht lokalisierbar ist und damit nicht in der Szene zu verorten ist. Trotzdem bleibt es für manche Hörer bisweilen irritierend eine Stimme zu hören, die sie keiner Person innerhalb einer Szene zuordnen können.

Bei klassischem weil linearem Film lässt sich wohl kein/e normale/r Zuschauer*in davon irritieren. In VR gelten aber andere Gesetze, weil man ja selber Teil der Szene ist. Alle Tonschaffenden dürfen also auch hier mal wieder Mischentscheidungen hinterfragen, selbst wenn man sie schon seit einer Ewigkeit beim linearen Bewegtbild so gemacht hat. Kanalbasierte Workflows in Stereo oder Surround werden standardmäßig gelehrt, können aber “nach Lehrbuch” für kugelförmige Audiomischungen nicht übernommen werden.

Eine ganz große Rolle spielen hier auch Hörgewohnheiten. Mittlerweile wird die Überpräsenz im Sound des Ansteckers ja fast der Natürlichkeit einer Angel vorgezogen. Genauso müssen sich Hörer*innen erst einmal an die Externalisierung (Gegenteil von In-Kopf-Lokalisation) gewöhnen, also das Gefühl entwickeln mit Kopfhörern eine Person wirklich von außen zu hören. Dabei klingt vor allem Sprache wesentlich räumlicher, ebenso wie man es aus der Realität kennt, aber eben nicht so, wie man es aus dem Film kennt.

Ganz im Gegenteil ist hier also der Stereo-Ton eigentlich als “falscher Ton” anzusehen, der die Immersion kaputt machen kann, welche man versucht hat mit dem Bild aufzubauen. Es gibt sehr wenige gute Gründe, bei einem Virtual Reality Sound Erlebnis auf statischen Ton zurückzugreifen, schon weil das sehr offensichtlich zeigt, dass hier das Potential des Mediums bei weitem nicht ausgeschöpft wurde.

Alle Soundeditor*innen in der BVFT

Alle Sounddesigner*innen in der BVFT

Interaktive Mischung

Kommen wir nun zu dem Punkt, der das Thema Audio für XR eigentlich so richtig mächtig macht. Das wird dem Fan vom linearen Bewegtbild wohl eher gar nicht schmecken: Interaktivität. Hier finden wir uns schnell in der Welt der 3D-Modelle und Game-Engines wieder.

Die gute Nachricht für alle Filmtonschaffenden: Es gibt ein Berufsbild, das hier sehr nah an den Anforderungen ist: Nämlich Game Audio Designer*in. Das mag zwar mit klassischem Filmton nicht mehr viel gemeinsam haben, aber die Grenzen dazwischen verschwimmen immer mehr. Nur weil man Game Audio gelernt hat, heißt das nicht, dass man Computerspiele vertont. Und nur weil man Filmton gelernt hat, muss das nicht heissen, dass man auch Filme bearbeiten muss. Sound für XR befindet sich irgendwo in dieser Grauzone.

Größter Unterschied zu klassischem Filmton ist, dass anstelle eines längeren Audiofiles, das von Anfang bis Ende konstant durchläuft, nun sogenannte Audio Assets angeliefert werden. Diese werden Asset für Asset in der Game-Engine an die Game-Objekte geheftet. Das können 3D-Modelle im Raum sein, Charaktäre, oder mit bestimmten Ereignissen verknüpfte Sound-Events werden. Im Filmton weiß man genau, wann etwa eine Person durch die Tür geht und wir können mit dem passenden Türsound und Hall vertonen.

Bei interaktiven Anwendungen weiß man aber leider selten, wann genau das Ereignis eintritt. Daher wird das Tür-Sound-Asset etwa mit dem Game-Objekt “Tür” verknüpft. Sobald ein Charakter durch die Tür schreitet wird der hinterlegte Sound abgespielt. Klingt simpel, doch für Glaubwürdigkeit fehlen noch ein paar Schritte – nicht nur die des Charakters, sondern es müssen auch vorab Hallräume für die zwei Räume definiert werden, die nur durch die Tür voneinander getrennt sind. Außerdem will man ja nicht jedes Mal den gleichen Türsound hören und hinterlegt daher meist direkt eine kleine Palette an Tönen. Oder schreibt ein Skript, das den Türsound etwa ja nach Härte des Zuschlagens höher oder tiefer pitcht.

Man merkt gleich dass hier nicht der perfekte Mix wie bei linearen Audioproduktionen gefragt ist, sondern “trial and error”. Da die meisten Game-Engines in ihren Audiofunktionen meist nur recht rudimentär ausgestattet sind, kommen hier Middlewares zum Einsatz. Diese erweitern den Funktionsumfang und ermöglichen eine audiophilere Schnittstelle zum Projekt, ohne am Projekt selbst Veränderungen vornehmen zu müssen. Das freut die Programmierer, die meist noch parallel am gleichen Projekt weiterarbeiten müssen.

Christopher
Nolan

„I like films where the music and the sound design, at times, are almost indistinguishable.“

Historische Entwicklung und heutige Situation

Kunstkopf-Stereofonie ist schon seit den 1970er Jahen ein beliebtes Aufnahmeverfahren für die Wiedergabe auf Kopfhörern. Die Vision dahinter ist das möglichst realistische Abbilden der akustischen Wiedergabeumgebung für die Hörer*innen.

Vereinfacht gesagt, können damit Emotionen, Präsenzgefühle und Wahrnehmungen ausgelöst werden, die tief mit den eigenen Hörerfahrungen verknüpft sind – unmittelbarer als das etwa Mono könnte, weil eine Abstraktionsebene wegfällt und für unser Gehirn das auf diese Weise Gehörte leichter zu verarbeiten ist. Daher trifft es das Stichwort Immersion, also das Eintauchen in eine virtuelle Umgebung, doch recht gut.

Aktuell ist wieder sehr viel Schwung in der Immersions-Thematik, da Ton nun auch als dreidimensionales Ereignis mit Lautsprechern für ein größeres Publikum immer zugänglicher wird.

Zudem ploppen in den verschiedensten Bereichen zusätzliche Technologien wie Headtracker, Datenbrillen und Echtzeitrenderings auf, die uns immer realistischer den Höreindruck vermitteln, wie wir ihn aus unserer natürlichen Umwelt gewohnt sind.

III Berufseinstieg

Bei der Entwicklung einer XR-Geschichte mit räumlichem Sound sollte man sich überlegen, wie man den Ton einsetzen kann um die Geschichte voranzutreiben. Zu Beginn also erst mal den eigenen Ansatz für Ton im Allgemeinen neu überdenken! Es gibt so viele althergebrachte Arbeitsabläufe, die man nur mit Mono- oder Stereoton durchführt, die dann aber bei XR mit Spatial Audio so nicht funktionieren. Denn in XR schaut man wie gesagt nicht nur in eine Richtung, und der Ton kann die Augen lenken.

Es gibt nur eine überschaubare Anzahl an Fortbildungen. Immer mehr Hochschulen erkennen aber den Bedarf und arbeiten bereits an neuen Schwerpunkten mit immersivem Audio und es werden Labore ausgebaut. Die AES und der VDT bieten ähnliche Angebote an Workshops und Webinaren.

Sich einen Überblick darüber zu verschaffen, was es bereits an Inhalten gibt, lohnt sich und ist lehrreich. Welche XR-Erfahrungen andere mit Spatial Audio gemacht haben, die gut funktionieren. Und von dort aus kann man dann vielleicht anfangen eigene Geschichten zu entwickeln oder über eigene Ideen nachzudenken. Denn die Chancen stehen sehr gut, dass man eine Vision hat, die in Bezug auf Sound noch niemand hatte, und sich damit die Einstiegshürde heruntersetzt.

Da die Entwicklungen bei immersivem XR rasant voranschreiten ist es sehr schwierig die Zukunft vorauszusehen. Unbedingt empfehlenswert ist es aber als Tonmensch nicht nur an sein Department zu denken. Das macht die Kommunikation mit anderen Kreativen oder Technikern einfacher und hilft auch den eigenen Horizont in Bezug auf Sound zu erweitern. Eine Ausbildung im Medientechnik-Bereich mit Schwerpunkt auf Ton kann hier also eine gute Grundlage sein. Es nutzt das ganze Spezialwissen über immersives Audio nicht, wenn man anderen Leuten nicht vermitteln kann wieso es für sie wichtig ist.

Viele Tonkolleg*innen überlegen gerade Lautsprecher an die Decke zu bauen und auf Dolby Atmos upzugraden in der Hoffnung, allein dadurch neue Kunden zu gewinnen. Doch in Wahrheit wird das Werbeversprechen oder überhaupt ein “return of invest” wohl kaum eintreten. Wieso sollte ein Kunde auf einmal wesentlich mehr Geld für ein Audioprodukt ausgeben, das in Stereo wohl genau so gut funktioniert hätte? Und wenn jeder auf einmal 3D anbietet, ist ein Angebot auf dem Markt, von dem gar nicht klar ist, ob es durch Projektanfragen im Musik- oder Filmbereich überhaupt gedeckt werden kann.

Genau das ist der Knackpunkt! – Denn die meisten Tonkolleg*innen wollen einfach in ihrem Studio bleiben, weiterhin die Lieblings-DAW nutzen und dann kommen schon irgendwie die Jobs. Aber das funktioniert in der XR und immersiven Audiowelt so nicht. Zu oft steht der Mehraufwand bei der 3D Audio Produktion in keinem Verhältnis zu einem Stereo-Setup. Und auch hier wird natürlich lieber Budget für den visuellen Part als für den Sound ausgegeben. Man hat ja schließlich auch viel mit Datenbrillen zu tun. Daher heißt es den Spieß umdrehen: Aus der Ton-Komfortzone herausgehen und sich selber überlegen, was eine spannende Anwendung in Bezug auf XR sein kann – es lohnt sich.

Daher ist vor allem ein anderes Mindset gefragt, wie es Neudeutsch so schön heißt.

Entwicklung und Berufssituation

Kinobesucher sind bereit sich ein Surround-Sound Erlebnis auch gut was kosten zu lassen. Doch ob Stereo oder Surround, am Ende des Tages ist es ein nettes Feature. Man braucht nicht erwarten, dass man auf einmal mehr Geld verlangen kann, nur weil man jetzt in 3D mischt – für einen Film oder für Musik, die auch in Stereo überwiegend gut funktionieren.

Bedeutet das, dass 3D Audio keinen großen Stellenwert in Zukunft haben wird? Natürlich nicht! Daher möchte ich ein anderes Extrembeispiel nennen, das Unsereine*r gerne belächelt, aber trotzdem hoffen lässt: 8D Audio. Für weitere Details bitte am besten die Suchmaschine seines/ihres Vertrauens fragen! – Aber die Kurzfassung lautet: Jemand kam auf die Idee, einen Song durch einen Spatializer zu jagen und endlos um den Kopf kreisen zu lassen. Klingt absurd und das ist es für unsere geschulten Ohren auch.

Und trotzdem: Hier wurden Millionen von Menschen mit 3D Audio Inhalten erreicht und die Klickzahlen sind im neunstelligen Bereich. Das zeigt, wie gut es sein kann, mal unkonventionell zu denken und Dinge zu tun, gegen die man sich unter Umständen sträubt. Es reicht einfach nicht, sich ein 3D Spatializer-Tool zu kaufen und zu denken, man macht jetzt immersives Audio. Genau daher fehlen aktuell noch etliche Leute in der Branche die wirklich jahrelange Erfahrung aus diesem neuen Berufsfeld vorweisen können.

Man darf dabei nämlich nicht vergessen, für wen und warum wir eigentlich etwas mischen. Wollen wir eine 3D Mischung, die man seinen Kollegen*innen guten Gewissens zeigen kann (hier wäre wohl Dolby Atmos die Wahl)? Oder lieber den Konsumenten erreichen (8D Audio zeigt, dass es geht)? Die Wahrheit liegt wohl irgendwo dazwischen, weshalb es also Zeit wird, das Potential aus beiden Welten zu nutzen und den Mehrwert von 3D Audio zu finden.

Typische Herangehensweise ist es, 3D Audio dort zu verwenden, wo es auch schon mit Surround gut geklappt hat. Dass über tausend Kinofilme bereits immersive in Dolby Atmos gemischt wurden, ist sicher kein Geheimnis mehr. Allein diese Tatsache ist für den Sound schon beachtlich. Während man aktuell ein solchesHörerlebnis fast ausschließlich in Kinos oder befreundeten Studios genießen kann, wird in Zukunft der dreidimensionale Mix über Soundbars auch im heimischen Wohnzimmer vermehrt Einzug finden. Clevere Algorithmen mit virtuellen Lautsprechern machen’s möglich.

Oder noch einfacher: In quasi jedem Haushalt gibt es Kopfhörer, die eine dreidimensionale Audio-Wiedergabe in Form des binauralen Stereos für Konsument*innen zugänglich machen. Man bekommt als Zuhörer immer mehr das Gefühl nicht nur einen Film zu schauen, sondern Teil des Geschehens zu sein. Mischtonmeister*innen können sich außerdem über die bessere Transparenz freuen, da mit der spatialen Aufteilung der verschiedenen Klangebenen im Raum weniger Kompromisse bei Dynamik und Verdeckungseffekten eingegangen werden müssen, als bei Stereomischungen.

IV Zusammenfassung

Bei all dem immersiven Trubel darf man nicht den Blick für das große Thema immersive Film Sound verlieren. Schon jetzt schlagen die nächsten Hype-Themen auf: Künstliche Intelligenz, Blockchain, Voice Assistants, Smartspeaker etc. Was erstmal nach Buzzwords klingt, die fern von unserer Filmton-Welt liegen, handelt es sich eigentlich um ganz heiße Eisen, die man sich als Tonmeister*in mal genau anschauen sollte.

Klingt etwas abstrakt, aber das Wunderbare am Ton ist, dass es sich um eine Querschnittstechnologie handelt, mit der man quasi bei jedem anderen Thema andocken kann – und das geht weit über immersives Audio hinaus. Nun heißt es also, selber Macher*in zu werden, die eigene Komfortzone zu verlassen und in ungeahntes Audio-Terrain vorzustoßen. Denn es liegt in unserer Hand, Zukunftsmusik zu gestalten, und diese hat mehr als nur drei Dimensionen.

Quellen:

https://www.vrtonung.de/blog
https://www.bbntimes.com/science/fully-immersive-spatial-audio-and-why-it-matters-in-vr