9 minute read
Localizzazione sonora e “zoom fatigue”
from Connessioni N. 54
by Pentastudio
Ipotesi di audio immersivo per mondi virtuali
Alessandro Bertoni
Qualche riflessione e ipotesi sulla spazializzazione sonora nell’era della comunciazione a distanza
Scommetto che state leggendo queste righe dopo una delle tante call della vostra giornata. Oppure ve ne aspetta una tra pochi minuti. O, come spesso accade, le state leggendo durante una di queste. Eh sì, perché se fino a poco più di un anno fa, tenere una “conference-call” era un evento che accadeva di tanto in tanto, oggi le videoconferenze sono diventate la nostra quotidianità. L’improvviso sconvolgimento delle nostre vite dovuto all’arrivo di questa pandemia, oltre ad impattare su cosa scegliamo la mattina dal nostro guardaroba ha cambiato radicalmente e improvvisamente, il modo in cui comunichiamo sia nella sfera professionale, e spesso anche in quella privata.
PERCEZIONE E ZOOM FATIGUE
I nostri sistemi percettivi e cognitivi si sono evoluti a braccetto con il nostro essere individui sociali; da sempre privilegiamo, anzi, abbiamo bisogno di comunicare con altri persone in carne ed ossa. Comunicare a distanza è un’azione che diamo per scontata ma, di fatto, è una parentesi all’interno del flusso di comunicazioni che facciamo “di persona”. E del bisogno di incontrarci ne è testimone il modo in cui il nostro mondo contemporaneo si è sviluppato: trasporti, edifici, spazi e servizi per l’ospitalità, per riunirsi, per condividere un evento. È un bisogno in parte culturale, ma anche profondamente umano. In questi mesi le comunicazioni a distanza hanno per lunghi momenti rimpiazzato gli incontri di persona; questa nuova realtà ha messo alla prova il nostro sistema percettivo, non proprio abituato a confrontarsi con il contesto rarefatto delle call. Subito dopo l’inizio dei vari lockdown, molti osservatori hanno cominciato a rilevare e analizzare quella che è stata battezzata la “zoom fatigue”: lo sfinimento che proviamo dopo una giornata passata a parlarci tramite uno dei tanti servizi per le comunicazioni in remoto. Tanto si è detto e scritto su ciò che appartiene alla sfera visiva (lo stress generato dal non poter decifrare il linguaggio non verbale del nostro interlocutore, o del “disallineamento” dello sguardo di chi vediamo sullo schermo rispetto ai nostri occhi). Ma ad indagare come gli aspetti sonori contribuiscano alla “zoom fatigue”, ci si è arrivati solo negli ultimi tempi. Escludendo per un momento alcuni macro-problemi legati a dispositivi malfunzionanti, o a connessioni internet instabili, alcune interessanti riflessioni si concentrano su quale tipo di esperienza sonora offrono le piattaforme di comunicazione più utilizzate. Queste hanno sviluppato e implementato strumenti sempre più evoluti (ne parleremo in un prossimo appuntamento) per eliminare i rumori di fondo, il riverbero dell’ambiente e ogni altro elemento considerato superfluo. Inoltre, gli abituali strumenti di ripresa della voce (i microfoni dei notebook, gli headset, ecc.), limitano la possibilità di modulare il livello e il timbro percepito dagli interlocutori quando questi si spostano, girano la testa, si allontanano, ecc. Se questo è un approccio indiscutibilmente efficiente, l’esperienza complessiva tende ad essere molto artificiosa, nettamente affaticante, soprattutto quando è prolungata nel tempo. Ma c’è un ulteriore elemento, altrettanto influente, di cui siamo ancor meno consapevoli e che diventa
Se ci è chiaro perchè ci distraiamo davanti allo schermo durante una videoconferenza, ci è generalmetne meno chiaro il ruolo dell’assenza di informazioni spaziali dal lato sonoro
It may be clear to us why we are sometimes distracted after being in front of the screen for a videoconference all day, but it may be slightly less clear to us what role the absence of spatial information on the sound side plays determinante quando nelle videoconferenze sono coinvolte più persone: l’assenza di informazioni spaziali sulla localizzazione delle voci (il flusso audio è, normalmente, monofonico).
L’IMPATTO DELLA LOCALIZZAZIONE SONORA
Il mondo accademico, negli ultimi anni, si è interessato all’impatto che una corretta localizzazione della sorgente sonora (il soggetto parlante) ha su alcuni aspetti quali l’intelligibilità, la concentrazione e la ritenzione delle informazioni, trovando delle correlazioni indiscutibilmente molto incoraggianti. Le ricerche e le esperienze fatte all’interno del vasto ambito del cosiddetto “audio immersivo” hanno dimostrato come sia possibile creare uno spazio acustico virtuale che ci dia l’illusione di trovarci, invece, all’interno di un ambiente reale, inclusa la percezione della posizione dei diversi oggetti sonori. Non a caso, è negli ambiti del gaming e della realtà virtuale dove è da tempo che, in particolare per l’ascolto in cuffia, vengono applicate le tecniche dell’ascolto binaurale. Ma le iniziative per offrire al mondo della videoconferenza un’esperienza audio più ricca, integrando anche la dimensione della spazializzazione sonora, sono già in corso, e comincia ad interessarsene anche il grande pubblico. L’edizione statunitense del mensile Forbes ha da poco pubblicato un’intervista al CEO di Dirac, azienda danese che sviluppa tecnologie audio avanzate per diversi settori, dal mobile all’automotive, con un focus sull’uso delle soluzioni audio immersivo volte a migliorare l’esperienza globale nelle comunicazioni a distanza. Il motore audio 3D da loro sviluppato consente di ricreare un ambiente acustico realistico all’interno del quale posizionare “le voci” dei partecipanti alla conversazione: ciascuno di questi, una volta indossata la cuffia, avrà l’impressione di essere all’interno della stessa stanza, e riuscirà a localizzare distintamente la provenienza delle voci di ogni componente del gruppo. L’invito che vi facciamo è di cercare la clip dimostrativa sul canale YouTube di Dirac, dotandovi di una buona cuffia, per provare l’esperienza in diretta. A fianco di aziende come Dirac, anche il mondo della system integration sta iniziando a sperimentare nuove soluzioni per l’audio immersivo applicato alle comunicazioni, integrando tecnologie già esistenti come quelle alla base dell’ascolto binaurale (HRTF – Head Related Transfer Function), utili per la localizzazione delle sorgenti sonore, e altre utilizzate per la ricreazione di ambienti virtuali acusticamente realistici. Ad oggi, infatti, le grandi piattaforme per le comunicazioni a distanza non sembrano ancora aver preso in considerazione l’integrazione nativa della dimensione spaziale tra gli strumenti per la gestione dell’audio; evoluzione che potrebbe offrire un contributo importante per ridurre la “zoom fatigue”, migliorare l’efficacia delle comunicazioni, e regalare agli utenti un’esperienza più ricca e piacevole.
Dirac spatial audio for video chat and conferencing
www.youtube.com/watch?v=6wsMywC9gg4
Could spatialized audio reduce zoom fatigue?
Sound localisation and ‘zoom fatigue’
Hypothesis of immersive audio for virtual worlds
Alessandro Bertoni
Ideas and hypotheses on sound spatialisation in the era of remote communication
I bet you are reading through this after a busy Zoom-filled day. Or maybe you have a call in a minute or so. Or, as is often the case, you are reading this during a call right now. Strangely, up until just over a year ago, holding a “conference call” was something that happened pretty rarely, but today videoconferences are part of our daily routine. The sudden upheaval of our lives due to the arrival of the Covid-19 pandemic, in addition to impacting what we choose to wear in the morning, has radically and suddenly changed the way we communicate both in the professional sphere, and often also in the private one.
PERCEPTION AND ZOOM FATIGUE
Our perceptual and cognitive systems have evolved hand in hand with our being social individuals; we have always favoured the social side of things, indeed, we have a need to communicate with other people in the flesh. Communicating remotely is an action that we take for granted but, in fact, it is a parenthesis within the flow of communications that we do “in person.” The need to meet is witnessed by the way in which our contemporary world has developed: transport, buildings, spaces and services for hospitality, to get together, to experience an event. It is partly a cultural need, but also a profoundly human one. In recent months, long-distance communications have replaced face-to-face meetings; this new reality has tested our perceptive system, which is not really used to dealing with the rarefied context of calls. Immediately after the various lockdowns began, many observers began to detect and analyse what has been called “zoom fatigue”: the exhaustion we feel after a day spent talking through one of the many remote communications services. So much has been said and written about what belongs to the visual sphere (the stress generated by not being able to decipher the non-verbal language of our interlocutor, or the “misalignment” of the gaze of those we see on the screen with respect to our own eyes.) But we have only just started to investigate how the sound aspects contribute to “zoom fatigue.” Excluding for a moment some macro-problems related to malfunctioning devices, or unstable internet connections, there are some interesting reflections that focus on what kind of sound experience the most used communication platforms can offer.
These have developed and implemented increasingly advanced tools (we will talk about them later on) to eliminate background noise, ambient reverberation and any other element considered redundant. Furthermore, the usual voice recording tools (notebook microphones, headsets, etc.) limit the possibility of modulating the level and timbre perceived by the interlocutors when they move, turn their heads, move away, etc. If this is an unquestionably efficient approach, the overall experience tends to be very artificial and clearly tiring, especially over time. But there is another equally influential element of which we are even less aware and which becomes decisive, when several people are involved in video conferences: the absence of spatial information on the localisation of voices (the audio stream is usually monophonic.)
THE IMPACT OF SOUND LOCALISATION
The academic world, in recent years, has been interested in the impact that a correct localisation of the sound source (the speaking subject) has on certain aspects such as intelligibility, concentration and retention of information, finding very encouraging correlations. The research and experiences made within the vast field of the so-called “immersive audio” have shown how it is possible to create a virtual acoustic space that gives us the illusion of finding ourselves, instead, within a real environment, including the perception of the position of the different sound objects. Unsurprisingly, it is in the areas of gaming and virtual reality where binaural listening techniques have been applied for some time, especially for listening with headphones. But initiatives to offer the world of videoconferencing a richer audio experience, also integrating the dimension of sound spatialisation, are already underway, and the general public is beginning to take an interest in them too. The US edition of the Forbes monthly magazine recently published an interview with the CEO of Dirac, a Danish company that developed advanced audio technologies for various sectors, from mobile to automotive, with a focus on the use of immersive audio solutions aimed at improving the global experience in remote communications. The 3D audio engine developed by them allows to recreate a realistic acoustic environment within which to position the “voices” of the participants in the conversation: each of these, once the headset is worn, will have the impression of being inside the room, and will be able to clearly locate the origin of the voices of each member of the group. We invite you to look for the demonstration clip on Dirac’s YouTube channel, equipping yourself with a good headset, to try the experience live. Alongside companies like Dirac, the world of system integration is also starting to experiment with new solutions for immersive audio applied to communications, integrating existing technologies such as those at the base of binaural listening (HRTF - Head Related Transfer Function), useful for the localisation of sound sources, and others used for the recreation of acoustically realistic virtual environments.
To date, in fact, the large remote communications platforms do not yet seem to have taken into consideration the native integration of the spatial dimension between the tools for audio management; evolution that could offer an important contribution to reduce “zoom fatigue”, improve the effectiveness of communications, and give users a richer and more enjoyable experience.