Echo-Aware Signal Processing for Audio Scene Analysis Diego Di Carlo
Total Page:16
File Type:pdf, Size:1020Kb
Echo-aware signal processing for audio scene analysis Diego Di Carlo To cite this version: Diego Di Carlo. Echo-aware signal processing for audio scene analysis: The Call of Echo. Signal and Image processing. UNIVERSITÉ DE RENNES 1; INRIA - IRISA - PANAMA, 2020. English. tel-03133271v2 HAL Id: tel-03133271 https://tel.archives-ouvertes.fr/tel-03133271v2 Submitted on 8 Feb 2021 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. THÈSE DE DOCTORAT DE L’UNIVERSITÉ DE RENNES 1 COMUE UNIVERSITÉ BRETAGNE LOIRE ÉCOLE DOCTORALE N° 601 Mathématiques et Sciences et Technologies de l’Information et de la Communication Spécialité : Signal, Image and Vision Par Diego DI CARLO Echo-aware signal processing for audio scene analysis The Call of Echo Thèse présentée et soutenue à Rennes, le 04 December 2020 Unité de recherche : IRISA / INRIA Rapporteurs avant soutenance : Laurent GIRIN Professeur GIPSA-Lab, Grenoble-INP Simon DOCLO Full professor Carl von Ossietzky Universität, Oldenburg Composition du Jury : Président : Renaud SEGUIER Professeur CentraleSupélec, Cesson-Sévigné Examinateurs : Simon DOCLO Full professor Carl von Ossietzky Universität, Oldenburg Laurent GIRIN Professeur GIPSA-Lab, Grenoble-INP Fabio ANTONACCI Assistant professor Politecnico di Milano Dir. de thèse : Nancy BERTIN Chargée de recherche IRISA, Rennes Co-dir. de thèse : Antoine DELEFORGE Charge de recherche Inria Grand Est, Nancy Imprint Echo-aware signal processing for audio scene analysis Copyright © 2020 by Diego DI CARLO. All rights reserved. Compiled at home, printed in France. Colophon This thesis was typeset using LATEX and the memoir documentclass. It is based 1 on Aaron Turon’s thesis Understanding and expressing scalable concurrency (as 1https://people.mpi-sws.org/~turon/ turon-thesis.pdf re-implemented by Friedrich Wiemer2), itself a mixture of classicthesis3 by André Miede and tufte-latex4, based on Edward Tufte’s Beautiful Evidence. 2https://github.com/pfasante/phd_ thesis 3https://bitbucket.org/amiede/ Graphics and plots are made with PGF/TikZ, Matplotlib, Mathcha and classicthesis/ Excalidraw. Icons are downloaded from the www.flaticon.com/ The bibliog- 4https://github.com/Tufte-LaTeX/ raphy was processed by Biblatex. tufte-latex The body text is set to 10/14pt (long primer) on a 26pc measure. The margin text is set to 8/9pt (brevier) on a 12pc measure. Linux Libertine acts as both the text and display typeface. A nonna Leti, “Lavati le man e va a lavorare!”; a nonna Carla, “Uuuuuurrrrrcaaaaaaa, che brao ció!”; Empress Ropes1, 1en.!it.!lat. 2 like Morpheus, see you create absurd world; 2and sweet mirages. like Atlas, you hold up physical worlds;3 3and walls. like Angeróna, you heal from sadness;4 4 like Diana, you points arrow and directions;5 and separate noises. like Urania, you help didascalic work;6 5the closest ref. to vectors and DoA. 6papers and thesis. Unlike Narciso: reections and echoes won’t fool me, unlike Echo: I answer to you. Deviank, Ikitan, Maishi, Quolcat protect her. — per Giorgia Cantisani Abstract Audio scene analysis aims at retrieving useful information from microphone Keywords: Acoustic echoes, acoustic echo retrieval, recordings. Examples of these problems are sound source separation and sound room impulse response estimation; audio source localization, where we are interested in estimating the content and scene analysis, room acoustics; audio source separation, room geometry estimation, spa- location of multiple sources of sound in an environnement. As humans, we tial ltering, sound source localization; deep perform these tasks without eort. However, for computers and robots, they learning, continuous dictionary. are still open challenges. One of the main limitations is that most available technologies solve audio scene analysis problems either ignoring how sound propagates in the environment or estimating it fully. The central theme of this theses is acoustic echoes: the sound propagation elements bridging semantic and spatial information on sound sources. Indeed, as repetitions of a source signal, their semantic contributions can be aggregated to enhance this signal. Moreover, since they originate from an interaction with the environment, their paths can be backtracked and used to estimate the audio scene’s geometry. Based on these observations, recent echo-aware audio signal processing methods have been proposed. However, two main questions arise: how to estimate acoustic echoes, and how to use their knowledge? This thesis work aims at improving the current state-of-the-art for indoor audio signal processing along these two axes. It also provides new methodologies and data to process acoustic echoes and surpass current approaches’ limits. To this end, in the rst part, we present two approaches: a novel approach based on the continuous dictionary framework which does not rely on parameter tuning or peak picking techniques; a deep learning model estimating the time dierences of arrival of the rst prominent echoes using physically-motivated regularizers. Furthermore, we present a novel, fully annotated dataset specically designed for acoustic echo retrieval and echo-aware applications, paving the way for future echo-aware research. The second part of this thesis focuses on extending existing methods in audio scene analysis to their echo-aware forms. The Multichannel NMF framework for audio source separation, the SRP-PHAT localization method, and the MVDR beamformer for speech enhancement are extended to in their echo-aware versions. These applications show how a simple echo model can lead to a boost in performance. I This thesis highlights the diculty of exploiting acoustic echoes to improve indoor audio processing. As a rst attempt to lay unied analytical and methodological foundations for these problems, it is hoped to serve as a starting point for promising new research in this eld. v Résumé en français L’analyse de scène audio vise à récupérer des informations utiles à partir Mots-clés : Echos acoustiques, récupération des échos d’enregistrements microphoniques. La séparation et la localisation de sources acoustiques, estimation des réponses sonores sont des exemples de ces problèmes, dans lesquels on s’intéresse à impulsionnelles d’une pièce; analyse de scène sonore, acoustique des salles; l’estimation du contenu et des positions de multiples sources de son dans un séparation de sources audio, estimation environnement. En tant qu’humains, nous eectuons ces tâches sans eort. de la géométrie d’une pièce, ltrage spatial, localisation de sources sonores; Cependant, pour les ordinateurs et les robots, ces tâches restent des dés apprentissage profond, dictionnaires à relever. L’une des principales limites est que la plupart des technologies continus. disponibles résolvent les problèmes d’analyse de scènes sonores en tenant compte soit de la sémantique du son, soit des informations spatiales. Le thème central de cette thèse est celui des échos acoustiques : les éléments de la propagation du son faisant le pont entre les informations sémantiques et spatiales des sources sonores. En eet, en tant que répétitions d’un signal source, leurs contributions sémantiques peuvent être aggrégées pour améliorer ce signal. De plus, comme ils sont issus d’une interaction avec l’environnement, leurs cheminements peuvent être retracés et utilisés pour estimer la géométrie de la scène sonore. Sur la base de ces observations, des méthodes récentes en traitement du signal audio tenant compte des échos ont été proposées. Deux questions principales se posent : comment estimer les échos acoustiques et comment exploiter leur connaissance? Ce travail de thèse vise à améliorer l’état de l’art actuel en traitement du signal audio dans des salles selon ces deux axes. Il fournit également de nouvelles méthodologies et données pour traiter les échos acoustiques et dépasser les limites des approches actuelles. À ces ns, nous présentons tout d’abord deux approches : Une nouvelle méthode basée sur le cadre des dictionnaires continus qui ne nécessite pas de réglages de paramètres ni de données d’apprentissage, et un modèle d’apprentissage profond estimant le décalage temporel de l’arrivée des premiers échos à l’aide de régularisateurs physiquement motivés. En outre, nous présentons un nouvel ensemble de données entièrement annotées, spécialement conçu pour l’estimation d’échos acoustiques et les applications prenant en compte les échos, ouvrant la voie à de futures recherches dans ce nouveau domaine. La deuxième partie de cette thèse concerne l’extension de méthodes existantes d’analyse de scènes audio dans leur forme adaptée aux échos. Le cadre de la NMF multicanale pour la séparation de sources audio, la méthode de localisation SRP-PHAT et la technique de formation de voies (beamforming) MVDR pour l’amélioration de la parole étendues à des versions "echo-aware". Ces applications montrent comment un simple modèle d’écho peut conduire à une amélioration des performances. I Cette thèse souligne la diculté d’exploiter les échos acoustiques pour améliorer le traitement audio à dans des salles. Elle constitue une première tentative de jeter des bases analytiques et méthodologiques uniées pour résoudre ces problèmes et nous espérons qu’elle serve de point de départ à des de nouvelles recherches prometteuses dans ce domaine. vii Résumé étendu en Français I Ce résumé présente en français un aperçu des travaux abordés dans cette thèse. Le thème de l’analyse de scènes audio couvre de nombreuses tâches diérentes qui visent à récupérer des informations utiles à partir d’enregistrements microphoniques. Des exemples de ces problèmes sont la séparation et la localisation de sources sonores, où l’on s’intéresse à l’estimation de la parole et de la position d’un orateur.