Signal Processing in Space and Time - a Multidimensional Fourier Approach
Total Page:16
File Type:pdf, Size:1020Kb
Signal Processing in Space and Time - A Multidimensional Fourier Approach THÈSE NO 4871 (2010) PRÉSENTÉE LE 3 DÉCEMBRE 2010 À LA FACULTÉ INFORMATIQUE ET COMMUNICATIONS LABORATOIRE DE COMMUNICATIONS AUDIOVISUELLES 1 PROGRAMME DOCTORAL EN INFORMATIQUE, COMMUNICATIONS ET INFORMATION ÉCOLE POLYTECHNIQUE FÉDÉRALE DE LAUSANNE POUR L'OBTENTION DU GRADE DE DOCTEUR ÈS SCIENCES PAR Francisco PEREIRA CORREIA PINTO acceptée sur proposition du jury: Prof. E. Telatar, président du jury Prof. M. Vetterli, directeur de thèse Prof. D. L. Jones, rapporteur Prof. J. M. F. Moura, rapporteur Prof. M. Unser, rapporteur Suisse 2010 Abstract Sound waves propagate through space and time by transference of energy between the parti- cles in the medium, which vibrate according to the oscillation patterns of the waves. These vibrations can be captured by a microphone and translated into a digital signal, represent- ing the amplitude of the sound pressure as a function of time. The signal obtained by the microphone characterizes the time-domain behavior of the acoustic wave field, but has no information related to the spatial domain. The spatial information can be obtained by mea- suring the vibrations with an array of microphones distributed at multiple locations in space. This allows the amplitude of the sound pressure to be represented not only as a function of time but also as a function of space. The use of microphone arrays creates a new class of signals that is somewhat unfamiliar to Fourier analysis. Current paradigms try to circumvent the problem by treating the micro- phone signals as multiple “cooperating” signals, and applying the Fourier analysis to each signal individually. Conceptually, however, this is not faithful to the mathematics of the wave equation, which expresses the acoustic wave field as a single function of space and time, and not as multiple functions of time. The goal of this thesis is to provide a formulation of Fourier theory that treats the wave field as a single function of space and time, and allows it to be processed as a multidimen- sional signal using the theory of digital signal processing (DSP). We base this on a physical principle known as the Huygens principle, which essentially says that the wave field can be sampled at the surface of a given region in space and subsequently reconstructed in the same region, using only the samples obtained at the surface. To translate this into DSP language, we show that the Huygens principle can be expressed as a linear system that is both space- and time-invariant, and can be formulated as a convolution operation. If the input signal is trans- formed into the spatio-temporal Fourier domain, the system can also be analyzed according to its frequency response. In the first half of the thesis, we derive theoretical results that express the 4-D Fourier transform of the wave field as a function of the parameters of the scene, such as the number of sources and their locations, the source signals, and the geometry of the microphone array. We also show that the wave field can be effectively analyzed on a small scale using what we call the space/time–frequency representation space, consisting of a Gabor representation across the spatio-temporal manifold defined by the microphone array. These results are obtained by treating the signals as continuous functions of space and time. The second half of the thesis is dedicated to processing the wave field in discrete space and time, using Nyquist sampling theory and multidimensional filter banks theory. In par- ticular, we show examples of orthogonal filter banks that effectively represent the wave field in terms of its elementary components while satisfying the requirements of critical sampling 1 2 and perfect reconstruction of the input. We discuss the architecture of such filter banks, and demonstrate their applicability in the context of real applications, such as spatial filtering and wave field coding. Keywords: Acoustic wave fields, array signal processing, multidimensional Fourier analysis, space/time–frequency analysis, multidimensional filter banks, directional filter banks, spatial filtering, wave field coding. Résumé Les ondes sonores se propagent sur l’espace et le temps à travers de transfert d’énergie entre les particules du milieu, qui vibrent selon les caractéristiques des ondes. Ces vibra- tions peuvent être captées par un microphone et traduites dans un signal numérique, ce qui représente l’amplitude de la pression acoustique en fonction du temps. Le signal obtenu par le microphone décrit la variation temporelle du champ d’ondes acoustiques, mais il n’a pas d’informations liées au domaine spatial. L’information spatiale peut être obtenue en mesurant les vibrations avec un réseau de microphones distribués par divers endroits dans l’espace. Cela permet à l’amplitude de la pression acoustique de se faire représenter non seulement en fonction du temps mais aussi en fonction de l’espace. L’utilisation des réseaux de microphones crée une nouvelle classe de signaux qui sont peu familiers à l’analyse de Fourier. Les paradigmes actuels essayent de contourner le prob- lème en interprétant les signaux des microphones ainsi que les signaux “coopérants”, et en appliquant l’analyse de Fourier à chaque signal individuel. Théoriquement, toutefois, ce n’est pas fidèle aux mathématiques de l’équation des ondes, qui exprime le champ d’ondes acous- tiques en utilisant une fonction unique de l’espace et du temps, et pas comme des multiples fonctions du temps. L’objectif de cette thèse est présenter une formulation de la théorie de Fourier qui manip- ule le champ d’ondes en utilisant une fonction unique de l’espace et du temps, et lui permet d’être manipulé comme un signal multidimensionnel à l’aide de la théorie du traitement des signaux numériques (TSN). Nous nous basons sur un principe physique appelé le principe de Huygens, qui dit essentiellement que le champ d’ondes peut être mesuré à la surface d’une région dans l’espace, et puis reconstruit dans la même région, en utilisant seulement des mesurages obtenus à la surface. Pour traduire en langage TSN, nous montrons que le principe de Huygens peut être exprimé dans un système linéaire qui est invariant dans l’espace et dans le temps, et peut être formulé comme une opération de convolution. Si le signal est trans- formé dans le domaine spatio-temporel de Fourier, le système peut également être analysé en fonction de sa réponse en fréquence. Dans la première moitié de la thèse, nous obtenons des résultats théoriques qui expri- ment la transformée de Fourier 4-D du champ d’ondes en fonction des paramètres de la scène, tels que le nombre de sources et de leur emplacement, les signaux des sources, et le géométrie du réseau de microphones. Nous montrons aussi que le champ d’ondes peut être analysé efficacement sur une petite échelle en utilisant ce que nous appelons la représentation espace/temps-fréquence, composé d’une représentation de Gabor au cours de la “manifold” spatio-temporelle définie par le réseau de microphones. Ces résultats sont obtenus en inter- prétant les signaux comme des fonctions continues de l’espace et du temps. La seconde moitié de la thèse est consacrée au traitement du champ d’ondes dans l’espace 3 4 et dans le temps discrets, en utilisant la théorie de mesurage de Nyquist et la théorie des bancs de filtres multidimensionnels. En particulier, nous montrons des exemples de bancs de filtres orthogonaux qui représentent effectivement le champ d’ondes en fonction de ses composants élémentaires, tout en satisfaisant aux exigences de mesurage critique et reconstruction par- faite de l’entrée. Nous discutons l’architecture de ces bancs de filtres, et nous démontrons leur applicabilité dans le contexte d’applications réelles, telles que le filtrage spatial et la codification du champ d’ondes. Mots-clés: Champs d’ondes acoustiques, traitement des signaux réseaux, analyse de Fourier multidimensionnelle, analyse espace/temps–fréquence, bancs de filtres multidimensionnels, bancs de filtres directionnels, filtrage spatial, codification du champ d’ondes. Acknowledgements This thesis is the crown-jewel of a 4-year collaboration with the Audiovisual Communica- tions Laboratory under the supervision of Prof. Martin Vetterli. It has been a real honor to work all these years in such a vibrant and prolific research environment, surrounded by so many brilliant minds and inspiring personalities. Needless to say, none of this would be possible without Martin’s first-class supervision. He has influenced my way of thinking in countless ways, and greatly contributed to my personal growth. He is a visionary, a motivator, and has a contagious sense of humor. An outstanding human being on all possible levels. A special thanks to Christof Faller, who taught me everything relevant about audio coding, trained me in the art of being pragmatic about research, and who is simply an great friend. It was a fun experience to teach alongside with Andrea Ridolfi, who has always stunned me with his ability to climb up mountains all over the weekend and still passionately teach math on Monday morning to a crowd of sleepy students. I hope we keep doing our “bacalhau” dinners at the Portuguese restaurant in the future! Many thanks to Profs. Emre Telatar, Michael Unser, José Moura, and Doug Jones for kindly accepting to be part of my thesis committee, Prof. Moe Win for introducing me to Martin and for all the great advise on Ph.D. programs, and Luciano Sbaiz for his help with... well, random stuff! And of course, many thanks to Jocelyne and Jacqueline for their dedication to the lab and its people. A very special thanks to all my friends in Portugal, Switzerland, and other corners in the world. My “wewofos” family Eva, Joana, and Ana, for 10 years of memorable moments and unshakable friendship.