Quantile Based Histogram Equalization for Noise Robust Speech Recognition

Quantile Based Histogram Equalization for Noise Robust Speech Recognition Von der Fakultät fur¨ Mathematik, Informatik und Naturwissenschaften der Rheinisch-Westfälischen Technischen Hochschule Aachen genehmigte Dissertation zur Erlangung des akademischen Grades eines Doktors der Naturwissenschaften von Diplom{Physiker Florian Erich Hilger aus Bonn { Bad Godesberg Berichter: Univ.-Prof. Dr.-Ing. Hermann Ney Hon.-Prof. Dr. phil. nat. Harald Höge Tag der mundlic¨ hen Prufung:¨ 6. Dezember 2004 Diese Dissertation ist auf den Internetseiten der Hochschulbibliothek online verfugbar.¨ Acknowledgements I would like to thank my supervisor Prof. Dr.{Ing. Hermann Ney for his constant support, his valuable advice, and giving me the opportunity to realize this work at the Lehrstuhl fur¨ Informatik VI in Aachen. Prof. Dr. phil. nat. Harald Höge from Siemens AG Munich kindly took over the role of the second supervisor. I would like to thank him for his interest in this work and his suggestions. The joint work of my colleagues from the speech recognition group provided the neces- sary foundation, on which I could build my research. I would like to express my gratitude for the contributions of Maximilian Bisani, Stephan Kanthak, Klaus Macherey, Wolfgang Macherey, Sirko Molau, Michael Pitz, Ralf Schluter,¨ Achim Sixtus, Tibor Szilassy, Frank Wessel, and András Zolnay. I also owe a lot to numerous other fellow researchers and project partners, who gave me valuable feedback and advice. Thanks to the people from the image processing and translation group for inspiring discussions about their research fields. The system administration team did a great job in providing a reliable environment for the experimental evaluations. Special thanks to Andrea Semroch for her support and patience. This work was partially funded by the DFG (Deutsche Forschungsgemeinschaft) under the contracts NE 572/4-1 and NE 572/4-3, and the European Commission under the Human Language Technologies project TRANSTYPE2, IST-2001-32091. Abstract This work describes an algorithm to increase the noise robustness of automatic speech recognition systems. In many practical applications recognition systems have to work in adverse acoustic environment conditions. Distortions and noises caused by the transmission are typical for telephone applications. Considerable amounts of varying background noise are a problem for all mobile applications such as cellular phones or speech controlled systems in cars. Automatic systems are much more sensitive to the variabilities of the acoustic signal than humans. Whenever there is a mismatch between the distribution of the training data and the data that is to be recognized, the recognition word error rates will increase. There are three possible ways of dealing with such a mismatch during the recognition process: adapting the recognizer's model parameters to the current noise condition, using a modified likelihood calculation that is invariant to the distortions caused by the noise, and reducing the influence of the noise during feature extraction. Within this work a feature extraction method is investigated. The goal was to develop a computationally inexpensive method that can be applied in real time online systems. It should not require any prior assumptions about the noise conditions that are to be expected or the kind of training data available. And it should be independent from the actual recognition system that will use the features. Quantile based histogram equalization improves the recognition performance in noisy conditions by applying a non{linear parametric transformation function during feature extraction. It reduces an eventual mismatch between the current recognition data and the distribution of the data the system was trained on. Based on the quantiles of the cumulative distributions, the parameters of the transformation function can be reliably estimated from small amounts of data. By the way they are defined quantiles are independent from the scaling, range, and amount of data. Thus making the method independent from prior assumptions about the training and recognition data. The approach is integrated into a modified Mel cepstrum feature extraction, in which the logarithm is replaced by a root function to increase the noise robustness. The actual transformation that is proposed in this work consists of two steps. First, a power function transformation is applied to each output of the Mel{scaled filter–bank, then neighboring filter are channels combined linearly. These transformation steps can be added to the feature extraction using a moving window implementation that does not require more delay than a conventional mean and variance normalization. To investigate the genericity of the approach and the proposed setup, experimental evaluations have been carried out with different speech recognition systems, on several databases with different levels of complexity, ranging from digit strings (SpeechDat Car) to larger vocabulary isolated word (Car Navigation) and continuous speech recognition tasks (Wall Street Journal with added noise). Consistent recognition results were observed on all databases. The modified feature extraction, with the root instead of the logarithm, already outperformed the original baseline on noisy data. Filter channel specific quantile equalization always improved these results, yielding relative improvements between of 5% and 50%, depending on the recognition task and the mismatch of the data. Finally, the combination of neighboring filter channels was able to reduce the error rates somewhat further, especially if the noise, like car noise, was band limited. Zusammenfassung Diese Arbeit beschreibt einen Algorithmus zur Verbesserung der Geräuschrobustheit von automatischen Spracherkennungssystemen. In vielen praktischen Anwendungen mussen¨ Spracherkennungsysteme unter ungunstigen¨ akustischen Umgebungsbedingungen arbeiten. Verzerrungen und Rauschen sind typisch fur¨ Anwendungen im Bereich der Telefonie. Erhebliche, wechselnde Hinter- grundgeräusche sind ein Problem bei allen mobilen Anwendungen, wie Mobiltelefonen oder sprachgesteuerten Systemen in Fahrzeugen. Automatische Systeme reagieren viel empfindlicher als Menschen auf Variabilitäten im akustischen Signal. Sobald sich die Ver- teilung der Trainingsdaten von derjenigen der zu erkennenden Daten unterscheidet, steigen die Wortfehlerraten bei der Erkennung. Es gibt drei prinzipielle Möglichkeiten, während der Erkennung mit einem solchen Un- terschied umzugehen: Eine Anpassung der Modellparameter des Erkenners an die aktuel- len Geräuschbedingungen, eine modifizierte Wahrscheinlichkeitsberechnung die invariant gegenub¨ er den Veränderungen durch die Geräusche ist und eine Reduktion des Einflus- ses der Geräusche während der Merkmalsextraktion. Im Rahmen dieser Arbeit wird eine Methode im Merkmalsbereich untersucht. Das Ziel war es, eine Methode zu entwickeln, die wenig Rechenaufwand erfordert und in Echtzeitsystemen eingesetzt werden kann. Sie soll keine a-priori Annahmen ub¨ er die zu erwartenden Geräuschbedingungen oder das zur Verfugung¨ stehende Trainingsmaterial erfordern. Und sie soll unabhängig vom letztlich eingesetzten Spracherkennungsystem sein. Der auf Quantilen basierende Histogram{Ausgleich verbessert die Erkennung durch das Anwenden einer nichtlinearen parametrischen Transformationsfunktion. Sie reduziert einen etwaigen Unterschied zwischen den Verteilungen der Erkennungs{ und Trainingsda- ten. Basierend auf den Quantilen der kumulativen Verteilungen lassen sich die Parameter der Funktion zuverlässig auf kleinen Datenmengen schätzen. Per Definition sind die Quan- tile unabhängig von der Skalierung, dem Wertebereich und der Datenmenge. Damit ist die Methode unabhängig von Annahmen ub¨ er Trainings{ und Testdaten. Das Verfahren wird in eine modifizierte Mel Cepstrum Merkmalsextraktion integriert, bei der anstelle des Logarithmus zur Verbesserung der Geräuschrobustheit eine Wurzel- funktion eingesetzt wird. Die eigentliche Transformation, die im Rahmen dieser Arbeit eingesetzt wird, besteht aus zwei Schritten. Zunächst wird eine Potenzfunktion auf die Ausgänge der Mel{skalierten Filterbank angewandt, danach werden benachbarte Filter- kanäle linear kombiniert. Unter Verwendung eines laufenden Fensters können diese Trans- formationsschritte so in die Merkmalsextraktion integriert werden, dass dabei nicht mehr Verzögerung als bei einer konventionellen Mittelwerts{ und Varianznormierung erforder- lich ist. Um die Verallgemeinerbarkeit des Verfahrens zu untersuchen, wurden Experimente mit verschiedenen Spracherkennungssystemen auf unterschiedlichen Datensätzen durch- gefuhrt:¨ von Ziffernketten (SpeechDat Car) bis hin zu Erkennungsaufgaben mit einem größeren Vokabular von Einzelworten (Car Navigation) und kontinuierlicher Sprache (Wall Street Journal mit Geräuschen unterlegt). Auf allen Datensätzen wurden konsistente Erkennungsergebnisse beobachtet. Die modifizierte Merkmalsextraktion, mit der Wurzelfunktion an Stelle des Logarithmus, lieferte auf verrauschten Daten bereits bessere Erkennungsergebnisse als das Original. Die auf Quantilen basierende Transformation individueller Filterkanäle konnte diese Ergebnisse immer verbessern, abhängig von der Erkennungsaufgabe und dem Missverhältnis zwischen den Trainings{ und Testdaten lagen die relativen Verbesserungen zwischen 5% und 50%. Schließlich konnte die Kombination benachbarter Filterkanäle die Fehlerrate noch etwas weiter reduzieren, insbesondere bei bandbegrenzten Geräuschen

Load more