Quantile Based Histogram Equalization for Noise Robust Speech Recognition
Total Page:16
File Type:pdf, Size:1020Kb
Quantile Based Histogram Equalization for Noise Robust Speech Recognition Von der Fakult¨at fur¨ Mathematik, Informatik und Naturwissenschaften der Rheinisch-Westf¨alischen Technischen Hochschule Aachen genehmigte Dissertation zur Erlangung des akademischen Grades eines Doktors der Naturwissenschaften von Diplom{Physiker Florian Erich Hilger aus Bonn { Bad Godesberg Berichter: Univ.-Prof. Dr.-Ing. Hermann Ney Hon.-Prof. Dr. phil. nat. Harald H¨oge Tag der mundlic¨ hen Prufung:¨ 6. Dezember 2004 Diese Dissertation ist auf den Internetseiten der Hochschulbibliothek online verfugbar.¨ Acknowledgements I would like to thank my supervisor Prof. Dr.{Ing. Hermann Ney for his constant support, his valuable advice, and giving me the opportunity to realize this work at the Lehrstuhl fur¨ Informatik VI in Aachen. Prof. Dr. phil. nat. Harald H¨oge from Siemens AG Munich kindly took over the role of the second supervisor. I would like to thank him for his interest in this work and his suggestions. The joint work of my colleagues from the speech recognition group provided the neces- sary foundation, on which I could build my research. I would like to express my gratitude for the contributions of Maximilian Bisani, Stephan Kanthak, Klaus Macherey, Wolfgang Macherey, Sirko Molau, Michael Pitz, Ralf Schluter,¨ Achim Sixtus, Tibor Szilassy, Frank Wessel, and Andr´as Zolnay. I also owe a lot to numerous other fellow researchers and project partners, who gave me valuable feedback and advice. Thanks to the people from the image processing and translation group for inspiring discussions about their research fields. The system administration team did a great job in providing a reliable environment for the experimental evaluations. Special thanks to Andrea Semroch for her support and patience. This work was partially funded by the DFG (Deutsche Forschungsgemeinschaft) under the contracts NE 572/4-1 and NE 572/4-3, and the European Commission under the Human Language Technologies project TRANSTYPE2, IST-2001-32091. Abstract This work describes an algorithm to increase the noise robustness of automatic speech recognition systems. In many practical applications recognition systems have to work in adverse acoustic environment conditions. Distortions and noises caused by the transmission are typical for telephone applications. Considerable amounts of varying background noise are a problem for all mobile applications such as cellular phones or speech controlled systems in cars. Automatic systems are much more sensitive to the variabilities of the acoustic signal than humans. Whenever there is a mismatch between the distribution of the training data and the data that is to be recognized, the recognition word error rates will increase. There are three possible ways of dealing with such a mismatch during the recognition process: adapting the recognizer's model parameters to the current noise condition, using a modified likelihood calculation that is invariant to the distortions caused by the noise, and reducing the influence of the noise during feature extraction. Within this work a feature extraction method is investigated. The goal was to develop a computationally inexpensive method that can be applied in real time online systems. It should not require any prior assumptions about the noise conditions that are to be expected or the kind of training data available. And it should be independent from the actual recognition system that will use the features. Quantile based histogram equalization improves the recognition performance in noisy conditions by applying a non{linear parametric transformation function during feature extraction. It reduces an eventual mismatch between the current recognition data and the distribution of the data the system was trained on. Based on the quantiles of the cumulative distributions, the parameters of the transformation function can be reliably estimated from small amounts of data. By the way they are defined quantiles are indepen- dent from the scaling, range, and amount of data. Thus making the method independent from prior assumptions about the training and recognition data. The approach is integrated into a modified Mel cepstrum feature extraction, in which the logarithm is replaced by a root function to increase the noise robustness. The actual transformation that is proposed in this work consists of two steps. First, a power function transformation is applied to each output of the Mel{scaled filter–bank, then neighboring filter are channels combined linearly. These transformation steps can be added to the feature extraction using a moving window implementation that does not require more delay than a conventional mean and variance normalization. To investigate the genericity of the approach and the proposed setup, experimental evaluations have been carried out with different speech recognition systems, on several databases with different levels of complexity, ranging from digit strings (SpeechDat Car) to larger vocabulary isolated word (Car Navigation) and continuous speech recognition tasks (Wall Street Journal with added noise). Consistent recognition results were observed on all databases. The modified feature extraction, with the root instead of the logarithm, already outperformed the original baseline on noisy data. Filter channel specific quantile equalization always improved these results, yielding relative improvements between of 5% and 50%, depending on the recognition task and the mismatch of the data. Finally, the combination of neighboring filter channels was able to reduce the error rates somewhat further, especially if the noise, like car noise, was band limited. Zusammenfassung Diese Arbeit beschreibt einen Algorithmus zur Verbesserung der Ger¨auschrobustheit von automatischen Spracherkennungssystemen. In vielen praktischen Anwendungen mussen¨ Spracherkennungsysteme unter ungunstigen¨ akustischen Umgebungsbedingungen arbeiten. Verzerrungen und Rauschen sind typisch fur¨ Anwendungen im Bereich der Telefonie. Erhebliche, wechselnde Hinter- grundger¨ausche sind ein Problem bei allen mobilen Anwendungen, wie Mobiltelefonen oder sprachgesteuerten Systemen in Fahrzeugen. Automatische Systeme reagieren viel empfindlicher als Menschen auf Variabilit¨aten im akustischen Signal. Sobald sich die Ver- teilung der Trainingsdaten von derjenigen der zu erkennenden Daten unterscheidet, steigen die Wortfehlerraten bei der Erkennung. Es gibt drei prinzipielle M¨oglichkeiten, w¨ahrend der Erkennung mit einem solchen Un- terschied umzugehen: Eine Anpassung der Modellparameter des Erkenners an die aktuel- len Ger¨auschbedingungen, eine modifizierte Wahrscheinlichkeitsberechnung die invariant gegenub¨ er den Ver¨anderungen durch die Ger¨ausche ist und eine Reduktion des Einflus- ses der Ger¨ausche w¨ahrend der Merkmalsextraktion. Im Rahmen dieser Arbeit wird eine Methode im Merkmalsbereich untersucht. Das Ziel war es, eine Methode zu entwickeln, die wenig Rechenaufwand erfordert und in Echtzeitsystemen eingesetzt werden kann. Sie soll keine a-priori Annahmen ub¨ er die zu erwartenden Ger¨auschbedingungen oder das zur Verfugung¨ stehende Trainingsmaterial erfordern. Und sie soll unabh¨angig vom letztlich eingesetzten Spracherkennungsystem sein. Der auf Quantilen basierende Histogram{Ausgleich verbessert die Erkennung durch das Anwenden einer nichtlinearen parametrischen Transformationsfunktion. Sie reduziert einen etwaigen Unterschied zwischen den Verteilungen der Erkennungs{ und Trainingsda- ten. Basierend auf den Quantilen der kumulativen Verteilungen lassen sich die Parameter der Funktion zuverl¨assig auf kleinen Datenmengen sch¨atzen. Per Definition sind die Quan- tile unabh¨angig von der Skalierung, dem Wertebereich und der Datenmenge. Damit ist die Methode unabh¨angig von Annahmen ub¨ er Trainings{ und Testdaten. Das Verfahren wird in eine modifizierte Mel Cepstrum Merkmalsextraktion integriert, bei der anstelle des Logarithmus zur Verbesserung der Ger¨auschrobustheit eine Wurzel- funktion eingesetzt wird. Die eigentliche Transformation, die im Rahmen dieser Arbeit eingesetzt wird, besteht aus zwei Schritten. Zun¨achst wird eine Potenzfunktion auf die Ausg¨ange der Mel{skalierten Filterbank angewandt, danach werden benachbarte Filter- kan¨ale linear kombiniert. Unter Verwendung eines laufenden Fensters k¨onnen diese Trans- formationsschritte so in die Merkmalsextraktion integriert werden, dass dabei nicht mehr Verz¨ogerung als bei einer konventionellen Mittelwerts{ und Varianznormierung erforder- lich ist. Um die Verallgemeinerbarkeit des Verfahrens zu untersuchen, wurden Experimente mit verschiedenen Spracherkennungssystemen auf unterschiedlichen Datens¨atzen durch- gefuhrt:¨ von Ziffernketten (SpeechDat Car) bis hin zu Erkennungsaufgaben mit einem gr¨oßeren Vokabular von Einzelworten (Car Navigation) und kontinuierlicher Sprache (Wall Street Journal mit Ger¨auschen unterlegt). Auf allen Datens¨atzen wurden konsistente Erkennungsergebnisse beobachtet. Die mo- difizierte Merkmalsextraktion, mit der Wurzelfunktion an Stelle des Logarithmus, lieferte auf verrauschten Daten bereits bessere Erkennungsergebnisse als das Original. Die auf Quantilen basierende Transformation individueller Filterkan¨ale konnte diese Ergebnisse immer verbessern, abh¨angig von der Erkennungsaufgabe und dem Missverh¨altnis zwi- schen den Trainings{ und Testdaten lagen die relativen Verbesserungen zwischen 5% und 50%. Schließlich konnte die Kombination benachbarter Filterkan¨ale die Fehlerrate noch etwas weiter reduzieren, insbesondere bei bandbegrenzten Ger¨auschen