Multimodal Interaction with Mobile Devices: Fusing a Broad Spectrum of Modality Combinations
Total Page:16
File Type:pdf, Size:1020Kb
Multimodal Interaction with Mobile Devices: Fusing a Broad Spectrum of Modality Combinations Dissertation zur Erlangung des Grades Doktor der Ingenieurwissenschaften (Dr.-Ing.) der Naturwissenschaftlich-Technischen Fakultat¨ I der Universitat¨ des Saarlandes vorgelegt von Rainer Wasinger Saarbrucken¨ 20. November 2006 ii Datum des Kolloquiums: Montag den 20. November 2006 Dekan und Vorsitzender: Prof. Dr. Thorsten Herfet Gutachter: 1. Prof. Dr. Dr. h.c. mult. Wolfgang Wahlster 2. Prof. Dr. Elisabeth Andre´ Akademischer Beisitzer: Dr. Dominik Heckmann Eidesstattliche Erklarung¨ Hiermit erklare¨ ich, dass ich die vorliegende Arbeit ohne unzulassige¨ Hilfe Dritter und ohne Be- nutzung anderer als der angegebenen Hilfsmittel angefertigt habe. Die aus anderen Quellen oder indirekt ubernommenen¨ Daten und Konzepte sind unter Angabe der Quelle gekennzeichnet. Diese Arbeit wurde bisher weder im In- noch im Ausland in gleicher oder ahnlicher¨ Form in anderen Prufungsverfahren¨ vorgelegt. Saarbrucken,¨ den 20. November 2006 iii iv Acknowledgements Most of all, I would like to thank Professor Wahlster for providing the funds, the time, and the environment, for any and all of this to have been possible. I also thank you for permitting me to work on such an interesting topic at the DFKI. I value your advice, which is always relevant, and your ability to see the interesting aspect of practically any research field. I also thank Elisabeth Andre´ for being the second corrector of this work, and the German Federal Ministry for Education and Research (BMBF), which has funded this work under the contract number 01 IN C02 as part of the projects COLLATE and COLLATE II. I would like to dearly thank my wife Emma and my son Xavier for making everything wor- thwhile. The experiences that we have shared together in Europe are unforgettable, and I thank you very much for sticking it out with me till the end. I would particularly like to thank the stunning long-distance support and endless amounts of reading (and rereading) that all of my family has invested into this work. I am greatly appreciative for the valued support and motivational drive that my father, Walter Wasinger, always provides, and for his ability to help me find my way each time I travel into untried waters. I thank my mother for being able to share complement views and for reminding me that some things just aren’t the be all and end all. Appreciation is furthermore extended to Valerie, Glenn, Karina, and Tristan, to Chris and Debbie for sharing Emma with me, and to Heinz, Margit, Magdalena, and Fritz. Special thanks go to all my colleagues at the AI chair. I thank Antonio Kruger¨ for his good mix of work ethics and care free attitudes, and his ability to relentlessly pour interesting discussion into lunchtime. I thank Dominik Heckmann for his humour and for his positive outlook on life, and for also being the Akademischer Beisitzer for this work. I thank our secretary, Doris Borchers, for taking such good care of my family and myself over the course of this dissertation, and for creating and maintaining the family-like structure of this university chair. I thank Boris Brandherm and Ilhan Aslan for contributing to the social requirements of this dissertation, and in particular, for their great company at all the good pubs in Saarbrucken.¨ Additional thanks go to Jorg¨ Baus, Michael Feld, Ralf Jung, Michael Kruppa, Michael Schmitz, Michael Schneider, Tim Schwartz, Lubomira¨ Spassova, Christoph Stahl, Anthony Jameson, and Kerstin Klockner.¨ Thanks are also extended to several former colleagues that I had the pleasure to work with at the chair, namely Thorsten Bohnenberger, Christian Kray, Christian Muller,¨ and Frank Wittig. Also to Christian Kersten, Andreas Maier, Christian Schmitz, and Gerrit Kahl, who all contributed to the MSA/BPN system during their HiWi years, thank you. Rainer Wasinger, September 2006 v vi Kurzzusammenfassung Diese Dissertation prasentiert¨ eine multimodale Architektur zum Gebrauch in mobilen Umstanden¨ wie z. B. Einkaufen und Navigation. Außerdem wird ein großes Gebiet von moglichen¨ modalen Eingabekombinationen zu diesen Umstanden¨ analysiert. Um das in praktischer Weise zu demons- trieren, wurden zwei teilweise gekoppelte Vorfuhrungsprogramme¨ zum ‘stand-alone’ Gebrauch auf mobilen Geraten¨ entworfen. Von spezieller Wichtigkeit war der Entwurf und die Ausfuhrung¨ eines Modalitats-fusion¨ Modul, das die Kombination einer Reihe von Kommunikationsarten wie Sprache, Handschrift und Gesten ermoglicht.¨ Die Ausfuhrung¨ erlaubt die Veranderung¨ von Zu- verlassigkeitswerten¨ innerhalb einzelner Modalitaten¨ und außerdem ermoglicht¨ eine Methode um die semantisch uberlappten¨ Eingaben auszuwerten. Wirklichkeitsnaher Dialog mit aktuellen Ob- jekten und symmetrische Multimodalitat¨ sind zwei weitere Themen die in dieser Arbeit behandelt werden. Die Arbeit schließt mit Resultaten von zwei Feldstudien, die weitere Einsicht erlauben uber¨ die bevorzugte Art verschiedener Modalitatskombinationen,¨ sowie auch uber¨ die Akzeptanz von anthropomorphisierten Objekten. vii viii Short Abstract This dissertation presents a multimodal architecture for use in mobile scenarios such as shopping and navigation. It also analyses a wide range of feasible modality input combinations for these contexts. For this purpose, two interlinked demonstrators were designed for stand-alone use on mobile devices. Of particular importance was the design and implementation of a modality fusion module capable of combining input from a range of communication modes like speech, handwri- ting, and gesture. The implementation is able to account for confidence value biases arising within and between modalities and also provides a method for resolving semantically overlapped input. Tangible interaction with real-world objects and symmetric multimodality are two further themes addressed in this work. The work concludes with the results from two usability field studies that provide insight on user preference and modality intuition for different modality combinations, as well as user acceptance for anthropomorphized objects. ix x Zusammenfassung Diese Dissertation untersucht die Anwendung von multimodalem Dialog zwischen Mensch und Computer im alltaglichen¨ Kontext und insbesondere in solchen Umstanden,¨ bei denen der An- wender mobil ist. Zwei vollkommen ausgefuhrte¨ und verbundene Anwendungsbeispiele mit Na- men BMW Personal Navigator (BPN) und Mobile ShopAssist (MSA) wurden im Rahmen die- ser Arbeit entwickelt um eine solide Basis zu dieser Arbeit zu schaffen. Die speziellen mobi- len Umstande¨ fur¨ diese Arbeit beziehen sich auf Fußgangernavigation¨ und Einkaufen. Die aus- gefuhrten¨ Verstandigungsarten¨ umfassen Sprache, Handschrift und Gesten. Beide Anwendungs- beispiele wurden ‘stand-alone’ und fur¨ mobile Gerate,¨ namlich¨ ‘Personal Digital Assistants’ ent- wickelt. Um das eingebettete Programm zu erweitern, erlaubt es außerdem eine ‘Always Best Connected’ Methodologie, wie Dialogkomponenten, die sich in einer offentlich¨ instrumentierten Umgebung befinden. Z.B. verteilte Erkenner fur¨ Sprache und Gesten konnen¨ zum Zweck der er- weiterten Funktion wie verbesserte Erkennungsgenauigkeit und zur Unterstutzung¨ eines großeren¨ Wortschatzes benutzt werden. Die Dissertation tragt¨ in einer Anzahl von Richtungen zur Grundlagenforschung im Feld der intelligenten Anwenderschnittstellen des mobilen multimodalen Dialoges zwischen Computer und Anwender bei. Ein System zur Einstufung von multimodalen Eingaben wurde entwickelt, um die Synchronie von Eingaben auf Zeit, Semantik und Herkunft zu kategorisieren. Eine solche Klassifikation ist besonders angebracht fur¨ gleichzeitige Eingabesignale die einen gemeinsamen temporalen und/oder semantischen Platz teilen, in welchem Fall die Signale uberlappt¨ genannt werden. Uberlappte¨ Eingaben formen eine wichtige Grundlage fur¨ jegliche Arbeit, die sich mit multimodalem Dialog und Modalitats-fusion¨ befasst. Eine primare¨ Aufgabe ist, zu erstellen wie semantisch uberlappte¨ Konflikte in multimoda- len Eingaben gelost¨ werden konnen.¨ Es ist zu erwarten, dass semantisch uberlappte¨ Eingaben haufig¨ vorkommen konnen¨ in gewissen Anwendungsgebieten wie z. B. in den instrumentierten Umgebungen, wo mehrere gleichartige und verschiedenartige Erkenner leicht angewandt werden konnen¨ um Anwendereingaben gleichzeitig zu erkennen. Die angewandte Fusionstechnik zur Er- kennung von semantisch uberlappten¨ Eingaben haben den Gebrauch von ‘certainty factors’ und Zuverlassigkeitswerten¨ zur Grundlage. Letztere sind in der ‘N-best’ Resultatsliste des jeweiligen Erkenners gespeichert. Zeitgebundene Aspekte sind auch im Lauf des Modalitatsfusionsprozesses¨ mit einbezogen sowie auch der Gebrauch von Salienz um die betroffenen Referenten zu identifi- zieren. Weiters ist zu untersuchen, wie die Zuverlassigkeitswerte¨ einer breiten Serie von Kommuni- kationsarten wie Sprache, Handschrift und Geste umgewichtet werden konnen,¨ sodass die Werte ‘unbiased’ zwischen Modalitaten¨ sind. Das wird mit Hilfe einer statistischen Datenbank der Er- xi xii kennergenauigkeit demonstriert, die wahrend¨ einer Feldstudie an hand von gesammelten Daten erstellt wurde. Methoden, die Erfahrungsdaten des Anwenders zur Erkennergenauigkeit zu erhal- ten, ist ein anderer Gesichtspunkt, den diese Arbeit kurz behandelt. Dieses bahnt den Weg, um maschinelle Lernverfahren der KI einzuschließen um Zuverlassigkeitswerte¨ von gesammelten Da- ten in Laufzeit auszuwerten. Greifbarer Dialog ist eine Kommunikationsform, die sich zur mobilen