Context Aware Voice User Interfaces for Workflow Support
Total Page:16
File Type:pdf, Size:1020Kb
Context Aware Voice User Interfaces for Workflow Support Vom Fachbereich Informatik der Technischen Universit¨atDarmstadt genehmigte Dissertation zur Erlangung des akademischen Grades Dr.-Ing. vorgelegt von Dipl.-Inf. Univ. Dirk Schnelle geboren in Celle Tag der Einreichung: 28.06.2007 Tag der Disputation: 27.08.2007 Referenten: Prof. Dr. Max M¨uhlh¨auser,Darmstadt PD Dr.-Ing. habil. Elmar N¨oth,Erlangen Darmstadt 2007 D17 i Ehrenw¨ortliche Erkl¨arung 1 Hiermit erkl¨areich, die vorgelegte Arbeit zur Erlangung des akademischen Grades “Dr.-Ing.” mit dem Titel “Context Aware Voice User Interfaces for Workflow Sup- port” selbst¨andigund ausschließlich unter Verwendung der angegebenen Hilfsmittel erstellt zu haben. Ich habe bisher noch keinen Promotionsversuch unternommen. Darmstadt, den 28.06.2007 Dipl.-Inf. Univ. Dirk Schnelle 1Gem¨aß §9 Abs. 1 der Promotionsordnung der TU Darmstadt ii iii Wissenschaftlicher Werdegang des Verfassers2 10/1989–06/1995 Studium der Informatik an der Friedrich-Alexander-Universit¨at Erlangen-N¨urnberg 07/1993–10/1993 Studienarbeit am Lehrstuhl f¨urMustererkennung Friedrich-Alexander-Universit¨atErlangen-N¨urnberg Automatische Erkennung von prosodischen Phrasengrenzen 06/1993–12/1994 Diplomarbeit am Lehrstuhl f¨urMustererkennung Friedrich-Alexander-Universit¨atErlangen-N¨urnberg Grundfrequenzbestimmung mit k¨unstlichen Neuronalen Netzen 04/2003–09/2006 Wissenschaftlicher Mitarbeiter an der Technischen Universit¨at Darmstadt 2Gem¨aß §20 Abs. 3 der Promotionsordnung der TU Darmstadt iv v Abstract Audio is a significant factor in the design of the human computer interface in ubiquitous computing. The characteristics of the medium allow for a hands-free interaction without the need to switch the focus to a display (eyes-free). Moreover, determining the graphical capabilities of the wearable device to adapt the output to the device is not needed. But audio based interfaces are also challenging, since humans are visually oriented. The ubiquitous computing community recognized the advantages of the audio channel, but the restrictions inherent to the medium are mostly ignored. Authors of such systems who know about these challenges often look for a solution by using additional modalities, preferably visually oriented. This thesis analyses these challenges with respect to the humans cognitive capa- bilities and shows a possible solution using audio design patterns. Users on the move face additional challenges, since wearable devices do not have the computational power and storage capacity of desktop PCs which are required to use speech recognizers and speech synthesizers off the shelf. Thus recognition and synthesis software running on such a device does not have the capabilities of their desktop size counterparts. Streaming technologies can use high-end voice technology on a server at the cost of network dependency. This thesis introduces a new approach combining both worlds. In order to aid the user best, context information is used, location at first place. The context information is obtained from the current environment and from the task that she wants to accomplish. workflow engines are a standard for storing and controlling tasks as processes. Additionally, workflow engines consider the data flow which is a fundamental aspect of each process. Initial approaches to using context information in workflow engines exist but they lack a reusable concept. This thesis introduces such a concept. The process descriptions in workflow engines are modality independent in order to have reusable business logic. Modality dependant specifications of the current activity reside outside the workflow engine and are stored in a meta format that can be used to address multiple modalities. The user interfaces are generated by code generators at run-time. Current concepts consider neither a separation of modality independent business logic nor do they regard data flow. If a user is working on multiple processes in parallel, she needs support in returning into the context of an interrupted process. The challenges inherent to audio are not well suited to aid her resuming the task efficiently. In this thesis, we introduce a first concept of an audio-only support for task resumption. vi vii Zusammenfassung Im Ubiquitous-Computing-Umfeld ist Audio eine wesentliche Komponente bei der Gestaltung der Mensch-Maschine-Schnittstelle. Die Eigenschaften des Medi- ums erm¨oglichen eine Interaktion ohne Zuhilfenahme der H¨ande(hands-free) und ohne den Blick von der Hauptt¨atigkeit abzuwenden (eyes-free). Daneben m¨ussen auch die grafischen M¨oglichkeiten der tragbaren Ger¨atenicht ausgelotet werden, um die aktuelle Ausgabe an diese F¨ahigkeiten anzupassen. Da der Mensch je- doch haupts¨achlich visuell ausgerichtet ist, bringt die Gestaltung von audiobasierten Schnittstellen eine Reihe von Herausforderungen mit sich. Dennoch werden die Vorteile des Audiokanals in den meisten Arbeiten im Bere- ich Ubiquitous Computing als solche erkannt. Die damit einher gehenden Ein- schr¨ankungenwerden jedoch h¨aufigg¨anzlich ignoriert. Autoren, die die technis- chen Beschr¨ankungenaudiobasierter Schnittstellen erkennen, suchen oft eine L¨osung durch das Hinzuziehen weiterer Modalit¨aten,vorzugsweise visueller Art. In dieser Arbeit werden die Herausforderungen unter Ber¨ucksichtigung kogni- tiven F¨ahigkeiten von Benutzern rein audiobasierter Anwendungen systematisch analysiert und M¨oglichkeiten zu ihrer Bew¨altigungmit Hilfe von Design Patterns aufgezeigt. F¨urdie mobile Benutzerin ergibt sich zudem die Problematik, dass mobile Ger¨ate nicht ¨uber das Leistungspotenzial, insbesondere in Bezug auf Rechenleistung und Speicherkapazit¨at,wie Desktop PCs verf¨ugen,die die Verwendung von Standardsoft- ware zur Spracherkennung und Sprachsynthese erst erm¨oglicht. Sprachsoftware, die auf den tragbaren Ger¨atenl¨auft,verf¨ugtdeswegen nicht ¨uber die Leistungsf¨ahigkeit der Standardsoftware. Streamingtechnologien hingegen nutzen h¨oherwertige Sprach- software auf dem Server auf Kosten von Netzabh¨angigkeiten. In dieser Arbeit wird ein neuer Ansatz vorgestellt, der beide Welten miteinander verbindet. Um die Benutzerin effizient unterst¨utzenzu k¨onnen,werden Kontextinformatio- nen, insbesondere der Aufenthaltsort der Benutzerin, genutzt. Diese werden zum einen aus der aktuellen Umgebung der Benutzerin gewonnen und zum anderen aus dem Kontext der zu erledigenden Aufgabe. Eine standardisierte Form zur Spe- icherung und zur Ablaufsteuerung dieser Aufgaben ist in Form von Prozessen einer Workflow Engine gegeben. Zudem haben Workflow Engines den Vorteil, dass sie auf einen durchg¨angigenDatenfluss, der immer zu einem Prozess geh¨ort,Wert legen. Er- ste Ans¨atzezur Nutzung von Kontextinformationen in Workflow Engines existieren, es fehlt jedoch ein wiederverwertbares Konzept. In dieser Arbeit wird ein solches Konzept vorgestellt. Die Beschreibung des Prozesses in der Workflow Engine wird Modalit¨atenunabh¨angiggehalten, um so Widerverwendbarkeit zu erreichen. Eine Modalit¨atenabh¨angigeKonkretisierung des aktuellen Prozessschrittes wird außer- halb der Workflow Engine in einem Metaformat gespeichert. Mit Hilfe eines Code- generators wird hieraus die verwendete Benutzungsschnittstelle zur Laufzeit erzeugt. Bisherige Konzepte haben hier weder eine solche Trennung vorgesehen, noch den Datenfluss aktiv unterst¨utzt.Arbeitet eine Benutzerin an mehreren Prozessen gle- ichzeitig, so muss sie bei der Wiederaufnahme eines Prozesses aktiv unterst¨utzt werden, um effizient weiter arbeiten zu k¨onnen,was durch die speziellen Eigen- schaften des auditiven Mediums erschwert wird. In dieser Arbeit wird erstmalig ein Konzept zur aktiven Unterst¨utzungdieser Wiedereinf¨uhrungin den Aufgabenkon- text pr¨asentiert. viii ix Danksagungen Die vorliegende Arbeit entstand w¨ahrendmeiner T¨atigkeit als wissenschaftlicher Mitarbeiter an der Tbsechnischen Universi¨atDarmstadt im Fachgebiet Telekoop- eration. An dieser Stelle m¨ochte ich mich bei allen bedanken, die mich bei der Erstellung dieser Arbeit geholfen haben und ohne deren breite Unterst¨utzungund Hilfe diese Arbeit nicht zustande gekommen w¨are. An erster Stelle m¨ochte ich mich bei Prof. Dr. Max M¨uhlh¨auserf¨urden Mut bedanken, sich auf das Experiment einzulassen, einen Mitarbeiter aus dem indus- triellen Umfeld als wissenschaftlichen Mitarbeiter zu einer Promotion zu f¨uhren. Weiterhin bedanke ich mich f¨urdie Freiheiten, die er mir gew¨ahrthat, meine Ideen zu entwickeln. Herrn PD Dr. habil. Elmar N¨othdanke ich f¨urseine Bereitschaft das Koreferat zu ¨ubernehmen und die Unterst¨utzungim Bereich Spracherkennung. Einen betr¨achtlichen Beitrag zum Gelingen dieser Arbeit und zum angenehmen Verlauf dieser Dissertation haben die vielen freundlichen Mitarbeiterinnen und Mi- tarbeiter des Fachgebietes Telekooperation geleistet, die mir in guter Erinnerung bleiben werden: Besonders gilt dieser Dank Herrn Prof. Dr. Jussi Kangasharju f¨ur konstruktive Gespr¨ache und wertvolle Unterst¨utzungbei Publikationen, Fernando Lyardet bei der Entwicklung von Ideen im Pattern Umfeld und Erwin Aitenbichler f¨urdie Unterst¨utzungbeim Einsatz von MundoCore. Weiterhin m¨ochte ich mich bei Melanie Hartmann, Tao Wei, Marcus St¨ander, Hidir Akhan, Alexander Hannappel und Falko Radke bedanken, die im Rahmen ihrer Diplomarbeiten und Studienarbeiten wesentliche Bausteine f¨urPrototypen realisiert haben oder Benutzerstudien durchgef¨uhrthaben, die Grundlage vieler Ergebnisse dieser Arbeit waren. Meinem Bruder Detlef Schnelle und Br´ıd Phelan sei f¨urdie stilistischen und orthographischen Korrekturvorschl¨agegedankt.