Context Aware Voice User Interfaces for Workflow Support

Context Aware Voice User Interfaces for Workflow Support Vom Fachbereich Informatik der Technischen UniversitätDarmstadt genehmigte Dissertation zur Erlangung des akademischen Grades Dr.-Ing. vorgelegt von Dipl.-Inf. Univ. Dirk Schnelle geboren in Celle Tag der Einreichung: 28.06.2007 Tag der Disputation: 27.08.2007 Referenten: Prof. Dr. Max Mühlhäuser,Darmstadt PD Dr.-Ing. habil. Elmar Nöth,Erlangen Darmstadt 2007 D17 i Ehrenwörtliche Erklärung 1 Hiermit erkläreich, die vorgelegte Arbeit zur Erlangung des akademischen Grades “Dr.-Ing.” mit dem Titel “Context Aware Voice User Interfaces for Workflow Sup- port” selbständigund ausschließlich unter Verwendung der angegebenen Hilfsmittel erstellt zu haben. Ich habe bisher noch keinen Promotionsversuch unternommen. Darmstadt, den 28.06.2007 Dipl.-Inf. Univ. Dirk Schnelle 1Gemäß §9 Abs. 1 der Promotionsordnung der TU Darmstadt ii iii Wissenschaftlicher Werdegang des Verfassers2 10/1989–06/1995 Studium der Informatik an der Friedrich-Alexander-Universität Erlangen-Nürnberg 07/1993–10/1993 Studienarbeit am Lehrstuhl fürMustererkennung Friedrich-Alexander-UniversitätErlangen-Nürnberg Automatische Erkennung von prosodischen Phrasengrenzen 06/1993–12/1994 Diplomarbeit am Lehrstuhl fürMustererkennung Friedrich-Alexander-UniversitätErlangen-Nürnberg Grundfrequenzbestimmung mit künstlichen Neuronalen Netzen 04/2003–09/2006 Wissenschaftlicher Mitarbeiter an der Technischen Universität Darmstadt 2Gemäß §20 Abs. 3 der Promotionsordnung der TU Darmstadt iv v Abstract Audio is a significant factor in the design of the human computer interface in ubiquitous computing. The characteristics of the medium allow for a hands-free interaction without the need to switch the focus to a display (eyes-free). Moreover, determining the graphical capabilities of the wearable device to adapt the output to the device is not needed. But audio based interfaces are also challenging, since humans are visually oriented. The ubiquitous computing community recognized the advantages of the audio channel, but the restrictions inherent to the medium are mostly ignored. Authors of such systems who know about these challenges often look for a solution by using additional modalities, preferably visually oriented. This thesis analyses these challenges with respect to the humans cognitive capabilities and shows a possible solution using audio design patterns. Users on the move face additional challenges, since wearable devices do not have the computational power and storage capacity of desktop PCs which are required to use speech recognizers and speech synthesizers off the shelf. Thus recognition and synthesis software running on such a device does not have the capabilities of their desktop size counterparts. Streaming technologies can use high-end voice technology on a server at the cost of network dependency. This thesis introduces a new approach combining both worlds. In order to aid the user best, context information is used, location at first place. The context information is obtained from the current environment and from the task that she wants to accomplish. workflow engines are a standard for storing and controlling tasks as processes. Additionally, workflow engines consider the data flow which is a fundamental aspect of each process. Initial approaches to using context information in workflow engines exist but they lack a reusable concept. This thesis introduces such a concept. The process descriptions in workflow engines are modality independent in order to have reusable business logic. Modality dependant specifications of the current activity reside outside the workflow engine and are stored in a meta format that can be used to address multiple modalities. The user interfaces are generated by code generators at run-time. Current concepts consider neither a separation of modality independent business logic nor do they regard data flow. If a user is working on multiple processes in parallel, she needs support in returning into the context of an interrupted process. The challenges inherent to audio are not well suited to aid her resuming the task efficiently. In this thesis, we introduce a first concept of an audio-only support for task resumption. vi vii Zusammenfassung Im Ubiquitous-Computing-Umfeld ist Audio eine wesentliche Komponente bei der Gestaltung der Mensch-Maschine-Schnittstelle. Die Eigenschaften des Medi- ums ermöglichen eine Interaktion ohne Zuhilfenahme der Hände(hands-free) und ohne den Blick von der Haupttätigkeit abzuwenden (eyes-free). Daneben müssen auch die grafischen Möglichkeiten der tragbaren Gerätenicht ausgelotet werden, um die aktuelle Ausgabe an diese Fähigkeiten anzupassen. Da der Mensch jedoch hauptsächlich visuell ausgerichtet ist, bringt die Gestaltung von audiobasierten Schnittstellen eine Reihe von Herausforderungen mit sich. Dennoch werden die Vorteile des Audiokanals in den meisten Arbeiten im Bere- ich Ubiquitous Computing als solche erkannt. Die damit einher gehenden Ein- schränkungenwerden jedoch häufiggänzlich ignoriert. Autoren, die die technischen Beschränkungenaudiobasierter Schnittstellen erkennen, suchen oft eine Lösung durch das Hinzuziehen weiterer Modalitäten,vorzugsweise visueller Art. In dieser Arbeit werden die Herausforderungen unter Berücksichtigung kogni- tiven Fähigkeiten von Benutzern rein audiobasierter Anwendungen systematisch analysiert und Möglichkeiten zu ihrer Bewältigungmit Hilfe von Design Patterns aufgezeigt. Fürdie mobile Benutzerin ergibt sich zudem die Problematik, dass mobile Geräte nicht über das Leistungspotenzial, insbesondere in Bezug auf Rechenleistung und Speicherkapazität,wie Desktop PCs verfügen,die die Verwendung von Standardsoft- ware zur Spracherkennung und Sprachsynthese erst ermöglicht. Sprachsoftware, die auf den tragbaren Gerätenläuft,verfügtdeswegen nicht über die Leistungsfähigkeit der Standardsoftware. Streamingtechnologien hingegen nutzen höherwertige Sprach- software auf dem Server auf Kosten von Netzabhängigkeiten. In dieser Arbeit wird ein neuer Ansatz vorgestellt, der beide Welten miteinander verbindet. Um die Benutzerin effizient unterstützenzu können,werden Kontextinformatio- nen, insbesondere der Aufenthaltsort der Benutzerin, genutzt. Diese werden zum einen aus der aktuellen Umgebung der Benutzerin gewonnen und zum anderen aus dem Kontext der zu erledigenden Aufgabe. Eine standardisierte Form zur Spe- icherung und zur Ablaufsteuerung dieser Aufgaben ist in Form von Prozessen einer Workflow Engine gegeben. Zudem haben Workflow Engines den Vorteil, dass sie auf einen durchgängigenDatenfluss, der immer zu einem Prozess gehört,Wert legen. Er- ste Ansätzezur Nutzung von Kontextinformationen in Workflow Engines existieren, es fehlt jedoch ein wiederverwertbares Konzept. In dieser Arbeit wird ein solches Konzept vorgestellt. Die Beschreibung des Prozesses in der Workflow Engine wird Modalitätenunabhängiggehalten, um so Widerverwendbarkeit zu erreichen. Eine ModalitätenabhängigeKonkretisierung des aktuellen Prozessschrittes wird außer- halb der Workflow Engine in einem Metaformat gespeichert. Mit Hilfe eines Code- generators wird hieraus die verwendete Benutzungsschnittstelle zur Laufzeit erzeugt. Bisherige Konzepte haben hier weder eine solche Trennung vorgesehen, noch den Datenfluss aktiv unterstützt.Arbeitet eine Benutzerin an mehreren Prozessen gle- ichzeitig, so muss sie bei der Wiederaufnahme eines Prozesses aktiv unterstützt werden, um effizient weiter arbeiten zu können,was durch die speziellen Eigen- schaften des auditiven Mediums erschwert wird. In dieser Arbeit wird erstmalig ein Konzept zur aktiven Unterstützungdieser Wiedereinführungin den Aufgabenkon- text präsentiert. viii ix Danksagungen Die vorliegende Arbeit entstand währendmeiner Tätigkeit als wissenschaftlicher Mitarbeiter an der Tbsechnischen UniversiätDarmstadt im Fachgebiet Telekoop- eration. An dieser Stelle möchte ich mich bei allen bedanken, die mich bei der Erstellung dieser Arbeit geholfen haben und ohne deren breite Unterstützungund Hilfe diese Arbeit nicht zustande gekommen wäre. An erster Stelle möchte ich mich bei Prof. Dr. Max Mühlhäuserfürden Mut bedanken, sich auf das Experiment einzulassen, einen Mitarbeiter aus dem indus- triellen Umfeld als wissenschaftlichen Mitarbeiter zu einer Promotion zu führen. Weiterhin bedanke ich mich fürdie Freiheiten, die er mir gewährthat, meine Ideen zu entwickeln. Herrn PD Dr. habil. Elmar Nöthdanke ich fürseine Bereitschaft das Koreferat zu übernehmen und die Unterstützungim Bereich Spracherkennung. Einen beträchtlichen Beitrag zum Gelingen dieser Arbeit und zum angenehmen Verlauf dieser Dissertation haben die vielen freundlichen Mitarbeiterinnen und Mi- tarbeiter des Fachgebietes Telekooperation geleistet, die mir in guter Erinnerung bleiben werden: Besonders gilt dieser Dank Herrn Prof. Dr. Jussi Kangasharju für konstruktive Gespräche und wertvolle Unterstützungbei Publikationen, Fernando Lyardet bei der Entwicklung von Ideen im Pattern Umfeld und Erwin Aitenbichler fürdie Unterstützungbeim Einsatz von MundoCore. Weiterhin möchte ich mich bei Melanie Hartmann, Tao Wei, Marcus Ständer, Hidir Akhan, Alexander Hannappel und Falko Radke bedanken, die im Rahmen ihrer Diplomarbeiten und Studienarbeiten wesentliche Bausteine fürPrototypen realisiert haben oder Benutzerstudien durchgeführthaben, die Grundlage vieler Ergebnisse dieser Arbeit waren. Meinem Bruder Detlef Schnelle und Br´ıd Phelan sei fürdie stilistischen und orthographischen Korrekturvorschlägegedankt.

Context Aware Voice User Interfaces for Workflow Support

Voice Interfaces

Compound Word Formation.Pdf

NLP-5X Product Brief

Hunspell – the Free Spelling Checker

Building a Treebank for French

A Guide to Chatbot Terminology

Voice User Interface on the Web Human Computer Interaction Fulvio Corno, Luigi De Russis Academic Year 2019/2020 How to Create a VUI on the Web?

Eindversie-Paper-Rianne-Nieland-2057069

Voice Assistants and Smart Speakers in Everyday Life and in Education

Integrating a Voice User Interface Into a Virtual Therapy Platform Yun Liu Lu Wang William R

Master Thesis

Compounds and Word Trees