<<

ANWENDUNGSÜBERGREIFENDEDIALOGEDURCH WISSENSBASENUNDTASKMODELLE

SVENREICHEL aus Backnang

DISSERTATION

zur Erlangung des Doktorgrades Dr.rer.nat. der Fakultät für Ingenieurwissenschaften, Informatik und Psychologie der Universität Ulm

Institut für Medieninformatik 2017 AMTIERENDERDEKAN

Prof. Dr.rer.nat. Frank Kargl Universität Ulm

GUTACHTER

Prof. Dr.-Ing. Michael Weber Universität Ulm Prof. Dr. Dr.-Ing. Wolfgang Minker Universität Ulm

TAGDERPROMOTION

20.09.2017

Sven Reichel Anwendungsübergreifende Dialoge durch Wissensbasen und Taskmodelle Dissertation

2017. Some rights reserved.

This work is licensed under the Ulm University OPARU Standard License (vts.20120112). To view a copy of the license, see https:// oparu.uni-ulm.de/xmlui/license_v3 [Online 16.10.2017].

Dieses Dokument wurde in LATEXgesetzt, basierend auf der classicthe- sis Vorlage von André Miede (http://www.miede.de/). ZUSAMMENFASSUNG

Elektronische Geräte sind zunehmend allgegenwärtig und beinhal- ten diverse Funktionen mit verschiedenen Anwendungen. Benutzern sind diese Funktionen oftmals so wichtig, dass sie diese selbst durch- führen, wenn sie von anderen Aufgaben, wie dem Führen eines Fahr- zeugs, abgelenkt werden. Eine Sprachbedienung kann die Ablenkung signifikant reduzieren. Jedoch stellt sich die Frage, wie Nutzer im Fahrzeug anwendungsübergreifende Aufgaben mit einem Sprachdia- logsystem ausführen. Speziell der Anwendungswechsel birgt im nut- zer-geführten Dialog die Gefahr von sprachlichen Äußerungen, die durch die Systemfunktionalität nicht abgedeckt sind. Um Nutzer den- noch zum Aufgabenerfolg zu führen, müssen Dialogsysteme Fehler- behandlungsstrategien umsetzen. Der Einsatz solcher Strategien in anwendungsübergreifenden Dialogen und deren Nutzung im Fahr- zeug, wurde jedoch bisher wenig untersucht. Daher werden in dieser Arbeit Fahrer im Fahrsimulator mit anwendungsübergreifenden Auf- gaben konfrontiert. Die Analyse zeigte kein Bewusstsein für eine An- wendungstrennung und ein subjektives Ablenkungspotential durch nicht-erfolgreiche Anwendungswechsel. Iterativ wurden multimoda- le Hilfestrategien entwickelt, um die Ablenkung zu minimieren und Gebrauchstauglichkeit sowie Aufgabenerfolg zu maximieren. Zwei Nutzerstudien zeigten, dass bei nicht-eindeutigen Anwendungswech- seln Nutzer die Möglichkeit haben sollten, die gesuchte Anwendung sprachlich, aus möglichst wenigen Alternativen, auszuwählen. Auf Basis der Studienergebnisse ließ sich die Anforderung, eine konsis- tente Interaktion über Anwendungen hinweg mit Parameterübergabe sowie Vorhersage der nächsten möglichen Anwendungen, definieren. Daraufhin wurde untersucht, wie ein Dialogsystem mit mehreren dynamisch verfügbaren Anwendungen umzusetzen ist. Für Software- und grafische Bedienschnittstellenentwicklung zeigen modellgetrie- bene Prozesse Erfolg, die jedoch bisher für die Modalität Sprache nur sekundär betrachtet wurden. In dieser Arbeit wurde daher ein Konzept auf Basis von Taskmodellen (ConcurTaskTrees) und einer le- xikalisch-semantischen Wissensbasis entwickelt (Princeton WordNet). Die Taskmodelle definieren hierbei das Interaktionsschema und die Wissensbasis die Bedeutung von Parametern für Tasks, wodurch an- wendungsübergreifende Dialoge möglich werden. Eine Implementie- rung und Evaluation anhand des Korpus der Dialog State Tracking Challenge, zeigte die Machbarkeit sowie Vorteile bezüglich der Inter- pretation eindeutig bestimmbarer Objekte und Nachteile hinsichtlich mehrdeutiger Eingaben, wie zum Beispiel Zahlenwerte.

iii ABSTRACT

Consumer electronics devices are more and more ubiquitous and provide multiple functions and applications. For users these functi- ons are often so important that they want to use them during other tasks, e.g. while driving a car, regardless of a potential distraction. Speech control can reduce distraction issues. This leads to the ques- tion, how people will manage tasks containing multiple applications with a speech dialogue system during a primary driving task. Appli- cation switching is particularly interesting, as in a user-driven dialog utterances may be spoken, which are not covered by the system’s functionality. In this case dialogue systems need to apply error re- covery strategies to ensure task success. Error recovery strategies in multi-application dialogues and their integration into the car have not been considered yet. For this work users were faced with multi- application dialogues during a primary driving simulator task. The results did not show any awareness of using different applications. Furthermore, unsuccessful application switching showed an increase in the subjective distraction. In an iterative process multi-modal error recovery strategies were developed to minimize driver distraction, in- crease usability, and maximize task success. Two user studies showed that users need the possibility to select applications by speech in ca- se of ambiguous application switching. Thereby the number of choi- ces needs to be minimized. Based on the results of the user studies, requirements were defined to enable a consistent interaction across multiple applications with parameter exchange and prediction of the next probable application. For the second part of this work it was analyzed, how to imple- ment a spoken dialogue system with multiple dynamically available applications. For the development of software and graphical user in- terfaces, model-driven processes are often used successfully. Howe- ver, for spoken dialogue systems they are considered rarely. In this work a concept based on task models (ConcurTaskTrees) in combi- nation with a lexical-semantic knowledge base (Princeton WordNet) was developed. The task model defines the interaction pattern whi- le the knowledge base describes the task parameters. This enables consistent dialogues over different applications with parameter ex- change. An implementation showed the feasibility. In the evaluation (with the corpus of the Dialog State Tracking Challenge) advantages for distinct objects and disadvantages for unambiguous inputs, such as numbers, were identified.

iv INHALTSVERZEICHNIS

1 einleitung 1.1 Motivation und Einführung in das Thema ...... 1 1.2 Ziele und Forschungsbeiträge ...... 4 1.3 Übersicht über die Arbeit ...... 6

2 anwendungsübergreifende mensch-maschine kom- munikation 2.1 Zwischenmenschliche Kommunikation ...... 7 2.1.1 Kommunikationsmöglichkeiten des Menschen . 8 2.1.2 Kommunikationsmodelle ...... 10 2.1.3 Ausgewählte Theorien menschlicher Kommuni- kation ...... 13 2.2 Mensch-Maschine Dialog ...... 15 2.2.1 Interaktionsmodelle und mögliche Interaktions- fehler ...... 15 2.2.2 Benutzerschnittstellen ...... 17 2.3 Grundlagen und Stand der Technik ...... 21 2.3.1 Sprachdialogsysteme ...... 22 2.3.2 Anwendungsübergreifende Sprachdialogsysteme 31 2.3.3 Fehlerbehandlungsstrategien ...... 37 2.3.4 Fahrerablenkung durch sekundäre Aufgaben . 41 2.3.5 Sprachdialogsysteme im Fahrzeug ...... 46 2.4 Zusammenfassung und Diskussion ...... 54

3 studien zum anwendungswechsel und zu fehler- behandlungen 3.1 Explorative Fahrsimulatorstudie ...... 59 3.1.1 Studienkonzept ...... 60 3.1.2 Aufbau und Durchführung des Experiments . . 67 3.1.3 Ergebnisse und Diskussion ...... 73 3.1.4 Fazit zu anwendungsübergreifenden Dialogen im Fahrzeug ...... 86 3.2 Internetstudie zu Hilfestrategien ...... 87 3.2.1 Studienkonzept ...... 87 3.2.2 Aufbau und Durchführung der Studie . . . . . 92 3.2.3 Ergebnisse und Diskussion ...... 95 3.2.4 Fazit zu Hilfestrategien für die Disambiguierung von Anwendungen ...... 99 3.3 Fahrsimulatorstudie zu Hilfestrategien ...... 100 3.3.1 Studienkonzept ...... 101 3.3.2 Aufbau und Durchführung im Fahrsimulator . 103 3.3.3 Ergebnisse und Diskussion ...... 105

v vi inhaltsverzeichnis

3.3.4 Fazit zu Hilfestrategien im Infotainment-System 111 3.4 Zusammenfassung und Anforderungen ...... 112

4 konzept mit taskmodellen und wissensbasen 4.1 Konzeptentwicklung ...... 115 4.1.1 Problemstellung ...... 116 4.1.2 Taskmodelle und Wissensbasen ...... 117 4.1.3 Einordnung in ein Dialogsystem: Dialog- und Taskmanager ...... 121 4.2 Formale Definitionen des Konzepts ...... 123 4.2.1 Taskmodelle ...... 123 4.2.2 Lexikalisch-semantische Wissensbasis ...... 126 4.2.3 Bindung von Objekten der Wissensbasis an Taskmo- delle ...... 130 4.3 Prozess von Nutzereingabe bis Taskausführung . . . . 134 4.3.1 Abbildung von Nutzereingaben auf Konzepte und Instanzen der Wissensbasis ...... 134 4.3.2 Kontext eines Dialogzustandes ...... 137 4.3.3 Vergleich von Nutzereingabe und Kontext . . . 139 4.3.4 Ausführung von Tasks ...... 143 4.3.5 Anwendungsübergreifende Aspekte ...... 145 4.4 Zusammenfassung ...... 147

5 implementierung und evaluation 5.1 Nachweis der Machbarkeit durch Implementierung . . 149 5.2 Evaluation ...... 152 5.2.1 Evaluation mittels bestehendes Korpus . . . . . 152 5.2.2 Ergebnisse hinsichtlich Abbildung der Eingabe auf Tasks ...... 155 5.2.3 Ergebnisse bezüglich der Taskausführung und Parameterübergabe ...... 158 5.3 Theoretischer Abgleich der Anforderungen ...... 161 5.4 Zusammenfassung und Diskussion ...... 163

6 zusammenfassung und ausblick 6.1 Beiträge der Arbeit ...... 167 6.2 Diskussion erzielter Ergebnisse ...... 169 6.3 Ausblick ...... 170

Anhang

a unterlagen zu studien a.1 Explorative Fahrsimulatorstudie ...... 175 a.1.1 Beispieldialoge für verschiedene Varianten des Anwendungswechsels ...... 175 a.1.2 SUEDE als Wizard-of-Oz Tool ...... 178 a.1.3 Vorbefragungsbogen ...... 180 a.1.4 Fragebogen zur subjektiv empfundenen Belastung182 inhaltsverzeichnis vii

a.2 Internetstudie zu Hilfestrategien ...... 183 a.2.1 Vorbefragungsbogen ...... 183 a.2.2 Fragebogen im interaktiven Teil ...... 184 a.3 Fahrsimulatorstudie zu Hilfestrategien ...... 185 a.3.1 Vorbefragungsbogen ...... 185 a.3.2 Fragebogen zur Bewertung der Bedingungen . 186 b konzept, implementierung, evaluation b.1 Beweis der Formel (3)...... 187 b.2 Taskmodell und Domänenobjekte der Busanwendung 188 b.3 Dateien der Evaluation ...... 190 b.3.1 Dialogprotokoll ...... 190 b.3.2 Manuell annotierte Referenzdatei ...... 190 b.3.3 Interpretation des Dialog-Trackers ...... 191 b.3.4 Fusionierte korrekt annotierte Eingabe . . . . . 191 literatur ABBILDUNGSVERZEICHNIS

Abb. 2.1 Kommunikationsmodell nach Shannon...... 11 Abb. 2.2 Interaktionszyklus nach Norman...... 16 Abb. 2.3 Struktur eines Sprachdialogsystems...... 23 Abb. 2.4 Interaktionsschema des persönlichen Assistenten Mi- crosoft ...... 36 Abb. 2.5 „Multiple resource model“...... 43 Abb. 2.6 Bildschirminhalte zur Fehlervermeidung und Feh- lererkennung...... 49 Abb. 3.1 Varianten der Reaktion auf einen impliziten An- wendungswechsel...... 63 Abb. 3.2 Fahrsimulator mit Bildschirm und Wizard Arbeits- platz...... 67 Abb. 3.3 Continuous Tracking and Reaction Task (ConTRe Task) nach Mahr u. a. (2012). Entwickelt und lizen- ziert im GetHomeSafe (GHS)-Projekt...... 68 Abb. 3.4 Versuchsablauf pro Teilnehmer...... 73 Abb. 3.5 Sprachstile der impliziten Äußerungen...... 76 Abb. 3.6 Anaphorische Ausdrücke in impliziten Äußerungen. 77 Abb. 3.7 Spurabweichung und Reaktionszeiten...... 79 Abb. 3.8 Inadäquate Reaktionen der Teilnehmer...... 79 Abb. 3.9 Beurteilung der subjektiven Belastung...... 80 Abb. 3.10 Mittlere Differenz und Anzahl der Amplituden des SCR...... 81 Abb. 3.11 Ergebnisse der Gebrauchstauglichkeit...... 82 Abb. 3.12 Ergebnisse der Dialogperformanz...... 83 Abb. 3.13 Strategien des Dialoginitiativenwechsels...... 89 Abb. 3.14 Beispielbeschreibung anwendungsübergreifender Auf- gaben für Versuchspersonen...... 93 Abb. 3.15 Beurteilung der Dialogstrategien...... 97 Abb. 3.16 Beurteilung der Varianten bzgl. Kontext...... 98 Abb. 3.17 Beurteilung der verschiedenen Modalitäten. . . . . 99 Abb. 3.18 Strategien der Selektion eines Listeneintrags. . . . . 102 Abb. 3.19 Fahrsimulator auf Basis von PC-Hardware...... 104 Abb. 3.20 Fahrt unterteilt in Phasen mit und ohne Dialog. . . 105 Abb. 3.21 Gemessene Spurabweichung, unterteilt nach Dia- logstrategie und Modalität...... 106 Abb. 3.22 Beurteilung der subjektiven Belastung...... 108 Abb. 3.23 Beurteilung der Gebrauchstauglichkeit...... 109 Abb. 4.1 Vier Abstraktionsebenen des CRF...... 119 Abb. 4.2 Vereinfachtes Beispiel zur Verbindung von Taskmo- dellen und Wissensbasen...... 120

viii Abb. 4.3 Definition Taskmodell als UML-Klassendiagramm. 125 Abb. 4.4 Taskmodell einer vereinfachten Wetteranwendung in CTT-Notation. Erstellt mit ConcurTaskTree (CTT)- Environment (Version: 2.6.11, Freeware) ...... 126 Abb. 4.5 Vereinfachter Ausschnitt an Nomina der lexikalisch- semantischen Wissensbasis...... 130 Abb. 4.6 Beispiel der Interpretation einer Nutzeräußerung durch die Stanford CoreNLP...... 136 Abb. 4.7 Beispiel der Identifikation von Synsets im WordNet. 137 Abb. 5.1 Architektur der Implementierung...... 150 Abb. 5.2 Screenshot des URCS-WordNet-Browsers...... 151 Abb. 5.3 Konzept der Evaluation mittels DSTC-Korpus. . . . 154 Abb. 5.4 Konzeptgenauigkeit der entwickelten Methode im Vergleich zur Baseline...... 157 Abb. 5.5 Konfusionsmatrix zum Vergleich erkannter und an- notierter Slots...... 157 Abb. 5.6 Identifikation eines Taskmodells...... 159 Abb. 5.7 Konfusionsmatrix zum Vergleich übergebener Pa- rameter bezogen auf Anzahl der Slots...... 160

TABELLENVERZEICHNIS

Tab. 2.1 Abbildung von Hardwareklassen auf menschliche Sensormodalitäten...... 18 Tab. 2.2 Analyse von Forschungsarbeiten im Fahrzeugkon- text...... 52 Tab. 3.1 Anwendungsübergreifende Aufgaben mit Klassifi- kation der Teilaufgaben und Parametern...... 61 Tab. 3.2 Hypothesen zu verschiedenen Interaktionsvarian- ten des Anwendungswechsels...... 66 Tab. 3.3 Strategiewechsel von impliziten zu expliziten Äu- ßerungen beim Anwendungswechsel...... 75 Tab. 3.4 Im Korpus identifizierte Sprachstile...... 75 Tab. 3.5 Anaphorische Referenzen...... 76 Tab. 3.6 Effizienz der Nutzeräußerungen...... 78 Tab. 3.7 Hypothesen zu verschiedenen Varianten des Dialo- ginitiativenwechsels...... 92 Tab. 3.8 Anwendungsübergreifende Aufgaben der Versuchs- personen...... 93 Tab. 3.9 Split-Plot Studiendesign...... 94 Tab. 3.10 Hypothesen zu verschiedenen Dialogvariationen der Auswahl...... 103

ix Tab. 3.11 Post-Hoc-Tests zum Vergleich der Modalitäten der jeweiligen Dialogstrategien...... 107 Tab. 3.12 Aufgabenerfolg und Dialogdauer...... 111 Tab. 4.1 Operatoren zur Definition temporaler Abhängig- keiten von Tasks...... 126 Tab. 4.2 Zuweisung von Domänenobjekten zu Tasks des Task- modells einer Wetteranwendung...... 134 Tab. 4.3 Subkontexte des initialen Taskmodells der Wetteran- wendung...... 139 Tab. 4.4 Übereinstimmung einer Interpretations-Hypothese mit einem Subkontext...... 141 Tab. 4.5 Test auf Ausführbarkeit eines Subkontextes mit ei- ner Interpretations-Hypothese...... 142 Tab. 4.6 Ähnlichkeit einer Interpretations-Hypothese mit ei- nem Subkontext...... 144

LISTINGS

List. 1 Konkretes Informationselement (vereinfacht) für das Wetterbeispiel (nach Honold u. a. (2012)) ...... 146

x ABKÜRZUNGEN

AAM Alliance of Automobile Manufacturers ANOVA Varianzanalyse (engl. ANalysis Of VAriance) API Schnittstelle zur Anwendungsprogrammierung (engl. Application Programming Interface) ASR Automatische Spracherkennung (engl. Automatic )

CA Konzeptgenauigkeit (engl. Concept Accuracy) ConTRe Task Continuous Tracking and Reaction Task (Mahr u. a., 2012) CRF CAMELEON ReferenzFramework (Calvary u. a., 2002) CTT ConcurTaskTree (Paternò, 2000)

DALI Driver Activity Load Index (Pauzié u. a., 2007) DIS Dialoginitiativenwechsel (engl. Dialog Initiative Switch) DSTC Dialog State Tracking Challenge (Williams, Raux u. a., 2012)

EDA ElektroDermale Aktivität ER Erwartungskonforme Systemreaktion (engl. Expec- ted system Reaction)

GHS GetHomeSafe GUI Grafische Benutzeroberfläche (engl. Graphical User Interface)

HMI Mensch-Maschine-Interaktion (engl. Human- Machine Interaction)

JSON JavaScript Object Notation JWI Java WordNet Interface

M Mittelwert

xi xii Abkürzungen

MU Missverständnis (engl. MisUnderstanding)

NU Nicht-Verständnis (engl. Non-Understanding)

OOA Außerhalb der Anwendungsdomäne (engl. Out-Of- Application-scope) OOD Außerhalb der Domäne (engl. Out-Of-Domain) OOV Außerhalb des Vokabulars (engl. Out-Of-Vocabular) OWL-S Ontology Web Language for Services

QA Frage-Antwort-Systeme (engl. Question-Answer)

RDF Resource Description Framework

SASSI Subjective Assessment of Speech System Interfaces (Hone und Graham, 2000) SCL Hautleitwertsniveau (engl. Skin Conductance Level) SCR Hautleitwertsreaktion (engl. Skin Conductance Re- sponse) SD Standardabweichung (engl. Standard Deviation) SDC Spoken Dialog Challenge (Black u. a., 2010) SDS Sprachdialogsystem (engl. Spoken Dialog System) SLU Verständnis gesprochener Sprache (engl. Spoken Language Understanding) SOA ServiceOrientierte Architektur

TTS Sprachsynthese (engl. Text to Speech Synthesis)

UDDI Universal Description Discovery & Integration UI Benutzerschnittstelle (engl. User Interface) UML Unified Modeling Language

VUI Sprachbedienbare Benutzerschnittstelle (engl. )

WoZ Wizard-of-Oz WSDL Web Service Definition Language

XML eXtensible Markup Language EINLEITUNG 1

„Bitte warten Sie Ihr Operating System wird gestartet. - Hallo da bin ich.“ „Hi.“ „Hi, ich bin Samantha“ Trailer1 zu Her (00:30). Jonze, 2014

1.1 motivation und einführung in das thema

Seit jeher zeigen Science-Fiction Filme Visionen der Interaktion zwi- schen Mensch und Maschine. Neben visionären Bedienelementen ist Visionen der oftmals ein menschenähnlicher sprachlicher Dialog Thema. Im Film Sprachbedienung Her von Jonze (2014) zum Beispiel, in welchem sich der Protago- nist Theodore in sein sprachbedienbares Betriebssystem Samantha verliebt. Die Kommunikation mit Samantha erfolgt mittels natürli- cher Sprache (siehe obiges Zitat), wobei sie auf Emotionen reagiert sowie selbst welche zeigt, ähnlich wie ein menschlicher Partner. Eine solch natürliche Kommunikation per Sprache bieten aktuelle Syste- me (Sprachdialogsystem (SDS) genannt) noch nicht. Berg (2013) iden- tifiziert unter anderem Adaptivität, robuste Erkennung, Interpretati- on von Umgangssprache und ein grundlegendes Sozialverhalten als wichtige Punkte für ein natürliches SDS; Eigenschaften welche aktuell nur unzureichend Umsetzung finden. Dennoch erfreuen sich Sprach- dialogsysteme immer stärkerer Beliebtheit, da in komplexen techni- schen Systemen oftmals die gesuchte Funktion in hierarchisch geglie- derten, grafischen Menüs versteckt ist, wogegen mittels Sprache Nut- zer ihren Wunsch frei äußern können und das System dementspre- chend reagiert. Speziell in Anwendungsdomänen, in denen Nutzer lediglich ein- geschränkte Bedienmöglichkeiten haben, verspricht die sprachliche Bedienung als zusätzliche Modalität Erfolg. Beispielsweise ermöglicht Modalität Sprache im Fahrzeug eine sprachliche Interaktion dem Fahrer, die Hände am Lenkrad und den Blick auf der Straße zu behalten. Erste kommerziel- le Umsetzungen beinhalteten Kommandos für wenige Anwendungen und Funktionen, wie beispielsweise Telefon, Radio oder Navigation (Heisterkamp, 2001). Doch mit Erfindung des und mo- bilen Internets stieg die Erwartung an elektronische Geräte sowie die Anzahl der Anwendungen und Funktionen rapide an. Während man Funktionsvielfalt sich einzelne Kommandos noch vergleichsweise einfach merken kann, elektronischer Geräte

1 http://youtu.be/6Gb2gfXX454 [Online 09.12.2015]

1 2 einleitung

überfordert die aktuelle stetig wachsende Funktionsvielfalt durch Inter- netanwendungen die Nutzer (Hofmann, 2014). Persönliche Assisten- ten, wie Apple Siri2 oder Microsoft Cortana3, folgen der Vision von Samantha und verstehen natürlichsprachliche Äußerungen, was ein Lernen der Kommandos minimiert. Eine Äußerung des Nutzers wird interpretiert und einer Anwendung zugeordnet. Hierdurch wird das klassische Interaktionsschema, von Öffnen einer Anwendung und an- schließender Interaktion, durch eine einheitliche Schnittstelle zur ge- samten Funktionsvielfalt abgelöst. Dadurch ermöglichen diese per- sönlichen Assistenten eine natürlichsprachliche Bedienung auf globa- ler Ebene und anwendungsübergreifend. Ein SDS mit hoher Funktionsvielfalt stellt speziell unerfahrene Nut- zer vor das Problem, welche Äußerungen verstanden und welche An- wendungen bedient werden können. Es besteht somit die Gefahr, dass Fehlerverhalten früher oder später eine Anfrage nicht beantwortet werden kann und des SDS zu einer unerwünschten Reaktion führt (z.B. einer Websuche, wie in und Cortana implementiert). Somit stellt sich die Frage, wie ei- nerseits Menschen hiermit umgehen, und andererseits wie ein SDS in solch einem Fall Hilfestellungen anbieten sollte. Während dies im Anwendungsszenario zumeist ein Problem der Ge- brauchstauglichkeit darstellt, kann eine Fehlfunktion im Fahrzeug zu sicherheitskritischen Situationen oder Unachtsamkeit im Straßenver- Ablenkung durch kehr führen. Im Allgemeinen bewirkt zwar ein SDS eine geringere Ab- ein SDS lenkung als haptisch-visuelle Bedienschnittstellen (Gärtner u. a., 2001), jedoch bedeutet dies nicht gleichzeitig eine Minimierung der Ablen- kung (Strayer u. a., 2014). Speziell ein fehleranfälliges SDS lenkt den Fahrer in erhöhtem Maße ab (Kun, Paek u. a., 2007). Ein SDS im Fahr- zeug muss sich somit speziellen Anforderungen stellen, wie zum Bei- spiel Minimierung der Dialogdauer, Verstehen unterschiedlicher Äu- ßerungen, Bewusstsein der Situation, Unterbrechung sowie Wieder- aufnahme des Dialogs und Minimierung der kognitiven Belastung (Strayer u. a., 2014; Weng, Varges u. a., 2006; Driver Focus-Telematics Working Group, 2006). Da eine hohe Anzahl an Unfällen auf Grund abgelenkter Fahrer geschehen (nach der National Highway Traffic Sa- fety Administration (NHTSA) (2013) ca. 10% der Unfälle in den USA im Jahr 2011), bieten Hilfestrategien für anwendungsübergreifende Dialoge hohes Potential und werden somit in vorliegender Arbeit hin- sichtlich Ablenkungsaspekten untersucht. Hierzu betrachtet diese Arbeit zuerst zwischenmenschliche Kom- munikationsformen sowie den bestehenden Stand der Technik be- züglich der Mensch-Maschine-Interaktion (HMI, engl. für Human- Machine Interaction). Um frei von technischen Gegebenheiten anwen- explorativer Ansatz dungsübergreifende Dialoge zu analysieren, wird ein explorativer An-

2 https://www.apple.com/ios/siri [Online 28.11.2015] 3 http://www.microsoft.com/en-us/mobile/experiences/cortana/ [Online 28.11.2015] 1.1 motivation und einführung in das thema 3 satz gewählt, welcher in erster Linie Nutzer in bestimmte Situatio- nen versetzt und ihr Verhalten analysiert. Durch die Simulation von Fehlern im SDS ermöglicht dies eine Analyse der Reaktionen von Fahrern, ein Aspekt welcher bisher wenig Beachtung fand (Ei-Wen Lo und Green, 2013). Zusätzlich können Hilfestrategien im Fehlerfall den Nutzer eines Sprachdialogsystems zum Interaktionsziel führen (Bohus und Rudnicky, 2005), wobei bisher unklar ist, in welcher Form diese im Anwendungsszenario Fahrzeug funktionieren. Vorliegende Arbeit adressiert dieses Thema in Form von iterativ entwickelten so- wie empirisch evaluierten Hilfestrategien. Auf Basis der Evaluations- ergebnisse sowie Verhaltensbeobachtungen werden Anforderungen an ein SDS mit anwendungsübergreifenden Dialogen für das Anwen- dungsszenario Fahrzeug, beziehungsweise im Allgemeinen für die Bedienung mit einem SDS als Sekundäraufgabe, definiert. Dieses Vor- gehen zeigt Vorteile gegenüber einer Anforderungsdefinition zu Be- ginn der Arbeit, da die bevorzugte Interaktion von Menschen nicht von technischen Rahmenbedingungen einschränkt wird. Die Anfor- derungen bilden eine Grundlage, um ein anwendungsübergreifendes Dialogsystem zu entwickeln. Im zweiten Teil der vorliegenden Arbeit liegt der Fokus auf mo- modellgetriebene dellgetriebener Entwicklung eines Sprachdialogsystems mit mehreren An- SDS-Entwicklung wendungen. Da sich die Entwicklung eines Sprachdialogsystems zur mit mehreren Anwendungen Erfüllung der Anforderungen für anwendungsübergreifende Dialoge aufwendig und teuer gestaltet, wird eine Methodik entwickelt, wel- che zum großen Teil bestehende Formalismen, wie Taskmodelle und Wissensbasen, nutzt. Im Bereich der Softwareentwicklung (Partsch, 2010), sowie von visuell-haptischen Bedienschnittstellen (Poguntke, 2016; Melo, 2010), zeigen modellgetriebene Ansätze bereits deutliche Erfolge. Diese lassen sich zwar zum Teil zur Generierung von Bedien- schnittstellen klassischer Sprachdialogsysteme nutzen, zeigen jedoch Nachteile bei Besonderheiten von modernen Sprachdialogsystemen, wie zum Beispiel der Parallelität mehrerer Eingabeparameter, Natür- lichsprachlichkeit oder nutzer-initiierten Eingaben. Neben einer Ver- einfachung der Entwicklung finden zusätzlich Aspekte des nutzer- zentrierten Computings Beachtung. Hierbei erfolgt eine Interaktion zwischen Mensch und Maschine auf Basis der Aufgaben. Dafür not- wendige Aktivitäten, wie beispielsweise das Auswählen einer Anwen- dung, sollen im Hintergrund automatisiert erfolgen (Wang und Gar- lan, 2000). Eine natürliche, fehlerminimierte Interaktion zwischen Fahrer und Fahrzeug, oder allgemein in der HMI als sekundärer Aufgabe, kann die Ablenkung signifikant reduzieren und somit die Sicherheit erhö- hen. Durch die Beobachtung des menschlichen Verhaltens in entspre- chenden Situationen und der iterativen Entwicklung von Hilfestra- tegien für potentiell fehleranfällige anwendungsübergreifende Dia- loge ist eine natürlich zu bedienende Schnittstelle definierbar. Eine 4 einleitung

konzeptuelle Umsetzung dieser Schnittstelle ermöglicht eine Aussage über die Machbarkeit. Die vorliegende Arbeit liefert damit einen ent- scheidenden Beitrag zur sicheren Interaktion zwischen Mensch und Maschine, während der Ausführung einer Primäraufgabe.

1.2 ziele und forschungsbeiträge

Die wissenschaftliche Zielsetzung der vorliegenden Arbeit stellt eine Betrachtung von anwendungsübergreifenden Dialogen als sekundäre Aufgabe dar. Hierbei liegt der Fokus auf der natürlichen Interaktion zwischen Mensch und Maschine, welche auf Basis explorativer Ver- haltensanalysen entwickelt wird. Durch Nutzerstudien entsteht eine fundierte Grundlage zur Definition der Anforderungen an eine tech- nische Umsetzung. Das daraus entstandene Konzept wird mittels Im- plementierung evaluiert. Die vorliegende Arbeit untersucht infolge- dessen anwendungsübergreifende Dialoge ganzheitlich von theore- tischen, explorativen, technischen und praktischen Gesichtspunkten. Forschungsfragen Insbesondere sind folgende Forschungsfragen adressiert:

F1: Wie interagieren Nutzer mit einem SDS in anwendungsüber- greifenden Aufgaben als Sekundäraufgabe und welche Auswir- kungen zeigen fehlerhafte Anwendungswechsel?

F2: Welche Interaktionsschemata ermöglichen Nutzern das Errei- chen eines Interaktionsziels, trotz Fehler während des anwen- dungsübergreifenden Dialogs?

F3: In welcher Form lässt sich ein SDS mit mehreren Anwendun- gen modellgetrieben mittels Taskmodellen und Wissensbasen entwickeln?

Die vorgeschlagenen Lösungen sind eingegliedert in bestehende Ar- beiten im interdisziplinären Forschungsumfeld der Informatik, Inge- nieurwissenschaften sowie der Psychologie. Neben einer Einordnung in den Forschungskontext und Behandlung entsprechender Grundla- gen, beinhaltet die vorliegende Arbeit hauptsächlich folgende Beiträ- ge:

Abschnitt 2.3 Analyse bestehender Arbeiten: In einer umfassenden Analyse be- stehender Sprachdialogsysteme hinsichtlich anwendungsüber- greifender Dialoge, Fehlerbehandlungsstrategien und deren Ein- satz im Fahrzeug unter Ablenkungsaspekten, sind die grundle- genden Aspekte vorliegender Arbeit in Relation zu bestehenden Arbeiten gesetzt. Die Kombination dieser drei Aspekte findet bisher jedoch wenig Betrachtung und führte somit zur Formu- lierung der Forschungsfragen F1 und F2, sowie zur Definition des Forschungsgegenstandes der vorliegenden Arbeit. 1.2 ziele und forschungsbeiträge 5

Anwendungsübergreifende Dialoge als Sekundäraufgabe: Zur Ent- Abschnitt 3.1 wicklung eines Sprachdialogsystems in einer neuen Domäne ist es erforderlich die Kommunikation und das Verhalten von Nutzern zu analysieren (Karat u. a., 2012). Hierfür wählt vorlie- gende Arbeit den explorativen Ansatz einer Nutzerstudie im Fahrsimulator. Die Ergebnisse zeigen, dass nicht-erfolgreiche Anwendungswechsel einerseits sicherheitskritisch und anderer- seits wenig gebrauchstauglich sind. Im Versuch zeigten Nutzer kein Bewusstsein für eine Anwendungstrennung und wechsel- ten Anwendungen implizit, weshalb diese Situationen besonde- re Herausforderungen für ein SDS mit mehreren Anwendungen darstellt.

Hilfestrategien für nicht-erfolgreiche Anwendungswechsel: Auf Abschnitt 3.2 & 3.3 Basis der ersten Fahrsimulatorstudie zeigte sich die Notwen- digkeit im Fehlerfall, beziehungsweise bei nicht-erfolgreichen Anwendungswechseln, den Dialog system-geführt fortzusetzen und dem Fahrer durch Systemhinweise zu helfen. Im Anwen- dungsszenario Fahrzeug sind diese Hinweise in erster Linie au- ditiv und visuell mitzuteilen. Verschiedene Kombinationen der Modalitäten sowie des Hinweisinhalts werden entwickelt und in Nutzerstudien evaluiert. In einer ersten breit angelegten In- ternetstudie zeigten einige Variationen Erfolg und auf Basis der Ergebnisse erfolgt eine Verfeinerung der Konzepte. In einer fol- genden Fahrsimulatorstudie stellte sich heraus, welche Konzep- te sinnvoll im Fahrzeug einzusetzen sind, so dass eine sichere Bedienung während der Fahrt mit hoher Gebrauchstauglichkeit gegeben ist.

Anforderungen an ein SDS mit mehreren Anwendungen: Die Er- Abschnitt gebnisse vorhergehender Studien ermöglichen eine Definition 3.4 & 4.1.1 von Anforderungen für ein SDS mit mehreren Anwendungen im Szenario Fahrzeug. Zusätzlich zu Anforderungen an die In- teraktion zwischen Mensch und Maschine, erfolgt die Betrach- tung aus technischen Aspekten und die Formulierung entspre- chender Anforderungen.

Konzept zur modellgetriebenen Entwicklung: Aufbauend auf den Kapitel 4 formulierten Anforderungen wird eine modellgetriebene Ent- wicklung von Sprachdialogsystemen mit mehreren Anwendun- gen vorgeschlagen. Das Konzept nutzt Taskmodelle zur Spezi- fikation des Programmablaufs und stellt etwaige Verbindungen über eine globale lexikalisch-semantische Wissensbasis bereit. Durch detaillierte theoretische Betrachtung und beispielhafte Verdeutlichung wird ein Prozess von Nutzereingabe bis hin zur Taskausführung beschrieben. Es erfolgt eine klare Abgrenzung zu anderen Modulen eines Sprachdialogsystems und schafft so- 6 einleitung

mit eine Grundlage zur Integration in bestehende Implementie- rungen durch wohldefinierte Schnittstellen.

Kapitel 5 Taskmanager: Zum Nachweis der Machbarkeit und Qualität sowie zur theoretischen Betrachtung bezüglich der Anforderungen, erfolgt eine Implementierung des Konzeptes als Taskmanager. Die Implementierung ermöglicht eine exakte Analyse mit Hilfe eines bestehenden Korpus. Die Ergebnisse zeigten eine deutli- che Verbesserung im Vergleich zu bestehenden Sprachdialog- systemen und Potential für zukünftige Systeme.

1.3 übersicht über die arbeit

In Kapitel 2 erfolgt eine grundlegende Betrachtung der zwischen- menschlichen Kommunikation und der Interaktion zwischen Mensch und Maschine. Ausgehend von diesen Grundlagen wird ein detaillier- ter Überblick über den bisherigen Stand der Technik gegeben. Dies führt zur Identifikation des Forschungsschwerpunktes vorliegender Arbeit in Form von anwendungsübergreifenden Dialogen als Sekun- däraufgabe. Das darauffolgende Kapitel 3 beinhaltet die Beschrei- bungen dreier Nutzerstudien zur einerseits explorativen Erfassung menschlichen Verhaltens und andererseits zur iterativen Entwicklung sowie Evaluation von Hilfestrategien für nicht-erfolgreiche Anwen- dungswechsel. Abschließend wird eine Zusammenfassung der Er- gebnisse aller Studien gegeben, welche letztlich zur Definition der Anforderungen führt. Zur Umsetzung dieser Anforderungen erfolgt die Konzeptentwicklung und formale Definition, wie in Kapitel 4 be- schrieben. Hierbei wird die Verbindung von Taskmodellen über eine globale lexikalisch-semantische Wissensbasis erstellt, welche gleich- zeitig zur Interpretation der Nutzereingabe Verwendung findet. Der Prozess von der Nutzereingabe über die Interpretation bis zur Tas- kausführung wird ebenso in diesem Kapitel behandelt. Anschließend zeigt Kapitel 5 die Implementierung und die Evaluation sowie die Diskussion der Ergebnisse. Abschließend fasst Kapitel 6 die erreich- ten Ergebnisse und Beiträge vorliegender Arbeit zusammen, disku- tiert die vorhandenen Einschränkungen und liefert einen Ausblick zukünftiger Forschungsthemen mit ihren Herausforderungen. Beiträge aus der vorliegenden Arbeit wurden auf internationalen Konferenzen und in Workshops veröffentlicht und präsentiert. Eine Übersicht der betreffenden Veröffentlichungen ist auf Seite 219 zu finden. ANWENDUNGSÜBERGREIFENDE 2 MENSCH-MASCHINEKOMMUNIKATION

“no matter how one may try, one cannot not communicate.”1 Watzlawick u. a. (1967, S. 275)

Dem ersten Axiom von Watzlawick u. a. (1967) zufolge (siehe obi- ges Zitat), hat Verhalten keinen Gegensatz. Jegliche menschliche Ak- tivität oder Inaktivität wird als Verhalten angesehen, somit ist selbst eine ausbleibende Reaktion wiederum ein Verhalten. Wird nun Kom- munikation als Verhalten in einer Interaktionssituation betrachtet, er- gibt sich der Schluss, dass Nicht-Kommunizieren für Menschen un- Nicht-Kom- möglich ist. Doch wie kommunizieren Menschen untereinander? Und munizieren wie ändert sich dies im Falle eines nicht-menschlichen Kommunika- tionspartners? Diese Fragestellungen werden im folgenden Kapitel untersucht. Hierzu wird zuerst auf die Kommunikation zwischen Menschen untereinander in Abschnitt 2.1 eingegangen. Darauf aufbauend er- folgt eine Betrachtung der Besonderheiten von Mensch-Maschine Dia- logen. In Abschnitt 2.3 wird eine Einführung zur sprachlichen Kom- munikation zwischen Mensch und Maschine gegeben und es werden bestehende Arbeiten präsentiert sowie analysiert. Hieraus ergeben sich die Forschungsfragen vorliegender Arbeit, welche in Abschnitt 2.4 diskutiert und zusammengefasst werden.

2.1 zwischenmenschliche kommunikation

Menschen kommunizieren seit jeher mit ihrer Umwelt. Über Jahrmil- lionen hinweg haben sich dabei verschiedene Kommunikationsfor- men entwickelt, doch eine genaue Definition des Begriffs Kommu- nikation fällt immer noch schwer (Littlejohn und Foss, 2008). Dance Kommunikation (1970) prägte verschiedene Ansätze der Definitionen durch eine Klas- sifizierung in drei Dimensionen: Abstraktionslevel, Zweck und Beur- teilung. Anhand jeweils einer Definition je Dimension wird der Be- griff Kommunikation für diese Arbeit definiert: Abstraktionslevel (restriktiv): „Communication: the transmission of in- formation, ideas, emotions, skills, etc., by the use of symbols, words, pictures, figures, graphs, etc. It is the act or process of

1 Übersetzung des Autors: Man kann nicht nicht-kommunizieren, egal wie bemüht man ist.

7 8 anwendungsübergreifende mensch-maschine kommunikation

transmission that is usually called communication.“2 (Berelson und Steiner, 1964, S. 254)

Zweck (Absicht): „Communication has as its central interest those be- havioral situations in which a source transmits a message to a receiver(s) with conscious intent to affect the latter’s beha- viors.“3 (Miller, 1966, S. 92)

Beurteilung (erfolgreich): „Communication is the verbal interchange of a thought or idea.“4 (Hoben, 1954, S. 77) Für diese Arbeit wird somit Kommunikation lediglich auf einem kon- kreten Level als Informationsaustausch mit bestimmter Absicht und erfolgreicher Übertragung betrachtet. Dies folgt der Ansicht, den Men- schen als aktive, sensomotorische Verarbeitungseinheit von Informa- Menschliche Infor- tionen zu sehen (Welsh u. a., 2012). Zusätzlich zur Wahrnehmung mationsverarbeitung und Übertragung von Informationen erfolgen im Menschen kogniti- ve Prozesse, die ein Übersetzen, Reduzieren, Zusammenstellen, Spei- chern und Abfragen von Informationen ermöglichen. Es kann somit von drei Basisprozessen des Menschen gesprochen werden: Wahr- nehmung, Bestimmung der Antwort (durch kognitive Prozesse) und Antworterstellung (z.B. Fitts und Posner (1967), Welford (1968) und Welsh u. a. (2012)). Im folgenden Abschnitt wird zuerst auf die mensch- liche Wahrnehmung und Antworterstellung eingegangen. Die Kom- munikation zwischen Menschen und deren Austausch von Informa- tionen wird in Abschnitt 2.1.2 behandelt. Anschließend werden für diese Arbeit relevante, kognitive Prozesse und Verhaltensweisen zur Bestimmung der Antwort aufgezeigt.

2.1.1 Kommunikationsmöglichkeiten des Menschen

Die Wahrnehmung von Reizen aus der Umwelt erfolgt beim Men- schen durch Sinnesorgane. Aufgenommene Reize werden über Ner- venzellen zum Gehirn geleitet und lösen dort eine subjektive Wahr- nehmung sowie die Verarbeitung der Informationen aus. Um mit ihrer Umwelt in Kontakt zu treten, bedienen sich Menschen haupt- sächlich des Muskelapparats. Die vorliegende Arbeit betrachtet den menschlichen Organismus fokussiert auf die Interaktion, eine aus-

2 Übersetzung des Autors: Kommunikation: die Übertragung an Informationen, Ideen, Emotionen, Fähigkeiten usw., durch Nutzung von Symbolen, Wörtern, Bildern, Ab- bildungen, Diagrammen usw. Für gewöhnlich wird die Handlung oder der Prozess der Übertragung Kommunikation genannt. 3 Übersetzung des Autors: Kommunikation betrachtet als zentrales Element die Ver- haltenssituationen, in welchen ein Sender eine Nachricht zu einem Empfänger(n) überträgt, mit der bewussten Absicht das Verhalten des Empfängers zu beeinflus- sen. 4 Übersetzung des Autors: Kommunikation ist der mündliche Austausch eines Gedan- kens oder einer Idee. 2.1 zwischenmenschliche kommunikation 9 führliche medizinische Beschreibung findet sich in Klinke und Sil- bernagl (1996).

2.1.1.1 Wahrnehmung über Sinnesorgane Zur Aufnahme von Reizen, wie zum Beispiel Temperatur, elektroma- gnetische Wellen, oder Schallwellen, besitzt der menschliche Körper diverse Rezeptoren. Für diese Arbeit sind lediglich Exterozeptoren, welche die Umwelt wahrnehmen, von Bedeutung. Dieser Rezeptor- Wahrnehmung klasse gehören die klassischen fünf Sinnesmodalitäten an, die be- reits Aristoteles identifizierte (Klinke und Silbernagl, 1996; Aristote- les, übersetzt und erläutert von Kirchmann, 1871):

1. Sehen, visuelle Wahrnehmung über das Sinnesorgan Auge.

2. Hören, auditive Wahrnehmung über das Sinnesorgan Ohr.

3. Riechen, olfaktorische Wahrnehmung über das Sinnesorgan Na- se.

4. Schmecken, gustatorische Wahrnehmung über das Sinnesorgan Zunge.

5. Tasten: taktile Wahrnehmung über das Sinnesorgan Haut.

Die Sinne Hören, Sehen und Tasten sind für die menschliche Kom- munikation bedeutender als Riechen oder Schmecken (Van Servel- len, 2009). Diese drei Sinne sind allerdings nicht bei jedem Menschen gleich ausgeprägt. Van Servellen (2009) zeigt diverse Belege für unter- schiedliche Sinnespräferenzen und die Fähigkeit, ein Zusammenspiel mehrerer Sinne zur Wahrnehmung der Umwelt zu nutzen. Die Unter- Wahrnehmungs- schiede in der Wahrnehmung sind in erster Linie auf Eigenschaften unterschiede wie Alter, Reife, Ausbildung, Beruf und Erfahrung zurückzuführen. Zusätzlich kann sich die bevorzugte Art der Wahrnehmung auch mit der Zeit oder der Situation ändern. Neben körperlich beeinflussten Sinnespräferenzen kann der Mensch auch aktiv seine Wahrnehmung steuern, beziehungsweise seine Auf- merksamkeit bestimmten Informationen zuwenden. Am deutlichsten ist dies beim Sehen über die Blickrichtung und das Schließen oder Öffnen der Augen zu erkennen. Doch auch die anderen Sinne kön- nen aktiv gesteuert werden. Ein berühmtes Beispiel ist der „Cocktail- party-Effekt“, der die selektive Wahrnehmung einer Konversation in selektive einer lauten Umgebung beschreibt (Cherry, 1953). Menschen nutzen Wahrnehmung hierbei eine Kombination aus verschiedenen Sinnen, um ihren Ge- sprächspartner zu verstehen. Die Steuerung der Aufmerksamkeit auf wesentliche Informationen ergibt sich aus der begrenzten Kapazität des menschlichen Informationsverarbeitungssystems. Es kann somit nicht davon ausgegangen werden, dass jeder Mensch Informationen aus der Umwelt gleich wahrnimmt. 10 anwendungsübergreifende mensch-maschine kommunikation

2.1.1.2 Verbale und nonverbale Kommunikation Neben einer reinen Wahrnehmung seiner Umwelt kann der Mensch auch Eingriff in diese nehmen und selbst wahrnehmbare Reize er- zeugen. Dafür verantwortlich ist ein enges Zusammenspiel des Ner- vensystems und Muskelapparats (Klinke und Silbernagl, 1996). In der zwischenmenschlichen Kommunikation kann man die gesende- ten Informationen nach verbaler und nonverbaler Kommunikation klassifizieren (Knapp und Hall, 2009). Verbale Kommunikation erfolgt durch den menschlichen Sprechapparat, welcher in Zusammenspiel diverser Muskeln und der Atemluft akustische Signale einer Spra- che produziert (siehe Abschnitt 2.1.2.1). Über die Definition von non- verbaler Kommunikation besteht hingegen Uneinigkeit (Littlejohn und Foss, 2008). Manche sehen als nonverbale Kommunikation jegliche Kom- munikation die nicht durch Worte erfolgt. Andere wiederum zählen zum Beispiel Gebärdensprache, die durch Gesten erfolgt, nicht zur nonverbalen Kommunikation (Knapp und Hall, 2009). Da diese Ar- beit nonverbale Kommunikation nur am Rande betrachtet, ist eine weitgefasste Definition nach Knapp und Hall ausreichend: „To most people, the phrase nonverbal communication refers to communica- tion effected by means other than words, assuming words are the verbal element.“5 (Knapp und Hall, 2009, S. 5). Verbale und non- verbale Kommunikation erfolgt über verschiedene Kodierungskanäle (Burgoon u. a., 2011), auf welche im folgenden Abschnitt unter dem Begriff Nachrichtenkanäle eingegangen wird.

2.1.2 Kommunikationsmodelle

Wie gezeigt, können Menschen Informationen wahrnehmen und er- zeugen. Für eine erfolgreiche zwischenmenschliche Kommunikation ist allerdings der Austausch essentiell. Bereits 1948 definierte Shannon Modell nach (1948) ein allgemeines Kommunikationsmodell über Informationsquelle, Shannon Sender, Nachrichtenkanal, Empfänger und Informationsziel. Abbil- dung 2.1 zeigt den Prozess, über welchen eine Information zunächst vom Sender kodiert wird, bevor sie über einen Nachrichtenkanal zum Empfänger gelangt. Auf diesem Weg kann es zu Störungen der Über- tragung kommen. Der Empfänger dekodiert das empfangene Signal und führt die Information ihrer Bestimmung zu. Ein Vorteil des Mo- dells ist seine Einfachheit sowie seine Allgemeingültigkeit. Betrachtet man das Shannon’sche Modell allerdings hinsichtlich der drei Kom- munikationsprobleme nach Weaver (1949) (technisch, semantisch und effektiv), ergeben sich einige Schwächen. Shannon betrachtet ledig- lich das technische Problem durch die Störung im Übertragungskanal. Ob allerdings die Nachricht semantisch richtig vom Empfänger inter-

5 Übersetzung des Autors: Für die meisten Personen bedeutet der Ausdruck nonverba- le Kommunikation eine Kommunikation, welche auf andere Weise als durch Wörter (angenommen Wörter stellen das verbale Element dar) herbeigeführt wird. 2.1 zwischenmenschliche kommunikation 11 pretiert wird, oder ob die Kommunikation effektiv erfolgt, ist nicht definiert. In dieser Arbeit ist in erster Linie das gegenseitige Verständ- nis von Sender und Empfänger, und somit die korrekte semantische Dekodierung der Nachricht, von Bedeutung, wobei die technisch kor- rekteKap 2: Übertragung Kommunikationsmodell eine notwendige nach Shannon Bedingung dafür darstellt. Im Weiteren soll diese daher als gegeben vorausgesetzt sein.

Kontext: Beziehung, Gruppen, Struktur, Massenmedien, Kultur, Gesellschaft

Nachricht & Feedback

Informationsquelle Informationsziel

Sender Empfänger Nachrichtenkanal

Nachricht & Feedback

Abbildung 2.1: Kommunikationsmodell nach Shannon (1948), mit Erweite- rungen um Kontext (Littlejohn und Foss, 2008) sowie Feed- back (Schramm, 1954; Wood, 2011).

Vor Betrachtung des Inhalts und der Bedeutung einer Nachricht wird allerdings auf das Rollenverhältnis zwischen Sender und Emp- fänger eingegangen. Shannon definiert dies als lineares Modell, in dem ein Austausch von Informationen lediglich vom Sender zum Empfänger möglich ist. Schramm (1954) hingegen beschreibt ein in- teraktives Modell, in dem der Empfänger dem Sender wiederum Feedback gibt und somit ebenfalls zum Sender wird (der Sender wird dabei zum Empfänger). Dieser gegenseitige Austausch und die Folge an Nachrichten wird von Watzlawick u. a. (1967) als Interak- tion bezeichnet. Dem dritten Axiom von Paul Watzlawick zufolge Interaktion übernimmt ein Gesprächspartner meist die Gesprächsführung, wobei der andere eine untergeordnete Rolle des Antwortgebers einnimmt. Die Initiative der Kommunikation liegt somit zumeist bei einem Ge- Initiative sprächspartner. Im interaktiven Kommunikationsmodell wird die Fol- ge der Nachrichten während der Interaktion nur sequentiell betrach- tet. Wood (2011) erweitert dieses zu einem transaktionalen Modell, welches den simultanen Nachrichtenaustausch berücksichtigt. Dieses Modell beinhaltet zusätzlich eine zeitliche Komponente und beachtet somit Änderungen des Kommunikationsverhaltens. Diese entstehen hauptsächlich durch das geteilte Wissen der Gesprächspartner unter- einander. Neben diesem ist der Kontext, wie zum Beispiel die Be- ziehung, Gruppenzugehörigkeit, Struktur und Gesellschaft, von ent- 12 anwendungsübergreifende mensch-maschine kommunikation

scheidender Bedeutung. Für eine ausführliche Betrachtung sei auf Littlejohn und Foss (2008) verwiesen.

2.1.2.1 Sprache als zentrales Element des Nachrichtenaustauschs Ein zentraler Punkt des Nachrichtenaustauschs ist der Inhalt und die Bedeutung einer Nachricht. Wie gesehen, kann die Übermittlung über verschiedene Arten und Weisen erfolgen, wobei die Informati- onskodierung sowie -dekodierung zueinander kompatibel sein müs- sen. Hierbei verständigen sich der Sender und Empfänger auf Re- geln, wie zum Beispiel einer gemeinsamen Sprache (Fromkin u. a., 2002). Dies schränkt die Art des Nachrichtenkanals in keinster Weise auf rein auditive Signale ein, sondern kann auch über einen haptisch oder visuellen Nachrichtenkanal erfolgen. Als Beispiel sei hier die Gebärdensprache aufgeführt. Semiotik Die Semiotik als Lehre der Zeichen und Symbole behandelt deren Zusammenhang und Bedeutung. Eine Sprache kann als eine bestimm- te Menge an Zeichen angesehen werden, die - mit gewissen Regeln - Objekte, Ideen, Zustände, Gefühle und Situationen beschreiben. Die Semiotik wird oftmals in drei Bereiche gegliedert : Syntaktik, Seman- tik und Pragmatik (Fromkin u. a., 2002; Littlejohn und Foss, 2008). Syntaktik Die Syntaktik beschäftigt sich mit Beziehungen verschiedener Sym- bole untereinander. Dies können zum Beispiel durch Grammatiken verknüpfte Wörter sein oder aber Gesten, die zu komplexen, non- Semantik verbalen Symbolen verbunden werden. Die Semantik betrachtet die Zuordnung von Symbolen zu ihrer Bedeutung. Es wird von zwei Welten ausgegangen, einer bestehend aus Symbolen und einer aus Objekten. Eine Person kann nun abhängig von ihrer gegenwärtigen Situation eine Zuordnung herstellen. Diese muss nicht immer eindeu- tig sein, so kann ein Symbol mehrere Bedeutungen haben (Homonym) oder aber mehrere Symbole die gleiche Bedeutung (Synonym). Oft- mals stehen Objekte auch in Verbindung zueinander. Die Beziehung Hyponym beispielsweise besteht zwischen einem allgemeinen Objekt (z.B. Tier) und einem Spezifischeren (z.B. Vogel, Säugetier, Fisch). Be- steht zwischen zwei Objekten ein Gegensatz, spricht man von einem Pragmatik Antonym. Pragmatik, als dritter Bereich der Semiotik, beschäftigt sich mit kontextuellen und persönlichen Unterschieden bei der Interpreta- tion von Symbolen. Sender und Empfänger müssen ein gemeinsames Verständnis der Beziehungen zwischen Symbol und Bedeutung erlan- gen, um erfolgreich kommunizieren zu können. Durch beispielsweise soziale oder kulturelle Unterschiede können sich diese Beziehungen von Mensch zu Mensch unterscheiden. Während der Kommunikati- on beachten Menschen diese Unterschiede und adaptieren ihre Spra- che in Abhängigkeit der Beziehung zum Gesprächspartner (zweites Axiom von Watzlawick u. a. (1967)). Ein wichtiger Bereich der Pragmatik ist die Sprechakttheorie. Die- se betrachtet die menschliche Sprache als Instrument, Handlungen 2.1 zwischenmenschliche kommunikation 13

(Akte) auszulösen. Zum Beispiel kann die Äußerung „Das Fenster ist offen“ eine Handlung, nämlich das Fenster zu schließen, beim Gesprächspartner auslösen. Die Sprechakttheorie wurde maßgeblich von John L. Austin geprägt und später von Searle (1969) erweitert. In dieser Arbeit sind die Unterschiede nicht von Relevanz und es wird somit lediglich die erweiterte Theorie nach Searle (1969) betrachtet. Ein Sprechakt wird hierbei in vier Teilakte untergliedert: Äußerungs- Sprechakttheorie akt, propositionaler Akt, illokutionärer Akt und perlokutionärer Akt. nach Searle Der Äußerungsakt umfasst das Äußern eines Satzes, bestehend aus mehreren Wörtern einer Sprache. In diesem bezieht sich der Spre- cher auf bestimmte Objekte (im obigen Beispiel „Das Fenster“) und ordnet diesen Eigenschaften zu (in obigem Beispiel „ist offen“). Diese Zuordnung wird propositionaler Akt genannt. Der illokutionäre Akt be- zeichnet die Absicht, mit welcher eine Satz formuliert wird. In erster Linie informiert der Sender seinen Gesprächspartner mit genanntem Satz über ein offenes Fenster, die Intention könnte allerdings sein „Bit- te schließe das Fenster“. Vollführt der Gesprächspartner diesen Akt, hat die Äußerung zu einer Handlung geführt, dem perlokutionären Akt.

2.1.3 Ausgewählte Theorien menschlicher Kommunikation

Bisher wurden die menschlichen Kommunikationsmöglichkeiten, so- wie der gegenseitige Informationsaustausch betrachtet. Doch auf Ba- sis welcher kognitiven Prozesse und Theorien bestimmen Menschen den Inhalt einer Kommunikation oder die Antwort auf eine Nach- richt? In diesem Abschnitt soll ein kurzer Überblick über für diese Arbeit relevanten Theorien gegeben werden. Grice (1975) formuliert ein kooperatives Interaktionsverhalten als allgemeine Regel zwischen Kommunikationspartnern. Er geht davon aus, dass während einer Interaktion einzelne Nachrichten in Abhän- gigkeit zueinander stehen. Für eine kooperative Kommunikation de- finiert er vier Maxime: Quantität, Qualität, Relevanz sowie Art und Grice’sche Maxime Weise. Bezüglich Quantität soll ein Kommunikationspartner nur so- viel Information wie nötig kommunizieren und nicht zu viel. Ein zen- traler Punkt stellt die Qualität einer Nachricht dar, lediglich wahre Beiträge folgen diesem Maxim. Zusätzlich sollte eine jede Nachricht relevant für die aktuelle Situation sein. Die Art und Weise, wie etwas gesagt wird, beschreibt die Verständlichkeit sowie die Deutlichkeit ei- ner Nachricht. Folgt eine Kommunikation diesen Regeln, kann von einer effizienten und erfolgreichen Kommunikation gesprochen wer- den. Eine erfolgreiche Umsetzung der Grice’schen Maxime setzt voraus, dass eine Kommunikationssituation (Umgebung, Gesprächspartner, Nachricht) interpretiert und auf Basis der Interpretation der Inhalt sowie die Art und Weise einer Nachricht gewählt wird. Pearce und 14 anwendungsübergreifende mensch-maschine kommunikation

Cronen entwickelten in den 70er Jahren die Theorie „coordinated ma- nagement of meaning“, welche Regeln zur Interpretation von Nach- richten und zum resultierenden Verhalten beschreibt (Pearce, 2004; Kontext Littlejohn und Foss, 2008). Die Regeln werden abhängig vom Kontext gewählt, welcher sich aus einer Kombination folgender Einzelkontex- te ergibt: Episode (aktuelle Umgebung und erlebte Ereignisse), Be- ziehung zum Gesprächspartner, Selbstbild und Kultur. Somit kann sich die Reaktion eines Menschen auf eine Nachricht je nach Kontext unterscheiden. Ein weiterer wichtiger Punkt ist das Thema einer Nachricht. Dem Thema Duden zufolge definiert sich Thema als „Gegenstand [..] eines Ge- sprächs“6. Jede sprachliche Äußerung besitzt ein Thema, jedoch kön- nen mehrere Äußerungen sich auf dasselbe beziehen (Hymes, 1962). Während eines Gesprächs ist es Gesprächspartnern somit möglich mit sprachlichen Äußerungen ein Thema aufrecht zu halten (engl. maintenance), es zu ändern (engl. change) sowie das Bisherige in ein Neues überzuleiten (engl. shading) (Stover und Haynes (1989), nach Aufrechterhaltung Klassifikation von Brinton und Fujiki (1984)). Beim Aufrechterhalten ei- eines Themas nes Themas gehört die aktuelle Äußerung direkt zum Thema der vor- herigen, wie zum Beispiel eine Bestätigung, die Beantwortung einer Frage, oder das Hinzufügen weiterer Informationen zum Thema. Das Abrupte Änderung Ändern eines bestehenden Themas erfolgt durch eine Äußerung, welche eines Themas dieses einführt und abrupt zum Themenwechsel führt (übersetzt aus Stover und Haynes (1989)):

Sprecher 1: „Die Kinder spielen den größten Teil des Tages im Boot.“ Sprecher 2: „Ich muss gehen und einige Geburtstagskarten kaufen.“

Überleitung Bei einer Überleitung eines Themas wird ein Aspekt einer vorherigen eines Themas Äußerung aufgegriffen und dadurch ein Themenwechsel eingeleitet (übersetzt aus Stover und Haynes (1989)):

Sprecher 1: „Der Test letzte Woche war sehr schwer, nie- mand unserer Klasse erwartet ein gutes Ergeb- nis.“ Sprecher 2: „Unsere Klasse geht nächste Woche auf einen Ausflug.“ Der Aspekt Klasse wird somit aus der vorherigen Äußerung aufge- griffen und leitet zum Thema der Klassenaktivitäten über. Dies wird als weicher Übergang zwischen Themen angesehen, erfordert von den Gesprächspartnern allerdings ausgefeilte, linguistische Fähigkei- ten (Caissie, 2002). Oftmals wird dabei auf Aspekte Bezug genom- men, ohne welche ein Verständnis der aktuellen Äußerung nicht mög-

6 Bibliographisches Institut GmbH, Dudenverlag, http://www.duden.de/ rechtschreibung/Thema [Online 12.12.2014] 2.2 mensch-maschine dialog 15 lich ist (Stover und Haynes, 1989; Halliday und Hasan, 2014). Diese Beziehung kann auf syntaktischer, semantischer und pragmatischer Ebene erfolgen und wird als Kohärenz bezeichnet (Carstensen u. a., Kohärenz 2010). Anaphern sind dabei die Referenzausdrücke, die auf ein Ele- Anapher ment einer vorhergehenden Äußerung Bezug nehmen.

2.2 mensch-maschine dialog

Im vorherigen Abschnitt wurde Kommunikation und Interaktion zwi- schen zwei menschlichen Gesprächspartnern betrachtet. Durch die ra- sante Entwicklung von elektronischen Geräten wurde eine effiziente Interaktion mit diesen in den letzten Jahrzehnten immer wichtiger. Das Themenfeld der HMI betrachtet, als Querschnittsdisziplin aus Informatik, Psychologie und Ingenieurswissenschaften, die Interakti- on mit einer Maschine, anstatt eines menschlichen Kommunikations- partners. Wie von Doran u. a. (2001) gezeigt, bestehen gewisse Unter- schiede zwischen dem Dialogverhalten in der zwischenmenschlichen Kommunikation und der Interaktion mit einer Maschine, auf welche im Folgenden eingegangen wird. In Abschnitt 2.2.1 wird zuerst ein allgemeines Modell der Interakti- on definiert und es werden mögliche Verständnisprobleme zwischen Mensch und Maschine präsentiert. Anschließend werden verschiede- ne Maschinenschnittstellen abhängig von ihrer Modalität zur Benut- zerinteraktion vorgestellt (siehe Abschnitt 2.2.2).

2.2.1 Interaktionsmodelle und mögliche Interaktionsfehler

Bereits im frühen Kindesalter lernt der Mensch den Umgang, bezie- hungsweise die Interaktion, mit Dingen der realen Welt. Dies kön- nen im einfachen Fall zum Beispiel Schalter, Schubladen, Hebel oder Schieberegler sein. Für Maschinen werden diese Bedienelemente oft- mals aufgegriffen, um die Erfahrungen zu nutzen und somit eine ein- fache, intuitive Bedienung zu ermöglichen. Die HMI ist dadurch ein Teilgebiet der Interaktion zwischen Mensch und Umwelt und folgt den Regeln des allgemeinen Interaktionszyklus nach Norman (2002), Interaktionszyklus wie in Abbildung 2.2 dargestellt. Norman definiert als oberstes Element das Ziel, welches ein Mensch erreichen möchte. Um dieses Ziel zu erreichen, bedient er sich der Ausführung von Aktionen, die Einfluss auf die Welt nehmen und eine Änderung dieser hervorrufen. Ob nun diese Änderungen dem defi- nierten Ziel entsprechen, wird in der anschließenden Beurteilung ge- prüft. Aus dem Ergebnis können weitere Ziele entstehen. Nun sind Ziele oftmals unterspezifiziert, wie zum Beispiel „Öffne das Fenster“. Zum Erreichen dieses Ziels müssen zuerst Einzelaktionen (z.B. „Hin- laufen“, „Hebel bewegen“ und „Kippen“) bestimmt, geplant und aus- geführt werden. Somit setzt sich die Ausführung aus den drei Teil- 16 anwendungsübergreifende mensch-maschine kommunikation Kap 2: Norman Interaktionsmodell

Ziel

Ausführung Beurteilung

Bestimmung Vergleich

Planung Interpretation

Durchführung Wahrnehmung

Welt

Abbildung 2.2: Interaktionszyklus nach Norman (2002).

bereichen Bestimmung, Planung und Durchführung zusammen. Auf der Seite der Beurteilung kann auch eine Gliederung in drei Teilberei- che vorgenommen werden: die Wahrnehmung der Änderung, deren Interpretation und der Vergleich zum erwünschten Ziel. Die Teile des Zyklus sind dabei keine fest vorgegebenen Schritte, vielmehr soll das Modell als ungefähre Beschreibung dienen. Weiterhin können sich Ziele mitten in der Ausführung ändern, zum Beispiel wenn jemand anderes aufsteht und das Fenster schließt. Zusätzlich kann der Zyklus an jeder Stelle beginnen. Nicht selten tritt der Fall ein, dass eine Än- derung der Welt ein (zuvor unvorhergesehenes) Ziel beim Menschen hervorruft. Anhand des Interaktionszykluses können zwei Fehlerquellen wäh- Interaktionsfehler rend einer Interaktion identifiziert werden, einerseits Ausführungs- fehler (engl. gulf of execution) und andererseits Beurteilungsfehler (engl. gulf of evaluation) (Norman, 2002). Auf Seiten der Ausfüh- rung kann es beispielsweise zur Diskrepanz zwischen Planung und menschlichem mentalen Modell kommen. Forrester (1971) definiert Mentales Modell als allgemeines mentales Modell ein persönliches Abbild, also eine bestimmte Sichtweise, der realen Welt, auf Basis dessen ein Mensch Entscheidungen trifft. Hierbei ist jedes Modell unvollständig, unprä- zise, individuell und ändert sich über die Zeit. Norman (2002) passt diese Definition an die HMI an, indem er die wahrnehmbaren Aktio- nen, Strukturen und Interaktionselemente als Bestandteile des menta- len Modells definiert, die ein Mensch durch Erfahrung, Training und Anleitung während der Interaktion erlernt. Auf Basis eines korrekten Modells ist es möglich, vor Ausführung einer Aktion ihren Effekt zu bestimmen, sowie bei unerwarteten Problemen eine Lösung zu finden (Bourguet, 2011). Beurteilungsfehler hingegen entstehen durch eine unzureichende Rückmeldung oder eine fehlerhafte Wahrnehmung, 2.2 mensch-maschine dialog 17 beziehungsweise Fehlinterpretation, des Zustandes. Für eine effizien- te und effektive Interaktion zwischen Mensch und Maschine müssen die Aspekte des Interaktionszyklus berücksichtigt, und Interaktions- fehler vermieden werden. Auf Grund der unterschiedlichen mentalen Modelle wird eine komplett fehlerfreie Bedienung nur schwer mög- lich sein, weshalb Fehlerbehandlungsstrategien im Systemdesign auf- gegriffen werden müssen (siehe Abschnitt 2.3.3).

2.2.2 Benutzerschnittstellen

Über die Jahrzehnte hinweg wurden aus einfachen Schaltern oftmals umfangreiche Bedienschnittstellen, welche verschiedene menschliche Sinne ansprechen können. Eine Bedien- beziehungsweise Benutzer- schnittstelle (UI, engl. für User Interface) ermöglicht es Nutzern ei- nem elektronischen Gerät (u.a. Computer, Smartphone, Auto, Wasch- maschine) Anweisungen zu geben sowie Informationen und Rück- meldungen zu erlangen. Die europäische Norm DIN EN ISO 9241-110 DIN 9241-110 definiert eine Benutzerschnittstelle (UI, engl. für User Interface) als „alle Bestandteile eines interaktiven Systems (Software oder Hardwa- re), die Informationen und Steuerelemente zur Verfügung stellen, die für den Benutzer notwendig sind, um eine bestimmte Arbeitsaufga- be mit dem interaktiven System zu erledigen“ (Deutsches Institut für Normung (DIN) e.V., 2008, S. 7). Untergliedert wird hierbei in, einer- seits Informationsdarstellung und andererseits Steuerelemente. Dies legt den Schluss nahe, die Begriffe Systemeingabe und Systemaus- gabe an bestimmte Hardwareklassen zu binden. Bei klassischen Paa- rungen, wie zum Beispiel Schalter-Statuslampe, Maus-Monitor, oder Joystick-Motor, ist diese Unterteilung durchaus gängig. Doch zuneh- mend gewinnen kombinierte Benutzerschnittstellen an Bedeutung, die, wie zum Beispiel ein berührungsempfindliches Display, gleich- zeitig Informationsdarstellung und Steuerung ermöglichen. Die Ein- teilung von Hardware in Eingabe und Ausgabegeräte verschwimmt somit zunehmend (Hinckley und Wigdor, 2012). In dieser Arbeit wer- den verschiedene Benutzerschnittstellen anhand der genutzten Sinne des Menschen klassifiziert. Die Begriffe Systemeingabe und System- ausgabe werden auf Basis des Informationsflusses definiert und nicht an bestimmte Hardwareklassen gebunden. Eine Nachricht vom Nut- Systemeingabe und zer zum Gerät wird als Systemeingabe und eine Nachricht vom Gerät -ausgabe zum Nutzer als Systemausgabe bezeichnet.

2.2.2.1 Klassifkiation von UIs anhand verschiedener Modalitäten Wie in Abschnitt 2.1.1 vorgestellt, verfügt der Mensch über verschie- dene Sinne zur Wahrnehmung von Informationen, sowie nonverbale und verbale Mechanismen zur Kommunikation. Für eine erfolgreiche Kommunikation zwischen Mensch und Maschine muss die Maschine nun passende Benutzerschnittstellen zu den menschlichen Kommuni- 18 anwendungsübergreifende mensch-maschine kommunikation

Modalität Beispiel Maschine Eingabe Ausgabe

Visuell Blick, Bilder Kamera Display Auditiv Sprache, Audio Mikrofon Lautsprecher Haptisch Druck, Oberflä- Tastatur, Maus, Vibration, Tem- che, Gesten Touchpad peratur

Tabelle 2.1: Abbildung von Hardwareklassen auf menschliche Sensormoda- litäten (nach Blattner und Glinert (1996)).

kationsmöglichkeiten bereitstellen. Blattner und Glinert (1996) identi- fizieren für die HMI wichtige menschliche Sensormodalitäten (siehe Modalität Tabelle 2.1). Unter Modalität wird dabei ein Nachrichtenkanal zwi- schen Mensch und Maschine verstanden, welcher zum Versand und Empfang einer Nachricht genutzt wird (Sutcliffe, 2012). Menschen be- nötigen zum Versand sowie zum Empfang von Nachrichten lediglich ihren Körper, wogegen Maschinen für jede Modalität auf verschie- dene Sensoren und Aktuatoren zur Systemeingabe und -ausgabe an- gewiesen sind (Blattner und Glinert, 1996). Tabelle 2.1 ordnet den menschlichen Sensormodalitäten Beispiele von klassischen Hardwa- reklassen zu. Neben den genannten Modalitäten verfügt der Mensch über zwei weitere wichtige Sinne: das Riechen und das Schmecken. Die olfaktorische Wahrnehmung ermöglicht es, einerseits emotiona- le (Corbin, 2008) und andererseits erinnernde (Chu und Downes, 2000) Reaktionen auszulösen. Die gustatorische Wahrnehmung steht in engem Bezug zur olfaktorischen und kann ähnliche Reaktionen bewirken (Ohloff und Thomas, 1971). Beide Modalitäten werden al- lerdings im Bereich der HMI bisher wenig eingesetzt, da sowohl tech- nische Schwierigkeiten bestehen (z.B. Produktion der Geruchs- und Geschmacksstoffe), als auch, bisher nicht kontrollierbare, menschli- che Faktoren (z.B. einheitliche Interpretation) existieren (Ba¸sdo˘gan und Loftin, 2009). Im Folgenden wird somit nicht näher auf diese Modalitäten eingegangen. Nicht direkt mit einer Modalität des Menschen verbunden, aber physiologische für die HMI zunehmend wichtiger, ist die physiologische Sensorik. Fort- Sensorik schritte in den Neurowissenschaften ermöglichen die Bedienung von Computern rein auf Basis von Gehirnaktivitäten (engl. Brain Com- puter Interfaces). Stark getrieben wurde diese Forschungsdisziplin durch den Wunsch, körperlich behinderten Personen die Möglich- keit zu geben, Prothesen oder Computer zu steuern (Wilson, 2012). Durch nichtinvasive Elektroenzephalografie kann die Gehirnaktivität gemessen und zur Steuerung, wie zum Beispiel eines Computercur- sors, eingesetzt werden (Machado u. a., 2010). Zunehmend gewinnen auch Biofeedback-Sensoren im Bereich der HMI Bedeutung. Sensoren 2.2 mensch-maschine dialog 19

zur Überwachung von Körperfunktionen7, wie zum Beispiel Herzfre- quenz, Puls, Hautleitwert oder Temperatur, dienen nicht mehr nur der reinen Information für Arzt oder Sportler, sondern beeinflussen aktiv die Interaktion zwischen Mensch und Maschine. Physiologische Sensoren ermöglichen eine zuverlässige Bestimmung der kognitiven Belastung, dem Stresslevel (Healey und Picard, 2005; Sun u. a., 2012) und dem emotionalen Empfinden von Menschen (Picard u. a., 2001; Wagner u. a., 2005; Healey, 2014). Der Bereich Affective Computing beschäftigt sich mit der Fragestellung, wie diese Informationen für Computer genutzt werden können, um eine natürliche und intelli- gente Interaktion zu erreichen (Picard, 1997). Das Messen der Werte stellt hierbei inzwischen weniger ein Problem dar als vielmehr die Interpretation und den Einsatz dieser Technologie (Wilson, 2012). Neben den verschiedenen Ein- und Ausgabegeräten ist die Soft- ware von entscheidender Bedeutung. Ein Display wird zum Beispiel erst zu einer bedienbaren Schnittstelle, wenn eine bestimmte Anzei- ge darauf dargestellt wird. Hinckley und Wigdor (2012) definieren eineUI daher als Komposition aus elektronischen Geräten, konzep- tionellen Modellen und Interaktionsschemata. Konzeptionelle Modelle Konzeptionelles beschreiben eine Anwendung auf abstraktem Level aus Nutzerper- Modell spektive, indem Konzepte identifiziert und in Beziehung zueinander gesetzt werden. Zusätzlich erfolgt eine Beschreibung der möglichen Operationen, sowie eine Abbildung auf die Aufgaben des Nutzers (J. Johnson und Henderson, 2011). Ein Interaktionsschema, oder auch Interaktionsmodell, umfasst verschiedene Ein- und Ausgabegeräte, auf Interaktionsschema Hardware- sowie Softwareseite, um dem Nutzer eine Möglichkeit zu geben, bestimmte Aufgaben des konzeptionellen Modells auszufüh- ren. Ein Beispiel stellt das Interaktionsschema Drag&Drop dar, wel- ches ein Verschieben von Elementen mittels Maus oder Touchpad be- schreibt (Hinckley und Wigdor, 2012). Über die Jahrzehnte hinweg haben sich verschiedenste Interaktions- schemata etabliert. Zu Beginn des Computerzeitalters waren Lochkar- ten und textbasierte Kommandozeilen vorherrschend. Mit fortschrei- tender technologischer Entwicklung wurden sie zunehmend von Gra- fischen Benutzeroberflächen (GUIs, engl. Graphical User Interfaces) abgelöst, welche, in Verbindung mit Display, Tastatur und Maus, bis heute in Büroumgebungen überwiegen. Durch rasante Fortschritte erhielten allerdings immer mehr elektronische Geräte Einzug in das tägliche Leben der Menschen. Ein kleiner Auszug stellen beispiels- weise folgende Geräteklassen dar: MP3-Player, Smartphone, SmartTV, Tabletcomputer, automobiles Infotainment-System oder intelligente Kleidung. Es ist offensichtlich, dass sich diese Geräte stark in Form, Ausstattung, Einsatzzweck und -situation unterscheiden. Ein MP3- Player kommt zum Beispiel ohne großes Display oder Tastatur aus,

7 http://www.hasomed.de/us/products/biofeedback-stressmessung/ nexus-systeme/nexus-sensoren.html [Online 25.11.2014] 20 anwendungsübergreifende mensch-maschine kommunikation

wogegen ein Tablet auf ein kontrastreiches Display zum Lesen bei Ta- geslicht angewiesen ist. Stark situationsabhängig sind Infotainment- Systeme im Fahrzeug, da der Fahrer nur begrenzte Modalitäten zur Verfügung hat und nicht vom Fahrgeschehen durch aufwendige GUIs abgelenkt werden sollte (siehe Abschnitt 2.3.4 sowie Maciej und Voll- rath (2009) und Hofmann, Tobisch u. a. (2014)). Hier bietet sich unter bestimmten Umständen eine Sprachbedienbare Benutzerschnittstel- le (VUI, engl. für Voice User Interface) an. Es gibt somit kein optimales Interaktionsschema oder Modalität für jede Situation beziehungsweise für jedes Gerät (Myers u. a., 2000; Hin- Situation, Gerät & ckley und Wigdor, 2012). Neben der Situation und dem Gerät sind die Nutzer jeweiligen Nutzer von entscheidender Bedeutung, welche sich in ihren Vorlieben hinsichtlich Interaktionsschemata unterscheiden (Oviatt, P. Cohen u. a., 2000; Schüssel u. a., 2014). Zusätzlich können Einschrän- kungen in einer Modalität (z.B. Seh- oder Hörschwäche) eine andere erfordern. In einer Studie mit älteren Personen zeigen Wright u. a. (2008), dass Menschen auf Basis ihrer kognitiven Fähigkeiten Modali- täten präferieren. Daraus ergibt sich die Notwendigkeit, dies bei der Entwicklung von Benutzerschnittstellen zu berücksichtigen und ver- schiedene Modalitäten sowie Interaktionsschemata mit Nutzern des Systems zu evaluieren.

2.2.2.2 Multimodale Benutzerschnittstellen Im Abschnitt 2.1.1.1 zur zwischenmenschlichen Kommunikation wur- de gezeigt, dass Menschen unterschiedliche Sinne oftmals in Kom- bination nutzen (z.B. Cocktailparty-Effekt). Dadurch kann einerseits fehlende Präzision einer Modalität ausgeglichen, und andererseits gezielt eine weitere Modalität zur Kommunikation eingesetzt wer- den. Im Bereich der HMI kann dies ebenso von Nutzen sein. Silsbee und Bovik (1996) zeigen zum Beispiel eine verbesserte Automatische Spracherkennung (ASR, engl. Automatic Speech Recognition) durch Kombination mit einem Modul, welches Lippenbewegungen analy- siert. Hinsichtlich Systemeingabe sind unzählige Kombinationen von Modalitäten bereits untersucht worden. Allen voran „Put-that-there“ von Bolt (1980), welcher eine Spracheingabe mit Gesten erweitert, um eine GUI zu steuern. Neben Natürlichkeit der Interaktion kann eine Kombination von Modalitäten auch die Effizienz steigern, wie zum Beispiel P. Cohen u. a. (1998) zeigen. Im Vergleich zu einer rein hapti- schen Schnittstelle absolvierten Nutzer Kartenaufgaben mit Stift und Spracheingabe um den Faktor 3,2 bis 8,7 schneller. Eine Vielzahl von Benutzerschnittstellen nutzen auch hinsichtlich der Systemausgabe verschiedene Modalitäten (für einen Überblick siehe Foster (2002)). SmartKom zum Beispiel kombinierte visuelle, haptische und auditive Systemausgaben durch einen anthropomorphen, persönlichen Agen- ten, welcher sich adaptiv an seinen Nutzer und dessen Situation an- passt (Reithinger u. a., 2003). Die Nutzung mehrerer Modalitäten als 2.3 grundlagen und stand der technik 21

Systemeingabe beziehungsweise Systemausgabe wird im Folgenden als multimodal bezeichnet. multimodal In multimodalen Benutzerschnittstellen stellt sich allerdings das Problem, wann welche Modalität für bestimmte Informationen ge- nutzt werden soll, und wie diese Modalitäten zusammenspielen. Ein Nutzer kann zum Beispiel bei der Systemeingabe über verschiede- ne Modalitäten widersprüchliche oder redundante Informationen zur Verfügung stellen, welche entsprechend klassifiziert und verarbeitet werden müssen. Der Prozess zur Verarbeitung verschiedener Sens- ordaten nennt man im Bereich der HMI multimodale Fusion. Hier- Fusion bei kann zwischen früher und später Fusion unterschieden werden (Atrey u. a., 2010). Die frühe Fusion agiert rein auf Basis der Sensor- werte, das heißt vor Interpretation deren. Bei der späten Fusion wird jeder Eingabewert zuerst einzeln interpretiert und anschließend, auf Basis seines semantischen Inhalts, mit anderen fusioniert. Ein ähn- licher Prozess, multimodale Fission genannt, bestimmt, mit welcher Fission Modalität eine Information dem Nutzer präsentiert werden soll. Mul- timodale Fission und Fusion hängen von einer Vielzahl an Faktoren, wie zum Beispiel der Situation und des jeweiligen Nutzers, ab (für ei- ne genaue Betrachtung von Fusion und Fission sei auf Honold (unver- öffentlicht), Schüssel (unveröffentlicht), Turk (2014) und Lalanne u. a. (2009) verwiesen). Wie in Abschnitt 2.2.2.1 gezeigt, ist die Wahl einer Modalität stark von der Situation, in der sich ein Nutzer befindet, ab- hängig. Ebendies gilt auch für die Fission und Fusion von Modalitä- ten. Eine rein auditive Informationspräsentation ist zum Beispiel für den Fahrer eines Autos weniger ablenkend als eine visuelle (Jensen u. a., 2010). Sitzen hingegen weitere Personen im Fahrzeug, sollten private Informationen nicht unbedingt auditiv für alle wahrnehmbar sein und unter Umständen nur für den Fahrer visuell im Display ein- geblendet werden. Wie von Oviatt, P. Cohen u. a. (2000) gezeigt, gibt es auch hinsichtlich der Nutzer Unterschiede. Sie typisieren Nutzer anhand ihrer temporalen Interaktionsmuster bezüglich kombinierter Eingabemodalitäten in sequentiell und simultan. Schüssel u. a. (2014) hingegen zeigen, dass diese Klassifikation im Allgemeinen zu stark vereinfacht ist. In einer Studie wiesen sie stark nutzerindividuelle Un- terschiede der Interkationsmuster nach.

2.3 grundlagen und stand der technik

Wie in vorherigem Abschnitt gezeigt, können Benutzerschnittstellen unterschiedliche Sinnesmodalitäten des Menschen ansprechen. In der vorliegenden Arbeit werden in erster Linie VUIs betrachtet, welche eine auditive Modalität nutzen und somit die Bedienung einer Ma- schine mittels Sprache ermöglichen. Die Technologie zur Umsetzung einer VUI wird Sprachdialogsystem (SDS) genannt. 22 anwendungsübergreifende mensch-maschine kommunikation

Im Folgenden wird ein Überblick über Sprachdialogsysteme im Architektur, Dialog Allgemeinen gegeben und es werden bestehende Architekturen, Dia- und Anwendung logstrategien und Anwendungen betrachtet. Waren Sprachdialogsyste- me früher eher einfache Kommandosysteme, nimmt ihre Komple- xität heutzutage stetig zu. Nicht selten ermöglicht ein SDS Zugriff auf eine Vielzahl an Anwendungen, wie in Abschnitt 2.3.2 präsen- tiert. Doch je komplexer ein SDS, desto wahrscheinlicher treten Ver- ständnisprobleme auf, weshalb Fehlerbehandlungsstrategien an Be- deutung gewinnen (siehe Abschnitt 2.3.3). Während auf mobilen Ge- räten oder per Telefon sich Nutzer hauptsächlich mit deren Bedie- nung auseinandersetzen und sich somit darauf konzentrieren, muss im Fahrzeug die Bedienung neben der Fahraufgabe erfolgen. In Ab- schnitt 2.3.4 wird aus diesem Grund auf Ablenkungsaspekte einge- gangen und diese in Relation zur Sprachbedienung gesetzt. Der dar- auffolgende Abschnitt 2.3.5 analysiert schließlich bestehende Imple- mentierungen von Sprachdialogsystemen in Fahrzeugen sowie beste- hende Forschungsprojekte.

2.3.1 Sprachdialogsysteme

Seit Mitte der 80er Jahre existieren interaktive Sprachsysteme (engl. Interactive Voice Response), welche über Telefon einfache Komman- dos des Nutzers interpretieren und über Audioausgabe antworten. Diese sprachbedienbaren Systeme setzen auf einer Auswahl von Menü- einträgen auf (Wyard u. a., 1996). Für jede Funktion der zu steuern- den Anwendung werden Kommandoworte definiert. Nach Becker Kommandowort- (2010) werden diese Kommandowortsysteme allerdings nicht als echte systeme Dialogsysteme betrachtet, da sie lediglich die definierten Komman- doworte verstehen. Der Nutzer muss folglich diese zur Bedienung dialogische kennen und verwenden. Eine dialogische Interaktion wird erforderlich, Interaktion wenn die Nutzereingabe nicht direkt zum vordefinierten Kommando- wort einer Anwendungsfunktion passt, wie zum Beispiel: inkremen- telle Eingaben, Klärungsfragen, Wiederholungen oder Hilfe.

2.3.1.1 Struktur von Sprachdialogsystemen Die Struktur eines Sprachdialogsystems (SDS) untergliedert sich in der Regeln in verschiedene Module, einerseits anhand des Eingabe- und Ausgabekanals, andererseits, anlehnend an die Semiotik und Sprechakttheorie, in Symbol-, Semantik-, Planungs- und Ausführungs- ebene. Im Bereich der Sprachdialogsysteme spricht man hierbei von folgenden Modulen: Automatische Spracherkennung (ASR, engl. Au- tomatic Speech Recognition), Verständnis gesprochener Sprache (SLU, engl. Spoken Language Understanding), Dialogmanager, Präsentati- onsplanung und Sprachsynthese (TTS, engl. Text to Speech Synthesis) (McTear, 2002; Jokinen und McTear, 2010). Jedoch ist diese Aufteilung nicht exklusiv auf die auditive Modalität beschränkt, sondern oftmals 2.3 grundlagen und stand der technik 23 unabhängig der Modalität mit zusätzlicher Fusions- und Fissions- komponente umgesetzt (vgl. Becker (2010)). Im Allgemeinen kann somit die ASR als Analyse, das SLU als Interpretation und die TTS als Generierung bezeichnet werden. Wie Abbildung 2.3 zu entneh- men, ist eine mögliche Verbindung der Module, sie sequentiell zu reihen. Diverse Arbeiten betrachten weitere Verbindungen der Modu- le (zum Beispiel Wyard u. a. (1996), Seneff, Hurley u. a. (1998) oder Pellom u. a. (2000)), was jedoch in dieser Arbeit nicht weiter von Re- levanz ist. Kann bei einfachen Dialogsystemen der Dialogmanager direkt auf die Schnittstelle zur Anwendungsprogrammierung (API, engl. Application Programming Interface) zugreifen, wird im kom- plexen Dialogsystem ein Modul zur Anwendungsanbindung erforder- Anwendungs- lich (in Abschnitt 4.1.3 als Teil des Taskmanagers definiert), welches anbindung die Aktionen des Aufgabenmodells in einzelne Schritte umsetzt und die Anwendung ansteuert (Becker, 2010)).

Dialogsystem Fusion Erkennung /

Interpretation Anwendungs

Analyse Anwendung anbindung

Dialogmanager API

Fission - Präsentations- Generierung planung

Abbildung 2.3: Struktur eines Sprachdialogsystems nach Becker (2010).

Anhand der Struktur eines Sprachdialogsystems wurden verschiede- ne Module erwähnt, welche im Folgenden näher erläutert werden. SDS-Module Dieses Kapitel betrachtet in erster Linie die Theorie, wogegen eine technische Betrachtung Abschnitt 4.1.3 zu entnehmen ist. Da diese Arbeit in erster Linie den Dialogmanager und das Aufgabenmodell der Anwendungsanbindung betrifft, sind die weiteren Module ledig- lich in Kürze behandelt. Für genauere Beschreibungen sei auf McTe- ar (2002), Becker (2010), Wyard u. a. (1996) und Jokinen und McTear (2010) verwiesen.

Automatische Spracherkennung: Die sprachliche Eingabe des Nut- zers liegt als Schallsignal vor, welches gefiltert, analysiert und Vom Schallsignal zu schlussendlich einem definierten Satz an Symbolen zugeordnet Symbolen wird. Diese können im einfachsten Fall eine Sequenz an Wörter bilden oder aber komplexere Strukturen mit mehreren Hypothe- sen. Die Sprachabdeckung für einen Spracherkenner kann auf zwei Arten definiert werden, erstens mittels einer regelbasier- ten Grammatik oder zweitens durch ein statistisches Sprachmo- dell. Eine regelbasierte Grammatik definiert alle als Eingabe mög- regelbasierte lichen Konstituenten, sowie Regeln, wie diese miteinander kom- Grammatik biniert werden können. Während dies bei einem SDS mit gerin- 24 anwendungsübergreifende mensch-maschine kommunikation

ger Funktionalität vergleichsweise einfach zu bewerkstelligen ist, erfordern komplexe Sprachdialogsysteme viel Expertenwis- sen (McTear, 2002), da Menschen identische Anfragen auf unter- schiedlichste Weise ausdrücken (Fromkin u. a., 2002). Ein statis- statistisches tisches Sprachmodell hingegen berechnet Übergangswahrschein- Sprachmodell lichkeiten zwischen Wörtern. Um die Qualität zu sichern, müs- sen hierfür umfassende und verschiedenartige Trainingsdaten- sätze erfasst werden. Dies wird seit längerem in der domänen- unabhängigen Verschriftung (z.B. in Diktiererkennern) genutzt, jedoch zunehmend auch als Analyseverfahren im SDS einge- setzt. Hofmann, Ehrlich, Reichel u. a. (2013) zeigen die Robust- heit von domänenunabhängigen statistischen Verfahren für die Spracherkennung im dialogorientierten SDS (engl. conversatio- nal SDS).

Verständnis gesprochener Sprache: Zum Verständnis einer Nutzer- äußerung muss die Ausgabe der ASR interpretiert und ihre Be- deutung bestimmt werden. Im Allgemeinen wird zwischen syn- taktischer und semantischer Interpretation unterschieden (Mc- syntaktische Tear, 2002). Die syntaktische Interpretation ermittelt die Konstitu- Interpretation enten einer Äußerung und deren Struktur. Neben Eigenschaf- ten, wie zum Beispiel Wortart und Numerus, enthält eine syn- taktische Grammatik zusätzlich Regeln zu möglichen Abhän- gigkeiten zwischen Konstituenten. Die eigentliche Bedeutung semantische der Konstituenten stellt die semantische Interpretation fest. Ähn- Interpretation lich einer syntaktischen Grammatik werden Regeln definiert, welche die semantische Bedeutung beziehungsweise die Funkti- on der Konstituenten, in Form von Kategorien beschreibt (Joki- nen und McTear, 2010). Diese können domänenspezifisch und bei einer Flugbuchung zum Beispiel Fluglinie, Abflugsort und Zielort sein. Als Resultat der semantischen Interpretation wird für gewöhnlich der Wert einer Eingabe der entsprechenden Ka- tegorie zugeordnet, wie zum Beispiel: „Abflugsort=Berlin“.

Dialogmanager: Als zentrales Modul plant der Dialogmanager die Kommunikation zwischen Mensch und Maschine. Auf Basis der Interpretationsergebnisse sowie des Kommunikationskontextes entscheidet der Dialogmanager über den weiteren Fortgang des Dialogs. Hierfür kann eine Untergliederung in die zwei Kompo- nenten Dialogkontext und Ablaufkontrolle stattfinden (Jokinen Dialogkontext und McTear, 2010). Der Dialogkontext behält den Gesamtüber- blick der Konversation und beinhaltet die bisher mit dem Nut- zer ausgetauschten Informationen. Er stellt somit das geteilte Wissen zwischen Mensch und Maschine dar, welches zur wei- teren Interpretation und Entscheidungsfindung genutzt wird. Die Entscheidung zum Fortgang des Dialogs trifft die Ablauf- Ablaufkontrolle kontrolle, welche, über definierte Regeln oder statistische Verfah- 2.3 grundlagen und stand der technik 25

ren, auf die interpretierte Nutzereingabe reagiert. Zum Beispiel kann bei Interpretationen mit schlechter Konfidenz eine expli- zite Verifikation beim Nutzer erfolgen. Liegen genügend Infor- mationen zur Anfrage an eine externe Anwendung vor, voll- zieht der Dialogmanager diese und kann das Resultat an den Nutzer weitergeben (McTear, 2002). Mögliche Dialogstrategien für einen Dialogmanager werden nachfolgend behandelt. Die technische Seite des Dialogmanagers wird in Kapitel 4.1.3 be- trachtet.

Aufgabenmodell und Anwendungen: Nutzer bezwecken durch In- teraktionen mit einem SDS bestimmte Interaktionsziele zu er- reichen. Sie stellen hierzu verschiedene Aufgaben an ein SDS. Zur Erfüllung derer werden in der Regel externe Anwendungen externe benötigt, für welche das Dialogsystem alsUI dient. Wyard u. a. Anwendungen (1996) bezeichnet dies als Datenbankanfrage oder -transaktion, was jedoch heutzutage breiter gefasst werden muss. Prinzipi- ell kann jede beliebige Anwendung, wie zum Beispiel Webser- vices, Anwendungslogiken oder Steuergeräte im Fahrzeug, mit- tels API in ein SDS integriert werden. Die eigentliche Imple- mentierung dieser Anwendungen ist allerdings nicht Teil der vorliegenden Arbeit. Wie erwähnt, bildet im komplexen Dialog- system ein Aufgabenmodell die Verbindung zwischen Dialog und Aufgabenmodell Anwendungen. Das Modell setzt Aufgaben des Nutzers, wie zum Beispiel „eine Sendung aufzeichnen“, in einzelne Aktio- nen um, welche die API der Anwendung unterstützt (Becker, 2010). Somit enthält das Modell alle steuerbaren Einzelaktio- nen der Anwendung. Eine Verarbeitung kann einerseits im Dia- logmanager erfolgen oder in einem speziellen Modul. Das Ra- venClaw-Dialogmanagementsystem setzt zum Beispiel auf ei- ne strikte Trennung zwischen domänenspezifischen Aspekten und ein davon unabhängiges allgemeingültiges Dialogverhalten (Bohus und Rudnicky, 2009). Ein ähnlicher Ansatz verfolgt die- se Arbeit, durch modellbasierte Spezifikation des Aufgabenmo- dells mit Verarbeitung in einem speziellen Modul, Taskmanager Taskmanager genannt (siehe Abschnitt 4.1.3).

Präsentationsplanung: Nachdem vom Dialogmanager eine Ausga- be an den Nutzer initiiert wird, muss die Präsentationsplanung die konkrete Information erstellen. Nach Jokinen und McTear (2010) beinhaltet dies zuerst eine inhaltliche Ausarbeitung, das inhaltliche heißt, welche Information dem Nutzer mitgeteilt wird, und an- Ausarbeitung schließend die Realisierung der Information. Hierbei können unter anderem Dialogkontext und Nutzerpräferenzen mit ein- bezogen werden.

Generierung: Im Falle einer sprachlichen Ausgabe durch das SDS muss die, von der Präsentationsplanung erstellte Information, 26 anwendungsübergreifende mensch-maschine kommunikation

in ein Sprachsignal umgewandelt werden. Zwei gängige An- aufgenommene sätze sind, zuvor aufgenommene Sprachsamples abzuspielen oder Sprachsamples oder einen freien Text mittels TTS umzuwandeln (Jokinen und Mc- TTS Tear, 2010). Speziell bei dynamischen Daten ist eine vorherige Aufnahme an Sprachsamples nicht möglich und erfordert eine generische TTS, welche auf Basis einer linguistischen Analyse des Textes und einer prosodischen Beschreibung ein Sprachsi- gnal erzeugt (McTear, 2002).

2.3.1.2 Dialogstrategien Wie in Abschnitt 2.1.2 betrachtet, kann jeder menschliche Gesprächs- partner die Initiative eines Gesprächs ergreifen. Zusätzlich ist es üb- lich, dass die Gesprächsführung während eines Gesprächs wechselt. Das sollte in der HMI auch möglich sein und muss daher vom Dia- Dialoginitiative logmanager unterstützt werden. Die Dialoginitiative eines Sprachdia- logsystems kann somit klassifiziert werden in: vom Nutzer geführter, vom System geführter oder gemischt-geführter Dialog (McTear, 2002; Karat u. a., 2012). Jede dieser Dialogvarianten hat verschiedene Aus- prägungen und unterschiedliche Einsatzfelder, welche im Folgenden erörtert wird.

System-geführter Dialog: Diese Art der Dialoginitiative stellt das System in den Vordergrund und weist Nutzern ein passive Rol- le zu (Karat u. a., 2012). Das System bestimmt den Dialogab- direkte Fragen lauf durch Stellung von direkten Fragen (engl. directed prompts), worauf Nutzer antworten müssen, um den Dialog fortzusetzen. Durch gezielte Formulierung der Frage wird die Antwortvari- anz eingeschränkt, was früher auch den technischen Möglich- keiten von Sprachdialogsystemen geschuldet war (Kamm, 1995). Das Folgende Beispiel zeigt einen vom Navigationssystem ge- führten Dialog:

System: „Wie lautet der Zielort?“ Nutzer: „Ulm“ System: „Ok Ulm, wie lautet die Straße?“ Nutzer: „James-Frank-Ring“ System: „Navigation nach Ulm, James-Frank-Ring starten? Sagen Sie nein für Korrekturen.“ Nutzer: „Ja“ Durch die Restriktion der Spracherkennergrammatik auf die vorgegebenen Antwortmöglichkeiten ist es Nutzern nicht mög- lich, mehr Informationen als erfragt zur Verfügung zu stellen. Ebenso lassen sich keine neuen Themen einführen, was zu ei- unflexibler Dialog nem unflexiblen Dialog führt (McTear, 2002; Jokinen und McTear, 2010). Jedoch zeigt ein vom System geführter Dialog speziell 2.3 grundlagen und stand der technik 27

bei Novizen, welche keine Erfahrung vorweisen, Vorteile (Karat u. a., 2012).

Nutzer-geführter Dialog: Im Gegensatz zum vom System geführten Dialog bestimmt im nutzer-geführten Dialog alleinig der Nut- zer die nächsten Dialogschritte. An das System werden somit offene Fragen gestellt und es übernimmt hierbei die Rolle des System als Antwortgebers. Das folgende Beispiel zeigt einen nutzergeführ- Antwortgeber ten Dialog einer Navigationsanwendung:

Nutzer: „Navigation nach Ulm zum James-Frank- Ring.“ System: „Ok, Navigation zum James-Frank-Ring in Ulm wird gestartet.“ Nutzer: „Aber bitte nicht über die Autobahn.“ System: „Routenoptionen geändert, keine Autobahn.“ Diese Dialogvariante erfordert ein vom Nutzer eindeutiges men- tales Modell des Systems, das heißt, was es versteht und was nicht. Somit ist diese Art der Dialogführung eher für Experten zu nutzen als für Systemneulinge (Karat u. a., 2012).

Gemischt-geführter Dialog: Nach Karat u. a. (2012) ist ein gemischt- geführter Dialog die einfachste und natürlichste Art und Weise für Nutzer ein SDS zu bedienen. Die Vorteile beider zuvor ge- nannter Dialoginitiativen werden kombiniert. Wie im zwischen- menschlichen Dialog kann, abhängig vom aktuellen Dialogkon- text, entweder das System oder der Nutzer die Dialoginitiative er- Dialoginitiative greifen. Somit wird der Nutzer nicht in seinen Äußerungen ein- durch System oder geschränkt, kann Informationen in beliebiger Reihenfolge zur Nutzer Verfügung stellen und dem System wird ermöglicht, bei unprä- zisen Äußerungen, effektiv nachzufragen. In folgendem Dialog liegt zuerst die Initiative beim Nutzer, wechselt allerdings auf Grund unvollständiger Informationen zum System:

Nutzer: „Navigation nach Ulm.“ System: „Zu welcher Straße in Ulm möchten Sie?“ Nutzer: „Zum James-Frank-Ring bitte.“ System: „Soll die Navigation zum James-Frank-Ring gestartet werden?“ Nutzer: „Ja, aber bitte ohne Autobahn.“ System: „Routenoptionen geändert, keine Autobahn.“ Wie in der Bestätigung des Nutzers zu sehen, ermöglichen ge- mischt-geführte Dialoge in der Regel mehr Informationen als erfragt zur Verfügung zu stellen. Dies wird als Überbeantworten Überbeantworten (engl. over-answering) bezeichnet (Jokinen und McTear, 2010). Ein gemischt-geführter Dialog ist somit ein guter Kompromiss für Experten und Neulinge. 28 anwendungsübergreifende mensch-maschine kommunikation

Adaptiver Dialog: Wie bereits erwähnt, ist die einzusetzende Dia- logstrategie unter anderem vom Erfahrungswert des Nutzers adaptive abhängig. In der aktuellen Forschung sind dadurch adaptive Dia- Dialogstrategie logstrategien, welche sich an Nutzer und deren Situation anpas- sen, im Fokus. Bertrand (2014) zum Beispiel entwickelte einen adaptiven Dialogmanager, der den Dialogfluss abhängig von kontextuellen Informationen, wie Emotionen des Nutzers, an- passt. Weiterhin stellte sich eine Anpassung und Systemerklä- rung hinsichtlich der Kenntnisse jeweiliger Nutzer, ihrer Elo- quenz und ihrer aktuellen Situation als vorteilhaft heraus (Noth- durft, 2016).

Vom technischen Aspekt her stellen nutzer-geführte, gemischt-geführ- te und adaptive Dialoge hohe Anforderungen an die ASR, das SLU und den Dialogmanager, da die möglichen Nutzereingaben nur be- grenzt eingeschränkt werden können.

2.3.1.3 Verschiedene Arten an Sprachdialogsystemen Seit Anfang der 90er Jahre wurden eine Vielzahl an Sprachdialogsys- temen für unterschiedlichste Einsatzzwecke mit verschiedenen Dia- logstrategien entwickelt (Jokinen und McTear, 2010). Hierbei verfolg- ten Wissenschaft und Industrie zu Beginn nicht dieselben Ansätze (Pieraccini und Huerta, 2005). Während in wissenschaftlicher For- schung Natürlichkeit und uneingeschränkte Kommunikation im Vor- dergrund standen, beschränkten sich industrielle Implementierungen auf pragmatische Werte, wie Gebrauchstauglichkeit und Aufgaben- erfolg. Durch die anfangs limitierte Leistung von Sprachdialogsyste- Korrelation men und die starke Korrelation von Nutzerzufriedenheit zu SDS-Präzision Zufriedenheit und sind für viele Anwendungen Natürlichkeit sowie uneingeschränkte Präzision Kommunikation hinderlich (Oviatt, 1995; Williams und Witt, 2004; Pieraccini, Suendermann u. a., 2009). Somit ist der technische Fort- schritt über die Jahre entscheidend für die Entwicklung von Sprach- dialogsystemen. Im Folgenden wird, von den ersten telefonbasier- ten Sprachdialogsystemen, über Sprachdialogsysteme zur Bedienung von Geräten, bis hin zu Companion-Systemen, die technische Ent- wicklung aufgezeigt. telefonbasiertes SDS Die ersten Sprachdialogsysteme waren telefonbasiert (engl. IVR, In- teractive Voice Response), zur Ablösung von menschlichen Operato- ren. In einem strikt system-geführten Dialog konnten Anrufer zwi- schen einzelnen Menüeinträgen auswählen, um einerseits Informatio- nen zu erlangen oder andererseits Transaktionen auszuführen (Wy- ard u. a., 1996). In für den Nutzer vertrauten Domänen, wie zum Beispiel Pizzabestellungen, Telefonbanking oder Flugauskünfte sind system-geführte, einfache Dialoge ausreichend (Pieraccini und Huer- ta, 2005). Bei umfangreichen Anwendungen kann eine Auswahlliste an Menüeinträgen allerdings lang werden. Aus diesem Grund stel- 2.3 grundlagen und stand der technik 29

len viele Sprachdialogsysteme eine offene Frage an den Nutzer, wie zum Beispiel „Wie kann ich Ihnen helfen?“, welche natürliche Nut- zereingaben ermöglicht. Auf Basis deren erfolgt eine Klassifikation und ein anschließend system-geführter Dialog (Jokinen und McTear, 2010). Diese Dialogvariante implementiert zum einen das automati- sche Zugauskunftssystem von Philips (Aust u. a., 1994) und zum an- deren „How may I help you?“ von AT&T (Gorin u. a., 1997) zur Ver- mittlung von Anrufern. Komplexere Aufgaben, wie zum Beispiel eine Flugbuchung oder Problemlösung, erfordern hingegen eine Koopera- Kooperation tion, bei welcher der Nutzer bestimmte Nachfragen stellt. Seneff und Polifroni (2000) implementierten im „MIT Mercury System“ ein ge- mischt-geführtes Flugbuchungssystem, in welchem Nutzer zwar vom System geführt werden, allerdings Fragen wie „Um welche Uhrzeit ist der Abflug?“ stellen können. Während früher lokale Systeme, wie Desktopcomputer oder Mo- biltelefone, nicht über genügend Leistung für ein SDS verfügten und somit auf eine Telefonanbindung angewiesen waren, sind heute die- se portablen Systeme in der Lage ein SDS zu integrieren. Dies ermög- portable Systeme licht, neben Informationsabfragen, Transaktionen und Problemlösun- gen, zusätzlich eine Bedienung des elektronischen Gerätes per Spra- che. In nahezu allen Lebensbereichen finden sich inzwischen sprach- bedienbare Produkte oder Forschungsprototypen, wie beispielswei- se „Hermine“, die sprechende Waschmaschine (Hummel, 2003). Ne- ben reinen Kommandoworten zur Systembedienung ermöglicht die Waschmaschine eine Beratung zur Fleckenentfernung und Wäsche- sortierung. Ein weiteres Beispiel ist ein intelligenter Küchenherd mit Rezeptführung (Reichel, Müller u. a., 2011), welcher eine freihändige Bedienung durch Sprache ermöglicht. Zumeist besitzen diese elektro- nischen Geräte allerdings schon eineUI, welche mit dem SDS in Ein- klang gebracht werden muss. Die Kombination von verschiedenen Mo- Kombination von dalitäten betrachten bereits eine Vielzahl von Forschergruppen und Modalitäten Forschungsprojekten (z.B. SmartKom (Wahlster, 2006), SFB Transre- gio 628 oder GetHomeSafe (GHS)9). Klassisch ist beispielsweise der Anwendungsfall einer Routenplanung mit einem SDS, Touch-Einga- be und grafischer Ausgabe (Hurtig und Jokinen, 2006). In dieser Ar- beit hingegen wird Multimodalität nur zur Unterstützung der audi- tiven Modalität, durch eine visuelle Repräsentation in Fehlerbehand- lungsstrategien eingesetzt, für einen Überblick multimodaler Benut- zerschnittstellen sei daher auf Turk (2014) verwiesen. Ein wichtiger Aspekt portabler elektronischer Geräte ist ihr mobi- ler Einsatz und damit spezielle Anforderungen an das mobile SDS, mobile SDS zum Beispiel eine Adaption an die aktuelle Situation. Als eines der ersten Projekte revolutionierte SmartKom (Wahlster, 2006) die Bedie- nung von mobilen und stationären Geräten durch einen multimoda-

8 http://www.sfb-trr-62.de/ [Online 20.06.2015] 9 http://www.gethomesafe-fp7.eu/ [Online 20.06.2015] 30 anwendungsübergreifende mensch-maschine kommunikation

len Avatar (engl. conversational embodied agent) als ganzheitliche UI zu verschiedenen Anwendungen. Je nach Situation des Nutzers (PDA, Heimcomputer, öffentliches Display) wählt der Avatar unter- schiedliche Interaktionsformen. Dies zeigt die Wichtigkeit, auf die Situation des Nutzers zu reagieren (Reithinger u. a., 2003). In der vorliegenden Arbeit wird ein einheitliches Interaktionsschemata im Fahrzeugumfeld betrachtet, weshalb Abschnitt 2.3.5 explizit auf si- tuationsadaptive Arbeiten im Fahrzeug eingeht. Sprachdialogsysteme können in aufgabenorientierte und nicht-auf- gabenorientierte Systeme untergliedert werden (Jokinen und McTear, aufgabenorientiert 2010). Der aktuelle Abschnitt stellte bisher hauptsächlich aufgabenori- entierte Sprachdialogsysteme vor, welche es Nutzern ermöglichen, be- stimmte Aufgaben auszuführen. Hingegen erlauben nicht-aufgaben- orientierte Sprachdialogsysteme eine Kommunikation zum Vergnü- gen zu führen. Dies können einerseits Chat-Roboter sein (z.B. Wei- zenbaum (1966), Rodrigo und Abraham (2012) und Nishimura u. a. (2013)) oder andererseits komplexe Systeme, welche eine langzeitige Bindung zwischen Mensch und Gerät aufbauen. Speziell im Bereich der Robotik ist dies ein Forschungsschwerpunkt, um die Interaktion sowie die persönliche Bindung zwischen Roboter und Mensch zu för- dern (z.B. Matuszek u. a. (2013) und Pandey u. a. (2014)). Ebenso be- schäftigen sich viele Forschungsgruppen mit künstlichen Begleitern (engl. artificial companion), um zum Beispiel die Gefahr der Vereinsa- mung von älteren Personen zu reduzieren (z.B. Danilava u. a. (2012), Pulman u. a. (2010) und Wilks u. a. (2011)). Diese Arbeit betrachtet in erster Linie aufgabenorientierte Sprachdialogsysteme, in Form ei- persönlicher nes persönlichen Assistenten oder Companions, um einheitlich, intuitiv Assistent oder und effizient Aufgaben verschiedener Anwendungen auszuführen. Companion Nach Wendemuth und Biundo (2012) stehen in einem Companion- System Nutzer im Fokus, und das System unterstützt sie abhängig ihrer aktuellen Situation und ihren Bedürfnissen. Im SDS heißt dies, eine Systembedienung ohne Lernen bestimmter Kommandos zu er- möglichen, eine natürliche Bedienung auf Basis des mentalen Mo- dells zu erlauben und eine Anpassung im Dialog an Nutzer sowie sprachbedienbare In- Situation durchzuführen. Speziell für sprachbedienbare Internetanwen- ternetanwendungen dungen erfordert dies, neue Dialogstrategien zu entwickeln: „Especi- ally the voice-control of the Web and its countless fields of applicati- on require the development of new speech dialog concepts (Schmitt, 2012).“10(Hofmann, 2014, S. 14). Hofmann (2014) entwickelte infolge- dessen, zum Zugriff auf Internetdienste aus einem automobilen In- fotainment-System heraus, intuitive Benutzerschnittstellen unter Be- rücksichtigung von Ablenkungsaspekten. Die Evaluation zeigt den Erfolg dieser Dialogstrategien, wobei bisher lediglich die Interakti-

10 Übersetzung des Autors: Speziell die Sprachbedienung des Internets und seinen unzähligen Anwendungsfeldern erfordert die Entwicklung neuer Sprachdialogkon- zepte (Schmitt, 2012). 2.3 grundlagen und stand der technik 31

on mit einer Anwendung betrachtet wurde. Die vorliegende Arbeit knüpft an die Erkenntnisse an und betrachtet anwendungsübergrei- fende Sprachdialogsysteme im Fahrzeug.

2.3.2 Anwendungsübergreifende Sprachdialogsysteme

In der aufgabenorientierten Interaktion zwischen Mensch und Ma- schine hat der Mensch das Ziel, bestimmte Aufgaben mit dem System auszuführen. Zu Beginn waren elektronische Geräte und Sprachdia- logsysteme für einen bestimmten Aufgabenbereich entwickelt, wie zum Beispiel ein Mobiltelefon zum Telefonieren oder ein SDS zur Buchung eines Fluges. Jedoch entwickeln sich elektronische Geräte immer mehr zu Alleskönnern mit verschiedensten Aufgabenberei- chen. Der Übersichtlichkeit halber gliedert sich die Software elek- tronischer Geräte zumeist in Anwendungen, oder auch Dienste ge- Anwendung nannt, mit jeweils bestimmten Aufgabenbereichen. Im Themenfeld der Sprachtechnologie wird ein Aufgabenbereich eines Sprachdialog- systems auch als Domäne bezeichnet (McTear, 2002). Beinhaltet ein Domäne elektronisches Gerät nun mehrere Anwendungen oder ein SDS meh- rere Domänen, legen Nutzer Wert auf eine konsistente Interaktion mit diesen (Shneiderman, 2014; Kaasinen, 2005). Dies schließt zum einen die Interaktion innerhalb von Anwendungen und zum anderen den Wechsel zwischen Anwendungen ein. Während die konsistente Interaktion für eine Anwendung durch einen abgestimmten Entwick- lungsprozess bereits üblich ist, wird der Anwendungswechsel eher weniger betrachtet. Speziell bei einer VUI bieten sich hier allerdings diverse Möglichkeiten. Wie in Abschnitt 2.1.3 behandelt, ist ein zwi- schenmenschliches Gespräch von einem Thema geprägt. Betrachtet man nun im Dialog zwischen Mensch und Maschine die Anwen- dung beziehungsweise Domäne als Thema, können Methodiken des zwischenmenschlichen Themenwechsels auf den Anwendungswech- sel im SDS übertragen werden. Diverse Sprachdialogsysteme ermöglichen den Zugriff auf mehre- re Anwendungen in unterschiedlichen Szenarien. Das vorherrschen- de abstrakte Interaktionsschema ist, eine Anwendung zu starten und anschließend mit dieser zu interagieren. Diese explizite Auswahl der Anwendung wird in vielen bestehenden Arbeiten (z.B. Dausend und Ehrlich (2008)) und fertigen Produkten (z.B. Mercedes-Benz Lingua- tronic11 oder Evolution Kit für SmartTVs12) implementiert. In der Regel unterbricht ein Startbefehl einer Anwendung den aktu- ellen Dialog und startet die erwähnte Anwendung. Alternativ kann der aktuelle Dialog durch den Nutzer abgebrochen und die neue An- wendung im Anschluss gestartet werden. Beides ignoriert allerdings

11 http://techcenter.mercedes-benz.com/de/linguatronic/detail.html [Online 17.06.2015] 12 E-Manual Samsung SEK2500U One Connect Evolution Kit, 2015 32 anwendungsübergreifende mensch-maschine kommunikation

den bestehenden Dialog und wird in dieser Arbeit somit nicht als an- wendungsübergreifender Dialog verstanden. Ein anwendungswech- selnder Dialog ohne Beachtung des konkreten Dialogkontextes, wird abrupter Anwen- im Folgenden als abrupter Anwendungswechsel bezeichnet. Weng, Yan dungswechsel u. a. (2007) entwickelten in CHAT, einem dialogorientierten SDS für Aufgaben im Fahrzeug, explizite und implizite Dialogstrategien zum abrupten Wechsel zwischen MP3-Player, Navigations- und Restauran- expliziter Anwen- tanwendung. Explizite Anwendungswechsel sind hierbei davon geprägt, dungswechsel dass Nutzer durch bestimmte Phrasen den Sprung zu einer neuen An- wendung initiieren, wie zum Beispiel in folgendem Dialogausschnitt zur Navigationsanwendung (übersetzt aus Weng, Yan u. a. (2007)):

System: „Das Little Garden Restaurant ist ein gehobenes chinesisches Restaurant. [..] Es liegt an der Straße El Camino Real in Palo Alto.“ Nutzer: „Wechsel zu Navigation“ System: „Ok, zum Navigationssystem gewechselt.“ Nutzer: „Fahre mich zum Little Garden Restaurant [..]“ System: „Ok, ich plane eine Route zum Restaurant [..] Eine explizite Strategie wird von Villing u. a. (2008) als rudimentä- re und wenig natürliche Art des Anwendungswechsels angesehen. impliziter Anwen- Praktischer stellt sich ein impliziter Anwendungswechsel dar, welcher dungswechsel auf Basis des Inhalts der Äußerung die Anwendungszugehörigkeit bestimmt und somit einen Wechsel initiiert (übersetzt aus Weng, Yan u. a. (2007)):

System: „Das Little Garden Restaurant ist ein gehobenes chinesisches Restaurant. [..] Es liegt an der Straße El Camino Real in Palo Alto.“ Nutzer: „Finde mir eine schnelle Route zum Restaurant Little Garden.“ System: „Ok, ich plane eine Route zum Restaurant.“ Im Gegensatz zur expliziten Strategie ermöglichen implizite Anwen- dungswechsel einen kürzeren Dialog, da direkt der erste Dialogschritt der Ziel-Anwendung ausgeführt werden kann. Jedoch stellt ein im- pliziter Wechsel höhere Anforderungen an ein SDS, weshalb CHAT standardmäßig nur explizite Anwendungswechsel aktiviert. Für eine implizite Anwendungsselektion bzw. -wechsel muss die Äußerung klassifiziert und einer Domäne zugewiesen werden. Zum Beispiel kann im kommandowortbasierten SDS SENECA (Minker u. a., 2004) der Nutzer mit der Äußerung „Enter address“ die Navigati- globale Kommandos onsanwendung starten. Somit wird ein solches globales Kommando, das immer gesprochen und verstanden werden kann, implizit einer Anwendung zugeordnet. Verschiedene Klassifikatoren ermöglichen auch die Zuordnung von komplexeren Äußerungen. Zur Wahrung der Erweiterbarkeit von Systemen hat sich bewährt, unabhängige Mo- 2.3 grundlagen und stand der technik 33

dule (oftmals Agenten genannt) pro Domäne zu erstellen, jedes dieser Module die Äußerung klassifizieren zu lassen und in einer zentra- len Komponenten das zutreffendste Modul auszuwählen (Komatani, Kanda u. a., 2006; I. Lee u. a., 2014; Wang, Chen u. a., 2014; Robichaud u. a., 2014). Zusätzlich sind verschiedene Architekturen entstanden, die auf unterschiedlichste Weise Multi-Domänen-Sprachdialogsyste- me behandeln (z.B. Pellom u. a. (2000), Pakucs (2003), Larsson und Ericsson (2002) und Planells u. a. (2013)). Ein Framework für Dialoge mit mehreren Geräten stellen Cavedon u. a. (2005) vor, welches an- hand verschiedener Features, wie zum Beispiel Filmtitel oder Sänger, zwischen Geräten, wie DVD-Player und MP3-Player, unterscheidet. Allen vorgestellten Arbeiten ist gemein, keine oder nur eine rudi- mentäre Betrachtung des Dialogkontextes beim Anwendungswech- sel zu implementieren. Durch die Klassifikation der Nutzeräußerung wird diese zwar einer Anwendung zugeordnet, jedoch zumeist oh- ne Beziehung zur vorherigen Äußerung behandelt. Lediglich Koma- tani, Kanda u. a. (2006) und Cavedon u. a. (2005) ziehen kontextuel- le Inhalte im Domänenklassifikator in Betracht, und Robichaud u. a. (2014) nehmen die aktive Anwendung im Klassifikator auf. Einen in- teressanten Ansatz verfolgen Planells u. a. (2013), welche drei unab- hängige Sprachdialogsysteme mit unterschiedlichen Anwendungen mit einem zentralen Taskmanager verbinden. Jedes SDS analysiert die Nutzeräußerung und der Taskmanager entscheidet auf Basis der Kon- fidenz, welche Anwendung auszuführen ist. Wie viele andere, behan- deln diese Ansätze hauptsächlich technische Aspekte, aber inwieweit diese mit realen Nutzern funktionieren bleibt fraglich. Zusätzlich be- trachten bestehende Arbeiten bisher lediglich wenige, verschiedene Anwendungen, was nur eingeschränkt auf den realen Einsatz über- tragbar ist. Elektronische Geräte zum Beispiel besitzen eine hohe An- zahl an Anwendungen, welche zusätzlich eine ähnliche Funktionali- tät anbieten können. Somit können Nutzeräußerungen unter Umstän- den mehreren Anwendungen zugeordnet werden, was eine Klärung durch den Dialogmanager oder Annahmen über beispielsweise Prä- ferenzen des Nutzers erfordert (siehe Abschnitt 2.3.3). Während eine Unterteilung einerUI in Anwendungen im system- geführten Dialog in der Regel der Übersichtlichkeit der ersten Syste- minteraktion geschuldet ist (z.B. Größe der GUI oder Länge der Syste- mäußerung einer VUI), besteht diese Einschränkung im vom Nutzer geführten Dialog nicht. In einem nutzer-geführten Dialog kann ein Nutzer prinzipiell beliebig zwischen Domänen wechseln, unabhän- gig von den hinterlegten Anwendungen. Persönliche Assistenten, wie Persönliche zum Beispiel Smartakus (Reithinger u. a., 2003), Apple Siri13 oder Mi- Assistenten crosoft Cortana14, nutzen dies durch Bildung eines einheitlichen Dia-

13 https://www.apple.com/ios/siri [Online 08.06.2015] 14 http://www.microsoft.com/en-us/mobile/experiences/cortana/ [Online 28.11.2015] 34 anwendungsübergreifende mensch-maschine kommunikation

loginterfaces zu mehreren Hintergrundanwendungen. Wie in Reichel, Berton u. a. (2013) vorgestellt, wird ein persönlicher Assistent als ein- heitlicheUI definiert, welche die eigentlichen Anwendungen kapselt und für Nutzer nicht ersichtlich sein muss, mit welcher Anwendung sie interagieren. Visuelle Informationen, Hilfedialoge oder Brandings von Datenergebnissen, die Rückschlüsse auf Anwendungen erlauben, verletzten diese Definition nicht, solange bei einer Nutzereingabe kei- ne Kenntnis der Anwendungen nötig ist. Laut dieser Definition sind somit auch erweiterte Suchmaschinen, wie beispielsweise die globa- le Suche in Microsoft Windows 8.115, einfache persönliche Assisten- ten. Per Texteingabe werden Suchbegriffe oder Fragen gestellt und anschließend zutreffende Dokumente, Anwendungen, Bilder und In- ternetergebnisse angezeigt. Eine Steuerung von Anwendungen ist, ohne diese zu öffnen, dabei nicht möglich. Einen ähnlichen Ansatz verfolgt „Google Voice Search“16, jedoch zusätzlich mit Spracheinga- be, einfacher Anwendungssteuerung und direkter Antwort auf eine Frage. Betrachtet Microsoft jede Anfrage für sich, kann bei „Google Voice Search“ eine Nutzeräußerung Bezug zum Dialogkontext neh- men (z.B. „Wie ist das Wetter dort?“). Wechselt diese referenzielle übergeleiteter An- Äußerung die Anwendung, wird dies im Folgenden als übergeleiteter wendungswechsel Anwendungswechsel bezeichnet. Beide Implementierungen beinhalten den Zugang zu Informationen, jedoch die Ausführung von Aufga- ben ist nur mit wenigen Anwendungen möglich. Anders ist hingegen der persönliche Assistent von Lau u. a. (2010), welcher wiederkehren- de Aufgaben mit Webanwendungen ausführt. Über ein textbasiertes Dialogsystem lassen sich Skripte verschiedener Webanwendungen er- stellen und ausführen. Anwendungsübergreifende Aspekte werden allerdings nur in Skripten, nicht aber im Dialog beachtet. Anwen- dungsübergreifende Dialoge sind dagegen zentraler Fokus der Arbei- ten von Banchs u. a. (2013), welche eine Dialogmanagement- und Ent- wicklungsplattform (AIDA) für verschiedene Anwendungen (Flugbu- chung, Restaurantführer, Informationsauskunft, Frage-Antwort, Chat) und unterschiedliche Dialogarten (Kommandoworte, Fragen, aufga- benorientierte und nicht-aufgabenorientierte Äußerungen) entwickel- ten. Deren persönlicher Assistent ermöglicht es, in einem nutzer-ge- führten Dialog per Text oder Sprache zu interagieren. Ein anwen- dungsübergreifender Sprachdialog über Flugbuchung, Restaurantfüh- rer und Chat könnte folgendermaßen vonstatten gehen (übersetzt aus Banchs u. a. (2013)):

15 http://windows.microsoft.com/en-us/windows-8/search-apps-files-settings [Online 18.06.2015] 16 https://www.google.com/search/about/ [Online 18.06.2015] 2.3 grundlagen und stand der technik 35

System: „Dies ist dein Flugplan“ (Flüge werden angezeigt) Nutzer: „Gibt es ein Café in der Nähe?“ System: „In diesem Gebäude gibt es drei Cafés: Jass Café, Starbucks und Ya Kun.“ Nutzer: „Trinkst du Kaffee?“ System: „Nein.“ Wie anhand der Nutzeräußerungen erkennbar, lässt sich die Anwen- dung implizit wechseln, und ein natürlicher Dialog ist zwischen Nut- zer und AIDA möglich. Inwieweit allerdings übergeleitete Anwen- dungswechsel verfügbar sind, ist fraglich, ebenso wie der Assistent auf mehrdeutige implizite Anwendungswechsel reagiert. Von Seiten der Dialogführung bildet AIDA eine Basis zur vorliegenden Arbeit. Seit Einführung von Apple Siri erleben persönliche Assistenten auf Smartphones einen regelrechten Hype. Die wohl berühmtesten sind - neben Siri - Microsoft Cortana17 oder Samsung S Voice18. Alle Siri, Cortana & kapseln Funktionalitäten verschiedener Anwendungen wie Kalender, Telefon, Nachrichten, Social Media, Internetsuche und viele mehr. Die Interaktionsschemata der Assistenten variieren zwar leicht, doch weisen sie im Grunde ähnliche Stärken und Schwächen auf, welche im Folgenden am Beispiel von Microsoft Cortana präsentiert werden Cortana als Beispiel (Stand 25.07.2015). Zur Aktivierung von Cortana betätigt der Nutzer einen Button, um anschließend, nach einem Signalton, seinen Wunsch sprachlich zu äußern. Je nach Anwendung erfolgt eine visuelle oder eine sprachliche und visuelle Antwort. Sind für eine Aufgabe nicht alle notwendigen Werte in der Äußerung enthalten, erfragt Cortana diese. Es handelt sich somit um einen gemischt-geführten Dialog (sie- he Abbildung 2.4a). Bezüglich der Nutzereingabe versteht Cortana eine breite Varianz an natürlichsprachlichen Äußerungen und inter- pretiert selbst indirekte Anfragen, wie zum Beispiel „Ich habe Hun- ger“. Eine deutliche Schwäche von Cortana zeigt sich in mehrdeutigen mehrdeutige Nutzeräußerungen. Speziell bei Sprachdialogsystemen mit umfangrei- Äußerungen cher Funktionalität kann es vorkommen, dass eine Nutzeräußerung für mehrere Anwendungen zutrifft, oder Parameter nicht eindeutig sind. Während Cortana eine Mehrdeutigkeit der Parameter (siehe Abbildung 2.4b) korrekt erkennt und den Nutzer zum Disambiguie- ren auffordert, funktioniert dies bei Anwendungen nicht. Unabhän- gig vom Kontext wird die wahrscheinlichste Anwendung ausgeführt. Zum Beispiel geht Cortana bei der Äußerung „Nachrichten“ davon aus, der Nutzer wolle aktuelle Schlagzeilen. Möchte er jedoch sei- ne SMS lesen, kann die Antwort durchaus für Erstaunen oder Frus- tration sorgen. Weitere Dialogfehler treten bei Fehlinterpretation oder Außerhalb der Domäne (OOD, engl. Out-Of-Domain)-Anfragen auf. Hier Fehlinterpretation und OOD-Anfragen

17 http://www.microsoft.com/en-us/mobile/experiences/cortana/ [Online 28.11.2015] 18 http://www.samsung.com/global/galaxys3/svoice.html [Online 18.06.2015] 36 anwendungsübergreifende mensch-maschine kommunikation

bietet Cortana entweder auf Basis einer Teilinterpretation eine falsche Anwendung oder eine Websuche an (siehe Abbildung 2.4c).

(a) Gemischt-geführter (b) Disambiguierung von (c) Websuche bei Fehlin- Dialog Telefonnummern terpretation oder OOD

Abbildung 2.4: Interaktionsschema des persönlichen Assistenten Microsoft Cortana anhand von Beispieldialogen (Nutzeräußerung rot umrandet).

Wie gezeigt, existieren diverse Ansätze, mehrere Anwendungen in ein SDS zu integrieren und Nutzern anwendungsübergreifende Dia- loge zu ermöglichen. Neben expliziten Anwendungswechseln beste- hen Verfahren, durch Äußerungen abrupt oder übergeleitet die An- wendung zu wechseln. Jedoch steigt durch die hohe Anzahl an An- wendungen und Funktionen, und daraus resultierenden komplexen Sprachmodellen, die Gefahr von Fehlerkennungen (Carstensen u. a., 2010). Vom Dialogmanager muss somit speziell auf Fehler eingegan- gen werden, um dem Nutzer angemessen zu antworten (Wong u. a., 2007). Neben Fehlerkennungen steigt bei persönlichen Assistenten, durch Kapselung und Maskierung der Anwendungen, zusätzlich die Gefahr der Diskrepanz zwischen mentalem Modell des Nutzers und tatsächlich verfügbarer Systemfunktionalität. Dies kann zu unterspe- zifizierten Nutzeräußerungen führen, welche nicht eindeutig einer Anwendung zugeordnet werden können. Um Dialogfehler zu verhin- dern, muss ein Dialogmanager somit auf mehrdeutige Äußerungen speziell eingehen. Der nächste Abschnitt betrachtet bestehende Dialogstrategien zur Auflösung von Mehrdeutigkeiten und Reaktion auf Fehlerkennun- gen. 2.3 grundlagen und stand der technik 37

2.3.3 Fehlerbehandlungsstrategien

Bei der Interaktion zwischen Mensch und Maschine können einer- seits, wie im Interaktionszyklus nach Norman definiert, Fehler des Nutzers in der Ausführung und Beurteilung auftreten, aber ande- rerseits auch Systemfehler das Erreichen des Nutzerziels verhindern. Vor allem in mobilen Systemen ist die Zuverlässigkeit jedoch äu- ßerst wichtig, um Vertrauen zum System zu schaffen (Kaasinen, 2005). Sprachdialogsysteme hingegen sind immer noch anfällig für Fehler, speziell bei umfangreichen Grammatiken, umfassenden Sprachmo- dellen, schlechter Audioqualität und Variabilität der menschlichen Spracheigenschaften (Bourguet, 2011). Technische Ursachen, wie zum Beispiel Fehlerkennungen der ASR, sind bereits ausführlich in der Forschung behandelt (Jokinen und McTear, 2010; Skantze, 2007; Bo- hus, 2007), weshalb diese Arbeit verstärkt auf Fehler der Diskrepanz zwischen mentalem Modell des Nutzers und tatsächlicher Anwen- dungsfunktionalität eingeht. Eine Möglichkeit, Nutzer zuverlässig zu ihrem Interaktionsziel zu führen, ist ein sorgfältiges Design des Sprach- dialogsystems und somit Fehler zu vermeiden (. Cohen u. a., 2004). Vermeidung von Indem Nutzer auf ein möglichst geringes Antwortvokabular einge- Fehlern schränkt werden, kann eine selektive Aktivierung von Grammatiken und vereinfachten Sprachmodellen Fehler minimieren. Bei anwen- dungsübergreifenden Dialogen ist dies jedoch kritisch, da ein Nut- zer prinzipiell jederzeit die Anwendung wechseln kann, was bei ei- ner auf die aktuelle Anwendung eingeschränkte Grammatik unwei- gerlich zum Fehler führt. Nach Robichaud u. a. (2014) ist die Feh- lerbehandlung eines Sprachdialogsystems mit mehreren Anwendun- gen besonders wichtig, da eine als Resultat einer falsch klassifizier- ten Nutzeräußerung unkorrekt ausgeführte Aktion oder sinnwidrige Antwort von Nutzern negativ wahrgenommen wird, und eine Kor- rektur oftmals schwierig ist. Im Folgenden werden daher Strategien von Sprachdialogsystemen zur Behebung verschiedener Fehlerarten aufgezeigt. Verschiedene Arten von Nutzeräußerungen können zu Fehlern im SDS führen. Diese Äußerungen lassen sich klassifizieren in Außer- Außerhalb des halb des Vokabulars (OOV, engl. Out-Of-Vocabular) und Außerhalb der Vokabulars Domäne (OOD, engl. Out-Of-Domain). OOV-Ausdrücke sind hierbei Außerhalb der Domäne Unbekannte, oftmals Namen oder Orte, welche nicht im Vokabular der ASR sind und somit nicht erkannt werden (Qin, 2013). OOD-An- fragen sind hingegen Nutzeräußerungen, die eine Funktionalität des Sprachdialogsystems verlangen, die es in Wirklichkeit nicht erfüllen kann (Lane u. a., 2007). Bohus und Rudnicky (2005) unterscheiden bei OOD-Anfragen noch zusätzlich den Fall einer Äußerung, die im ak- tuellen Anwendungskontext nicht erfüllt werden kann (Außerhalb der Außerhalb der An- Anwendungsdomäne (OOA, engl. Out-Of-Application-scope)), im Kontext wendungsdomäne einer anderen Anwendung hingegen schon (Bohus und Rudnicky, 38 anwendungsübergreifende mensch-maschine kommunikation

2005). Solche Äußerungen können zu Kommunikationsfehlern füh- ren, welche in einerseits Missverständnis (engl. misunderstanding) und andererseits Nicht-Verständnis (engl. non-understanding) klassi- Missverständnis fiziert werden (Skantze, 2007). Ein Missverständnis tritt auf, wenn die Interpretation einer Äußerung beim Empfänger nicht der Intention des Senders entspricht. Hierbei besteht die Gefahr, dass ein Miss- verständnis Gesprächspartner nicht bemerken und den Dialog un- Nicht-Verständnis beirrt fortsetzen. Hingegen fallen Nicht-Verständnisse den Gesprächs- partnern sofort auf, da der Empfänger nicht in der Lage ist, eine Inter- pretation des Gesagten zu vollziehen oder sich unsicher der Bedeu- tung ist. Im Allgemeinen sind Missverständnisse schwerwiegender, da der Dialog fortgesetzt wird, und der Sender aktiv intervenieren muss (Bohus und Rudnicky, 2001). Um Missverständnisse und Nicht-Verständnisse zu minimieren, ko- operieren menschliche Gesprächspartner durch verschiedene Strate- Grounding gien. Diese Kooperation wird als Prozess des Groundings bezeichnet und hat als Ziel, ein gemeinsames Verständnis zu erreichen (Clark, 1996). Paek und Horvitz (2000) definieren ein Modell mit vier Ebenen, auf welchen verschiedene Strategien des Groundings Anwendung fin- den: Konversation, Absicht, Signal und Nachrichtenkanal. Vorliegen- de Arbeit hingegen betrachtet lediglich die Ebenen Konversation und Absicht, da in den anderen keine Unterschiede zu einem SDS mit nur einer Anwendung bestehen. In Absicht und Konversationsziel steigen allerdings im SDS mit mehreren Anwendungen die Gefahren von ei- nerseits der Diskrepanz zwischen mentalem Modell und tatsächlicher Verfügbarkeit der Anwendungen, sowie andererseits der Mehrdeutig- keit von Äußerungen für ähnliche Anwendungen. Zur Erreichung ei- nes gemeinsamen Verständnisses muss der Dialogmanager spezielle Dialogstrategien zur Klärung zur Verfügung stellen. Bevor jedoch auf Sprachdialogstrategien eingegangen wird, ist ein generelles Verständnis von Fehlerbehandlungsprozessen eines Sprach- dialogsystems notwendig. Jokinen und McTear (2010) gliedern diesen Fehlererkennung in Fehlererkennung, Fehlerprognose und Fehlerbehebung. Ohne Er- kennung eines Fehlers kann ein Dialogmanager nicht darauf reagieren, somit stellt dieser Prozess die Grundlagen einer effektiven Fehlerbe- handlung dar. Verschiedenste Methodiken sind hierzu bereits verfüg- bar, wie beispielsweise regelbasierte (Komatani und Kawahara, 2000; Hazen u. a., 2000) oder statistische (Krahmer u. a., 2001) Verfahren. Je nach Systemarchitektur können diese Methodiken auch im anwen- dungsübergreifenden SDS angewandt oder in Kombination mit klas- sischen Verfahren des maschinellen Lernens (Daume III und Marcu, 2006; Lane u. a., 2007) genutzt werden, um OOD- beziehungsweise OOA-Äußerungen zu identifizieren. Eine genauere Betrachtung ist Jokinen und McTear (2010) sowie Bulyko u. a. (2005) zu entnehmen. Fehlerprognose Zusätzlich können lernende Verfahren zur Fehlerprognose eingesetzt werden (Litman u. a., 1999), um Dialogschritte mit potentiell hoher 2.3 grundlagen und stand der technik 39

Fehlerrate zu identifizieren und den Dialog dahingehend anzupas- sen. Ist ein Fehler erkannt, muss vom Dialogmanager eine Fehlerbe- Fehlerbehandlung handlung initiiert werden, um Nutzer zu ihrem Interaktionsziel zu führen. Hierfür existieren diverse Strategien, welche im Folgenden gezeigt und für den Einsatz im anwendungsübergreifenden SDS be- wertet werden. Die einfachste Dialogreaktion zur Behebung eines Kommunikati- onsfehlers ist die Äußerung abzulehnen und den Nutzer zur Wie- Wiederholung oder derholung oder Umformulierung der Äußerung aufzufordern (McTear, Umformulierung 2002). Bulyko u. a. (2005) identifizierten eine Entschuldigung, sowie anschließende Aufforderung zur Neuformulierung als die am wenigs- ten frustrierende Möglichkeit. McTear (2002) zufolge ist dies aller- dings keine adäquate Lösung, da eine an den Fehler adaptierte Stra- tegie gewählt und Nutzer in der Neuformulierung unterstützt wer- den sollten. Zusätzlich bewirkt eine solche Nachfrage bei Nutzern, dass diese ihre Prosodie verändern, womit Fehlerkennungen der ASR noch wahrscheinlicher auftreten (Goldwater u. a., 2010). Trotz der Be- kanntheit dieses Problems implementieren heutige Sprachdialogsys- teme allerdings immer noch sehr häufig diese Variante der Fehler- behandlung: „Most dialogue systems today employ generic clarifica- tion strategies asking a speaker to repeat or rephrase an entire ut- terance“19 (Stoyanchev u. a., 2014, S. 1). Im anwendungsübergreifen- den SDS ist diese Art der Fehlerbehandlung allerdings ungeeignet, da bei einer Diskrepanz im mentalen Modell Nutzer über die nicht vorhandene Funktion aufgeklärt werden müssen und zusätzlich eine adäquate Hilfestellung benötigen. Besteht Unsicherheit über die Interpretation der Nutzeräußerung oder potentielle Gefahr einer OOA-Anfrage, kann durch Verifikation ein Fehler verhindert werden. Hierbei wird explizit oder implizit die Interpretation vom Nutzer bestätigt, um ein gemeinsames Verständ- nis zwischen Mensch und System zu erreichen (McTear, 2002). Bei einer expliziten Verifikation bestätigen Nutzer einen oder mehrere Wer- expliziten te der Eingabe (nach McTear (2002)): Verifikation

Nutzer: „Ich möchte von Meran nach Rom.“ System: „Möchten sie von Mailand nach Rom?“ Nutzer: „Nein. Von Meran“ System: „Von Meran nach Rom?“ Nutzer: „Ja.“ System: „Zu welcher Uhrzeit?“ Diese Art der Verifikation ermöglicht ein robustes gemeinsames Ver- ständnis, führt allerdings zu langen und für Nutzer lästige Dialoge.

19 Übersetzung des Autors: Die meisten aktuellen Dialogsysteme nutzen generische Hilfestrategien, indem sie Nutzer zur Wiederholung oder Umformulierung einer gesamten Äußerung auffordern. 40 anwendungsübergreifende mensch-maschine kommunikation

implizite Eine implizite Verifikation verkürzt den Dialog durch Einbetten der zu Verifikation bestätigenden Werte in die nächste Frage. Dies ermöglicht eine Kor- rektur im Falle eines Missverständnisses beziehungsweise bei Beant- wortung der Frage eine implizite Bestätigung (nach McTear (2002)):

Nutzer: „Ich möchte von Meran nach Rom.“ System: „Zu welcher Uhrzeit möchten sie von Mailand nach Rom?“ Nutzer: „Nein. Ich möchte heute Abend von Meran abfah- ren.“ Vorteil dieser Verifikation ist der kurze Dialog, wobei Nutzer mehr Schwierigkeiten haben, Fehler in impliziten Bestätigungen zu korri- gieren, als bei anderen Strategien (Shin u. a., 2002). Bezogen auf einen nutzer-initiierten Anwendungswechsel ist eine implizite Verifikation allerdings nicht möglich, da der Fortgang des Dialogs von dem zu bestätigenden Wert abhängt. Somit bleibt zur Klärung einer Unsicher- heit von OOA-Anfragen lediglich eine explizite Verifikation. Eine Schwierigkeit stellt der Inhalt der expliziten Nachfrage beim Nutzer dar. Bohus und Rudnicky (2005) evaluieren hierfür 10 ver- schiedene Dialogstrategien für Sprachdialogsysteme bei komplettem Nicht-Verständnis oder keinerlei Nutzereingabe auf eine Systemäu- ßerung. In einer empirischen Untersuchung erweisen sich „MoveOn“ und „Hilfe mit Beispielen“ als beste Lösungen hinsichtlich quantitati- ver Attribute, wie zum Beispiel Aufgabenerfolg. Unter Nutzung von „MoveOn“ „MoveOn“ schreitet der Dialog fort, indem das SDS eine andere Frage stellt und im Zweifelsfall erst später auf das Nicht-Verständnis ein- „Hilfe mit geht. Die Strategie „Hilfe mit Beispielen“ hingegen stoppt den Dialog- Beispielen“ fluss und geht direkt auf das Nicht-Verständnis mit einer Erklärung ein. Zusätzlich werden Nutzern mögliche Beispieläußerungen, abhän- gig vom aktuellen Dialogzustand, präsentiert und somit die Trans- parenz erhöht. Zgorzelski u. a. (2010) evaluieren diese Strategien zu- sätzlich hinsichtlich Gebrauchstauglichkeit, geteilt in zwei Gruppen nach Experten und Novizen. Deutlich zu sehen sind Unterschiede der Gruppen: während Experten möglichst schnell zum Ziel gelan- gen möchten, benötigen Novizen ausführlichere Hilfedialoge. Beide Dialogstrategien funktionieren, jedoch wird „MoveOn“ geringfügig besser bewertet. Im anwendungsübergreifenden Dialog ist „MoveOn“ allerdings nicht möglich, da keine anderen Fragen im Dialog existie- ren, dies aber eine notwendige Bedingung für „MoveOn“ ist (Joki- nen und McTear, 2010). Eine Hilfestellung kann einerseits genereller Natur sein, andererseits zielgerichtet und kontextsensitiv. Wie von zielgerichtet Skantze (2007) und Stoyanchev u. a. (2014) gezeigt, sind zielgerichtete kontextsensitiv und kontextsensitive Dialogstrategien vorzuziehen, da Menschen diese bevorzugen und selbst nutzen. Skantze (2007) und Stoyanchev u. a. (2014) identifizieren hierzu nicht verstandene Elemente einer Phra- se und passen die Hilfestrategie dahingehend an. Ist bei OOA-Äu- 2.3 grundlagen und stand der technik 41

ßerungen eine Teilinterpretation möglich, kann diese genutzt wer- den, jedoch bei fehlender Interpretation nicht. Um dennoch eine an den Kontext angepasste Fehlerbehandlung zu ermöglichen, können Methodiken eingesetzt werden, welche den Dialogkontext und die nächstmöglichen Anwendungen in Betracht ziehen. Ein Beispiel stellt der statistische Dialogmanager von Torres u. a. (2005) dar, welcher die Übergänge zwischen Dialogschritten lernt und zusätzlich Hilfestrate- gien in Betracht zieht. Eine Vorhersage der nächstmöglichen Aufga- ben wird beispielsweise in Pappu und Rudnicky (2013) verwendet, um die Dialogschritte zu minimieren. Wie im vorliegenden Abschnitt gezeigt, sind im Allgemeinen Feh- ler wie Missverständnisse oder Nicht-Verständnisse im SDS ausführ- lich untersucht. Jedoch sind im anwendungsübergreifenden Dialog- system, auf Grund der unklaren Dialogfortsetzung, viele Fehlerbe- handlungsstrategien nicht einzusetzen. OOD-Äußerungen, OOA-Äu- ßerungen und mehrdeutige Nutzeräußerungen stellen zusätzlich ho- he Anforderungen an eine effiziente Fehlerbehandlung. Neben rein sprachlichen Lösungen kann im multimodalen Dialogsystem ein Wech- sel der Modalität Vorteile bringen (Suhm u. a., 2001). Diese Arbeit betrachtet lediglich eine zusätzliche visuelle Veranschaulichung meh- rerer Alternativen eines Hilfedialogs - für eine ausführliche Über- sicht multimodaler Aspekte sei daher auf Bourguet (2011) verwiesen. In Kapitel 3 werden explizite Fehlerbehebungsstrategien für anwen- dungsübergreifende Dialoge beschrieben und mittels Nutzerstudien im Anwendungsszenario eines Infotainment-Systems evaluiert.

2.3.4 Fahrerablenkung durch sekundäre Aufgaben

Im Gegensatz zur Bedienung eines Sprachdialogsystems auf mobilen Geräten muss im Infotainment-System eines Fahrzeugs ein mögliches Ablenkungspotential des Fahrers beachtet werden. Einer Analyse der National Highway Traffic Safety Administration (NHTSA) (2013) zu- folge, ereigneten sich 2011 in den USA 10% aller tödlichen Unfälle und 17% der Unfälle mit Verletzten auf Grund von abgelenkten Fah- rern. Fahrerablenkung lässt sich hierbei definieren als spezielle Form Fahrerablenkung der Unachtsamkeit, wenn Fahrer ihre Aufmerksamkeit auf andere Aufgaben als das Fahren richten. Stutts u. a. (2005) untersuchten in einer Feldstudie mögliche Ablenkungspotentiale anhand von Video- beobachtungen. Dabei waren die größten Ursachen für Ablenkung (in absteigender Reihenfolge): Objekte/Personen außerhalb des Fahr- zeugs, Radio/Kassette/CD, Mitfahrer, Objekte im Auto, Nutzung ei- nes ins Auto gebrachten Objekts/Geräts, Bedienung der Klimaanlage, Essen/Trinken, Mobiltelefon und viele mehr. In aktuellen Fahrerbeob- achtungen zeigt sich jedoch das Smartphone als Hauptgrund für Ab- lenkung. Vollrath u. a. (2016) beobachteten in drei deutschen Städten 11837 Fahrer. Dabei zeigten sich insgesamt 13,2% der Fahrer abge- 42 anwendungsübergreifende mensch-maschine kommunikation

lenkt, wobei 8,4% ihre Aufmerksamkeit dem Smartphone widmeten. Speziell junge Fahrer und Fahrer mittleren Alters zeigten sich anfällig für eine Ablenkung durch das Smartphone. Dies deckt sich mit Un- fallzahlen in den vereinigten Staaten (National Highway Traffic Safe- ty Administration (NHTSA), 2013) und einer Onlinebefragung (Hof- mann, Ehrlich, Berton u. a., 2012), in welcher 36% junger Fahrer an- gaben, selbst unter der Gefahr der Ablenkung, internetfähige Gerä- te während der Fahrt zu nutzen. Aus dieser Befragung erschließt sich somit die Wichtigkeit der Integration von Internetservices in das Fahrzeug-interne Infotainment-System (heutzutage der Überbegriff für Radio, Navigation, Klimaanlage, Telefon, Internet uvm.). Es ist so- mit davon auszugehen, dass die Anzahl der Anwendungen im Info- tainment-System in den nächsten Jahren stark ansteigt. Diese Arbeit betrachtet anwendungsübergreifende Sprachdialoge im Infotainment- System sowie ein mögliches Ablenkungspotential von Dialogfehlern des Sprachdialogsystems. Aus diesem Grund werden im Folgenden Arbeiten zur Ablenkung durch Infotainment-Systeme und Smartpho- nes vorgestellt. In der Literatur werden die Aufgaben von Fahrern, die zum Fah- ren erforderlich oder optional sein können, in drei Aufgabenarten untergliedert (Kern und Schmidt, 2009): primäre, sekundäre und ter- Primäraufgabe tiäre Aufgaben. Primäre Aufgaben sind dabei zur Führung eines Fahr- zeugs erforderlich, zum Beispiel, um die Geschwindigkeit oder den Sekundäraufgabe Abstand zu anderen Fahrzeugen zu kontrollieren. Sekundäre Aufgaben beinhalten Funktionen, welche die Sicherheit des Fahrers und seiner Tertiäraufgabe Umgebung erhöhen, wie Blinker oder Scheibenwischer. Als tertiäre Aufgaben werden alle Funktionen bezeichnet, die zur Unterhaltung und somit zur Bedienung des Infotainment-Systems dienen. Da se- kundäre Aufgaben, wie beispielsweise Fahrerassistenzsysteme oder Einparkkameras, inzwischen oftmals auch über das Infotainment-Sys- tem gesteuert werden, folgt diese Arbeit der Definition nach Wier- wille (1993) und fasst tertiäre Aufgaben mit sekundären zusammen. Nach de Waard (1996) stellt jede Aktion gewisse Forderungen (engl. Demand) an Fahrer, deren Erfüllung eine bestimmte Belastung (engl. Workload) auslöst. Sind nun die Belastungen der einen Aufgabe zu hoch oder zu verlockend, kann die andere beeinträchtigt werden und zu einer Fahrerablenkung führen (K. Young und Regan, 2007). Eine theoretisch fundierte Begründung für die gegenseitige Beein- „multiple resource flussung von Aufgaben liefert die „multiple resource theory“ nach Wi- theory“ ckens (Wickens, 1981; Wickens, 2008). Sie geht davon aus, dass Men- schen nur begrenzte Ressourcen zur Verfügung stehen. Diese betref- fen verschiedene mentale Aktionen, von der Wahrnehmung bis zur Bedeutungsrepräsentation. Neben einer Abschätzung der Komplexi- tät einzelner Aufgaben kann das Modell Aufgaben identifizieren, wel- che sich bei gleichzeitiger Bearbeitung gegenseitig behindern (Basil, 2012). 2.3 grundlagen und stand der technik 43

Verarbeitungsstufen

Wahrnehmung Erkennung Ausführung

visuell

auditiv Modalitäten

räumlich verbal

Abbildung 2.5: „Multiple resource model“ nach Wickens (2008).

Das „multiple resource model“ ordnet Ressourcen vier Dimensionen „multiple resource zu (siehe Abbildung 2.5): Verarbeitungsstufen (engl. Stages of Proces- model“ sing), Kodierung (engl. Code), Modalität und visueller Kanal (nicht dargestellt). Auf der Verarbeitungsebene nutzen Wahrnehmungs- und Erkennungsaktionen andere Ressourcen als die Ausführung einer Ak- tion. Die Dimension Kodierung zeigt eine unterschiedliche Nutzung von Ressourcen hinsichtlich räumlicher und verbaler/linguistischer Aktivitäten. Wie bereits erwähnt, lässt sich die Wahrnehmung, ne- ben räumlich und verbal, noch in die Modalitäten visuell und audi- tiv unterteilen. Zur Abschätzung, wie effizient zwei Aufgaben parallel Effizienz paralleler ausgeführt werden können, erfolgt eine Einordnung der Aufgaben Aufgaben in das Modell. Benötigen zwei Aufgaben unterschiedliche Ressour- cen, ist eine effiziente gleichzeitige Ausführung möglich. Teilen sie sich jedoch die Ressourcen, sinkt die Effizienz gleichermaßen. Nimmt nun die Komplexität der einen Aufgabe zu, geschieht dies zu Lasten der anderen Aufgabe. Neben dem Einfluss von Ressourcen können auch physische Einschränkungen die Effizienz beeinträchtigen. Zum Beispiel lassen sich keine zwei Worte gleichzeitig sprechen (Wickens, 1981; Wickens, 2008). Um mögliche kritische Konkurrenzen an Ressourcen im Fahrzeug zu identifizieren, muss in erster Linie die primäre Fahraufgabe in das Fahraufgabe im Modell eingeordnet werden. Das sichere Führen eines Fahrzeugs er- Modell fordert vom Fahrer den Blick auf der Straße, die Hände am Lenkrad sowie ausreichende Konzentration. Dies bestimmt die Einordnung in visuelle und räumliche Dimension sowie die gesamte Verarbei- tungskette über Wahrnehmung bis Ausführung. In der Literatur über Fahrerablenkung findet sich dies meist unter den Begriffen visueller, manueller und kognitiver Belastung (Peissner u. a., 2011; Kern und Schmidt, 2009). Im Folgenden wird auf die Interaktionsschemata von Infotainment-Systemen, welche mit diesen Ressourcen konkurrieren, eingegangen. Am kritischsten zeigen sich sekundäre Aufgaben, welche genau dieselben Ressourcen der primären Fahraufgabe erfordern (visuell, 44 anwendungsübergreifende mensch-maschine kommunikation

räumlich und entsprechende Verarbeitungsstufen). Dies ist beim Be- dienen eines Mobiltelefons oder einem anderen elektronischen Ge- rät der Fall, wie bereits eine Vielzahl an Studien (Caird u. a., 2008; Horrey und Wickens, 2004) oder Analysen von Unfalldaten (Natio- nal Highway Traffic Safety Administration (NHTSA), 2013) belegen. Als Resultat ist deren Nutzung hinter dem Steuer in vielen Ländern verboten und erfordert somit eine Integration in das Infotainment- System. Zur Bedienung von Fahrzeug und Infotainment-System sind über haptische die Jahre eine Vielzahl verschiedener haptischer Eingabegeräte entwi- Eingabe ckelt worden (einen Überblick liefern Kern und Schmidt (2009)). Um möglichst wenig Belastung zu erzeugen, ist deren Anordnung, je nach betreffender Aufgabenart, untergliedert in Bedienelemente für primäre Aufgaben (Fahraufgabe), sekundäre Aufgaben (Aktivierung für die Fahraufgabe erforderlicher Funktionen) und tertiäre Aufga- ben (Infotainment) (Tönnis u. a., 2006). Taktile Buttons, Touch-Einga- be oder Gestensteuerung sind in diversen Studien bereits untersucht (z.B. Bach u. a. (2008), Bellotti u. a. (2005) und Castronovo u. a. (2011)) und Richtlinien zu deren Verwendung entstanden (Driver Focus-Te- lematics Working Group, 2006). Für Infotainment-Systeme mit meh- reren Anwendungen finden diese haptischen Elemente ebenso Ver- wendung wie mit einzelnen Anwendungen, weshalb in vorliegender Arbeit nicht näher darauf eingegangen wird. visuelle Ähnlich der manuellen Eingabe werden visuelle Ausgabeelemente in Ausgabe die drei Bereiche für primäre (Windschutzscheibe), sekundäre (nahe des Fahrers/Lenkrads) und tertiäre Aufgaben (Mittelkonsole) geglie- dert (Tönnis u. a., 2006). Zusätzlich zu einfachen Statusleuchten fin- den Displays Einzug in die Bereiche und ermöglichen somit komple- xe visuelle Darstellungen (einen Überblick liefern Kern und Schmidt (2009) und Tönnis u. a. (2006)). Jedoch besteht, wie im „multiple re- source model“ definiert, die Einschränkung des Blickes auf einen fo- kussierten Punkt, was somit offensichtlich zu konkurrierenden Res- sourcen führt. In vielen Studien wurde somit der Blick als Indiz einer hohen Ablenkung identifiziert (z.B. Tsimhoni und Green (2001) und Hofmann, Tobisch u. a. (2014)). Dies unterstützt die Herangehenswei- se dieser Arbeit, bei anwendungsübergreifenden Dialogen in erster Linie Sprachdialoge zu untersuchen und die visuelle Modalität ledig- lich zur Hilfestellung zu nutzen. auditive Wie anhand des „multiple resource model“ gezeigt, ist die audi- Ressource tive Ressource nicht direkt in der Fahraufgabe involviert und kann effizient parallel ausgeführt werden. Dies erklärt die geringere Ab- lenkung von sprachlich durchgeführten Aufgaben im Vergleich zu haptisch und visuellen (z.B. Maciej und Vollrath (2009), Barón und Green (2006) und Peissner u. a. (2011)). Eine Analyse diverser Stu- dien (Ei-Wen Lo und Green, 2013) ergab einen Vorteil von sprachli- cher Bedienung hinsichtlich Spurhaltung, peripherer Wahrnehmung, 2.3 grundlagen und stand der technik 45 subjektiver Belastung, Präferenz und Dauer sowie Anzahl von Bli- cken. Bezüglich Dauer der Interaktion, nach Cooper u. a. (2014) ein entscheidendes Maß der potentiellen Ablenkung, ist allerdings kein einheitliches Ergebnis zu erkennen, sondern scheint von der Kom- plexität der Aufgabe abzuhängen. Speziell bei Eingabe der Adresse zeigt sich eine Spracheingabe um 82% schneller als eine Eingabe mit haptisch-visuellem Touchscreen (Tsimhoni, D. Smith u. a., 2002). Im Vergleich zur reinen Fahraufgabe konnten Maciej und Vollrath (2009) al- Vergleich lerdings feststellen, dass eine gewisse Ablenkung durch Sprachdia- Fahraufgabe logsysteme besteht. Sie führen dies ebenso auf die Komplexität der sekundären Aufgabe zurück, da bei sehr einfachen Aufgaben ähn- liche Leistungen zur Baseline erreicht wurden. Komplexe und um- fangreiche Aufgaben, wie anwendungsübergreifende Aufgaben, stel- len somit ein erhöhtes Risiko dar. Zumal eine erhöhte Fehleranfällig- keit Korrekturdialoge erfordert und somit direkten Einfluss auf die Dialogdauer hat. Kun, Paek u. a. (2007) und Gellatly (1997) untersu- chen aus diesem Grund ASR-Fehler und ASR-Genauigkeit hinsichtlich Ablenkung durch Fahrerablenkung. Gellatly (1997) stellt fest, dass die Genauigkeit über Fehler & 75% liegen sollte, um subjektiv empfundene Belastung und Lenkbe- Ungenauigkeit wegungen nicht zu beeinflussen. Er unterscheidet hierbei zwischen Ersetzungsfehler (Missverständnis) und Rückweisung der Äußerung (Nicht-Verständnis), wobei Ersetzungsfehler negativeren Einfluss auf die Fahrleistung aufweisen. Hingegen zeigt sich bei Kun, Paek u. a. (2007) kein Unterschied in der Fahrleistung zwischen Missverständ- nis und Nicht-Verständnis. Ein möglicher Grund hierfür könnte aller- dings das Aufklären der Versuchsteilnehmer über die Fehlersituation und -behandlung sein und der somit fehlende Überraschungseffekt. Bezüglich der ASR-Genauigkeit stellen sie ebenso schlechtere Lenk- bewegungen bei geringer (44%) als bei hoher (89%) ASR-Genauigkeit fest, wogegen die Spurhaltung und Geschwindigkeit keinen signifi- kanten Unterschied aufweisen. Somit bedeutet ein SDS nicht automa- tisch eine Verringerung der Ablenkung (siehe auch Hamilton (2014)). Ein weiterer Faktor, der zur Fahrerablenkung beiträgt, ist die ko- kognitive Belastung gnitive Belastung. Die Nutzung unterschiedlicher Ressourcen für zwei Aufgaben bedeutet nicht automatisch eine perfekte gleichzeitige Aus- führung beider Aufgaben. Trotz unterschiedlicher Ressourcen kön- nen Wahrnehmungs- und Interpretationsprozesse sich gegenseitig be- einflussen (Wickens, 2008). Harbluk u. a. (2002) zum Beispiel stellten Versuchspersonen während einer Fahrt Rechenaufgaben unterschied- lichen Schwierigkeitsgrades. Die Ergebnisse zeigen, je schwieriger die Aufgabe, desto weniger Augenbewegungen treten auf und der Blick bleibt fokussiert auf einem zentralen Bereich der Straße unter Vernachlässigung der Peripherie, des Rückspiegels sowie des Instru- mentenclusters. Dieses Phänomen tritt häufig bei kognitiver Belas- tung auf und wird Tunnelblick (engl. perceptual tunneling) genannt. Tunnelblick Die Höhe der kognitiven Belastung hängt in der Konversation vom 46 anwendungsübergreifende mensch-maschine kommunikation

Inhalt ab. Cooper u. a. (2014) identifizieren eine höhere Belastung durch übliche Sprachkommandos als durch natürliche Konversation, Radio oder Hörbuch. Dies widerspricht allerdings den Ergebnissen von Hofmann, Tobisch u. a. (2014), welche keine großen Unterschie- de zwischen menschenähnlicher Konversation (engl. conversational) und vom System geführten Dialog feststellen können. Dies könnte jedoch auch ein Resultat der beschränkten Leistung von der ASR so- wie dem SLU, und dadurch entstandenen Dialogfehlern, sein. An- wendungsübergreifende Dialoge im Fahrzeug wurden bisher nicht in hoher Detailtreue hinsichtlich kognitiver Belastung evaluiert. Je- doch kann auf Grund der Komplexität der Aufgabe von einer ko- gnitiven Belastung ausgegangen werden. Als Indiz hierfür können zwischenmenschliche Konversationen mit Themenwechsel gesehen werden, welche eine erhöhte kognitive Belastung und daraus resul- tierende Fahrerablenkung hervorrufen (Kun, Shyrokov u. a., 2013). Zusammenfassend lässt sich ein hohes Gefahrenpotential für alle Verkehrsteilnehmer durch abgelenkte Fahrer erkennen. Hierbei kann, durch konkurrierende Ressourcen der primären und sekundären Auf- gabe, zwischen manueller, visueller und kognitiver Ablenkung unter- schieden werden. Durch die freie auditive Ressource ist eine sprachli- che Interaktion im Fahrzeug im Allgemeinen besser als eine manuell- visuelle, jedoch erfordert es hohe Sorgfalt beim Design und der Imple- mentierung für kurze und fehlerfreie Dialoge, da sonst die kognitive Belastung steigt (Peissner u. a., 2011). Dies setzt hohe Anforderungen an ein SDS im Fahrzeug. Im nächsten Abschnitt wird auf die spezielle Situation von Sprachdialogsystemen im Fahrzeug eingegangen.

2.3.5 Sprachdialogsysteme im Fahrzeug

Der vorherige Abschnitt identifizierte hohe Ablenkungspotentiale in Folge der Nutzung von Mobiltelefonen und verschiedenen Modali- täten in der Fahrzeug-UI. Im Folgenden wird daher zu Beginn auf implementierte Sprachdialogsysteme im Infotainment-System einge- gangen. Zunehmend erfolgt die Integration des Smartphones in Form von speziellen Programmen, welche das externe Gerät ausführt un- ter Nutzung der internen Fahrzeug-UI. Ein Zugriff auf das SDS des Smartphones wird hierbei möglich und in Abschnitt 2.3.5.2 diskutiert. Im darauffolgenden Abschnitt erfolgt eine Betrachtung bestehender Forschungsarbeiten.

2.3.5.1 Im Fahrzeug implementierte Sprachdialogsysteme

Mercedes-Benz Bereits 1996 brachte Mercedes-Benz, unter dem Namen Linguatronic, Linguatronic das erste SDS ins Fahrzeug, welches einfache Kommandoworte zur Bedienung des Telefons anbot. Der Fokus bestand dabei auf einer sprecherunabhängigen und robusten Erkennung, trotz der Geräusch- kulisse des Fahrzeuginnenraumes (Heisterkamp, 2001). Über die Jah- 2.3 grundlagen und stand der technik 47

re hinweg fanden immer mehr und komplexere Funktionen Einzug in das SDS, zunächst zum Beispiel eine Navigationseingabe mit Ein- zelworterkennung, später die Adresseingabe direkt mit Stadt, Straße und Hausnummer. Selbst große Musiksammlungen und Telefonlis- ten lassen sich inzwischen mittels Sprache durchsuchen. Inzwischen bietet nicht nur Mercedes-Benz eine Sprachbedienung, sondern alle namhaften Automobilhersteller. Die Funktionalität und das Interak- tionsschema variiert zwar nach Hersteller und Modell leicht, jedoch sind diese Herstellerspezifitäten für vorliegende Arbeit irrelevant. Ei- ne Betrachtung erfolgt somit auf technologischem Gesichtspunkt und etwaige Markennennungen sind beispielhaft zu sehen. Bezüglich Interaktionsschemata erfordert ein SDS im Fahrzeug die Interaktions- Aktivierung über einen bestimmten Schalter (engl. Push-to-Activate- schemata bzw. Push-to-Talk-Button). Dies verhindert eine unbeabsichtigte Ak- tivierung, und dadurch entstehende Verwirrung des Fahrers, sowie schützt die Privatsphäre der Insassen durch selektive Aktivierung des Mikrofons (Weinberg u. a., 2010). Nach Rückmeldung der Aktivie- rung kann der Fahrer eine offene Anfrage stellen und das System führt offene Anfrage dann die Aktion aus. Im Falle von fehlenden Angaben, wie im Beispiel zum geführt Starten einer Navigation, führt das SDS einen Dialog (Mercedes-Benz S-Klasse von 2015):

Nutzer: „Ziel eingeben.“ System: „Bitte sprechen Sie den Namen des Ortes, der Stra- ße und die Hausnummer.“ Nutzer: „Ulm, Albert-Einstein-Allee“ System: „Ulm, Albert-Einstein-Allee übernommen. Möch- ten Sie eine Hausnummer eingeben?“ Nutzer: „Ja.“ System: „Bitte sprechen Sie die Hausnummer.“ Nutzer: „5.“ System: „Hausnummer 5 übernommen. Möchten Sie die Zielführung starten?“ Nutzer: „Ja.“ System: „Die Zielführung wird gestartet.“ Im system-geführten Dialog ist hierbei kein Überbeantworten mög- lich. Waren früher lediglich strikte Kommandoworte implementiert, ist heutzutage auch eine freiere Eingabe als erste Anfrage möglich. freie Eingabe Zum Beispiel bietet Ford SYNC 2 auf die Eingabe „Ich habe Hunger“ Restaurants in der Umgebung an (Ford-Werke GmbH, 2014). Ebenso ermöglicht Audi im virtuellen Cockpit20 die Interpretation natürliche- rer Anfragen, wie zum Beispiel „navigiere mich zum James-Franck- Ring 1 in Ulm“. Dies vermeidet zwar ein notwendiges Lernen der

20 http://www.audi.de/de/brand/de/vorsprung_durch_technik/content/2014/03/ audi-virtual-cockpit.html [Online 04.07.2015] 48 anwendungsübergreifende mensch-maschine kommunikation

Kommandoworte, jedoch steigt die Gefahr von Fehlerkennungen, da Nutzer unter Umständen freie Äußerungen verwenden, die vom SDS nicht unterstützt werden. Bisher verfolgten Sprachdialogsysteme im Fahrzeug eher die Stra- Fehler vermeiden tegie, Fehler zu vermeiden, als Fehler korrigieren und behandeln zu müssen. Ein gängiger Ansatz hierfür ist Fahrern auf der GUI an- zuzeigen, was aktuell gesprochen werden kann. Einerseits geschieht dies implizit durch sprechbare Menüeinträge der GUI, „speak-what- you-see“ genannt (Hassel und Hagen, 2005), und andererseits durch explizite Overlays mit sprechbaren Befehlen, welche als Teleprompter bezeichnet werden (siehe Abbildung 2.6a). Bei Systemen mit wenigen Kommandoworten ist dies ein probates Mittel, bei komplexen Sprach- dialogsystemen mit umfassender Funktionalität, durch die begrenzte Fehlererkennung Bildschirmgröße, allerdings kritisch. BMW setzt zur Fehlererkennung eine visuelle Rückmeldung der Interpretation des Sprachdialogsys- tems ein (siehe Abbildung 2.6b). Im Falle einer Fehlinterpretation er- kennt somit der Fahrer die Ursache, was wiederum die Verwirrung senkt und eine einfache Behebung durch erneute Eingabe ermöglicht. Ein gängiges Mittel zur Aufforderung einer erneuten Eingabe, und so- Fehlerbehebung mit zur Fehlerbehebung bei keiner Eingabe, ist eine spezifischere Syste- mäußerung zu wählen (engl. iterative prompt). Hierbei werden dem Fahrer mögliche sprechbare Äußerungen vorgeschlagen oder auf ein separates Hilfemenü verwiesen. Neben einer Systemerklärung för- dert dies den Lerneffekt. Jedoch ist eine solche Fehlerbehandlung lediglich bei Nicht-Verständnissen möglich, Missverständnisse wer- den durch diese Strategie nicht behandelt. Um Missverständnisse zu korrigieren, setzt Mercedes-Benz auf eine implizite Verifikation im Navigationsdialog (siehe Beispieldialog). Die erkannte Nutzereinga- be wird mit der nächsten Frage im Dialog verknüpft und im Fehlerfall ermöglicht dies dem Fahrer mit „Korrektur“ zu intervenieren. Der Korrekturdialog erfragt daraufhin die letzte Eingabe erneut: „Bitte sprechen Sie die Straße noch einmal“. Eine nicht eindeutige Eingabe lösen die meisten Sprachdialogsysteme im Infotainment-System über eine grafische Liste an möglichen Werten auf, mit der Aufforderung „Wählen Sie die Zeilennummer“. Bei phonetisch ähnlichen Werten ein probates Mittel; phonetisch unterschiedliche, wie beispielsweise eine mobile oder geschäftliche Telefonnummer, können im Dialog auch direkt nachgefragt werden. Derzeit ist die Anzahl sprachlich zu bedienender Anwendungen im Infotainment-System noch sehr gering und die sprachliche Modalität meist eher als unterstützende Modalität zur haptisch-visuellen zu se- hen. Somit überwiegt das vom haptisch-visuell übernommene Inter- aktionsschema, zuerst eine Anwendung per globalem Kommando zu öffnen, um anschließend mit ihr zu interagieren (expliziter Anwen- dungswechsel). Lediglich für wenige Szenarien, wie zum Beispiel ein 2.3 grundlagen und stand der technik 49

(a) Teleprompter Mercedes-Benz S-Klasse (b) Darstellung des Dialogs im BMW 645 von 2015. von 2013.

Abbildung 2.6: Bildschirminhalte zur Fehlervermeidung und Fehlererken- nung.

Navigationssonderziel anzurufen, existieren implizite und übergelei- tete Anwendungswechsel. Wie gezeigt, sind Sprachdialogsysteme im Fahrzeug bereits seit einiger Zeit etabliert, doch derzeit hauptsächlich für klassische An- wendungen wie Navigation, Musik und Telefon verfügbar. In visuell- haptischer Modalität bieten hingegen die meisten Infotainment-Sys- teme bereits viele internetbasierte Anwendungen an und zukünftig vermutlich auch eine Bedienung mittels Sprache, womit die Komple- xität stark steigen wird. Jedoch bergen selbst bestehende Systeme bei einfachen Aufgaben ein gewisses kognitives Ablenkungspotential. Wie Ablenkungspotential Cooper u. a. (2014) in einer Studie mit 6 Serien-Sprachdialogsyste- men (auf Basis von Modellen aus 2012 und 2013) gezeigt, kann die mentale Belastung ähnlich hoch einer Mathematikaufgabe sein und die Komplexität sowie die Interaktionsdauer, signifikanten Einfluss auf die Reaktionszeit haben. Der Sicherheitsaspekt stellt somit in Zu- kunft hohe Anforderungen an komplexe Infotainment-Systeme, um eine Interaktion mittels Sprache mit geringem Ablenkungspotential zu bieten.

2.3.5.2 Mobile Geräte zur Nutzung im Fahrzeug Anstatt von fest integrierten Infotainment-Systemen mit einem SDS, werden im Mittel- und Kleinwagensegment zunehmend Lösungen auf Basis mobiler Geräte, wie dem Smartphone, genutzt. Da ein mobi- Smartphone im les Gerät unabhängig vom Einsatzort ist, kann eine Nutzung im Fahr- Fahzeug zeug erfolgen. Wie jedoch diverse Studien belegen (siehe Abschnitt 2.3.4) ist durch eine nicht-adaptierte Integration eine erhöhte Ablen- nicht-adaptierte kung zu verzeichnen. Yager (2013) verglich die manuelle Texteinga- Integration be mit den persönlichen Assistenten Apple Siri21 und Vlingo22 zur Texteingabe und konnte, selbst bei sprachlicher Bedienung der As- sistenten, eine Ablenkung feststellen. Somit ist nachvollziehbar, wes- halb für diese Art der Nutzung in vielen Ländern ein Verbot besteht.

21 https://www.apple.com/ios/siri [Online 08.06.2015] 22 http://www.vlingo.com/apps/android [Online 07.07.2015] 50 anwendungsübergreifende mensch-maschine kommunikation

Aus diesem Grund erfolgt in der vorliegenden Arbeit lediglich eine Betrachtung von adaptierten Integrationen des Smartphones in den situativen Kontext Fahrzeug. Einen Überblick über verschiedene In- tegrationsvarianten sowie Entwicklung konsistenter Benutzerschnitt- stellen liefert der Artikeln von Stolle u. a. (2007), auf welchem dieser Abschnitt aufbaut. In erster Linie kann eine Integration in das Fahrzeug durch eine einfache Smartphone-Halterung sowie der Nutzung eines Headsets und angepassterUI erfolgen. Diese Integration bietet den Vorteil, auf Unabhängig von keinerlei Fahrzeugspezifika angewiesen zu sein. Speziell im Bereich fahr- Fahrzeug & Modell zeugrelevanter Szenarien, wie zum Beispiel Navigation, Musik oder Telefon, existieren diverse angepasste Anwendungen. Diese beruhen jedoch hauptsächlich auf visuell-haptischer Bedienung. Eine Bedie- nung per Sprache gestaltet sich durch die erhöhte Geräuschkulis- se im Fahrzeug, als schwierig, da höhere Umgebungsgeräusche die Performanz des Spracherkenners negativ beeinflussen (Gong, 1995). Alternativ kann jedoch das Fahrzeug seineUI zur Steuerung des Smartphones zur Verfügung stellen und eine Geräuschvorverarbei- tung, vor Übertragung des Sprachsignals an das Smartphone, durch- führen. Mit dieser Variante lässt sich das Infotainment-System entwe- der mit Funktionalität erweitern oder sogar ersetzen. Zwei beispiel- CarPlay & Android hafte Umsetzung sind einerseits Apples CarPlay23 und andererseits Auto Googles Android Auto24. Beide nutzen das Display des Fahrzeugs zur grafischen Anzeige sowie die jeweils fahrzeugspezifischen Bedienele- mente zur Steuerung des Smartphones. Die sprachliche Bedienung bietet dieselbe Funktionalität wie lokal auf dem Smartphone, aller- dings über Fahrzeugmikrofone und Lautsprecher. Für gängige Sze- narien des Smartphones gestaltet sich diese Variante der Integration als durchaus nützlich, jedoch zur Bedienung von Fahrzeugfunktio- nen, wie zum Beispiel Massagesitze, fehlen notwendige Schnittstellen. Aus diesem Grund verfolgt Ford SYNC25 mit AppLink eine Varian- te im internen Infotainment-System Fahrzeugfunktionen anzubieten und diese durch Zugriff auf Anwendungen des Smartphones zu er- nahtlose Integration weitern (Ford-Werke GmbH, 2015). DieUI ist hierbei nahtlos in das In- fotainment-System integriert und zusätzlich per Kommandoworte be- dienbar. Diese Art der Integration bietet auf Grund der einheitlichen, an die Fahrsituation adaptierte Schnittstelle klare Vorteile hinsichtlich Gebrauchstauglichkeit, ist jedoch kostenintensiv und erfordert eine höhere Wartung durch die Schnelllebigkeit des Smartphonemarktes. Eine Nutzung mobiler Geräte im Fahrzeug ist somit auf unter- schiedlichste Weise möglich. Alle Varianten bieten diverse Vor- und Nachteile. In der vorliegenden Arbeit werden anwendungsübergrei- fende Dialoge aus Nutzerperspektive sowie Entwicklersicht betrach-

23 https://www.apple.com/ios/carplay/ [Online 08.07.2015] 24 https://www.android.com/auto/ [Online 08.07.2015] 25 https://www.ford.com/technology/sync/ [Online 08.07.2015] 2.3 grundlagen und stand der technik 51

tet und somit unabhängig von technischen Integrationsaspekten. In- wieweit nun Anwendungen intern im Infotainment-System ausge- führt werden oder extern auf Smartphones ist im Folgenden nicht von Relevanz.

2.3.5.3 Forschungsprojekte zu Sprachdialogsystemen im Fahrzeug Weit vor jeweiliger technischer Umsetzung im Produkt beschäftigten sich bereits diverse Forschungsprojekte mit der sicheren Integration von Komfortfunktionen, und ihrer sprachlichen Bedienung, in das Infotainment-System. Einen wertvollen Überblick bieten Ei-Wen Lo und Green (2013), die bestehende Arbeiten zusammenfassen und so- mit als grundlegende Literatur für folgenden Abschnitt dienen. Ei- ne Analyse bestehender Projekte zeigt, inwieweit Anwendungswechsel Analyse bestehender und Fehlerbehandlungsdialoge in bestehenden Arbeiten Berücksich- Projekte tigung fanden. Die Analyse umfasst Projekte, welche sich mit dem situativen Kontext Fahrzeug befassen, hauptsächlich die auditive Mo- dalität als Interaktionsschema betrachten und mehrere Anwendun- gen beinhalten. Dies trifft in erster Linie auf folgende Forschungs- projekte zu: CHAT (Weng, Yan u. a., 2007; Weng, Varges u. a., 2006), DICO (Larsson und Villing, 2007; Villing u. a., 2008), GHS26, SENE- CA (Minker u. a., 2004), SMARTKOM (Berton u. a., 2006; Reithinger u. a., 2003) und VICO (Geutner, Steffens und Manstetten, 2002; Geut- ner, Steffens, Peirlinckx u. a., 2004). Wie Tabelle 2.2 zu entnehmen, erfolgt eine Analyse hinsichtlich verschiedener, diese Arbeit betreffen- den Dimensionen. Bezüglich des Anwendungswechsels ist erkennbar, in welchen Projekten implizite und explizite Wechsel möglich sind. Die jeweilige Fehlerbehandlung ist analysiert hinsichtlich den Dimen- sionen Missverständnis, Nicht-Verständnis, Hilfestrategien, dialogi- sches Verhalten von Menschen auf Fehler sowie durch Fehler verur- sachte Ablenkung. Die Analyse erfolgt auf Basis genannter Veröffent- lichungen, wobei nicht zu jeder Dimension eine Aussage getroffen werden kann, da nicht immer hervorgeht, bis zu welchem Grad diese Projekte eine Dimension beachten oder implementieren. Im EU-Projekt SENECA (Minker u. a., 2004) wurde ein Prototyp auf SENECA Basis von Mercedes-Benz Linguatronic entwickelt, welcher die An- wendungen Radio, CD, Navigation und Telefon implementiert. Die Bedienung folgte dem Seriensystem, wobei der Fokus des Projektes auf einer Verbesserung der SDS-Qualität lag, durch Geräuschreduk- tion, verbesserter ASR und flexibler Dialoge. Das kommandowortba- sierte SDS ermöglichte zwar keine anwendungsübergreifenden Dialo- ge, behandelte jedoch Eingaben geringer Konfidenz und Mehrdeutig- keiten durch Verifikationsdialoge beziehungsweise Nachfrage nach mehr Informationen, um Mehrdeutigkeiten aufzulösen. Fehler konn- ten somit behoben werden; wobei SENECA vorwiegend Fehlerver- meidung durch Teleprompter und Antworten auf nutzer-initiierte

26 http://www.gethomesafe-fp7.eu/ [Online 11.07.2015] 52 anwendungsübergreifende mensch-maschine kommunikation

Projekt Anw.wechsel Fehler impl. expl. MV NV Hilfe MenVer Abl

CHAT x x x† ?--- DICO x x x† x† x† -- SENECA - - x† ? x* - - SmartKom x x ? ? ? - - VICO x ? ? x† - x† x

Tabelle 2.2: Analyse von Forschungsarbeiten im Fahrzeugkontext hinsicht- lich Anwendungswechsel und Fehlerbehandlung. MV: Missverständnis, NV: Nicht-Verständnis, MenVer: Mensch- liches Verhalten, Abl: Ablenkung. (*) vom Nutzer initiiert, (†) nicht bei anwendungsüberfreienden Dialogen, (?) Umfang unklar.

Hilfeanfragen nutzte. Es wird von vermehrten OOV-Eingaben und Dialogfehlern berichtet, jedoch findet sich keinerlei Information dar- über, wie Nutzer auf solche Fehler reagierten, beziehungsweise, ob sich diese im Nutzerexperiment auf die Ablenkung auswirkten. Eine menschenähnliche, natürliche Kommunikation zwischen Fah- VICO rer und Fahrzeug entwickelte VICO in Form eines virtuellen Bei- fahrers. Als fahrzeugrelevant betrachtete das Projekt folgende An- wendungen: Navigation, Routenplanung, Hotel, Sightseeing, Bedie- nungsanleitung und Schlagzeilen. In einer explorativen Wizard-of- Oz (WoZ)-Studie (Geutner, Steffens und Manstetten, 2002) wurden Nutzeräußerungen der einzelnen Anwendungen erhoben, auf Basis derer ein SDS entwickelt wurde. Vom Wizard initiierte Nicht-Ver- ständnisse ergaben keine Auswirkungen auf die Fahrerablenkung; Nutzer wiederholten die letzte Äußerungen beziehungsweise formu- lierten diese um. Anwendungswechsel betrachtete diese Studie aller- dings nicht, somit kann nicht abgeleitet werden, wie Menschen bei anwendungsübergreifenden Aufgaben interagieren. Die spätere Im- plementierung von VICO (Geutner, Steffens, Peirlinckx u. a., 2004) er- möglichte allerdings implizite Anwendungswechsel, wobei die Eva- luation lediglich Aufgaben mit einer Anwendung von Versuchsteil- nehmern verlangte. Es wird von unbeabsichtigten Anwendungswech- seln und Fehlerkennungen gesprochen, jedoch erfolgt keine Analyse hinsichtlich menschlichem Verhaltens auf solch einen Fehler noch et- waige Auswirkungen auf die Ablenkung. Eine komplette Abstraktion von Anwendungen, mittels einer ein- heitlichen, natürlichenUI in Form eines Avatars, wurde im Projekt SmartKom SmartKom entwickelt (Reithinger u. a., 2003). Implizite und explizi- te Wechsel innerhalb von 14 Anwendungen waren mit dem Gesamt- system möglich, wobei der Fokus nicht auf dem Szenario Fahrzeug lag, sondern vielmehr auf dem Wechsel zwischen privater, mobiler, 2.3 grundlagen und stand der technik 53 und öffentlicher Umgebung. Berton u. a. (2006) übertragen jedoch das mobile Szenario auf den Fahrzeugkontext und implementierten eine Navigations-, Karten- und Parkplatzanwendung, um einen naht- losen Wechsel vom externen Gerät, wie beispielsweise einem PDA, zur Fahrzeug-UI zu zeigen. Hauptaspekte waren hierbei die Integra- tion von und der Wechsel zwischen Geräten, jedoch ohne Evaluation des Systems mit realen Nutzern, beziehungsweise einer Betrachtung des Dialogs im Fehlerfall oder der Ablenkung. Um Missverständnisse und Fehleingaben zu minimieren, analysier- te das Projekt CHAT (Weng, Varges u. a., 2006; Weng, Yan u. a., 2007) CHAT unvollständige Referenzeingaben und Füllwörter. Durch ein begrenz- tes Kurzzeitgedächtnis kommt es bei der Auswahl eines langen Lis- teneintrags oftmals zu verkürzten Eingaben durch den Menschen, wie zum Beispiel „Garden Restaurant“ anstatt des vollständigen Lis- teneintrags „Little Garden Restaurant China“. Neben einer Reduzie- rung an Missverständnissen durch diese Methodik, wurden zusätz- lich explizite Verifikationsdialoge zum Grounding genutzt. Ein wei- terer wichtiger Punkt des Projektes sind implizite und explizite An- wendungswechsel für die drei Anwendungen Navigation, Musiksu- che und Restaurant (siehe Abschnitt 2.3.2). Auf Grund der Komplexi- tät wurden implizite Anwendungswechsel allerdings nicht standard- mäßig aktiviert. Zusätzlich ist unklar, wie auf Missverständnis oder Nicht-Verständnis beim Anwendungswechsel, einerseits vom SDS, an- dererseits vom Menschen, reagiert wurde. Im Gegensatz zu den bisher vorgestellten Projekten, und stark im Kontext dieser Arbeit, untersuchte DICO (Larsson und Villing, 2007) DICO Hilfedialoge bei uneindeutigen Nutzereingaben sowie explizite und implizite Anwendungswechsel. Im Fall einer uneindeutigen Nutzerein- gabe gab das DICO-SDS proaktiv Vorschläge der nächstmöglichen Aktionen, abhängig vom aktuellen Dialogzustand. Dies scheint aller- dings lediglich innerhalb einer Anwendung möglich und nicht an- wendungsübergreifend. Bei einem Nicht-Verständnis oder Missver- ständnis zeigt sich das SDS wenig kooperativ und wiederholt die Frage mehrmals - eine Verletzung des Punktes 3.4 der Alliance of Automobile Manufacturers (AAM)-Richtlinie, welcher eine Vermei- dung von zeitkritischen Antworten des Nutzers fordert (Driver Fo- cus-Telematics Working Group, 2006). Im Projekt wurde die Frage bearbeitet, wie Menschen untereinander einen Themenwechsel, unter Be- Themenwechsel im rücksichtigung der aktuellen Fahrsituation, initiieren. In einem Nut- zwischenmenschli- zerexperiment beobachteten Villing u. a. (2008), dass Menschen zum chen Dialog Themenwechsel generelle (z.B. „Let’s see“) oder domänenspezifische Phrasen (z.B. „Turn right!) je nach Aufgabe verwenden. In nachfol- gender Arbeit konnte ein, auf die kognitive Belastung des Fahre- res, adaptiertes Verhalten des Beifahrers beim Themenwechsel festge- stellt werden (Villing, 2010). Demnach wechseln Beifahrer nur in Si- tuationen geringer kognitiver Belastung des Fahrers das Thema. Zu 54 anwendungsübergreifende mensch-maschine kommunikation

ähnlichen Ergebnissen gelangen Kun, Shyrokov u. a. (2013), welche ebenfalls zwischenmenschliche Dialogunterbrechungen und Wieder- aufnahmen während einer Fahraufgabe analysierten. Es zeigte sich, dass Dialogpartner hauptsächlich explizite Aufgabenwechsel nutzen. Dies könnte jedoch des Experimentdesigns geschuldet sein, da kein Bezug zwischen den Aufgaben bestand. Anders hingegen beim Rück- wechsel auf die vorherige Aufgabe. Hierbei konnten implizite und explizite Aufgabenwechsel festgestellt werden. Wie Tabelle 2.2 zu entnehmen, sind Anwendungswechsel Teil vie- ler Forschungsarbeiten. Die Anzahl implementierter Anwendungen ist jedoch sehr gering, wodurch die Gefahr von Mehrdeutigkeiten oder Fehlerkennungen weniger gegeben ist. Somit ist verständlich, weshalb Missverständnisse und Nicht-Verständnis hauptsächlich in- nerhalb von Anwendungen behandelt werden, allerdings nicht bei anwendungsübergreifenden Dialogen. Die Reaktion von Nutzern auf Fehler, und dadurch potentiell entstehende Auswirkungen auf die Fahrleistung, analysiert lediglich VICO innerhalb von Anwendungen. Für die Mensch-Fahrzeug-Interaktion bleibt die Frage, wie Nutzer dem SDS Anwendungswechsel mitteilen, das heißt, welche Erwartun- gen an das SDS gestellt werden. Dieses Fragestellung zu beantworten war unter anderem Aufgabe GHS des EU-Projektes GetHomeSafe (GHS)27, in dessen Kontext die vorlie- gende Arbeit durchgeführt wurde. Zwischen 2012 und 2014 wurde im iterativen Prozess ein natürlich zu bedienendes SDS entwickelt und evaluiert. Es sollte eine sichere Interaktion mit den Internetan- wendungen Hotelreservierung, Facebook28, Schlagzeilen und Wolf- ramAlpha29 (Frage-Antwort) ermöglichen. Neben einer multimoda- len natürlichsprachlichenUI (Hofmann, 2014) erfolgte zusätzlich ei- ne explorative Untersuchung des Anwendungswechsels (Reichel u. a., 2014; Reichel, Sohn u. a., 2014), und diverser Hilfestrategien im Feh- lerfall (Reichel u. a., 2015a) - die Ergebnisse sind dem folgenden Kapi- tel zu entnehmen. Eine abschließende Evaluation im realen Fahrzeug zeigte klare Verbesserungen bezüglich Ablenkungsaspekten gegen- über konventionellen fahrzeuginternen Benutzerschnittstellen (Schnee- berger u. a., 2015)

2.4 zusammenfassung und diskussion zwischenmenschli- Wie in Abschnitt 2.1 gezeigt, kommunizieren Menschen unter ande- che Kommuni- rem um Informationen auszutauschen oder Handlungsanweisungen kation zu geben. Einerseits können Menschen Nachrichten durch ihren Mus- kelapparat erzeugen und andererseits durch Sinnesorgane Nachrich- ten empfangen und über kognitive Prozesse interpretieren. Die Nach-

27 http://www.gethomesafe-fp7.eu/ [Online 11.07.2015] 28 https://www.facebook.com [Online 16.07.2015] 29 http://www.wolframalpha.com/ [Online 16.07.2015] 2.4 zusammenfassung und diskussion 55 richten können verbaler und nonverbaler Natur sein, wobei vorlie- gende Arbeit in erster Linie auf die sprachliche Interaktion eingeht. Wichtig zeigt sich somit die Semiotik, welche Zeichen auf verschie- denen Ebenen definiert, um ein gegenseitiges Verständnis der Kom- munikationspartner zu erreichen. Der Kontext, in welchem die Nach- richt steht, ist entscheidend für die Kommunikation und Reaktion menschlicher Gesprächspartner. Zusätzlich beinhaltet jede Nachricht ein Thema, welches während der Kommunikation beibehalten, ab- rupt gewechselt oder in ein neues übergeleitet werden kann. Übernimmt nun eine Maschine die Rolle eines Gesprächspartners, muss Mensch-Maschine eineUI zur Interaktion entwickelt werden (siehe Abschnitt 2.2). Diese Interaktion ermöglicht Menschen ihr Interaktionsziel zu erreichen und zu beur- teilen (siehe Interaktionszyklus nach Norman (2002)). Das mentale Modell des jeweiligen Nutzers spielt hierbei eine zentrale Rolle, um notwendige Aktionen zu bestimmen und die Interaktion zu planen. Dieses Modell ist geprägt von Nutzereigenschaften sowie -erfahrun- gen und unterscheidet sich somit je nach Nutzer. Aus diesem Grund kann man keine optimale und intuitiv bedienbareUI für jeden Nutzer identifizieren. Passt das mentale Modell eines Nutzers, beziehungs- weise seiner Situation, Aufgabe oder des zu bedienende Geräts, nicht zurUI und zur eingesetzter Modalität, können Interaktionsfehler auf- treten. Zur Führung eines sprachlichen Dialogs zwischen Mensch und Ma- schine ist ein SDS erforderlich. Anfangs existierten rein kommando- wortbasierte Systeme zur Auslösung einer Aktion per Sprache. Zu- nehmend ermöglichen Sprachdialogsysteme jedoch, Dialoge mit dem Nutzer zu führen und sie interpretieren natürliche Sprache erfolg- reich. Aktuelle Sprachdialogsysteme erlauben dem Nutzer, freie An- fragen zu stellen und in einem gemischt-geführten Dialog das Inter- aktionsziel zu erreichen. Dies setzt jedoch voraus, dass ein Nutzer korrekt antizipiert, beziehungsweise weiß, was ein SDS an Funktiona- lität anbietet und versteht. Frühere Sprachdialogsysteme umfassten, auf Grund technischer Einschränkungen, nur sehr begrenzte Funk- tionalität und erleichterten somit das Lernen der Systembedienung. Ein aktuelles SDS hingegen kann eine Vielzahl an Anwendungen umfassen und erschwert das Lernen möglicher Kommandoworte. Es erfordert daher ein konsistentes Interaktionsschema, welches einen Wechsel zwischen Anwendungen auf natürliche Weise zulässt. Inter- pretiert man eine Anwendung als Thema einer Kommunikation, kön- nen Methodiken, namentlich ein abrupter oder übergeleiteter The- menwechsel, der zwischenmenschlichen Kommunikation als Modell des Anwendungswechsels Verwendung finden. Jedoch ergibt sich bei Anwendungen ähnlicher Funktionalität die Gefahr, eine Nutzeräuße- rung nicht eindeutig einer Anwendung zuordnen zu können. Eben- so steigt mit der Funktionalität die Komplexität von Sprachmodellen und somit die Wahrscheinlichkeit von Fehlerkennungen. Zur Auflö- 56 anwendungsübergreifende mensch-maschine kommunikation

sung von Mehrdeutigkeiten, sowie zur Behebung von Fehlern, müs- sen Sprachdialogsysteme mit mehreren Anwendungen effiziente Feh- lerbehandlungsstrategien einsetzen. Wie gezeigt, existieren viele sol- cher Strategien zur Auflösung von Missverständnis oder Nicht-Ver- ständnis. In erster Linie sind hierbei implizite sowie explizite Verifika- tion, „MoveOn“ und kontextsensitive „Hilfe mit Beispielen“ zu nen- nen. Jedoch lassen sich implizite Verifikation und „MoveOn“ nicht bei anwendungsübergreifenden Dialogen nutzen, da der Dialogfortgang nicht sicher bestimmt werden kann. Neben einer natürlichen, intuitiven und gebrauchstauglichen Be- dienung steht im Fahrzeug eine Minimierung der Ablenkung des Fahrers im Vordergrund. Der „multiple resource theory“ zufolge be- einträchtigen sich parallel ausgeführte Aufgaben, welche dieselben Ressourcen benötigen. Dies ist vorteilhaft für Sprachbedienung ge- genüber haptisch-visueller Bedienung, jedoch, speziell bei Fehlerken- nungen sowie unzureichender ASR-Genauigkeit, scheint es kognitiv belastend zu sein. Im Fahrzeug sind bereits seit längerem Sprachdia- logsysteme implementiert, die jedoch bisher hauptsächlich das Prin- zip der Fehlervermeidung verfolgen durch Teleprompter oder sys- tem-geführte Dialoge. Sind dies bei geringem Funktionsumfang pro- bate Mittel, ergeben sich bei einem SDS mit mehreren Anwendungen Probleme, wie Mehrdeutigkeiten oder zu umfangreiche Telepromp- ter. Eine Möglichkeit, Fehler zu vermeiden bietet die Integration ex- terner Geräte, da ihre Nutzer das Interaktionsschema in der Regel ab- seits des Fahrzeugs lernen. Einerseits werden dadurch Gerätefunktio- nen zugreifbar, andererseits ermöglicht dies nicht die Bedienung von Fahrzeugfunkionen. Viele Forschungsprojekte beschäftigen sich da- her mit der ablenkungsminimierenden sprachlichen Interaktion zwi- schen Fahrzeug und Fahrer. Wie gezeigt, ist jedoch die Anzahl der Anwendungen gering und somit Fehlerbehandlungen über Anwen- dungsgrenzen hinweg selten ein Kernthema. Dialoge die anwendungsübergreifende Aufgaben modellieren, sind komplex und fehleranfällig und können daher ein erhöhtes Ablen- kungspotential darstellen. Ist dem Nutzer der mögliche Funktions- umfang nicht bekannt, ist zudem die Gefahr von OOA- und OOD- Äußerungen gegeben. Wie in diesem Kapitel aufgezeigt, werden die- se Art der Dialoge, sowie Fehlerbehandlungen von OOA- oder OOD- Äußerungen als sekundäre Aufgaben, in der Literatur wenig beachtet. Zudem existieren bisher keine detaillierten wissenschaftlichen Unter- suchungen, wie Fahrer auf Fehler reagieren, wie lange sie zu deren Behebung benötigen und welche Strategien dafür genutzt werden (Ei- Forschungsfragen Wen Lo und Green, 2013). Diese Fragen sind Teil der vorliegenden Ar- beit, der Untersuchung von anwendungsübergreifenden Sprachdia- logen, während des Führens eines Fahrzeuges. Das nächste Kapitel zeigt hierzu Ergebnisse einer Studie zu Anwendungswechseln, Ablen- kungsaspekten nicht-erfolgreicher Wechsel sowie ein Konzept einer 2.4 zusammenfassung und diskussion 57

Hilfestrategie zur Führung des Nutzers im Fehlerfall. Im iterativen Entwicklungszyklus wird anschließend die Hilfestrategie verfeinert und in einer breit angelegten Internetstudie hinsichtlich Gebrauch- stauglichkeit evaluiert. Anschließend werden die besten Konzepte verfeinert und in einer weiteren Studie im Fahrsimulator bezüglich Ablenkungsaspekten analysiert.

STUDIENZUMANWENDUNGSWECHSELUNDZU 3 FEHLERBEHANDLUNGEN

“The first step in designing a speech interface is to educate yourself about the ways people speak in the domain of the task.”1 Karat u. a. (2012, S. 377)

Wie in vorherigem Kapitel gezeigt, untergliedern sich Infotainment- Systeme im Fahrzeug hauptsächlich auf Anwendungsebene. Dies ist notwendig, da der vorwiegend visuell-haptischenUI nur eine be- grenzte Bildschirmgröße im Cockpit zugemessen werden kann. Mit Einzug von Sprachdialogsystemen ins Fahrzeug gilt diese Einschrän- kung allerdings nur noch begrenzt. Menschen ist es möglich, mittels Sprache komplexe und themen- beziehungsweise anwendungsüber- greifende Dialoge zu führen. Derzeit wird dies von Sprachdialogsys- temen im Fahrzeug allerdings nur rudimentär unterstützt. In diesem Kapitel werden anwendungsübergreifende Sprachdialo- ge für Fahrzeuganwendungen anhand dreier Nutzerstudien analy- siert. Dies folgt dem iterativen Entwicklungsprozess nach Harvey u. a. (2011) in Form von jeweils Design - Analyse - Verfeinerung. Eine erste Fahrsimulatorstudie (siehe Abschnitt 3.1) untersucht im- plizite und explizite Anwendungswechsel hinsichtlich menschlichen Verhaltens, Fahrerablenkung sowie Gebrauchstauglichkeit. Die in der ersten explorativen Studie genutzte Hilfestrategie, zur Führung des Nutzers durch den Anwendungswechsel, wird variiert und in einer zweiten Studie evaluiert. Verschiedene Interaktionsvarianten werden hierbei hinsichtlich Aufgabenerfolg und Gebrauchstauglichkeit unter- sucht (siehe Abschnitt 3.2). Anhand der Ergebnisse der zweiten Stu- die werden die Hilfestrategien iterativ weiterentwickelt und hinsicht- lich Ablenkung im Fahrsimulator in einer dritten Studie analysiert (siehe Abschnitt 3.3). Abschnitt 3.4 fasst schließlich die Ergebnisse der Studien zusammen und formuliert Anforderungen an ein anwen- dungsübergreifendes SDS im Fahrzeug.

3.1 explorative fahrsimulatorstudie

Wie von Karat u. a. (2012) treffend formuliert (siehe obiges Zitat), ist der erste Schritt während der Entwicklung eines Sprachdialogsys- tems, zu beobachten, wie Menschen in der jeweiligen Domäne intera-

1 Übersetzung des Autors: Der erste Schritt zur Entwicklung einer Sprachbedien- schnittstelle ist, zu ergründen, wie Menschen in der Aufgabendomäne sprechen.

59 60 studien zum anwendungswechsel und zu fehlerbehandlungen

gieren. Doch zur Beobachtung der Nutzer ist erst ein System notwen- dig. Da dessen Entwicklung jedoch eine Beobachtung voraussetzt, kann hier von einem klassischen Henne-Ei-Problem gesprochen wer- den (Glass u. a., 2000). Im Folgenden wird aus diesem Grund ein an- wendungsübergreifendes SDS mittels Wizard-of-Oz (WoZ)-Methodik implementiert, welches gewisse Systemfunktionalitäten durch einen Menschen ersetzt und somit eine Beobachtung der Interaktion zwi- schen Nutzer und Fahrzeug ohne vollständige Systementwicklung ermöglicht (Fraser und G.Gilbert, 1991). Eine Korpusanalyse zeigt die verwendeten Arten von Äußerungen zum Anwendungswechsel, die Ausdrucksweise der Nutzer, die Verwendung von anaphorischen Ausdrücken und die Dialogperformanz. Durch simulierte Miss- und Nicht-Verständnisse lässt dies den Schluss zu, wie Fahrer auf Feh- ler beim Anwendungswechsel reagieren, und welche Strategien sie nutzen - ein bisher nicht betrachteter Faktor: „no research has been reported on drivers’ responses to [SDS] errors, how long drivers need to take to correct errors, or what strategies drivers use to correct er- rors.“2 (Ei-Wen Lo und Green, 2013, S. 7). Wie in Abschnitt 2.3.4 behandelt, erfolgt die Interaktion zwischen Nutzer und Fahrzeug als Sekundäraufgabe, welche sich negativ auf die Primäraufgabe, das Fahren, auswirken kann. Zum Beispiel be- obachtet Kun, Paek u. a. (2007) einen negativen Einfluss von Spra- cherkennungsfehlern auf die Fahrleistung. Inwieweit sich fehlerhafte Anwendungswechsel auf die Fahrleistung auswirken, untersucht fol- gende Fahrsimulatorstudie. Neben objektiven Fahrparametern wer- den Wirkungsgrößen wie subjektive Belastung, Stresslevel, Gebrauch- stauglichkeit und Dialogperformanz betrachtet. Die Durchführung und Auswertung wurde im Zusammenhang des betreuten Psycholo- giepraktikums von Sohn (2014) unterstützt. Teile der nachfolgenden Abschnitte wurden bereits in Reichel u. a. (2014) und Reichel, Sohn u. a. (2014) diskutiert.

3.1.1 Studienkonzept

Auf Basis des Funktionsumfangs von aktuellen Infotainment-Syste- men wurden Szenarien für anwendungsübergreifende Nutzeraufga- ben abgeleitet. Diese werden aus Sicht des Nutzers sowie des zwi- schenmenschlichen Dialogs betrachtet und in verschiedenen Interak- tionsvarianten implementiert. Es ist davon auszugehen, dass die Vari- anten hierbei unterschiedliche Auswirkungen auf diverse Wirkungs- größen haben, welche in Hypothesen formuliert werden.

2 Übersetzung des Autors: Bisher finden sich keine wissenschaftlichen Berichte über die Reaktion von Fahrern auf [SDS]-Fehler, wie lange Fahrer benötigen, Fehler zu korrigieren oder welche Strategien Fahrer nutzen, um Fehler zu korrigieren. 3.1 explorative fahrsimulatorstudie 61

3.1.1.1 Anwendungsübergreifende Aufgaben der Nutzer Ein entscheidender Punkt eines Nutzerexperiments sind die von der Versuchsperson zu absolvierenden Aufgaben. Im realen Systemein- satz entstehen diese aus der Situation, wogegen ein kontrolliertes Ex- periment eine klare Aufgabenstellung erfordert. Um die Ergebnisse des Experiments auf reale Situationen übertragen zu können, müs- sen die Aufgaben möglichst realitätsgetreuer Natur sein (Bernsen u. a., realitätsgetreue 1997). Hierfür wurde die Funktionalität moderner Infotainment-Sys- Aufgaben teme analysiert. Daraus werden acht anwendungsübergreifende Sze- narien zusammengestellt (siehe Tabelle 3.1). Ein Szenario besteht aus einer Dreier-Kombination von Funktionen verschiedener Anwendun- gen. In Aufgabe Nummer 5 zum Beispiel soll die Versuchsperson als erste Teilaufgabe die Navigation zum Brandenburger Tor in Ber- lin starten und anschließend ein chinesisches Restaurant entlang der Route suchen. Das gefundene Restaurant soll daraufhin in das Adress- buch übernommen werden (siehe AnhangA. 1.1 für Beispieldialoge).

Nr. Anwendung 1 Anwendung 2 Anwendung 3

1 Point-of-Interest_i Restaurant_i Telefon_a (Ort, Kategorie) (NähePOI, Küche) (Restaurant) 2 Wissen_i Wetter_i Navigation_a (Berg, Land) (Ort, Schneelage) (Adresse) 3 Wetter_i Hotel_a Adressbuch_a (Datum, Ort) (Ort, Dauer) (Hotel) 4 Radio_a Schlagzeilen_i eMail_a (Genre) (Sänger, Tag) (Artikel, Adressat) 5 Navigation_a Restaurant_i Adressbuch_a (Stadt, POI) (Route, Küche) (Restaurant) 6 Schlagzeilen_i Internetradio_a Facebook_a (Thema) (Interpret) (Song) 7 Schlagzeilen_i Wissen_i Währungsrechner_a (Thema) (BIP, Land) (Betrag, Währung) 8 Navigation_a Benzinpreis_i Reichweite_i (Ort) (Land1, Land2) (Tankstelle)

Tabelle 3.1: Anwendungsübergreifende Aufgaben mit Klassifikation der Tei- laufgaben (i=Informationsanfrage, a=Aktionsausführung) und erforderlichen Parametern. Unterstrichene Parameter symboli- sieren die Werteübergabe zwischen Anwendungen.

Die Teilaufgaben wurden in Informationsanfrage (_i) und Aktions- ausführung (_a) klassifiziert. Dies basiert auf der Klassifikation nach Aufgabenklas- Kellar u. a. (2006), welche Nutzeraufgaben in Informationsanfrage sifikation 62 studien zum anwendungswechsel und zu fehlerbehandlungen

(engl. information seeking), Informationsaustausch (engl. informati- on exchange) und Informationserhaltung (engl. information mainte- nance) untergliedern. Im Fahrzeugkontext ist Informationserhaltung (z.B. Wartung von Webseiten) eher nebensächlich und wird in dieser Arbeit daher mit Aufgaben des Informationsaustausches zusammen- gefasst. Zur deutlicheren Unterscheidung wird diese Art der Aufga- ben im Folgenden als Aufgaben zur Aktionsausführung bezeichnet. Sie umfassen somit Teilaufgaben, welche eine Anweisung an das In- fotainment-System enthalten, wie zum Beispiel das Radio anzuschal- ten. Wie aus Tabelle 3.1 ersichtlich, benötigen Teilaufgaben bestimmte Parameter Parameter (z.B. eine Stadt wie Berlin) zur Aktionsausführung, bezie- hungsweise, um eine Informationsanfrage zu beantworten. Da sich diese Arbeit lediglich mit dem Starten einer Teilaufgabe und dem Wechsel zwischen Anwendungen beschäftigt, sind Funktionen inner- halb von Anwendungen oftmals vereinfacht. Einerseits erfolgen Ver- einfachungen in der Anzahl der geforderten Parameter, andererseits in der Akzeptanz von Parametern und deren Werten (z.B. erkennt das Telefon anstatt der Telefonnummer auch direkt den Namen des anwendungsüber- Restaurants). Einen zentralen Punkt stellen die Parameter der Werte- greifende übergabe zwischen Anwendungen dar (in Tabelle 3.1 unterstrichen dar- Parameterübergabe gestellt). Diese sorgen für einen natürlichen Dialogverlauf durch eine inhaltliche Verbindung der Teilaufgaben. Das Ergebnis, beziehungs- weise die Antwort der vorherigen Teilaufgabe, wird als Parameter der folgenden benötigt. Zum Beispiel soll die Versuchsperson in Auf- gabe 7 das Bruttoinlandsprodukt zu dem im Nachrichtenartikel ge- nannten Land erfragen. Innerhalb einer Teilaufgabe reagiert das SDS wie vom Nutzer erwartet, wogegen als Antwort auf erforderliche An- wendungswechsel verschiedene Interaktionsvarianten umgesetzt und evaluiert werden.

3.1.1.2 Interaktionsvarianten des Anwendungswechsels Der Start einer Anwendung, beziehungsweise ein Anwendungswech- sel, kann nutzer-initiiert auf zwei unterschiedliche Arten erfolgen; ei- Explizite & nerseits explizit, andererseits implizit (siehe Abschnitt 2.3.2). Bei einer implizite Anwen- expliziten Anwendungsselektion müssen Nutzer den Kontext der An- dungsselektion wendung setzen, bevor sie ihre eigentliche Aufgabe absolvieren kön- nen. Folgende Interaktion kann als Beispiel einer expliziten Anwen- dungsselektion gesehen werden:

Nutzer: „Wechsel zur Restaurantanwendung.“ System: „Restaurantanwendung, was möchten Sie?“ Nutzer: „Eine Pizzeria in Berlin bitte“ Eine implizite Anwendungsselektion ermöglicht die Ausführung der Aufgabe direkt, ohne den Kontext setzen zu müssen. Ein Beispiel hier- für wäre folgende Äußerung: 3.1 explorative fahrsimulatorstudie 63

Nutzer: „Suche mir eine Pizzeria in Berlin.“ Durch die begrenzte Bildschirmgröße eines hauptsächlich visuell um- gesetzten Infotainment-Systems oder Smartphones, und der damit verbundenen Untergliederung in Anwendungen, ist eine explizite Anwendungsselektion ein gebräuchliches Interaktionsschema für die- se Geräte. Hauptsächlich sprachbasierte Umsetzungen hingegen, wie zum Beispiel persönliche Assistenten (Apple Siri3 oder Microsoft Cort- ana4), nehmen diese Untergliederung weniger vor und ermöglichen implizite Selektion bestimmter Anwendungen. Speziell im Fahrzeug kann dies von Vorteil sein, da tendenziell weniger Dialogschritte be- nötigt werden, um eine Aufgabe auszuführen. Eine implizite Anwendungsselektion stellt hohe Anforderungen an Anforderungen an ein SDS, da eine Vielzahl möglicher Aufgaben global verfügbar ist. ein SDS Dies resultiert in komplexen Modellen für die Spracherkennung so- wie des Sprachverständnis, welche anfällig für Fehlerkennungen und Fehlinterpretationen werden (Carstensen u. a., 2010). Zusätzlich kön- nen Mehrdeutigkeiten bezüglich ähnlicher Anwendungen auftreten, wie zum Beispiel eine Äußerungen „Nachrichten abrufen“, welche die aktuellen Schlagzeilen oder eMails meinen könnte. Wie in Ab- schnitt 2.3.3 gezeigt, kann ein SDS verschieden auf solche Äußerun- Kap 3: Interaktionsvariantengen reagieren und OOD Fehlerbehandlungsstrategien Studie anwenden.

Impliziter Anwendungswechsel

keine OOA-Erkennung OOA-Erkennung

Erwartete Missverständnis Nicht-Verständnis Dialoginitiativen- Reaktion (ER) (MU) (NU) wechsel (DIS)

Abbildung 3.1: Varianten der Reaktion auf einen impliziten Anwendungs- wechsel (rot).

In dieser Studie wurden vier verschiedene Systemreaktionen auf implizite Anwendungswechsel untersucht, welche Abbildung 3.1 zu entnehmen sind (Beispieldialoge finden sich in AnhangA. 1.1). In ers- ter Linie kann zwischen einer OOA-Erkennung (wie im allgemeinen OOD-Fall von z.B. Ryu u. a. (2014) gezeigt) und keiner OOA-Erken- nung unterschieden werden. Besitzt ein SDS eine OOA-Erkennung, werden Äußerungen, die im aktuellen Kontext nicht richtig interpre- tiert werden können, identifiziert und darauf angemessen reagiert.

3 https://www.apple.com/ios/siri/ [Online 27.12.2014] 4 http://www.windowsphone.com/en-us/how-to/wp8/cortana/meet-cortana [Online 27.12.2014] 64 studien zum anwendungswechsel und zu fehlerbehandlungen

Ist keine OOA-Erkennung vorhanden, werden Äußerungen im ak- tuellen (falschen) Anwendungskontext interpretiert. Unterstützt ein SDS implizite Anwendungswechsel, sind anwendungsübergreifende Äußerungen im Kontext enthalten, und das System reagiert wie vom Interaktions- Nutzer erwartet, welches die Interaktionsvariante Erwartungskonfor- varianten me Systemreaktion (ER) simuliert. Wird ein impliziter Anwendungs- wechsel vom SDS nicht unterstützt, hat dies eine Fehlerkennung, eine falsche Interpretation und somit eine fehlerhafte Kommunikation zur Folge. Skantze (2007) unterscheidet hierbei zwischen Missverständ- nis (MU, engl. MisUnderstanding) und Nicht-Verständnis (NU, engl. Non-Understanding). ImMU-Fall wird die Anfrage, die Anwendung zu wechseln, im Kontext der aktuellen Anwendung interpretiert und beantwortet, wogegen imNU-Fall der Fehler von der OOA-Erken- nung erkannt und die Anfrage zurückgewiesen wird. Diese Zurück- weisung erfolgt durch eine Entschuldigung sowie einer Aufforderung zur Umformulierung und ist somit eine Kombination der Fehlerbe- handlungsstrategien „Notify“ und „AskRephrase“ von Bohus und Rudnicky (2005). Die einzige Möglichkeit für einen Nutzer in den MU- oderNU-Varianten einen Aufgabenerfolg zu erlangen, ist durch einen expliziten Anwendungswechsels. Ein Ansatz zur Sicherung des Aufgabenerfolgs, trotz nicht vorhandenen impliziten Anwendungs- wechsels, bietet ein Dialoginitiativenwechsel (DIS, engl. Dialog Initia- tive Switch). In dieser Variante übernimmt das SDS die Dialogfüh- rung und führt den Nutzer durch den Anwendungswechsel. Imple- mentiert wird hierzu die „Notify“ und „YouCanSay“ Strategie nach Bohus und Rudnicky (2005), welche eine Präsentation der möglichen Kommandos vorsieht. Dies ermöglicht dem Nutzer, zuerst die An- wendung und Funktion auszuwählen, um anschließend Beispieläu- ßerungen vorgelesen zu bekommen. Nach Wechsel der Anwendung wird die Dialogführung zurück an den Nutzer gegeben.

3.1.1.3 Wirkungsgrößen der Interaktionsvarianten Zur Bewertung der Gebrauchstauglichkeit von Infotainment-Syste- men entwickelten Harvey u. a. (2011) ein Toolkit, welches aus 70 Eva- luationsmethodiken die passendsten identifizierte. Für experimentel- le Studien sind dies in erster Linie objektive Daten wie die Leistung der Versuchsperson in Primär- und Sekundäraufgabe. Zusätzlich ge- ben subjektive Daten Aufschluss über das Empfinden der Versuchs- person und ihrer Einstellung gegenüber dem System. Auf Basis des Toolkits wurden folgende Wirkungsgrößen zur Analyse der Interak- tionsvarianten ausgewählt:

Fahrleistung: Wie in Abschnitt 2.3.4 beschrieben, können sich se- kundäre Aufgaben, wie das Bedienen von Infotainment-Syste- men, negativ auf die Fahrleistung auswirken. Die Fahrleistung wird definiert durch Geschwindigkeit, Fahrzeugposition auf der 3.1 explorative fahrsimulatorstudie 65

Straße und Reaktion auf Ereignisse (SAE International, 2013; Harvey u. a., 2011). Diese Faktoren werden durch die Bedienung von Gas- und Bremspedal sowie Lenkung beeinflusst. Besonde- re Schwierigkeit besteht bei realen Fahrsituationen das jeweili- ge Signal zu separieren und trotz Rauschen in den Daten Ver- änderungen zu identifizieren (SAE International, 2013). Mahr u. a. (2012) raten daher zu einer strikter kontrollierten Fahrum- gebung, um die Variabilität der Daten zu senken. Darauf ba- sierend wird in dieser Studie die Fahrleistung über die Spur- haltung, Reaktionszeit und Angemessenheit der Reaktion defi- niert.

Subjektive Belastung: Neben der objektiven Fahrleistung ist die vom Fahrer empfundene Belastung ein wichtiger Indikator für die Qualität eines Sprachdialogsystems. Eine Befragung der Ver- suchspersonen mittels „Driver Activity Load Index (DALI)“- Fragebogen (Pauzié u. a., 2007) ermöglicht eine Einschätzung hinsichtlich der Dimensionen globale Aufmerksamkeit, auditive Anforderungen, Stress, Interferenz zwischen primärer und se- kundärer Aufgabe, sowie zeitlichen Anforderungen (siehe An- hangA. 1.4). Der DALI-Fragebogen ist hierbei ein auf die Fahr- aufgabe angepasste Variante des NASA-TLX (Task Load)-Fra- gebogens nach Hart und Staveland (1988). In der vorliegenden Arbeit wird eine deutsche Übersetzung des DALIs verwendet (siehe Hofmann (2014)).

Stresslevel: Neben subjektiven Einschätzungen durch eine Dimen- sion des DALI-Fragebogens, kann das Stresslevel des Fahrers über physiologische Sensoren erhoben werden (Schneegass u. a., 2013; Mehler u. a., 2012; Solovey u. a., 2014). Der Hautleitwert ist dabei einer der zuverlässigsten Faktoren, Stress zu detektieren (Healey und Picard, 2005).

Gebrauchstauglichkeit: Zur Beurteilung der Gebrauchstauglichkeit von Sprachdialogsystemen existieren bereits eine Vielzahl an verschiedenen Methodiken. Einen umfassenden Überblick lie- fern Möller (2005) und Möller (2010). Der „Subjective Assess- ment of Speech System Interfaces (SASSI)“-Fragebogen (Hone und Graham, 2000) deckt den Großteil durch folgende Dimen- sionen ab: Genauigkeit der Systemantwort, Beliebtheit, kogniti- ve Anstrengung, Ärgernis, erkennbares konzeptionelles Modell und Schnelligkeit. In der vorliegenden Arbeit wird eine deut- sche Übersetzung des SASSIs verwendet (siehe Strauss (2010)).

Dialogperformanz: Neben subjektiven Einschätzungen durch die Gebrauchstauglichkeit, lassen auch objektive Interaktionspara- meter einen Schluss über die Qualität eines Sprachdialogsys- tems zu (Möller, 2010). In dieser Studie werden die Dimensio- 66 studien zum anwendungswechsel und zu fehlerbehandlungen

nen Aufgabenerfolg, Antwortzeit des Nutzers sowie die Dauer der Nutzer- und Systemäußerungen analysiert.

3.1.1.4 Hypothesen Die genannten Interaktionsvarianten des Anwendungswechsels wer- den hinsichtlich verschiedener Wirkungsgrößen in einem Nutzerex- periment analysiert. Zusätzlich werden die Varianten zu einer Situa- tion ohne Bedienung des Sprachdialogsystems verglichen, im Folgen- Baseline den Baseline (B) genannt. Dies zeigt auf in welchem Ausmaß das SDS die Primäraufgabe beeinflusst (Harvey u. a., 2011). Zu Beginn und zu Ende des Experiments wird eine Baseline-Fahrt absolviert, um mögliche Lerneffekte während des Experiments zu identifizieren. Durch eine vorherige Trainingszeit im Simulator und dem Besitz ei- nes gültigen Führerscheins ist davon auszugehen, dass zwischen bei- den Baseline-Fahrten keine signifikanten Unterschiede auftreten (Hy- pothese 1).

Nr. Hypothese Beschreibung

H1 B1 = B2 es existieren keine sig. Unterschiede zwischen Baseline-Fahrten

H2 ER = BX ER weist keine sig. Unterschiede zu Baseline auf H3 ER > (MU, NU) ER ist sig. besser als MU oder NU H4 NU > MU NU ist sig. besser als MU H5 ER > DIS > (MU, NU) DIS liegt zwischen ER und MU, NU

Tabelle 3.2: Hypothesen zu verschiedenen Varianten des Anwendungswech- sels (sig. = signifikant).

Hypothesen Tabelle 3.2 ist eine Übersicht der Hypothesen zu entnehmen. Auf Grund der Implementierung im SDS als rein sprachliche Modalität, und der direkten Ausführung der Anwendungen sollten sich die Fahrleistung und kognitiven Belastungen von derER auf demselben Niveau wie die der Baseline-Fahrten befinden (Hypothese 2). Basie- rend auf Arbeiten von Gärtner u. a. (2001) und Kun, Paek u. a. (2007) kann davon ausgegangen werden, dass bei einer nicht-erwartungs- konformen Systemantwort, wie bei den VariantenMU undNU, die kognitive Belastung steigt, und dadurch diese Varianten schlechter abschneidet (Hypothese 3). Hypothese 4 zieht einen Vergleich der Va- riantenMU undNU, wobei nach Bohus und Rudnicky ( 2001)NU signifikant besser alsMU bewertet werden sollte, da beiMU das SDS falsche Information nutzt und eine Korrektur durch den Nutzer er- folgen muss.NU hingegen gibt eine Erklärung sowie einen Lösungs- vorschlag. Auf Dauer könnte dies allerdings zur Frustration des Nut- zers führen. Eine interessante Fragestellung dieses Experiments ist, 3.1 explorative fahrsimulatorstudie 67 ob der DIS als erfolgreiche Strategie zur Antwort auf OOA-Anfragen im Fahrzeug-SDS eingesetzt werden kann. Es wird davon ausgegan- gen, dass die Variante DIS schlechter als die VarianteER, aber besser als die VariantenMU undNU abschneidet (Hypothese 5).

3.1.2 Aufbau und Durchführung des Experiments

Die Situation, in welcher sich ein Nutzer befindet, kann Einfluss auf die Interaktion mit dem SDS haben. Aus diesem Grund sollte ein Nutzerexperiment unter möglichst realen Bedingungen durchgeführt werden (Bernsen u. a., 1997). Die Durchführung eines Ablenkungs- experiments im realen Straßenverkehr ist allerdings, auf Grund von Sicherheitsaspekten (Harvey u. a., 2011) und fehlender Kontrolle der Situation (Mahr u. a., 2012), nicht sinnvoll. Daher wird für die Durch- führung dieses Experiments ein Fixed-Base-Fahrsimulator verwendet. Fixed-Base- Abbildung 3.2 zeigt die Fahrgastzelle, den Bildschirm zur blickfeld- Fahrsimulator ausfüllenden Fahrsimulation und den Arbeitsplatz des Versuchslei- ters (Wizards). Gesteuert wird die Umgebung von einem Computer, welcher einerseits die Fahrsimulation (vgl. Abschnitt 3.1.2.1) und an- dererseits das SDS (vgl. Abschnitt 3.1.2.3) ausführt. Dies ermöglicht einen direkten Vergleich der Messdaten anhand von eindeutigen Zeit- stempeln. Wie in Abschnitt 2.3.4 beschrieben, erfordern weitere Mo- dalitäten, wie zum Beispiel visuelle oder haptische, menschliche Res- sourcen und interferieren mit anderen Aufgaben. Um solche Interfe- renzen zu vermeiden, wird in diesem Experiment auf eine visuelle Darstellung im Zentraldisplay des Fahrzeugs verzichtet. Zusätzlich würde eine visuelle Darstellung unter Umständen die Wortwahl der Versuchspersonen durch dargestellte Begriffe beeinflussen.

Abbildung 3.2: Fahrsimulator mit Bildschirm und Wizard Arbeitsplatz.

3.1.2.1 Fahrsimulation mit OpenDS und ConTRe Task Anhand des Datensatzes der Vorstudie von Hofmann, Silberstein u. a. (2014) wurden Dialog- und ASR-Fehler in Bezug zu Fahrleistungen 68 studien zum anwendungswechsel und zu fehlerbehandlungen

„Lane Change“ Test gesetzt (gemessen mit dem „Lane Change“ Test (Mattes, 2003)). Dies zeigte nur geringe Anzeichen einer Auswirkung von Dialogfehlern auf die Fahrleistung, identifizierte allerdings ein Problem des „Lane Change“ Tests. Viele Dialogfehler konnten keine Auswirkung auf die Fahrleistung haben, da sie zwischen zwei Fahrspurwechseln eintra- ten, und somit keine Aufmerksamkeit des Fahrers erforderlich war. Der „Lane Change“ Test ist somit für diese Art der feingranularen Analyse nicht geeignet. Es ist eine Fahraufgabe, welche dauerhaft die Aufmerksamkeit des Fahrers erfordert, notwendig. Der Continuous Tracking and Reaction Task (ConTRe Task) nach Mahr u. a. (2012) er- fordert solch eine dauerhafte und konstante Aufmerksamkeit durch Lenkbewegungen und Reaktionen auf Ereignisse.

Abbildung 3.3: Continuous Tracking and Reaction Task (ConTRe Task) nach Mahr u. a. (2012). Entwickelt und lizenziert im GHS-Projekt.

ConTRe Task als Abbildung 3.3 zeigt die Fahrsimulation mit ConTRe Task. In kon- Fahraufgabe stantem Abstand zum Fahrzeug befindet sich ein blauer Lenkzylin- der, ein gelber Zylinder und eine Ampel. Der gelbe Zylinder be- wegt sich unvorhergesehen nach links und rechts, wobei der Fahrer durch Lenkbewegungen den blauen Zylinder deckungsgleich halten muss. Dies ist vergleichbar mit der Fahrt auf einer kurvenreichen Stre- cke und erfordert somit konstante Lenkkorrekturen. Ein wichtiger Aspekt im Straßenverkehr ist die Reaktion auf plötzliche Ereignisse. Dies wird durch eine Ampel über den Zylindern simuliert, welche in zufälligen Abständen rot oder grün anzeigt. Als Reaktion auf ein grü- nes Licht muss der Fahrer schnellstmöglich das Gaspedal betätigen, entsprechend bei rot das Bremspedal. Da sich das Fahrzeug konstant mit 50km/h bewegt, ist ein Betätigen der Pedale lediglich als Reak- tion auf Ampelereignisse erforderlich. Nach SAE International (2013) ist die Ursprungsposition des Fußes entscheidend, wie schnell eine je- weilige Pedalreaktion erfolgen kann. Aus diesem Grund werden die Versuchspersonen angewiesen, ihren Fuß leicht auf dem Gaspedal zu halten. Dies führt zu schnelleren Reaktionszeiten auf ein grünes Licht, kann allerdings bei der Auswertung berücksichtigt werden. Der Con- TRe Task ermöglicht verschiedene Schwierigkeitsgrade, wobei in die- 3.1 explorative fahrsimulatorstudie 69

ser Studie die schwierige Einstellung „hard driving“ nach Mahr u. a. (2012) gewählt wird. Als Ausführungsumgebung für den ConTRe Task ist die Fahrsimu- lation OpenDS5 geeignet (Math u. a., 2012) - Vorabversion, entwickelt OpenDS als und lizenziert im GHS-Projekt. Neben physikalischer Fahrsimulation Fahrsimulation und Erstellung einer virtuellen Welt beinhaltet OpenDS umfangrei- che Protokollmechanismen. Eine hohe Genauigkeit der Auswertung wird durch die Erstellung eines Datensatzes ca. alle 3ms garantiert. Zur Anbindung des Fahrsimulators wurde ein Modul entwickelt, wel- ches CAN-Daten der Lenkradposition und des Pedalstatus aufberei- tet und über eine Socketverbindung OpenDS zur Verfügung stellt.

3.1.2.2 Elektrodermale Aktivität (EDA) als Indikator für Stress Wie erwähnt, wird der Hautleitwert, auch ElektroDermale Aktivi- tät (EDA) genannt, von kognitiver Belastung, Erregung und Stress beeinflusst. Die EDA bezieht sich auf die veränderlichen elektrischen elektrische Eigenschaften der menschlichen Haut als Antwort auf Schweißabsonde- Eigenschaften der rungen (einen Überblick liefern Boucsein u. a. (2012)). Die Leitfähig- Haut keit der Haut wird mittels zweier Elektroden ermittelt, über welche eine konstante Spannung angelegt und somit der Strom gemessen werden kann. Die Angabe des Leitwerts erfolgt in µS (Mikrosiemens). Zur Auswertung kann zwischen dem Hautleitwertsniveau (SCL, engl. Skin Conductance Level) und der Hautleitwertsreaktion (SCR, engl. Skin Conductance Response) unterschieden werden (Schandry, 1998). SCL verändert sich langsam über die Zeit und ist intra- und inter- individuell sehr unterschiedlich. SCR hingegen reagiert kurzzeitig auf einzelne Reize und führt zu einer charakteristischen Amplitude. In dieser Studie interessieren in erster Linie die Einflüsse von nicht- erwartungskonformen Systemantworten, welche als Reize aufgefasst werden können, und somit eine Analyse der SCR verlangen. Zur Messung der EDA wird der tragbare Rekorder Varioport der Fir- EDA-Messung ma Becker Meditec eingesetzt. Elektroden können nach Boucsein u. a. (2012) an Fußsohle, Fingerspitze oder Handfläche angebracht werden und sollten möglichst konstantem Druck und Temperatur ausgesetzt werden. Durch die Reaktions- und Lenkaufgabe sind somit Fußsoh- le sowie Handfläche ausgeschlossen, und die Elektroden werden an den Fingerspitzen des Mittel- und Ringfingers angeklebt und mittels Klettband fixiert. Zwischen Elektrode und Finger stellt ein elektroly- tisches Gel die Verbindung her. Die Messung des Leitwerts erfolgt durch Anlegen einer Gleichspannung von 0,5 Volt über den Vario- port-Rekorder, welcher das Signal mit 64Hz abtastet und als 16Bit- Wert auf die interne SD-Karte schreibt. Über einen externen Tastgeber können vom Versuchsleiter Markierungen in die Messaufzeichnung eingefügt werden. Dies erleichtert durch Synchronisationspunkte mit anderen Daten die spätere Auswertung.

5 http://opends.eu/ [Online 30.12.2014] 70 studien zum anwendungswechsel und zu fehlerbehandlungen

3.1.2.3 Implementierung des Sprachdialogsystems als Wizard-of-Oz Ein reales SDS benötigt entweder Lexika und Grammatiken oder aber trainierte Sprachmodelle. Ist dies bei einfachen, system-geführ- ten Dialogen mit wenigen Kommandoworten noch vergleichsweise unkompliziert umzusetzen, gestaltet sich die Entwicklung von na- türlichsprachlichen, nutzer-geführten Dialogen mit mehreren Anwen- dungen als aufwendig (Carstensen u. a., 2010). Für ein solch komple- Wizard-of-Oz xes SDS kann in einer erster Evaluationsphase ein WoZ-Experiment Experiment hilfreiche Erkenntnisse über die Interaktion zwischen Mensch und zukünftigem SDS liefern (Bernsen u. a., 1997). Hierbei werden Teile des Systems, wie zum Beispiel die ASR und das SLU, durch einen speziell geschulten Versuchsleiter (Wizard) ersetzt. Ein WoZ-Expe- riment ist zwar hinsichtlich Planung und Datenanalyse aufwendig, doch die erhobenen Korpusdaten können direkt in die Entwicklung einer Grammatik einfließen oder für das Training eines statistischen Sprachmodells genutzt werden (Glass u. a., 2000). Zusätzlich werden Fehlinterpretationen minimiert, beziehungsweise entstehen lediglich als Resultat falscher Wizard-Reaktionen oder auf Grund fehlerhafter Planung. Ein wichtiger Aspekt eines WoZ-Experiments ist, dass die Versuchsperson von einem realen System ausgeht, da ein Unterschied zwischen zwischenmenschlicher und Mensch-Computer-Kommuni- kation besteht (Fraser und G.Gilbert, 1991). Aus diesem Grund wird sichergestellt, dass Versuchspersonen die Interaktion des Wizards mit dem System, wie beispielsweise Mausklicks, nicht wahrnehmen kön- nen. Um die Illusion der Interaktion mit einem Realsystem aufrecht zu halten, werden Systemantworten mittels TTS generiert (NUANCE Vocalizer Expressive6, Version 1.2.1, Stimme: anna.full). Herausforderungen für den Wizard sind einerseits eine konsistente Reaktion über das gesamte Experiment hinweg zu garantieren, ande- rerseits eine schnelle Reaktionszeit zu gewährleisten. Beispielsweise sollte ein SDS innerhalb von zwei Sekunden nach Ende einer Nutzer- äußerung reagieren (Fried und Edmondson, 2006). Beides wird durch SUEDE als SDS- Softwareunterstützung erreicht. Das Tool SUEDE von Klemmer u. a. Ersatz im (2000) ermöglicht einerseits eine Spezifikation des Dialogverlaufs und WoZ-Experiment andererseits eine Arbeitsumgebung für den Wizard (siehe Anhang A.1.2). Die Spezifikation des Dialogs wird in SUEDE mittels Zustands- diagrammen erreicht. Hierbei sind Systemausgaben als Zustände (in der Farbe Orange dargestellt), und potentielle Nutzeräußerungen als Kanten zwischen Zuständen umgesetzt (in grün dargestellt). Wäh- rend des Versuchs dient SUEDE als SDS, in welchem die ASR und das SLU durch den Wizard ersetzt werden. Hierzu werden dem Wi- zard, abhängig vom Dialogzustand, die möglichen Äußerungen als Links dargestellt. Nach jeder Nutzeräußerung klickt der Wizard den passenden Link, und SUEDE wechselt in den nächsten Dialogzustand

6 http://www.nuance.com/for-business/mobile-solutions/ vocalizer-expressive/ [Online 27.12.2014] 3.1 explorative fahrsimulatorstudie 71 und spielt der Versuchsperson die synthetisierte Systemantwort vor. Für eine spätere Analyse wird der Dialog und die Nutzeräußerung gespeichert. Dieses Experiment erforderte eine Anpassung von SUE- DE an die aktuelle Java-Version und Implementierungen für Schnitt- stellen zur TTS, sowie zur automatischen Protokollierung in OpenDS. Alle in Abschnitt 3.1.1.1 dargestellten anwendungsübergreifenden Aufgaben wurden in jeder Interaktionsvariante mit SUEDE implemen- SUEDE Dialogim- tiert. Wie erwähnt, erfordert jede Teilaufgabe 2 bis 4 Parameter, wel- plementierung che der Nutzer eingeben muss. Neben einer sequentiellen Eingabe (z.B. „Navigation“), können auch alle in einer Äußerung eingegeben werden (z.B. „Navigiere mich nach Berlin zum Brandenburger Tor“). Für jede Kombination an möglichen Parametern ist ein Dialogzu- stand implementiert, welcher die potentiell fehlenden Parameter ab- fragt. Nach Eingabe aller Parameter enden alle Dialogpfade in einem gemeinsamen Zustand, von welchem aus ein Anwendungswechsel stattfinden kann. Etwaige Meta-Dialogäußerungen, wie zum Beispiel eine Systemäußerung erneut vorzulesen, können über Schaltflächen vom Wizard in jedem Dialogzustand initiiert werden.

3.1.2.4 Teilnehmer des Experiments Vor Durchführung eines Experiments ist es entscheidend, die Popu- lation der Versuchsteilnehmer zu definieren. Faktoren wie zum Bei- spiel Alter, Geschlecht, Bildung können einen Einfluss auf die Wir- kungsgrößen haben. Aus diesem Grund ist es essentiell, die Popu- lation ähnlich der Grundgesamtheit, das heißt, ähnlich der späteren Systemnutzer, auszuwählen (Lazar u. a., 2010). Die Definition der Po- Definition der pulation für dieses Experiment basiert auf Ergebnissen der National Population Highway Traffic Safety Administration (NHTSA) (2013), welche töd- liche Unfälle im Jahr 2011 analysierte. Diese Analysen zeigten, dass 73% der durch Handynutzung abgelenkten Fahrer unter 40 Jahren alt sind. Somit ergibt sich als Zielgruppe für dieses Experiment eine Altersgruppe von 18 bis 40 Jahren, ausgeglichen im Geschlecht und im Besitz eines gültigen Führerscheins. Die Akquise der Versuchsteil- nehmer erfolgt durch persönliche Ansprache, eMails und Facebook- Nachrichten. Zur Hälfte werden Daimler-Mitarbeiter gewählt, welche das Experiment während der Arbeitszeit durchführen; externe erhal- ten eine Aufwandsentschädigung in Höhe von 30 Euro.

3.1.2.5 Ablauf pro Teilnehmer Wie von Bernsen u. a. (1997) empfohlen, wurde mittels Vortests ite- rativ ein Versuchsablauf erstellt, um die Hypothesen (vgl. Abschnitt 3.1.1.4) zu prüfen. Jede Versuchsperson wird zu Beginn begrüßt, er- hält einen Versuchsüberblick und muss zur Teilnahme einwilligen. Anschließend werden die Elektroden der EDA-Messung an Mittel- und Ringfinger geklebt, um vor der ersten Messung eine ausreichen- 72 studien zum anwendungswechsel und zu fehlerbehandlungen

de Zeit zur thermalen Anpassung und Bildung einer Feuchtigkeits- schicht zu gewährleisten. Abbildung 3.4 kann der weitere Ablauf ent- nommen werden. Durch einen Vorbefragungsbogen wird ein Profil der Versuchsperson erstellt sowie allgemeine Fragen zum Anwen- dungswechsel und zur Technikaffinität gestellt (siehe AnhangA. 1.3). Einer Einführung in den Fahrsimulator mit anschließender Trainings- phase folgt die erste Baseline-Fahrt. Nach jeder Fahraufgabe füllt die Versuchsperson einen DALI-Fragebogen zur subjektiv empfun- denen Belastung aus (siehe AnhangA. 1.4). Daraufhin folgt die ers- te Interaktion mit dem SDS in Form von vier Explorationsaufgaben, welche einen impliziten und expliziten Anwendungswechsel ermögli- chen. Zum SDS erfolgt keinerlei Erklärung, außer es durch die Äuße- rung „Start“ zu aktivieren, worauf ein Earcon zur Eingabe animiert. Anschließend führt die Versuchsperson die Aufgabe aus, die sie zu- vor vom Versuchsleiter erhalten hat. Bernsen u. a. (1997) schlagen vor schriftliche oder grafische Aufgabenbeschreibungen zu geben. Grafi- sche sind jedoch für umfangreiche Aufgaben schlecht geeignet. Bei schriftlichen muss auf Priming-Effekte geachtet werden, welche in vorliegender Studie durch unterschiedliche Formulierungen und ver- gleichsweise langen Texten minimiert werden. Eine jede Aufgabe be- steht aus einer zusammenhängenden Geschichte, so dass Versuchs- personen sich diese einprägen können, da die Aufgabenerklärung nicht während des Versuchs zugänglich ist. Nach einer Gewöhnung an das SDS erfolgt eine Beurteilung mittels SASSI-Fragebogen (sie- he Strauss (2010)). Während der anschließenden Experimentperiode wird jede Interaktionsvariante ausgeführt und mit DALI- und SASSI- Fragebogen bewertet. DALI- und SASSI-Fragen werden jeweils auf ei- ner 7-stufige Likert-Skala bewertet. Die DALI-Bewertung erfolgt von „gering“ (-3) bis „hoch“ (+3) und SASSI von „starke Ablehnung“ (-3) bis „starke Zustimmung“ (+3). Hohe Werte bedeuten im DALI ho- he Belastung und im SASSI gute Gebrauchstauglichkeit, außer für die umgepolten Dimensionen Ärgernis und kognitive Anstrengung. Um einen Einfluss der Reihenfolge zu verhindern, wird die Reihenfol- ge der Interaktionsvarianten zwischen den Versuchspersonen block- weise permutiert. Weiterhin erfolgt eine permutierte Zuordnung zwi- schen SDS-Aufgabe und Explorationsphase beziehungsweise Interak- tionsvariante. Am Ende des Experiments absolviert jede Versuchsper- son eine zweite Baseline-Fahrt, um eventuelle Lerneffekte während des Experiments zu erkennen. Abschließend ermöglicht ein Nachbe- fragungsbogen mit je einer SASSI-Frage pro Dimension einen Ver- gleich der vier Varianten zu ziehen. Da hierbei jedoch keine Unter- schiede zur Bewertung zwischen den Interaktionsvarianten festzustel- len war, werden im Folgenden lediglich die Ergebnisse des vollstän- digen SASSIs präsentiert. Kap 3: Procedure OOD Studie 3.1 explorative fahrsimulatorstudie 73

Vorbefragungsbogen Erwartete Reaktion (ER) Baseline-Fahrt 2 Implizit & Explizit Missverständnis (MU) Baseline-Fahrt 1 Nachbefragungsbogen Explizit 4 Explorationsaufgaben Nicht-Verständnis (NU) Implizit & Explizit Explizit Dialoginitiativenwechsel Usability (SASSI) (DIS) Geführt

Experimentperiode Explorationsperiode Endperiode (Varianten permutiert)

Abbildung 3.4: Versuchsablauf pro Teilnehmer. Nach jeder Fahraufgabe (rot) wurde ein DALI gestellt und während der Experimentperi- ode jeweils zusätzlich ein SASSI (nicht dargestellt).

3.1.3 Ergebnisse und Diskussion

Im Folgenden werden die Ergebnisse hinsichtlich Korpusanalyse (Rei- chel u. a., 2014) und Interaktionsvarianten (Reichel, Sohn u. a., 2014) aufgezeigt. Abbildungen zeigen im Folgenden Mittelwerte (M) und Standardabweichungen (SD, engl. Standard Deviations). Analysiert wurden Datensätze von 31 Versuchspersonen (16 männlich, 15 weib- Erhobener lich) mit einem Durchschnittsalter von 26,65 Jahren (SD=3,32). Ein Datensatz Smartphone nutzen 26 davon regelmäßig, sowie interagieren mit ver- schiedenen Apps täglich (1-5 Apps: 18 Personen, 6-10 Apps: 7 Per- sonen) und sind somit an anwendungsbasierte Interaktion gewöhnt. Die Varianz hinsichtlich Erfahrung mit Sprachdialogsystemen ist zwi- schen Versuchspersonen sehr hoch (6-stufige Likert-Skala: M=3,06, SD=1,48), wogegen die Nutzung dieser Systeme eher gering ist (5- stufige Likert-Skala: M=2,04, SD=1,16). Hinsichtlich Fahrerfahrung befinden sich die Versuchspersonen seit durchschnittlich 8,6 Jahren (SD=3,5) im Besitz eines Führerscheins. Fragen bezüglich des Heran- tretens an unbekannte, technische Systeme und das Erlernen deren Bedienung zeigen starke Indizien, dass Nutzer in erster Linie ausprobie- Nutzer probieren ren. Alle Versuchspersonen verlassen sich zuerst auf ihr mentales Mo- zuerst dell, bevor Bedienungsanleitungen oder Ähnliches zu Rate gezogen werden. Dies bestärkt den Ansatz dieser Arbeit ein intuitiv bedien- baren Infotainment-System zu entwickeln, welches im Fehlerfall den Nutzer leitet.

3.1.3.1 Korpusanalyse

In Summe wurde ein Korpus von 5 Stunden 25 Minuten an Nutzerin- Korpusumfang teraktionen erstellt, welcher 3 Stunden und 8 Minuten reiner Nutzer- äußerungen enthält. Er umfasst 243 nutzer-initiierte Aufgabenstarts und 444 nutzer-initiierte Anwendungswechsel. 5 Aufgaben konnten 74 studien zum anwendungswechsel und zu fehlerbehandlungen

auf Grund von Datenverlust nicht analysiert werden. Die tatsächli- che Anzahl der Anwendungswechsel ist geringer als die theoretisch mögliche, da in den VariantenMU undNU einige Aufgaben abge- brochen wurden. Bezüglich der Teilaufgabenart wurden 91 Aktions- ausführungen und 152 Informationsanfragen für Anwendungsstarts, sowie 236 Aktionsausführungen und 208 Informationsanfragen bei Anwendungswechsel absolviert. Zur Analyse wurden alle Tonaufnahmen verschriftet und von ei- Annotation des ner Person annotiert. Dies sichert eine konsistente Annotation über Datensatzes den gesamten Datensatz hinweg. Als Dimensionen der Analyse wur- den die Arten der Anwendungsselektion, die Ausdrucksweise, sowie anaphorische Ausdrücke und semantische Konzepte annotiert.

Explizite und implizite Anwendungsselektion Jeder Anwendungsstart und -wechsel wurde hinsichtlich impliziter oder expliziter Charakteristik annotiert. Zusätzlich wurden nicht-er- folgreiche implizite Anwendungswechsel der Interaktionsvarianten MU undNU dahingehend markiert, ob ein Umschwung zur explizi- ten Strategie stattfand und wenn ja, wie viele Äußerungen dies dau- erte. Zum Starten einer Aufgabe verwendeten Nutzer lediglich zu 4,9% explizite Äußerungen und zum Wechsel einer Anwendung nur 1,1%. Wie erwartet gehen Nutzer somit davon aus, dass sich das SDS bereits keine Anwendungs- im richtigen Kontext befindet oder keine Anwendungstrennung besteht. trennung In den InteraktionsvariantenMU undNU wird ein impliziter An- wendungswechsel verhindert. Dies ermöglicht die Beobachtung, ob Versuchspersonen, nach nicht-erfolgreichen impliziten Äußerungen, eine explizite Strategie als Dialogreparatur wählen. Tabelle 3.3 zeigt die Anzahl aller Anwendungswechsel (#AW) der VariantenMU und NU, die Anzahl an Strategiewechsel zum expliziten Anwendungs- wechsel (#SW) sowie die durchschnittliche Anzahl an Äußerungen, bis ein Strategiewechsel (#Äußerungen bis SW) gewählt wurde. Auf- fällig zeigt sich, dass beiMU mehr Strategiewechsel erfolgten als bei NU, wobei mehr Äußerungen notwendig waren. Letzteres lässt sich durch die fehlende Zurückweisung inMU erklären, wodurch Nut- zer nicht über den OOA-Fall aufgeklärt werden, wobei dieser Unter- schied nicht signifikant ist (p=,051). Alles in allem haben lediglich 43,7% der Versuchspersonen die Strategie von implizit zu explizit ge- wechselt, bei den restlichen musste die Aufgabe durch den Versuchs- leiter abgebrochen werden. Durch die Analyse der Anwendungsselektion kann davon ausge- gangen werden, dass Nutzer sich keiner klaren Anwendungstren- nung im rein sprachlichenUI bewusst sind. Das Interaktionsschema der impliziten Anwendungsselektion entspricht eher der Kommuni- kation zwischen Menschen untereinander oder mit einem persönli- chen Assistenten. 3.1 explorative fahrsimulatorstudie 75

#AW #SW #Äußerungen bis SW

Missverständnis (MU) 45 23 M=3,74, SD=1,79 Nicht-Verständnis (NU) 42 15 M=2,93, SD=1,91

Tabelle 3.3: Strategiewechsel (SW) von impliziten zu expliziten Äußerungen beim Anwendungswechsel (AW).

Sprachstile der impliziten Anwendungsselektionen Eine implizite Anwendungsselektion bedeutet allerdings nicht zu- gleich eine umgangssprachliche Interaktion zwischen Mensch und SDS. Im Korpus konnten unter allen impliziten Äußerungen fünf verschiedene Sprachstile identifiziert werden (siehe Tabelle 3.4). Im gezeigten Beispiel ist der illokutionäre Sprechakt (siehe Abschnitt 2.1.2.1), ein Restaurant in Berlin zu suchen, identisch, jedoch die Aus- drucksweise variiert. Schlagwortstil und explizite Aufforderung sind hierbei eher Stile die in der HMI Verwendung finden, wogegen impli- zite Aufforderung, offene und geschlossene Frage höflichere Sprach- stile und daher eher Teil der Mensch-Mensch-Kommunikation sind (Hofmann, 2014).

Sprachstil Beispielnutzeräußerungen

Schlagwort „Restaurantsuche. Berlin.“ Implizite Aufforderung „Ich möchte ein Restaurant in Berlin.“ Explizite Aufforderung „Suche ein Restaurant in Berlin.“ Offene Frage „Welche Restaurants gibt es in Berlin?“ Geschlossene Frage „Gibt es Restaurants in Berlin?“

Tabelle 3.4: Im Korpus identifizierte Sprachstile.

Abbildung 3.5 ist zu entnehmen, dass die Mehrzahl der Versuchs- personen explizite Aufforderungen an das SDS gerichtet haben (beim Aufgabenstart 37,1% und beim Anwendungswechsel 42,5%). Weiter- hin wurde der Schlagwortstil zu 16,2% für Aufgabenstarts und zu 9,3% für Anwendungswechsel genutzt. Geringe Unterschiede konn- ten zwischen Aufgabenstart und Anwendungswechsel identifiziert werden, indem Schlagwortstil und implizite Aufforderung, zu Guns- ten von Fragestilen, abnahmen. Bei Betrachtung von Informationsan- fragen (Inf) und Aktionsausführungen (Akt) ist einfach nachzuvoll- ziehen, dass Aufforderungsstile bei Aktionsausführungen und Fra- gestile bei Informationsanfragen genutzt werden. Interessant ist die häufigere Verwendung des Schlagwortstils bei Informationsanfragen. Dies könnte Priming-Effekten von Suchmaschinen geschuldet sein, bei welchen Informationsanfragen üblicherweise über Schlagwörter gestellt werden. 76 studien zum anwendungswechsel und zu fehlerbehandlungen

40,0% 9,7%

10,9% 30,0% Inf Akt Inf 20,0% 5,8% 32,8% ActInf 22,7% 26,2% Akt 10,0% 10,2% 1,9% 22,1% 17,3% 7,0% 8,2% 9,3% 6,0% 0,0% 3,2% 0,6% 3,4% 0,0% 1,1% 1,0% Start Wechsel Start Wechsel Start Wechsel Start Wechsel Start Wechsel Schlagwort Implizite Auff. Explizite Auff. Offene Frage Geschl. Frage

Abbildung 3.5: Sprachstile der impliziten Äußerungen, unterteilt nach Auf- gabenstart (Start) und Anwendungswechsel (Wechsel), so- wie Aktionsausführungen (Akt) und Informationsanfra- gen (Inf).

Die Analyse der Sprachstile zeigt eine gleichmäßige Verwendung von Stilen aus der Mensch-Mensch-Kommunikation und der HMI. Das heißt, ein SDS wird teilweise als anthropomorpher Kommunika- tionspartner oder aber als maschineller Dienstleister gesehen. Sprach- stile hängen dabei vom Nutzer, von der Art der Aufgabe und in ge- ringer Weise vom Dialogzustand ab.

Anaphorische Ausdrücke Wie erwähnt, sind anwendungsübergreifende Aufgaben durch jeweils einen Parameter verbunden, welcher vom Nutzer in die nächste An- wendung übernommen werden muss. Auf diesen kann verschieden anaphorisch referenziert werden. Die Klassifikation basiert auf From- kin u. a. (2002) und ist Tabelle 3.5 zu entnehmen (Beispiele sind Anfra- gen zu einem Restaurant nach der Systemäußerung „Navigation nach Berlin wird gestartet“). Eine Möglichkeit für Nutzer ist die Wiederho- lung oder das Umformulieren des Parameters. Weiterhin ist es mög- lich, mit einem Pronomen oder einer definiten Nominalphrase darauf zu referenzieren. In einer elliptischen Referenzierung wird der Para- meter nicht gesprochen, aber dennoch durch den Kontext verstanden (engl. gapping).

Anaphorische Referenz Beispielnutzeräußerungen

Umformulierung, Wiederholung „Suche Restaurants in Berlin.“ Definite Nominalphrase „Suche Restaurants in der Stadt.“ Pronomen „Suche Restaurants dort.“ Elliptisch „Suche Restaurants.“

Tabelle 3.5: Anaphorische Referenzen nach Fromkin u. a. (2002).

Knapp die Hälfte (47,7%) aller impliziten Anfragen zum Anwen- dungswechsel enthielten eine Umformulierung oder Wiederholung 3.1 explorative fahrsimulatorstudie 77

(siehe Abbildung 3.6). Dies erfordert lediglich eine normale Inter- pretation der Äußerung durch das SDS und setzt im Allgemeinen keine Referenzauflösung mittels Dialogkontext voraus. Eine definite Nominalphrase, welche die referenzierte Instanz im Dialogkontext se- mantisch bezeichnet, wurde zu 31,5% genutzt und muss daher vom SDS aufgelöst werden. Einen komplexeren Auflösungsmechanismus erfordern Pronominalphrasen und elliptische Referenzierungen, da hierbei nur eine syntaktische Verbindung zwischen Antezedent und Anapher, beziehungsweise keine genannte Anapher, existiert. Im Ver- gleich zwischen Aktionsausführungen und Informationsanfragen ist eine stärkere Verwendung von Umformulierungen und Wiederholun- gen bei Informationsanfragen zu beobachten.

50,0%

40,0% 29,1% 30,0% 14,0% Inf 20,0% Akt 4,7% 10,0% 17,5% 18,6% 2,2% 5,0% 8,9% 0,0% Elliptisch Pronomen, Definite Umformulierung, Adverb Nominalphrase Wiederholung

Abbildung 3.6: Anaphorische Ausdrücke in impliziten Äußerungen, unter- teilt in Aktionsausführungen (Akt) und Informationsanfra- gen (Inf).

Alles in allem verwenden Nutzer bei anwendungsübergreifenden Aufgaben anaphorische Verbindungen über Anwendungsgrenzen hin- weg. Das ist verständlich, da dies eine Verkürzung der Äußerung be- deutet und genaue Bezeichnungen nicht im Gedächtnis behalten wer- den müssen. Die Ergebnisse decken sich mit Weng, Yan u. a. (2007), welche eine Reduzierung der kognitiven Belastung im Fahrszenario durch Nutzung von anaphorischen Referenzen auf Restaurantnamen beobachteten. Ein SDS im Fahrzeug muss daher anaphorische Verbin- dungen auflösen können.

Effizienz von Nutzeräußerungen Auf Grund von Ablenkungseffekten ist speziell im Fahrzeug eine möglichst kurze und effiziente Interaktion zwischen Fahrer und SDS wichtig (siehe Abschnitt 2.3.4). In dieser Studie wurden durchschnitt- lich 6,27 Wörter (SD=2,62) pro Nutzeräußerung registriert. Jedoch ist die Wortanzahl nur ein Aspekt, entscheidender ist die Anzahl an se- mantisch bedeutenden Konzepten (Parametern) einer Äußerung, da be- bedeutende Konzepte nötigte Eingabeparameter sonst im Dialog nachgefragt werden müs- sen. Die Anzahl der semantischen Konzepte pro Äußerung wurde an- 78 studien zum anwendungswechsel und zu fehlerbehandlungen

notiert und in Relation zu den notwendigen Eingabeparametern der Aufgabe gesetzt. Dies wird im Folgenden als Effizienz bezeichnet. Alles in allem wurden im Durchschnitt 2,77 semantische Konzepte (SD=0,73) pro Äußerung gezählt. In Relation zu den erforderlichen Parametern (M=3,26, SD=0,59) ergibt sich eine durchschnittliche Ef- fizienz von 85%(SD=0,22). Tabelle 3.6 stellt den Vergleich zwischen Aktionsausführungen und Informationsanfragen in Bezug auf Aufga- benstart und Anwendungswechsel dar. Lediglich beim Aufgabenstart einer Aktionsausführung sind signifikant geringere Effizienzwerte im Vergleich zu Informationsanfragen zu bemerken (p=,0018). Trotz ei- ner signifikant (p<,001) höheren Zahl an benötigten Eingabeparame- tern in Aktionsausführungen (M=3,66, SD=0,48) als in Informations- anfragen (M=3,2, SD=0,4) haben Nutzer nicht mehr semantische Kon- zepte gesprochen. Ein Grund für diese Abweichung könnten die be- schränkten kognitiven Fähigkeiten von Menschen sein. Gewohnt an die Mensch-Mensch-Kommunikation, erwarten Menschen von ihrem Gegenüber nur eine begrenzte kognitive Leistung. Zum Beispiel wer- den Menschen in einer persönlichen Reisebuchungen niemals alle se- mantischen Konzepte auf einmal mitteilen, sondern im Dialog darauf eingehen.

Aktionsausführungen Informationsanfragen

Aufgabenstart 69%(SD=0,22) 88%(SD=0,2) Anwendungswechsel 87%(SD=0,21) 91%(SD=0,2)

Tabelle 3.6: Effizienz der Nutzeräußerungen.

Zusammenfassend kann daraus geschlossen werden, dass Sprach- dialogsysteme im Fahrzeug mehrere semantische Konzepte, wie zum Beispiel Stadt, Straße und Hausnummer für eine Adresseingabe, ver- stehen müssen.

3.1.3.2 Vergleich der Interaktionsvarianten Im Weiteren werden die Interaktionsvarianten hinsichtlich verschie- dener Wirkungsgrößen analysiert und gegen die aufgestellten Hypo- thesen getestet. Zwischen den beiden VariantenMU undNU konnten keinerlei signifikanten Unterschiede festgestellt werden. Aus diesem MU&NU Grund werden im Folgenden die Varianten zusammengefasst betrach- zusammengefasst tet. Der Datensatz einer Versuchsperson wurde aus der Auswertung über den Vergleich verschiedener Interaktionsvarianten herausgenom- men, da diese Person Deutsch nicht als Muttersprache spricht und somit von einer höheren kognitiven Belastung, durch Formulierung der sprachlichen Äußerungen, ausgegangen werden muss. 3.1 explorative fahrsimulatorstudie 79

Fahrleistung Die objektiven Fahrleistungen werden mit dem ConTRe Task anhand der Dimensionen Spurhaltung, Reaktionszeit und Angemessenheit der Reaktion analysiert. Inadäquate Reaktionen können falsche Reak- tionen, das Betätigen eines falschen Pedals auf eine Reaktionsaufgabe, oder missachtete Reaktionen, wie ignorieren der Ampel, sein.

0,24 * 1,3 ***

[s] 1,2 0,22 1,1

0,2 1 1,038 1,042 1,060 0,9 0,18 0,19 0,8 0,840 0,17 0,18 0,18 0,16 0,7 Baseline ER DIS MU_NU Baseline ER DIS MU_NU

Abbildung 3.7: Fahrleistungen, gemessen hinsichtlich Spurabweichung (links) und Reaktionszeiten (rechts). Signifikanzniveau (Korrektur nach Bonferroni): p<,0083(*); p<,0016(**); p<,00016(***).

Abbildung 3.7 zeigt die deskriptive Statistik der durchschnittlichen Spurhaltung und Reaktionszeit während verschiedener Interaktions- varianten. Ein Shapiro und Wilk (1965)-Test zeigt eine Normalver- teilung aller Daten (W(29)=[0,905, 0,959], p=[,011,,292]). Die Analy- se fasst beide Baseline-Fahrten zusammen, da keine Unterschiede in Spurabweichung (t(29)=1,84, p=,077) und Reaktionszeiten (t(29)=0,398, p<,693) festgestellt werden können. Ähnlich zu Kun, Paek u. a. (2007), wirken sichMU undNU in dieser Studie ebenfalls negativ auf die Spurhaltung aus (t(29)=3,26, p=,003). Zwischen den Interaktionsvari- anten sind allerdings keine Unterschiede festzustellen (F(2, 58)=2,07, p=,135, η2=,067). Die Reaktionszeiten zeigen eine schnellere Reakti- on der Versuchsteilnehmer, wenn keine gleichzeitige Bedienung mit dem SDS stattfindet (Varianzanalyse (ANOVA, engl. ANalysis Of VA- riance) mit Helmert Kontrast: F(1,29)=82,47, p<,001, η2=,74). Wie im Lenkverhalten kann allerdings kein Unterschied zwischen Interakti- onsvarianten beobachtet werden (F(2,58)=,47, p=,625, η2=,016).

20% 11,30% 15% 9,78% 7,83% 10%

7,44% 5% 6,16% 5,82% 2,47% 0% 1,45% Baseline ER DIS MU_NU

Abbildung 3.8: Inadäquate Reaktionen der Teilnehmer, helle Farben symbo- lisieren falsche Reaktionen, dunkle Farben missachtete Reak- tionen. 80 studien zum anwendungswechsel und zu fehlerbehandlungen

Eine Betrachtung der Reaktionsarten (siehe Abbildung 3.8) zeigt ebenfalls einen besseren Wert bei Fahrten ohne SDS. Die Interaktions- varianten untereinander weisen geringe Unterschiede auf, wobei ein erwartungskonformes SDS(ER) nur minimal besser als der DIS ab- schneidet, und das nicht-erwartungskonforme SDS, wie erwartet, am meisten falsche sowie missachtete Reaktionen aufweist. Zusammenfassend kann geschlossen werden, dass die Fahrleistung durch ein SDS negativ beeinflusst wird, hinsichtlich der Interaktions- varianten allerdings nur geringe Unterschiede in der Angemessenheit der Reaktion auftreten.

Subjektive Belastung Die empfundene Belastung bewertet eine jede Versuchsperson durch DALI-Fragebogen die Beantwortung des DALI-Fragebogens. Auf einer 7-stufigen Likert- Skala werden die Dimensionen globale Aufmerksamkeit, auditive An- forderungen, Stress, Interferenz zwischen primärer und sekundärer Aufgabe sowie zeitliche Anforderungen, von „gering“ (-3) bis „hoch“ (+3) beurteilt. Diagrammtitel 3 ** ** ** ** ** ** ** * ** ** 2 ** 1

0 DALI -1

-2

-3 Aufmerksam Auditiv Stress Interferenz Zeitlich Baseline 1 Baseline 2 ER DIS MU_NU

Abbildung 3.9: Subjektive Belastung, gegliedert nach DALI-Dimensionen. Signifikanzen von Baseline-Fahrten nicht dargestellt. Si- gnifikanzniveau (Korrektur nach Bonferroni): p<,005(*); p<,001(**); p<,0001(***).

Abbildung 3.9 zeigt die mittleren Belastungen, sowie signifikan- te Unterschiede der Interaktionsvarianten. Auf Grund mehrfacher Vergleiche wurde das Signifikanzniveau nach Bonferroni angepasst. Baseline-Fahrten sind nur hinsichtlich Aufmerksamkeit und Stress bewertet, da keine sekundäre Aufgabe bestand. Hierbei ist die erste Baseline-Fahrt mehr belastend, als die zweite bezüglich Aufmerksam- keit (t(23)=4,03, p<,001) und Stress (t(23)=3,8, p<,001). Im Vergleich zu den Interaktionsvarianten zeigen sich alle zweiten Baseline-Fahrten weniger belastend (p<,001), wobei die erste lediglich im Vergleich zu nicht-erwartungskonformen SDS-Reaktionen weniger belastend ist (p<,001). Im Vergleich der Interaktionsvarianten ist deutlich zu erkennen, dass ein SDS, welches erwartungskonform reagiert (ER), am wenigs- 3.1 explorative fahrsimulatorstudie 81

ten belastend ist (p<,005). Zwischen DIS undMU_NU kann hingegen lediglich hinsichtlich der Dimension Stress ein Unterschied festge- stellt werden. Der DIS ist subjektiv somit weniger stressig für Fahrer als die VariantenMU_NU( t(29)=3,94, p<,001).

Stresslevel Die EDA dient als zuverlässiger Indikator zur objektiven Messung EDA von kognitiver Belastung, Erregung und Stress. Auf einen Reiz erfolgt eine SCR nach ca. 0,5-4 Sekunden mit einem Amplitudenausschlag größer als 0,02 µS, wobei sich der absolute Amplitudenwert stark nach Person unterscheidet. Somit wird im Folgenden die mittlere Amplitude jeweils als Differenz zwischen Interaktionsvarianten und Baseline-Fahrten analysiert. Zusätzlich wird die Anzahl der Ampli- tuden pro Sekunde betrachtet. Zur Extraktion der Amplituden wird auf das Tool Ledalab7 zurückgegriffen. Zum Vergleich der Baseline-Fahrten wird jeweils die Differenz der gemittelten Amplituden gebildet. Nach Shapiro und Wilk (1965)-Test sind diese Differenzen nicht normalverteilt (W(28)=0,85, p<,001). Ein Vergleich der Differenzen zum Median ergibt keine signifikanten Un- terschiede (Wilcoxon-Vorzeichen-Rang-Test: Z(28)=-0,228, p=,82). Be- züglich der Anzahl der Amplituden pro Sekunde kann ebenfalls kein Unterschied festgestellt werden (t(27)=1,067, p=,295). Somit werden im Folgenden die Baseline-Fahrten zusammengefasst.

0,25 *** 0,20

0,25 µS] [ 0,175 0,20 0,15 0,173 0,170 0,15 0,139 0,10 0,10 0,109 Sekunde] pro [Amplituden 0,087 0,077 0,05 0,05 ER-Baseline DIS-Baseline MU_NU-Baseline Baseline ER DIS MU_NU

Abbildung 3.10: Mittlere Differenzen der Amplituden zwischen Interak- tionsvariante und Baseline-Fahrt (links), sowie Anzahl der Amplituden pro Sekunde je Interaktionsvariante und Baseline-Fahrt (rechts).

Abbildung 3.10 zeigt jeweils die mittleren Differenzen der Ampli- tuden zwischen Interaktionsvarianten und Baseline-Fahrt, sowie die Anzahl der Amplituden pro Sekunde. Alle Mittelwerte sind nach Sha- piro und Wilk (1965)-Test normalverteilt. Unterschiede in den Interak- tionsvarianten bezüglich der mittleren Amplitudendifferenz können nicht festgestellt werden (ANOVA: F(1,27)=1,186, p=,286). Dies gilt ebenso für die Anzahl der Amplituden pro Sekunde. Hingegen kann festgestellt werden, dass mehr Amplituden pro Sekunde während der Bedienung des Sprachdialogsystems auftreten als während Baseline- Fahrten (ANOVA m. Helmert-Kontrast: F(1,27)=14,65, p<,001, η2=,352).

7 http://www.ledalab.de/ [Online 17.05.2015] 82 studien zum anwendungswechsel und zu fehlerbehandlungen

Hinsichtlich des Stresslevels kann somit geschlossen werden, dass bei Bedienung des Sprachdialogsystems mehr Amplituden in der SCR zu erkennen sind als bei der reinen Fahraufgabe. Verschiedene Interaktionsvarianten zeigen dagegen keinen Einfluss.

Gebrauchstauglichkeit Ein probates Mittel zur Erhebung der Gebrauchstauglichkeit eines SASSI-Fragebogen Sprachdialogsystems stellt der SASSI-Fragebogen dar. Anhand von 34 Fragen bewertet jede Versuchsperson das SDS hinsichtlich folgender Dimensionen: Genauigkeit der Systemantwort (SRA), Beliebtheit (Li- ke), kognitive Anstrengung (CogDem), Ärgernis (Ann), erkennbares konzeptionelles Modell (Hab) und Schnelligkeit (Speed). Die Bewer- tung erfolgt auf Basis einer 7-stufigen Likert-Skala von „starke Ableh- nung“ (-3) bis „starke Zustimmung“ (+3).

3 2 1 0 ER

SASSI DIS -1 MU_NU -2 -3 SRA Like Cog Dem Ann Hab Speed

Abbildung 3.11: Gebrauchstauglichkeit, gegliedert nach SASSI-Dimensio- nen. Unterschiede signifikant (p<,01), außer DIS und MU_NU bzgl. Geschwindigkeit (Speed)

Abbildung 3.11 zeigt die Ergebnisse jeder Interaktionsvariante un- terteilt in SASSI-Dimensionen. Wie zu erwarten, erweist sich die er- wartungskonforme Interaktionsvariante (ER) in allen Dimensionen als die Erfolgreichste (p<,001). Der DIS hingegen wird neutral bis ge- ringfügig positiv bewertet, wobei in Punkten des konzeptionellen Mo- dells ein negativer Wert festzustellen ist. Im Generellen wird der DIS allerdings besser bewertet als die VariantenMU_NU( p<,01). In der Dimension Geschwindigkeit kann hingegen kein signifikanter Unter- schied festgestellt werden (ANOVA m. Helmert Kontr.: F(1,29)=0,176, p=,678, η2=,006). Die erwartungskonforme Variante zeigt somit sehr gute Werte be- züglich Gebrauchstauglichkeit, wogegen ein nicht-erwartungskonfor- mes SDS deutlich schlechter bewertet wird. Der DIS hingegen liegt in den meisten Dimensionen dazwischen.

Dialogperformanz Qualität SDS Neben subjektiver Einschätzung der Qualität eines Sprachdialogsystems liefern auch objektive Dialogparameter wertvolle Erkenntnisse. Im 3.1 explorative fahrsimulatorstudie 83

Folgenden werden die Dimensionen Aufgabenerfolg, Antwortzeit des Nutzers sowie die Dauer der Nutzer- und Systemäußerungen be- trachtet (siehe Abbildung 3.12). DIS undMU_NU sind dabei unter- teilt in zwei Phasen, einerseits während der Interaktion mit einer An- wendung und andererseits während der Interaktion zwischen zwei Anwendungen.

100% 8 *** *** 96,8% 93,6% 80% 6 60% 4 4,57 40%

Aufgabenerfolg 2

Antwortzeit [Sek] Antwortzeit 2,53 2,55 20% 29,0% 2,41 19,4% 1,52 0% 0 ER DIS MU NU ER DIS MU_NU 6 *** *** *** ** 8 7,75 4 4,46 6 4,10

3,45 3,63 [Sek] [SeK] 4 2,89 4,50 4,25 2 3,93 3,30

2

Dauer Nutzeräußerung Nutzeräußerung Dauer Dauer Systemäußerung Systemäußerung Dauer 0 0 ER DIS MU_NU ER DIS MU_NU

Abbildung 3.12: Dialogperformanz der Interaktionsvarianten. In DIS und MU_NU unterteilt in Phase innerhalb von Anwendungen (dunkel) und zwischen Anwendungen (hell). Signifikanzni- veau: p<,05(*); p<,01(**); p<,001(***).

Hinsichtlich des Aufgabenerfolgs erreichen nur wenige Teilnehmer in den VariantenMU undNU ihr Interaktionsziel. Werden sie hin- gegen durch den Anwendungswechsel geführt (DIS), oder das Sys- tem antwortet erwartungskonform (ER), wird das Ziel fast immer erreicht. Im Allgemeinen benötigen Versuchspersonen 2-3 Sekunden bevor eine Antwort auf eine Systemäußerung erfolgt. Bei Betrachtung derMU_NU-Variante fällt hingegen auf, dass Versuchspersonen zwi- schen Anwendungen länger benötigen, eine Antwort zu erstellen, als innerhalb von Anwendungen (t(29)=4,58, p<,001), was eine höhere kognitive Belastung vermuten lässt. In der Variante DIS zeigt sich Gegenteiliges, da eine einfache Wiederholung eines Teils der System- äußerung wohl nur geringe kognitive Leistungen bedarf (Wilcoxon- Vorzeichen-Rang-Test: Z(29)=-3,84, p<,001). Eine Nutzeräußerung ist in der Regel ca. 3-4 Sekunden lang. Auffällig ist, dass in der Vari- anteMU_NU die Nutzeräußerungen zwischen Anwendungen län- ger werden (t(29)=6,47, p<,001), somit Versuchspersonen im Fehlerfall eher ausführlicher oder langsamer formulieren. Durch die Vorgabe von kurzen Äußerungen bei der Variante DIS ergeben sich selbstver- ständlich auch kürzere Nutzeräußerungen (t(29)=3,84, p<,001). Ein Problem des DIS zeigt sich in der Länge der Systemäußerungen zwi- 84 studien zum anwendungswechsel und zu fehlerbehandlungen

schen zwei Anwendungen. Der Erklärungsdialog für mögliche Äuße- rungen ist mit durchschnittlich 8 Sekunden fast doppelt so lange wie die durchschnittlichen Systemäußerungen (t(29)=14,81, p<,001). Zusammenfassend zeigt sich aus der Dialogperformanz der erfolg- reiche Einsatz der Variante DIS, da sie einen hohen Aufgabenerfolg ermöglicht. Nachteilig ist die Dauer zu sehen, welche der Erklärungs- dialog benötigt. BezüglichMU undNU kann deutlich erkannt wer- den, dass Versuchspersonen länger zum Antworten benötigen und ihre Äußerungen ausführlicher oder langsamer formulieren.

3.1.3.3 Test der Hypothesen und Diskussion Anhand der Ergebnisse können die aufgestellten Hypothesen getestet werden.

Hypothese 1: B1 = B2 Durch eine Übungsphase und genereller Fahrpraxis wird erwartet, dass sich beide Baseline-Fahrten nicht signifikant unterscheiden. Hin- sichtlich der objektiven Fahrleistung kann diese Hypothese angenom- men werden, subjektiv empfinden Versuchspersonen allerdings einen Unterschied. Dies ist darauf zurückzuführen, dass Baseline-Fahrten nicht mit den Interaktionsvarianten permutiert wurden, somit Ver- suchspersonen die zweite Baseline-Fahrt abhängig von ihren vorheri- gen Erfahrungen mit den Interaktionsvarianten bewerteten. Die zwei- te Baseline-Fahrt ist somit als Verlässlichere zu sehen.

Hypothese 2: ER = BX Reagiert das SDS wie vom Nutzer erwartet, kann von einer geringen kognitiven Belastung ausgegangen werden, somit sollten keine signi- fikanten Unterschiede zwischenER und Baseline-Fahrten auftreten. Für das Lenkverhalten trifft dies zu, und die Hypothese kann ange- nommen werden. Hingegen muss für Reaktionsereignisse eine Ab- lehnung erfolgen. Ein Grund hierfür ist in der subjektiven Belastung und dem Stresslevel zu finden. Beide Wirkungsgrößen zeigen schlech- tere Werte bei gleichzeitiger Bedienung eines erwartungskonformen Sprachdialogsystems. Dies deckt sich mit Patten u. a. (2004), die ei- ne abnehmende Reaktionszeit bei Telefonaten mit komplexem Inhalt, und somit hoher kognitiver Belastung, feststellen - durch Nutzung ei- ner Freisprecheinrichtung wurde manuelle und visuelle Ablenkung ausgeschlossen.

Hypothese 3: ER > (MU, NU) Basierend auf Arbeiten von Gärtner u. a. (2001) und Kun, Paek u. a. (2007) sollteER ein besseres Ergebnis alsMU undNU ergeben. Auf Grund von Hypothese 4 (kein Unterschied zwischenMU undNU festzustellen) wird im FolgendenMU mitNU zusammengefasst be- handelt und die Hypothese umformuliert in ER > MU_NU. 3.1 explorative fahrsimulatorstudie 85

Im Gegensatz zu Kun, Paek u. a. (2007) können anhand der Ergeb- nisse keine negativen Auswirkungen eines fehlerhaften Verhaltens des Sprachdialogsystems gegenüber erwartungskonformen Antwor- ten bezüglich Lenkverhalten und Reaktionszeit festgestellt werden. Somit muss die Hypothese in diesen Dimensionen, sowie im Stress- level, zurückgewiesen werden. Jedoch zeigen sich in den subjektiven Faktoren, wie Belastung und Gebrauchstauglichkeit, klare positive Auswirkungen von einer erwartungskonformen Systemantwort (ER). Ist dies hinsichtlich Gebrauchstauglichkeit durch den besseren Aufga- benerfolg offensichtlich, deutet die subjektive Belastung auf Schwie- rigkeiten der Versuchspersonen inMU_NU hin. Nach Wickens ( 2008) können Menschen dieselben Ressourcen nur begrenzt für verschie- dene Aufgaben einsetzen, wobei die Priorisierung jeweils selbstbe- stimmt ist. Somit könnte eine stärkere Priorisierung auf der Primär- aufgabe liegen, was das gleichbleibende Lenkverhalten und die Re- aktionszeit erklären würde, und Einbußen in der Sekundäraufgabe bewirken könnte - längere Antwortzeiten inMU_NU stützen diese These. Zusätzlich sind Einbußen in der Reaktionsart zu vermerken, welche diese Hypothese stärken. Durch die Position der Ampel über dem Zylinder ist sie etwas außerhalb des fokussierten Blickpunktes und kann als Element im peripheren Sichtfeld bezeichnet werden. Die geringfügig angemessenere Reaktion inER lässt sich somit durch Vic- tor u. a. (2005) erklären, die eine starke Konzentration des Blickes auf die Straßenmitte bei auditiv belastenden Aufgaben beobachteten, wo- durch periphere Elemente oftmals ignoriert werden (engl. perceptual tunneling). Eine Reaktionsaufgabe am Straßenrand hätte diesen Ef- fekt eventuell verstärken können. Im realen Straßenverkehr kann dies zur erheblichen Gefahr werden, da sich Ampeln und Straßenschilder oftmals im peripheren Sichtfeld befinden.

Hypothese 4: NU > MU Auf Grund einer Erklärung sollte laut Bohus und Rudnicky (2001) NU ein besseres Ergebnis aufweisen alsMU. Den Ergebnissen dieser Studie zufolge, kann diese Hypothese allerdings in keiner Wirkungs- Hypothese 4 größe angenommen werden. Somit ist eine reine Information über ein ablehnen Nicht-Verständnis kein probates Mittel, um auf eine nicht interpre- tierbare Nutzeräußerung zu reagieren.

Hypothese 5: ER > DIS > (MU, NU) Durch die Hilfestellung des DIS sollte eine bessere Leistung als in den VariantenMU undNU erreicht werden, wobei von einer Ein- buße gegenüberER auszugehen ist. Wie in der Hypothese 3 erfolgt eine gemeinsame Betrachtung vonMU undNU und daher eine Um- formulierung der Hypothese in: ER > DIS > MU_NU. Ähnlich zu vorheriger Hypothese ergibt sich kein Unterschied der Interaktions- varianten in den Wirkungsgrößen Lenkverhalten, Reaktionszeit und Stresslevel, somit muss diese Hypothese darin ebenfalls abgelehnt 86 studien zum anwendungswechsel und zu fehlerbehandlungen

werden. Des Weiteren erfolgt eine getrennte Betrachtung als Hypo- these 5.1 (ER > DIS) und Hypothese 5.2 (DIS > MU_NU). Hypothese 5.1 Hypothese 5.1 kann für subjektive Faktoren, wie Gebrauchstauglich- keit und subjektive Belastung, für alle Dimensionen angenommen werden. Die Angemessenheit der Reaktion zeigt inER geringfügig bessere Werte als beim DIS. Die objektiven Dialogparameter weisen jedoch nur geringfügig bessere Aufgabenerfolgsraten inER auf. Hin- sichtlich Antwortzeit sind die Versuchspersonen in der Lage, durch Wiederholung der Systemäußerung beim DIS schneller zu antworten. Somit muss in diesen Dimensionen die Hypothese 5.1 zurückgewie- sen werden. Hypothese 5.2 Hypothese 5.2 kann hinsichtlich der Wirkungsgröße Gebrauchstaug- lichkeit, abgesehen von der Dimension Geschwindigkeit, angenom- men werden. Ebenso gilt dies für die Dimension Stress der subjekti- ven Belastung und die Antwortzeit. Ersteres lässt sich wohl auf den guten Aufgabenerfolg des DIS zurückführen. Letzteres suggeriert hin- gegen eine geringere kognitive Belastung, was allerdings durch die subjektive Bewertung der Versuchspersonen widerlegt wird. Alle Di- mensionen der subjektiven Belastung - außer Stress - ergeben keinen Unterschied zwischen den beiden Interaktionsvarianten. Auditiv ist der DIS sogar belastender alsMU_NU, was durch die signifikant län- gere Systemäußerung einfach nachzuvollziehen ist. Somit kann hier- für die Hypothese 5.2 nicht angenommen werden.

3.1.4 Fazit zu anwendungsübergreifenden Dialogen im Fahrzeug

Anhand der präsentierten Studie können Richtlinien zur Entwick- lung eines anwendungsübergreifenden Sprachdialogsystems formu- liert werden. Die Analyse des Korpus zeigt die natürliche Interaktion zwischen Fahrzeug-SDS und jungen, technisch affinen Versuchsperso- nen, welche keine Kenntnis über das Interaktionsschema des Systems erhielten. Zusätzlich ergaben verschiedene Interaktionsvarianten Hin- weise auf eine ablenkende Wirkung von nicht-erfolgreichen Anwen- dungswechseln. Die Korpusanalyse zeigt, dass keine Anwendungstrennung im men- talen Modell eines rein sprachlich bedienbaren Sprachdialogsystems besteht. Somit müssen neben expliziten auch implizite Anwendungs- wechsel, mit Bezug auf die Dialoghistorie der vorhergehenden An- wendung, möglich sein. Durch fehlende visuelle Anhaltspunkte, so- wie keinerlei Systemerklärung, konnte eine sehr hohe Varianz an Sprachstilen festgestellt werden. Dies zeigt die Notwendigkeit, so- wohl natürliche Äußerungen der Mensch-Mensch-Kommunikation als auch kommandowortbasierte der HMI zu verstehen. Weiterhin soll- ten Äußerungen mit mehreren semantischen Konzepten verstanden werden, da selbst Systemneulinge dies nutzen. Es kann davon aus- 3.2 internetstudie zu hilfestrategien 87 gegangen werden, dass erfahrene Nutzer, die sich der Möglichkeit bewusst sind, dies noch umfangreicher verwenden. Ähnlich zu Strayer u. a. (2014) zeigen die Ergebnisse dieser Studie, dass ein SDS nicht automatisch ablenkungsfreie Interaktion ermög- licht. Hinsichtlich objektiver Fahrleistungen und EDA-Daten konn- te ein leicht negativer Einfluss eines Sprachdialogsystems festgestellt werden. Die subjektive Belastung und Gebrauchstauglichkeit sind hin- gegen stark von der Qualität des Sprachdialogsystems abhängig und weisen bei erwartungskonformen Systemen deutlich bessere Werte auf, als bei nicht-erwartungskonformen. Auditive und kognitive Fah- rerablenkung sind somit nicht zu unterschätzen. Dies zeigt sich spe- ziell während der Interaktionsvariante DIS, welche lange Systemäu- ßerungen als Hilfestellung für den Nutzer enthält. Wie erwartet ist der DIS somit nicht optimal, besitzt allerdings den Vorteil, Nutzer zum Aufgabenerfolg zu führen. Zur Verbesserung der Variante DIS wird im Folgenden eine Studie präsentiert, welche verschiedene Im- plementierungen, variiert nach Kontextsensitivität und Modalität, in den Dimensionen Gebrauchstauglichkeit sowie Aufgabenerfolg ana- lysiert. Auf Basis der Ergebnisse erfolgt eine iterative Verfeinerung der Konzepte mit anschließender Evaluation im Fahrsimulator.

3.2 internetstudie zu hilfestrategien

Wie in dem vorherigen Abschnitt gezeigt, hilft ein Wechsel der Dia- loginitiative dem Nutzer, sein Interaktionsziel zu erreichen. Der mehr- stufige Disambiguierungprozess zog allerdings lange Systemäußerun- gen nach sich, welche auditiv belastend auf den Fahrer wirken. Um dies zu umgehen, wird im Folgenden die Strategie des Dialoginitia- tivenwechsels detailliert betrachtet, und es werden Variationen be- züglich Dialogkontext sowie Modalität entwickelt. Im ersten Schritt werden diese hinsichtlich Gebrauchstauglichkeit und Aufgabenerfolg in einer Internetstudie mit vielen Teilnehmern evaluiert. Teile die- ser Studie wurden bereits in Reichel u. a. (2015a) und Reichel u. a. (2015b) veröffentlicht („With permission of Springer“). Auf Basis der Ergebnisse erfolgt eine Verbesserung der Interaktionsvarianten mit anschließender Evaluation im Fahrsimulator bezüglich subjektiver Be- lastung und Fahrleistung (siehe Abschnitt 3.3).

3.2.1 Studienkonzept

Wie in Abschnitt 2.3.3 gezeigt, existieren verschiedene Ansätze zur Auflösung von Mehrdeutigkeiten und Behandlung von Fehlern im SDS. Auf Basis der Ansätze werden verschiedene Varianten des Dia- loginitiativenwechsels entwickelt und in diesem Abschnitt vorgestellt. Anhand diverser Wirkungsgrößen werden Hypothesen für eine hypo- thesengetriebene Evaluation der Varianten formuliert. 88 studien zum anwendungswechsel und zu fehlerbehandlungen

3.2.1.1 Interaktionsvarianten des Dialoginitiativenwechsels Die Implementierung des DIS der vorherigen Studie zeichnet sich durch einen mehrstufigen Hilfedialog aus, in welchem die Versuchs- personen zuerst die richtige Anwendung selektieren und anschlie- ßend mögliche Beispieläußerungen der Anwendung erfahren. Spe- ziell letztere verlängerten die Systemäußerung signifikant. Doch oft- Äußerungen nicht mals ist ein Vorlesen der Beispieläußerungen nicht notwendig, da bereits vorlesen die OOA-Äußerung des Nutzers im korrekten Anwendungskontext eindeutig interpretiert werden kann. Somit beschränkt sich nachfol- gende Untersuchung lediglich auf die Selektion einer Anwendung. Eine Implementierung könnte nach einer Anwendungsselektion die gespeicherte OOA-Nutzeräußerung erneut im richtigen Kontext in- terpretieren und nur bei erfolgloser Interpretation mögliche Beispiel- äußerungen präsentieren. Weiterhin ignoriert die Interaktionsvariante der vorherigen Studie den Dialogkontext, indem keine Anpassung an die wahrscheinlichs- ten nächsten Anwendungen erfolgt. Ebenso wurde ein nutzer-initi- Barge-in iertes Unterbrechen der Systemäußerungen, Barge-in genannt, unter- bunden. Beides stellen jedoch gute Möglichkeiten dar, um Systemäu- ßerungen abzukürzen und somit die auditive Belastung des Fahrers zu senken. Hören Nutzer bereits zu Beginn der Systemäußerung die gesuchte Anwendung, können sie diese sofort durch Barge-in aus- wählen. Im Allgemeinen kann zur Klärung einer unverstandenen oder mehr- generische & deutigen Äußerung zwischen generischen (Bohus und Rudnicky, 2005) kontextsensitive und kontextsensitiven, zielgerichteten Hilfestrategien (Skantze, 2007) un- Hilfestrategien terschieden werden (siehe Abschnitt 2.3.3). Während in zwischen- menschlicher Kommunikation hauptsächlich letztere Strategien zum Einsatz kommen, reagieren Sprachdialogsysteme in erster Linie gene- risch (Stoyanchev u. a., 2014). Zum Vergleich beider Strategien sind drei Dialogstrategien für einen Initiativenwechsel entstanden, welche in Relation zu einer Referenzimplementierung mit erwartungskonfor- mer Reaktion gesetzt werden (siehe auch Abbildung 3.13):

generische Offene Frage (OF), engl. Ask the User (AU): Im Dialog können Fra- Hilfestrategie gen an Nutzer gestellt und somit Nutzer zur Präzisierung ihrer Anfrage aufgefordert werden. Fragen können einerseits direkt (engl. directed prompt), wie zum Beispiel „Meinten Sie A oder B“, oder offen (engl. open-ended prompt), wie zum Beispiel „Was meinen Sie?“, formuliert werden (Karat u. a., 2012). Die- se generische Hilfestrategie nutzt eine offene Frage nach der An- wendung, folglich behalten Nutzer die Dialogführung. Nutzer müssen auf Basis ihres mentalen Modells entscheiden, welche Äußerung (bzw. welche Anwendungen) das System versteht.

stark Zweierauswahl (ZA), engl. Domain Choice (DC): Im Gegensatz kontextsensitive zu offenen Fragen benötigen direkte Fragen kein Vorwissen der Hilfestrategie 3.2 internetstudie zu hilfestrategien 89

U: Drive me to the concert U: Drive me to the concert S: Do you want to Parkbühne in S: Which application are you ad- Leipzig? dressing with your request? U: Yes, please U: Navigation (a) Reference System (REF) (b) Ask the User (AU)

U: Drive me to the concert U: Drive me to the concert S: Does your request concern the S: Select an application for your naviation or radio application? request: radio, navigation, U: Navigation application U: Yes (c) Domain Choice (DC) (d) Domain List Selection (DLS)

Abbildung 3.13: Strategien des Dialoginitiativenwechsels, abgebildet in mul- timodaler Variante jeweils mit grafischer Darstellung und sprachlichem Dialog: Nutzer (U) und System (S). Erstver- öffentlichung in Reichel u. a. (2015b) „With permission of Springer“.

Nutzer, da sie alle Alternativen anbieten. Abhängig vom Dia- logkontext kann eine Einschränkung der möglichen Alternati- ven erreicht und demnach eine stark kontextsensitive Hilfestrate- gie mit zwei Alternativen implementiert werden. Jedoch erhöht sich hierbei das Risiko, nicht die richtige Alternative anzubie- ten, was wiederum den Disambiguierungsprozess verlangsamt (Suhm u. a., 2001).

Listenauswahl (LA), engl. Domain List Selection (DLS): Mehr als schwach zwei Alternativen lassen sich über eine Liste darbieten (erfor- kontextsensitive dert keinen oder einen schwachen Dialogkontext). Während dies Hilfestrategie das Risiko minimiert, nur falsche Alternativen zu präsentieren, wird dadurch allerdings die Systemäußerung verlängert. Die 90 studien zum anwendungswechsel und zu fehlerbehandlungen

Dialogstrategie berücksichtigt Barge-in, wodurch Nutzer die Sys- temäußerung vorzeitig unterbrechen können. Einerseits wird diese Funktionalität zu Beginn des Experiments erklärt, ande- rerseits durch eine kurze Pause zwischen dem Vorlesen der Al- ternativen gefördert.

Referenz (Ref), engl. Reference System (REF): Aufgrund subjekti- ver Bewertungen können Unterschiede zwischen Versuchsper- sonen auftreten. Um dies zu berücksichtigen, wird jede Dia- logstrategie mit einer optimalen Referenz verglichen, welche einen erfolgreichen Anwendungswechsel simuliert. Da ein falscher Anwendungswechsel schwerwiegende Folgen haben kann (z.B. Verlust bereits eingegebener Daten), wird eine explizite Bestäti- gung des Anwendungswechsels verlangt.

Nach Bourguet (2011) unterscheiden sich Fehlerbehandlungsstrategi- en hinsichtlich Zweck, Akteur und Modalität. Für vorliegenden An- wendungsfall ist der Zweck, Anwendungen auszuwählen, konstant, wobei Akteur bei offenen Fragen der Nutzer und bei direkten Fra- gen das System ist. Im Fahrzeug sind als Ausgabegeräte in erster Linie Display und Lautsprecher verfügbar. Somit lassen sich zur Prä- visuelle & auditive sentation möglicher Alternativen die Modalitäten visuell und auditiv Modalität nutzen. Zusätzlich ergibt sich eine Kombination beider Modalitäten, welche im Regelfall präzisere Ergebnisse als unimodale Strategien lie- fert (Suhm u. a., 2001). Die generische Strategie Offene Frage und das Referenzsystem profitieren nicht von zusätzlichen grafischen Darstel- lungen. Hingegen können die Alternativen der Auswahl grafisch und sprachlich präsentiert werden. Somit ergeben sich für die Zweier- und Listenauswahl folgende Variationen (siehe Abbildung 3.13c und Abbil- dung 3.13d):

Vorwiegend Grafisch (G): Ziel dieser Variante ist die Dauer der Systemäußerungen zu minimieren und daher Alternativen nur grafisch darzustellen. Lediglich eine generische Äußerung weist auf die grafische Repräsentation hin: „Sagen Sie die Anwen- dung“.

Vorwiegend Sprachlich (S): Hierbei werden Alternativen nicht gra- fisch dargestellt, sondern lediglich per Sprache ausgegeben.

Grafisch & Sprachlich (GS): Im multimodalen Ansatz werden gra- fisch die Alternativen dargestellt und zusätzlich sprachlich aus- gegeben. Die Hervorhebung des Listenelements erfolgt synchro- nisiert zur sprachlichen Ausgabe.

Die Präsentation möglicher Alternativen (in vorliegendem Beispiel Anwendungen) erfordert die Beschränkung auf zwei Anwendungen (Zweierauswahl) oder das Festlegen einer Reihenfolge der Liste (Listen- auswahl). Hierbei können Methodiken ähnlich zu Mitsubishi Electric 3.2 internetstudie zu hilfestrategien 91

Corporation (2014) oder Rodriguez Garzon (2013) angewandt wer- den, um die wahrscheinlichsten nächsten Nutzeraktivitäten auf Basis des aktuellen Dialogkontextes zu identifizieren. Jedoch sichern die- se Methodiken nicht absolute Korrektheit zu, zumal auch mehrere Anwendungen mit derselben Wahrscheinlichkeit in Frage kommen könnten. Somit könnten zwei falsche Anwendungen bei der Zweier- auswahl angezeigt werden, sowie die gesuchte Anwendung erst am Ende der Liste auftreten. Daher wird im Folgenden eine Variante mit Variante mit & Kontext (mitKtx) und eine ohne Kontext (ohneKtx) simuliert. ohne Kontext

3.2.1.2 Wirkungsgrößen Es kann davon ausgegangen werden, dass die verschiedenen Vari- anten unterschiedlichen Einfluss auf Gebrauchstauglichkeit und Auf- gabenerfolg aufweisen. Wie in vorheriger Studie bewerten Versuchs- personen die Gebrauchstauglichkeit (Fragebogen siehe AnhangA. 2.2) Gebrauchstaug- mit Hilfe der deutschen Übersetzung (Strauss, 2010) des SASSI-Fra- lichkeit gebogens (Hone und Graham, 2000). Da lediglich eine Bewertung einzelner Systemäußerungen während des Anwendungswechsels er- folgt, sind Fragen nach der generellen Systemperformanz nicht sinn- voll. Nutzer bewerten die Varianten somit hinsichtlich der SASSI- Dimensionen Genauigkeit der Systemantwort, Beliebtheit und Ärger- nis. Zusätzlich geben drei Fragen des ITU-T Rec. P.851 (Internatio- nal Telecommunication Union (ITU), 2003) Aufschluss über nicht aus- reichende Hilfestellung (7.3 Q4), notwendige Konzentration (7.2 Q6) und Gesamteindruck. Zur Bestimmung des Aufgabenerfolgs erfolgt ei- Aufgabenerfolg ne manuelle Annotation, ob der Nutzer die korrekte Anwendung aus- wählen konnte oder nicht.

3.2.1.3 Hypothesen In einem Nutzerexperiment werden die Varianten des Dialoginitiati- venwechsels hinsichtlich Aufgabenerfolg und Gebrauchstauglichkeit evaluiert. Tabelle 3.7 zeigt die zu testenden Hypothesen in den Di- mensionen Interaktionsstrategie, Kontext und Modalität. Es ist davon auszugehen, dass die Strategien unterschiedliche Erfolge aufweisen, wobei die Referenzimplementierung am Besten abschneiden sollte (H1). Im Vergleich der Varianten mit Kontext (mitKtx) und ohne Kon- text (ohneKtx), sollten klare Vorteile bei den kontextsensitiven liegen, da Nutzer ihr Interaktionsziel effizienter erreichen (H2.1 &H2.2). Be- züglich der Modalitäten sind im Aufgabenerfolg keine Unterschiede zu erwarten, da alle Varianten dieselben Informationen enthalten. Je- doch sollten sich die Vorlieben der Nutzer in der Bewertung der Ge- brauchstauglichkeit niederschlagen (H3). 92 studien zum anwendungswechsel und zu fehlerbehandlungen

Nr. Dimension Aufgabenerfolg Gebrauchstauglichkeit

H1 Strategie Ref > OF 6= ZA 6= LA Ref > OF 6= ZA 6= LA

H2.1 Kontext ZAmitKtx>ZAohneKtx ZAmitKtx>ZAohneKtx

H2.2 Kontext LAmitKtx>LAohneKtx LAmitKtx>LAohneKtx H3 Modalität G = S = GS G 6= S 6= GS

Tabelle 3.7: Hypothesen zu verschiedenen Varianten des Dialoginitiativen- wechsels (= keine signifikanten Unterschiede; 6= signifikante Un- terschiede; > signifikant besser als). Für Abkürzungen der Inter- aktionsvarianten siehe Abschnitt 3.2.1.1. Erstveröffentlichung in Reichel u. a. (2015a)

3.2.2 Aufbau und Durchführung der Studie

Die in Abschnitt 3.2.1.1 vorgestellten Interaktionsvarianten werden durch eine Internetstudie evaluiert. Diese Art der Evaluation ermög- licht einen breiten Teilnehmerkreis in kurzer Zeit, jedoch mit dem Nachteil, die Situation des Nutzers zu vernachlässigen (Lazar u. a., Vorstudie 2010). Die Studie ist somit als Vorstudie zu einem Experiment im Fahr- simulator zu sehen, in welchem die erfolgreichen Konzepte zusätzlich im sekundären Task evaluiert werden. Aus diesem Grund erfolgt die Entwicklung der GUI bereits unter Beachtung der standardisierten AAM-Richtlinie (Driver Focus-Telematics Working Group, 2006). So- mit sollte die visuelle Ablenkung minimiert und eine spätere Integra- tion in ein automobiles Infotainment-System erleichtert werden.

3.2.2.1 Anwendungsübergreifende Aufgaben der Nutzer Während im realen Einsatz eines Sprachdialogsystems Nutzeraufga- ben natürlich entstehen, müssen Versuchspersonen einer Studie in- struiert werden. Bernsen u. a. (1997) schlagen hierzu unter anderem Aufgabenbe- schriftliche und grafische Aufgabenbeschreibungen vor. Speziell bei kur- schreibungen zen, einfachen Aufgaben ist es bei schriftlichen Anweisungen jedoch schwierig Priming-Effekte zu verhindern. Aus diesem Grund wer- den Aufgabenbeschreibungen dieser Studie, wie beispielhaft in Abbil- dung 3.14 dargestellt, grafisch veranschaulicht. Dies bietet vor allem in unkontrollierter Umgebung, wie einer Internetstudie, den Vorteil, dass Versuchspersonen die Aufgabenbeschreibung während des Ver- suchs behalten können (bei schriftlichen Anweisungen würde dies zum Ablesen führen). Ebenso wichtig ist es, Versuchspersonen reale Aufgaben zu stellen, so dass sie sich in die bestimmte Situation versetzen können. Hierfür Dialogkontext dient ein Kalendereintrag eines Konzerts (siehe Abbildung 3.14), wel- Kalendereintrag cher durch verschiedene Parameter, wie Titel, Datum, Ort, Teilnehmer und Beschreibung, diverse Anwendungswechsel mit Parameterüber- 3.2 internetstudie zu hilfestrategien 93

Abbildung 3.14: Beispielhafte Aufgabenbeschreibung für Versuchspersonen, um das Wetter beim Konzert (aktueller Dialogkontext: Ter- mineintrag einer Kalenderanwendung) zu erfahren. gabe begünstigt. Tabelle 3.8 zeigt die den Versuchspersonen gestellten Aufgaben, ausgehend vom Dialogkontext des Kalendereintrags. Wie in der vorherigen Studie stellt jeweils ein Parameter die Verbindung zur Verbindung von nächsten Anwendung her. Zum Beispiel soll die Versuchsperson bei Anwendungen über Task 2 zur Wetteranwendung wechseln, um das Wetter beim Kon- Parameter zert abzurufen. Wie in der vorherigen Studie sind Tasks klassifiziert nach Informationsanfrage (Inf) und Aktionsausführung (Akt) (siehe Abschnitt 3.1.1.1 und Kellar u. a. (2006)).

Task Anwendung Parameter Typ Beispielnutzeräußerung

1 Hotel Datum Akt „Ich möchte ein Hotel für das Konzert“ 2 Wetter Datum, Ort Akt „Zeige das Wetter” 3 Wissen Ort Inf „Was ist Parkbühne?” 4 Telefon Teilnehmer Akt „Ruf Alexandra an, um das Treffen abzusagen“ 5 Musik Beschreibung Akt „Spiele das neue Album im Radio“ 6 Navigation Ort Akt „Fahre mich hin“ 7 Facebook Titel Akt „Teile den Termin auf Fa- cebook“ 8 Wissen Ort Inf „Wann wurde die Park- bühne eingeweiht?“ 9 Wissen Titel Inf „Wann wurde Peter Mül- ler geboren?“

Tabelle 3.8: Anwendungsübergreifende Aufgaben der Versuchspersonen.

3.2.2.2 Split-Plot Studiendesign Wie in Abschnitt 3.2.1.1 beschrieben, sind drei Dialogstrategien zu evaluieren und mit einer Referenz in Relation zu setzen (Innergrup- Innergruppen- variable 94 studien zum anwendungswechsel und zu fehlerbehandlungen

penvariable). Die Dialogstrategien werden beeinflusst von Modalität und Kontextsensitivität (siehe Tabelle 3.9). Durch Kombination von Modalität und Kontextsensitivität entstehen sechs Bedingungen. Je- doch erweist sich eine Variation der vorwiegend grafischen Bedin- gung hinsichtlich Kontext als nicht sinnvoll, da ein Scrollen der Lis- te einen zusätzlichen Dialogschritt erfordern und somit diese Bedin- gung benachteiligen würde. Zusätzlich lässt sich nicht bestimmen, an welcher Position der Liste die gesuchte Anwendung im Optimalfall dargestellt werden soll, da Nutzer an unterschiedlichen Regionen des Bildschirms zu lesen beginnen können. Daher ist die grafische Varian- te in nur einer Bedingung, mit wechselnden Postionen der gesuchten Anwendung, implementiert.

Bedingung Modalität Kontext Interaktionsvariante

G Grafisch - Ref, OF, ZA, LA

SmitKtx Sprachlich mit Ref, OF, ZA, LA

SohneKtx Sprachlich ohne Ref, OF, ZA, LA

GSmitKtx Grafisch & Sprachlich mit Ref, OF, ZA, LA

GSohneKtx Grafisch & Sprachlich ohne Ref, OF, ZA, LA

Tabelle 3.9: Split-Plot Studiendesign, jede Versuchsperson evaluiert alle In- teraktionsvarianten einer Bedingung. Für Abkürzungen der In- teraktionsvarianten siehe Abschnitt 3.2.1.1.

Wie von Suhm u. a. (2001) gezeigt, ergibt eine Kombination mehre- rer Modalitäten präzisere Ergebnisse als unimodale Hilfestrategien. Somit würden im direkten Vergleich der in Tabelle 3.9 dargestell- ten Bedingungen wahrscheinlich eine Präferenz zur multimodalen Präsentation festzustellen sein. Für eine spätere Implementierung im Fahrzeug-SDS bedeutet eine grafische Veranschaulichung allerdings auch eine potentielle visuelle Ablenkung. Um zu evaluieren, ob ei- ne rein sprachliche Präsentation Nachteile gegenüber grafisch oder multimodalen Implementierungen aufweist, werden die Bedingun- gen unter den Versuchspersonen aufgeteilt, so dass jede Versuchs- Zwischengruppen- person nur eine Bedingung evaluiert (Zwischengruppenvariable). Die variable Durchführung der Studie erfolgt somit im Split-Plot Design.

3.2.2.3 Ablauf des Experiments Zur Evaluation der fünf Bedingungen sind fünf Gruppen nötig. Hem- pel (2006) beobachtet einen Einfluss von Alter, Geschlecht und Tech- nikaffinität der Versuchspersonen auf Bewertung der Gebrauchstaug- lichkeit und des Aufgabenerfolgs im telefongestützten SDS. Dies be- deutet, über alle Versuchspersonen sollten sich fünf homogene Grup- pen hinsichtlich dieser Eigenschaften ergeben. Bei einer Internetstu- die besteht allerdings nur begrenzte Kontrolle der Teilnehmer und 3.2 internetstudie zu hilfestrategien 95

die vorherige Auswahl sowie die Zuweisung zu einer Gruppe ist da- her nicht trivial. Somit muss eine Gruppenzuweisung adaptiv nach Ein- adaptive gabe des Alters, des Geschlechts und der Technikaffinität erfolgen. Gruppenzuweisung Hierfür wird der Algorithmus von Hoare u. a. (2013) genutzt, wel- cher eine adaptive, zufällige Zuordnung auf Basis mehrerer Strata ermöglicht. Für jede Bedingung wird eine Umfrage mit Hilfe des Tools Li- meSurvey8 implementiert, welche die Versuchspersonen durch die Studie begleitet. Zu Beginn erfolgt eine Aufnahme personenbezoge- ner Daten und genereller Erfahrungen mit technischen Geräten so- wie Sprachdialogsystemen (siehe AnhangA. 2.1). Anschließend er- folgt die Studie in zwei Teilen: im ersten Teil interagieren die Teilneh- mer selbst, im zweiten werden Videos mit Beispielinteraktionen vor- gespielt. Im interaktiven Teil sehen Versuchspersonen eine grafische interaktiver Teil Veranschaulichung ihrer Aufgabe (vgl. Abschnitt 3.2.2.1) und müs- sen anschließend ihre Nutzeräußerung mit Hilfe eines HTML5-Re- korders beziehungsweise Adobe Flash-Players9 aufnehmen. Die Sys- temantwort wird mittels vorgefertigtem Video abgespielt (siehe Ab- bildung 3.13 für Beispieldialoge), wobei ein wiederholtes Abspielen unterbunden wird, da dadurch der Aufgabenerfolg verfälscht würde. Wie den Versuchspersonen zu Beginn erklärt wird, ist Barge-in, al- so das Unterbrechen der Systemäußerung, möglich, allerdings ist da- nach ein weiteres Abspielen unterbunden. Die Nutzerantwort darauf wird wieder aufgezeichnet und dient zur Bestimmung des Aufgaben- erfolgs. Anschließend an jede Interaktion mit einer Dialogstrategie er- folgt eine Bewertung mittels Gebrauchstauglichkeitsfragebogens auf einer 7-stufigen Likert-Skala (siehe AnhangA. 2.2). Zwischen Teil eins und Teil zwei wird ein Vergleich der Interaktionsvarianten bezüglich Gesamteindruck verlangt. Im Teil der Beispielinteraktionen betrachten Beispiel- die Teilnehmer zunächst ein Video, in welchem ein Nutzer mit dem interaktionen System interagiert. Anschließend erfolgt eine Bewertung hinsichtlich Gesamteindruck des Sprachdialogsystems (International Telecommu- nication Union (ITU), 2003). Am Ende erfolgt ein abschließender Ver- gleich der Dialogstrategien und es besteht die Möglichkeit zur Teil- nahme an einem Gewinnspiel.

3.2.3 Ergebnisse und Diskussion

Im Folgenden werden Ergebnisse der Internetstudie mit 99 Teilneh- mern (71 männlich, 28 weiblich), nach Dialogstrategie, Kontext und Teilnehmer Modalität gegliedert, präsentiert. Versuchspersonen sind im Schnitt 30,4 Jahre alt (SD=9,7) und haben mittlere Erfahrung mit Sprachdia- logsystemen( 6-stufige Likert-Skala: M=3,3, SD=1,37), weisen jedoch eine überdurchschnittliche Technikaffinität auf (5-stufige Likert-Skala:

8 http://www.limesurvey.org [Online 29.05.2015] 9 http://www.adobe.com/products/flashplayer.html [Online 29.05.2015] 96 studien zum anwendungswechsel und zu fehlerbehandlungen

M=3,99, SD=0,68). 8 Versuchspersonen hatten Probleme mit ihrem Mikrofon und flossen somit nicht in die Auswertung des interaktiven Teils ein. Hingegen haben 5 Teilnehmer nach dem ersten Teil die Stu- die abgebrochen und flossen somit nicht in die Auswertung des zwei- ten Teils ein. 95% der Aufgaben wurden korrekt verstanden, was den Ansatz der grafischen Aufgabenbeschreibung bestätigt. Ein Kruskal- Wallis-Test (Kruskal und Wallis, 1952) zeigt keine signifikanten Unter- schiede der Gruppen bezüglich Alter (χ2(4)=2,9, p=,575) und Techni- kaffinität (χ2(4)=8,19, p=,085). Da dies für die Geschlechtsverteilung homogene Gruppen ebenso gilt, kann von homogenen Gruppen ausgegangen werden. In allen vier Phasen wurde der Gesamteindruck jeder Dialogstrate- gie ermittelt: (1) nach jeder Interaktion im interaktiven Teil; (2) nach dem interaktiven Teil im Vergleich; (3) nach jeder Beispielinteraktion; (4) nach Betrachtung aller Beispielinteraktionen im Vergleich. Zwi- schen (1) und (2) ergeben sich nur jeweils minimale Unterschiede (t(90)>0,47, p>,035), weshalb im Folgenden (2) nicht betrachtet wird. Während bei (1) die Beurteilung nach einer realen Interaktion erfolgt, zeigt (3) und (4) lediglich den Blick aus Sicht einer dritten Person. So- mit wird im Folgenden primär (1) analysiert und lediglich bei signifi- kanten Unterschieden auf (3) oder (4) eingegangen. Abbildungen zei- gen im Folgenden Mittelwerte (M) und Standardabweichungen (SD, engl. Standard Deviations).

3.2.3.1 Ergebnisse der Dialogstrategien (Hypothese 1)

Beurteilungen Ge- Abbildung 3.15 sind die Beurteilungen der Gebrauchstauglichkeit ver- brauchstauglichkeit schiedener Dialogstrategien zu entnehmen. Hierbei wurden alle SAS- SI-Dimensionen zu einem Gesamtwert zusammengefasst. Deutlich er- kennbar wird das Referenzsystem am Besten bewertet, wobei eine offene Frage am Schlechtesten beurteilt wird. Die Zweier- und Listen- auswahl befinden sich dazwischen, jedoch hängt die Zweierauswahl stark vom Kontext ab (siehe Abschnitt 3.2.3.2) und wird aus diesem Grund im allgemeinen Vergleich schlechter als die Listenauswahl be- wertet. Anhand der Bewertung der Hilfe-Dimension wird offensicht- offene Frage reicht lich, dass eine offene Frage als Hilfestellung nicht ausreichend ist. Eben- nicht aus so erfordert diese Dialogstrategie mehr Konzentration als die ande- ren. Neben einer rein subjektiven Bewertung durch die Nutzer, gibt der Aufgabenerfolg Aufgabenerfolg Aufschluss über die objektive Leistung einer Hilfestra- tegie, das heißt, ob ein Nutzer zu seinem Interaktionsziel gelangt oder nicht. Wie in der vorherigen Studie zeigen die Listenauswahl (100%) und das Referenzsystem (97,78%) sehr gute Aufgabenerfolgs- raten. Hingegen schneiden offene Frage (68,45%) und Zweierauswahl (59,02%) deutlich schlechter ab. Speziell in Aufgaben der Informati- onsanfrage hatten Versuchspersonen Probleme, die richtige Anwen- dung zu benennen. Hohe Varianzen zeigen sich hierbei in Anwen- dungsnamen wie zum Beispiel: „Websuche“, „Browser“, „Wikipedia“ 3.2 internetstudie zu hilfestrategien 97

3 *** *** *** *** 2 *** 1 0 -1 -2 -3 Gesamteindruck SASSI Hilfe erw. Konzentration Referenz Offene Frage Zweierauswahl Listenauswahl

Abbildung 3.15: Beurteilung der Dialogstrategien. Signifikanzniveau (Korrektur nach Bonferroni): p<,0083(*), p<,0016(**), p<,00016(***). oder „Google“. Ähnlich zur subjektiven Bewertung müssen die Ergeb- nisse der Zweierauswahl unter Vorbehalt des Aspekt der Varianten mit und ohne Kontext behandelt werden (siehe Abschnitt 3.2.3.2). Ein Problem der offenen Frage ist für die Teilnehmer, dass sie die verfügbaren Anwendungen nicht kennen. Die Bewertung der offenen Frage in einer Beispielinteraktion, in welcher der Teilnehmer ledig- lich Zuschauer ist und sieht, wie der vermeintliche Nutzer mit dem SDS interagiert, zeigt einen um 1,3 Punkte besseren Gesamteindruck (t(85)=6,825, p<,001). Somit könnte für ein Expertennutzer, der die je- weiligen Anwendungen kennt, diese Strategie durchaus erfolgreich sein. Laut Hypothese 1 sollten sich verschiedene Dialogstrategien hin- sichtlich Aufgabenerfolg und Gebrauchstauglichkeit unterscheiden. Im Aufgabenerfolg zeigen die Dialogstrategien Unterschiede, wobei das Referenzsystem nicht besser als die Listenauswahl abschneidet. Somit gilt Hypothese 1 nur teilweise und müsste umformuliert werden: Hypothese 1 gilt LA > Ref > OF > ZA. Dagegen erfordert die Gebrauchstauglichkeit teilweise differenziertere Betrachtungen. Für SASSI und erwartete Hilfe wird die Hypothese 1 angenommen. Jedoch ergibt sich im Gesamteindruck kein Unterschied zwischen ZA und LA und bezüglich der Konzentra- tion nur ein Unterschied in ZA und OF. Somit muss die Hypothese zum Teil abgelehnt werden.

3.2.3.2 Nutzung kontextsensitiver Informationen (Hypothese 2) Hypothese 2.1 zieht Vergleiche der Zweierauswahl mit Kontext und ohne Kontext. Die kontextsensitive Variante zeigt die gesuchte An- wendung an, wogegen die Variante ohne Kontext zwei falsche An- wendungen präsentiert. Wie erwartet, ergeben sich große Unterschie- de des Aufgabenerfolgs von 80,23% mit Kontext zu 19,75% ohne Kontext. Ebenso zeigen kontextsensitive Varianten, bezüglich den Ge- 98 studien zum anwendungswechsel und zu fehlerbehandlungen

brauchstauglichkeitsdimensionen SASSI, Gesamteindruck und erwar- tete Hilfe, signifikant bessere Werte (siehe Abbildung 3.16). Somit Hypothese 2.1 kann die Hypothese 2.1, außer in der vom Nutzer aufzuwendenden annehmen Konzentration, angenommen werden.

3 *** * *** ** 2 1 0 -1 -2 -3 Gesamteindruck SASSI Hilfe erw. Konzentration ZAmitKtx ZAohneKtx LAmitKtx LAohneKtx

Abbildung 3.16: Beurteilung der Varianten bezüglich Kontext. Vergleiche nur hinsichtlich identischer Dialogstrategien dargestellt, Si- gnifikanzniveau: p<,05(*), p<,01(**), p<,001(***).

Die Dialogstrategie Listenauswahl implementiert ebenfalls einen Unterschied abhängig vom Dialogkontext durch die Anordnung der gesuchten Anwendung. Im Aufgabenerfolg konnten, ebenso wie in den Gebrauchstauglichkeitsdimensionen des SASSIs, bei der erwar- teten Hilfe und der Konzentration keine signifikanten Unterschiede Hypothese 2.2 festgestellt werden (siehe Abbildung 3.16). Somit kann Hypothese 2.2 gilt nicht nicht gehalten werden. Jedoch wird bezüglich Gesamteindruck die Variante ohne Dialogkontext minimal besser bewertet (t(65)=2,094, p=,04). Dies lässt sich darauf zurückführen, dass lediglich 37% der Versuchspersonen Barge-in nutzten. Die restlichen hörten, trotz Kennt- nis der gesuchten Anwendung zu Beginn, die Liste bis zu Ende.

3.2.3.3 Grafische und sprachliche Modalität (Hypothese 3) Einen Unterschied in der Präsentation implementieren lediglich die Dialogvarianten Zweier- und Listenauswahl, weshalb ein Vergleich nur auf Basis deren Ergebnisse stattfinden kann. Ebenso müssen die Ergebnisse der hauptsächlich grafischen Varianten mit Vorsicht be- trachtet werden, da hier keine Variation nach Kontext stattfand, und somit die anderen Varianten in der nicht-kontextsensitiven Implemen- tierung einen Nachteil beinhalten (siehe vorheriger Abschnitt). Die zu testende Hypothese geht von keinem Unterschied hinsichtlich Aufga- benerfolg aus, aber von einem Unterschied in Werten der Gebrauchs- tauglichkeit. Aufgabenerfolg Im Vergleich des Aufgabenerfolgs der Präsentationsformen grafisch (97,37%), grafisch & sprachlich (78,35%) und sprachlich (72,98%) zeigt sich zunächst eine starker Unterschied. Unter Ausschluss der Varian- 3.2 internetstudie zu hilfestrategien 99 ten ohne Kontext, ergeben sich allerdings Aufgabenerfolgsquoten von grafisch & sprachlich 97,06% und sprachlich 84,21%. Somit lässt sich lediglich ein Unterschied zwischen den rein sprachlichen und grafischen grafisch besser als Präsentationsmodalitäten feststellen. Unter genauer Betrachtung fällt rein sprachlich auf, dass im Falle einer rein sprachlichen Zweierauswahl Versuchsper- sonen mit „ja“ antworteten, somit die entweder-oder-Auswahl nicht deutlich wird. 3 * 2 1 0 -1 -2 -3 Gesamteindruck SASSI Hilfe erw. Konzentration Grafisch (G) Sprachlich (S) Grafisch & Sprachlich (GS)

Abbildung 3.17: Beurteilung der verschiedenen Modalitäten. Signifikanzni- veau: p<,05(*), p<,01(**), p<,001(***).

Abbildung 3.17 zeigt Werte der Gebrauchstauglichkeit. Hierbei kön- Gebrauchstaug- nen kaum signifikante Unterschiede zwischen den Modalitäten fest- lichkeit gestellt werden. Lediglich im Gesamteindruck wird die hauptsäch- lich grafische Umsetzung besser bewertet (Univariate ANOVA mit Helmert-Kontrast: F(2,88)=4,633, p=,012, η2=,095), was allerdings auf die fehlende Variante ohne Kontext zurückzuführen ist. Anhand der gezeigten Ergebnisse kann Hypothese 3 somit nicht an- Hypothese 3 genommen werden. Bezüglich Aufgabenerfolg ist, speziell hinsichtlich gilt nicht der Zweierauswahl, ein Unterschied festzustellen, wogegen in Punk- ten der Gebrauchstauglichkeit im Allgemeinen nur ein minimaler Un- terschied vorliegt.

3.2.4 Fazit zu Hilfestrategien für die Disambiguierung von Anwendungen

Der Dialoginitiativenwechsel der vorherigen Studie wurde näher be- trachtet, und folgende drei Dialogstrategien wurden entwickelt und evaluiert: Offene Frage, Zweier- und Listenauswahl. Die Erstere im- plementiert dabei eine generische Hilfestrategie, wogegen die Letz- teren kontextsensitive und zielgerichtete Ansätze darstellen, welche dem Nutzer aktiv mögliche Alternativen anbieten. Die Position der Alternativen wird nach verfügbarem Dialogkontext variiert. Ebenso erfolgen Variationen hinsichtlich der Ausgabemodalitäten grafisch, sprachlich und kombiniert. Die Strategien sollten einen Einfluss auf 100 studien zum anwendungswechsel und zu fehlerbehandlungen

Aufgabenerfolg sowie Gebrauchstauglichkeit zeigen und werden mit einer optimalen Referenz verglichen. Die Dialogstrategien wurden mittels einer Internetstudie an 99 Teil- nehmern evaluiert. Wie zu erwarten, zeigt die Referenz die besten generische Werte, wobei die Listenauswahl hinsichtlich Aufgabenerfolg auf glei- Hilfestrategie chem Niveau zu finden ist. Eine offene Frage bietet hingegen keine ungenügend ausreichende Hilfestrategie für Nutzer ohne Systemkenntnis - speziell bei Informationsanfragen ohne eindeutigen Anwendungsbezug ge- langen sie nicht zum Interaktionsziel. Dies deckt sich mit Ergebnissen von R. Smith (1993), welcher in einer Nutzerstudie beobachtete, dass Novizen lieber geführt werden wollen, wogegen Experten gerne die Zweierauswahl gut Dialoginitiative übernehmen. Die Zweierauswahl ist sehr stark vom aber kontext- Kontext abhängig: ist die gesuchte Anwendung unter der Auswahl, ist abhängig dies eine probate Hilfestrategie. Lassen sich die möglichen Alternativen durch den Dialogkontext nicht auf zwei beschränken, sollte auf die Listenauswahl zurückgegriffen werden, bei welcher die Position der gesuchten Anwendung bisher keinen großen Einfluss aufweist. Dies könnte der geringen Nutzung von Barge-in geschuldet sein. Bezüg- lich der Modalität benötigt die Zweierauswahl eine visuelle Reprä- sentation, wobei sonst keine großen Unterschiede festgestellt werden konnten. Wie gezeigt, sind eine Zweier- und Listenauswahl für Systemneu- linge probate Hilfestrategien zur Disambiguierung von Anwendun- gen im anwendungsübergreifenden SDS. Für eine Umsetzung im Fahr- Aspekt der zeug ist allerdings der Aspekt Fahrerablenkung zusätzlich zu betrach- Fahrerablenkung ten. Die Variation hinsichtlich Modalität ergab in der präsentierten Studie keine großen Unterschiede. Jedoch ist zu erwarten, dass als sekundäre Aufgabe speziell die visuelle Darstellung vom Fahrgesche- hen ablenkt. Aus diesem Grund werden die beiden Strategien hin- sichtlich verschiedener Ausgabemodalitäten in einer anschließenden Fahrsimulatorstudie analysiert.

3.3 fahrsimulatorstudie zu hilfestrategien

Die erste Fahrsimulatorstudie dieser Arbeit (siehe Abschnitt 3.1) iden- tifizierte einen Dialoginitiativenwechsel als probate Möglichkeit der Fehlerbehandlung im Falle einer OOA-Äußerung. Durch das Vorle- sen von Beispieläußerungen entstanden jedoch lange Systemdialo- ge, welche erhöhtes Ablenkungspotential des Fahrers bedeuten. Bei OOA-Äußerungen sind allerdings Beispiele nicht notwendig, da ei- ne Interpretation der ursprünglichen Äußerung im richtigen Anwen- dungskontext möglich ist. Dies erfordert ein Setzen der richtigen An- wendung durch den Nutzer, wofür in der vorherigen Studie (siehe Abschnitt 3.2) Dialogstrategien entwickelt und evaluiert wurden. Die Zweier- sowie Listenauswahl zeigten Vorteile in Gebrauchstauglich- keit und Aufgabenerfolg, jedoch fehlt bisher eine Evaluation hinsicht- 3.3 fahrsimulatorstudie zu hilfestrategien 101 lich Bedienung als Sekundäraufgabe. Speziell bezüglich der Modali- tät ist ein Unterschied zwischen der Bedienung als Sekundär- und Primäraufgabe zu erwarten. Im Folgenden werden daher die zwei Dialogstrategien auf Ablenkungsaspekte untersucht. Die Evaluation erfolgte im Zusammenhang der betreuten Bachelorarbeit von Szauer (2015) und wurde in Teilen bereits publiziert und diskutiert (Reichel, Szauer u. a., 2015). Die Auswahl von Anwendungen kann im Allgemeinen als Selekti- Selektion phonetisch on phonetisch unterschiedlicher Elemente einer Liste oder eines Menüs unterschiedlicher abstrahiert werden. Vorliegende Studie ist somit ähnlich zu Arbei- Elemente ten von Gable u. a. (2013), welche eine Auswahl von Einträgen langer Menüs analysierten. Wie auf Grund der „multiple resource theory“ zu vermuten und durch diverse Arbeiten abgesichert (siehe Swette u. a. (2013)), begünstigen auditive Rückmeldungen zum aktuellen Lis- tenelement den Blick der Versuchspersonen auf die Straße, wobei eine visuelle Präsentation eine verstärkte Ablenkung bewirkt. Jedoch wur- de für die Studie von Swette u. a. (2013) ein handelsübliches Smart- phone genutzt, wodurch zusätzlich von einer manuellen Ablenkung auszugehen ist. Einen Vergleich der visuellen, auditiven und multi- modalen Präsentation eines Menüs untersuchten Zhao u. a. (2013) als Primär- und Sekundäraufgabe. Während die visuelle Modalität eine schnellere Auswahl in der Primäraufgabe zeigte, bewirkte sie als se- kundäre Aufgabe eine Ablenkung. Die auditive Systemausgabe min- derte dieses Risiko. Die Evaluation erfolgte allerdings mit einer sehr geringen Anzahl an Teilnehmern, sowie ohne detaillierte Analyse der subjektiven Belastung und Gebrauchstauglichkeit mit standardisier- ten Fragebögen. Die Selektion erfolgte mittels Touchpad und nicht per Sprache, wie in der Studie vorliegender Arbeit. Diese soll wert- volle Erkenntnisse liefern, wie Listen mit wenigen phonetisch unter- schiedlichen Einträgen in ein multimodales Infotainment-System im Fahrzeug integriert werden können. Ähnlich zu den vorherigen Ab- schnitten erfolgt eine Präsentation über Studienkonzept, Aufbau und Durchführung der Studie, gefolgt von den festgestellten Ergebnissen mit einer Diskussion und einem abschließenden Fazit.

3.3.1 Studienkonzept

Wie gezeigt, ist eine generische Hilfestrategie keine sinnvolle Mög- lichkeit, Systemneulingen eine Anwendungsauswahl zu ermöglichen; Zweier- und Listenauswahl sind hingegen besser geeignet. Dies ba- siert zwar auf Ergebnissen während einer Interaktion als Primärauf- gabe, jedoch sind keine Unterschiede zum Einsatz in einer Sekun- däraufgabe zu erwarten. Somit werden im Folgenden lediglich die Dialogstrategien Zweier- (ZA) und Listenauswahl (LA) im Fahrzeug ana- Zweier- und lysiert (siehe Abbildung 3.18). Die Implementierung erfolgt wie in Listenauswahl im Abschnitt 3.2.1.1 vorgestellt (Anwendungen sind jedoch durch Obst- Fahrzeug 102 studien zum anwendungswechsel und zu fehlerbehandlungen

1. Poster

2. Buch

3. Kirsche

4. Kerze

5. Fahrrad

N: „Wählen Sie einen Eintrag: Kir- N: „Wählen Sie einen Eintrag: sche oder Buch?“ Poster, Buch, Kirsche, Kerze oder Fahrrad?“ S: „Kirsche“ S: „Kirsche“ N: „Auswahl erfolgreich“ N: „Auswahl erfolgreich“ (a) Zweierauswahl (ZA) (b) Listenauswahl (LA)

Abbildung 3.18: Strategien der Selektion eines Listeneintrags, abgebildet in multimodaler Variante jeweils mit grafischer Darstellung und sprachlichem Dialog: Nutzer (N) und System(S).

sorten und Gegenstände abstrahiert). Während als Primäraufgabe kein signifikanter Unterschied der Modalitäten festgestellt werden visuelle & auditive konnte, kann davon ausgegangen werden, dass visuelle und auditive Modalität Modalität während des Fahrens unterschiedlich stark ablenken (sie- he Abschnitt 2.3.4). Wie in der vorherigen Studie erfolgt aus diesem Grund eine Unterscheidung in: vorwiegend Grafisch (G), vorwiegend Sprachlich (S) sowie kombiniert Grafisch und Sprachlich (GS). Ab- bildung 3.18 zeigt jeweils die kombinierte Variante, wobei das her- vorgehobene Listenelement synchronisiert mit der Sprachausgabe ist. In vorwiegend Sprachlich und vorwiegend Grafisch werden die Ele- mente nicht angezeigt respektive nicht vorgelesen, jedoch Nutzer mit einer generischen Äußerung („Wählen Sie einen Eintrag“) proaktiv aufmerksam gemacht. Es ist davon auszugehen, dass sich die Dialogstrategien und ihre Wirkungsgrößen Modalitätsvariationen in den Wirkungsgrößen Fahrleistung, subjektive Belastung, Gebrauchstauglichkeit, Aufgabenerfolg und Dialogdauer unterscheiden. Die Fahrleistung und subjektive Belastung wird, wie in Abschnitt 3.1.1.3 beschrieben, durch Spurhaltung und Reaktion auf Ereignisse objektiv und, mittels DALI-Fragebogen (Pauzié u. a., 2007) subjektiv, erfasst (deutsche Übersetzung nach Hofmann (2014)). Die Beurteilung der Gebrauchstauglichkeit erfolgt über eine verkürz- te Version des SASSI-Fragebogens nach Hone und Graham (2000) mit deutscher Übersetzung nach Strauss (2010) (siehe AnhangA. 3.2). Bei- de Fragebögen basieren auf einer 5-stufigen Likert-Skala. Die DALI- Bewertung erfolgt von „sehr gering“ (-2) bis „sehr hoch“ (+2) und SASSI von „trifft gar nicht zu“ (-2) bis „trifft voll zu“ (+2). Die Auf- gabe ist erfolgreich absolviert bei richtiger sprachlicher Selektion des gesuchten Elements. Eine Korpusanalyse ergibt in aktueller Studie 3.3 fahrsimulatorstudie zu hilfestrategien 103 keinen Sinn, da Versuchspersonen lediglich den Namen des Eintrags nennen müssen. Auf Basis der durchgeführten Studien und bestehenden Arbeiten lassen sich Hypothesen ableiten (siehe Tabelle 3.10), welche anhand Hypothesen einer Nutzerstudie im Fahrsimulator überprüft werden.

Nr. Dimension Fahrleist. subj. Bel. Geb.taugl. Erfolg

H1 Strategie Zweierauswahl > Listenauswahl H2 Modalität S > GS > GS = GS = G

Tabelle 3.10: Hypothesen zu verschiedenen Dialogvariationen der Auswahl (= keine signifikanten Unterschiede; > signifikant besser als).

Der Vergleich der Dialogstrategien sollte deutliche Vorteile einer Zweier- gegenüber einer Listenauswahl ergeben, da weniger Elemen- te zur Auswahl stehen, was somit einen kürzeren Dialog erfordert. Neben der Anzahl der Elemente unterscheiden sich die beiden Dia- logstrategien noch zusätzlich in der visuellen Präsentation in Form von Bild und Text. Da eindeutig interpretierbare Bilder gewählt wer- den ist hier nicht von einem Unterschied bezüglich der Interpretation auszugehen. Sollten sich jedoch unterschiedliche Ergebnisse ergeben, muss dies gesondert analysiert werden. Bezüglich der Modalität ist davon auszugehen, dass visuelle Darstellungen objektiv und subjek- tiv belastend wirken und somit eine auditive Präsentation in diesen Dimensionen von Vorteil ist. Auf Grund vorheriger Studie ist aller- dings davon auszugehen, dass Gebrauchstauglichkeit und Aufgaben- erfolg keine signifikanten Unterschiede ergeben.

3.3.2 Aufbau und Durchführung im Fahrsimulator

Zum Testen der Hypothesen mit anschließender Bewertung einer mög- lichen Nutzung der Konzepte in einem Infotainment-System dient eine Nutzerstudie. Auf Basis der Erfahrungen der ersten Fahrsimu- latorstudie (siehe Abschnitt 3.1) erfolgt die Definition des Aufbaus und die Durchführung der Studie. Wie erwähnt, erfolgt eine Evalua- tion zweier Dialogstrategien in jeweils drei Modalitäten, was zu sechs verschiedenen Bedingungen führt. Jede Versuchsperson führt alle Be- dingungen aus, wobei die Reihenfolge der Bedingungen permutiert wird, um potentielle Effekte der Reihenfolge zu eliminieren. Als Fahrsimulation und Fahraufgabe dient erneut OpenDS (Math u. a., Fahrsimulation & 2012) mit ConTRe Task (Mahr u. a., 2012), wie in Abschnitt 3.1.2.1 be- Fahraufgabe schrieben. Bezüglich des Versuchsaufbaus erfolgt eine Änderung, von Versuchsaufbau ehemals einer Fahrgastzelle, hin zu handelsüblicher PC-Hardware in Form eines Logitech G27 Lenkrads mit Force Feedback sowie zuge- hörigen Pedalen (siehe Abbildung 3.19). Dies mindert zwar den Ein- druck einer realen Fahrzeugumgebung, erhöht jedoch durch Force 104 studien zum anwendungswechsel und zu fehlerbehandlungen

Feedback den Lenkwiderstand und erzeugt somit eine realitätsge- treue, schwierigere Lenkaufgabe. Ein Monitor zur Darstellung des In- fotainment-Systems ist rechts des Fahrers angebracht und entspricht der gängigen Größe (7", 800x480 Pixel) und Position in Fahrzeugen.

Abbildung 3.19: Fahrsimulator auf Basis von PC-Hardware.

Für die Sekundäraufgabe ist entscheidend, dass Versuchspersonen ein klares Verständnis ihrer Aufgabe haben. Bei der Auswahl einer Anwendung müsste eine Erklärung, welche die gesuchte Anwendung ist, stattfinden. Da dies keine triviale Aufgabe ist, wird die Sekundär- Anwendungen aufgabe dahingehend vereinfacht, indem Anwendungen durch Objekte durch Objekte abstrahiert sind. Unter den Objekten ist jeweils eine Obstsorte darge- abstrahiert stellt, welche ausgewählt werden muss. Ist dies in einer Textdarstel- lung eindeutig, muss bei bildlicher Darstellung besondere Sorgfalt hinsichtlich ähnlicher Obstsorten erfolgen, so sind zum Beispiel Oran- gen, Mandarinen oder Pfirsiche ausgeschlossen. Die Auswahl wird vom SDS durch eine sprachliche Äußerung initi- iert. Daraufhin müssen die Teilnehmer die Obstsorte sprachlich aus- wählen, worauf eine generische Systemäußerung („Auswahl erfolg- statischer Dialog reich“) als Bestätigung erfolgt. Somit ist der Dialog, sowie seine Elemen- te, statisch und kann im voraus definiert werden. Dies geschieht durch eine Bildschirmpräsentation mit der Software LibreOffice10, welche auf dem Monitor des Infotainment-Systems dargestellt wird. Zur Ver- meidung von Fehlerkennungen ist die ASR des Sprachdialogsystems erneut als WoZ implementiert, das heißt, der Versuchsleiter interpre- Wizard-of-Oz (WoZ) tiert die Antwort der Versuchsperson und schaltet die Präsentation weiter. Ein Makro zeichnet die Aktionen des Wizards für die spätere Auswertung auf. Um die Illusion eines realen Sprachdialogsystems

10 https://de.libreoffice.org/ [Online 07.08.2015] 3.3 fahrsimulatorstudie zu hilfestrategien 105

zu erhalten, erfolgen sämtliche Sprachausgabe synthetisiert (NUAN- CE Vocalizer Expressive11, Version 1.2.1, Simme: anna.full) Zur Durchführung wird jeder Versuchsteilnehmer anfangs begrüßt, Durchführung erhält einen Versuchsüberblick und muss zur Teilnahme einwilligen. Durch einen Vorbefragungsbogen wird ein Profil der Versuchsperson hinsichtlich Alter, Geschlecht, Erfahrung mit Sprachdialogsystemen und Technikaffinität erstellt (siehe AnhangA. 3.1). Anschließend er- folgt eine Einweisung in den Fahrsimulator, Erklärung des ConTRe Tasks und eine Übungsfahrt zur Gewöhnung an die Fahraufgabe. Zu Beginn und zu Ende erfolgt eine Baseline-Fahrt ohne Sekundärauf- gabe, um mögliche Lerneffekte festzustellen. Dazwischen werden die Bedingungen, welche jeweils fünf Selektionen im durchschnittlichen Abstand von 10 Sekunden erfordern, absolviert. Jede Fahrt ist somit unterteilt in Phasen mit Dialog und Phasen ohne Dialog (siehe Abbil- dung 3.20). Im Anschluss an eine Fahrt wird die Bedingung mittels verkürztem SASSI- und DALI-Fragebogen bewertet (siehe Anhang A.3.2). Das Experiment dauert in der Regel 40 Minuten und als Dan- keschön erhalten die Versuchspersonen Süßigkeiten.

Start Ø10 sek Dialogdauer Ende

Dialog Kein Dialog Dialog … Dialog t

Abbildung 3.20: Fahrt unterteilt in Phasen mit und ohne Dialog.

3.3.3 Ergebnisse und Diskussion

Im Folgenden werden die Ergebnisse der Fahrsimulatorstudie mit 30 Teilnehmern (22 männlich, 8 weiblich), untergliedert nach Wirkungs- Teilnehmer größen, präsentiert. Im Schnitt sind die Versuchspersonen 25,8 Jah- re alt (SD=2,92) sowie technikaffin (5-stufige Likert-Skala: M=4,16, SD=0,76) und würden daher ein fortschrittliches Infotainment-Sys- tem im Fahrzeug nutzen. Die Teilnehmer weisen mittlere Erfahrung mit sprachbedienbaren Geräten auf (6-stufige Likert-Skala: M=3,17, SD=1,26). Alle Personen besitzen einen Führerschein, jedoch über die Hälfte (56,67%) fährt lediglich wenige Male pro Woche und kann so- mit als Gelegenheitsfahrer mit wenig Fahrpraxis eingestuft werden. Wie in der vorherigen Ergebnispräsentationen zeigen Abbildungen Mittelwerte (M) und Standardabweichungen (SD, engl. Standard De- viations).

11 http://www.nuance.com/for-business/mobile-solutions/ vocalizer-expressive/ [Online 27.12.2014] 106 studien zum anwendungswechsel und zu fehlerbehandlungen

3.3.3.1 Fahrleistung Die Fahrleistung wird gemessen anhand von Spurabweichung und Reaktionszeit. Zu Beginn und zu Ende des Experiments erfolgt ei- ne Messung beider Wirkungsgrößen in einer Bedingung ohne SDS- Bedienung (Baseline-Fahrten). Im Durchschnitt ist die Abweichung der Spur in der ersten Baseline-Fahrt (M=0,208, SD=0,058) signifikant höher (p=,002) als in der zweiten Baseline-Fahrt (M=0,173, SD=0,051). Dies deutet auf einen gewissen Lerneffekt über die Zeit hin. Um diese Einflüsse auf die Bedingungen zu verhindern, wurde die Reihenfol- ge permutiert. Zwischen zwei SDS-Phasen (Dialog) sind im Schnitt 10 Sekunden reine Fahrt (kein Dialog), welche im Folgenden anstatt der Baseline-Fahrten zur Analyse verwendet werden. Da die reine Fahrt direkt im selben Lernfortschritt wie die jeweilige SDS-Bedie- nung erfolgt, sind die Ergebnisse trotz Lerneffekt vergleichbar. Die Phasen mit und Daten sind somit geteilt nach Phasen mit Dialog und Phasen ohne Dia- ohne Dialog log. Die Daten der Spurabweichung sind normalverteilt (Test auf Nor- malverteilung nach Shapiro und Wilk (1965): W(29)=[0,908, 0,986], p=[,015,,956]), bis auf Zweierauswahl_GS_Dialog (W(29)=0,896, p=,008) und Listenauswahl_S_Dialog (W(29)=0,784, p<,001). Wie in Abbildung 3.21 dargestellt, zeigen sich signifikante (p<,001) Abweichungen der Spur während der SDS-Bedienung in Bedingungen, welche haupt- sächlich auf grafischer Modalität beruhen (G). Die sprachliche Bedie- nung (S) zeigt ebenso in Zweierauswahl (t(28)=2,4, p=,023) und in Listenauswahl (Z(30)=-2,931, p=,003) signifikante Unterschiede zwi- schen Dialog und kein Dialog. In Kombination der Modalitäten (GS) ergibt sich jedoch kein signifikanter Unterschied zwischen Dialog und kein Dialog (p>,09).

0,4 * *** ** ***

0,3

kein Dialog 0,2 Dialog

0,1 S G GS S G GS Zweierauswahl (ZA) Listenauswahl (LA)

Abbildung 3.21: Gemessene Spurabweichung, unterteilt nach Dialogstrate- gie und Modalität. Signifikanzniveau: p<,05(*), p<,001(***)

Wie in Abschnitt 3.3.1 durch Hypothese 1 formuliert, sollte eine Zweierauswahl weniger ablenkend als eine Listenauswahl sein. Ein Vergleich beider Dialogstrategien erfolgt jeweils in derselben Modali- tät. Bezüglich der sprachlichen Variante (S) ergibt ein Wilcoxon-Vor- zeichen-Rang-Test keinen signifikanten Unterschied hinsichtlich Spu- 3.3 fahrsimulatorstudie zu hilfestrategien 107 rabweichung (Z(29)=-1,589, p=,112), was ebenso in der kombinierten Modalität (GS) gilt (Z(29)=-0,681, p=,496). Lediglich in der vorwie- gend grafischen Umsetzung (G) ergibt sich ein signifikanter Unter- schied zwischen den Dialogstrategien (t(29)=4,552, p<,001). Hypothe- Hypothese 1 gilt se 1 ist somit nur in der vorwiegend grafischen Modalität anzunehmen (G). teilweise Die Betrachtung des Vergleichs der Phasen mit und ohne Dialog lässt bereits den Schluss über Unterschiede bezüglich des Vergleichs der Modalitäten zu. Ein Test nach Friedman (1937) zeigt beim Ver- gleich der Modalitäten in der Dialogstrategie Zweierauswahl signifi- kante Unterschiede (χ2(2)=17,655, p=<,001). Dies gilt ebenso für die Dialogstrategie Listenauswahl (χ2(2)=19,103, p=<,001). Ergebnisse an- schließender Post-Hoc-Tests sind Tabelle 3.11 zu entnehmen. Nach Bonferroni-Korrektur sind jeweils signifikante Unterschiede von vor- wiegend Grafisch (G) zu den anderen beiden Varianten festzustellen. Hinsichtlich einer kombinierten Ausgabe (GS) und der sprachlichen Ausgabe (S) ist kein Unterschied festzustellen, somit kann angenom- men werden, dass Versuchspersonen die grafische Darstellung igno- rieren und lediglich auf die auditive Ausgabe hören. Hypothese 2 kann Hypothese 2 somit nicht angenommen, sondern muss zu S=GS>G umformuliert umformuliert in > werden. S=GS G

Modalität Zweierauswahl Listenauswahl

S vs. G t(29)=4,406, p<,001 Z(30)=-4,083, p<,001 S vs. GS Z(30)=-1,092, p=,275 Z(30)=-1,049, p=,294 G vs. GS Z(30)=-2,581, p=,010 t(29)=-4,532, p<,001

Tabelle 3.11: Post-Hoc-Tests zum Vergleich der Modalitäten der jeweiligen Dialogstrategien.

Bei den Reaktionszeiten zeigen sich die Nachteile des ConTRe Tasks. Reaktionsereignisse sind diskret in Form einer Ampel mit Rot- oder Diskrete Grünlicht, worauf die Versuchsperson das Brems- beziehungsweise Reaktionsereignisse das Gaspedal betätigen soll. Diese Ereignisse treten in zufälligen Ab- ständen auf, somit in machen Bedingungen während der Dialogpha- se, in anderen dazwischen. Durch die teilweise kurzen Sprachdialo- ge ist die Gesamtanzahl der Reaktionsereignisse im Dialog gering oder nicht vorhanden, wodurch kein verlässlicher Vergleich der Bedin- kein Vergleich gungen möglich ist. Eine ANOVA zeigt für die Bremsreaktionen kei- möglich ne signifikanten Unterschiede (F(5,85)=1,277, p=,281, η2=0,07, N=18). Gleiches trifft für die Reaktion auf ein Grünlicht zu (F(5,75)=3,783, p=,71, η2=0,201, N=16). Eine gemeinsame Betrachtung beider Reak- tionsarten schließt sich durch die Positionierung des Fußes von Ver- suchspersonen auf dem Gaspedal aus, da dadurch diese Reaktionszei- ten um durchschnittlich 245ms kürzer ausfallen als Bremsreaktionen (t(23)=9,219, p<,001). 108 studien zum anwendungswechsel und zu fehlerbehandlungen

3.3.3.2 Subjektive Belastung Die subjektive Belastung wird mittels DALI-Fragebogen in den Di- mensionen globale Aufmerksamkeit, visuelle und auditive Belastung, Stress, Interferenz sekundärer und primärer Aufgabe sowie zeitliche Anforderungen erhoben. Abbildung 3.22 zeigt die Ergebnisse, geglie- dert nach Dialogstrategie und Modalität. Nach dem Normalvertei- lungstest von Shapiro und Wilk (1965) sind die meisten Daten nicht normalverteilt (p<,023), weshalb im Folgenden nicht-parametrische Tests zur Bestimmung der Signifikanz genutzt werden. Visuelle und auditive Belastung sind nicht dargestellt, da die Ergebnisse - wie zu erwarten - eine identische Belastung zur jeweiligen Modalität aufwei- sen. Das heißt, grafische Darstellung führt zu visueller Belastung und sprachliche Präsentation zu auditiver Belastung.

2

1

0

-1

-2 Aufmerksamk. Stress Interferenz Zeitlich ZA_S ZA_G ZA_GS LA_S LA_G LA_GS

Abbildung 3.22: Beurteilung der subjektiven Belastung, gegliedert nach DA- LI-Dimensionen unterteilt in Dialogstrategie und Modali- tät. Signifikanzen nicht dargestellt.

Ähnlich zur objektiven Fahrleistung ist davon auszugehen, dass eine Zweierauswahl subjektiv weniger belastend ist als eine Listen- auswahl. Zur Bewertung beider Dialogstrategien erfolgt ein Vergleich jeweils gleicher Modalität in jeder DALI-Dimension. Wie in Abbil- dung 3.22 dargestellt, erfordert eine Zweierauswahl im Allgemeinen geringere Belastung. Wilcoxon-Vorzeichen-Rang-Tests ergeben signi- fikante Unterschiede in allen Dimensionen (p<.019), außer zeitliche Belastung in multimodaler Darstellung (p=,055). Somit ist eine klare Hypothese 1 Tendenz zur Zweierauswahl zu erkennen, wodurch Hypothese 1 hin- annehmen sichtlich subjektiver Belastung angenommen wird. Hypothese 2 formuliert eine Zunahme der subjektiven Belastung von Sprachlich (S), kombiniert (GS) zu Grafisch (G). Zum Test der Hy- pothese werden die drei Varianten innerhalb der jeweiligen Dimensi- on und Dialogstrategie verglichen. Ein Test nach Friedman (1937) er- gibt signifikante Unterschiede zwischen den Varianten (χ2(2)=[10,753, 18,489], p<,01). Anschließende Post-Hoc-Tests (Wilcoxon-Vorzeichen- Rang mit Bonferroni Korrektur) ergeben einen signifikanten Unter- 3.3 fahrsimulatorstudie zu hilfestrategien 109 schied zwischen vorwiegend sprachlicher (S) und vorwiegend grafi- scher (G) Modalität (Z(30)=[-3,978,-3,131], p<,002). Im Vergleich zwi- schen kombinierter Darstellung (GS) und sprachlicher Ausgabe (S) sind keine signifikanten Unterschiede erkennbar (Z(30)=[-2,15,-0,098], p=[0,032, 0,992]). Hinsichtlich vorwiegend grafischer (G) und kombi- nierter (GS) Varianten zeigen sich keine signifikanten, aber tenden- zielle Unterschiede in der globalen Aufmerksamkeit (Z(30)=[-2,351, -1,862], p=[0,019, 0,063]). In den Dimensionen Interferenz, Stress und Hypothese 2 Zeit sind allerdings signifikante Unterschiede zu sehen (Z(30)=[-3,719, umformuliert in > -2,813], p<.005). Wie bei der objektiven Fahrleistung muss die Hypothe- S=GS G se somit umformuliert werden zu S=GS>G.

3.3.3.3 Gebrauchstauglichkeit Die Gebrauchstauglichkeit setzt sich zusammen aus den Einzeldi- mensionen Beliebtheit (Likeability), kognitive Anstrengung (Cogniti- ve Demand) und erkennbares konzeptionelles Modell (Habitability). Abbildung 3.23 stellt die Ergebnisse abhängig von der Modalität und der Dialogstrategie dar. Daten der Dimension Beliebtheit und kogni- tive Anstrengung sind normalverteilt (Shaphiro-Wilk-Test), wogegen die Dimension konzeptionelles Modell in allen Varianten nicht nor- malverteilt ist (p<,001).

2

1

0

-1

-2 Beliebtheit kognitive Anstrengung Habitability ZA_S ZA_G ZA_GS LA_S LA_G LA_GS

Abbildung 3.23: Beurteilung der Gebrauchstauglichkeit, gegliedert nach SASSI-Dimensionen unterteilt in Dialogstrategie und Mo- dalität. Signifikanzen nicht dargestellt.

Wie in Abschnitt 3.3.1 diskutiert, sollte eine Zweierauswahl besse- re Gebrauchstauglichkeit als eine Listenauswahl aufweisen. Metho- disch identisch zu den vorherigen Analysen der Dialogstrategien er- folgen Vergleiche derselben Modalität, jeweils pro SASSI-Dimension. In den Dimensionen Beliebtheit und kognitiver Anstrengung sind si- gnifikante Unterschiede zwischen den Dialogstrategien zu erkennen (t(29)>2,812, p<,01). Bezüglich erkennbarem Modell sind jedoch kei- ne signifikanten Unterschiede zu erkennen ist. In Punkten der Ge- brauchstauglichkeit ist somit eine Zweierauswahl beliebter und ko- 110 studien zum anwendungswechsel und zu fehlerbehandlungen

gnitiv weniger anstrengend, wobei beide Dialogstrategien sehr gute Werte hinsichtlich erkennbarem konzeptionellen Modell aufweisen. Hypothese 1 kann Hypothese 1 kann daher großteils angenommen werden. angenommen Auf Basis der Ergebnisse der vorherigen Studien sollten keine Un- werden terschiede hinsichtlich Gebrauchstauglichkeit der Modalitäten auftre- ten. Die Ergebnisse des erkennbaren konzeptionellen Modells folgen dieser Hypothese und ergeben keine signifikanten Unterschiede in Zweier- (p=,073) und Listenauswahl (p=,091). Bezüglich der ande- ren SASSI-Dimensionen zeigen jedoch ANOVAs signifikante Unter- schiede der Modalitäten (F(2,56)=[11,737, 24,236], p<,001, η2=[0,295, 0,455]). Anschließende Post-Hoc-Tests ergeben signifikante Unterschie- de zwischen sprachlichen (S) und grafischen (G) Varianten (p<,001) sowie grafischen (G) und kombinierten (GS) Varianten (p<,001). Un- ter Betrachtung des Vergleichs der vorwiegend sprachlichen (S) und kombinierten (GS) Varianten bezüglich kognitiver Anstrengung so- wie Beliebtheit der Zweierauswahl ergeben sich allerdings keine signi- fikanten Unterschiede (t(29)>0,338, p>0,407). In Punkten der Beliebt- heit der sprachlichen (S) und kombinierten (GS) Variante bei einer Lis- tenauswahl zeigt sich jedoch eine Tendenz in Richtung sprachlicher, wobei nach Bonferroni keine klare Signifikanz vorliegt (t(29)=2,388, p=,024). Ein Grund hierfür könnte der sich bewegende Cursor bei der Liste sein oder die Gesamtgestaltung. Im Allgemeinen kann jedoch Hypothese 2 die Hypothese 2 bezüglich Gebrauchstauglichkeit ebenfalls in S=GS>G umformuliert in umformuliert werden. Das erkennbare konzeptionelle Modell folgt die- > S=GS G ser Hypothese zwar nicht, jedoch sind die Ergebnisse in jeder Moda- lität so hoch, dass Nutzer mit allen Varianten zurecht kommen. Dies wird vom Aufgabenerfolg bestätigt.

3.3.3.4 Aufgabenerfolg und Dialogdauer Ein wichtiger Wert für die Güte eines Sprachdialogsystems stellt ei- nerseits der Aufgabenerfolg und andererseits die Dialogdauer dar. Tabelle 3.12 zeigt die Ergebnisse, unterteilt nach Dialogstrategie und durchgängig hoher Modalität. Zu erkennen ist ein durchgängig hoher Aufgabenerfolg in al- Aufgabenerfolg len Bedingungen. Signifikante Unterschiede sind nicht festzustellen und Abweichungen von 100% sind zumeist durch Unachtsamkeit der Versuchspersonen zu erklären. Dialogdauer In Punkten der Dialogdauer variieren die Ergebnisse allerdings be- trächtlich. Einem Normalverteilungstest nach Shapiro und Wilk (1965) zufolge sind die Daten nicht normalverteilt, weshalb ein nicht-para- metrischer Test nach Friedman (1937) angewendet wird. Dieser er- gibt signifikante Unterschiede (χ2(5)=122,931, p<,001). Wie zuvor er- Dialogstrategien folgt ein Vergleich der Dialogstrategien jeweils hinsichtlich identischer Modalität. Wilcoxon-Vorzeichen-Rang-Tests zeigen signifikante Un- terschiede (Z(29)<-4,595, p<,001). Wie erwartet ist somit festzustel- len, dass eine Zweierauswahl eine geringere Dialogdauer erfordert als die Auswahl aus einer längeren Liste. Um die Auswirkungen der 3.3 fahrsimulatorstudie zu hilfestrategien 111

Zweierauswahl Listenauswahl S G GS S G GS

Aufgabenerfolg (M) 100% 100% 100% 97,2% 96,5% 100% Dialogdauer (M in Sek) 4,93 3,52 4,32 6,72 4,80 9,45 Dialogdauer (SD) 0,31 0,77 0,57 0,88 0,77 3,92

Tabelle 3.12: Aufgabenerfolg und Dialogdauer unterteilt in Dialogstrategie und Modalität.

Präsentationsmodalität zu analysieren, erfolgen Wilcoxon-Vorzeichen- Modalität Rang-Post-Hoc-Tests jeweils identischer Dialogstrategie. Alle Verglei- che ergeben signifikante Unterschiede der Modalitäten (Z(29)<-3,189, p<,001). Somit ergibt sich eine Reihung von kurzer nach langer Dia- logdauer bei einer Zweierauswahl in G

3.3.4 Fazit zu Hilfestrategien im Infotainment-System

Die erfolgreichen Hilfekonzepte der vorherigen Studie (Abschnitt 3.2) wurden hinsichtlich des Einsatzes im Infotainment-System, somit als sekundäre Aufgabe während des Fahrens, analysiert. Eine genaue Betrachtung von Zweier- und Listenauswahl, umgesetzt in vorwie- gend grafischer, sprachlicher und kombinierter Variante, erfolgte in den Wirkungsgrößen objektive Fahrerleistung, subjektiv empfundene Belastung, Gebrauchstauglichkeit, Aufgabenerfolg und Dialogdauer. Die Evaluation erfolgte auf Basis einer hypothesengetriebenen Nut- zerstudie im Fahrsimulator, mit ConTRe Task als Primäraufgabe und mit einem als WoZ implementierten SDS als Sekundäraufgabe. 112 studien zum anwendungswechsel und zu fehlerbehandlungen

Die Ergebnisse zeigen Vorteile einer Zweierauswahl im Vergleich Zweier- und zur Listenauswahl, wobei beide Dialogstrategien, in Umsetzung von Listenauswahl im sprachlicher oder sprachlich und grafischer Modalität, mit geringer Fahrzeug Fahrablenkung im Infotainment-System einzusetzen sind. Inwiefern die einzusetzen Anzahl an Elementen oder eine bildliche Darstellung die besseren Er- gebnisse der Zweierauswahl bewirken, kann anhand der erhobenen Ergebnisse nicht nachvollzogen werden. Die Wahl der Dialogstrate- gie ist jedoch zusätzlich von der Anzahl an möglichen Elementen abhängig und ihre Darstellung von deren Ausdrucksfähigkeit in Bil- Grafische dern. Die grafischen Umsetzungen beider Dialogstrategien minimieren Umsetzung zwar jeweils die Dialogdauer, zeigen jedoch starke Auswirkungen auf beeinträchtigt die Primäraufgabe und sollten somit nur kombiniert mit sprachlicher Fahraufgabe Ausgabe eingesetzt werden. Die Ergebnisse, in Form von negativen Auswirkungen grafischer Benutzerschnittstellen im Fahrzeug, decken sich daher mit Zhao u. a. (2013) und Hofmann, Tobisch u. a. (2014), welche ebenso die Akzeptanz und Tauglichkeit rein sprachlicher Be- nutzerschnittstellen nachweisen. Zusammenfassend ist zu sehen, dass eine Minimierung der Dia- logdauer nicht automatisch eine Reduzierung der Ablenkung ermög- licht. Ein sinnvoller Einsatz von Modalitäten, welche nicht mit Res- sourcen für die Fahraufgabe konkurrieren, bringt erhebliche Vortei- le. Durch die Hilfestrategien können Anwender, welche nicht durch- gängig vertraut mit der Funktionalität des Sprachdialogsystems sind, dennoch zu ihrem Aufgabenziel gelangen, ohne vom Fahrgeschehen signifikant abgelenkt zu werden. In folgendem Abschnitt wird der iterativer Entwicklungsprozess der Hilfestrategien zusammengefasst und Anforderungen für ein SDS definiert, welches mehrere Anwen- dungen zur Verfügung stellen sowie Hilfestrategien implementieren soll.

3.4 zusammenfassung und anforderungen

Das vorliegende Kapitel stellte drei Nutzerstudien vor, welche den sprachlichen Wechsel zwischen verschiedenen Anwendungen eines iterativer Prozess ins Fahrzeug integrierten Infotainment-Systems analysierten. Im itera- tiven Prozess konnten somit einerseits Verhaltensweisen von Nutzern beobachtet und andererseits eine Hilfestrategie entwickelt werden, um Nutzer im Falle einer OOA-Anfrage oder mehrdeutigen Äuße- rungen zum Aufgabenziel zu führen. Eine Hilfestrategie reduziert die objektive und subjektive Fahrerablenkung signifikant, da unerwarte- te und unlogische Reaktionen des Sprachdialogsystems erhebliches Ablenkungspotential bergen. Die Ergebnisse zeigen, dass sich Nutzer nicht verschiedener An- wendungen bewusst sind und implizit zwischen diesen wechseln, so- lange ihr mentales Modell unbeeinflusst ist. Dies hat anaphorische Ausdrücke zur Folge, welche auch zwischen Anwendungen genutzt 3.4 zusammenfassung und anforderungen 113 werden. Ist ein impliziter Anwendungswechsel nicht möglich, führt dies einerseits zu Fahrerablenkung und andererseits zu schlechter Gebrauchstauglichkeit sowie fehlendem Aufgabenerfolg. Aus diesem Grund ist es für ein anwendungsübergreifendes SDS wichtig, Feh- ler zu erkennen und angemessen darauf zu reagieren. In erster Um- setzung einer Hilfestrategie zeigten sich, durch natürlichsprachliche Beispieläußerungen, lange Dialoge als lästig und ablenkend, führten Nutzer allerdings zum Aufgabenerfolg. Für OOA-Anfragen sind Bei- spiele jedoch nicht nötig, da eine korrekte Interpretation der Äuße- rung im richtigen Anwendungskontext möglich ist. Zur Auswahl der richtigen Anwendung zeigte eine anschließende Studie mit System- neulingen eine generische Hilfestrategie als nicht ausreichend. Hinge- gen bewerteten die Teilnehmer der Studie kontextsensitive und ziel- gerichtete Hilfestrategien als probates Mittel, eine Anwendung zu selektieren. Essentieller Punkt ist hierbei, die gesuchte Anwendung anzubieten, wobei die Implementierung in grafischer oder sprachli- cher Darstellung als Primäraufgabe keine großen Unterschiede be- wirkt. Anders hingegen bei Einsatz im Infotainment-System. Für die Fahraufgabe wird die visuelle Aufmerksamkeit benötigt, welche mit der Sekundäraufgabe des Infotainment-Systems konkurrieren kann. Eine Studie der Hilfestrategien im Fahrsimulator zeigt daher klare Ablenkungspotentiale bei lediglich visueller Darstellung der Listen- elemente. Ein Vorlesen dieser Elemente senkt die Fahrerablenkung erheblich. Eine bildliche Auswahl aus zwei Elementen und eine Lis- tenauswahl mit Text zeigt zwar leichte Vorteile der ersteren Strategie, allerdings sind beide Dialogstrategien sicher im Fahrzeug einzuset- zen und führen zum Aufgabenerfolg. Auf Basis der Ergebnisse der vorgestellten Studien und theoreti- schen Vorarbeiten (Reichel, Berton u. a., 2013) lassen sich Anforderun- Anforderungen gen an ein SDS mit mehreren Anwendungen im Infotainment-System ableiten:

A1: Eine konsistente sprachliche Interaktion über verschiedene An- wendungen hinweg muss möglich sein.

A2: Nutzer müssen Anwendungen implizit sowie explizit wechseln können.

A3: Zwischen beliebigen Anwendungen müssen Parameter überge- ben werden.

A4: Eine Hilfestrategie erfordert die Bestimmung der wahrschein- lichsten nächsten Anwendungen auf Basis der Nutzeräußerung und des Dialogkontextes.

Im folgenden Kapitel wird ein Konzept zur Umsetzung der genann- ten Anforderungen vorgestellt. Dieses basiert auf voneinander un- abhängig definierten Anwendungen in Taskmodellen und ihre Ver- bindung zur Laufzeit über eine lexikalisch-semantische Wissensbasis 114 studien zum anwendungswechsel und zu fehlerbehandlungen

zum Parameteraustausch und zur Vorhersage wahrscheinlicher An- wendungswechsel. KONZEPTMITTASKMODELLENUND 4 WISSENSBASEN

“human engineers know that it is easier to describe a job through tasks and goals rather than objects to manipulate”1 Tarby und Barthet (1996, S. 96)

Das vorherige Kapitel stellte Nutzerstudien vor, welche explorativ das Interaktionsschema für anwendungsübergreifende Sprachdialog- systeme entwickelten. Da nicht-erfolgreiche Anwendungswechsel im Infotainment-System eine Ablenkung des Fahrers bedeuten, wurden im iterativen Entwicklungszyklus Hilfestrategien entwickelt, um un- erfahrene Nutzer während eines Anwendungswechsels zum Aufga- benziel zu führen. Dies stellt hohe Anforderungen an ein SDS in Spra- cherkennung, Sprachverständnis und speziell hinsichtlich Dialogfüh- rung. Im Folgenden wird ein Konzept, welches die in Abschnitt 3.4 defi- nierten Anforderungen umsetzt, beschrieben und nachfolgend durch eine Proof-of-Concept-Implementierung hinsichtlich der Anforderun- gen validiert. Wertvolle Erkenntnisse zur Entwicklung des Konzepts lieferte die in diesem Zusammenhang betreute Masterarbeit von Pfar- herr (2013), welche in Reichel, Pfarherr u. a. (2014) diskutiert wird. Abschnitt 4.1 zeigt die Problemstellung auf, beschreibt das Prinzip des Konzeptes und gibt eine Einordnung in ein SDS. Anschließend erfolgt eine Abgrenzung zu bestehenden Arbeiten, sowie eine forma- le Definition mit Beispiel, jeweils zu Taskmodellen (siehe Abschnitt 4.2.1) und Wissensbasen (siehe Abschnitt 4.2.2), zwei essentiellen Be- standteilen des entwickelten Konzeptes. Abschnitt 4.2.3 definiert die Verbindung von Taskmodellen und der lexikalisch-semantischen Wis- sensbasis. Den Gesamtprozess, von Nutzereingabe über Erkennung, Interpretation im Kontext bis hin zur Taskausführung beschreibt Ab- schnitt 4.3. Abschließend erfolgt eine Zusammenfassung in Abschnitt 4.4, bevor in nachfolgendem Kapitel auf die Proof-of-Concept-Imple- mentierung eingegangen wird.

4.1 konzeptentwicklung

Die Entwicklung eines Konzeptes setzt es voraus, die Problemstel- lung, welche sich durch die in Abschnitt 3.4 definierten Anforderun-

1 Übersetzung des Autors: Menschliche Entwickler wissen, dass ein Job durch Aufga- ben und Ziele einfacher zu beschreiben ist, als durch zu manipulierende Objekte.

115 116 konzept mit taskmodellen und wissensbasen

gen ergibt, zu verstehen. Ausgehend von dieser wurde ein Konzept entwickelt und wird in Abschnitt 4.1.2 auf nicht-formeller Ebene be- schrieben sowie anhand eines Beispiels verdeutlicht (für eine formelle Beschreibung siehe Abschnitt 4.2). Anschließend erfolgt eine Einord- nung in die allgemeine Architektur eines Sprachdialogsystems.

4.1.1 Problemstellung

Die Anforderungen A1 bis A4 (siehe Abschnitt 3.4) sind in erster Li- nie auf Basis des Bedienerlebnisses für Nutzer definiert. Hierbei sind technische Aspekte technische Aspekte bisher außer Acht gelassen. Für einen konsisten- ten anwendungsübergreifenden Dialog ergeben sich jedoch komplexe Abhängigkeiten zwischen verschiedenen Anwendungen. Bei der Ent- wicklung einzelner Anwendungen können diese entweder fest pro- grammiert oder dynamisch zur Laufzeit ermittelt werden. Wie erwähnt existieren Produkte, welche anwendungsübergreifen- de Dialoge bieten. Als Beispiel führt Abschnitt 2.3 Infotainment-Syste- me und persönliche Assistenten auf. Hierbei sind Anwendungswech- fest programmierte sel in der Regel fest im System einprogrammiert, somit ist ein Wechsel Abhängigkeit nur zwischen definierten Anwendungen möglich. Um mögliche An- wendungswechsel zu identifizieren und zu programmieren, erfordert dies eine enge Kooperation zwischen verschiedenen Anwendungsent- wicklern. Ist dies für Software eines gemeinsamen Herstellers viel- leicht noch möglich, erhöht sich die Schwierigkeit bei nachträglich zu installierenden Anwendungen, wie zum Beispiel aus App-Stores, erheblich, da einzelne Entwicklerteams im Allgemeinen die Funktio- nalität einer anderen Anwendung nicht kennen. Zusätzlich erfordert die Weiterentwicklung einer Anwendung unter Umständen eine Ak- tualisierung bestehender abhängiger Anwendungen. Abhängigkeiten zur Im Gegensatz zu fest programmierten Lösungen ermöglicht dyna- Laufzeit auflösen misches Erzeugen der Anwendungsabhängigkeiten zur Laufzeit eine einfa- chere Erweiterbarkeit von Systemen, jedoch komplexere Bindungsme- chanismen. Hierbei bestehen hauptsächlich zwei Herausforderungen, einerseits einen logischen Programmablauf zwischen Anwendungen zu sichern und andererseits gleichbedeutende Parameter zu überge- ben. Googles Betriebssystem Android bietet über das Konzept „Im- plicit Intent Resolution“2 mittels abstrakter Beschreibung (Intent ge- nannt) von Aktionen, Kategorien und Daten eine Möglichkeit, einen Anwendungswechsel mit Parameterübergabe auszulösen. Dabei pro- pagiert eine Anwendung ein Intent, welches von anderen mit passen- den Schnittstellen konsumiert werden kann. Ist dies für Hardware- ereignisse und einfache Daten durchaus zufriedenstellend, erfordern anwendungsübergreifende Dialoge jedoch einen komplexen Dialog- kontext, bestehend aus mehreren Parametern. Im Bereich der Service-

2 http://developer.android.com/reference/android/content/Intent.html [Onli- ne 06.09.2015] 4.1 konzeptentwicklung 117

Orientierte Architektur (SOA) sind verschiedene Umsetzungen ent- standen, Services, inklusive ihrer komplexen Parameter, zu beschrei- ben (Microsoft, 2014). Jedoch sind diese Methodiken in erster Linie zur Verbindung von Business-Services und weniger fürUI-Entwick- lung gedacht. Eine Möglichkeit ist es, Services als Domänenexperten anzusehen, welche im SDS Nutzeraufgaben einer bestimmten Domä- ne erfüllen können. Komatani, Kanda u. a. (2006) präsentieren einen Ansatz, welcher potentielle Domänenwechsel auf Basis verschiedener Regeln, wie unter anderem Dialogkontext, vorherige Domäne oder übereinstimmende Parameter, bewertet und im Zweifelsfall die Do- mäne wechselt. Dies ist ähnlich zur vorliegenden Arbeit. Da jedoch ein jeweiliger Domänenexperte als eigenständiges SDS implementiert ist, kann keine konsistente sprachliche Interaktion sichergestellt wer- den. Bezüglich einzelner Themen dieser Arbeit existiert eine Vielzahl wissenschaftlicher Beiträge, auf welche an der jeweiligen Stelle Bezug genommen wird. Durch die zunehmende Anzahl an Anwendungen im SDS ist ei- ne feste Definition von Abhängigkeiten verschiedener Anwendungen nicht mehr praktikabel. Nutzer verlangen ihre Geräte, durch Instal- lation beliebiger Anwendungen aus App-Stores, zu personalisieren und erwarten eine konsistente Interaktion über die gesamteUI. So- mit ergibt sich für das Konzept der vorliegenden Arbeit als zusätzli- che technische Anforderung: technische Anforderung A5: Abhängigkeiten zwischen Anwendungen sollen sich dynamisch zur Laufzeit ergeben.

Hierfür ergeben sich zwei Herausforderungen: erstens den logi- schen Programmablauf von Anwendungen zu definieren und wäh- rend der Laufzeit Stellen für Anwendungswechsel zu identifizieren sowie zweitens die Bedeutung von Parametern zur Laufzeit zugäng- lich zu machen, um darauf aufbauend mögliche Übergaben zu er- möglichen. Der Programmablauf wird im Folgenden durch Taskmo- delle definiert, und die Parameter für Tasks werden durch eine ge- meinsame lexikalisch-semantische Wissensbasis beschrieben. Ziel die- ser Arbeit ist somit eine modellgetriebene Entwicklung von einzelnen modellgetriebene Anwendungen mittels Taskmodellen und ihre Verbindungen dynamisch Entwicklung: zur Laufzeit über eine gemeinsame Wissensbasis zu erstellen. Taskmodelle, Wissensbasis

4.1.2 Taskmodelle und Wissensbasen

Die Entwicklung von Software anhand diverser abstrakter Modelle ist gebräuchlich. Bereits vor der Implementierung können durch Mo- delle komplexe Sachverhalte eines Softwaresystems, wie zum Beispiel dessen Aufbau, Funktionsweise oder Zusammenhänge, verdeutlicht modellbasierte & werden. Hierbei lässt sich zwischen modellbasierter und modellgetrie- modellgetriebene bener Entwicklung unterscheiden (Poguntke, 2016). Kommen Model- Entwicklung 118 konzept mit taskmodellen und wissensbasen

le bei der Entwicklung als Kommunikationsgrundlage zur Verwen- dung, wird von einer modellbasierten Entwicklung gesprochen. Sind die Modelle allerdings Gegenstand einer automatischen Codegenerie- rung, beziehungsweise werden direkt ausgeführt, nennt man dies mo- dellgetriebene Entwicklung. Viele Arbeiten und Modellierungsvarian- ten existieren für unterschiedlichste Einsatzzwecke, für einen Über- blick sei daher auf Standardliteratur des Requirements Engineering verwiesen, wie zum Beispiel Partsch (2010). Im Bereich derUI-Ent- wicklung mittels Interaktionsmodellen ist ebenfalls eine breite wis- senschaftliche Grundlage gelegt, wie beispielsweise die Generierung derUI auf Basis von Unified Modeling Language (UML)-Modellen (Melo, 2010; Poguntke, 2016), von Petri-Netzen (Mahfoudhi u. a., 2005) oder anderen Formalismen (Paternò, 2000; Paternò u. a., 2009; Pau- lenz und Schlegel, 2013). Hierbei geht die Betrachtung von der visu- ell-haptischen Modalität aus. Meist ist die auditive Modalität ledig- lich darauf aufgesetzt oder wird aus der visuell-haptischen generiert, wie beispielsweise in Reichel (2012) und Reichel, Ehrlich und Weber (2012). Anders hingegen ist das Dialogmodell von Falb, Kaindl u. a. (2006), welches eine theoretische Modellierung auf Basis der Mensch- Mensch-Kommunikation formuliert. Jedoch erfolgt eine Generierung von Benutzerschnittstellen lediglich in Verhaltenslogik und GUI (Falb, Kavaldjian u. a., 2009). Sonderheiten einer VUI, wie zum Beispiel Par- allelität mehrerer Eingabeparameter, Natürlichsprachlichkeit oder rein nutzer-initiierte Eingaben finden in der Regel keine spezielle Betrach- tung. Im Bereich der modellgetriebenenUI-Entwicklung können Model- le auf verschiedenen Abstraktionsebenen formuliert werden. Ähnlich zum Interaktionszyklus nach Donald Norman (siehe Abschnitt 2.2.1) beschreiben Modelle unter anderem Ziele, Einzelaktionen, Aktions- sequenzen oder konkrete Benutzerschnittstellen zur Durchführung einer Aktion. Ein theoretisches Rahmenwerk zur Klassifikation von CAMELEON Interaktionsmodellen stellt das CAMELEON ReferenzFramework (CRF) ReferenzFramework dar (siehe Abbildung 4.1), welches unter anderem vier Abstraktions- (Calvary u. a., 2002) ebenen, von Tasks und Konzepten bis zur konkreten finalenUI , einführt. Der Klasse Tasks und Konzepte sind hierbei Modelle, welche die Auf- gaben der Nutzer und die Interaktionskonzepte unabhängig von ei- ner Modalität beschreiben, zugeordnet. Interaktionsmodelle der ab- straktenUI definieren, ebenso unabhängig von einer Modalität, gene- rische Interaktionselemente, mit welchen der Nutzer ein Gerät bedie- nen kann. Bezogen auf die Funktionalitäten des Gerätes können die- se Elemente an konkrete, modalitätsabhängige Interaktionselemente gebunden werden, jedoch unabhängig von einer Entwicklungsumge- bung. Erst Modelle der finalenUI legen eine Implementierungsart fest, welche kompiliert vorliegen oder zur Laufzeit eineUI erstellen. Die vorliegende Arbeit definiert Modelle hauptsächlich auf der abstrak- ten Ebene Tasks und Konzepte (im Folgenden Taskmodelle genannt), 4.1 konzeptentwicklung 119 da keine Interaktionselemente bei der Definition einer einzelnen An- wendung vorgegeben werden sollen. Durch identische Interpretation der Modelle wird eine konsistente Interaktion mit dem Gesamtsys- tem erreicht. Abstraktion

Tasks und Abstrakte Konkrete Finale Konzepte UI UI UI

Konkretisierung

Abbildung 4.1: Vier Abstraktionsebenen des CRF nach Calvary u. a. (2002).

Wie im Zitat anfangs des Kapitels von Tarby und Barthet (1996) zu erkennen, stellen Tasks und Ziele eine einfache Möglichkeit dar, einen komplexen Job auszudrücken. In der nutzerzentrierten Entwicklung von Benutzerschnittstellen sind daher Taskmodelle ein probates Mit- tel, um frühzeitig im Entwicklungsprozess die Interaktion mit einem System zu beschreiben (siehe z.B. Meixner und Görlich (2008) und Meixner und Seissler (2012)). Dies basiert auf den Eigenschaften des menschlichen Dialogs im Allgemeinen, welcher, ausgehend von Zie- len, Einzelaktionen plant und durchführt. Jedes Ziel oder jeder Task kann somit in einzelne Dialogsequenzen unterteilt werden, was Falb, Kaindl u. a. (2006) im theoretischen Diskursmodell zur Beschreibung eines Dialogablaufs nutzen. In der praktischen Anwendung setzen Ehrlich (1999) und Bohus und Rudnicky (2003) einfache Taskmodelle er- Taskmodelle im SDS folgreich im SDS ein, um Ziele und Aufgaben auf hierarchischer Ebene zu modellieren. Beide Modellierungsvarianten definieren allerdings den Interaktionsablauf nur implizit durch die Hierarchie beziehungs- weise Reihenfolge der Subtasks, oder über Vorbedingungen. Komple- xe temporale Abhängigkeiten der Aufgaben können somit nur einge- schränkt modelliert werden. Jedoch zeigt sich die Praktikabilität von Taskmodellen zur Dialogmodellierung, weshalb diese Arbeit einen sehr ähnlichen Ansatz, jedoch mit diversen temporalen Operatoren, einsetzt. Die Modellierung in Taskmodellen beschreibt somit die Art der Aufgabe, ihre hierarchische Untergliederung, ihre Zusammenhänge durch Operatoren und Vorbedingungen, jedoch nicht die Bedeutung hinsichtlich der eigentlichen Aufgabe (Falb, Kaindl u. a., 2006). Ein nächster logischer Schritt ist somit die Bedeutung der jeweiligen Auf- gabe mit ihren Ein- und Ausgabeparameter einheitlich zu definieren. Da sich Nutzeraufgaben von der Situation, somit von zustandsab- hängigen, realweltlichen Objekten, ableiten (siehe Interaktionszyklus nach Norman in Abschnitt 2.2.1), bieten hierfür lexikalisch-semanti- sche Wissensbasen eine geeignete Methodik. Diese Art der Wissensba- sen beinhalten maschinenverarbeitbare lexikalische Ressourcen und 120 konzept mit taskmodellen und wissensbasen

außersprachliches Weltwissen (Kunze und Lemnitzer, 2007). Somit lässt sich eine Verbindung zwischen lexikalischen Zeichen, ihrer Be- deutung und dem Kontext im Weltwissen herstellen. Frage-Antwort- SDS und Systeme (QAs, engl. Question-Answer systems), wie Sprachdialogsyste- Wissensbasen me zur Beantwortung von natürlichsprachlichen Fragen genannt wer- den, setzen seit längerem lexikalisch-semantische Wissensbasen zur Interpretation einzelner, bedeutungstragender, lexikalischer Zeichen ein. Auf Basis der Interpretation und des Weltwissens kann die Ant- wort durch Inferenz geschlossen werden (siehe zum Beispiel Berant u. a. (2013)). QAs sind in erster Linie zur Beantwortung einer Frage entwickelt, erfordern somit in der Regel keine komplexen Dialoge oder mehrere Dialogschritte. Einen Überblick über bestehende An- sätze zur Integration von Wissensbasen in Sprachdialogsysteme lie- fern Milward und Beveridge (2003) und Araki und Funakura (2010). Neßelrath und Porta (2011) nutzen semantische Modelle zur Reprä- sentation von Dialoginhalt, anaphorischen Referenzen und Nutzerab- sichten im SDS mit mehreren Domänen. Ihr modellgetriebener An- satz eignet sich zur raschen Entwicklung neuer Domänen im Dialog- system, beinhaltet allerdings keine Dialogmodelle. An diesem Punkt setzt vorliegende Arbeit an, indem ein Konzept entwickelt wird, wel- ches lexikalisch-semantische Wissensbasen zur Beschreibung des Dia- loginhalts mit Taskmodellen zur Ablaufdefinition kombiniert, um an-

wendungsübergreifende Dialoge mit Hilfestrategie zu ermöglichen. Taskmodelle

schwäbische Biergarten Region Küche zur Donau Ulm Küche

Wissensbasis Restaurant Stadt

Abbildung 4.2: Vereinfachtes Beispiel zur Verbindung von Taskmodellen und Wissensbasen.

Konzeptidee anhand Ein vereinfachtes Beispiel verdeutlicht die prinzipielle Grundidee des eines Beispiels Konzeptes, bevor in Abschnitt 4.2 eine formale Definition der einzel- nen Bestandteile gegeben wird. Abbildung 4.2 zeigt Taskmodelle zwei- er Anwendungen sowie einen Ausschnitt der Wissensbasis. Mittels Restaurantanwendung kann ein Nutzer unter Eingabe einer bestimm- 4.1 konzeptentwicklung 121 ten Küche Restaurants in seiner Umgebung abrufen. Nach Eingabe durch den Nutzer wird ein Webservice angefragt, und entsprechende Ergebnisse werden präsentiert. Die Wetteranwendung beinhaltet ei- ne ähnliche Kombination aus Nutzereingabe und Webservice, indem Nutzer eine Region eingeben und zu dieser das aktuelle Wetter erfah- ren. Wie im Beispiel zu sehen, kann jeder Task (Küche, Webservice und Region) verschiedene Konzepte der Wissensbasis referenzieren und somit Ein- und Ausgabeparameter festlegen. Der Nutzertask Kü- che referenziert das Konzept Küche der Wissensbasis und beschreibt somit die Bedeutung des Inhalt dieses Dialogschrittes. Dies erfordert die Eingabe einer Instanz des Konzeptes, wie beispielsweise schwä- bische, italienische oder chinesische Küche, durch den Nutzer. Das Ergebnis des Webservices beinhaltet ein Tupel aus Restaurant sowie seinem Ort. Da die Stadt in einer Region liegt, für die die Anwendung Wetter eine Anfrage entgegennimmt, kann ein Dialog über beide An- wendungen erfolgen, ohne direkte Verknüpfung der Taskmodelle. So- mit lässt sich zum Beispiel nach einer Restaurantsuche mit der Äuße- rung „Wie ist das Wetter beim Restaurant“ beantworten. Auf Basis der Temporaloperatoren zwischen Tasks (z.B. sequenzielle Folge von Küche und Webservice), und Verknüpfungen zwischen Anwendun- gen über die Wissensbasis, lassen sich die nächsten möglichen Dia- logschritte und Anwendungen für eine Hilfestrategie vorhersagen.

4.1.3 Einordnung in ein Dialogsystem: Dialog- und Taskmanager

Wie in Abschnitt 2.3.1 beschrieben plant der Dialogmanager, auf Basis von Nutzereingaben und Ergebnissen aus Anwendungsanfragen, den Dialogablauf zwischen SDS und Nutzer. Der Dialogmanager kann in zustands-, formular- oder agentenbasiert klassifiziert werden (Mc- Klassifikation Tear, 2002; Jokinen und McTear, 2010). In einem zustandsbasierten Dialogmanager Dialogmanager erfolgt eine Definition von allen möglichen Dialog- sequenzen durch Zustände und Übergangsbedingungen. Ein formu- larbasierter Dialogmanager stellt Fragen an Nutzer, um Eingabepa- rameter für ein Formular auszufüllen. Beide Varianten erfordern ei- ne feste Definition der Zustände beziehungsweise Formulare, was eine dynamische Erstellung der Abhängigkeiten verschiedener An- wendungen zur Laufzeit erschwert (Widerspruch zu Anforderung A5). Agentenbasierte Dialogmanager ermöglichen hingegen komple- xere, gemischt geführte Dialoge, welche abhängig vom Kontext dyna- misch die nächsten Dialogschritte bestimmen. Hierbei ist jeder Dia- logpartner als Agent zu sehen, welcher über Aktionen und Meinun- gen schlussfolgert. Über die Jahre hinweg sind eine Vielzahl an ver- schiedenen Varianten von Dialogmanagern entstanden, wie zum Bei- Dialogmanager- spiel regelbasierte Verfahren (Traum und Larsson, 2003), beispielba- varianten sierte Umsetzungen (C. Lee u. a., 2009), statistisch überwachte Lern- verfahren (Griol u. a., 2014) und reward-basierte Ansätze (Williams 122 konzept mit taskmodellen und wissensbasen

und S. Young, 2007; S. Young u. a., 2013). Statistische Verfahren benö- tigen jedoch eine hohe Anzahl an Trainingsdaten pro Domäne, was für Sprachdialogsysteme mit vielen Anwendungen einen beträchtli- chen Aufwand bedeutet. Aus diesem Grund verzichtet vorliegende Arbeit auf statistische Verfahren und wählt den Ansatz spezifizierter Dialoge in Taskmodellen. Werden die Anwendungen eines Sprachdialogsystems einzeln de- finiert, erschwert dies einerseits eine konsistente Interaktion (siehe Anforderung A1), und andererseits erhöht sich der Entwicklungsauf- wand, da generische Dialogeigenschaften, wie zum Beispiel Fehler- behandlung oder Verifikation, für jeden Agenten modelliert werden generischer domäne- müssen. Aus diesem Grund schlägt McTear (2002, S. 144) einen gene- nunabhängiger rischen domänenunabhängigen Dialogmanager vor: „A more satisfactory Dialogmanager solution is to develop a generic domain-independent dialogue mana- gement component that can be easily adapted to new tasks.“3. Diver- se Umsetzungen folgen diesem Ansatz, wie zum Beispiel Allen u. a. (2000) und Bohus und Rudnicky (2003). Dieses Argument stärken Neßelrath und Porta (2011) durch eine Analyse der Aufwände und damit verbundenen Entwicklungskosten für eine Anpassung von ei- nem SDS an neue Anwendungen. Hierbei zeigt sich das generische Dialogmanagement und die Aktionsausführung moderat, wobei die Verbindung zu Anwendungen sowie die Abbildung der jeweiligen Se- mantik sehr hohe Anpassungen nach sich ziehen. Aus diesem Grund trennt vorliegende Arbeit zwischen generischem Dialogmanager und domänenspezifischem Aufgabenmodell der Anwendungsanbindung (siehe auch Abbildung 2.3). Zur Abgrenzung der generischen Dialoganteile [DM] und domä- nenspezifischen Elemente [TM] erfolgt eine Analyse der Aufgaben eines Dialogmanagers, aufbauend auf der allgemeinen Aufgabendefi- nition eines Dialogmanagers nach Griol u. a. (2014):

1. Nutzereingabe im Kontext interpretieren. [DM+TM]

2. Anaphern auf vorhergehende Äußerungen auflösen. [DM]

3. Entscheidung über die nächste Aktion treffen. [TM]

4. Relevanz der Nutzeräußerung einschätzen. [TM]

5. Vollständigkeit der Nutzeräußerung einschätzen. [TM]

6. Fehlererkennung und -behandlung durchführen. [DM+TM]

7. Informationsanfragen an Anwendungen koordinieren. [TM]

8. Systemäußerungen bestimmen. [DM]

3 Übersetzung des Autors: Eine zufriedenstellendere Lösung ist einen generischen do- mänenunabhängigen Dialogmanager zu entwickeln, welcher einfach an neue Tasks angepasst werden kann. 4.2 formale definitionen des konzepts 123

Im Folgenden werden die generischen Dialogaufgaben dem Dialog- manager [DM] zugeordnet, und für domänenspezifische Aufgaben wird der Begriff Taskmanager [TM] eingeführt, welcher das Anwen- Taskmanager dungsmodell enthält. Aufgabe 1 ist hinsichtlich des Dialogkontextes klar dem Dialogmanager zuzuteilen, wogegen der Kontext des An- wendungszustandes beim Taskmanager liegt. Die Aufgaben 2 und 8 sind eindeutig generischer Natur, da hierbei lediglich vorherige Äuße- rungen betrachtet und Systemäußerungen an den allgemeinen konsis- tenten Dialogstil des Sprachdialogsystems angepasst werden müssen. Hinsichtlich Fehlererkennung und -behandlung lässt sich keine klare Grenze ziehen, da hierbei ein Zusammenspiel aus Genauigkeit der ASR und des SLU für eine Verifikation eingesetzt, oder aber, basie- rend auf dem Anwendungskontext, domänenspezifische Hilfestrate- gien angeboten werden. Die restlichen Aufgaben sind eindeutig dem Taskmanager zuzuschreiben, da diese abhängig vom Anwendungs- modell sind. Diese Arbeit legt den Fokus auf anwendungsübergrei- fende Dialoge, weshalb im Folgenden in erster Linie auf die domä- nenspezifischen Aufgaben des Taskmanagers eingegangen wird, und generische Dialogstrategien als gegeben angesehen werden.

4.2 formale definitionen des konzepts

Der folgende Abschnitt definiert die Kernbestandteile des entwickel- ten Konzepts: Taskmodelle, lexikalisch-semantische Wissensbasis und deren Verbindung. Zu Beginn eines jeden Abschnitts erfolgt eine kur- ze Einordnung in bestehende Arbeiten, gefolgt von der formalen De- finition und abschließendem Minimalbeispiel.

4.2.1 Taskmodelle

Taskmodelle bieten die Möglichkeit zur Modellierung von Nutzer- aufgaben auf abstraktem und verständlichem Niveau. Ähnlich zur menschlichen Kommunikation erfolgt eine Untergliederung der Ziele von Nutzern (engl. Goal) in eine Abfolge von Einzelaufgaben (Tasks), welche in temporaler und konditionaler Beziehung zueinander ste- hen. Führt ein Nutzer die Aktionen der Tasks aus, ist es ihm möglich sein Interaktionsziel zu erreichen. Zur Definition von Taskmodellen existieren verschiedene Formalismen, wobei im Folgenden lediglich auf eine Auswahl eingegangen werden kann. Eine umfassende Über- sicht ist der W3C MBUI Working Group (2014), Limbourg und Van- derdonckt (2003) und Paternò (2000) zu entnehmen. Bestehende Formalismen zur Modellierung von Taskmodellen kön- nen unter anderem hinsichtlich ihres Zweckes klassifiziert werden. Einerseits sind Taskmodelle zur Dokumentation von Arbeitsabläufen beziehungsweise zur Evaluation bestehender Benutzerschnittstellen im Einsatz oder andererseits zur Entwicklung neuer Benutzerschnitt- 124 konzept mit taskmodellen und wissensbasen

stellen (Paternò, 2000), wobei diese Arbeit lediglich die Entwicklung betrachtet. Diese Kategorie lässt sich jedoch weiter unterteilen in For- malismen, welche hauptsächlich zur Diskussion und Kommunikati- on zwischen Menschen oder zur Interpretation mittels Maschinen eingesetzt werden. Zur Verdeutlichung komplexer Sachverhalte sind Taskmodell als Taskmodelle beliebte Methodiken als Kommunikationsgrundlage. Hierbei Kommunikations- steht die Verständlichkeit im Fokus und weniger die formal korrek- grundlage te Beschreibung oder maschinelle Verarbeitung. Als Beispiele dieser Kategorie sind zu nennen: GOMS (Card u. a., 1983), TKS (P. John- son u. a., 1988), UAN (Hartson u. a., 1990) und GTA (Veer u. a., 2002). In einem modellbasierten Entwicklungsprozess können diese Model- le als Vorgabe zur Implementierung dienen. Nach der Implementie- rung ist die Semantik und Logik allerdings in Quellcode gebunden und die Bedeutung zur Laufzeit somit nicht zugänglich (Klug und Kangasharju, 2005; Yuan und Liu, 2012). Um diese Einschränkungen zu umgehen, existieren Modelle, welche durch Maschinen interpre- Generierung & tiert werden können und auf Basis derer eine Codegenerierung oder Interpretation zur Interpretation zur Laufzeit erfolgt. Als Beispiele sind hierbei zu nen- Laufzeit nen: DIANE+ (Tarby und Barthet, 1996), ConcurTaskTree (CTT) (Pa- ternò, 2000), TADEUS (Stary, 2000), TOOD (Mahfoudhi u. a., 2005), AMBOSS (Giese u. a., 2008) und useML (Meixner, Seissler und Brei- ner, 2011). Diese modellgetriebenen Varianten vereinfachen zwar die Spezifikation von Anwendungen, stellen jedoch hohe Anforderungen an das Interpretationsmodul. Vorliegende Arbeit sieht daher von ei- ner eigenen Entwicklung eines solchen Formalismus ab und nutzt ConcurTaskTrees CTTs nach Paternò (2000) als etablierte Methodik zur Spezifikation und maschineller Interpretation. Durch das Programm CTT-Environ- ment4 besteht gute Softwareunterstützung zur Erstellung und Simu- lation von CTTs. Eine Ausführung von CTTs während der Laufzeit zur dynamischen Erstellung von GUIs zeigen Klug und Kangashar- ju (2005), wobei der praktische Einsatz in einem SDS nicht betrach- tet wird. Die W3C MBUI Working Group (2014) setzt auf den Ar- beiten von Paternò (2000) auf und definiert minimale Änderungen zum ursprünglichen CTT-Formalismus. Für diese Arbeit ist der Un- terschied nicht von Relevanz, wobei auf die aktuelleren Arbeiten der W3C MBUI Working Group (2014) Bezug genommen wird. Definition Die W3C MBUI Working Group (2014) definiert Taskmodelle als ziel- Taskmodell gerichtete Beschreibung von interaktiven Systemen, welche jeweils ein bestimmtes Interaktionsziel, das in Tasks mit verschiedenen tem- poralen Abhängigkeiten und Vorbedingungen unterteilt ist, beinhal- ten. Jeder Task beschreibt hierbei eine Aktivität, die ausgeführt wer- den muss, um das Interaktionsziel zu erreichen. Eine Ausführung dieser Tasks kann entweder vom Nutzer (Interaktionstask) oder vom System (Systemtask) erfolgen. Tasks sind auf verschiedenem abstrak- tem Niveau zu sehen und können somit in weitere Tasks (Subtask)

4 http://giove.cnuce.cnr.it/ctte.html [Online 18.09.2015] 4.2 formale definitionen des konzepts 125 hierarchisch unterteilt werden (abstrakter Task). Zusätzlich sieht die W3C MBUI Working Group (2014) Nutzertasks vor, welche eine ko- gnitive Aufgabe des Nutzers unabhängig vom System modellieren. Da im Folgenden jedoch eine Modellierung der HMI im Fokus steht, wird diese Art der Tasks nicht näher betrachtet. Abbildung 4.3 zeigt eine Definition des Taskmodells als UML-Klassendiagramm.

Vorbedingung/ <> Nachbereitung Unärer Operator <> optional 0..* 0..2 <> wiederholen

<> 1 1 N-ärer Operator Domänen- 0..1 Task <> Auswahl objekt 0..* 0..* SubTask <> unabhängig 0, 2..* <> verschachtelt <> parallel <> Synchronisierung <> deaktivieren Interaktions- Abstrakter Systemtask <> aufheben_aufnehmen task Task <> aktivieren

Abbildung 4.3: Definition Taskmodell als UML-Klassendiagramm nach W3C MBUI Working Group (2014).

Zwischen Tasks lassen sich temporale Abhängigkeiten sowie Vorbe- dingungen definieren. Temporale Abhängigkeiten bestimmen die Aus- temporale führungsreihenfolge von Tasks und sind über Operatoren definiert. Abhängigkeiten Tabelle 4.1 zeigt die unterstützen Operatoren inklusive ihrer Beschrei- bung, geordnet von hoher nach niedriger Priorität. Neben N-ären Operatoren können unäre eine Wiederholung einzelner Tasks oder optionale Tasks definieren. Jeder Task kann beliebige Vorbedingungen Vorbedingung und und Nachbereitungen erfordern. Im Folgenden wird auf diese nicht Nachbereitung näher eingegangen, da sich kein Unterschied zu etablierten Umset- zungen von W3C MBUI Working Group (2014) oder Paternò (2000) ergeben. Einen wichtigen Teil für die vorliegende Arbeit stellen Domä- Domänenobjekt nenobjekte dar, welche Objekte, aus zum Beispiel Datenbanken, defi- nieren, auf die der jeweilige Task zugreift beziehungsweise diese ver- ändert. Im entwickelten Konzept dienen die Domänenobjekte zur Ver- bindung der Taskmodelle mit der Wissensbasis (siehe Abschnitt 4.2.3). Abbildung 4.4 zeigt das Taskmodell einer vereinfachten Wetteran- Beispiel wendung in CTT-Notation. Die Anwendung ermöglicht es Nutzern, Wetteranwendung Wettervorhersagen für einen bestimmten Ort und Wochentag zu erfra- gen. Dieses Interaktionsziel ist in drei Tasks (Ort, Wochentag, Webser- vice) unterteilt, wobei der abstrakte Task Ort weiter in Region und POI unterschieden wird. Letztere sind über den Auswahl-Operator verbunden und erfordern somit die Eingabe einer Region oder eines POI durch den Nutzer, um den Task Ort auszuführen. Da eine ver- schachtelte Verbindung zwischen Ort und Wochentag besteht, werden keine Anforderungen an die Reihenfolge der Dateneingabe für diese Tasks gestellt. Wochentag ist hierbei als optionaler Task definiert und 126 konzept mit taskmodellen und wissensbasen

Operator Name Beschreibung

T1[]T2[].. Auswahl Ausführung von T1 oder T2

T1| = |T2| = |.. unabhängig Ausführung der Tasks in be- liebiger Reihenfolge

T1|||T2|||.. verschachtelt Sequentielle, Parallele oder beliebige Ausführung

T1||T2||.. parallel Parallele Ausführung von T1 und T2

T1|[]|T2|[]|.. Synchronisierung Gleichzeitige Ausführung mit Datenaustausch

T1[> T2[> .. deaktivieren T2 unterbricht T1

T1| > T2| > .. aufheben aufnehmen T2 unterbricht T1, wobei T1 nach Beenden von T2 fortge- setzt wird

T1  T2  .. aktivieren Ausführung von T2 nach T1 [T] optional T ist nicht erforderlich T ∗ Wiederholung Ausführung von T 1 bis n mal

Tabelle 4.1: Operatoren zur Definition temporaler Abhängigkeiten von Tasks (T).

wird somit von der Anwendungslogik nicht benötigt. Der Aktivie- rungsoperator zwischen Wochentag und Webservice zeigt die Notwen- digkeit Ort und optional Wochentag auszuführen, bevor das System eine Anfrage an die Anwendungslogik stellen kann.

Abbildung 4.4: Taskmodell einer vereinfachten Wetteranwendung in CTT- Notation. Erstellt mit CTT-Environment (Version: 2.6.11, Freeware)

4.2.2 Lexikalisch-semantische Wissensbasis

Wie in vorherigem Abschnitt gezeigt, definieren Taskmodelle die Struk- tur eines Interaktionsziels durch Hierarchisierung von Tasks sowie ih- re temporalen Abhängigkeiten und Vorbedingungen. Jedoch sind die 4.2 formale definitionen des konzepts 127

Beschreibungen der Tasks informell gehalten (Giese u. a., 2008). Wäh- rend Menschen die Bedeutung von Tasks aus den Beschreibungen ab- leiten können, ist für Maschinen diese Art der Wissensrepräsentation ungeeignet. Somit ist der nächste logische Schritt nicht nur den struk- turellen Aufbau eines Interaktionsziels zu beschreiben, sondern die Bedeutung der Tasks maschinenverständlich zu definieren. Eine Analo- Bedeutung von gie zu vorliegendem Problem lässt sich im Bereich der Webtechnolo- Tasks gie finden, wobei die Struktur des Webs mittels diverser Formalismen definiert wird (z.B. HTML), jedoch der Inhalt der jeweiligen Doku- mente in erster Linie nur für Menschen verständlich ist. Berners-Lee u. a. (2001) zeigen in ihrem Artikel über das SemanticWeb die Vortei- le auf, den Inhalt der Dokumente auch maschinenverständlich zu for- malisieren. Sie beschreiben hierfür eine Ontologie, welche einerseits Objekte sowie deren Beziehungen zueinander und andererseits Inter- ferenzregeln enthält. Eine Ontologie, als Spezialfall einer Wissensbasis Ontologie (Köhler, 2010), ist eine formale Konzeptualisierung eines abstrakten, vereinfachten Abbilds der realen Welt (Gruber, 1993). Eine Wissensbasis soll im Folgenden eine Verbindung zwischen le- xikalischen Zeichen, ihrer Bedeutung und außersprachlichem Welt- wissen herstellen. Als mögliche Organisationsformen solcher Wissens- basen können Wortnetze und Ontologien bedeutungsverwandte Wör- ter und Objekte miteinander verknüpfen (für eine detailliertere Be- trachtung sei auf Kunze und Lemnitzer (2007) verwiesen). Nardi und Brachman (2003) unterscheiden Wissen als generisches und spezifi- sches Wissen. Generisches Wissen beinhaltet hierbei abstrakte Objek- te, welche im Folgenden als Konzepte bezeichnet werden. Diese Kon- Konzepte zepte können spezifische Objekte als Ausprägung haben, im Folgen- den Instanzen genannt. Ein wichtiges Prinzip der Wissensbasis stellt Instanzen die Objektidentität dar, welches besagt, dass jedes Objekt (Konzept oder Instanz) nur einmal vorkommt und somit alle Informationen darüber an einer bestimmten Stelle zusammenkommen (Reichenber- ger, 2010). Über eine einfache Ordner- oder Baumstruktur lässt sich diese Identität nicht sicherstellen, da Objekte in diversen Ordnungs- dimensionen vorkommen können. Um eine Identität der Objekte zu erreichen, erlauben Wortnetze und Ontologien in der Regel beliebige Relationen zwischen Objekten untereinander. Viele Formalismen, wie Relationen zum Beispiel das Resource Description Framework (RDF), setzten auf Tripels der Form (Objekt, Prädikat, Objekt) (Passin, 2004). Hiermit las- sen sich beliebige Fakten wie (Hamlet, geschriebenVon, Shakespeare) ausdrücken. Wie erwähnt, ist der Einsatz von Wissensbasen in Sprachdialogsys- temen durch diverse Projekte bereits etabliert. Gurevych u. a. (2006) zeigten im Projekt SmartKom die Einsetzbarkeit einer einzelnen On- tologie im multimodalen Dialogsystem mit mehreren Anwendungen und Geräten. Eine einzelne einheitliche Wissensbasis zum übergrei- fenden Verständnis vermeidet dabei komplexe Abbildungsmechanis- 128 konzept mit taskmodellen und wissensbasen

men von Objekten verschiedener Wissensbasen und erleichtert eine konsistente Interaktion (Behnke u. a., 2015). Um dies zu ermöglichen, muss die Wissensbasis allgemeingültig und umfassend sein. Diver- se Projekte analysieren und klassifizieren Wissen zur Erstellung ei- ner allgemeinen Wissensbasis, wie zum Beispiel Freebase (Bollacker u. a., 2008), DBpedia (Bizer u. a., 2009), Cyc5 oder das Wortnetz Prin- ceton WordNet (Fellbaum, 1998; Miller, 1995). Während allgemeine Wissensbasen Konzepte und Instanzen unabhängig sprachlicher Ge- lexikalisch- gebenheiten modellieren, betrachtet WordNet zusätzlich Relationen semantische auf lexikalisch-semantischer Ebene. Für ein SDS bietet dies den Vorteil, Relationen auf Hyperonym (Oberbegriff) und Hyponym (Unterbegriff) reagie- ren zu können (Milward und Beveridge, 2003). Deshalb erfolgt eine formale Definition der lexikalisch-semantischen Wissensbasis dieser Arbeit auf Basis von WordNet. Eine Zusammenführung von WordNet mit allgemeinen Ansätzen für außersprachliches Wissen ist durchaus möglich, wie zum Beispiel Suchanek u. a. (2007) mit YAGO zeigen, einer Verbindung von WordNet mit Wikipedia. Zur Definition der Wissensbasis und Operationen auf deren Ob- Beschreibungslogik jekten, nutzt diese Arbeit Beschreibungslogiken als Sprache zur Wis- sensrepräsentation (Nardi und Brachman, 2003). Beschreibungslogi- ken bestehen in der Regel aus drei Teilen: terminologischer Formalis- mus (TBox), assertionaler Formalismus (ABox) und binären Prädika- tensymbolen (Relationen). Die TBox (T) beschreibt hierbei die allge- meingültigen Konzepte der Wissensbasis und die ABox (A) beinhaltet die konkreten Instanzen der Wissensbasis. Über binäre Relationen (R) werden Beziehungen zwischen zwei Instanzen, zwischen Instanz und Konzept oder zwischen zwei Konzepten definiert. Die Bildung von Ausdrücken erfolgt über bestimmte Symbole, welche verschiedene Konstruktoren nutzen. Zum Beispiel wird die Schnittmenge (engl. intersection) aus C und D als C u D gekennzeichnet, wobei dies in Prädikatenlogik erster Stufe identisch zu C(x) ∧ D(x), unter den An- nahmen x seien Individuen der Wissensbasis und C(x) = true gelte für alle zu C gehörigen Individuen (D(x) analog). Eine Vereinigung (engl. union) aller Individuen aus C und D wird gekennzeichnet

durch C t D. Eine Schnittmenge über n Konzepte C0 u .. u Cn kann nF durch die Schreibweise i=0 Ci ausgedrückt werden (Vereinigung Fn analog durch i=0 Ci). Einen essentiellen Punkt stellt die Definition von Relationen dar, welche der Form R.C entsprechen und Objekte beschreiben, die in Relation R zum Konzept C stehen. Wie erwähnt, wird im Folgenden als lexikalisch-semantische Wis- Princeton WordNet sensbasis Princeton WordNet6 eingesetzt, da eine rein theoretische For- malisierung und Entwicklung einer eigenen Wissensbasis im Umfang der vorliegenden Arbeit nicht möglich ist. Hierdurch entstehende Vor- und Nachteile werden an entsprechender Stelle diskutiert. WordNet

5 http://www.cyc.com/ [Online 04.10.2015] 6 https://wordnet.princeton.edu/ [Online 29.12.2015] 4.2 formale definitionen des konzepts 129 ist in englischer Sprache definiert, wobei entsprechende Netze für bei- spielsweise Deutsch mit GermaNet (Hamp und Feldweg, 1997) oder mehrsprachig im EU-Projekt EuroWordNet (Vossen, 1998) entwickelt wurden. WordNet ist unterteilt in die Wortarten Nomen, Verb, Adjek- tiv und Adverb, welche zu kognitiven Synonymen (Synsets genannt) gruppiert werden. Jedes Synset entspricht einer Bedeutung, somit ei- nem Konzept oder einer Instanz. Zwischen Synsets sind einerseits le- xikalische und andererseits semantische Relationen definiert. Im Fol- genden werden die für diese Arbeit relevanten lexikalisch-semantischen lexikalisch- Relationen mittels Beschreibungslogiken formal definiert: semantische Relationen Instanz: Wie erwähnt, kann eine Wissensbasis aus spezifischen In- stanzen und generischen Konzepten bestehen. Hierbei ist ent- scheidend, dass für jede Instanz ein entsprechendes Konzept referenziert wird: . Instance = I u instanceOf.C mit I ∈ A und C ∈ T

Hyperonym (Oberbegriff): Wie von Milward und Beveridge (2003) beschrieben, können Nutzer auf eine Systemäußerung Antwor- ten liefern, welche nicht exakt im Bereich der Erwartungswerte liegen. Sind dies Ober- oder Unterbegriffe, muss das SDS dar- auf reagieren. Um dies bei Interpretation einer Nutzeräußerung zu gewährleisten, kann die Hyperonym-Relation zwischen Kon- zepten genutzt werden: . Hypernym = C u hypernym.D mit C, D ∈ T

Hyponym (Unterbegriff): Im linguistischen Sinne liegt zwischen Hyperonym und Hyponym eine bijektive Abbildung vor, wo- durch zu jeder Hyperonym- auch eine Hyponym-Beziehung de- finiert wird: . Hyponym = C u hyponym.C u hyernym.D mit C, D ∈ T

Benennung: Jedes Synset kann durch verschiedene Synonyme be- nannt sein. Diese können entweder ein einzelnes Wort sein oder aus verschiedenen zu einer Phrase zusammengesetzt sein. Da Konzepte und Instanzen in der vorliegenden Arbeit mittels Spra- che angesprochen werden, wird die Benennung über eine Spo- ken-Relation ausgedrückt (dies ist vom Prinzip ähnlich der „writ- tenRepresentation“ des Lemon-Modells nach McCrae u. a. (2010)).

hname, Oi ∈ spoken.O mit O ∈ T oder O ∈ A

Wortartenübergreifende Relation: Im Prinzip besteht WordNet aus einem einzelnen Wortnetz je Wortart. Über die „morphoseman- tic“-Relation sind jedoch Beziehungen zwischen Synsets unter- schiedlicher Wortarten mit ähnlicher Bedeutung definiert. Dies 130 konzept mit taskmodellen und wissensbasen

ermöglicht im SDS zum Beispiel eine korrekte Auflösung der Äußerungen „Navigation nach Berlin“ und „Nach Berlin navi- gieren“, welche somit identisch behandelt werden können, ob- wohl unterschiedliche Wortarten für die Aktion verwendet wur- den. . Morphosemantic = C u relateTo.D mit C, D ∈ T

Beispiel lexikalisch- Abbildung 4.5 zeigt das Beispiel einer vereinfachten lexikalisch-semanti- semantischer schen Wissensbasis zur Verdeutlichung oben genannter Relationen (un- Wissensbasis abhängig von WordNet). Die Instanz New York hat zwei Synonyme (New York und Big Apple), welche durch die spoken-Relation modelliert sind. New York ist hierbei Instanz des Konzeptes Stadt, welches wie- derum ein Hyponym einer Region ist. Objekt bildet ein Hyperonym für alle Konzepte der Wissensbasis. Da Namen von Konzepten und Instanzen nicht eindeutig sind, können verschiedene spoken-Relatio- nen bestehen (siehe „Berlin“ als Namen einer Stadtinstanz und Per- soneninstanz).

hyponym Objekt hyponym hypernym

Person Region

hypernym hyponym instanceOf Stadt instanceOf Irving Berlin Berlin New York spoken spoken „Berlin“ „New York“ „Big Apple“

Abbildung 4.5: Vereinfachter Ausschnitt an Nomina der lexikalisch-seman- tischen Wissensbasis. Spoken-Relationen für Konzepte sind nicht dargestellt.

4.2.3 Bindung von Objekten der Wissensbasis an Taskmodelle

Die beiden vorherigen Abschnitte definieren einerseits Taskmodelle zur Beschreibung des Interaktionsschemas und andererseits eine le- xikalisch-semantische Wissensbasis zur Repräsentation von Konzep- ten, Instanzen und ihren Beziehungen. Im Folgenden wird die Verbin- dung beider Formalismen beschrieben, um die Bedeutung von Tasks und ihren Parametern über Objekte der Wissensbasis zu definieren. Ein SDS kann somit, auf Basis der spezifizierten Modelle die Bedeu- tung erfassen und dementsprechend Nutzeräußerungen interpretie- ren. Die Beschreibung von Diensten (engl. Services) im Bereich der SOA befasst sich mit einer ähnlichen Problemstellung, da Taskmodelle, 4.2 formale definitionen des konzepts 131

aus technischer Sicht, als Prozessmodelle aufgefasst werden können. Komplexe Prozessmodelle, wie zum Beispiel über die „Business Pro- Prozessmodelle cess Prozessmodelle Execution Language (BPEL)“ (OASIS WSBPEL Technical Committee, 2007) definierbar, setzen sich zusammen aus ei- ner Vielzahl an verschiedenen Diensten, welche analog zu Tasks im Taskmodell gesehen werden können. Neben einer technischen Doku- mentation der API ist es wichtig, die Aufgabe des Dienstes sowie not- Beschreibung wendige Parameter zu beschreiben, um passende Dienste zu nutzen Dienste und zu kombinieren. Hierfür existieren Formalismen, wie zum Bei- spiel „Universal Description Discovery & Integration (UDDI)“ (UDDI Spec Technical Committee, 2002), die „Web Service Definition Lan- guage (WSDL)“ (Christensen u. a., 2001) oder die „Ontology Web Language for Services (OWL-S)“ (Martin u. a., 2004). Während die Bedeutung eines Dienstes bei UDDI und WSDL hauptsächlich auf informellen Beschreibungen basiert, nutzt OWL-S Techniken des Se- manticWeb. Dies ermöglicht ein automatisiertes Auffinden, Aufrufen und Kombinieren von Diensten. Hierfür werden die Servicekatego- rie sowie Aufruf- und Rückgabeparameter des Dienstes mit Konzep- ten einer Wissensbasis verknüpft. Mögliche Parameter sind jeweils Instanzen des definierten Konzeptes. Unter Beachtung der jeweiligen Ein- und Ausgabeparameter lassen sich somit komplexe Prozessmo- delle automatisch generieren, wie zum Beispiel von Zhang u. a. (2003) gezeigt. Die semantische Beschreibung von Diensten ist somit wohl untersucht und in entsprechenden Standards formuliert. Jedoch ist die Interaktion zwischen Nutzer und Dienst, worauf vorliegende Ar- beit den Fokus legt, sehr eingeschränkt: „current [Service-Oriented Computing] tools produce applications that interact with users in a limited way.“7 (Kritikos u. a., 2014, S. 25.1). Paternò u. a. (2011) hingegen betrachten die Problemstellung aus Sicht der HMI, indem im ersten Schritt die Interaktion mittels Taskmo- HMI-Sicht dell definiert wird und im zweiten Schritt eine Bindung von Diensten an die jeweiligen Systemtasks stattfindet. Der Ansatz geht davon aus, dass jeder Webservice eine formalisierte Beschreibung enthält (engl. Annotation), mit welcher Aktionen, Parameter, Datentypen und vie- les mehr definiert sind. Notwendige Eingabeparameter für einen Ser- vice müssen durch entsprechende Interaktionstasks vom Nutzer ein- gegeben werden. Damit erfolgt eine Abbildung gewisser Anteile der Servicebeschreibung auf Interaktionstasks. Unter Verwendung ver- schiedener Services ergibt sich hierbei allerdings keine konsistente Be- schreibung. Einen gegensätzlichen Ansatz entwickelten Kritikos u. a. (2014), welche Interaktionstasks mittels CTT-Notation definieren und, abhängig der vom Entwickler gewählten Namen für Tasks sowie An- wendungsobjekten, automatisiert passende Ontologien und Services für Systemtasks identifizieren. Anwendungsobjekte sind hierbei Ein-

7 Übersetzung des Autors: Aktuelle service-orientierte Computerprogramme erstellen Anwendungen, welche mit Nutzern auf eingeschränkte Weise interagieren. 132 konzept mit taskmodellen und wissensbasen

und Ausgabeparameter eines Tasks, welche vom Entwickler beliebig benannt werden. Hierbei ergibt sich das Problem einer eventuell in- konsistenten oder undeutlichen Benennung, wie zum Beispiel bei Ver- wendung von Abkürzungen, welche nur schwierig automatisiert auf Konzepte einer Ontologie abbildbar sind. Ähnlich hierzu formulie- ren Yuan und Liu (2012) eine Ontologie für Taskmodelle, in welcher eine Beziehung zwischen Task und verwendeten Domänenobjekten besteht (identisch der Domänenobjekte in CTTs). In allen drei Ansät- zen wird von Tasks auf bestimmte Objekte referenziert, jedoch erfolgt keine Definition über deren Inhalt. Vorliegende Arbeit setzt hierauf Domänenobjekt auf und fordert als Domänenobjekt eine Referenz in die lexikalisch-seman- Referenz in tische Wissensbasis. Viele bestehende Wissensbasen beinhalten textuel- Wissensbasis le Erklärungen und Beispielinstanzen zu Konzepten (z.B. in WordNet gloss genannt), wodurch eine konsistente, und für Entwickler einfache Möglichkeit der Definition von Domänenobjekten existiert. Wie in Abbildung 4.3 gezeigt, kann jeder Task beliebig viele Domä- nenobjekte referenzieren. Dies stellt im Folgenden die Verbindung zwischen Taskmodell und lexikalisch-semantischer Wissensbasis her und definiert somit die Parameter eines Tasks. Handelt es sich bei dem Task um einen Interaktionstask oder einen abstrakten Task, sind die Domänenobjekte als Eingabeparameter zu sehen, welche ein Nut- zer zur Taskerfüllung eingeben muss. Bei einem Systemtask hingegen beschreiben die Domänenobjekte Ausgabeparameter, die zum Bei- spiel eine Anwendung oder ein Webservice bereitstellen. Aus Sicht des Taskmodells sind somit Domänenobjekte jeweils Konzepte oder Instanzen der Wissensbasis, die nach Ausführung des Tasks zur Ver- fügung stehen. Während der Erstellung eines Taskmodells definiert Definition der Entwickler die validen Domänenobjekte für Tasks. Ein Domänen- Domänenobjekt objekt ist definiert als Quadrupel aus Konzept (C), Objekttyp (O), Über- einstimmung (M) und Attribut (A): . DomainObject = (C, O, M, A)

Hierbei sind die einzelnen Elemente des Quadrupels wie folgt defi- niert:

Konzept (C) stellt die Beziehung zur Wissensbasis her und defi- niert den Parameter, welcher nach Taskausführung zur Verfü- gung steht. Sollte kein Konzept der Wissensbasis den Parameter beschreiben können, müssen entweder Domänenobjekte kom- biniert oder die Wissensbasis erweitert werden (siehe unten). Für bestimmte Anwendungsfälle kann es notwendig sein, auf Dependenzen von Nomina einzugehen (nach De Marneffe u. a. (2014) z.B. Präpositionen, Postpositionen oder Klitika), welche als Spezialfall von C definiert werden können.

Objekttyp (O) definiert, ob der jeweilige Parameter vom Typ Kon- zept (con) oder Instanz (inst) sein soll. 4.2 formale definitionen des konzepts 133

Übereinstimmung (M) ist ein Wahrheitswert, ob ein Hyponym als gültiger Wert des Parameters angenommen werden kann (true) oder nicht (false).

Attribut (A) ist ein Wert, welcher das Domänenobjekt als optio- nal (opt) oder erforderlich (req) klassifiziert.

Trotz einer allgemeingültigen Wissensbasis können spezifische An- wendungen Konzepte erfordern, welche nicht in der Wissensbasis enthalten sind. Dies lässt sich entweder durch Kombination beste- hender Konzepte oder einer Erweiterung der Wissensbasis lösen. Vor- zuziehen ist die Kombination bestehender Konzepte, da dadurch die Domänenobjekt- Wissensbasis unverändert und somit konsistent bleibt. McCrae u. a. kombination (2010) schlagen im Lemon-Modell vor, zusammengesetzte Wörter, wie zum Beispiel „Schweineschnitzel“, als Kombination bestehender Kon- zepte zu formulieren, also „Schwein“ und „Schnitzel“. Somit ist es Entwicklern möglich, beliebige Kombinationen an Domänenobjekten einem Task zuzuordnen. Lässt sich ein Parameter eines Tasks den- noch nicht definieren, ist eine Erweiterung der Wissensbasis erforder- Erweiterung lich. Zwingend hierbei ist ein Verlinken des zusätzlichen Konzeptes Wissensbasis in die bestehende Wissensbasis via Hyperonym-Relation. Zusätzlich müssen notwendige Eigenschaften der Wissensbasis, wie zum Bei- spiel Bestimmung der Wortart, Synonyme und Beschreibung, defi- niert werden. Über einen Updateprozess oder Konsortium, welches die Wissensbasis verwaltet, sollte eine Verbreitung erfolgen, um an- schließend die erstellte Anwendung global nutzen zu können. Anhand der Wetteranwendung (siehe Abschnitt 4.2.1) wird im Fol- genden die Referenzierung auf Domänenobjekte beispielhaft gezeigt Beispiel und ist in Tabelle 4.2 dargestellt. Als Interaktionsziel sieht die Anwen- Referenzierung dung vor, das Wetter abzurufen. Nennt ein Nutzer die sprachliche Repräsentation des Konzeptes weather%1:19:00:: wird der abstrakte Task Wetter ausgeführt. Beim Task Region können Nutzer eine Instanz einer geografischen Region (geographical_area%1:15:00::) oder ei- ner Stadt (city%1:15:00::) mit Präposition in (Case:IN) eingeben, wie zum Beispiel Berlin (Berlin%1:15:00::) als Instanz des Konzeptes Stadt. Ähnlich hierzu referenziert der Task Point-of-Interest (POI) auf einen Berggipfel (mountain_peak%1:17:00::) oder See (lake%1:17:00::). Je- doch sollen zusätzlich Hyponyme valide Werte als Eingabe sein, wo- durch zum Beispiel Lake_Powell (Lake_Powell%1:06:00::) als künstli- cher See (artificial_lake%1:06:00::) eine mögliche Eingabe darstellt. Als Systemtask liefert Webservice eine Vereinigung aus einer Tempera- turinstanz (temperature%1:07:00::) und einer Wetterbedingung als Konzept (weather_condition%1:19:00::) oder entsprechendem Hy- ponym. Abhängig von der Anwendung könnte dies 23%1:28:02:: und wind%1:19:00:: sein.

8 https://wordnet.princeton.edu/ [Online 11.10.2015] 134 konzept mit taskmodellen und wissensbasen

Task referenzierte Domänenobjekte

Wetter (weather%1:19:00::, con, false, req) Region (geographical_area%1:15:00::, inst, false, req) t (case:IN u city%1:15:00::, inst, true, req) POI (mountain_peak%1:17:00::, inst, true, req) t (lake%1:17:00::, inst, true, req) Wochentag (day_of_the_week%1:28:00::, con, false, req) Webservice (temperature%1:07:00::, inst, false, req) u (weather_condition%1:19:00::, con, true, req)

Tabelle 4.2: Zuweisung von Domänenobjekten zu Tasks des Taskmodells ei- ner Wetteranwendung (siehe Abbildung 4.4). Konzepte basieren auf WordNet8 Version 3.0.

4.3 prozess von nutzereingabe bis taskausführung

Während die Konzeptentwicklung und die formale Definition wichti- ger Konzeptbestandteile Gegenstand der vorausgehenden Abschnitte waren, wird im Folgenden der Prozess von Nutzereingabe, über Inter- pretation bis zur Taskausführung beschrieben. Abschließend erörtert Abschnitt 4.3.5 anwendungsübergreifende Aspekte des Konzeptes.

4.3.1 Abbildung von Nutzereingaben auf Konzepte und Instanzen der Wis- sensbasis

Zu Beginn einer Interaktion steht die sprachliche Eingabe, also die Nutzeräußerung. Wie in Abschnitt 2.3.1 für allgemeine Sprachdialog- systeme gezeigt, analysiert die ASR das Sprachsignal und weist ihm einen definierten Satz an Symbolen zu. Im Anschluss erfolgt eine Interpretation der Äußerung. Beide Prozessschritte stehen nicht im Fokus vorliegender Arbeit, weswegen sie als Grundlage zur Imple- mentierung und Evaluation vorausgesetzt werden. Eine zuverlässige automatisierte automatisierte Verschriftung des Sprachsignals ist bereits weitgehend Verschriftung im Einsatz und soll im Folgenden nicht weiter betrachtet werden. Be- züglich der Interpretation wird ein Prozess definiert, welcher weitest- gehend auf etablierte linguistische Verfahren setzt. Interpretation Die Interpretation erfolgt auf Basis der Struktur der Konstituenten unter Annahme des Kompositionalitätsprinzipes: „[T]he meaning of a sentence is a function of the meanings of its parts.“9 (McTear, 2002, S. 108). Demzufolge bildet die syntaktische Struktur der Äußerung und die Bedeutung der Konstituenten eine entscheidende Grundlage

9 Übersetzung des Autors: Die Bedeutung eines Satzes ist eine Funktion seiner Teilbe- deutungen. 4.3 prozess von nutzereingabe bis taskausführung 135 zur Interpretation. Entsprechende Analyseverfahren sind bei Frage- Antwort-Systemen im Einsatz, um natürlichsprachliche Fragen auf Objekte einer Wissensbasis abzubilden. Zum Beispiel setzen Araki und Funakura (2010) SemanticWeb-Technologien zur Identifikation relevanter Konstituenten einer Frage und zur Erstellung einer for- malen Anfrage an eine Wissensbasis ein. Irrelevante Konstituenten und Füllwörter werden hierbei ignoriert. Detaillierter beschreiben Be- rant u. a. (2013) einen Algorithmus zur Identifikation von Objekten und Relationen einer Wissensbasis auf Basis einer natürlichsprach- lichen Frage. Sie nutzen hierfür die domänenunabhängige allgemei- ne Wissensbasis Freebase (Bollacker u. a., 2008) und zeigen somit die Realisierbarkeit einer Abbildung von beliebigen gesprochenen Äuße- rungen auf Konzepte, Instanzen und Relationen einer Wissensbasis. Diese Verfahren könnten in der vorliegenden Arbeit auch eingesetzt werden. Problematisch hierbei ist jedoch die fehlende Verbindung zu WordNet und dass die eingesetzte Software nicht frei verfügbar ist. Aus diesem Grund muss ein Prozess aus bestehenden Umsetzungen definiert werden, um eine Äußerung in Synsets von WordNet abzu- bilden. Zur Vorbereitung der Identifikation von Synsets müssen Eigenna- Eigennamen men aus der Anfrage extrahiert werden. Hinsichtlich der Eigenna- menerkennung (engl. named entity recognition) existieren diverse Verfahren mit hoher Genauigkeit, von manuellen Listen über über- wachtes oder semi-überwachtes Lernen bis hin zu unüberwachten Lernmethoden (Carstensen u. a., 2010). Aus diesem Grund sieht vor- liegende Arbeit das Erkennen von Eigennamen als gegeben voraus und verwendet in der Implementierung eine manuelle Liste, wobei je- des andere Verfahren ebenso einsetzbar wäre. Wie erwähnt, ist Word- Net nach Wortarten in Nomen (NN), Verben (VB), Adjektive (JJ) und Wortarten Adverbien (RB) unterteilt. Zur Klassifikation der Konstituenten ei- ner Äußerung sind unter dem Begriff Wortartenannotierung (engl. POS-Tagging) Methodiken entwickelt worden, welche eine automati- sierte Klassifikation nahezu fehlerfrei ermöglichen (Carstensen u. a., 2010; Toutanova u. a., 2003). Ein weit verbreitetes Klassifizierungs- schema für Wortarten bietet die Penn Treebank (Marcus u. a., 1993), welches auch für vorliegende Arbeit genutzt wird. Unterscheidun- gen der Wortarten, wie z.B. bei Nomina in Plural (NNS) und Sin- gular (NN), sind für die Identifizierung im WordNet nicht notwen- dig und werden daher nicht weiter behandelt. Ein weiterer wichtiger Punkt ist eine Analyse der Nutzeräußerung hinsichtlich Dependen- Dependenz- zen, um auf diese im Vergleich mit den definierten Domänenobjekten annotation einzugehen. Aus grammatikalischen Gründen treten Wörter in ver- schiedenen Formen auf, wie beispielsweise konjugierte Verben. Da im WordNet eine Benennung von Synsets in der Basisform (engl. Lem- ma) erfolgt, muss für eine Identifikation die gesprochene Konstitu- ente der Äußerung in seine Basisform überführt werden (für Lemma- Lemmatisierung 136 konzept mit taskmodellen und wissensbasen

tisierung siehe Manning, Raghavan u. a. (2009)). In der vorliegenden Arbeit wird für die erwähnten Verfahren der Computerlinguistik die Stanford CoreNLP (Manning, Surdeanu u. a., 2014) genutzt, für eine theoretische Betrachtung sei auf die genannte Literatur verwiesen. Beispiel Anhand der Beispieläußerung „How is the weather in Washington?“10 Interpretation erfolgt eine Verdeutlichung der eingesetzten Interpretationsverfahren. Abbildung 4.6 zeigt das Ergebnis der mehrstufigen Analyse durch die Standford CoreNLP11. Im ersten Schritt erfolgt eine Klassifikation der Wortarten und im zweiten Schritt die Annotation der Dependen- zen. Im Beispiel sind das Verb is, die Nomina weather und Washington sowie die Präposition in von Bedeutung. Wegen der Dependenzanno- tation wird die Präposition dem Nomen Washington zugeordnet. Das konjugierte Verb is wird in sein Lemma be transferiert. How is the weather in Washington

WRB advmod VBZ DT det NN IN case NNP

nsubj nmod:in

Abbildung 4.6: Beispiel der Interpretation einer Nutzeräußerung durch die Stanford CoreNLP11mit Wortarten und Dependenzen.

Auf Basis von Wortarten, Dependenzannotation und Lemma der Synsetidentifikation Konstituenten einer Nutzereingabe erfolgt die Identifikation von Syn- sets im WordNet. Existiert eine Benennung eines Synsets, welche iden- tisch zur Basisform einer Konstituenten ist, wird dies als Hypothese betrachtet. Benennungen sind hierbei nicht eindeutig, sondern kön- nen Homonyme enthalten, welche zwar gleich lauten, aber verschie- dene Bedeutungen haben und somit unterschiedliche Synsets refe- renzieren. Aus diesem Grund können für jede Konstituente p meh- rere (Altp) alternative Objekte O als Hypothese identifiziert werden, von welchen jeweils nur maximal eine die korrekte Interpretation der Nutzeräußerung darstellt. Betrachtet man die Gesamtheit der Nut- zeräußerung, können mehrere Konstituenten (P) enthalten sein. Da Nomen verschiedene, nicht in der Wissensbasis darstellbare Depen- denzen (engl. cases Ca), referenzieren können, müssen diese jeweils an ihre Nomen angehängt werden. Die Bedeutung der Nutzeräuße- rung kann somit folgendermaßen definiert werden:

P Altp Cases

. G G UserInput = G (∃spoken.Op,a Cai) (1) p=0 a=0 i=0

Auf Basis des genannten Wetterbeispiels wird die Identifikation von Synsets im WordNet verdeutlicht (siehe Abbildung 4.7). Nach Interpretation mittels der Stanford CoreNLP sind das Verb be, die

10 Übersetzung des Autors: Wie ist das Wetter in Washington? 11 http://nlp.stanford.edu:8080/corenlp/process [Online 17.10.2015] 4.3 prozess von nutzereingabe bis taskausführung 137 beiden Nomina weather und Washington sowie die Präposition in von Bedeutung. Abgesehen von der Präposition existieren hierfür Synsets im WordNet. Für das Nomen weather existiert genau ein Synset, wo- gegen das Verb be und das Nomen Washington nicht eindeutig be- stimmt werden können. Es existieren somit mehrere Hypothesen für diese Konstituenten.

be:VB weather:NN Washington:NN case:IN

Abbildung 4.7: Beispiel der Identifikation von Synsets im WordNet (Darstel- lung beinhaltet nur einen Auszug).

Um die Bedeutung der Äußerung festzulegen, werden die Einzelbe- deutungen der Konsitutenten kombiniert: UserInput =(be%2:42:03:: t be%2:42:06::) u weather%1:19:00:: u ((washington%1:15:01:: t washington%1:18: 00::) u case:IN)

4.3.2 Kontext eines Dialogzustandes

Taskmodelle definieren temporale Abhängigkeiten von Tasks sowie Vorbedingungen und Nachbereitungen. Abhängig davon ergibt sich eine bestimmte Ausführungsreihenfolge der Tasks. Durch das Taskmo- dell lässt sich somit zu jedem Zeitpunkt entscheiden, welche Tasks als Ausführbarkeit von nächstes zur Ausführung kommen können. Zur Bestimmung ausführ- Tasks barer Tasks sei auf Paternò (2000) verwiesen. Eine Unterscheidung erfolgt in der vorliegenden Arbeit je nach Dialogzustand in nicht-ak- tives und aktives Taskmodell. Bei einem aktiven Taskmodell kamen bereits Tasks in vorherigen Dialogschritten zur Ausführung, wobei ein nicht-aktives Modell den initialen Zustand beschreibt. Anhand der vereinfachten Wetteranwendung (siehe Abbildung 4.4) wird dies verdeutlicht. Im initialen Zustand können Nutzer die Tasks Region, POI und/oder Wochentag ausführen, jedoch nicht Webservice, da die- ser Task erst aktiv wird, sobald ein Subtask von Ort zur Ausführung kam. Ist dies geschehen, geht das Taskmodell in den aktiven Zustand über und das SDS befindet sich im Dialog mit dem Nutzer. Gibt der Nutzer hingegen im ersten Schritt keinen Subtask von Ort ein, muss das SDS nachfragen, und Webservice bleibt solange nicht ausführbar. Zur Nachfrage und Ausführung eines Tasks siehe Abschnitt 4.3.4. Ausgehend von den ausführbaren Tasks erfolgt eine Definition der möglichen Eingaben durch Nutzer, im Folgenden als Kontext bezeich- Kontext net. Der Kontext setzt sich hierbei zusammen aus den verfügbaren Taskmodelle, die Anordnung ihrer Tasks und deren Domänenobjekte, welche die möglichen Eingabeparameter definieren. Zum einfacheren 138 konzept mit taskmodellen und wissensbasen

Subkontext Verständnis erfolgt eine Unterteilung des Kontextes in Subkontexte, welche jeweils mit der Nutzereingabe verglichen werden (siehe nach- folgender Abschnitt) und der Ähnlichste zur Ausführung kommt. Fünf verschiedene Arten von Subkontexten sind zu definieren:

Taskmodellsubkontext bezeichnet den obersten Einsprungpunkt in ein Taskmodell und besteht aus den Domänenobjekten des Wur- zeltasks.

Globale Subkontexte beinhalten die Domänenobjekte aller Tasks, die auf dem Pfad (TaskPath) zwischen Wurzeltask und aus- führbarem Blatttask liegen.

Pfadabhängige Subkontexte beinhalten alle Domänenobjekte der Teilpfade zwischen Wurzeltask und ausführbaren Blatttasks.

Lokale Subkontexte beziehen sich auf bereits ausgeführte Tasks und beinhalten alle Domänenobjekte der Pfade (TaskPath) zwi- schen den nächsten ausführbaren Tasks zu einem ausgeführten Elterntask.

Zusammengefügte Subkontexte werden auf Basis der bisher be- schriebenen Subkontexte, unter Beachtung temporaler Opera- toren zwischen Tasks, gebildet. Hierzu erfolgt eine Analyse hin- sichtlich identischer Pfade der Tasks. Sind die Subtasks des letz- ten gemeinsamen Tasks im Pfad über die Operatoren verschach- telt, parallel oder Synchronisierung verbunden, wird die Schnitt- menge beider Subkontexte zusätzlich im Kontext eingefügt. Dies ermöglicht die gleichzeitige Ausführung mehrerer Tasks.

Lokale Subkontexte werden hierbei lediglich für aktive Taskmodel- le erstellt. Somit wird sichergestellt, dass bei nicht-aktiven Taskmo- dellen die ausführbaren Tasks nicht ohne Erwähnung der Domäne- nobjekte ihrer Elterntasks ausgeführt werden können. Anderenfalls würde beispielsweise die Äußerung „Berlin“ in einer Wetteranfrage enden, obwohl der Nutzer unter Umständen beabsichtigt, eine Navi- gationsanwendung zu steuern. Unter Vereinigung der Subkontexte (SubCon) mit ihren jeweiligen Domänenobjekten (DO) der Tasks ergibt sich als Definition des Kon- textes:

SubCon TaskPathc

. G Context = G t.DO (2) c=0 t=0

Beispiel zur Die Erstellung von Kontexten soll im Folgenden anhand des Beispiels Erstellung von der vereinfachten Wetteranwendung (siehe Abschnitt 4.2) verdeut- Kontexten licht werden. Der erste Schritt identifiziert Tasks, aus welchen ein jeweiliger Subkontext besteht (siehe Tabelle 4.3). Im zweiten Schritt erfolgt hieraus die Erzeugung des Kontextes nach Formel (2), indem 4.3 prozess von nutzereingabe bis taskausführung 139 zu jedem Task seine Domänenobjekte mit denen der anderen Tasks kombiniert werden. Bezogen auf das Beispiel der Wetteranwendung ergibt dies einen initialen Kontext (Domänenobjekte sind lediglich auf Basis ihrer Beschriftung und nicht mit vollständiger ID darge- stellt):

ConW =weather t (weather u (mountain_peak t lake)) t (weather u (geographical_area t (IN u city))) t (weather u day_of_the_week) t · · ·

Subkontextart Mengen der Tasks für jeden Subkontext

Taskmodell {Wetter} Global {Wetter,Ort,Region},{Wetter,Ort,POI}, {Wetter,Wochentag} Pfadabhängig {Wetter,Ort} Lokal {} Zusammengefügt {Wetter,Ort,Region,Wochentag},{Wetter,Ort, POI,Wochentag},{Wetter,Ort,Wochentag}

Tabelle 4.3: Subkontexte des initialen Taskmodells der Wetteranwendung.

4.3.3 Vergleich von Nutzereingabe und Kontext

Wie in Abschnitt 4.3.1 vorgestellt, liegt die Eingabe als Interpreta- tion von Objekten der Wissensbasis und zugehörigen Argumenten (engl. cases) vor. Der Kontext des SDS ist ebenfalls in Objekten der Wissensbasis dargestellt (siehe Abschnitt 4.3.2) und in Subkontexte unterteilt. Im Folgenden wird ein Verfahren vorgestellt, welches die Nutzereingabe beziehungsweise ihre Interpretations-Hypothesen mit jedem Subkontext vergleicht, um im nächsten Schritt die auszufüh- renden Tasks zu bestimmen. Zur Vereinfachung des Vergleichs erfolgt eine Umformulierung der Nutzereingabe (Beweis siehe AnhangB. 1):

Alt Alt P Cases

G0 GP

G UserInput ≡ ··· G (∃spoken.Op,ap Cai) (3) a0=0 aP=0 p=0 i=0

Somit lässt sich jede Interpretations-Hypothese einzeln mit den Sub- kontexten vergleichen, was einerseits zur Übersichtlichkeit führt und andererseits eine parallele Verarbeitung zulässt. Die Bewertung jedes Bewertung Subkontextes ist ein Tripel, bestehend aus den Dimensionen Überein- Subkontext stimmung (M), Ausführbarkeit (E) und semantischer Ähnlichkeit (S):

g :(UserInput, SubCon) → (M, E, S) (4) 140 konzept mit taskmodellen und wissensbasen

Die folgenden Unterabschnitte definieren jeweils die einzelnen Di- mensionen des Tripels. Jede Dimension wird anhand des begleiten- den Wetterbeispiels verdeutlicht.

4.3.3.1 Anzahl übereinstimmender Objekte (M) Ein Anzeichen, inwieweit eine Interpretations-Hypothese zu einem Subkontext passt, liefert ein Vergleich hinsichtlich der Übereinstim- mung ihrer referenzierten Objekte der Wissensbasis. Zwei Fälle kön- exakte & nen hierbei auftreten, einerseits die exakte Übereinstimmung und ande- hierarchische rerseits eine hierarchische Übereinstimmung. Bei einer exakten Überein- Übereinstimmung stimmung entspricht ein Objekt der Interpretations-Hypothese ein- deutig dem referenzierten Konzept eines Domänenobjektes im Sub- kontext. Anders ist dies hingegen bei einer hierarchischen Überein- stimmung, welche, ähnlich zum Vererbungsprinzip der objektorien- tierten Programmierung, die Idee verfolgt, spezifische Typen auf ab- straktere abzubilden. Übertragen auf diese Arbeit bedeutet dies, wenn ein Objekt der Interpretations-Hypothese spezifischer ist als das Kon- zept eines Domänenobjektes im Subkontext, dann ist es ein Hyponym dieses Objektes. Eine hierarchische Übereinstimmung ist nur möglich, insofern dies im Domänenobjekt spezifiziert ist. Liegt in der Interpre- tations-Hypothese eine Instanz vor, ist, wie von Kritikos u. a. (2014) vorgeschlagen, ihr entsprechendes Konzept auf Übereinstimmung zu prüfen. Sind alle als erforderlich spezifizierten Domänenobjekte eines Sub- Berechnung kontextes in der Nutzereingabe enthalten, erfolgt die Berechnung des Übereinstimmungswerts. Hierbei werden die übereinstimmenden Do- mänenobjekte des Subkontextes gezählt, unabhängig ob exakte oder hierarchische Übereinstimmung vorliegt. Dies beruht auf der Annah- me, dass je mehr Anteile der Nutzereingabe mit dem Subkontext übereinstimmen, desto höher ist die Wahrscheinlichkeit, dass der Sub- kontext die Intention des Nutzers trifft. Tabelle 4.4 zeigt die Übereinstimmungswerte für das diese Arbeit Beispiel begleitende Beispiel der Wetteranfrage mit der Nutzeräußerung „How Wetteranfrage is the weather in Washington?“12. Die Interpretations-Hypothese wird hierbei mit einem Subkontext auf Übereinstimmung verglichen, wo- bei für be keine Übereinstimmung gefunden werden kann. Jedoch zeigt sich eine exakte Übereinstimmung bei weather, sowie eine hier- archische Übereinstimmung für Washington, welches Instanz des Konzeptes national_capital und somit Hyponym von city ist. So- mit ist die Voraussetzung der Übereinstimmung aller erforderlichen Domänenobjekte des Subkontextes mit der Interpretations-Hypothe- se gegeben, und die Summe der übereinstimmenden Domänenobjek- te ergibt drei.

12 Übersetzung des Autors: Wie ist das Wetter in Washington? 4.3 prozess von nutzereingabe bis taskausführung 141

Subkontext Interpretations-Hypothese i h be weather IN Washington → capital → city weather 0 1 0 0 IN 0 0 1 0 city 0 0 0 1

Tabelle 4.4: Übereinstimmung einer Interpretations-Hypothese mit einem Subkontext (Domänenobjekte und Objekte der Wissensbasis sind nur durch ihre Beschriftung dargestellt).

4.3.3.2 Anzahl ausführbarer Tasks (E) Im Kontext enthalten sind alle Tasks, welche theoretisch vom Nut- zer im aktuellen Dialogzustand ausgeführt werden können. Auf Basis der Nutzereingabe ergeben sich die auszuführenden Tasks. Jede Kom- bination aus Interpretations-Hypothese und Subkontext kann daher dahingehend bewertet werden, wie viele Tasks potentiell zur Ausfüh- rung kommen können. Dies ermöglicht bei der Auswahl der optima- len Kombination (siehe Abschnitt 4.3.4) eine Bewertung hinsichtlich der Effizienz des Dialogs. Dies beruht auf der Annahme, dass jeder Dialogeffizienz nicht-optionale Task im Taskmodell ausgeführt werden muss. Eine parallele Ausführung mehrerer Tasks mit einer Äußerung minimiert somit die Anzahl der Nachfragen und als Resultat die Anzahl der Dialogschritte. Der Vergleich von Interpretations-Hypothese und Subkontext er- folgt analog zum vorherigen Abschnitt, jedoch hinsichtlich eines Tests auf Ausführbarkeit der Tasks. Ein Task ist ausführbar, wenn alle seinen Ausführbarkeit spezifizierten Domänenobjekte ausführbar sind. Bei Verben, Adver- von Tasks ben und Adjektiven ist dies bei Übereinstimmung immer der Fall, wo- gegen Nomen zwischen Instanz und Konzept unterscheiden. Somit ist ein als Nomen spezifiziertes Domänenobjekt ausführbar, wenn der Objekttyp der Interpretations-Hypothese identisch zum spezifizier- ten Objekttyp des Domänenobjektes ist. Das heißt, es wird entweder vom Nutzer eine Instanz eingegeben, wobei eine Instanz im Domä- nenobjekt gefordert wird, oder der Nutzer gibt ein Konzept ein, und das Domänenobjekt fordert dies. In anderen Fällen ist das Domänen- objekt nicht ausführbar. In die Bewertung des Subkontextes geht die Summe der ausführbaren Tasks ein. Zur Verdeutlichung erfolgt eine leichte Abänderung des beglei- tenden Wetterbeispiels in der Nutzeräußerung durch die Anfrage „I Wetterbeispiel would like to know the weather of a city“13. Tabelle 4.5 zeigt den Vergleich einer Interpretations-Hypothese mit einem Subkontext. Be- züglich des Domänenobjektes (weather, con) wird ein Konzept als Eingabe gefordert, was von der Eingabe über weather:NN abgedeckt

13 Übersetzung des Autors: Ich möchte das Wetter einer Stadt wissen. 142 konzept mit taskmodellen und wissensbasen

wird. Hingegen fordert das Domänenobjekt (city, inst) eine Instanz einer Stadt, wogegen die Eingabe nur ein Konzept enthält. Somit ist der Task Region, zu welchem das Domänenobjekt gehört, nicht aus- führbar und lediglich der Task Wetter ist auszuführen, was einen Wert der Ausführbarkeit von eins ergibt.

Subkontext Interpretations-Hypothese like:VB know:VB weather:NN of:IN city:NN

(weather, con) 0 0 1 0 0 (IN,_) 0 0 0 1 0 (city, inst) 0 0 0 0 0

Tabelle 4.5: Test auf Ausführbarkeit eines Subkontextes mit einer Interpreta- tions-Hypothese (Domänenobjekte und Objekte der Wissensba- sis sind nur durch ihre Beschriftung dargestellt).

4.3.3.3 Semantische Ähnlichkeit (S) Wie in Abschnitt 4.3.3.1 gezeigt, treten Übereinstimmungen über Hy- peronym-Beziehungen auf, wobei sich die Frage stellt, wie ähnlich diese Konzepte zueinander sind. Während die Übereinstimmung (Di- mension M) keine Auskunft über die Ähnlichkeit liefert, soll im Fol- Ähnlichkeit von genden die Ähnlichkeit zwischen Konzepten der Interpretations-Hypo- Konzepten thesen und den Subkontexten bewertet werden. Bellur u. a. (2008) zei- gen hierbei die Vorteile eines semantischen Ähnlichkeitsvergleichs ge- genüber eines syntaktischen Vergleichs, bei Abbildung einer Anfrage auf Webservices. Sie liefern zusätzlich eine gute Übersicht zu diver- sen Algorithmen im Bereich des „semantic matchmaking“. Über die Abstraktionsbeziehung Hyponym/Hyperonym der Wissensbasis las- sen sich demnach semantische Ähnlichkeiten identifizieren. Viele bestehende Arbeiten betrachten semantische Ähnlichkeit über Abstraktionsbeziehungen. Einen Überblick über die gängigsten Vari- anten in Verbindung mit WordNet liefern Pedersen u. a. (2004). In Distanzmaß dieser Arbeit soll in erster Linie das Distanzmaß zweier Konzepte Ver- wendung finden, da hiermit eine Abbildung auf Anwendungslogiken analog zum Vererbungsprinzip der objektorientierten Programmie- rung erfolgen kann. Somit lassen sich spezifische Konzepte einfach auf abstrakte abbilden. Bei anderen Ähnlichkeitsmaßen, wie zum Bei- spiel nach Wu und Palmer (1994) durch Beachtung des nächsten ge- meinsamen Hyperonyms, müsste eine Methodik entwickelt werden, um die Parameter auf Anwendungen der Systemtasks abzubilden, da beide Konzepte nicht zwingend in direkter Abstraktionsbeziehung zueinander stehen. Die semantische Ähnlichkeit definiert sich daher Pfadlänge in dieser Arbeit über die Pfadlänge der Hyponym-/Hyperonym-Bezie- hungen zwischen den Konzepten. Je kürzer der Pfad desto ähnlicher 4.3 prozess von nutzereingabe bis taskausführung 143

1 sind beide Konzepte, womit die Ähnlichkeit über Pfadlänge einen Wert zwischen 1 für Identität und 0 für keinen bestehenden Pfad an- nimmt. Um einen Unterschied zwischen exakter und hierarchischer Übereinstimmung im Ähnlichkeitsmaß zu verdeutlichen, erfolgt die Definition der Pfadlänge über die Anzahl der Knoten des Pfades und nicht, wie in der Graphentheorie üblich, über die Anzahl der Kan- ten. Liegt als Interpretations-Hypothese eine Instanz der Wissensba- sis vor, ist, wie von Kritikos u. a. (2014) vorgeschlagen, ihr entspre- chendes Konzept im Ähnlichkeitsvergleich zu verwenden. Ein mög- licher Nachteil des ungewichteten Distanzmaßes ist, dass jede Hype- ronym-/Hyponym-Beziehung identisch gewertet wird. Sind jedoch gewisse Konzepte ähnlicher zueinander als andere, kann dies nur über gewichtete Beziehungen ausgedrückt werden. Dieser Aspekt wird allerdings nicht weiter betrachtet, da dies eine Änderung der Wissensbasis nach sich ziehen würde und nicht im Rahmen der vor- liegenden Arbeit umzusetzen wäre. Der Vergleich von Konzepten jeder Interpretations-Hypothese mit Subkontexten erfolgt analog zu den anderen Dimensionen, jedoch jeweils hinsichtlich ihrer Ähnlichkeit. Herbei ergibt sich der Ähnlich- keitswert eines Tasks zur Interpretations-Hypothese als Durchschnitt der Ähnlichkeitswerte seiner jeweiligen Domänenobjekte. Der Wert für einen Subkontext wird weiterhin über die Summe der Ähnlich- keit seiner enthaltenen Tasks gebildet. Tabelle 4.6 sind die Ähnlichkeitswerte des Wetterbeispiels, mit der Wetterbeispiel Nutzeräußerung „How is the weather in Washington?“14, zu entneh- men. Für die Domänenobjekte weather und IN lässt sich eine exakte Übereinstimmung in der Interpretations-Hypothese finden und somit eine Identität feststellen. Hinsichtlich des Domänenobjektes city be- steht eine hierarchische Übereinstimmung zur Instanz Washington. Wie erwähnt, wird somit das referenzierte Konzept capital geprüft und es findet sich in direkter Hyperonym-Beziehung zu city. Somit ergibt sich eine Pfadlänge von zwei und daher eine Ähnlichkeit des Domänenobjektes von 0,5. Alles in allem kann somit eine Ähnlichkeit der Interpretations-Hypothese zum Subkontext von 1,75 festgestellt werden.

4.3.4 Ausführung von Tasks

Wie im vorherigen Abschnitt gezeigt, wird jeder Subkontext hinsicht- lich drei Dimensionen bewertet. Auf Basis dieser Bewertungen erfolgt eine Auswahl des Subkontextes, welcher bestmöglich zur Nutzerein- gabe passt. Hierzu wird für jeden Subkontext (sc) eine gewichtete

14 Übersetzung des Autors: Wie ist das Wetter in Washington? 144 konzept mit taskmodellen und wissensbasen

Subkontext Interpretations-Hypothese i h be weather IN Washington → capital → city weather 0 1.0 0 0 IN 0 0 1.0 0 city 0 0 0 0.5

Tabelle 4.6: Ähnlichkeit einer Interpretations-Hypothese mit einem Subkon- text (Domänenobjekte und Objekte der Wissensbasis sind nur durch ihre Beschriftung dargestellt).

Summe der Einzeldimensionen gebildet und hinsichtlich der Anzahl der Konstituenten einer Nutzereingabe (P) normalisiert:

f :(msc, esc, ssc) → fsc mit msc ∈ M, esc ∈ E, ssc ∈ S

msc · wm + esc · we + ssc · ws (5) fsc = (wm + we + ws) ∗ P Abhängig vom SDS, seines Einsatzzweckes und beinhaltenden An- unterschiedliche wendungen können unterschiedliche Gewichtungen (msc, esc, ssc) der Gewichtungen Dimensionen Sinn ergeben. Sind zum Beispiel viele Anwendungen verschiedener Domänen Bestandteil des Sprachdialogsystems, könn- te eine höhere Gewichtung der Übereinstimmung sinnvoll sein. Hin- gegen sorgt eine stärkere Gewichtung der Ausführbarkeit für eine Minimierung der Dialoglänge, was im situativen Kontext Fahrzeug beispielsweise bezüglich Ablenkungsaspekten nützlich erscheint. An- wendungen ähnlicher Domänen, mit leicht unterschiedlichen Para- metern, profitieren von einer höheren Gewichtung der Ähnlichkeits- dimension, da somit die spezifischste Anwendung für die Nutzerein- gabe ausgewählt werden kann. Beinhaltet ein SDS zum Beispiel eine allgemeine Nachrichtenanwendung sowie eine über Wirtschaftsnach- richten, kann über den Ähnlichkeitswert festgestellt werden, dass bei einer Nutzereingabe „Aktuelle Nachrichten zur Wirtschaft“ die An- wendung für Wirtschaftsnachrichten hierfür spezialisiert ist. auszuführende Tasks Zur Bestimmung der auszuführenden Tasks werden die Subkontex- te hinsichtlich ihres fsc-Wertes verglichen. Im Optimalfall kann der Subkontext mit höchstem Wert ausgeführt werden. Jedoch besteht zu- sätzlich die Möglichkeit, dass mehrere Subkontexte denselben Wert, beziehungsweise minimale Unterschiede zueinander, haben. Je nach Strategie des Dialogmanagers erfolgt darauf eine Auflösung von Mehr- deutigkeiten, mit zum Beispiel einer Hilfestrategie wie in Kapitel 3 entwickelt wurde. Ausgehend vom identifizierten Subkontext werden alle seine ausführbaren Tasks ausgeführt. Abhängig von der Funktio- nalität von Tasks kann dies unter Umständen eine Anfrage an einen Webservice, Ausführung von Anwendungslogik oder eine Nachricht an fahrzeuginterne Steuergeräte sein. Eine Anbindung realer Anwen- dungen ist nicht Teil der vorliegenden Arbeit, jedoch existieren ver- 4.3 prozess von nutzereingabe bis taskausführung 145

schiedene Arbeiten, welche sich diesem Problem annehmen (z.B. Kri- tikos u. a. (2014)). Nach Ausführung der Tasks eines Subkontextes werden durch den Algorithmus von Paternò (2000), und nach Vor- bild des CTT-Environments15, die nächsten auszuführenden Tasks bestimmt, und es erfolgt eine Neugenerierung des Kontextes (wie in Abschnitt 4.3.2 beschrieben). Im Anschluss an eine Ausführung von Tasks können prinzipiell zwei Fälle eintreten. Einerseits kann ein Systemtask zur Ausführung kommen, und seine Ergebnisse müssen dem Nutzer präsentiert wer- den, andererseits kann eine weitere Eingabe des Nutzers erforderlich sein und muss daher nachgefragt werden. Es ist somit erforderlich, über eine Systemausgabe Rückmeldungen an den Nutzer zu geben. Systemausgabe Da dies nicht im Fokus der vorliegenden Arbeit steht, soll hierbei auf bestehende Arbeiten von Honold u. a. (2012) verwiesen werden, wobei der Task als abstraktes und die zugehörige Ausgabe als kon- kretes Informationselement zu sehen sind. Ein mögliches konkretes Informationselement für die Systemausgabe des Webservices im Wetter- beispiel sowie ein Nachfragen des Ortes ist dem eXtensible Markup Language (XML)-Dokument in Listing 1 zu entnehmen. Über und können verschiedene Modalitäten angegeben wer- den, welche jeweils optional verschiedene Sprachen (lng) beinhalten können. Dies kann als Eingabe in eine multimodale Fissionsengine (z.B. Honold u. a. (2012)) dienen. Bei auditiver Ausgabe wird somit zum Nachfragen des Ortes im Deutschen die Systemäußerung „Ge- ben Sie Region oder Sonderziel ein.“ ausgegeben. Ähnlich hierzu ist die sprachliche Ergebnispräsentation des Tasks Webservice mit der Äu- ßerung „Es ist windig bei aktuell 20 Grad Celcius“, unter der Voraus- setzung, das Domänenobjekt (temperature%1:07:00::, inst, false, req) hat den Wert 20 und (weather_condition%1:19:00::, con, true, req) den Wert windig. Eine Abbildung der Werte der Anwendungslogik auf Domänenobjekte wird in der vorliegenden Arbeit nicht näher be- trachtet.

4.3.5 Anwendungsübergreifende Aspekte

Während bisher eine Beschreibung des Konzeptes anhand eines ein- deutigen Taskmodells im SDS erfolgte, werden im Folgenden die Nut- zen für mehrere Anwendungen, jeweils durch ein Taskmodell model- liert, gezeigt. Das Konzept ist uneingeschränkt für mehrere Taskmodelle mehrere Taskmodelle nutzbar, lediglich bei der Erstellung des Kontextes erfolgt eine Ände- rung durch Kombination aller Einzelkontexte der Taskmodelle. Äu- ßerungen, welche Tasks verschiedener Taskmodelle gleichzeitig aus- führen, sind in der vorliegenden Arbeit nicht beachtet, da Unklarhei- ten über die temporale Ausführung der Tasks verschiedener Modelle,

15 http://giove.cnuce.cnr.it/ctte.html [Online 18.09.2015] 146 konzept mit taskmodellen und wissensbasen

Region oder Sonderziel? Geben Sie Region oder Sonderziel ein. Providea region or POI. Temperatur $temperature°C, $weather _condition Es ist $weather_condition bei aktuell $temperature Grad Celcius.

Listing 1: Konkretes Informationselement (vereinfacht) für das ¥ Wetterbeispiel (nach Honold u. a. (2012))

sowie Bestimmung der nächsten ausführbaren Tasks, im CTT-Forma- lismus bestehen. Als ein zentraler Punkt der Nutzerstudien (siehe Abschnitt 3.1), so- wie der anschließend definierten Anforderungen (siehe Abschnitt 3.4), nutzer-initiierte An- sind nutzer-initiierte Anwendungswechsel mit Parameterübergabe. Spe- wendungswechsel ziell hierfür bietet das Konzept, durch eine globale lexikalisch-seman- tische Wissensbasis, Vorteile. Beim Anwendungs- beziehungsweise Taskmodellwechsel können die Werte ausgeführter Tasks an entspre- chende Tasks des zu aktivierenden Taskmodells weitergegeben wer- den. Hierfür ist dieselbe Methodik einzusetzen wie eine Abbildung von Nutzereingabe auf Tasks, jedoch mit der Vereinfachung, dass die Konzepte und Instanzen bereits eindeutig als Objekte der Wissens- basis interpretiert sind. Einen ähnlichen Ansatz zeigten bereits Klug und Kangasharju (2005), welche über Input- und Output-Ports von Tasks eine Informationsübertragung zwischen diesen mit Hilfe einer Ontologie ermöglichten. Auf Basis eines Vergleichs der Domänenobjekte von Tasks verschie- dener Taskmodelle hinsichtlich ihrer Übereinstimmung und Ähnlich- Vorhersage Anwen- keit, lassen sich bereits vor einer Nutzereingabe potentielle Anwen- dungswechsel dungswechsel identifizieren. Dies ermöglicht einerseits die Einschrän- kung von Grammatiken der ASR und andererseits effektive Hilfestel- lungen für Nutzer. Zum Beispiel implementieren aktuelle Sprachdia- logsysteme im Fahrzeug als Hilfestellung einen Teleprompter, wel- cher mögliche Äußerungen des aktuellen Dialogzustandes anzeigt und auf Basis der Vorhersagen dynamisch Anwendungswechsel dar- stellen könnte. 4.4 zusammenfassung 147

4.4 zusammenfassung

Dieses Kapitel präsentierte ein Konzept, um die zuvor definierten Anforderungen für einen anwendungsübergreifenden Dialog umzu- setzen. Zentraler Punkt hierbei stellt die dynamische Erzeugung von Anwendungsabhängigkeiten zur Laufzeit dar. In einer modellgetrie- bener Entwicklung kann die Definition des Programmablaufs mittels Taskmodellen und deren Verbindung über eine globale lexikalisch-se- mantische Wissensbasis erfolgen. Somit lässt sich jede Anwendung eigenständig entwickeln. Alle notwendigen Abhängigkeiten zur Pa- rameterübergabe zwischen Anwendungen ergeben sich über die Wis- sensbasis. Der Fokus liegt hierbei auf dem Taskmanager unter Nut- zung von bestehenden Ansätzen zu generischen Dialogmanagern. Taskmodelle sowie Wissensbasen sind etablierte Gegenstände der Forschung und somit für die vorliegende Arbeit gegeben. Zur Model- lierung von Taskmodellen setzt diese Arbeit den CTT-Formalismus nach Paternò (2000) ein und als lexikalisch-semantische Wissensba- sis WordNet (Fellbaum, 1998; Miller, 1995). Der Fokus liegt somit auf der Verbindung beider Formalismen. Über Domänenobjekte eines Tasks lassen sich dessen Bedeutung mittels der Konzepte und Instan- zen der Wissensbasis definieren. Für Nutzertasks lassen sich somit die Eingabe- und für Systemtasks die Ausgabeparameter durch den Anwendungsentwickler bestimmen. Der Prozess, um von der Nut- zereingabe zur Taskausführung zu gelangen, besteht aus mehreren Schritten. Zu Beginn erfolgt eine Erkennung und Interpretation der Nutzeräußerung hinsichtlich der Objekte der Wissensbasis. Zusätz- lich ergibt sich aus den Domänenobjekten der ausführbaren Tasks ein Kontext, welcher anschließend mit den Objekten der interpretierten Nutzereingabe bezüglich den drei Dimensionen Übereinstimmung, Ausführbarkeit und Ähnlichkeit verglichen wird. Weiterhin erfolgt ei- ne Bewertung jedes Subkontextes durch eine gewichtete Summe der drei Dimensionen. Die Tasks des Subkontextes mit maximaler Bewer- tung werden schließlich ausgeführt. Abschließend erfolgt eine Sys- temausgabe über eine multimodale Fissionsengine sowie einer Neu- generierung des Kontextes, um die nächste Nutzereingabe im Dia- log zu interpretieren. Im SDS mit mehreren Anwendungen kann jede Anwendung mittels Taskmodell definiert werden. Dies ermöglicht ei- nerseits die Übergabe von Parametern zwischen Anwendungen und andererseits die Vorhersage potentieller Anwendungswechsel. Mittels einer Implementierung wird im folgenden Kapitel das vor- gestellte Konzept auf Machbarkeit geprüft, evaluiert und seine Vor- und Nachteile diskutiert.

IMPLEMENTIERUNGUNDEVALUATION 5

„Für das Können gibt es nur einen Beweis: das Thun.“ Ebner-Eschenbach (2015, S. 14)

Das vorherige Kapitel beschrieb ein Konzept zur Kombination von Taskmodellen und einer lexikalisch-semantischen Wissensbasis für die sprachliche Interaktion zwischen Mensch und SDS. Hierbei ergibt sich der Programmablauf aus Taskmodellen und die Bedeutung der einzelnen Tasks über eine globale Wissensbasis. Dies ermöglicht ei- nerseits eine konsistente, sprachliche Interaktion und andererseits ei- ne Übergabe der Parameter zwischen verschiedenen Anwendungen. Wie von Ebner-Eschenbach (2015) trefflich formuliert (siehe obiges Zitat), erfordert der Beweis eines theoretischen Konzepts eine Umset- zung. Die folgenden Abschnitte präsentieren somit eine Beurteilung des Konzepts hinsichtlich seiner Machbarkeit, Qualität und theore- tischer Betrachtung. Zu Beginn erfolgt in Abschnitt 5.1 eine Vorstel- lung der Implementierung zur Überprüfung der Machbarkeit. An- schließend wird mit Hilfe dieser und eines bestehendes Korpus die Abbildung der Eingabe auf Tasks (siehe Abschnitt 5.2.2) sowie die Identifizierung auszuführender Tasks (siehe Abschnitt 5.2.3) evalu- iert. In Abschnitt 5.3 wird ein theoretischer Abgleich zwischen den definierten Anforderungen und dem entwickelten Konzept vollzogen. Abschließend erfolgt eine Zusammenfassung.

5.1 nachweis der machbarkeit durch implementierung

Wie bereits erwähnt, setzt die vorliegende Arbeit eine zuverlässige Funktionsweise von ASR, SLU, generischem Dialogmanager und mul- timodaler Systemausgabe voraus. Die zu evaluierenden Teile sind daher zu evaluierende auf die Abbildung der interpretierten Eingabe auf Tasks, sowie die Teile Bewertung und Auswahl der auszuführenden Tasks, zu beschränken. Da kein bestehendes SLU-Modul die Nutzeräußerung in Synsets von WordNet interpretiert, beinhaltet die Implementierung ein vereinfach- tes SLU-Modul. Dieses basiert hauptsächlich auf etablierten Analy- severfahren der Computerlinguistik. Auf Grund der Nutzung eines bestehenden Korpus zur Evaluation, in welchem Nutzereingaben als Text vorliegen, sieht die Implementierung als Ein- und Ausgabe eine textuelle Schnittstelle vor. Im realen SDS könnten hierbei ohne weite- res bestehende Module angebunden werden. Abbildung 5.1 zeigt die Architektur der Implementierung zur Evalua- Architektur der Implementierung

149 150 implementierung und evaluation

tion, welche mittels Java (Version 1.8.0_31)1 umgesetzt wird. Wie er- wähnt, erfolgt die Eingabe als Text und wird in einem vereinfachten SLU-Modul, bestehend aus der Stanford CoreNLP Bibliothek (Man- ning, Surdeanu u. a., 2014) und Princeton WordNet (Miller, 1995; Fell- baum, 1998), interpretiert. Die Eingabe für den Taskmanager erfolgt somit als Objekte der Wissensbasis, wie nach Formel (1) in Abschnitt 4.3.1 beschrieben. Auf Basis des Programms CTT-Environment2 er- folgt eine Nachimplementierung der Algorithmen nach Paternò (2000), in vorliegender Arbeit CTT-Simulation genannt. Hieraus ergibt sich die Erstellung des Kontextes nach Formel (2) aus Abschnitt 4.3.2. Der Vergleich und die anschließende Bewertung von Subkontexten stellt den Kern der vorliegenden Arbeit dar. Das Vergleichsmodul implementiert die Algorithmen wie in Abschnitt 4.3.3 beschrieben, um jeden Subkontext bezüglich den drei Dimensionen Übereinstim- mung, Ausführbarkeit und Ähnlichkeit mit der Eingabe zu verglei- chen. Schließlich erfolgt eine Bewertung sowie die Auswahl des aus- zuführenden Subkontextes mit seinen Tasks auf Grundlage der in Abschnitt 4.3.4 vorgestellten Formel (5). Ein vereinfachter Dialogma- nager führt die Tasks mit Hilfe der CTT-Simulation aus und gibt kon- krete Informationselemente aus. Eine Betrachtung der Systemausga- be ist nicht Fokus vorliegender Arbeit.

Text Stanford CoreNLP Princeton WordNet SLU Eingabe

CTT Kontext Vergleich Simulation (M,E,S)

Bewertung Taskmanager

Subkontext Text Dialogmanager

Abbildung 5.1: Architektur der Implementierung (in der vorliegenden Ar- beit umgesetzte Module sind grün dargestellt).

Im ersten Schritt der Analyse des SLU-Moduls erfolgt eine einfa- che Erkennung von Eigennamen mittels einer manuellen Liste (nicht in Abbildung 5.1 dargestellt). Anschließend wird die textuelle Ein- Stanford CoreNLP gabeEvaluation durch die 1Stanford CoreNLP Bibliothek (Version 3.5.1) annotiert. Wie Manning, Surdeanu u. a. (2014) zu entnehmen ist, setzt sich die Analyse aus einer Sequenz verschiedener Analysemodulen (engl. An- notator genannt) zusammen. Die vorliegende Arbeit nutzt hierbei ei- ne Sequenz aus „Tokenization“, „Sentence Splitting“, „Part-of-Speech

1 https://www.java.com/ [Online 08.11.2015] 2 http://giove.cnuce.cnr.it/ctte.html [Online 18.09.2015] 5.1 nachweis der machbarkeit durch implementierung 151

Tagging“, „Morphological Analysis“ und „Syntactic Parsing“. Es wer- den die Standardmodelle für Englisch verwendet, außer für den An- notator „Part-of-Speech Tagging“, welcher ein spezielles, gegenüber Groß- und Kleinschreibung invariantes, Modell nutzt (english-case- less-left3words-distsim.tagger). Die Basisform und die Wortart der Konstituenten können somit im WordNet identifiziert werden. Zur Anbindung von WordNet setzt die Implementierung auf das Java Word- WordNet Net Interface (JWI) in Version 2.3.3 vom Massachusetts Institute of Technology (Finlayson, 2014). Im Vergleich zu vielen anderen Biblio- theken als Schnittstellen zu WordNet zeichnet sich das JWI in erster Linie durch einen schnellen Zugriff aus. Unterstützt wird die Word- Net Version 3.0, welche somit in der vorliegenden Arbeit zum Ein- satz kommt. Für einen Anwendungsentwickler ist, zur Spezifikation der Domänenobjekten, ein einfacher und übersichtlicher Zugriff auf WordNet notwendig. Hierfür wird der WordNet-Browser3 der Univer- sität von Rochester (URCS) verwendet (siehe Abbildung 5.2), welcher eine Übersicht über Objekte und deren Hyponym-/Hyperonym-Be- ziehungen, Synonyme, Namen, Identifikatoren und Beschreibungen liefert.

Abbildung 5.2: Screenshot des URCS-WordNet-Browsers (Version 1.0, GNU General Public License) mit beispielhafter Suche nach Wa- shington und einer dargestellten Instanz.

Der Taskmanager ist das Kernmodul dieser Arbeit, welches die Al- Taskmanager als gorithmen des Konzepts in einer Java-Implementierung umsetzt. Die Kernmodul CTT-Simulation ist hierbei kompatibel zu den Arbeiten von Paternò (2000) unter Nutzung desselben XML-Schemas zur Beschreibung von Taskmodellen. Dies ermöglicht dem Anwendungsentwickler, auf das etablierte Tool CTT-Environment4 zurückzugreifen. Für den Einsatz im SDS und zur Evaluation sind Schnittstellen zu Schnittstellen zu anderen Modulen (API) unerlässlich. In erster Linie sind dies Ein- und anderen Modulen Ausgabe, erstere zum Entgegennehmen von Objekten der Wissens- basis beziehungsweise ihren syntaktischen Argumente (UserInput), und letztere in der Form des auszuführenden Subkontextes (oder

3 http://www.cs.rochester.edu/research/cisd/wordnet/ [Online 29.01.2016] 4 http://giove.cnuce.cnr.it/ctte.html [Online 18.09.2015] 152 implementierung und evaluation

mehrerer bei keiner Eindeutigkeit). Während der Dialogmanager die Ausführung von Tasks steuert, ist es erforderlich, dem Taskmanager mitzuteilen, welche zur Ausführung kommen, so dass der Kontext erstellt werden kann. Die Bewertungsfunktion lässt sich mittels ver- schiedener Gewichte anpassen, was über den Dialogmanager zu kon- figurieren ist. Die Taskmodelle können dynamisch zur Laufzeit hin- zugefügt oder aber deaktiviert werden, was zum Beispiel einerseits Updates und andererseits ein nachträgliches Installieren sowie Dein- stallieren von Anwendungen ermöglicht. Hierfür bietet der Taskma- nager ebenfalls eine API. Für die Evaluation ist wichtig, einen be- stimmten Zustand des Taskmodells zu setzen, sowie die Werte des Vergleichs und der Bewertung zu protokollieren, um diese später zu analysieren.

5.2 evaluation

Anhand der Implementierung zur Machbarkeit soll im Folgenden das Evaluation Konzept Konzept evaluiert werden, um Vor- und Nachteile zu identifizieren. Die CTT-Simulation ist hierbei auf Basis eines etablierten Algorith- mus entwickelt, weshalb sich die Evaluation hauptsächlich auf den Vergleich zwischen Kontext und Eingabe sowie die Übergabe von Pa- rametern zwischen Taskmodellen bezieht. Im Folgenden werden zu Beginn das Konzept der Evaluation und anschließend die Ergebnisse der beiden Teile präsentiert.

5.2.1 Evaluation mittels bestehendes Korpus

Zur Evaluation eines Sprachdialogsystems können einerseits Nutzer- studien, wie in Kapitel 3 gezeigt, oder andererseits bestehende Kor- pora eingesetzt werden. Während Nutzerstudien die Möglichkeit bie- ten, subjektive Meinungen von Versuchspersonen detailliert zu er- fassen, ist deren Durchführung aufwendig, und die Datensätze sind meist vergleichsweise klein. Ein bestehendes SDS hingegen hat den Nachteil, Nutzer in der Regel nicht befragen zu können, kann jedoch die Nutzung des Sprachdialogsystems in realer Situation aufzeichnen und ermöglicht dadurch die Erfassung umfangreicher Korpora. Für eine leistungsorientierte Betrachtung des entwickelten Konzepts ist Korpus anstatt somit die Nutzung eines bestehenden Korpus einer Nutzerstudie vorzu- Nutzerstudie ziehen. Zumal in eine Nutzerstudie ein Ende-zu-Ende-SDS notwendig wäre, wobei in der vorliegenden Arbeit lediglich die Evaluation des Taskmanagers im Fokus steht, und andere SDS-Module somit zusätz- liche Fehlerquellen darstellen würden. Es existieren viele verschiedene Korpora mit unterschiedlichen Ei- genschaften. Während eine große Anzahl in erster Linie aus Audioda- ten und deren Verschriftung bestehen (wie z.B. Wooters (2015), Euro- pean Language Resources Association (2015) und Brutti u. a. (2010)), 5.2 evaluation 153

benötigt die vorliegende Arbeit ein Korpus, das das textuelle ASR- Ergebnis, die semantische Interpretation, die Dialogabfolgen und zu- sätzlich die spezifizierte Anwendung enthält. Dies bietet das Korpus DSTC-Korpus der Dialog State Tracking Challenge (DSTC), welches auf den Sprach- dialogsystemen der Spoken Dialog Challenge (SDC) von Black u. a. (2010) basiert. In der SDC wurden drei verschiedene telefonbasierte Sprachdialogsysteme mit unterschiedlichen Komponenten und Dia- logverhalten, aber derselben Aufgabe, realen Nutzern zugänglich ge- macht. Die Aufgabe basiert auf dem „Let’s Go! bus“-SDS, welches Auskünfte über Busfahrpläne von Pittsburgh (USA) liefert (Raux u. a., 2005). Hierbei können reale Nutzer, abhängig von Busroute, Abfahrt, Ankunft, Uhrzeit und Datum, verschiedene Fahrpläne abrufen. Die DSTC annotierte die Dialoge der drei verschiedenen Sprachdialog- systeme bezüglich der semantischen Interpretation (Labels genannt). Hierbei ergibt sich für jeden Dialog eine Referenz, bestehend aus ASR-Ergebnis, Verschriftung, semantischer Interpretation und Dialog- schritte (siehe AnhangB. 3). Da die DSTC in erster Linie statistische Dialogmanager evaluiert, sind die Datensätze in Trainings- und Test- daten geteilt. Abbildung 5.3 zeigt das Konzept der Evaluation auf schematische Weise. Konzept Anhand der Definition der „Let’s Go!“-Anwendung wird ein Taskmo- schematisch dell in CTT-Notation definiert und anschließend dessen Tasks mit Do- mänenobjekten der Wissensbasis annotiert (siehe unten). Als weitere Vorarbeit müssen die spezifischen Instanzen, wie zum Beispiel Bus- haltestellen in Pittsburgh, dem WordNet hinzugefügt werden. In der vorliegenden Evaluation sind diese aus den annotierten Labels der Trainingsdaten extrahiert. Eine reale Anwendung müsste hierbei die mögliche Datenbasis zur Verfügung stellen. Existiert die Datenbasis in einer allgemeine Wissensbasis wie beispielsweise YAGO (Suchan- ek u. a., 2007), einer Wissensbasis, die Instanzen aus Wikipedia5 mit Konzepten von WordNet verbindet, könnte diese alternativ eingesetzt werden. Zur Laufzeit lädt der in dieser Arbeit implementierte Task- manager (siehe Abschnitt 5.1) WordNet sowie die definierten Taskmo- delle und verarbeitet die Eingaben des Korpus. Hierbei dient die je- weils beste ASR-Hypothese eines Dialogschrittes als Eingabe, da Ver- schriftungen durch Menschen uneinheitliche Schreibweisen enthalten (z.B. Groß- und Kleinschreibung, Ausschreiben von Zahlen, usw.), und somit nicht vergleichbare Ergebnisse zu einem realen SDS liefern würden. Dieses Vorgehen ist identisch zu der Verarbeitung des DSTC- Baseline-Trackers (siehe unten). Die Implementierung bildet den Text des ASR-Ergebnisses auf Tasks und Subkontexte ab, welche anschlie- ßend mit den manuell annotierten Labels, also der menschlich erstell- ten Referenzinterpretation, verglichen werden. Dies ermöglicht die Leistung des Konzepts der vorliegenden Arbeit zu evaluieren. Das Taskmodell der „Let’s Go!“-Anwendung, inklusive seiner Domäne- Taskmodell & Domänenobjekte der 5 http://wikipedia.org/ [Online 11.11.2015] Anwendung 154 implementierung und evaluation

Korpus (DSTC) Spezifikation Taskmodell Trainingsdaten Testdaten

ASR-Ergebnis Taskmanager

Annotierte Labels Vergleich

Instanzen

Princeton WordNet

Abbildung 5.3: Konzept der Evaluation mittels DSTC-Korpus.

nobjekte, ist in AnhangB. 2 dargestellt. Für jede semantisch relevan- te Eingabe (Slot genannt) existiert ein Task, wobei Abfahrt, Ankunft, Datum und Zeit hierarchisch als abstrakte Tasks gruppiert sind. Wäh- rend dies für Zeit und Datum der Lesbarkeit geschuldet ist, ist es für Abfahrt und Ankunft essentiell, da deren Subtasks dieselben Kon- zepte als Eingabe erwarten, nämlich Bushaltestelle, Wohngegend oder Landmarke. Die Anwendung sieht jedoch vor, bei einzelner Eingabe von Bushaltestelle, Wohngegend oder Landmarke dies als Abfahrsort zu interpretieren, weshalb diese Tasks zusätzlich im Taskmodell ohne Hierarchie wiederholt werden. Eine Reihenfolge der Tasks unterein- ander ist in der „Let’s Go!“-Anwendung nicht definiert, weshalb alle Tasks mit dem Operator verschachtelt verbunden werden. Die Domä- nenobjekte jedes Tasks sind auf Basis von WordNet 3.0 Konzepten definiert. In bestimmten Fällen, wie zum Beispiel der Nutzeräuße- rung „Zeige Busroute 61c an“, kann eine Kombination aus Konzept (Busroute) und Instanz (61c) sinnvoll sein und wird als Kombination beider definiert. Die DSTC definiert drei JavaScript Object Notation (JSON)-Forma- te für das Dialogprotokoll, die manuell annotierte Referenz und die Interpretation des Dialog-Trackers (für eine genaue Definition siehe Dialogprotokoll Williams, Raux u. a. (2012)). Das Dialogprotokoll (siehe AnhangB. 3.1) stellt die gesamte Interaktion, also einen Telefonanruf zwischen Nut- zer und SDS, dar. Wichtig hierbei sind der Dialogzustand der Aus- gabe (act), das heißt, welche Tasks nachgefragt werden (act=request), ein Neustart (restart) und die ASR-Hypothesen der Eingabe (asr-hyp). Referenzdatei Die Referenzdatei, dargestellt in AnhangB. 3.2, beinhaltet die manuelle Verschriftung (transcription) sowie eine Bewertung der semantischen Interpretation (label) hinsichtlich korrekt (true) oder nicht korrekt (fal- Interpretation se). Die Interpretation des Dialog-Trackers (siehe AnhangB. 3.3) wird pro Dialog-Tracker Dialogschritt für jeden Slot einzeln aufgeführt. Der Taskmanager der vorliegenden Arbeit nutzt das Dialogprotokoll als Eingabe und spei- 5.2 evaluation 155 chert seine Interpretation konform zur DSTC. Somit lassen sich die Analysetools der DSTC zur Evaluierung nutzen und für die in Ab- schnitt 5.2.2 und 5.2.3 vorgestellten Evaluationsmetriken anpassen. Wie erwähnt, besteht das Korpus der DSTC aus einer Sammlung an Dialogen verschiedener Sprachdialogsysteme, welche jeweils als ein- zelne Datensätze vorliegen. Die vorliegende Arbeit nutzt jedoch nur verwendete die Datensätze train1a, train2, test1, und test4, da andere nicht zwi- Datensätze schen Bushaltestelle, Wohngegend und Landmarke unterscheiden und somit unterschiedliche Taskmodelle erfordern würden. Alles in allem sind 2907 Dialoge, mit durchschnittlich 3,05 Nutzereingaben, in der Auswertung berücksichtigt. Die geringe Anzahl an Nutzereingaben pro Dialog lässt sich darauf zurückführen, dass nur Nutzereingaben mit korrekt annotierten Labels der Referenz in den Vergleich einflie- ßen.

5.2.2 Ergebnisse hinsichtlich Abbildung der Eingabe auf Tasks

Eine wichtige Metrik bezüglich der Interpretation gesprochener Spra- che stellt die Konzeptgenauigkeit (CA, engl. Concept Accuracy) dar (Bo- Konzeptgenauigkeit ros u. a., 1996). Diese basiert auf der Annahme, die Interpretation der Nutzeräußerung bestehe aus einer Liste an semantischen Einheiten (SU für engl. Semantic Unit), welche im Inhalt die Absicht des Nut- zers enthält. Eine semantische Einheit besteht in der Regel aus einem Attribut und zugehörigem Wert (z.B. „from.neighborhood=downtown pittsburgh“). Unter Hinzunahme einer Referenz lässt sich nun die In- terpretation, welche in vorliegender Arbeit die Abbildung von Kon- zepten und Instanzen der Eingabe auf Tasks darstellt, anhand derCA evaluieren:

SUS + SUI + SUD CA = 1 − (6) SU Hierbei ist SU die Gesamtanzahl aller semantischen Einheiten der Referenz. Die Werte für SUS, SUI und SUD ergeben sich aus der An- zahl der ersetzten, eingefügten und gelöschten semantischen Einhei- ten. Stimmt eine semantische Einheit zwar im Attribut zur Referenz überein, weicht jedoch zugleich vom Wert her ab, wird dies als Erset- zung gewertet. EineCA von 1 bedeutet somit, dass jede semantische Einheit korrekt interpretiert wurde. Da die Evaluation lediglich korrekt annotierte Nutzereingaben der DSTC verwendet, muss jeweils der aktive Dialogzustand aus der Re- ferenz dem Taskmanager zur Verfügung gestellt werden. Basierend darauf wird der jeweilig nachzufragende Task aktiviert oder, durch einen nutzer-initiierten Neustart, das Taskmodell zurückgesetzt. Da- von ausgehend erfolgt eine Analyse des ASR-Ergebnisses durch den Taskmanager und die Ausgabe der ausgeführten Tasks im Format für Dialog-Tracker. Die Analysetools der DSTC wurden hinsichtlich CA erweitert, und die in dieser Arbeit entwickelte Methode wurde 156 implementierung und evaluation

in Vergleich zum Baseline-Tracker der DSTC gesetzt. Der Baseline- Tracker nutzt die höchsten SLU-Konfidenzen der in der SDC genutz- ten Sprachdialogsysteme und bildet somit die Leistung bestehender Systeme ab. Gesamtergebnis: Das Gesamtergebnis bezüglich derCA über alle Tasks - respektive Taskmanager besser Slots - zeigt klare Vorteile für den in dieser Arbeit entwickelten Ansatz. als Baseline Unter Berücksichtigung von 9286 Slots ergibt sich eineCA in Höhe von 71% für die Implementierung vorliegender Arbeit und 51% für den Baseline-Tracker der DSTC. Somit zeigt sich eine Verbesserung derCA für den Ansatz der vorliegenden Arbeit um ca. 20%, wobei eine Gewichtung zur Taskbewertung von (msc, esc, ssc) = (1, 1, 1) angenommen wurde. Einzelanalyse Neben dem Gesamtergebnis ist jedoch die Einzelanalyse für jeden pro Slot Slot von entscheidender Bedeutung. Nur dadurch kann eine verläss- liche Aussage getroffen werden, inwieweit vorliegendes Konzept ein- gesetzt werden kann. Abbildung 5.4 zeigt für jeden Task - respektive Slot - dieCA sowie zusätzlich die Anzahl an analysierten semanti- schen Einheiten pro Slot. Die Anordnung der Slots im Diagramm setzt beide Ansätze in Korrelation zueinander, wobei diejenigen auf der linken Seite (verdeutlicht durch grüne Balken) von vorliegendem Ansatz profitieren, wogegen Slots auf der rechten Seite (mit rotem Balken) besser mit dem Baseline-Tracker interpretiert werden. Deut- lich feststellbar bietet der Taskmanager Vorteile beim Erkennen von Slots, welche eindeutig bestimmbare Konzepte und Instanzen referen- zieren, wie zum Beispiel eine Busroute (route), eine Haltestelle (desc) oder einen Wochentag (day). Hingegen zeigen sich bei mehrdeutigen Werten, wie zum Beispiel Minute (time.minute) klare Nachteile. Dies ist darauf zurückzuführen, dass diese Zahlenwerte ebenso beispiels- weise einer Temperatur zugeordnet werden könnten. Der Slot Stunde (time.hour) hingegen profitiert von der Kombination des Zahlenwerts mit dem Konzept o0clock%4:02:00::, da somit die Äußerung „next bus at one o’clock“6 eindeutig der Uhrzeit ein Uhr zugeordnet wer- den kann. Strukturierte Werte, wie zum Beispiel genaue Zeitinforma- tionen, zeigen sich zudem kritisch, da schwierig zu bestimmen ist, ob zum Beispiel „halb vier“ als eine Instanz oder als Kombination aus Stunde und Minute modelliert werden soll. Zur verlässlichen Inter- pretation von Zeit und Datumswerten existieren jedoch eine Vielzahl an grammatikbasierter Arbeiten, welche in Kombination mit dem vor- liegenden Ansatz genutzt werden könnten (siehe Abschnitt 6.3). Slotweiser Vergleich Ein weiteres Problem zeigt sich bei der Betrachtung der interpre- von Referenz und tierten Slots im Vergleich zu den Slots der Referenz. Wie der Konfusi- Interpretation onsmatrix in Abbildung 5.5 zu entnehmen, werden die Subtasks der Slots from und to besonders häufig verwechselt. Das heißt, ein An- kunftsort (t.*) wird oftmals fälschlicherweise als Abfahrtsort (f.*) er- kannt. Dies trifft gleichermaßen für Haltestelle (desc), Wohngegenden

6 Übersetzung des Autors: Nächster Bus um ein Uhr 5.2 evaluation 157

1 3000 N Taskmanager DSTC Baseline

2500 0,8

2000 Slots(N) Anzahl 0,6

1500 Konzeptgenauigkeit (CA) Konzeptgenauigkeit 0,4 1000

0,2 500

0 0

Abbildung 5.4: Konzeptgenauigkeit der entwickelten Methode im Vergleich zur Baseline.

(neigh) und Landmarken (mon) zu. Geschuldet ist dies der Hierarchie des Taskmodells, da die Unterscheidung zwischen Ankunft und Ab- fahrt lediglich auf Basis der Dependenzannotation getroffen werden kann. Bei identischen Konzepten als Domänenobjekte, und komple- xen Satzstrukturen, ist der Ansatz über Argumente der Nomen somit nicht ausreichend. Zusätzlich zeigen sich Homonyme für Haltestellen (desc) und Wohngegenden (neigh) als problematisch, da vorliegender Ansatz keine Auflösung von Mehrdeutigkeiten durchführt, sondern das erste Ergebnis wählt. Hierfür könnte eine Hilfestrategie, wie in Kapitel 3 iterativ entwickelt, vom Dialogmanager genutzt werden.

date.day

Slots time.rel time.hour time.ampm t.mon Erkannte t.neigh t.desc f.mon f.neigh f.desc

route

route

f.desc

f.mon

t.desc

t.mon

f.neigh

t.neigh

time.rel

date.day

time.hour time.ampm Annotierte Slots (Referenz)

Abbildung 5.5: Konfusionsmatrix zum Vergleich erkannter und annotierter Slots. Kreisfläche entspricht Anzahl abgebildeter Slots. Blau Linie zeigt den Wert korrekter Zuordnung.

Um den Einfluss der Gewichte der Bewertungsfunktion (siehe For- Bewertungsfunktion mel (5) aus Abschnitt 4.3.4) zu analysieren, erfolgte die Berechnung 158 implementierung und evaluation

mit unterschiedlichen Gewichten. Wie zu erwarten, zeigen sich hier- bei keinerlei Unterschiede. Dies lässt sich in erster Linie auf die sehr geringe Query-Density (Glass u. a., 2000) der Dialoge in Höhe von durchschnittlich 0,721 (SD: 0,044) zurückführen. Das heißt, weniger als ein Task wurde pro Nutzeräußerung ausgeführt. In Kombination mit nur einem aktiven Taskmodell ergeben sich somit wenige Bedin- gungen, in welchen mehrere Subtasks in Frage kommen könnten.

5.2.3 Ergebnisse bezüglich der Taskausführung und Parameterübergabe

Wie im vorherigen Abschnitt diskutiert, lässt sich die Bewertungs- funktion auf Grund der geringen Query-Density schlecht analysie- ren. Da die parallele Eingabe, beziehungsweise die Übergabe meh- rerer Parameter zwischen Anwendungen, ein essentieller Bestandteil Query-Density der vorliegenden Arbeit ist, muss die Query-Density erhöht, und zu- erhöhen & sätzlich müssen mehrere semantisch ähnliche Taskmodelle hinzugefügt semantisch ähnliche werden. Ersteres wird durch Fusion der korrekt annotierten Eingabe Taskmodelle hinzufügen (label=true) einzelner Dialogschritte zu einer Gesamteingabe erreicht (siehe AnhangB. 3.4). Somit erfolgt pro Dialog (ohne Neustart) die Eingabe aller Konzepte und Instanzen auf einmal, was eine Para- meterübergabe zwischen Anwendungen, jeweils am Ende eines Dia- logs, simuliert. Zusätzlich werden semantisch ähnliche Taskmodelle, in Form einer Restaurantsuche, Touristeninformation, Wetter- und Nachrichtenanwendung, hinzugefügt. Restaurant- sowie Touristen- information zeigen hierbei eine Ähnlichkeit zur Busanwendung in Form von Stadtteilen und Landmarken, wogegen Wetter Datum und Städte abdeckt. Eine Besonderheit ist mit der Nachrichtenanwendung umgesetzt, da diese sehr abstrakte Suchbegriffe (entity%1:03:00::) an- nimmt, wie beispielsweise beliebige Dinge oder Personen. Während eine Analyse hinsichtlichCA bei der Interpretation einer Nutzeräußerung Auskunft über die Qualität liefert, ist bei einer rei- nen Abbildung von bereits interpretierten Konzepten und Instanzen diese Metrik nicht einsetzbar, da eingefügte und ersetzte semantische Einheiten nicht auftreten können. Somit bleibt als Evaluationsmetrik Identifikation für die Parameterübergabe einerseits eine korrekte Identifikation des Taskmodell & Taskmodells und andererseits die Anzahl der zuordenbaren Slots. Wie er- zuordenbare Slots wähnt, erfolgt die Eingabe über die fusionierten korrekt annotierten Slots pro Dialog (ein Neustart zählt als eigenständiger Dialog). Im ers- ten Schritt wird hierzu die Eingabe den entsprechenden Konzepten und Instanzen der Wissensbasis zugeordnet und im zweiten Schritt vom Taskmanager verarbeitet. Das Ergebnis der Taskzuordnung kann anschließend mit der Referenz verglichen werden. Um eine Analy- se der Bewertungsfunktion (siehe Formel (5) aus Abschnitt 4.3.4) zu ermöglichen, findet die Berechnung mittels verschiedener Gewichte statt. 5.2 evaluation 159

Insgesamt analysierte der Taskmanager 3025 verschiedene Einga- ben mit durchschnittlich 2,938 Slots (SD=0,27). Somit beinhaltet der Datensatz mit 8888 Slots geringfügig weniger Slots als die Analyse im vorherigen Abschnitt. Dies lässt sich darauf zurückführen, dass jeweils der Zustand zum Ende eines Dialogs eine Eingabe ergibt, wo- gegen zur Analyse im aktiven Dialog zusätzlich auch mehrmalige Änderungen eines Slots während des Dialogs berücksichtigt werden. Wie erwähnt ist zu prüfen, ob die Eingabe das Taskmodell des Bus- Ergebnis informationssystems eindeutig identifiziert, oder ob Mehrdeutigkeiten Identifikation zu anderen Taskmodellen auftreten. Abbildung 5.6 zeigt die Anzahl Taskmodell der Eingaben, welche korrekt dem Taskmodell zugeordnet werden können, unterteilt in Anzahl der Slots der Eingabe und Gewichtung der Bewertungsfunktion. Deutlich zu sehen, führen die Bedingun- gen ohne semantische Ähnlichkeit zu einer schlechteren Identifikati- on des Taskmodells, wogegen ein Einfluss der anderen Dimensionen nicht festzustellen ist. Bei der Betrachtung der Anzahl an Slots der Eingabe zeigt sich, dass Parameterübergaben mit wenigen Slots, und ohne Bewertung der Ähnlichkeit, oftmals nicht eindeutig zugeordnet werden. Dies lässt sich darauf zurückführen, dass zum Beispiel ei- ne Zuordnung von einer Instanz des Konzepts city%1:15:00:: zum allgemeineren Konzept geographical_area%1:15:00:: der Wetteran- wendung erfolgen könnte. Bei einer höheren Anzahl an Slots als Ein- gabe tritt dies nicht auf, da die Wahrscheinlichkeit konkurrierender Taskmodelle mit Zunahme der Slotanzahl abnimmt.

3000 Slots: 254 254 254 254 2500 9 568 567 567 567 8 2000 7 250 250 1500 758 250 757 758 757 6 535 537 537 5

identifiziertem Taskmodell identifiziertem 1000 Anzahl Eingaben mit korrekt korrekt mit Eingaben Anzahl 583 580 583 580 4 588 596 597 3 500 631 616 631 616 2 304 311 311 0 52 52 52 1 (0,0,1) (0,1,0) (1,0,0) (0,1,1) (1,0,1) (1,1,0) (1,1,1) Gewichtung der Bewertungsfunktion

Abbildung 5.6: Identifikation eines Taskmodells abhängig von den Gewich- ten (msc, esc, ssc) der Bewertungsfunktion und der Anzahl an Slots pro Eingabe.

Neben der Identifikation des richtigen Taskmodells ergibt ein de- taillierter Blick auf die Zuordnung der Eingabe zu Slots Vor- und Nach- Zuordnung Eingabe teile des Konzepts, bezogen auf die Parameterübergabe. Abbildung 5.7 zu Slots zeigt eine Übersicht der übergebenen Parameter abhängig von der Anzahl der eingegebenen Slots sowie eine Unterscheidung bezüglich der semantischen Ähnlichkeit (ssc). Wie zuvor bereits diskutiert, ist deutlich zu erkennen, dass ohne semantische Ähnlichkeit (1,1,0) in erster Linie Eingaben mit wenigen Slots schlecht zugeordnet werden. 160 implementierung und evaluation

Jedoch zeigt sich ein weiterer Punkt anhand des Diagramms: eine Ein- gabe von mehr als zwei Slots führt zu einer nicht vollständigen Zu- ordnung zu Tasks, das heißt, gewisse Slots werden ignoriert. Gründe hierfür sind die Hierarchie des Taskmodells und die identischen Kon- zepte von Abfahrt- und Ankunftsort. Bei der Eingabe eines Slots einer Bushaltestelle zum Beispiel (*.desc → bus_stop%1:15:00::) ist für den Taskmanager nicht ersichtlich, ob dies Ankunft (t.desc) oder Abfahrt (f.desc) ist. Bei einer realen Parameterübergabe zwischen Taskmodel- len müssen somit die zugewiesenen Domänenobjekte der abstrakten Tasks mit übergeben werden.

8

(wm,we,ws)=(1,1,1)(msc, esc, ssc)=(1,1,1) Slots (M,E,S)=(1,1,0)(m , e , s )=(1,1,0) 6 sc sc sc

4 zugeordneter zugeordneter

Anzahl Anzahl 2

0 0 2 4 6 8 Anzahl eingegebener Slots

Abbildung 5.7: Konfusionsmatrix zum Vergleich übergebener Parameter be- zogen auf Anzahl der Slots. Kreisfläche entspricht Anzahl abgebildeter Eingaben. Graue Kreise sind kleiner oder iden- tisch zu schwarzen. Rote Linie zeigt den Wert einer optima- len Abbildung.

Die Analyse der Bewertungsfunktion zeigt in erster Linie die Wich- tigkeit der semantischen Ähnlichkeitsbeziehungen und wenig Ein- fluss von Ausführbarkeit sowie Übereinstimmung. Jedoch ist dies zurückzuführen auf die konkurrierenden Taskmodelle, da in erster Linie auf semantisch ähnliche Eingaben fokussiert wird. Eine Aussa- ge hinsichtlich der Gewichte ist somit nur beschränkt möglich und hängt von den jeweiligen Taskmodellen sowie dem Einsatzzweck des Sprachdialogsystems ab. Bei einer Parameterübergabe muss die Hier- archie der Taskmodelle mit berücksichtigt werden, um identische Kon- zepte und Instanzen korrekt abzubilden. In einem realen SDS basiert ein Anwendungswechsel auf explizi- ten beziehungsweise impliziten Äußerungen des Nutzers, welche zu- sätzlich in die Analyse einfließen sollten. Zum Beispiel könnte ein impliziter Anwendungswechsel („Wie ist das Wetter dort“) einerseits über das Konzept (weather%1:19:00::) die nächste Anwendung be- stimmen und andererseits über Auflösung der anaphorischen Refe- renz einen Parameter von der vorherigen zur neuen Anwendung übergeben. 5.3 theoretischer abgleich der anforderungen 161

5.3 theoretischer abgleich der anforderungen

Bisher erfolgte eine Evaluation des entwickelten Konzepts anhand praktischer Implementierung und anschließender Analyse mit einem bestehenden Korpus. Ein weiterer wichtiger Punkt stellt jedoch die theoretische Betrachtung und Evaluation hinsichtlich der definierten Anforderungen dar (siehe Abschnitt 3.4 und 4.1.1). Diese Anforderun- gen wurden auf Basis von explorativen Nutzerstudien definiert und bilden die Grundlage des entwickelten Konzepts. Im Folgenden soll nun dieses hinsichtlich jener Anforderungen bewertet werden.

A1: Eine konsistente sprachliche Interaktion über verschiedene Anwendungen hinweg muss möglich sein. Das vorliegende Konzept setzt auf der Basis einer vollständigen domänenunabhängigen Verschriftung des Sprachsignals auf, wo- durch sich keinerlei Inkonsistenzen in Punkten der ASR erge- ben. Dies gilt ebenso hinsichtlich der Interpretation und Ab- bildung als Objekte einer allgemeinen lexikalisch-semantischen Wissensbasis (siehe Abschnitt 4.3.1). Auf Grund der einheitli- chen Kontextbewertung, und somit der Taskausführung, ist ei- ne konsistente sprachliche Interaktion über verschiedene Taskmo- delle hinweg gegeben. Jedoch können sich Unterschiede in Punk- ten der Modellierung von Taskmodellen ergeben, das heißt, die hierarchische Untergliederung in Subtasks sowie definierte Ope- ratoren und Vorbedingungen zwischen den Tasks, können von jedem Anwendungsentwickler unterschiedlich umgesetzt wer- den. Bezogen auf die Definition der Domänenobjekte, und so- mit auf die Bedeutung von Konstituenten mit ihren Synonymen, zeigt sich Konsistenz, da die lexikalisch-semantische Wissensba- sis Objektidentität voraussetzt. Zusätzlich sieht das vorliegende Konzept einen generischen Dialogmanager vor, welcher unab- hängig von der Anwendungsdomäne Hilfestrategien implemen- tiert (siehe Abschnitt 4.1.3).

A2: Nutzer müssen Anwendungen implizit sowie explizit wech- seln können. Der Kontext eines nicht-aktiven Taskmodells ergibt sich aus dem Taskmodellsubkontext, den globalen sowie den pfadabhängi- gen Subkontexten (siehe Abschnitt 4.3.2). Da im Gesamtkon- text jeweils all diese Subkontexte enthalten sind, auch wenn ein anderes Taskmodell gerade aktiv ist, können Nutzer zwischen Anwendungen wechseln. Im Falle eines expliziten Wechsels der Anwendung ergibt der Vergleich zwischen Nutzereingabe und Taskmodellsubkontext die höchste Bewertung und das entspre- chende Taskmodell kann aktiviert werden. Einen Unterschied zwischen explizitem Wechsel und Start einer Anwendung sieht 162 implementierung und evaluation

das vorliegende Konzept nicht vor, da dies in erster Linie für ei- ne Dialoghistorie oder einen Meta-Dialogmanager von Interes- se ist, welche beide in der vorliegenden Arbeit nicht betrachtet werden. Im Falle eines impliziten Anwendungswechsels ist dies identisch zum impliziten Anwendungsstart und wird durch die Integration der globalen und pfadabhängigen Subkontexte er- reicht. Als Resultat zeigt sich das vorliegende Konzept hinsicht- lich implizitem und explizitem Anwendungswechsel als erfolg- reich, wobei bei ähnlichen Anwendungen Hilfestrategien des generischen Dialogmanagers Mehrdeutigkeiten auflösen müs- sen.

A3: Zwischen beliebigen Anwendungen müssen Parameter über- geben werden. Zur Übergabe von Parametern nutzt das vorliegende Konzept einen ähnlichen Ansatz wie Klug und Kangasharju (2005), wel- che Input- und Output-Ports von Tasks zur Informationsüber- tragung auf Basis einer Ontologie definieren. Auf Grund ei- ner gemeinsamen Wissensbasis können Ein- und Ausgaben der Tasks von einem Taskmodell auf ein anderes Taskmodell über- tragen werden. Der Prozess der Parameterübergabe erfolgt nach demselben Prinzip wie eine sprachliche Eingabe, jedoch mit bereits eindeutig interpretierten Konzepten und Instanzen (sie- he Abschnitt 4.3.3 und Abschnitt 4.3.4). Die Evaluation beweist das Prinzip der Parameterübergabe, identifiziert jedoch ein Pro- blem der Abbildung bei fehlender Hierarchieinformation des Ursprungs-Taskmodells. In der Implementierung kann dies mit einem zusätzlichen Transfer der Objekte abstrakter Tasks er- reicht werden. Zusätzlich erfordert der Taskmanager eine In- formation der zu übergebenden Parameter. Basiert die Überga- be auf anaphorischen Referenzen der Nutzeräußerung, finden sich bestehende linguistische Lösungen, wie sie zum Beispiel in Mitkov (2014) detailliert zusammengefasst sind. Eine andere Lösung wäre, alle vorhandenen Parameter als Gesamtzustand zu übergeben, unabhängig davon, ob die Zielanwendung die- se überhaupt benötigt. Planells u. a. (2013) nutzen diesen An- satz durch standardmäßige Übergabe von Datum, Zeit und Ort. Im vorliegenden Konzept wäre dies ohne Probleme möglich, da Objekte, welche nicht auf den Subkontext einer anderen Anwen- dung abbildbar sind, nicht beachtet werden. Somit zeigt sich die Parameterübergabe als möglich.

A4: Eine Hilfestrategie erfordert die Bestimmung der wahrschein- lichsten nächsten Anwendungen auf Basis der Nutzeräuße- rung und des Dialogkontextes. Der Gesamtkontext des Taskmanagers umfasst die Vereinigung der Kontexte aller verfügbaren Anwendungen, wodurch eine 5.4 zusammenfassung und diskussion 163

Nutzereingabe immer hinsichtlich aller Anwendungen bewer- tet wird. Im Falle einer Mehrdeutigkeit an zutreffenden Anwen- dungen (durch gleichem beziehungsweise ähnlichem f_sc-Wert der Formel (5) aus Abschnitt 4.3.4) stehen somit die Anwendun- gen, welche die Nutzereingabe verarbeiten können, fest, und die Mehrdeutigkeit lässt sich mittels Hilfestrategie auflösen. So- mit ergibt sich der Vorteil, lediglich die wahrscheinlichsten An- wendungen nennen zu müssen und nicht alle vorhandenen. Ei- ne Vorhersage der wahrscheinlichsten nächsten Anwendungen lediglich auf Basis des Dialogkontextes, wie im Falle einer OOA- Anfrage, geschieht über eine Vorabberechnung der möglichen Parameterübergaben. Eine Implementierung beider Fälle ist tri- vial und somit nicht Teil vorliegender Arbeit.

A5: Abhängigkeiten zwischen verschiedenen Anwendungen sol- len sich dynamisch zur Laufzeit ergeben. Der technischen Anforderung, in Form eines dynamischen Hin- zufügens und Entfernens von Anwendungen, wird Rechnung getragen, indem dass Taskmodelle für sich stehen und keiner- lei Abhängigkeiten zwischen diesen definiert sind. Der Kontext (siehe Abschnitt 4.3.2) wird dynamisch nach jeder Nutzerein- gabe - beziehungsweise Änderung der Taskmodelle - neu be- rechnet, weshalb hierbei keinerlei Einschränkungen auftreten. Die Verbindung zwischen Anwendungen zur Parameterüber- gabe ergibt sich ebenfalls zur Laufzeit, durch Nutzung einer gemeinsamen Wissensbasis. Benötigt eine Anwendung eine Er- weiterung der Wissensbasis, können Parameter erst übergeben werden, wenn diese Erweiterung als Update der Wissensbasis eingespielt wurde.

Die theoretische Betrachtung hinsichtlich der einzeln definierten Anforderungen zeigt im Allgemeinen eine positive Bewertung des Kon- Konzept positiv zepts. Da sich diese Bewertung jedoch hauptsächlich auf den Taskma- bewertet nager bezieht, ist nicht sichergestellt, dass andere Module (z.B. ASR, SLU, generischer Dialogmanager) diese Anforderungen ebenfalls er- füllen. Bei Umsetzung eines Gesamtsystems muss dieses folglich in Bezug auf die Anforderungen evaluiert werden.

5.4 zusammenfassung und diskussion

Das vorliegende Kapitel zeigte die Machbarkeit des definierten Kon- zepts anhand einer Implementierung mit anschließender Evaluation und theoretischen Betrachtung. Die Basis stellt die Implementierung Implementierung des Taskmanagers dar, welcher eine Umsetzung in Java umfasst unter Taskmanager Nutzung wohl etablierter Bibliotheken wie Stanford CoreNLP (Man- ning, Surdeanu u. a., 2014), JWI (Finlayson, 2014) und WordNet 3.0 (Miller, 1995; Fellbaum, 1998). Eine textuelle Eingabe wird hierbei 164 implementierung und evaluation

als Instanzen und Konzepte von WordNet interpretiert, welche vom Taskmanager mit dem Kontext verglichen werden. Zur Erstellung des Kontextes erfolgte eine Nachimplementierung des Algorithmus von Paternò (2000), unter Nutzung derselben Spezifikationsmethodik für CTTs. Die Schnittstellen zum Dialogmanager und zum SLU-Modul sind definiert, wobei eine Umsetzung dieser Module nicht Teil der vorliegenden Arbeit ist. Evaluation mit Mit Hilfe der Implementierung und des bestehenden Korpus der Korpus DSTC (Williams, Raux u. a., 2012) erfolgte eine Evaluation des Kon- zepts, einerseits hinsichtlich der Abbildung einer Eingabe auf Tasks, und andererseits bezüglich der Taskausführung sowie Parameterüber- gabe. Das Korpus bezieht sich auf das „Let’s Go!“-Businformations- system (Raux u. a., 2005) und beinhaltet ein Protokoll der Dialoge, eine Referenzinterpretation sowie ein Baseline-Dialog-Tracker, als Re- ferenz für die Leistung bestehender Sprachdialogsysteme. Eine Um- setzung der „Let’s Go!“-Anwendung in einem CTT dient, neben der Nutzerdialoge (bzw. deren ASR-Ergebnis), als Eingabe für den Task- Abbildung manager. Damit lässt sich die Abbildung von Nutzereingabe auf Tasks Nutzereingabe auf hinsichtlich derCA analysieren. Insgesamt ergibt sich eineCA in Tasks Höhe von 71% für den Taskmanager, im Vergleich zu 51% für den Baseline-Tracker. Eine detaillierte Betrachtung der einzelnen Tasks, beziehungsweise Slots der DSTC, zeigt einen Vorteil für eindeutig bestimmbare Konzepte und Instanzen, wie zum Beispiel Busrouten, Tage oder Haltestellen, und Nachteile hinsichtlich mehrdeutiger Zah- lenwerte sowie strukturierter Werte, wie zum Beispiel bei Uhrzei- ten. Diese Einschränkung könnte jedoch durch Nutzung bestehen- der grammatikbasierter Interpretationsverfahren in einem hybriden Ansatz behoben werden (siehe Abschnitt 6.3). Weiterhin zeigen sich mehrere identische Domänenobjekte im Taskmodell als kritisch, da trotz Dependenzannotation und hierarchisch definiertem Taskmodell Verwechslungen auftreten können, beziehungsweise Auflösung von Parameterübergabe Mehrdeutigkeiten erfordern. Die Übergabe von Parametern zwischen verschiedenen Anwendungen ist über die Wissensbasis möglich und auf Basis der Bewertungsfunktion an die jeweilig verfügbaren An- wendungen anzupassen. Die vorgestellte Evaluation berücksichtigte in erster Linie semantisch ähnliche Anwendungen, wodurch diese hinsichtlich den Dimensionen Ausführbarkeit und Übereinstimmung weniger mit der Busanwendung konkurrieren. Dies bestärkt den An- satz mit konfigurierbaren Gewichtungen der Dimensionen. Zusätz- lich ist eindeutig zu sehen, dass je weniger Parameter übergeben wer- den, desto schwieriger ist eine eindeutige Zuordnung zum Taskmo- dell. Dies kann über eine zusätzliche Interpretation der zu einem Anwendungswechsel führenden Nutzeräußerung verbessert werden. Ein weiterer kritischer Punkt zeigt sich in identischen Konzepten, wel- che sich lediglich hinsichtlich der Task-Hierarchie im Taskmodell un- terscheiden (z.B. Ankunfts- und Abfahrtsort). Im realen Einsatz kann 5.4 zusammenfassung und diskussion 165 hier das Ursprungs-Taskmodell jedoch ohne weiteres die Hierarchie mit übergeben, oder der Dialogmanager durch eine Hilfestrategie die Auflösung eventueller Mehrdeutigkeiten ermöglichen. Ein theoretischer Abgleich des Konzepts mit den definierten Anforderun- Theoretischer gen ergibt im Allgemeinen eine positive Bewertung. Jedoch erfordert Abgleich eine reale Implementierung zusätzlich den Abgleich der Anforderun- Anforderungen & Konzept gen bezüglich der restlichen Module des Sprachdialogsystems. Un- terstützen diese ebenfalls die Anforderungen, können mit dem vor- liegenden Konzept anwendungsübergreifende Dialoge mit Parame- terübergabe und Hilfestrategien umgesetzt werden.

ZUSAMMENFASSUNGUNDAUSBLICK 6

“The purpose of computing is insight, not numbers”1 Hamming (1973, S. v)

6.1 beiträge der arbeit

In der vorliegenden Arbeit wurde die Interaktion zwischen Mensch und Maschine im Bereich anwendungsübergreifender Dialoge unter- sucht. Eine Analyse bestehender Arbeiten zeigte, dass die bisher üb- Analyse bestehender liche Fehlervermeidung mittels system-geführter Dialoge oder Tele- Arbeiten prompter für Sprachdialogsysteme mit einer hohen Funktionsvielfalt schwierig und nicht mehr zeitgemäß ist. Nutzer-initiierte Dialoge ber- gen jedoch die Gefahr einer OOA-Äußerung, auf welche angemessen reagiert werden sollte. Bekannte Fehlerbehandlungsstrategien, wie zum Beispiel „MoveOn“ (Bohus und Rudnicky, 2005) oder implizi- te Verifikation (McTear, 2002), sind beim nicht-erfolgreichen Anwen- dungswechsel nicht einzusetzen, da der Fortgang des Dialogs nicht sicher bestimmt werden kann. Die in Abschnitt 2.3.5 analysierten Arbeiten betrachten zwar Teilaspekte dieser Problemstellung, jedoch zumeist mit wenigen Anwendungen oder ohne expliziter Fehlerbe- handlung über Anwendungsgrenzen hinweg. Somit ergab sich als Kernthema dieser Arbeit nutzer-initiierte anwendungsübergreifende Dialoge mit effektiver Fehlerbehandlung zu ermöglichen. Als Herangehensweise wurde in der vorliegenden Arbeit ein ex- plorativer Ansatz einer Nutzerstudie im Fahrsimulator gewählt, um anwendungs- das Verhalten von Versuchspersonen, ohne Kenntnis des Interaktions- übergreifende schemas, bei anwendungsübergreifenden Aufgaben zu beobachten. Die Dialoge als Sekundäraufgabe Korpusanalyse zeigte eine Verwendung von hauptsächlich impliziten Anwendungswechseln mit anaphorischen Ausdrücken über Anwen- dungsgrenzen hinweg, wodurch deutlich wird, dass keine Anwen- dungstrennung im mentalen Modell eines rein sprachlich bedienba- ren Sprachdialogsystems besteht. Zusätzlich konnte eine hohe Vari- anz an Sprachstilen, von kommandowortbasiert bis natürlichsprach- lich, festgestellt werden. Ähnlich zu Strayer u. a. (2014) konnte ein Ablenkungspotential durch das SDS erkannt werden, wobei objektive Daten wie Fahrleistung und EDA nur geringfügigen Einfluss zeigen, jedoch die subjektive Belastung sowie Gebrauchstauglichkeit stark von der Qualität des Sprachdialogsystems abhängen. Ein Wechsel der

1 Übersetzung des Autors: Der Zweck des Rechnens ist Erkenntnis, nicht Zahlen.

167 168 zusammenfassung und ausblick

Dialoginitiative im Fehlerfall bewirkte positive Ergebnisse hinsicht- lich des Aufgabenerfolgs, zeigte allerdings Schwächen in der Umset- zung durch lange Systemäußerungen. Lange Systemäußerungen kamen in erster Linie durch das Vorlesen möglicher Beispieläußerungen zustande. Beispieläußerungen sind al- lerdings bei OOA-Anfragen, oder mehrere Anwendungen betreffen- de Äußerungen, nicht unbedingt notwendig, da eine korrekte Inter- pretation im richtigen Anwendungskontext möglich ist. Somit lässt sich die ursprüngliche Äußerung, nach Identifikation der Anwen- dung durch den Nutzer, im richtigen Kontext interpretieren. Zur Iden- Hilfestrategien tifikation zeigten sich kontextsensitive und zielgerichtete Hilfestrate- gien (Zweier- und Listenauswahl) einer generischen Strategie überle- gen. Eine kontextsensitive Strategie erfordert jedoch, die gesuchte An- wendung anzubieten, was technisch eine Herausforderung darstellt. Bezüglich sprachlicher oder grafischer Modalität ergab sich als Pri- märaufgabe kein großer Unterschied. Aus diesem Grund erfolgte in einer dritten Nutzerstudie im Fahrsimulator eine Analyse der Moda- litäten einer Zweier- sowie einer Listenauswahl als Sekundäraufga- be. Wie zu erwarten, zeigten sich klare Ablenkungspotentiale bei der visuellen Darstellung der Anwendungen, wogegen ein Vorlesen die Ablenkung minimiert und dennoch zum Aufgabenerfolg führt. Der Vergleich einer bildlichen Zweier- mit einer textuellen Listenauswahl zeigte zwar leichte Vorteile der Zweierauswahl, allerdings sind beide Varianten sicher als Sekundäraufgabe einzusetzen. Anforderungen Auf Basis der Studienergebnisse ließen sich vier Anforderungen an die Interaktion zwischen Mensch und Maschine für anwendungs- übergreifende Sprachdialogsysteme definieren. Diese beinhalten ei- ne konsistente Interaktion über verschiedene Anwendungen hinweg, mit implizitem und explizitem Anwendungswechsel, sowie zusätzli- chem Parameteraustausch. Außerdem sollen die Hilfestrategien die wahrscheinlichsten nächsten Anwendungen anbieten. Eine weitere technische Anforderung formuliert die Notwendigkeit, dynamisch zur Laufzeit Anwendungsabhängigkeiten zu erstellen, um eine ein- fache Austauschbarkeit von Anwendungen zu erreichen. Konzept zur Zur Umsetzung der Anforderungen wurde ein Konzept entwickelt, modellgetriebenen welches als zentralen Punkt die Formalismen zu Taskmodellen (in Entwicklung CTT-Notation) und lexikalisch-semantischer Wissensbasen (WordNet) verbindet. Ein Anwendungsentwickler kann somit modellgetrieben die Interaktion zwischen Mensch und Maschine mittels Taskmodell de- finieren und die Bedeutung von Tasks mittels globaler Wissensbasis beschreiben. Zur Laufzeit ergibt sich eine Verbindung der Tasks ver- schiedener Taskmodelle über die gemeinsame Wissensbasis. Dadurch lassen sich Parameter von einer Anwendung zur nächsten überge- ben und potentielle Anwendungswechsel identifizieren. Weiterhin er- folgte eine Formalisierung des Prozesses von Nutzereingabe bis Tas- kausführung. Die Zuordnung von Objekten der Nutzereingabe zu 6.2 diskussion erzielter ergebnisse 169 auszuführenden Tasks erfolgt über eine gewichtete Bewertungsfunk- tion der Dimensionen Übereinstimmung, Ausführbarkeit und Ähn- lichkeit. Mittels dieser Gewichte wird eine Adaption an den jeweili- gen Einsatzzweck des Sprachdialogsystems möglich. Eine Überprüfung der Machbarkeit des Konzepts geschah durch Implementierung eines Taskmanagers, welcher einerseits auf praktischer Implementierung Ebene mittels Korpus evaluiert und zusätzlich theoretisch hinsicht- Taskmanager lich der Anforderungen bewertet wurde. Vorteile zeigten sich bei eindeutig bestimmbaren Objekten, wie Wochentage oder Bushalte- stellen, wogegen mehrdeutige Objekte, wie zum Beispiel Zahlenwer- te, schwierig zu interpretieren sind. Bezüglich der Bewertungsfunk- tion zeigt sich die Wichtigkeit, die verschiedenen Dimensionen un- terschiedlich gewichten zu können, da bei ähnlichen Anwendungen somit die spezifischste ausgewählt werden kann. Bezüglich des theo- retischen Abgleichs der Anforderungen ist ein überwiegend positives Ergebnis zu verzeichnen, wobei für ein erfolgreiches Gesamtsystem die restlichen Module des Sprachdialogsystems diese Anforderungen ebenfalls erfüllen müssen.

6.2 diskussion erzielter ergebnisse

Wie gezeigt, untersuchte vorliegende Arbeit anwendungsübergreifen- de Dialoge ganzheitlich von theoretischen, explorativen, technischen und praktischen Gesichtspunkten aus. Grundlage hierfür bildeten die in Abschnitt 1.2 vorgestellten Forschungsfragen. In der ersten Nutzerstudie konnte durch Beobachtung festgestellt werden, dass sich Fahrer bei der sprachlichen Bedienung keiner An- wendungstrennung bewusst sind und eher Methodiken der zwischen- menschlichen Kommunikation einsetzen, wie einen übergeleiteten An- wendungswechsel mit anaphorischen Ausdrücken (F1). Zusätzlich Forschungsfrage 1 verschlechterten, neben einem negativen Einfluss auf die Gebrauch- stauglichkeit, nicht-erfolgreiche Anwendungswechsel die Primärauf- gabe signifikant hinsichtlich subjektiver Belastung (F1). Objektive Fahrdaten zeigten weniger einen negativen Einfluss von nicht-erfolg- reichen Anwendungswechseln, sondern eher einen generellen negati- ven Einfluss von Sprachdialogsystemen (vergleichbar zu Ergebnissen von Strayer u. a. (2014)). Dies deutet darauf hin, dass die Versuchs- personen ihren Fokus weiterhin auf der Straße behielten, unabhängig der Reaktion des Sprachdialogsystems. Die folgenden zwei Studien ermöglichten eine iterative Entwick- lung und Evaluation verschiedener Interaktionsschemata, wie Fehler beim Anwendungswechsel behoben werden können. Wie bereits in der ersten Studie beobachtet, ist es wichtig, dass das System die Dia- logführung übernimmt und eine kontextsensitive und zielgerichte- te Hilfestrategie anbietet (F2). Diese wurde in Form einer bildlichen Forschungsfrage 2 Zweier- und textuellen Listenauswahl multimodal implementiert, wo- 170 zusammenfassung und ausblick

bei beide Varianten im Fahrzeug eingesetzt werden können, jedoch eine visuelle Repräsentation die Ablenkung des Fahrers erhöht. Der zweistufige Prozess, zuerst die betreffende Anwendung zu selektie- ren und im Anschluss eine erneute Interpretation der OOA-Anfrage im richtigen Kontext durchzuführen, ermöglicht eine starke Verkür- zung der Dialogdauer im Vergleich zu bestehenden Hilfestrategien, wie zum Beispiel von Bohus und Rudnicky (2005). Die konzeptuellen Arbeiten, mit anschließender Implementierung und Evaluation, zeigten eine Möglichkeit, anwendungsübergreifen- Forschungsfrage 3 de Dialoge modellgetrieben zu entwickeln (F3). Unter Verwendung von etablierten Methodiken, wie CTT als Taskmodelle und WordNet als Wissensbasis, konnte ein Taskmanager entwickelt werden, wel- cher konsistente Interaktionen mit mehreren Anwendungen und im- plizitem Wechsel ermöglicht. Abhängigkeiten der Anwendungen un- tereinander ergeben sich zur Laufzeit, wodurch ein Installieren und Deinstallieren von Anwendungen, wie bei elektronischen Geräten mit App-Stores üblich, unterstützt wird. Schwierigkeiten bestehen hin- sichtlich der Interpretation mehrdeutiger, nicht realer Objekte, wor- auf im folgenden Abschnitt 6.3 mit dem Vorschlag eines hybriden Ansatzes eingegangen wird. Wie von Hamming (1973) empfohlen (siehe Zitat zu Beginn des Kapitels), präsentierte vorliegende Arbeit nicht nur Zahlen, sondern wertvolle Erkenntnisse hinsichtlich anwendungsübergreifender Dia- loge, daraus resultierender Fehlerbehandlungsstrategien und deren Einsatz als Sekundäraufgabe im Fahrzeug. Das entworfene Konzept sowie die Implementierung sind unabhängig des Fahrzeugkontexts und somit allgemeingültig in Systemen mit mehreren sprachbedien- baren Anwendungen einzusetzen.

6.3 ausblick

Die umfassende Betrachtung von anwendungsübergreifenden Dialo- gen als Sekundäraufgabe sowie eine konzeptuelle Umsetzung, de- monstrierte deren Machbarkeit. Dennoch bestehen weitere Heraus- forderungen, bis zur finalen Realisierung der Vision von Jonze (2014) im Film Her, in Form einer sprachbedienbaren Assistentin, welche wie ein menschlicher Partner agiert. Bezüglich der sprachlichen Interaktion über Anwendungen hinweg war deutlich zu sehen, dass Nutzer nicht explizit zwischen Anwen- dungen wechseln. Zusätzlich sollten Fehlerbehandlungsstrategien ein essentieller Bestandteil von Sprachdialogsystemen sein. Die in dieser Arbeit entwickelte Hilfestrategie, in der potentielle nächste Anwen- dungen vorgelesen werden, funktioniert, solange die möglichen Wer- phonetisch ähnliche te phonetisch unterschiedlich sind. Für phonetisch ähnliche Elemente, Elemente wie zum Beispiel bei einer Namens- oder Ortsauswahl, ist derzeit die visuelle Präsentation unumgänglich. Ein intelligentes Präsentations- 6.3 ausblick 171 planungsmodul könnte jedoch die sprachliche Äußerung anreichern und zum Beispiel mit folgender Antwort reagieren „Meinten Sie Mai- er mit ai oder ey?“ beziehungsweise „Ulm im Schwarzwald oder an der Donau?“. Dies setzt allerdings aufwendige Analyseverfahren des Inhalts sowie gemeinsames Allgemeinwissen bei SDS und Benutzer voraus. Durch den Einzug neuer Präsentationsmodalitäten im Fahrzeug, neue Modalitäten wie zum Beispiel Head-up-Displays oder taktiles Feedback, könnten diese in der Fehlerbehandlung eine wichtige Rolle spielen. Zukünf- tige Arbeiten müssen somit eine detaillierte Betrachtung abhängig vom Anwendungsszenario unternehmen, wo, wann und wie Fehler- behandlungsstrategien eingesetzt werden. Die Ergebnisse der Umsetzung zeigten Nachteile des Konzepts hin- sichtlich mehrdeutiger Zahlenwerte oder strukturierte Werte, wie zum Beispiel Uhrzeiten. Zur Erkennung und Interpretation dieser exis- tieren jedoch wohl etablierte grammatikbasierte Methodiken. In Zu- kunft sollten somit hybride Ansätze untersucht werden, welche die Vor- hybrider Ansatz teile einer eindeutigen Objekterkennung mit zusätzlichen Teilgram- matiken für Werte wie Uhrzeit, Datum, Währung oder ähnliches kom- binieren. Bisher wurde semantisches Schlussfolgern (engl. semantic rea- semantisches soning) nicht genutzt, wodurch jedoch komplexere Anfragen in ihre Schlussfolgern semantisch korrekten Objekte aufgelöst werden könnten. Als Beispiel wäre die Wissensbasis YAGO (Suchanek u. a., 2007) zu nennen, wel- che WordNet mit Wikipedia kombiniert. Mit Hilfe der Wissensbasis könnte eine Äußerung wie „Navigation zum höchsten Kirchturm der Welt“ als navigation%1:04:00:: u Ulm%1:15:00:: interpretiert werden. Diese Kombination ausQA und SDS, mit komplexen Dialogstruktu- ren sowie Anwendungslogik, verspricht vielfältige Anwendungsmög- lichkeiten. Da dies lediglich eine Erweiterung des Interpretationsmo- duls darstellt, wäre der Taskmanager der vorliegenden Arbeit ohne weiteres in solch einem System einzusetzen. Anders ist dies hingegen bei Verwendung von komplexen Anfragen, welche gleichzeitig Aktio- Aktionen mehrerer nen mehrerer Taskmodelle ansprechen, wie zum Beispiel „Fahre mich Taskmodelle zur Pizzeria San Marco und reserviere einen Tisch für 4 Personen.“. Ob und wie solche Anfragen jedoch Sinn ergeben, muss zuerst in der Definition von Anwendungsszenarien und Nutzerstudien evaluiert werden, bevor eine Konzeptanpassung stattfinden kann. Ein weiterer wichtiger Forschungszweig stellt die Nutzeradaption Adaption dar. Zunehmend kennen elektronische Geräte ihren Nutzer, zum Bei- spiel durch Accounts oder Biometrie, und lernen dessen Gewohnhei- ten. Diese Adaption wird in Zukunft im SDS fester Bestandteil sein, wie es zum Beispiel schon ansatzweise in Apples Siri durch Klassi- fizierung verschiedener Adressbuchkontakte implementiert ist, um Nutzeräußerungen wie „Rufe meine Frau an“ aufzulösen. Die Ver- wendung des geteilten Wissens mit dem Nutzer ist hierbei der An- fang, wobei davon auszugehen ist, dass in Zukunft auch eine Adap- tion im Dialog, beziehungsweise gesamtheitlich im Interaktionspat- 172 zusammenfassung und ausblick

tern, Verwendung findet (Schüssel u. a., 2014; Oviatt, Coulston u. a., 2004; Larsson, Kronlid u. a., 2014). In Bezug auf die vorliegende Ar- beit könnte somit ein potentieller Anwendungswechsel auf Basis des Interaktionspatterns gewählt werden, um auf eine Hilfestrategie zu verzichten oder die Anzahl der möglichen Folgeanwendungen zu mi- nimieren. In der vorliegenden Arbeit wurde eine gesamtheitliche Betrachtung von anwendungsübergreifenden Dialogen als Sekundäraufgabe prä- sentiert und ein Konzept zur Implementierung im SDS entwickelt. Dies bildet eine Grundlage auf dem Weg hin zu einem natürlichen, lernenden und konsistent zu bedienenden SDS, unabhängig von An- wendungen verschiedener Entwickler. ANHANG

173

UNTERLAGENZUSTUDIEN A a.1 explorative fahrsimulatorstudie

Die folgenden Abschnitte enthalten detaillierte Unterlagen zu der ers- ten Fahrsimulatorstudie, welche in Abschnitt 3.1 präsentiert wird. a.1.1 Beispieldialoge für verschiedene Varianten des Anwendungswechsels

Zur Verdeutlichung der unterschiedlichen Interaktionsvarianten ist im Folgenden jeweils ein Beispieldialog dargestellt. Die Dialoge ba- sieren auf realen Daten des Experiments, wobei Nutzeräußerungen durch N und Systemäußerungen durch S hervorgehoben sind. Die Dialogphasen zwischen zwei Anwendungen sind dunkelgrau gefärbt:

Erwartete Reaktion (ER):

N: „Navigation.“ S: „Navigation, was möchten Sie?“ N: „Nach Berlin.“ S: „Zu welcher Straße oder zu welchem Ort in Berlin?“ N: „Zum Brandenburger Tor.“ S: „Das Brandenburger Tor in Berlin wurde als neues Navi- gationsziel übernommen.“ N: „Suche chinesisches Restaurant entlang der Route.“ S: „Ich habe ein chinesisches Restaurant entlang Ihrer Rou- te gefunden: Peking Ente in 2km Entfernung.“ N: „Speichere die Adresse.“ S: „Das Restaurant Peking Ente wurde zu Ihrem Adress- buch hinzugefügt.“

Missverständnis (MU)

N: „Navigation nach Berlin, Brandenburger Tor.“ S: „Das Brandenburger Tor in Berlin wurde als neues Navi- gationsziel übernommen.“ N: „Chinesisches Restaurant entlang der Route.“ S: „Ziel chinesisches Restaurant wurde nicht gefunden.“ N: „Restaurant entlang der Route.“ S: „Ziel Restaurant wurde nicht gefunden.“

175 176 unterlagen zu studien

N: „Ich würde gerne ein Restaurant suchen.“ S: „Wie bitte?“ N: „Starte Restaurantanwendung.“ S: „Restaurantsuche, was möchten Sie?“ N: „Ein chinesisches Restaurant entlang der Route.“ S: „Ich habe ein chinesisches Restaurant entlang Ihrer Rou- te gefunden: Peking Ente in 2km Entfernung.“ N: „Speichere die Adresse.“ S: „Die Adresse des Restaurants Peking Ente ist Berlin, Hauptstraße 5.“ N: „Hinzufügen.“ S: „Was für eine Bewertung möchten Sie hinzufügen?“ N: „Restaurant Peking Ente.“ S: „Das Restaurant Peking Ente bietet echte chinesische Kü- che im Herzen Berlins.“ N: „Adressbuch starten.“ S: „Adressbuch, was möchten Sie?“ N: „Füge Restaurant Peking Ente hinzu.“ S: „Das Restaurant Peking Ente wurde zu Ihrem Adress- buch hinzugefügt.“

Nicht-Verständnis (NU):

N: „Navigation nach Berlin, Brandenburger Tor.“ S: „Das Brandenburger Tor in Berlin wurde als neues Navi- gationsziel übernommen.“ N: „Chinesisches Restaurant entlang der Route.“ S: „Aktion leider nicht bekannt, bitte Anfrage ändern.“ N: „Ich möchte ein chinesisches Restaurant.“ S: „Aktion leider nicht bekannt, bitte Anfrage ändern.“ N: „Chinesisches Restaurant.“ S: „Aktion nicht bekannt, Anfrage ändern.“ N: „Restaurant entlang der Route.“ S: „Aktion nicht bekannt, Anfrage ändern.“ Abbruch durch Wizard.

Dialoginitiativenwechsel (DIS):

N: „Ich möchte zum Brandenburger Tor in Berlin.“ S: „Das Brandenburger Tor in Berlin wurde als neues Navi- gationsziel übernommen.“ N: „Suche chinesisches Restaurant entlang der Route.“ A.1 explorative fahrsimulatorstudie 177

S: „Aktion unbekannt, mögliche Anwendungen sind: Navi- gation, Restaurant, Hotel oder Radio.“ N: „Restaurant.“ S: „Sie können Restaurant suchen, Tisch reservieren, Bewer- tung abgeben, Öffnungszeiten abrufen.“ N: „Restaurant suchen.“ S: „Sagen Sie zum Beispiel: Suche ein Restaurant am Zielort, ich suche ein italienisches Restaurant, Die Kro- ne in Stuttgart oder ein Mexikaner in Ulm.“ N: „Ich suche ein chinesisches Restaurant.“ S: „Wo suchen Sie ein chinesisches Restaurant?“ N: „Entlang der Route.“ S: „Ich habe ein chinesisches Restaurant entlang Ihrer Rou- te gefunden: Peking Ente in 2km Entfernung.“ N: „Speichere die Adresse.“ S: „Aktion unbekannt, mögliche Anwendungen sind: Re- staurant, Adressbuch, Navigation oder Radio.“ N: „Adressbuch.“ S: „Sie können Adressen hinzufügen, Einträge abrufen, ge- speicherte Adressen löschen oder Adressen bearbeiten.“ N: „Adresse hinzufügen.“ S: „Sagen Sie zum Beispiel: Füge Schloss Neuschwanstein zu meinem Adressbuch hinzu, Hotel Goldenes Rad hin- zufügen, Speichere die Poststraße 1 im Adressbuch oder ich möchte Aldi in Ulm hinzufügen.“ N: „Füge Peking Ente zu meinem Adressbuch hinzu.“ S: „Das Restaurant Peking Ente wurde zu Ihrem Adress- buch hinzugefügt.“ 178 unterlagen zu studien

a.1.2 SUEDE als Wizard-of-Oz Tool

Definition des Dialogs mit SUEDE anhand des Beispiels der Naviga- tion nach Berlin, Brandenburger Tor (siehe Tabelle 3.1: Anwendung 1 von Aufgabe 5). Systemäußerungen sind als orange Zustände und mögliche Nutzeräußerungen als grüne Kanten dargestellt: A.1 explorative fahrsimulatorstudie 179

Während der Ausführung bekommt der Wizard je nach Dialogzu- stand die möglichen Nutzeräußerungen angezeigt (ausgehende Kan- ten). Im Beispiel befindet sich der Dialog im Zustand . Sagt der Nutzer daraufhin „Starte Navigationsanwendung“, oder eine se- mantisch identische Äußerung, klickt der Wizard den ersten Link. Im Dialog wird daraufhin der Systemzustand D aktiviert und die Syste- mäußerung „Navigation, was möchten Sie?“ ausgegeben. Auf allge- meine Nutzeräußerungen wie „Erneut vorlesen“ kann in der oberen Leiste immer reagiert werden. 180 unterlagen zu studien

a.1.3 Vorbefragungsbogen

Zur Erstellung eines Profils der Versuchsperson werden unter ande- File: vorbefragung.htm file:///D:/Dissertation/Doktorarbeit/Ausarbeitung/Abbildungen/... rem folgende Fragen gestellt:

Alter:

Geschlecht: männlich weiblich

Seit wieviel Jahren besitzen Sie den Führerschein?

Wie oft fahren Sie Auto?

wenige Male pro weniger als 1 mehr als 1 nie Woche Stunde am Tag Stunde am Tag

Wieviel Erfahrung haben Sie mit sprachbedienbaren Geräten (Computer, Mobiltelefon, Auto, usw.)?

keine sehr gering gering mittel viel sehr viel

Wenn ja, wie oft nutzen Sie diese sprachbedienbaren Geräte?

nie sehr selten selten manchmal häufig

Besitzen Sie ein Smartphone? nein ja

Wie viele Apps nutzen Sie im Durchschnitt pro Tag?

keine 1-5 6-10 11-20 >20

Stellen Sie sich vor Sie hätten eine neue App auf Ihrem Smartphone installiert. Was würden Sie machen um deren Bedienung zu erlernen? ich probiere ich schaue ein Video-Tutorial ich suche Online ich beachte Tipps beim Start ich schaue in der Sonstiges: Systemhilfe nach ich frage Freunde

1 von 3 18.01.2016 19:11 A.1 explorative fahrsimulatorstudie 181

Stellen Sie sich vor sie kommen bei der Bedienung Ihres Smartphones nicht weiter, was würden Sie machen um dennoch zum Ziel zu kommen? ich probiere ich schaue ein Video-Tutorial ich suche Online ich beachte Tipps beim Start ich schaue in der Sonstiges: Systemhilfe nach ich frage Freunde

Stellen Sie sich vor Sie hätten eine neue App auf Ihrem Infotainment-System im Auto während der Fahrt installiert. Was würden Sie machen um deren Bedienung zu erlernen? ich probiere ich rufe meinen Händler an ich suche Online mit dem Infotainment- ich rufe Freunde an System ich suche Online mit ich schaue ein Video-Tutorial im dem Smartphone Infotainment-System ich schaue in der Sonstiges: Systemhilfe nach ich schaue in der Betriebsanleitung

Stellen Sie sich vor Sie kommen bei der Bedienung Ihres Infotainment-Systems während der Fahrt nicht weiter. Was würden Sie machen um dennoch zum Ziel zu kommen? ich probiere ich rufe meinen Händler an ich suche Online mit dem Infotainment- ich rufe Freunde an System ich suche Online mit ich schaue ein Video-Tutorial im dem Smartphone Infotainment-System ich schaue in der Sonstiges: Systemhilfe nach ich schaue in der Betriebsanleitung

...

Dieses Formular wurde mit GrafStat (Ausgabe 2013 / Ver 4.276) erzeugt. Informationen zu GrafStat: http://www.grafstat.de 182 unterlagen zu studien

a.1.4 Fragebogen zur subjektiv empfundenen Belastung

Nach einer Fahrt im Fahrsimulator bewerten Versuchspersonen die subjektiv empfundene Belastung mittels DALI-Fragebogen (deutsche Übersetzung nach Hofmann (2014)):

Wie hoch waren die Anforderungen an die globale Aufmerksamkeit? (Erklärung: Insgesamt alle mentalen (denken, entscheiden...), visuellen und auditiven Faktoren, die insgesamt während des Versuchs erforderlich sind, um die Gesamtleistung zu erzielen) gering1 2 3 4 5 6 7hoch

Wie hoch waren die auditiven Anforderungen? (Erklärung: Auditive Faktoren, die während des Versuchs erforderlich sind, um die Gesamtleistung zu erzielen (alles, was mit Gehörtem zu tun hat)) gering1 2 3 4 5 6 7hoch

Wie stark war das Stressniveau? (Erklärung: Stressniveau während des Versuchsablaufs wie Irritation, Müdigkeit, Unsicherheit, Entmutigung, etc.) gering1 2 3 4 5 6 7hoch

Wie stark war der Interferenzfaktor? (Erklärung: Beeinträchtigung des Fahrerzustandes und Auswirkungen auf die Fahrleistung durch die gleichzeitige Zweitaufgabe des Sprachdialogs während dem Fahren) gering1 2 3 4 5 6 7hoch

Wie hoch war die zeitliche Anforderung? (Erklärung: Gefühlte Belastung und spezifische Beeinträchtigung durch die schnelle Abfolge der Aufgabe) gering1 2 3 4 5 6 7hoch

Dieses Formular wurde mit GrafStat (Ausgabe 2013 / Ver 4.276) erzeugt. Informationen zu GrafStat: http://www.grafstat.de A.2 internetstudie zu hilfestrategien 183

a.2 internetstudie zu hilfestrategien

In den folgenden Abschnitten sind Unterlagen zur zweiten Benutzer- studie dargestellt, welche als Ergänzung zu Abschnitt 3.2 dienen.

a.2.1 Vorbefragungsbogen

Zur Erstellung eines Profils der Versuchsperson werden unter ande-

rem folgende Fragen gestellt (mit dem Tool LimeSurvey1 erstellt):

¡¢£ ¥¦§ ¨ ¢© ¢£

£¨ ¦£ §

¤  

§£§   ©£© £¢©   §    £ ! © ! " ¢© #¦$ %¥&¢¦¢£©¥ §' (& )¥§© £' $$*

+ , -¤

¡¢£(¢£¦ . ¥  © !  ¥/£© ¢£ &¢§ ¨0 ¥ /£ ¢£©/¥£© £1§£© "2 &0§£ ' 3/¢¦§£¦£ © '

  §'$$*

4¤¤ 5¤6 7¤67 7¤67 8 8¤ 9¤ 5¤6 9¤

¡£© © :¥' ;¢£  § © § £© ¢£ ¢£¨£ ¨0 ¥ /£ ¢£©/¥£© £1§£

 ¤ 5¤6 5¤8¤ 5¤8¤ ,, < =7 4¤¤ >8 ?68

@ ¢§§£ !£/£© ¢£  ¢£ ¦!£© £©   ¨¨ ¥!£© ¥© ' ;¢£ ! § ¨¢£ :£; £¢¦¨ ¥ ¢£ 0£¨ A© ¦¢

 § £ £©$ B© §£ £¦£#§ © ¢¨ £© £ 1§£© ¨ ¢© 2&0 §£' C ¥© D¨' E¥(¢!¥§¢© ¨ ¨D¨§£&£'  $1$

!£&£¢©§ " #£¢©£ ¡ £# £!£' ¡¥ ¨ &¥¨ ¢© £© ' F¥¨§£ ' $$$* $

GHIJJG KL H GHI JJG R ORH

MINOG PQ MI NOG PQ GRIST UGRIST GHIJJG RORH PQ GHIJJG VW SS PQ

XYZ [\]]\ ^_\

` \_ab\]

cd][b _e]\] ^\ f

\g\[bfe ]_aYZ\]

h\ fib\ j ^_\ _YZ

k \a_bl\

ma ` nYZb ` _f

op nqj \_]

\ g\[bfe ]_aYZ\a

h \ fib

ndaldpfek _\f\]

mg\[bfe ]_aYZ\

h \f ib\ ` nYZ\]

r_\g\a

d` abi]^g_YZ\f

XYZ [\]]\ ` _YZ

_` s\f \_YZ

\ g\[bfe]_aYZ\f

h \ fib\ nda

@ £¨¢§ £© ¢£ £¢© &¥ §0© £

+ , -¤ $$$

1 http://www.limesurvey.org [Online 29.05.2015] 184 unterlagen zu studien

a.2.2 Fragebogen im interaktiven Teil

Für jede Interaktionsvariante wird im interaktiven Teil folgender Fra- gebogen zur Gebrauchstauglichkeit gestellt. Da das SDS lediglich ei- ne Antwort gibt, wird ein angepasster SASSI-Fragebogen (deutsche Übersetzung nach Strauss (2010)) verwendet, mit zusätzlichen drei Fragen aus dem ITU-T Rec. P.851 zu Hilfe, Konzentration und Ge-

samteindruck (International Telecommunication Union (ITU), 2003).

¡¢££¤ ¦§¨©¤ ¢¤ ¤©£ ¢¤  ¦¤ ¢£ ¤ ©¨¢£¤  ¦ ¦¤ ¤© ¤¢£¤

 

¢   ©¨¢£¤

  ¨  ¤¤©£¤ ¢¤ ¢££¤ ¢¤  £¤©£¢ 

¥ ! "# ¥$ % & ¥ ' ¥%(¥ ) # % *¥ + ", ,-. % -" ) *-, . , / % & 0, 1 2 " # )) %3

4 56789 4 56789

: ;< 9=>?> @ >9?576 < A?45BC C ?>@

DE FEG HIJKJ LMNOP Q KMRIK

SJQK JTUJVWSXX T FKEK

SUYV NZK KO Y[MMKJ L\ JJGK]

^FK SJG Q_OG TK E `aEGKb E

FEG X OcdFEK]

^FK SJG Q_OG TK E `aEGKb E

FEG UJe_OIKOEK IZNO]

^FK SJG Q_OG TK E `aEGKb E

FEG KY Y FdFKJG]

^FK SJG Q_OG TK E `aEGKb E

FEG J[Gd MFRI]

^FK SJG Q_OG TK E `aEGKb E

FEG NJVKJK Ib]

^FK SJG Q_OG TK E `aEGKb E

FEG FOOFGFKOKJT]

^FK SJG Q_OG TK E `aEGKb E

FEG YO UEGOFKOKJT]

fNRI KFJKb gKIMKO Q [OTK

T FK SJGQ_O G b FO IKMYKJP

b FRI Q FKTKO dUOK RIG dU

Y FJTKJ]

DE FEG LMNOP Q FK b NJ b FG

T Kb `aEGKb JNRI TK O

SJGQ_O G d U EX OKRIK J ING]

`FK IcGGKJ EFRI b K IO

h FMYK e_b `aEGKb

KO QNOG KG]

`FK b UEEGKJ EFRI

L_JdK JGOFKOKJP Ub dU

eKOEGK IK JP QNE TNE

`aEGK b e_J HIJKJ

Q_ MMGK]

¥ i #ij$$, k% *¥. % &¥ *-, )j$. % * l 13

49 =7 4 9=7

4 m=<9m =5 >9?576 < @ ?5

SMMKE FJ SMMKb Y FJTKJ `FK

TFK SJGQ_ OG TK E `aEGK bE] ]] A.3 fahrsimulatorstudie zu hilfestrategien 185 a.3 fahrsimulatorstudie zu hilfestrategien

Im folgenden Abschnitt sind Unterlagen zur Fahrsimualtorstudie über Hilfestrategien (siehe Abschnitt 3.3) dargestellt. a.3.1 Vorbefragungsbogen

Mit dem folgenden Fragebogen wird ein Profil der Person erstellt:

Alter: Geschlecht: männlich weiblich

Wie oft fahren Sie Auto?

wenige Male pro weniger als 1 mehr als 1 Stunde nie Woche Stunde am Tag am Tag

Wieviel Erfahrung haben Sie mit sprachbedienbaren Geräten (Computer, Mobiltelefon, Auto, usw.)?

keine sehr gering gering mittel viel sehr viel

Wenn ja, mit welchen Geräten haben Sie Erfahrungen gesammelt?

Wie oft nutzen Sie sprachbedienbare Geräte?

häufig manchmal selten sehr selten nie

Besitzen Sie ein Smartphone? ja nein

Geben Sie an, wie gut folgende Aussagen auf Sie zutreffen: trifft gar teils / trifft voll nicht zu teils zu Ich kenne die meisten Funktionen der elektronischen Geräte, die ich besitze Es macht mir Spaß, ein elektronisches Gerät auszuprobieren Elektronische Geräte machen vieles umständlicher Ich kenne mich im Bereich elektronischer Geräte aus

...

Dieses Formular wurde mit GrafStat (Ausgabe 2014 / Ver 4.310) erzeugt. Informationen zu GrafStat: http://www.grafstat.de 186 unterlagen zu studien

a.3.2 Fragebogen zur Bewertung der Bedingungen

Zur Bewertung der Bedingungen bezüglich subjektiv empfundener Belastung wird der DALI-Fragebogen (siehe AnhangA. 1.4) mit 5- stufiger Likert-Skala gestellt. Da die Studie jedoch eine visuelle Dar- stellung im Infotainment-System beinhaltet, wird das entsprechende Item des DALI-Fragebogens hinzugenommen (deutsche Übersetzung nach Hofmann (2014):

Wie hoch waren die visuellen Anforderungen? (Erklärung: Visuelle Faktoren, die während des Versuchs erforderlich sind, um die Gesamtleistung zu erzielen (alles, was mit dem Sehen zu tun hat)) sehr gering gering neutral hoch sehr hoch

Zusätzlich erfolgt eine Bewertung der Gebrauchstauglichkeit durch folgende Items des SASSI-Fragebogens (deutsche Übersetzung nach Strauss (2010)):

trifft gar trifft voll teils / teils nicht zu zu Das System ist nützlich Das System ist angenehm Es hat mir Spaß gemacht das System zu benutzen Es ist klar, wie man mit dem System zu sprechen hat Es ist einfach zu lernen wie man mit dem System umzugehen hat Ich würde das System im Alltag benutzen Ein hohes Maß an Konzentration ist im Umgang mit dem System nötig Das System ist einfach zu benutzen Ich wusste immer, wie ich mit dem System zu sprechen habe

Dieses Formular wurde mit GrafStat (Ausgabe 2014 / Ver 4.310) erzeugt. Informationen zu GrafStat: http://www.grafstat.de KONZEPT,IMPLEMENTIERUNG,EVALUATION B b.1 beweis der formel (3)

Annahmen: P Anzahl an Konstituenten p AP Anzahl an Alternativen für Konstituente p Op,a Objekt O der Wissensbasis in p-ter Konstituenten und a-ten Alternative der Nutzereingabe Zu zeigen:

P Ap A A P

G G0 GP

G G Op,a ≡ ··· Op,ap p=0 a=0 a0=0 aP=0 p=0 Beweis:

P Ap P

G

G G Op,a ≡ [Op,0 t · · · t Op,Ap ] p=0 a=0 p=0

≡ [O0,0 t · · · t O0,A0 ] u · · · u [OP,0 t · · · t OP,AP ]

≡ [O0,0 u O1,0 u · · · u OP,0]

t [O0,0 u O1,0 u · · · u OP,1] t · · ·

t [O0,A0 u O1,A1 u · · · u OP,AP ] A G0 ≡ [O0,a0 u O1,0 u · · · u OP,0 a0=0

t O0,a0 u O1,0 u · · · u OP,1 t · · ·

t O0,a0 u O1,A1 u · · · u OP,AP ] A A G0 G1 ≡ [O0,a0 u O1,a1 u · · · u OP,0 a0=0 a1=0

t O0,a0 u O1,a1 u · · · u OP,1 ···

t O0,a0 u O1,a1 u · · · u OP,AP ] A A G0 GP ≡ ··· [O0,a0 u · · · u OP,aP ] a0=0 aP=0 A A P

G0 GP ≡ ··· G Op,ap q.e.d. a0=0 aP=0 p=0

187 188 konzept, implementierung, evaluation

b.2 taskmodell und domänenobjekte der busanwendung 4 32 t.neigh Wohngegend Eastmont x 23 28 TaskbusService Buswebservicedate Übersetzungdate.aday Beispieldate.day Absoluter Tag Datumdate.month Wochentag Monatdate.relf.desc Heute Relativer Tagf.mon Juli Taskf.neigh nächster Montag Bushaltestellefrom t.desc Landmarke Spring Hill Wohngegendroute Flughafen time.arriveleave Downtown Abfahrt Ankunft- Übersetzung oder time Abfahrtszeit Busroute Bushaltestelle ankommen time.hour t.mon time.ampm time.rel time.minute Zeit Vormittag, Stunde Nachmittag Beispiel Wood Minute Street Landmarke a.m., Relative p.m. Zeit to Carnegie Mellon Universität jetzt Ankunft B.2 taskmodell und domänenobjekte der busanwendung 189

Task referenzierte Domänenobjekte route (route%1:15:00::, inst, true) t ((route%1:15:00::, con, true) u (route%1:15:00::, inst, true)) from case:FROM Stanford CoreNLP: prep_from f.desc (bus_stop%1:15:00::, inst, true) f.neigh (city%1:15:00::, inst, true) t (city_district%1:15:00::, inst, true) f.mon (monument%1:06:00::, inst, true) to case:TO Stanford CoreNLP: prep_to t.desc (bus_stop%1:15:00::, inst, true) t.neigh (city%1:15:00::, inst, true) t (city_district%1:15:00::, inst, true) t.mon (monument%1:06:00::, inst, true) date.day (today%1:28:01::, con, false) t (tomorrow%1:28:01::, con, false) t (day_of_the_week%1:28:00::, con, true) date.month (gregorian_calendar_month%1:28:00::, con, true) date.aday (day_of_the_month%1:28:00::, inst, true) date.rel (next%5:00:00:succeeding:00, con, true) u (day_of_the_week%1:28:00::, con, true) time.hour (hour%1:28:01::, inst, false) u (o0clock%4:02:00::, con, true) time.minute (minute%1:28:00::, inst, true) u (minute%1:28:00::, con, true) time.ampm (a.m.%5:00:00:ante_meridiem:00, con, false) t (a.m.%4:02:00::, con, false) t (p.m.%5:00:00:post_meridiem:00, con, false) t (p.m.%4:02:00::, con, false) time.arriveleave (arrival%1:04:01::, con, true) t (leave%1:04:00::, con, true) time.rel (next%5:00:00:succeeding:00, con, true) t (now%4:02:01::, con, false) 190 konzept, implementierung, evaluation

b.3 dateien der evaluation

Für die Evaluation des Konzeptes wird der Korpus sowie Methodi- ken der DSTC verwendet. Der folgende Abschnitt zeigt Beispiele der Dateitypen der DSTC und dient somit als Ergänzung zu Abschnitt 5.2. Die Dateien sind im JSON-Format definiert und werden mit Altova XMLSpy 20151 dargestellt (Lizenz: 30 Tage Testversion).

b.3.1 Dialogprotokoll

Das Dialogprotokoll stellt jeweils eine Interaktion zwischen SDS und Nutzer dar, also genau einen Telefonanruf. Folgender Ausschnitt zeigt zwei Dialogschritte (turns) mit jeweils einer Systemausgabe (output) und einer Nutzereingabe (input).

b.3.2 Manuell annotierte Referenzdatei

In der Referenzdatei wird ein Dialog manuell von Menschen anno- tiert. Dies beinhaltet eine Verschriftung (transcription) und Bewertung der semantischen Interpretationen (labels):

1 http://www.altova.com/de/xmlspy.html [Online 11.11.2015] B.3 dateien der evaluation 191

b.3.3 Interpretation des Dialog-Trackers

Der Dialog-Tracker führt pro Dialogschritt die Interpretation der Nut- zeräußerung nach Slots getrennt auf:

b.3.4 Fusionierte korrekt annotierte Eingabe

In der fusionierten Eingabe werden alle korrekt annotierten Labels zusammengefasst. Im Folgenden sind zwei Dialoge dargestellt, im ersten mit einer korrekt annotierten Eingabe, im zweiten mit sieben korrekten:

LITERATUR publikationen des autors

Hofmann, H., U. Ehrlich, S. Reichel und A. Berton (2013). “Deve- lopment of a Conversational Speech Interface Using Linguistic Grammars”. In: Adjunct Proceedings of the AutomotiveUI Conference. Eindhofen, Niederlande: ACM. Reichel, S., A. Berton, U. Ehrlich und M. Weber (2013). “Semantische Anwendungsmodellierung und Nutzermodelle: Anforderungen an einen sprachlich zu bedienenden persönlichen Assistenten im dynamischen Systemumfeld”. In: Tagungsband der 24. Konferenz Elektronische Sprachsignalverarbeitung. Bielefeld, Deutschland: TUD- Press. Reichel, S., U. Ehrlich, A. Berton und M. Weber (2014). “In-Car Multi- Domain Spoken Dialogs: A Wizard of Oz Study”. In: EACL Work- shop Dialog in Motion. Göteborg, Schweden: ACL. —(2015a). “Evaluation of Machine-led Error Recovery Strategies for Domain Switches in a Spoken Dialog System”. In: Proceedings of the 6th International Workshop on Spoken Dialog Systems. Busan, Südkorea. —(2015b). “Evaluation of Machine-led Error Recovery Strategies for Domain Switches in a Spoken Dialog System”. In: Natural Langua- ge Dialog Systems and Intelligent Assistants. Hrsg. von G. Lee, H. Kim, M. Jeong und J.-H. Kim. Springer International Publishing. Reichel, S., U. Ehrlich und M. Weber (2012). “Speech Dialog Genera- tion from Graphical UIs of Nomadic Devices and the Integration into an Automotive HMI”. In: Adjunct Proceedings of the Automoti- veUI Conference. Portsmouth, USA: ACM. Reichel, S., T. Müller, O. Stamm, F. Groh, B. Wiedersheim und M. We- ber (2011). “MAMPF: An Intelligent Cooking Agent for Zoneless Stoves”. In: Proceedings of the 7th International Conference on Intelli- gent Environments. Nottingham, UK: IEEE. Reichel, S., P. Pfarherr, U. Ehrlich, A. Berton und M. Weber (2014). “Semantisches Taskmodell für Dialoge mit Taskwechsel”. In: Ta- gungsband der 25. Konferenz Elektronische Sprachsignalverarbeitung. Dresden, Deutschland: TUDPress. Reichel, S., J. Sohn, U. Ehrlich, A. Berton und M. Weber (2014). “Out- of-Domain Spoken Dialogs in the Car: A WoZ Study”. In: Procee- dings of the 15th Annual SIGdial Meeting on Discourse and Dialogue. Philadelphia, USA: ACL. Reichel, S., P. Szauer und M. Weber (2015). “In-Car Distraction Issues of Auditory and Visual Modality for Spoken List Selection Tasks”.

193 194 Literatur

In: Proceeding of the International Symposium on Companion Techno- logy. Ulm, Deutschland: Universität Ulm. Reichel, S. (2012). Automatic Speech Dialog Generation from User Interfa- ces of Mobile Applications. Diplomarbeit, Universität Ulm.

referenzen

Allen, J., D. Byron, M. Dzikovska, G. Ferguson, L. Galescu und A. Stent (2000). “An Architecture for a Generic Dialogue Shell”. In: Natural Language Engineering 6.3-4. Cambridge Univ. Press. Araki, M. und Y. Funakura (2010). “Impact of Semantic Web on the Development of Spoken Dialogue Systems”. In: Spoken Dialogue Systems for Ambient Environments. Hrsg. von G. Lee, J. Mariani, W. Minker und S. Nakamura. Bd. 6392. Lecture Notes in Computer Science. Springer Berlin Heidelberg. Aristoteles, übersetzt und erläutert von Kirchmann (1871). Drei Bücher über die Seele. L. Heimann. Atrey, P., A. Hossain, A. El Saddik und M. Kankanhalli (2010). “Multi- modal Fusion for Multimedia Analysis: A Survey”. In: Multimedia Systems 16.6. Springer Berlin Heidelberg. Aust, H., M. Oerder, F. Seide und V. Steinbiss (1994). “Experience with the Philips Automatic Train Timetable Information System”. In: Proceedings of the 2nd IEEE Workshop on Interactive Voice Technology for Telecommunications Applications. Kyoto, Japan: IEEE. Bach, K., M. Jæger, M. Skov und N. Thomassen (2008). “You Can Touch, but You Can’t Look: Interacting with In-vehicle Systems”. In: Proceedings of the SIGCHI Conference on Human Factors in Com- puting Systems. Florence, Italien: ACM. Banchs, R., R. Jiang, S. Kim, A. Niswar und K. Yeo (2013). “AIDA: Ar- tificial Intelligent Dialogue Agent”. In: Proceedings of the SIGDIAL Conference. Metz, Frankreich: ACL. Barón, A. und P. Green (2006). Safety and Usability of Speech Interfaces for In-Vehicle Tasks while Driving: A Brief Literature Review. Techn. Ber. University of Michigan Transportation Research Institute. Ba¸sdo˘gan,Ç. und B. Loftin (2009). “Multimodal Display Systems: Haptic, Olfactory, Gustatory, and Vestibular”. In: The PSI Hand- book of Virtual Environments for Training and Education. Hrsg. von D. Nicholson, D. Schmorrow und J. Cohn. Bd. 2. Praeger Security International. Basil, M. (2012). “Multiple Resource Theory”. In: Encyclopedia of the Sciences of Learning. Hrsg. von N. Seel. Springer USA. Becker, T. (2010). “(Multimodale) Dialogssteme”. In: Computerlinguis- tik und Sprachtechnologie. Hrsg. von K.-U. Carstensen, C. Ebert und C. Ebert. Spektrum Akademischer Verlag. Kap. 5.5. Behnke, G. u. a. (2015). “Coherence Across Components in Cognitive Systems–One Ontology to Rule Them All”. In: Proceedings of the Literatur 195

25th International Joint Conference on Artificial Intelligence. Buenos Aires, Argentinien: AAAI Press. Bellotti, F., A. De Gloria, R. Montanari, N. Dosio und D. Morreale (2005). “COMUNICAR: Designing a Multimedia, Context-Aware Human-Machine Interface for Cars”. In: Cognition, Technology & Work 7.1. Springer London. Bellur, U., H. Vadodaria und A. Gupta (2008). “Semantic Matchma- king Algorithms”. In: Greedy Algorithms. Hrsg. von W. Bednorz. Rijeka, Kroatien: InTech. Kap. 26. Berant, J., A. Chou, R. Frostig und P. Liang (2013). “Semantic Parsing on Freebase from Question-Answer Pairs”. In: Proceedings of the International Conference on Empirical Methods on Natural Language Processing. Seattle, USA: ACL. Berelson, B. und G. Steiner (1964). Human Behavior: An Inventory of Scientific Findings. Hrsg. von L. Warshay. Harcourt, Brace & World. Berg, M. (2013). “Natürlichsprachlichkeit in Dialogsystemen”. In: In- formatik-Spektrum 36.4. Springer Berlin Heidelberg. Berners-Lee, T., J. Hendler, O. Lassila u. a. (2001). “The Semantic Web”. In: Scientific American 284.5. Nature Publishing Group. Bernsen, N., H. Dybkjær und L. Dybkjær (1997). Designing Interactive Speech Systems: From First Ideas to User Testing. Secaucus, USA: Springer New York. Berton, A., D. Bühler und W. Minker (2006). “SmartKom-Mobile Car: User Interaction with Mobile Services in a Car Environment”. In: SmartKom: Foundations of Multimodal Dialogue Systems. Hrsg. von W. Wahlster. Cognitive Technologies. Springer Berlin Heidelberg. Bertrand, G. (2014). Situation- and User-Adaptive Dialogue Management. Dissertation, Universität Ulm. Bizer, C. u. a. (2009). “{DBpedia} - A Crystallization Point for the Web of Data”. In: Web Semantics: Science, Services and Agents on the World Wide Web 7.3. Elsevier Ltd. Black, A., S. Burger, B. Langner, G. Parent und M. Eskenazi (2010). “Spoken Dialog Challenge 2010”. In: Proceedings of the IEEE Work- shop on Spoken Language Technology. Berkeley, USA: IEEE. Blattner, M. und E. Glinert (1996). “Multimodal Integration”. In: Mul- tiMedia 3.4. IEEE. Bohus, D. (2007). Error Awareness and Recovery in Conversational Spo- ken Language Interfaces. Dissertation, Carnegie Mellon University. Pittsburgh, USA. Bohus, D. und A. Rudnicky (2001). “Modeling the Cost of Misunder- standing Errors in the CMU Communicator Dialog System”. In: Proceedings of the IEEE Workshop on Automatic Speech Recognition and Understanding. Pittsburgh, USA: IEEE. —(2003). “RavenClaw: Dialog Management Using Hierarchical Task Decomposition and an Expectation Agenda”. In: Proceedings of Eurospeech. Genf, Schweiz: ISCA. 196 Literatur

Bohus, D. und A. Rudnicky (2005). “Sorry, I Didn’t Catch That! An Investigation of Non-understanding Errors and Recovery Strate- gies”. In: Proceedings of the 6th Annual SIGdial Meeting on Discourse and Dialogue. Lisbon, Portugal: ACL. —(2009). “The RavenClaw Dialog Management Framework: Archi- tecture and Systems”. In: Computer Speech & Language 23.3. Else- vier Ltd. Bollacker, K., C. Evans, P. Paritosh, T. Sturge und J. Taylor (2008). “Freebase: A Collaboratively Created Graph Database for Struc- turing Human Knowledge”. In: Proceedings of the 2008 ACM SIG- MOD International Conference on Management of Data. Vancouver, Kanada: ACM. Bolt, R. (1980). “Put-that-there: Voice and Gesture at the Graphics Interface”. In: SIGGRAPH Computer Graphics 14.3. ACM. Boros, M., W. Eckert, F. Gallwitz, G. Gorz, G. Hanrieder und H. Nie- mann (1996). “Towards Understanding Spontaneous Speech: Word Accuracy vs. Concept Accuracy”. In: Proceedings of the 4th Interna- tional Conference on Spoken Language. Philadelphia, USA: IEEE. Boucsein, W. u. a. (2012). “Publication Recommendations for Electro- dermal Measurements”. In: Psychophysiology 49. Wiley Online Li- brary. Bourguet, M.-L. (2011). “Uncertainty and Error Handling in Pervasi- ve Computing: A User’s Perspective”. In: Ubiquitous Computing. Hrsg. von E. Babkin. InTech. Kap. 3. Brinton, B. und M. Fujiki (1984). “Development of Topic Manipulati- on Skills in Discourse”. In: Speech, Language, and Hearing Research 27.3. ASHA. Brutti, A., L. Cristoforetti, W. Kellermann, L. Marquardt und M. Omo- logo (2010). “WOZ Acoustic Data Collection for Interactive TV”. In: Language Resources and Evaluation 44.3. Springer Niederlande. Bulyko, I., K. Kirchhoff, M. Ostendorf und J. Goldberg (2005). “Error- Correction Detection and Response Generation in a Spoken Dia- logue System”. In: Speech Communication 45.3. Elsevier Ltd. Burgoon, J., L. Guerrero und V. Manusov (2011). “Nonverbal Signals”. In: The SAGE Handbook of Interpersonal Communication. Hrsg. von M. Knapp und J. Daly. SAGE Publications. Kap. 8. Caird, J., C. Willness, P. Steel und C. Scialfa (2008). “A Meta-analysis of the Effects of Cell Phones on Driver Performance”. In: Accident Analysis & Prevention 40.4. Elsevier Ltd. Caissie, R. (2002). “Changing Topics and Communication Breakdowns”. In: The Volta Review. AG Bell Academy. Calvary, G. u. a. (2002). “The CAMELEON Reference Framework”. In: Deliverable 1.1 of the CAMELEON Project. http : / / giove . isti . cnr . it / projects / cameleon / deliverable1 _ 1 . html [Online 27.12.2016]. Literatur 197

Card, S., A. Newell und T. Moran (1983). The Psychology of Human- Computer Interaction. Hillsdale, USA: L. Erlbaum Associates Inc. Carstensen, K.-U., C. Ebert, C. Ebert, S. Jekat, R. Klabunde und H. Langer (2010). Computerlinguistik und Sprachtechnologie. Spektrum Akademischer Verlag. Castronovo, A., C. Endres, T. Schneeberger und C. Müller (2011). “Determining Human-Centered Parameters of Ergonomic Micro- Gesture Interaction for Drivers Using the Theatre Approach”. In: Proceedings of the 3rd International Conference on Automotive User In- terfaces and Interactive Vehicular Applications. Salzburg, Österreich: ACM. Cavedon, L., M. Purver, F. Ratiu, C. Hall und P. Stanford (2005). “Com- bining Confidence Scores with Contextual Features for Robust Multi-Device Dialogue”. In: Proceedings of the Australasian Langua- ge Technology Workshop. Sydney, Australien: ACL. Cherry, E. (1953). “Some Experiments on the Recognition of Speech, with One and with Two Ears”. In: The Journal of the Acoustical Society of America 25.5. AIP Publishing. Christensen, E., F. Curbera, G. Meredith und S. Weerawarana (2001). Web Services Description Language (WSDL) 1.1.W3C Note. W3C. Chu, S. und J. Downes (2000). “Odour-evoked Autobiographical Me- mories: Psychological Investigations of Proustian Phenomena”. In: Chemical Senses 25.1. Oxford University Press. Clark, H. (1996). Using Language. Cambridge University Press. Cohen, M., J. Giangola und J. Balogh (2004). Voice User Interface Design. Addison-Wesley. Cohen, P., M. Johnston, D. McGee, S. Oviatt, J. Clow und I. Smith (1998). “The Efficiency of Multimodal Interaction: a Case Study.” In: Proceedings of the 5th International Conference on Spoken Language Processing. Sydney, Australien: ACL. Cooper, J., I. Hailey und D. Strayer (2014). Mental Workload of Common Voice-Based Vehicle Interactions across Six Different Vehicle Systems. Techn. Ber. Washington DC, USA: AAA Foundation. Corbin, A. (2008). Le miasme et la jonquille : L’odorat et l’imaginaire social aux XVIIIe et XIXe siècles. Flammarion Champs Histoire. Dance, F. (1970). “The Concept of Communication”. In: Journal of Com- munication 20.2. Blackwell Publishing Ltd. Danilava, S., S. Busemann und C. Schommer (2012). “Artificial Con- versational Companions. Requirement Analysis”. In: Proceedings of the 4th International Conference on Agents and Artificial Intelligence. Vilamoura, Portugal: SciTePress. Daume III, H. und D. Marcu (2006). “Domain Adaptation for Statisti- cal Classifiers”. In: Journal of Artificial Intelligence Research 26.1. AI Access Foundation. Dausend, M. und U. Ehrlich (2008). “A Prototype for Future Spoken Dialog Systems Using an Embodied Conversational Agent”. In: 198 Literatur

Perception in Multimodal Dialogue Systems. Hrsg. von E. André, L. Dybkjær, W. Minker, H. Neumann, R. Pieraccini und M. Weber. Springer Berlin, Heidelberg. De Marneffe, M.-C. u. a. (2014). “Universal Stanford Dependencies: A Cross-linguistic Typology”. In: Proceedings of the 9th International Conference on Language Resources and Evaluation. Reykjavik, Island: ELRA. de Waard, D. (1996). The Measurement of Drivers’ Mental Workload. Dis- sertation, University of Groningen, Niederlande. Deutsches Institut für Normung (DIN) e.V. (2008). DIN EN ISO 9241- 110. Doran, C., J. Aberdeen, L. Damianos und L. Hirschman (2001). “Com- paring Several Aspects of Human-computer and Human-human Dialogues”. In: Proceedings of the 2nd Annual SIGdial Meeting on Discourse and Dialogue. Aalborg, Dänemark: ACL. Driver Focus-Telematics Working Group (2006). Statement of Princip- les, Criteria and Verification Procedures on Driver Interactions with Advanced In-Vehicle Information and Communication Systems. Techn. Ber. Alliance of Automotive Manufacturers. Ebner-Eschenbach, M. von (2015). Aphorismen. Hofenberg. Ehrlich, U. (1999). “Task Hierarchies Representing Sub-Dialogs in Speech Dialog Systems”. In: Proceedings of Eurospeech. Budapest, Ungarn: ISCA. European Language Resources Association (2015). Catalogue of Lan- guage Resources. http://www.elda.org/en/catalogues/catalogue- language-resources/ [Online 09.11.2015]. Falb, J., S. Kavaldjian, R. Popp, D. Raneburger, E. Arnautovic und H. Kaindl (2009). “Fully Automatic User Interface Generation from Discourse Models”. In: Proceedings of the 14th International Con- ference on Intelligent User Interfaces. Sanibel Island, Florida, USA: ACM. Falb, J., H. Kaindl, H. Horacek, C. Bogdan, R. Popp und E. Arnauto- vic (2006). “A Discourse Model for Interaction Design Based on Theories of Human Communication”. In: Conference for Human- Computer Interaction: Extended Abstracts on Human Factors in Com- puting Systems. Montréal, Kanada: ACM. Fellbaum, C. (1998). WordNet: An Electronic Lexical Database. Hrsg. von C. Fellbaum. Finlayson, M. (2014). “Java Libraries for Accessing the Princeton Word- net: Comparision and Evaluation”. In: Proceedings of the 7th Inter- national Global WordNet Conference. Tartu, Estland: ACL. Fitts, P. und M. Posner (1967). Human Performance. Basic Concepts in Psychology Series. Prentice-Hall International Incorporated. Ford-Werke GmbH (2014). Hungrig? Sprachgesteuertes Ford SYNC 2- Bediensystem reserviert einen Tisch im Restaurant und weist den Weg. Pressemitteilung 11.09.2014. Literatur 199

—(2015). How to use SYNC AppLink. http://www.ford.de/Rund-um- den-Service/Ford-SYNC/ [Online 08.07.2015]. Forrester, J. (1971). “Counterintuitive Behavior of Social Systems”. In: Technology Review. Bd. 73. 3. MIT Press. Foster, M. (2002). “State of the Art Review: Multimodal Fission”. In: Deliverable of the COnversational Multimodal Interaction with Compu- ters Project (COMIC, IST-2001-32311) 6.09. Fraser, N. und G.Gilbert (1991). “Simulating Speech Systems”. In: Computer Speech & Language 5.1. Elsevier Ltd. Fried, J. und R. Edmondson (2006). “How Customer Perceived Laten- cy Measures Success In Voice Self-Service”. In: Business Communi- cations Review 36.3. Key3Media Group. Friedman, M. (1937). “The Use of Ranks to avoid the Assumption of Normality Implicit in the Analysis of Variance”. In: Journal of the American Statistical Association 32.200. Taylor & Francis. Fromkin, V., R. Rodman und N. Hyams (2002). An Introduction to Lan- guage. Hrsg. von M. Rosenberg. 7. Aufl. Itps Thomson Learning. Gable, T., B. Walker, H. Moses und R. Chitloor (2013). “Advanced Au- ditory Cues on Mobile Phones Help Keep Drivers’ Eyes on the Road”. In: Proceedings of the 5th International Conference on Automo- tive User Interfaces and Interactive Vehicular Applications. Eindhoven, Niederlande: ACM. Gärtner, U., W. König und T. Wittig (2001). “Evaluation of Manual vs. Speech Input when Using a Driver Information System in Real Traffic”. In: Proceedings of the International Driving Symposium on Human Factors in Driver Assessment, Training and Vehicle Design. Aspen, Colorado, USA. Gellatly, A. (1997). The Use of Speech Recognition Technology in Automo- tive Applications. Dissertation, Virginia Polytechnic Institute and State University, USA. Geutner, P., F. Steffens und D. Manstetten (2002). “Design of the VI- CO Spoken Dialogue System: Evaluation of User Expectations by Wizard-of-Oz Experiments”. In: Proceedings of the International Conference on Language Resources and Evaluation. Las Palmas, Spa- nien: ELRA. Geutner, P., F. Steffens, L. Peirlinckx u. a. (2004). “VICO: Development and Evaluation of an In-Car Natural Voice Interface”. In: Procee- dings of the International Conference on Acoustics, Speech, and Signal Processing. Montréal, Kanada: IEEE. Giese, M., T. Mistrzyk, A. Pfau, G. Szwillus und M. Detten (2008). “AMBOSS: A Task Modeling Approach for Safety-Critical Sys- tems”. In: Engineering Interactive Systems. Hrsg. von P. Forbrig und F. Paternò. Bd. 5247. Lecture Notes in Computer Science. Springer Berlin Heidelberg. Glass, J., J. Polifroni, S. Seneff und V. Zue (2000). “Data Collection And Performance Evaluation Of Spoken Dialogue Systems: The 200 Literatur

Mit Experience”. In: Proceedings of INTERSPEECH. Peking, China: ISCA. Goldwater, S., D. Jurafsky und C. Manning (2010). “Which Words are Hard to Recognize? Prosodic, Lexical, and Disfluency Factors that Increase Speech Recognition Error Rates”. In: Speech Commu- nication 52.3. Elsevier Ltd. Gong, Y. (1995). “Speech Recognition in Noisy Environments: A Sur- vey”. In: Speech Communication 16.3. Elsevier Ltd. Gorin, A., G. Riccardi und J. Wright (1997). “How May I Help You?” In: Speech Communication 23.1-2. Elsevier Ltd. Grice, P. (1975). “Logic and Conversation”. In: Syntax and Semantics. Hrsg. von P. Cole und J. Morgan. New York, USA: Academic Press. Griol, D., Z. Callejas, R. López-Cózar und G. Riccardi (2014). “A Domain-independent Statistical Methodology for Dialog Manage- ment in Spoken Dialog Systems”. In: Computer Speech & Language 28.3. Elsevier Ltd. Gruber, T. (1993). “A Translation Approach to Portable Ontology Spe- cifications”. In: Knowledge Acquisition 5.2. Academic Press. Gurevych, I., R. Porzel und R. Malaka (2006). The SmartKom Ontology. Heidelberg, Deutschland: European Media Laboratory GmbH. Halliday, A. und R. Hasan (2014). Cohesion in English. English Langua- ge Series. Taylor & Francis. Hamilton, B. (2014). Distracted Driving: Research Updates from 2013 and 2014. Washington DC, USA: AAA Foundation for Traffic Safety. Hamming, R. (1973). Numerical Methods for Scientists and Engineers. Bd. 2. New York, USA: McGraw-Hill. Hamp, B. und H. Feldweg (1997). “GermaNet - a Lexical-Semantic Net for German”. In: Proceedings of the ACL workshop on Automatic Information Extraction and Building of Lexical Semantic Resources for NLP Applications. Madrid, Spanien: ACL. Harbluk, J., Y. Noy und M. Eizenman (2002). The Impact of Cognitive Distraction on Driver Visual Behaviour and Vehicle Control. Techn. Ber. Transport Canada. Hart, S. und L. Staveland (1988). “Development of NASA-TLX (Task Load Index): Results of Empirical and Theoretical Research”. In: Human Mental Workload. Hrsg. von P. Hancock und N. Meshkati. Bd. 52. Advances in Psychology. Elsevier Ltd. Hartson, H., A. Siochi und D. Hix (1990). “The UAN: A User-oriented Representation for Direct Manipulation Interface Designs”. In: Transactions on Information Systems 8.3. ACM. Harvey, C., N. Stanton, C. Pickering, M. McDonald und P. Zheng (2011). “A Usability Evaluation Toolkit for In-Vehicle Information Systems (IVISs)”. In: Applied Ergonomics and Transportation Safety 42.4. Elsevier Ltd. Literatur 201

Hassel, L. und E. Hagen (2005). “Evaluation of a Dialogue System in an Automotive Environment”. In: Proceedings of the 6th Annual SIGdial Meeting on Discourse and Dialogue. Lisbon, Portugal: ACL. Hazen, T., T. Burianek, J. Polifroni und S. Seneff (2000). “Integrating Recognition Confidence Scoring with Language Understanding and Dialogue Modeling.” In: Proceedings of INTERSPEECH. Bei- jing, China: ISCA. Healey, J. (2014). “Physiological Sensing of Emotion”. In: The Oxford Handbook of Affective Computing. Hrsg. von R. Calvo, S. D’Mello, J. Gratch und A. Kappas. Oxford University Press. Healey, J. und R. Picard (2005). “Detecting Stress During Real-world Driving Tasks Using Physiological Sensors”. In: Transactions on Intelligent Transportation Systems 6.2. IEEE. Heisterkamp, P. (2001). “Linguatronic Product-level Speech System for Mercedes-Benz Cars”. In: Proceedings of the 1st International Conference on Human Language Technology Research. San Diego, USA: ACL. Hempel, T. (2006). “Usability of Telephone-Based Speech Dialog Sys- tems as Experienced by User Groups of Different Age and Back- ground”. In: Proceedings of the 2nd ISCA/DEGA Tutorial and Rese- arch Workshop on Perceptual Quality of Systems. Bonn, Deutschland: ISCA. Hinckley, K. und D. Wigdor (2012). “Input Technologies and Techni- ques”. In: The Human-Computer Interaction Handbook. Hrsg. von J. Jacko. CRC Press Taylor & Francis Group. Hoare, Z., C. Whitaker und R. Whitaker (2013). “Introduction to a Generalized Method for Adaptive Randomization in Trials”. In: Trials 14.19. BioMed Central. Hoben, J. (1954). “English Communication at Colgate Re-examined”. In: Journal of Communication 4.3. Blackwell Publishing Ltd. Hofmann, H. (2014). Intuitive Speech Interface Technology for Information Exchange Tasks. Dissertation, Universität Ulm, Deutschland. Hofmann, H., U. Ehrlich, A. Berton und W. Minker (2012). “Speech Interaction with the Internet - A User Study”. In: Proceedings of the 8th International Conference on Intelligent Environments. Guana- juato, Mexico: IEEE. Hofmann, H., A. Silberstein, U. Ehrlich, A. Berton, C. Müller und A. Mahr (2014). “Development of Speech-Based In-Car HMI Con- cepts for Information Exchange Internet Apps”. In: Natural Inter- action with Robots, Knowbots and Smartphones. Hrsg. von J. Mariani, S. Rosset, M. Garnier-Rizet und L. Devillers. Springer New York. Hofmann, H., V. Tobisch, U. Ehrlich, A. Berton und A. Mahr (2014). “Comparison of Speech-based In-car HMI Concepts in a Driving Simulation Study”. In: Proceedings of the 19th International Confe- rence on Intelligent User Interfaces. Haifa, Israel: ACM. 202 Literatur

Hone, K. und R. Graham (2000). “Towards a Tool for the Subjecti- ve Assessment of Speech System Interfaces (SASSI)”. In: Natural Language Engineering 6.3&4. Cambridge Univ Press. Honold, F. (unveröffentlicht). Interaktionsmanagement und Modalitätsar- bitrierung für adaptive und multimodale Mensch-Computer Interaktion (vorläufiger Titel). Dissertation, Universität Ulm, Deutschland. Honold, F., F. Schüssel und M. Weber (2012). “Adaptive Probabilistic Fission for Multimodal Systems”. In: Proceedings of the 24th Austra- lian Computer-Human Interaction Conference. Melbourne, Australia: ACM. Horrey, W. und C. Wickens (2004). “Cell Phones and Driving Perfor- mance: A Meta-analysis”. In: Proceedings of the 48th Annual Mee- ting on Human Factors and Ergonomics Society. SAGE Publications. New Orleans, USA. Hummel, M. (2003). Hermine, bitte schleudern! http://speech-experts. com/hermine-bitte-schleudern/ [Online 28.12.2016]. Speech Ex- perts GmbH. Hurtig, T. und K. Jokinen (2006). “Modality Fusion in a Route Navi- gation System”. In: Proceedings of the Workshop on Effective Multi- modal Dialogue Interfaces. Sydney, Australien: ACM. Hymes, D. (1962). “The Ethnography of Speaking”. In: Anthropology and human behavior 13.53. Anthropological Society of Washington. International Telecommunication Union (ITU) (2003). Subjective Quali- ty Evaluation of Telephone Services Based on Spoken Dialogue Systems. ITU-T Rec. P.851. Jensen, B., M. Skov und N. Thiruravichandran (2010). “Studying Dri- ver Attention and Behaviour for Three Configurations of GPS Na- vigation in Real Traffic Driving”. In: Proceedings of the 28th SIGCHI Conference on Human Factors in Computing Systems. Atlanta, USA: ACM. Johnson, J. und A. Henderson (2011). Conceptual Models: Core to Good Design. Hrsg. von J. Carroll. Morgan & Claypool Publishers. Johnson, P., P. Johnson und A. Shouls (1988). “Task-Related Knowled- ge Structures: Analysis, Modelling and Application”. In: People and Computers IV. University Press. Jokinen, K. und M. McTear (2010). Spoken Dialogue Systems. Synthesis lectures on human language technologies. Morgan & Claypool Publishers. Jonze, S. (2014). Her. [Annapuma Pictures]. USA. Kaasinen, E. (2005). User Acceptance of Mobile Services: Value, Ease of Use, Trust and Ease of Adoption. Dissertation, Tampere University of Technology, Finnland. Kamm, C. (1995). “User Interfaces for Voice Applications”. In: Voi- ce Communication between humans and machines. Bd. 92. National Academy Press. Literatur 203

Karat, C.-M., J. Lai, O. Stewart und N. Yankelovich (2012). “Speech and Language Interfaces, Applications, and Technologies”. In: The Human-Computer Interaction Handbook. Hrsg. von J. Jacko. CRC Press Taylor & Francis Group. Kellar, M., C. Watters und M. Shepherd (2006). “A Goal-based Clas- sification of Web Information Tasks”. In: Proceedings of the 69th Annual Meeting of the American Society for Information Science and Technology. Austin, USA: ASIS&T. Kern, D. und A. Schmidt (2009). “Design Space for Driver-based Au- tomotive User Interfaces”. In: Proceedings of the 1st International Conference on Automotive User Interfaces and Interactive Vehicular Applications. Essen, Deutschland: ACM. Klemmer, S., A. Sinha, J. Chen, J. Landay, N. Aboobaker und A. Wang (2000). “Suede: a Wizard of Oz prototyping tool for speech user interfaces”. In: Proceedings of the 13th annual ACM symposium on User interface software and technology. San Diego, USA: ACM. Klinke, R. und S. Silbernagl (1996). Lehrbuch der Physiologie. Georg Thieme. Klug, T. und J. Kangasharju (2005). “Executable Task Models”. In: Pro- ceedings of the 4th international workshop on Task models and diagrams. Gdansk, Polen: ACM. Knapp, M. und J. Hall (2009). Nonverbal Communication in Human In- teraction. Cengage Learning. Köhler, A. (2010). Intelligent Data Interchange (IDI): Interventionsfrei- er Geschäfsdatenaustausch durch Wissensrepräsentation und ontologi- sches Matching. Entwicklung und Management von Informations- systemen und intelligenter Datenauswertung. Vieweg+Teubner. Komatani, K., N. Kanda u. a. (2006). “Multi-domain Spoken Dialogue System with Extensibility and Robustness Against Speech Reco- gnition Errors”. In: Proceedings of the 7th SIGdial Workshop on Dis- course and Dialogue. Sydney, Australien: ACL. Komatani, K. und T. Kawahara (2000). “Flexible Mixed-initiative Dia- logue Management Using Concept-level Confidence Measures of Speech Recognizer Output”. In: Proceedings of the 18th Internatio- nal Conference on Computational Linguistics. Saarbrücken, Deutsch- land: ACL. Krahmer, E., M. Swerts, M. Theune und M. Weegels (2001). “Error De- tection in Spoken Human-machine Interaction”. In: International Journal of Speech Technology 4.1. Springer US. Kritikos, K., D. Plexousakis und F. Paternò (2014). “Task Model-driven Realization of Interactive Application Functionality Through Ser- vices”. In: Transactions on Interactive Intelligent Systems 3.4. ACM. Kruskal, W. und W. Wallis (1952). “Use of Ranks in One-Criterion Va- riance Analysis”. In: Journal of the American Statistical Association 47.260. Taylor & Francis, Ltd. 204 Literatur

Kun, A., T. Paek und Z. Medenica (2007). “The Effect of Speech Inter- face Accuracy on Driving Performance”. In: Proceedings of INTER- SPEECH. Antwerp, Belgien: ISCA. Kun, A., A. Shyrokov und P. Heeman (2013). “Interactions Between Human-human Multi-threaded Dialogues and Driving”. In: Per- sonal and Ubiquitous Computing 17.5. Springer London. Kunze, C. und L. Lemnitzer (2007). Computerlexikographie. Narr. Lalanne, D., L. Nigay, P. Palanque, P. Robinson, J. Vanderdonckt und J.-F. Ladry (2009). “Fusion Engines for Multimodal Input: A Sur- vey”. In: Proceedings of the 11th International Conference on Multimo- dal Interfaces. Cambridge, USA: ACM. Lane, I., T. Kawahara, T. Matsui und S. Nakamura (2007). “Out-of- Domain Utterance Detection Using Classification Confidences of Multiple Topics”. In: Transactions on Audio, Speech, and Language Processing 15.1. IEEE. Larsson, S. und S. Ericsson (2002). “GoDiS–issue-based Dialogue Ma- nagement in a Multi-domain, Multi-language Dialogue System”. In: Proceedings of the ACL-02 Demonstrations Session. Philadelphia, USA: ACL. Larsson, S., F. Kronlid und P. Wärnestal (2014). “Safe In-vehicle Dia- logue Using Learned Predictions of User Utterances”. In: Procee- dings of the 14th International Conference of the European Chapter of the Association for Computational Linguistics. Gothenburg, Schwe- den: EACL. Larsson, S. und J. Villing (2007). “The DICO project: A Multimodal Menu-based In-vehicle Dialogue System”. In: Proceedings of the 7th International Workshop on Computational Semantics. Tilburg, Nieder- lande: ACL. Lau, T., J. Cerruti, G. Manzato, M. Bengualid, J. Bigham und J. Ni- chols (2010). “A Conversational Interface to Web Automation”. In: Proceedings of the 23rd Symposium on User Interface Software and Technology. New York, USA: ACM. Lazar, J., J. Feng und H. Hochheiser (2010). Research Methods in Human- Computer Interaction. John Wiley & Sons Ltd. Lee, C., S. Jung, S. Kim und G. Lee (2009). “Example-based Dialog Modeling for Practical Multi-domain Dialog System”. In: Speech Communication 51.5. Elsevier Ltd. Lee, I. u. a. (2014). “A Two-Step Approach for Efficient Domain Selec- tion in Multi-Domain Dialog Systems”. In: Natural Interaction with Robots, Knowbots and Smartphones. Hrsg. von J. Mariani, S. Rosset, M. Garnier-Rizet und L. Devillers. Springer New York. Limbourg, Q. und J. Vanderdonckt (2003). “Comparing Task Models for User Interface Design”. In: Hrsg. von D. Diaper und N. Stan- ton. Mahwah, USA: Lawrence Erlbaum Associates. Kap. 6. Litman, D., M. Walker und M. Kearns (1999). “Automatic Detection of Poor Speech Recognition at the Dialogue Level”. In: Proceedings of Literatur 205

the 37th Annual Meeting of the Association for Computational Lingui- stics on Computational Linguistics. College Park, Maryland: ACL. Littlejohn, S. und K. Foss (2008). Theories of Human Communication. Wadsworth series in communication studies. Cengage Learning. Machado, S. u. a. (2010). “EEG-based Brain-computer Interfaces: An Overview of Basic Concepts and Clinical Applications in Neuro- rehabilitation”. In: Reviews in the Neurosciences 21.6. De Gruyter. Maciej, J. und M. Vollrath (2009). “Comparison of Manual vs. Speech- based Interaction with In-vehicle Information Systems”. In: Acci- dent Analysis and Prevention 41.5. Elsevier Ltd. Mahfoudhi, A., M. Abid und M. Abed (2005). “Towards a User Inter- face Generation Approach Based on Object Oriented Design and Task Model”. In: Proceedings of the 4th International Workshop on Task Models and Diagrams. Gdansk, Polen: ACM. Mahr, A., M. Feld, M. Mehdi und R. Math (2012). “The ConTRe (Con- tinuous Tracking and Reaction) Task: A Flexible Approach for Assessing Driver Cognitive Workload with High Sensitivity”. In: Adjunct Proceedings of the 4th International Conference on Automoti- ve User Interfaces and Interactive Vehicular Applications. Portsmouth, USA: ACM. Manning, C., M. Surdeanu, J. Bauer, J. Finkel, S. Bethard und D. Mc- Closky (2014). “The Stanford CoreNLP Natural Language Proces- sing Toolkit”. In: Proceedings of 52nd Annual Meeting of the ACL: System Demonstrations. Baltimore, USA: ACL. Manning, C., P. Raghavan und H. Schütze (2009). An Introduction to Information Retrieval. Cambridge University Press. Marcus, M., M. Marcinkiewicz und B. Santorini (1993). “Building a Large Annotated Corpus of English: The Penn Treebank”. In: Computational Linguistics 19.2. MIT Press. Martin, D. u. a. (2004). OWL-S: Semantic Markup for Web Services.W3C Member Submission. Math, R., A. Mahr, M. Moniri und C. Müller (2012). “OpenDS: A New Open-source Driving Simulator for Research”. In: Adjunct Proceedings of the 4th International Conference on Automotive User Interfaces and Interactive Vehicular Applications. Portsmouth, USA: ACM. Mattes, S. (2003). “The Lane-change-task as a Tool for Driver Distrac- tion”. In: Proceedings of IGfA. Dearborn, USA. Matuszek, C., E. Herbst, L. Zettlemoyer und D. Fox (2013). “Learning to Parse Natural Language Commands to a Robot Control Sys- tem”. In: Experimental Robotics. Hrsg. von J. Desai, G. Dudek, O. Khatib und V. Kumar. Bd. 88. Springer Tracts in Advanced Robo- tics. Springer International Publishing. McCrae, J. u. a. (2010). The Lemon Cookbook. http://lemon-model.net/ learn/cookbook.html [Online 28.12.2016]. 206 Literatur

McTear, M. (2002). “Spoken Dialogue Technology: Enabling the Con- versational User Interface”. In: Computing Surveys 34.1. ACM. Mehler, B., B. Reimer und J. Coughlin (2012). “Sensitivity of Physio- logical Measures for Detecting Systematic Variations in Cogniti- ve Demand From a Working Memory Task: An On-Road Study Across Three Age Groups”. In: The Journal of the Human Factors and Ergonomics Society. Bd. 54. 396. SAGE Publications. Meixner, G. und D. Görlich (2008). “Aufgabenmodellierung als Ker- nelement eines nutzerzentrierten Entwicklungsprozesses für Be- dienoberflächen”. In: Workshop "Verhaltensmodellierung: Best Prac- tices und neue Erkenntnisse", Fachtagung Modellierung. Berlin, Deutsch- land. Meixner, G. und M. Seissler (2012). Useware Markup Language (useML). W3C Model-Based UI Working Group Submission. W3C Model- Based UI Working Group. Meixner, G., M. Seissler und K. Breiner (2011). “Model-Driven Usewa- re Engineering”. In: Model-Driven Development of Advanced User Interfaces. Hrsg. von H. Hussmann, G. Meixner und D. Zuehlke. Bd. 340. Studies in Computational Intelligence. Springer Berlin Heidelberg. Melo, G. de (2010). Modellbasierte Entwicklung von Interaktionsanwen- dungen. Dissertation, Universität Ulm, Deutschland. Microsoft (2014). Chapter 1: Service Oriented Architecture. https : / / msdn.microsoft.com/en- us/library/bb833022.aspx [Online 06.09.2015]. Miller, G. (1995). “WordNet: A Lexical Database for English”. In: Com- munications of the ACM. Bd. 38. 11. ACM. Miller, G. (1966). “On Defining Communication: Another Stab”. In: Journal of Communication 16.2. Blackwell Publishing Ltd. Milward, D. und M. Beveridge (2003). “Ontology-based Dialogue Sys- tems”. In: Proceedings of the 3rd Workshop on Knowledge and reaso- ning in practical dialogue systems. Acapulco, Mexiko: Citeseer. Minker, W., U. Haiber, P. Heisterkamp und S. Scheible (2004). “The SENECA Spoken Language Dialogue System”. In: Speech Commu- nication 43.1. Elsevier Ltd. Mitkov, R. (2014). Anaphora Resolution. Studies in Language and Lin- guistics. Taylor & Francis. Mitsubishi Electric Corporation (2014). Mitsubishi Electric Develops Pre- dictive HMI for In-Car Device Operation. Pressemitteilung 05.03.2014. Northville, USA. Möller, S. (2005). “Perceptual Quality Dimensions of Spoken Dialogue Systems: A Review and New Experimental Results”. In: Procee- dings of the 4th European Congress on Acoustics. Budapest, Ungarn. —(2010). Quality Engineering. Springer Berlin Heidelberg. Literatur 207

Myers, B., S. Hudson und R. Pausch (2000). “Past, Present, and Future of User Interface Software Tools”. In: Transactions on Computer- Human Interaction 7.1. ACM. Nardi, D. und R. Brachman (2003). “An Introduction to Description Logics”. In: Hrsg. von F. Baader, D. McGuinness, D. Nardi und P. Patel-Schneider. Sapporo, Japan: Cambridge University Press. Kap. 1. National Highway Traffic Safety Administration (NHTSA) (2013). Dis- tracted Driving 2011. Techn. Ber. Neßelrath, R. und D. Porta (2011). “Rapid Development of Multimo- dal Dialogue Applications with Semantic Models”. In: Proceedings of the 7th IJCAI Workshop on Knowledge and Reasoning in Practical Dialogue Systems. Barcelona, Spanien: Department of Computer und Information Science, Linköping University, Schweden. Nishimura, R., Y. Todo, K. Yamamoto und S. Nakagawa (2013). “Chat- like Spoken Dialog System for a Multi-party Dialog Incorporating Two Agents and a User”. In: Proceedings of the 1st International Conference on Human-Agent Interaction. Sapporo, Japan: ACM. Norman, D. (2002). The Design of Everyday Things. Basic Books. Nothdurft, F. (2016). User- and Situation-Adaptive Explanations in Dia- logue Systems. Dissertation, Universität Ulm, Deutschland. OASIS WSBPEL Technical Committee (2007). Web Services Business Process Execution Language Version 2.0. Ohloff, G. und A. Thomas (1971). Gustation and olfaction. London: Aca- demic press. Oviatt, S. (1995). “Predicting Spoken Disfluencies During Human- computer Interaction”. In: Computer Speech & Language 9.1. Else- vier Ltd. Oviatt, S., P. Cohen u. a. (2000). “Designing the User Interface for Multimodal Speech and Pen-based Gesture Applications: State- of-the-art Systems and Future Research Directions”. In: Human- Computer Interaction 15.4. L. Erlbaum Associates Inc. Oviatt, S., R. Coulston und R. Lunsford (2004). “When do we Interact Multimodally?: Cognitive Load and Multimodal Communication Patterns”. In: Proceedings of the 6th International Conference on Mul- timodal Interfaces. State College, USA: ACM. Paek, T. und E. Horvitz (2000). “Conversation As Action Under Un- certainty”. In: Proceedings of the 16th Conference on Uncertainty in Artificial Intelligence. Stanford, USA: Morgan Kaufmann Publis- hers Inc. Pakucs, B. (2003). “Towards Dynamic Multi-domain Dialogue Proces- sing.” In: Proceedings of INTERSPEECH. Geneva, Schweiz: ISCA. Pandey, A. u. a. (2014). “Romeo2 Project: Humanoid Robot and Companion for Everyday Life: I. Situation Assessment for So- cial Intelligence”. In: Proceedings of the 2nd International Workshop on Artificial Intelligence and Cognition. Torino, Italien: CEUR. 208 Literatur

Pappu, A. und A. Rudnicky (2013). “Predicting Tasks in Goal-Oriented Spoken Dialog Systems using Semantic Knowledge Bases”. In: Proceedings of the 14th Annual SIGdial Meeting on Discourse and Dia- logue. Metz, Frankreich: ACL. Partsch, H. (2010). Requirements-Engineering systematisch: Modellbildung für softwaregestützte Systeme. eXamen.press. Springer Berlin Hei- delberg. Passin, T. (2004). Explorer’s Guide to the Semantic Web. Greenwich, Eng- land: Manning. Paternò, F. (2000). Model-based Design and Evaluation of Interactive App- lications. Applied Computing Series. Springer. Paternò, F., C. Santoro und L. Spano (2009). “MARIA: A Univer- sal, Declarative, Multiple Abstraction-level Language for Service- oriented Applications in Ubiquitous Environments”. In: Transac- tions on Computer-Human Interaction 16.4. ACM. —(2011). “Engineering the Authoring of Usable Service Front Ends”. In: Journal of Systems and Software 84.10. Elsevier Ltd. Patten, C., A. Kircher, J. Östlund und L. Nilsson (2004). “Using Mobile Telephones: Cognitive Workload and Attention Resource Alloca- tion”. In: Accident Analysis & Prevention 36.3. Elsevier Ltd. Paulenz, M. und T. Schlegel (2013). “Modellbasierte Softwaretechno- logie zur Entwicklung durch Benutzer”. In: Multi-Touch. Hrsg. von T. Schlegel. Springer Berlin Heidelberg. Kap. 9. Pauzié, A., J. Manzan und N. Dapzol (2007). “Driver’s Behavior and Workload Assessment for New In-vehicle Technologies Design”. In: Proceedings of the 4th International Driving Symposium on Human Factors in Driver Assessment, Training, and Vehicle Design. Steven- son, Washington, USA. Pearce, B. (2004). “The Coordinated Management of Meaning”. In: Theorizing Communication and Culture. Hrsg. von W. Gudykunst. Thousand Oaks, CA: Sage. Pedersen, T., S. Patwardhan und J. Michelizzi (2004). “WordNet::Similarity: Measuring the Relatedness of Concepts”. In: Demonstration papers at the North American Chapter of the Association for Computational Linguistics – Human Language Technologies. ACL. Peissner, M., V. Doebler und F. Metze (2011). Can Voice Interaction Help Reducing the Level of Distraction and Prevent Accidents? Techn. Ber. Carnegie Mellon University und Fraunhofer-Institut (IAO). Pellom, B., W. Ward und S. Pradhan (2000). “The CU Communicator: An Architecture for Dialogue Systems.” In: Proceedings of INTER- SPEECH. Beijing, China: ISCA. Pfarherr, P. (2013). Aufgabenorientierte Mensch-Maschine-Interaktion über mehrere Anwendungen hinweg mit Hilfe semantisch annotierter Task- Modelle. Masterarbeit, Universität Ulm, Deutschland. Picard, R. (1997). Affective Computing. Techn. Ber. 321. M.I.T Media Laboratory Perceptual Computing Section. Literatur 209

Picard, R., E. Vyzas und J. Healey (2001). “Toward Machine Emotional Intelligence: Analysis of Affective Physiological State”. In: Tran- sactions on Pattern Analysis and Machine Intelligence 23.10. IEEE. Pieraccini, R. und J. Huerta (2005). “Where Do we Go from Here? Re- search and Commercial Spoken Dialog Systems”. In: Proceedings of the 6th Annual SIGdial Meeting on Discourse and Dialogue. Lisbon, Portugal: ACL. Pieraccini, R., D. Suendermann, K. Dayanidhi und J. Liscombe (2009). “Are We There Yet? Research in Commercial Spoken Dialog Sys- tems”. In: Text, Speech and Dialogue. Hrsg. von V. Matoušek und P. Mautner. Bd. 5729. Lecture Notes in Computer Science. Springer Berlin Heidelberg. Planells, J., L. Hurtado, E. Segarra und E. Sanchis (2013). “A Multi- domain Dialog System to Integrate Heterogeneous Spoken Dia- log Systems.” In: Proceedings of INTERSPEECH. Lyon, Frankreich: ISCA. Poguntke, M. (2016). Abstrakte Interaktionsmodelle für die Integration in bestehende Benutzerschnittstellen. Dissertation, Universität Ulm, Deutschland. Pulman, S., J. Boye, M. Cavazza, C. Smith und R. de la Cámara (2010). “How Was Your Day?” In: Proceedings of the Workshop on Compan- ionable Dialogue Systems. Uppsala, Schweden: ACL. Qin, L. (2013). Learning Out-of-Vocabulary Words in Automatic Speech Recognition. Dissertation, Carnegie Mellon University, Pittsburgh, USA. Raux, A., B. Langner, D. Bohus, A. Black und M. Eskenazi (2005). “Let’s Go Public! Taking a Spoken Dialog System to the Real World”. In: Proceedings of INTERSPEECH. Lisbon, Portugal: ISCA. Reichenberger, K. (2010). Kompendium semantische Netze. X.media.press. Springer Heidelberg. Reithinger, N. u. a. (2003). “SmartKom: Adaptive and Flexible Multi- modal Access to Multiple Applications”. In: Proceedings of the 5th International Conference on Multimodal Interfaces. Vancouver, Kana- da: ACM. Robichaud, J.-P., P. Crook, P. Xu, O. Khan und R. Sarikaya (2014). “Hy- potheses Ranking for Robust Domain Classification And Tracking in Dialogue Systems”. In: Proceedings of the 15th Annual Conference of the International Speech Communication Association. Singapore: IS- CA. Rodrigo, S. und J. Abraham (2012). “Development and Implementa- tion of a Chat Bot in a Social Network”. In: Proceedings of the 9th International Conference on Information Technology: New Generations. Las Vegas, USA: IEEE. Rodriguez Garzon, S. (2013). Kontextsensitive Personalisierung automoti- ver Benutzerschnittstellen. Dissertation, Universität Berlin, Deutsch- land. 210 Literatur

Ryu, S., D. Lee, G. Lee, K. Kim und H. Noh (2014). “Exploiting Out- of-vocabulary Words for Out-of-domain Detection in Dialog Sys- tems”. In: Proceedings of the International Conference on Big Data and Smart Computing. Bangkok, Thailand: IEEE. SAE International (2013). Operational Definitions of Driving Performance Measures and Statistics - Proposed Draft 2013/02/13. Schandry, R. (1998). Lehrbuch Psychophysiologie: Körperliche Indikatoren psychischen Geschehens. BELTZ: Psychologie Verlags Union. Schmitt, A. (2012). Statistical Modeling for Online Monitoring of Adapti- ve Spoken Dialog Systems. Dissertation, Universität Ulm, Deutsch- land. Schneeberger, T., S. von Massow, M. Moniri, A. Castronovo, C. Mül- ler und J. Macek (2015). “Tailoring Mobile Apps for Safe On-road Usage: How an Interaction Concept Enables Safe Interaction with Hotel Booking, News, Wolfram Alpha and Facebook”. In: Procee- dings of the 7th International Conference on Automotive User Interfaces and Interactive Vehicular Applications. Nottingham, Großbritannien: ACM. Schneegass, S., B. Pfleging, N. Broy, F. Heinrich und A. Schmidt (2013). “A Data Set of Real World Driving to Assess Driver Workload”. In: Proceedings of the 5th International Conference on Automotive User Interfaces and Interactive Vehicular Applications. Eindhoven, Nieder- lande: ACM. Schramm, W. (1954). “How Communication Works”. In: The process and effects of mass communication. University of Illinois Press Urba- na. Schüssel, F. (unveröffentlicht). Multimodal Input Fusion for Companion Technology (vorläufiger Titel). Dissertation, Universität Ulm, Deutsch- land. Schüssel, F., F. Honold, M. Schmidt, N. Bubalo, A. Huckauf und M. Weber (2014). “Multimodal Interaction History and Its Use in Er- ror Detection and Recovery”. In: Proceedings of the 16th Internatio- nal Conference on Multimodal Interaction. Istanbul, Türkei: ACM. Searle, J. . (1969). Speech Acts: An Essay in the Philosophy of Language. Cambridge University Press. Seneff, S., E. Hurley, R. Lau, C. Pao, P. Schmid und V. Zue (1998). “Galaxy-II: A Reference Architecture For Conversational System Development”. In: Proceedings of the 5th International Conference on Spoken Language Processing. Sydney, Australien. Seneff, S. und J. Polifroni (2000). “Dialogue Management in the Mer- cury Flight Reservation System”. In: Proceedings of the 3rd ANLP/NAA- CL Workshop on Conversational Systems. Seattle, USA: ACL. Shannon, C. (1948). “A Mathematical Theory of Communication”. In: The Bell System Technical Journal. Bd. 27. 3. American Telephone und Telegraph Company. Literatur 211

Shapiro, S. und M. Wilk (1965). “An Analysis of Variance Test for Nor- mality (Complete Samples)”. In: Biometrika 52.3-4. Oxford Univer- sity Press. Shin, J., S. Narayanan, L. Gerber, A. Kazemzadeh, D. Byrd u. a. (2002). “Analysis of User Behavior under Error Conditions in Spoken Dialogs.” In: Proceedings of INTERSPEECH. Denver, USA: ISCA. Shneiderman, B. (2014). Designing the User Interface: Strategies for Effec- tive Human-computer Interaction. 5. Aufl. Harlow, England: Pear- son Education Ltd. Silsbee, P. und A. Bovik (1996). “Computer Lipreading for Improved Accuracy in Automatic Speech Recognition”. In: Transactions on Speech and Audio Processing 4.5. IEEE. Skantze, G. (2007). Error Handling in Spoken Dialogue Systems. Disser- tation, KTH Computer Science and Communication, Stockholm, Schweden. Smith, R. (1993). “Effective Spoken Natural Language Dialog Requi- res Variable Initiative Behavior: An Empirical Study”. In: Procee- dings of the AAAI Fall Symposium on Human-Computer Collaboration: Reconciling Theory, Synthesizing Practice. Menlo Park, USA: AAAI Press. Sohn, J. (2014). Praktikumsbericht. Psychologiestudium, Institut Hu- man Factors Universität Ulm, Deutschland. Solovey, E., M. Zec, E. Garcia Perez, B. Reimer und B. Mehler (2014). “Classifying Driver Workload Using Physiological and Driving Performance Data: Two Field Studies”. In: Proceedings of the 32nd Annual ACM Conference on Human Factors in Computing Systems. Toronto, Kanada: ACM. Stary, C. (2000). “TADEUS: Seamless Development of Task-Based and User-Oriented Interfaces”. In: Transactions on Systems, Man and Cybernetics, Part A: Systems and Humans 30.5. IEEE. Stolle, R., A. Saad, D. Weyl und M. Wagner (2007). “Integrating CE- based Applications into the Automotive HMI”. In: Proceedings of the SAE World Congress. Detroit, USA: SAE International. Stover, S. und W. Haynes (1989). “Topic Manipulation and Cohesive Adequacy in Conversations of Normal Adults Between the Ages of 30 and 90”. In: Clinical Linguistics & Phonetics 3.2. Taylor & Francis Online. Stoyanchev, S., A. Liu und J. Hirschberg (2014). “Towards Natural Clarification Questions in Dialogue Systems”. In: Proceedings of the AISB Symposium on Questions, discourse and dialogue: 20 years after Making it Explicit. London, England: Columbia University Press. Strauss, P.-M. (2010). Proactive Spoken Dialogue Interaction in Multi- Party Environments. Dissertation, Universität Ulm, Deutschland. Strayer, D., T. Jonna, J. Coleman, E. Ortiz und C. Joel (2014). Measuring Cognitive Distraction in the Automobile II: Assessing In-Vehicle Voice- 212 Literatur

Based Interactive Technologies. Washington DC, USA: AAA Foun- dation for Traffic Safety. Stutts, J. u. a. (2005). “Driver’s Exposure to Distractions in their Natu- ral Driving Environment”. In: Accident Analysis & Prevention 37.6. Elsevier Ltd. Suchanek, F., G. Kasneci und G. Weikum (2007). “Yago: A Core of Semantic Knowledge”. In: Proceedings of the 16th International Con- ference on World Wide Web. Banff, Alberta, Kanada: ACM. Suhm, B., B. Myers und A. Waibel (2001). “Multimodal Error Cor- rection for Speech User Interfaces”. In: Transactions on Computer- Human Interaction 8.1. ACM. Sun, F.-T., C. Kuo, H.-T. Cheng, S. Buthpitiya, P. Collins und M. Griss (2012). “Activity-Aware Mental Stress Detection Using Physio- logical Sensors”. In: Mobile Computing, Applications, and Services. Hrsg. von M. Gris und G. Yang. Bd. 76. Lecture Notes of the Institute for Computer Sciences, Social Informatics and Telecom- munications Engineering. Springer Berlin Heidelberg. Sutcliffe, A. (2012). “Multimedia User Interface Design”. In: The Human- Computer Interaction Handbook. Hrsg. von J. Jacko. CRC Press Tay- lor & Francis Group. Swette, R., K. May, T. Gable und B. Walker (2013). “Comparing Three Novel Multimodal Touch Interfaces for Infotainment Menus”. In: Proceedings of the 5th International Conference on Automotive User Interfaces and Interactive Vehicular Applications. Eindhoven, Nieder- lande: ACM. Szauer, P. (2015). Präsentationsmodalitäten einer Auswahlliste für sprachli- che Selektion im Fahrzeug. Bachelorarbeit, Universität Ulm, Deutsch- land. Tarby, J.-C. und M.-F. Barthet (1996). “The Diane+ method”. In: Procee- dings ot the 2nd International Conference on Computer-Aided Design of User Interfaces. Namur, Belgien. Tönnis, M., V. Broy und G. Klinker (2006). “A Survey of Challenges Related to the Design of 3D User Interfaces for Car Drivers”. In: Proceedings of the IEEE Symposium on 3D User Interfaces. Alexan- dria, USA: IEEE. Torres, F., L. Hurtado, F. García, E. Sanchis und E. Segarra (2005). “Er- ror Handling in a Stochastic Dialog System Through Confidence Measures”. In: Speech Communication 45.3. Elsevier. Toutanova, K., D. Klein, C. Manning und Y. Singer (2003). “Feature- rich Part-of-speech Tagging with a Cyclic Dependency Network”. In: Proceedings of the International Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology. Edmonton, Kanada: ACL. Traum, D. und S. Larsson (2003). “The Information State Approach to Dialogue Management”. In: Current and new directions in discour- Literatur 213

se and dialogue. Bd. 22. Text, Speech and Language Technology. Springer Niederlande. Tsimhoni, O. und P. Green (2001). “Visual Demand of Driving and the Execution of Display-intensive In-vehicle Tasks”. In: Proceedings of the Human Factors and Ergonomics Society Annual Meeting. Bd. 45. 23. SAGE Publications. Minneapolis/St. Paul, USA. Tsimhoni, O., D. Smith, P. Green, M. Kaisha u. a. (2002). Destination Entry while Driving: Speech Recognition Versus a Touch-screen Key- board. Techn. Ber. University of Michigan, Transportation Rese- arch Institute. Turk, M. (2014). “Review Article: Multimodal Interaction: A Review”. In: Pattern Recognition Letters 36. Elsevier Ltd. UDDI Spec Technical Committee (2002). UDDI Version 3.0. http:// uddi.org/pubs/uddi-v3.00-published-20020719.htm [Online 09.10.2015]. Van Servellen, G. (2009). “Principles of Human Communication”. In: Communication Skills for the Health Care Professional: Concepts, Prac- tice, and Evidence. Jones & Bartlett Learning. Kap. 2. Veer, G., M. Welie und C. Chisalita (2002). “Introduction to Groupwa- re Task Analysis”. In: Proceedings of the 1st International Workshop on Task Models and Diagrams for User Interface Design. Bucharest, Rumänien: INFOREC Publishing House Bucharest. Victor, T., J. Harbluk und J. Engström (2005). “Sensitivity of Eye- movement Measures to In-vehicle Task Difficulty”. In: Transpor- tation Research Part F: Traffic Psychology and Behaviour 8.2. Elsevier Ltd. Villing, J. (2010). “Now, Where Was I? Resumption Strategies for an In-vehicle Dialogue System”. In: Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Uppsala, Schweden: ACL. Villing, J., C. Holtelius, S. Larsson, A. Lindström, A. Seward und N. Åberg (2008). “Interruption, Resumption and Domain Switching in In-Vehicle Dialogue”. In: Advances in Natural Language Proces- sing. Hrsg. von B. Nordström und A. Ranta. Bd. 5221. Lecture Notes in Computer Science. Springer Berlin Heidelberg. Vollrath, M., A. Huemer, C. Teller, A. Likhacheva und J. Fricke (2016). “Do German Drivers use their Smartphones Safely?—Not Really!” In: Accident Analysis and Prevention 96. Elsevier Ltd. Vossen, P., Hrsg. (1998). EuroWordNet: A Multilingual Database with Lexical Semantic Networks. Springer-Science+Business Media, B.V. W3C MBUI Working Group (2014). Model-Based User Interfaces (MBUI) - Task MModel. Working Group Note http://www.w3.org/2011/ mbui/ [Online 22.04.2015]. Wagner, J., J. Kim und E. André (2005). “From Physiological Signals to Emotions: Implementing and Comparing Selected Methods for Feature Extraction and Classification”. In: Proceedings of the IEEE 214 Literatur

International Conference on Multimedia and Expo. Amsterdam, Nie- derlande: IEEE. Wahlster, W. (2006). SmartKom: Foundations of Multimodal Dialogue Sys- tems. Bd. 12. Springer. Wang, Z. und D. Garlan (2000). Task-driven Computing. Techn. Ber. DTIC Document. Wang, Z., H. Chen, G. Wang, H. Tian, H. Wu und H. Wang (2014). “Policy Learning for Domain Selection in an Extensible Multi- domain Spoken Dialogue System”. In: Proceedings of the Internatio- nal Conference on Empirical Methods on Natural Language Processing. Doha, Qatar: ACL. Watzlawick, P., J. Beavin und D. Jackson (1967). “Some Tentative Axioms of Communication”. In: Pragmatics of Human Communication: A Study of Interactional Patterns, Pathologies, and Paradoxes. W. W. Nor- ton & Company Inc. Kap. 2. Weaver, W. (1949). “Recent Contributions to the Mathematical Theory of Communication”. In: The Mathematical Theory of Communication. Urbana: The University of Illinois Press. Weinberg, G., B. Harsham, C. Forlines und Z. Medenica (2010). “Con- textual Push-to-talk: Shortening Voice Dialogs to Improve Dri- ving Performance”. In: Proceedings of the 12th International Con- ference on Human Computer Interaction with Mobile Devices and Ser- vices. Lisbon, Portugal: ACM. Weizenbaum, J. (1966). “ELIZA - a Computer Program for the Study of Natural Language Communication Between Man and Machi- ne”. In: Communications of the ACM 9.1. ACM. Welford, A. T. (1968). Fundamentals of Skill. Methuen’s manuals of mo- dern psychology. Methuen. Welsh, T., S. Chandrasekharan, M. Ray, H. Neyedli, R. Chua und W. Daniel (2012). “Perceptual-Motor Interaction: Some Implications for Human-Computer Interaction”. In: The Human-Computer Inter- action Handbook. Hrsg. von J. Jacko. CRC Press Taylor & Francis Group. Ei-Wen Lo, V. und P. Green (2013). “Development and Evaluation of Automotive Speech Interfaces: Useful Information from the Hu- man Factors and the Related Literature”. In: International Journal of Vehicular Technology. Hindawi Publishing Corporation. Wendemuth, A. und S. Biundo (2012). “A Companion Technology for Cognitive Technical Systems”. In: Cognitive Behavioural Systems. Hrsg. von A. Esposito, A. Vinciarelli, R. Hoffman und V. Müller. LNCS Proceedings on Cognitive Behavioural Systems. Dresden, Deutschland: Springer. Weng, F., S. Varges u. a. (2006). “CHAT: A Conversational Helper for Automotive Task”. In: Proceedings of INTERSPEECH. Pittsburgh, USA: ISCA. Literatur 215

Weng, F., B. Yan u. a. (2007). “CHAT to your Destination”. In: Procee- dings of the 8th SIGdial Workshop on Discourse and Dialogue. Ant- werp, Belgien: CiteSeer. Wickens, C. (1981). Processing Resource in Attention and Workload. Techn. Ber. Dept. of Psychology, University of Illinois, USA. —(2008). “Multiple Resources and Mental Workload.” In: Human factors. Bd. 50. 3. SAGE Publications. Wierwille, W. (1993). “Demands on Driver Resources Associated with Introducing Advanced Technology into the Vehicle”. In: Transpor- tation Research Part C: Emerging Technologies 1.2. Elsevier Ltd. Wilks, Y. u. a. (2011). “A Prototype for a Conversational Companion for Reminiscing About Images”. In: Computer Speech and Language 25.2. Elsevier Ltd. Williams, J., A. Raux, D. Ramachandran und A. Black (2012). Dia- log State Traching Challenge Handbook. https : / / www . microsoft . com / en - us / research / publication / dialog - state - tracking - challenge-handbook/ [Online 02.05.2015]. Williams, J. und S. Witt (2004). “A Comparison of Dialog Strategies for Call Routing”. In: International Journal of Speech Technology 7.1. Kluwer Academic Publishers. Williams, J. und S. Young (2007). “Partially Observable Markov Deci- sion Processes for Spoken Dialog Systems”. In: Computer Speech & Language 21.2. Elsevier Ltd. Wilson, A. (2012). “Sensor- and Recognition-Based Input for Interac- tion”. In: The Human-Computer Interaction Handbook. Hrsg. von J. Jacko. CRC Press Taylor & Francis Group. Wong, A., A. Nguyen und W. Wobcke (2007). “Robustness of a Spo- ken Dialogue Interface for a Personal Assistant”. In: Proceedings of the International Conference on Intelligent Agent Technology. Fre- mont, USA: IEEE. Wood, J. (2011). “Communication in Our Lives”. In: Cengage Lear- ning. Kap. The World of Communication. Wooters, C. (2015). The Berkeley Restaurant Project (BeRP) Transcripts. https://github.com/wooters/berp-trans [Online 09.11.2015]. Wright, P. u. a. (2008). “Modality Preference and Performance when Seniors Consult Online Information”. In: Gerontechnology 7.3. ISG. Wu, Z. und M. Palmer (1994). “Verbs Semantics and Lexical Selec- tion”. In: Proceedings of the 32nd annual meeting on Association for Computational Linguistics. Las Cruces, USA: ACL. Wyard, P., A. Simons, S. Appleby, E. Kaneen, S. Williams und K. Pre- ston (1996). “Spoken Language Systems - Beyond Prompt and Response”. In: BT Technology Journal. Bd. 14. 1. Springer US. Yager, C. (2013). An Evaluation of the Effectiveness of Voice-to-Text Pro- grams at Reducing Incidences of Distracted Driving. Techn. Ber. Texas A&M Transportation Institute. 216 Literatur

Young, K. und M. Regan (2007). “Driver Distraction: A Review of the Literature”. In: Distracted Driving. Hrsg. von I. Faulks, M. Regan, M. Stevenson, J. Brown, A. Porter und J. Irwin. Sydney Australien: Australasian College of Road Safety. Young, S., M. Gasic, B. Thomson und J. Williams (2013). “POMDP- Based Statistical Spoken Dialog Systems: A Review”. In: Procee- dings of the IEEE 101.5. IEEE. Yuan, X. und G. Liu (2012). “A Task Ontology Model for Domain Independent Dialogue Management”. In: Proceedings of the Inter- national Conference on Virtual Environments Human-Computer Inter- faces and Measurement Systems. Tianjin, China: IEEE. Zgorzelski, A., A. Schmitt, T. Heinroth und W. Minker (2010). “Repair Strategies on Trial: Which Error Recovery do Users like Best?” In: Proceeding of INTERSPEECH 2010. Makuhari, Japan: ISCA. Zhang, R., I. Arpinar und B. Aleman-Meza (2003). “Automatic Com- position of Semantic Web Services.” In: Proceedings of the Interna- tional Conference on Web Services. Bd. 3. Las Vegas, USA. Zhao, S., D. Brumby, M. Chignell, D. Salvucci und S. Goyal (2013). “Shared Input Multimodal Mobile Interfaces: Interaction Modali- ty Effects on Menu Selection in Single-Task and Dual-Task Envi- ronments”. In: Interacting with Computers 25.5. VIELENDANK!

Ohne die Unterstützung diverser Menschen in meiner Umgebung hätte diese Arbeit nicht entstehen können. Besonderen Dank gilt Prof. Dr. Michael Weber, der mich bereits während des Studiums für die Mensch-Maschine Interaktion begeisterte und mir stets mit gutem Rat und wertvollen Diskussionen zur Seite stand. Herzlichen Dank auch Prof. Dr. Dr. Wolfgang Minker für die Erweckung meiner Lei- denschaft zur Sprachbedienung und die Übernahme des Zweitgut- achtens. Vorliegende Arbeit ist das Resultat meiner dreijährigen Forschungs- arbeit bei der Daimler AG, Ulm. Mein herzlicher Dank hierbei gilt Dr. Ute Ehrlich, welche eine sehr enge fachliche Betreuung ermög- lichte, die richtigen Fragen stellte, meine Arbeit kritisch hinterfragte und schließlich durch intensives Korrekturlesen den Genetiv und die Kommas sortierte. Ebenso herzlichen Dank an Dr. André Berton für die Anstellung und die Ermöglichung meines wöchentlichen Unitags, ohne diesen wäre die Arbeit nicht in dieser Form erschienen. Wäh- rend meiner Doktorandenzeit begleitete mich das EU-Projekt GetHo- meSafe (GHS)( 7th Framework STREP 288667), herzlichen Dank allen Kollegen für die Zusammenarbeit! Für eine unvergessliche Doktorandenzeit bei Daimler, viele hilfrei- chen Diskussionen, Feedback und Kritik möchte ich herzlich Hans- jörg, Alex, Mark und Daniel danken. Ebenso Frank und Felix, die mich an der Uni aufgenommen haben und diverse Senior-Fragen be- antworteten. Natürlich nicht zu vergessen alle Mitarbeiter des Insti- tuts für Medieninformatik der Universität Ulm, man wird auch als externer Doktorand bei Euch super integriert! Außerdem freut es mich sehr motivierte und begabte Studenten betreut zu haben. Philipp, Kathrin, Ömer, Patrick, Jens, Vanessa, mit Euren guten Ergebnissen habt ihr maßgeblich zu dieser Arbeit beige- tragen. Ebenso Dank an meine langjährigen Werkstudenten Johannes, Jasmin und Manuel sowie natürlich alle Studienteilnehmer! Zu guter Letzt danke ich meiner Familie Klaus, Birgit und Marc so- wie meiner Partnerin Vroni, welche mich in der teilweise schwierigen Zeit ertragen, verstanden, geholfen und perfekt unterstützt haben!

Ihr seid die Besten!

217

VERÖFFENTLICHUNGEN

Teile aus der vorliegenden Arbeit wurden bereits auf internationalen Konferenzen, Journals und Workshops veröffentlicht und präsentiert. Die jeweiligen Abschnitte sind im Text gekennzeichnet.

Reichel, S., A. Berton, U. Ehrlich und M. Weber (2013) “Semantische Anwendungsmodellierung und Nutzermodelle: Anforderungen an einen sprachlich zu bedienenden persönlichen Assistenten im dynamischen Systemumfeld”. In: Tagungsband der 24. Konferenz Elektronische Sprachsignalverarbeitung. Bielefeld, Deutschland: TUD- Press. Reichel, S., U. Ehrlich, A. Berton und M. Weber (2014). “In-Car Multi- Domain Spoken Dialogs: A Wizard of Oz Study”. In: EACL Work- shop Dialog in Motion. Göteborg, Schweden: ACL. Reichel, S., U. Ehrlich, A. Berton und M. Weber (2015). “Evaluation of Machine-led Error Recovery Strategies for Domain Switches in a Spoken Dialog System”. In: Proceedings of the 6th International Workshop on Spoken Dialog Systems. Busan, Südkorea. Reichel, S., U. Ehrlich, A. Berton und M. Weber (2015). “Evaluation of Machine-led Error Recovery Strategies for Domain Switches in a Spoken Dialog System”. In: Natural Language Dialog Systems and Intelligent Assistants. Hrsg. von G. Lee, H. Kim, M. Jeong und J.-H. Kim. © Springer International Publishing Switzerland, 2015. “With permission of Springer”. Reichel, S., P. Pfarherr, U. Ehrlich, A. Berton und M. Weber (2014). “Semantisches Taskmodell für Dialoge mit Taskwechsel”. In: Ta- gungsband der 25. Konferenz Elektronische Sprachsignalverarbeitung. Dresden, Deutschland: TUDPress. Reichel, S., J. Sohn, U. Ehrlich, A. Berton und M. Weber (2014). “Out- of-Domain Spoken Dialogs in the Car: A WoZ Study”. In: Procee- dings of the 15th Annual SIGdial Meeting on Discourse and Dialogue. Philadelphia, USA: ACL. Reichel, S., P. Szauer und M. Weber (2015). “In-Car Distraction Issues of Auditory and Visual Modality for Spoken List Selection Tasks”. In: Proceedings of the International Symposium on Companion Techno- logy. Ulm, Deutschland: Universität Ulm.

219