Dissertation Reichel

ANWENDUNGSÜBERGREIFENDEDIALOGEDURCH WISSENSBASENUNDTASKMODELLE

SVENREICHEL aus Backnang

DISSERTATION

zur Erlangung des Doktorgrades Dr.rer.nat. der Fakultät für Ingenieurwissenschaften, Informatik und Psychologie der Universität Ulm

Institut für Medieninformatik 2017 AMTIERENDERDEKAN

Prof. Dr.rer.nat. Frank Kargl Universität Ulm

GUTACHTER

Prof. Dr.-Ing. Michael Weber Universität Ulm Prof. Dr. Dr.-Ing. Wolfgang Minker Universität Ulm

TAGDERPROMOTION

20.09.2017

Sven Reichel Anwendungsübergreifende Dialoge durch Wissensbasen und Taskmodelle Dissertation

2017. Some rights reserved.

This work is licensed under the Ulm University OPARU Standard License (vts.20120112). To view a copy of the license, see https:// oparu.uni-ulm.de/xmlui/license_v3 [Online 16.10.2017].

Dieses Dokument wurde in LATEXgesetzt, basierend auf der classicthe- sis Vorlage von André Miede (http://www.miede.de/). ZUSAMMENFASSUNG

Elektronische Geräte sind zunehmend allgegenwärtig und beinhalten diverse Funktionen mit verschiedenen Anwendungen. Benutzern sind diese Funktionen oftmals so wichtig, dass sie diese selbst durch- führen, wenn sie von anderen Aufgaben, wie dem Führen eines Fahr- zeugs, abgelenkt werden. Eine Sprachbedienung kann die Ablenkung signifikant reduzieren. Jedoch stellt sich die Frage, wie Nutzer im Fahrzeug anwendungsübergreifende Aufgaben mit einem Sprachdia- logsystem ausführen. Speziell der Anwendungswechsel birgt im nutzer-geführten Dialog die Gefahr von sprachlichen Äußerungen, die durch die Systemfunktionalität nicht abgedeckt sind. Um Nutzer dennoch zum Aufgabenerfolg zu führen, müssen Dialogsysteme Fehler- behandlungsstrategien umsetzen. Der Einsatz solcher Strategien in anwendungsübergreifenden Dialogen und deren Nutzung im Fahr- zeug, wurde jedoch bisher wenig untersucht. Daher werden in dieser Arbeit Fahrer im Fahrsimulator mit anwendungsübergreifenden Auf- gaben konfrontiert. Die Analyse zeigte kein Bewusstsein für eine An- wendungstrennung und ein subjektives Ablenkungspotential durch nicht-erfolgreiche Anwendungswechsel. Iterativ wurden multimodale Hilfestrategien entwickelt, um die Ablenkung zu minimieren und Gebrauchstauglichkeit sowie Aufgabenerfolg zu maximieren. Zwei Nutzerstudien zeigten, dass bei nicht-eindeutigen Anwendungswech- seln Nutzer die Möglichkeit haben sollten, die gesuchte Anwendung sprachlich, aus möglichst wenigen Alternativen, auszuwählen. Auf Basis der Studienergebnisse ließ sich die Anforderung, eine konsistente Interaktion über Anwendungen hinweg mit Parameterübergabe sowie Vorhersage der nächsten möglichen Anwendungen, definieren. Daraufhin wurde untersucht, wie ein Dialogsystem mit mehreren dynamisch verfügbaren Anwendungen umzusetzen ist. Für Software- und grafische Bedienschnittstellenentwicklung zeigen modellgetriebene Prozesse Erfolg, die jedoch bisher für die Modalität Sprache nur sekundär betrachtet wurden. In dieser Arbeit wurde daher ein Konzept auf Basis von Taskmodellen (ConcurTaskTrees) und einer lexikalisch-semantischen Wissensbasis entwickelt (Princeton WordNet). Die Taskmodelle definieren hierbei das Interaktionsschema und die Wissensbasis die Bedeutung von Parametern für Tasks, wodurch an- wendungsübergreifende Dialoge möglich werden. Eine Implementie- rung und Evaluation anhand des Korpus der Dialog State Tracking Challenge, zeigte die Machbarkeit sowie Vorteile bezüglich der Inter- pretation eindeutig bestimmbarer Objekte und Nachteile hinsichtlich mehrdeutiger Eingaben, wie zum Beispiel Zahlenwerte.

iii ABSTRACT

Consumer electronics devices are more and more ubiquitous and provide multiple functions and applications. For users these functions are often so important that they want to use them during other tasks, e.g. while driving a car, regardless of a potential distraction. Speech control can reduce distraction issues. This leads to the question, how people will manage tasks containing multiple applications with a speech dialogue system during a primary driving task. Appli- cation switching is particularly interesting, as in a user-driven dialog utterances may be spoken, which are not covered by the system’s functionality. In this case dialogue systems need to apply error recovery strategies to ensure task success. Error recovery strategies in multi-application dialogues and their integration into the car have not been considered yet. For this work users were faced with multi- application dialogues during a primary driving simulator task. The results did not show any awareness of using different applications. Furthermore, unsuccessful application switching showed an increase in the subjective distraction. In an iterative process multi-modal error recovery strategies were developed to minimize driver distraction, increase usability, and maximize task success. Two user studies showed that users need the possibility to select applications by speech in case of ambiguous application switching. Thereby the number of choi- ces needs to be minimized. Based on the results of the user studies, requirements were defined to enable a consistent interaction across multiple applications with parameter exchange and prediction of the next probable application. For the second part of this work it was analyzed, how to imple- ment a spoken dialogue system with multiple dynamically available applications. For the development of software and graphical user interfaces, model-driven processes are often used successfully. Howe- ver, for spoken dialogue systems they are considered rarely. In this work a concept based on task models (ConcurTaskTrees) in combi- nation with a lexical-semantic knowledge base (Princeton WordNet) was developed. The task model defines the interaction pattern while the knowledge base describes the task parameters. This enables consistent dialogues over different applications with parameter exchange. An implementation showed the feasibility. In the evaluation (with the corpus of the Dialog State Tracking Challenge) advantages for distinct objects and disadvantages for unambiguous inputs, such as numbers, were identified.

iv INHALTSVERZEICHNIS

1 einleitung 1.1 Motivation und Einführung in das Thema ...... 1 1.2 Ziele und Forschungsbeiträge ...... 4 1.3 Übersicht über die Arbeit ...... 6

2 anwendungsübergreifende mensch-maschine kommunikation 2.1 Zwischenmenschliche Kommunikation ...... 7 2.1.1 Kommunikationsmöglichkeiten des Menschen . 8 2.1.2 Kommunikationsmodelle ...... 10 2.1.3 Ausgewählte Theorien menschlicher Kommuni- kation ...... 13 2.2 Mensch-Maschine Dialog ...... 15 2.2.1 Interaktionsmodelle und mögliche Interaktions- fehler ...... 15 2.2.2 Benutzerschnittstellen ...... 17 2.3 Grundlagen und Stand der Technik ...... 21 2.3.1 Sprachdialogsysteme ...... 22 2.3.2 Anwendungsübergreifende Sprachdialogsysteme 31 2.3.3 Fehlerbehandlungsstrategien ...... 37 2.3.4 Fahrerablenkung durch sekundäre Aufgaben . 41 2.3.5 Sprachdialogsysteme im Fahrzeug ...... 46 2.4 Zusammenfassung und Diskussion ...... 54

3 studien zum anwendungswechsel und zu fehlerbehandlungen 3.1 Explorative Fahrsimulatorstudie ...... 59 3.1.1 Studienkonzept ...... 60 3.1.2 Aufbau und Durchführung des Experiments . . 67 3.1.3 Ergebnisse und Diskussion ...... 73 3.1.4 Fazit zu anwendungsübergreifenden Dialogen im Fahrzeug ...... 86 3.2 Internetstudie zu Hilfestrategien ...... 87 3.2.1 Studienkonzept ...... 87 3.2.2 Aufbau und Durchführung der Studie . . . . . 92 3.2.3 Ergebnisse und Diskussion ...... 95 3.2.4 Fazit zu Hilfestrategien für die Disambiguierung von Anwendungen ...... 99 3.3 Fahrsimulatorstudie zu Hilfestrategien ...... 100 3.3.1 Studienkonzept ...... 101 3.3.2 Aufbau und Durchführung im Fahrsimulator . 103 3.3.3 Ergebnisse und Diskussion ...... 105

v vi inhaltsverzeichnis

3.3.4 Fazit zu Hilfestrategien im Infotainment-System 111 3.4 Zusammenfassung und Anforderungen ...... 112

4 konzept mit taskmodellen und wissensbasen 4.1 Konzeptentwicklung ...... 115 4.1.1 Problemstellung ...... 116 4.1.2 Taskmodelle und Wissensbasen ...... 117 4.1.3 Einordnung in ein Dialogsystem: Dialog- und Taskmanager ...... 121 4.2 Formale Deﬁnitionen des Konzepts ...... 123 4.2.1 Taskmodelle ...... 123 4.2.2 Lexikalisch-semantische Wissensbasis ...... 126 4.2.3 Bindung von Objekten der Wissensbasis an Taskmo- delle ...... 130 4.3 Prozess von Nutzereingabe bis Taskausführung . . . . 134 4.3.1 Abbildung von Nutzereingaben auf Konzepte und Instanzen der Wissensbasis ...... 134 4.3.2 Kontext eines Dialogzustandes ...... 137 4.3.3 Vergleich von Nutzereingabe und Kontext . . . 139 4.3.4 Ausführung von Tasks ...... 143 4.3.5 Anwendungsübergreifende Aspekte ...... 145 4.4 Zusammenfassung ...... 147

5 implementierung und evaluation 5.1 Nachweis der Machbarkeit durch Implementierung . . 149 5.2 Evaluation ...... 152 5.2.1 Evaluation mittels bestehendes Korpus . . . . . 152 5.2.2 Ergebnisse hinsichtlich Abbildung der Eingabe auf Tasks ...... 155 5.2.3 Ergebnisse bezüglich der Taskausführung und Parameterübergabe ...... 158 5.3 Theoretischer Abgleich der Anforderungen ...... 161 5.4 Zusammenfassung und Diskussion ...... 163

6 zusammenfassung und ausblick 6.1 Beiträge der Arbeit ...... 167 6.2 Diskussion erzielter Ergebnisse ...... 169 6.3 Ausblick ...... 170

Anhang

a unterlagen zu studien a.1 Explorative Fahrsimulatorstudie ...... 175 a.1.1 Beispieldialoge für verschiedene Varianten des Anwendungswechsels ...... 175 a.1.2 SUEDE als Wizard-of-Oz Tool ...... 178 a.1.3 Vorbefragungsbogen ...... 180 a.1.4 Fragebogen zur subjektiv empfundenen Belastung182 inhaltsverzeichnis vii

a.2 Internetstudie zu Hilfestrategien ...... 183 a.2.1 Vorbefragungsbogen ...... 183 a.2.2 Fragebogen im interaktiven Teil ...... 184 a.3 Fahrsimulatorstudie zu Hilfestrategien ...... 185 a.3.1 Vorbefragungsbogen ...... 185 a.3.2 Fragebogen zur Bewertung der Bedingungen . 186 b konzept, implementierung, evaluation b.1 Beweis der Formel (3)...... 187 b.2 Taskmodell und Domänenobjekte der Busanwendung 188 b.3 Dateien der Evaluation ...... 190 b.3.1 Dialogprotokoll ...... 190 b.3.2 Manuell annotierte Referenzdatei ...... 190 b.3.3 Interpretation des Dialog-Trackers ...... 191 b.3.4 Fusionierte korrekt annotierte Eingabe . . . . . 191 literatur ABBILDUNGSVERZEICHNIS

Abb. 2.1 Kommunikationsmodell nach Shannon...... 11 Abb. 2.2 Interaktionszyklus nach Norman...... 16 Abb. 2.3 Struktur eines Sprachdialogsystems...... 23 Abb. 2.4 Interaktionsschema des persönlichen Assistenten Mi- crosoft Cortana...... 36 Abb. 2.5 „Multiple resource model“...... 43 Abb. 2.6 Bildschirminhalte zur Fehlervermeidung und Feh- lererkennung...... 49 Abb. 3.1 Varianten der Reaktion auf einen impliziten An- wendungswechsel...... 63 Abb. 3.2 Fahrsimulator mit Bildschirm und Wizard Arbeits- platz...... 67 Abb. 3.3 Continuous Tracking and Reaction Task (ConTRe Task) nach Mahr u. a. (2012). Entwickelt und lizenziert im GetHomeSafe (GHS)-Projekt...... 68 Abb. 3.4 Versuchsablauf pro Teilnehmer...... 73 Abb. 3.5 Sprachstile der impliziten Äußerungen...... 76 Abb. 3.6 Anaphorische Ausdrücke in impliziten Äußerungen. 77 Abb. 3.7 Spurabweichung und Reaktionszeiten...... 79 Abb. 3.8 Inadäquate Reaktionen der Teilnehmer...... 79 Abb. 3.9 Beurteilung der subjektiven Belastung...... 80 Abb. 3.10 Mittlere Differenz und Anzahl der Amplituden des SCR...... 81 Abb. 3.11 Ergebnisse der Gebrauchstauglichkeit...... 82 Abb. 3.12 Ergebnisse der Dialogperformanz...... 83 Abb. 3.13 Strategien des Dialoginitiativenwechsels...... 89 Abb. 3.14 Beispielbeschreibung anwendungsübergreifender Auf- gaben für Versuchspersonen...... 93 Abb. 3.15 Beurteilung der Dialogstrategien...... 97 Abb. 3.16 Beurteilung der Varianten bzgl. Kontext...... 98 Abb. 3.17 Beurteilung der verschiedenen Modalitäten. . . . . 99 Abb. 3.18 Strategien der Selektion eines Listeneintrags. . . . . 102 Abb. 3.19 Fahrsimulator auf Basis von PC-Hardware...... 104 Abb. 3.20 Fahrt unterteilt in Phasen mit und ohne Dialog. . . 105 Abb. 3.21 Gemessene Spurabweichung, unterteilt nach Dia- logstrategie und Modalität...... 106 Abb. 3.22 Beurteilung der subjektiven Belastung...... 108 Abb. 3.23 Beurteilung der Gebrauchstauglichkeit...... 109 Abb. 4.1 Vier Abstraktionsebenen des CRF...... 119 Abb. 4.2 Vereinfachtes Beispiel zur Verbindung von Taskmo- dellen und Wissensbasen...... 120

viii Abb. 4.3 Definition Taskmodell als UML-Klassendiagramm. 125 Abb. 4.4 Taskmodell einer vereinfachten Wetteranwendung in CTT-Notation. Erstellt mit ConcurTaskTree (CTT)- Environment (Version: 2.6.11, Freeware) ...... 126 Abb. 4.5 Vereinfachter Ausschnitt an Nomina der lexikalisch- semantischen Wissensbasis...... 130 Abb. 4.6 Beispiel der Interpretation einer Nutzeräußerung durch die Stanford CoreNLP...... 136 Abb. 4.7 Beispiel der Identifikation von Synsets im WordNet. 137 Abb. 5.1 Architektur der Implementierung...... 150 Abb. 5.2 Screenshot des URCS-WordNet-Browsers...... 151 Abb. 5.3 Konzept der Evaluation mittels DSTC-Korpus. . . . 154 Abb. 5.4 Konzeptgenauigkeit der entwickelten Methode im Vergleich zur Baseline...... 157 Abb. 5.5 Konfusionsmatrix zum Vergleich erkannter und annotierter Slots...... 157 Abb. 5.6 Identifikation eines Taskmodells...... 159 Abb. 5.7 Konfusionsmatrix zum Vergleich übergebener Pa- rameter bezogen auf Anzahl der Slots...... 160

TABELLENVERZEICHNIS

Tab. 2.1 Abbildung von Hardwareklassen auf menschliche Sensormodalitäten...... 18 Tab. 2.2 Analyse von Forschungsarbeiten im Fahrzeugkon- text...... 52 Tab. 3.1 Anwendungsübergreifende Aufgaben mit Klassifi- kation der Teilaufgaben und Parametern...... 61 Tab. 3.2 Hypothesen zu verschiedenen Interaktionsvarian- ten des Anwendungswechsels...... 66 Tab. 3.3 Strategiewechsel von impliziten zu expliziten Äu- ßerungen beim Anwendungswechsel...... 75 Tab. 3.4 Im Korpus identifizierte Sprachstile...... 75 Tab. 3.5 Anaphorische Referenzen...... 76 Tab. 3.6 Effizienz der Nutzeräußerungen...... 78 Tab. 3.7 Hypothesen zu verschiedenen Varianten des Dialo- ginitiativenwechsels...... 92 Tab. 3.8 Anwendungsübergreifende Aufgaben der Versuchs- personen...... 93 Tab. 3.9 Split-Plot Studiendesign...... 94 Tab. 3.10 Hypothesen zu verschiedenen Dialogvariationen der Auswahl...... 103

ix Tab. 3.11 Post-Hoc-Tests zum Vergleich der Modalitäten der jeweiligen Dialogstrategien...... 107 Tab. 3.12 Aufgabenerfolg und Dialogdauer...... 111 Tab. 4.1 Operatoren zur Deﬁnition temporaler Abhängig- keiten von Tasks...... 126 Tab. 4.2 Zuweisung von Domänenobjekten zu Tasks des Task- modells einer Wetteranwendung...... 134 Tab. 4.3 Subkontexte des initialen Taskmodells der Wetteran- wendung...... 139 Tab. 4.4 Übereinstimmung einer Interpretations-Hypothese mit einem Subkontext...... 141 Tab. 4.5 Test auf Ausführbarkeit eines Subkontextes mit einer Interpretations-Hypothese...... 142 Tab. 4.6 Ähnlichkeit einer Interpretations-Hypothese mit einem Subkontext...... 144

LISTINGS

List. 1 Konkretes Informationselement (vereinfacht) für das Wetterbeispiel (nach Honold u. a. (2012)) ...... 146

x ABKÜRZUNGEN

AAM Alliance of Automobile Manufacturers ANOVA Varianzanalyse (engl. ANalysis Of VAriance) API Schnittstelle zur Anwendungsprogrammierung (engl. Application Programming Interface) ASR Automatische Spracherkennung (engl. Automatic Speech Recognition)

CA Konzeptgenauigkeit (engl. Concept Accuracy) ConTRe Task Continuous Tracking and Reaction Task (Mahr u. a., 2012) CRF CAMELEON ReferenzFramework (Calvary u. a., 2002) CTT ConcurTaskTree (Paternò, 2000)

DALI Driver Activity Load Index (Pauzié u. a., 2007) DIS Dialoginitiativenwechsel (engl. Dialog Initiative Switch) DSTC Dialog State Tracking Challenge (Williams, Raux u. a., 2012)

EDA ElektroDermale Aktivität ER Erwartungskonforme Systemreaktion (engl. Expec- ted system Reaction)

GHS GetHomeSafe GUI Graﬁsche Benutzeroberﬂäche (engl. Graphical User Interface)

HMI Mensch-Maschine-Interaktion (engl. Human- Machine Interaction)

JSON JavaScript Object Notation JWI Java WordNet Interface

M Mittelwert

xi xii Abkürzungen

MU Missverständnis (engl. MisUnderstanding)

NU Nicht-Verständnis (engl. Non-Understanding)

OOA Außerhalb der Anwendungsdomäne (engl. Out-Of- Application-scope) OOD Außerhalb der Domäne (engl. Out-Of-Domain) OOV Außerhalb des Vokabulars (engl. Out-Of-Vocabular) OWL-S Ontology Web Language for Services

QA Frage-Antwort-Systeme (engl. Question-Answer)

RDF Resource Description Framework

SASSI Subjective Assessment of Speech System Interfaces (Hone und Graham, 2000) SCL Hautleitwertsniveau (engl. Skin Conductance Level) SCR Hautleitwertsreaktion (engl. Skin Conductance Re- sponse) SD Standardabweichung (engl. Standard Deviation) SDC Spoken Dialog Challenge (Black u. a., 2010) SDS Sprachdialogsystem (engl. Spoken Dialog System) SLU Verständnis gesprochener Sprache (engl. Spoken Language Understanding) SOA ServiceOrientierte Architektur

TTS Sprachsynthese (engl. Text to Speech Synthesis)

UDDI Universal Description Discovery & Integration UI Benutzerschnittstelle (engl. User Interface) UML Uniﬁed Modeling Language

VUI Sprachbedienbare Benutzerschnittstelle (engl. Voice User Interface)

WoZ Wizard-of-Oz WSDL Web Service Deﬁnition Language

XML eXtensible Markup Language EINLEITUNG 1

„Bitte warten Sie Ihr Operating System wird gestartet. - Hallo da bin ich.“ „Hi.“ „Hi, ich bin Samantha“ Trailer1 zu Her (00:30). Jonze, 2014

1.1 motivation und einführung in das thema

Seit jeher zeigen Science-Fiction Filme Visionen der Interaktion zwischen Mensch und Maschine. Neben visionären Bedienelementen ist Visionen der oftmals ein menschenähnlicher sprachlicher Dialog Thema. Im Film Sprachbedienung Her von Jonze (2014) zum Beispiel, in welchem sich der Protago- nist Theodore in sein sprachbedienbares Betriebssystem Samantha verliebt. Die Kommunikation mit Samantha erfolgt mittels natürli- cher Sprache (siehe obiges Zitat), wobei sie auf Emotionen reagiert sowie selbst welche zeigt, ähnlich wie ein menschlicher Partner. Eine solch natürliche Kommunikation per Sprache bieten aktuelle Syste- me (Sprachdialogsystem (SDS) genannt) noch nicht. Berg (2013) identifiziert unter anderem Adaptivität, robuste Erkennung, Interpretati- on von Umgangssprache und ein grundlegendes Sozialverhalten als wichtige Punkte für ein natürliches SDS; Eigenschaften welche aktuell nur unzureichend Umsetzung finden. Dennoch erfreuen sich Sprach- dialogsysteme immer stärkerer Beliebtheit, da in komplexen technischen Systemen oftmals die gesuchte Funktion in hierarchisch geglie- derten, grafischen Menüs versteckt ist, wogegen mittels Sprache Nut- zer ihren Wunsch frei äußern können und das System dementsprechend reagiert. Speziell in Anwendungsdomänen, in denen Nutzer lediglich ein- geschränkte Bedienmöglichkeiten haben, verspricht die sprachliche Bedienung als zusätzliche Modalität Erfolg. Beispielsweise ermöglicht Modalität Sprache im Fahrzeug eine sprachliche Interaktion dem Fahrer, die Hände am Lenkrad und den Blick auf der Straße zu behalten. Erste kommerziel- le Umsetzungen beinhalteten Kommandos für wenige Anwendungen und Funktionen, wie beispielsweise Telefon, Radio oder Navigation (Heisterkamp, 2001). Doch mit Erfindung des Smartphones und mobilen Internets stieg die Erwartung an elektronische Geräte sowie die Anzahl der Anwendungen und Funktionen rapide an. Während man Funktionsvielfalt sich einzelne Kommandos noch vergleichsweise einfach merken kann, elektronischer Geräte

1 http://youtu.be/6Gb2gfXX454 [Online 09.12.2015]

1 2 einleitung

überfordert die aktuelle stetig wachsende Funktionsvielfalt durch Inter- netanwendungen die Nutzer (Hofmann, 2014). Persönliche Assisten- ten, wie Apple Siri2 oder Microsoft Cortana3, folgen der Vision von Samantha und verstehen natürlichsprachliche Äußerungen, was ein Lernen der Kommandos minimiert. Eine Äußerung des Nutzers wird interpretiert und einer Anwendung zugeordnet. Hierdurch wird das klassische Interaktionsschema, von Öffnen einer Anwendung und an- schließender Interaktion, durch eine einheitliche Schnittstelle zur gesamten Funktionsvielfalt abgelöst. Dadurch ermöglichen diese per- sönlichen Assistenten eine natürlichsprachliche Bedienung auf globaler Ebene und anwendungsübergreifend. Ein SDS mit hoher Funktionsvielfalt stellt speziell unerfahrene Nut- zer vor das Problem, welche Äußerungen verstanden und welche An- wendungen bedient werden können. Es besteht somit die Gefahr, dass Fehlerverhalten früher oder später eine Anfrage nicht beantwortet werden kann und des SDS zu einer unerwünschten Reaktion führt (z.B. einer Websuche, wie in Siri und Cortana implementiert). Somit stellt sich die Frage, wie einerseits Menschen hiermit umgehen, und andererseits wie ein SDS in solch einem Fall Hilfestellungen anbieten sollte. Während dies im Anwendungsszenario Smartphone zumeist ein Problem der Ge- brauchstauglichkeit darstellt, kann eine Fehlfunktion im Fahrzeug zu sicherheitskritischen Situationen oder Unachtsamkeit im Straßenver- Ablenkung durch kehr führen. Im Allgemeinen bewirkt zwar ein SDS eine geringere Ab- ein SDS lenkung als haptisch-visuelle Bedienschnittstellen (Gärtner u. a., 2001), jedoch bedeutet dies nicht gleichzeitig eine Minimierung der Ablen- kung (Strayer u. a., 2014). Speziell ein fehleranfälliges SDS lenkt den Fahrer in erhöhtem Maße ab (Kun, Paek u. a., 2007). Ein SDS im Fahr- zeug muss sich somit speziellen Anforderungen stellen, wie zum Bei- spiel Minimierung der Dialogdauer, Verstehen unterschiedlicher Äu- ßerungen, Bewusstsein der Situation, Unterbrechung sowie Wieder- aufnahme des Dialogs und Minimierung der kognitiven Belastung (Strayer u. a., 2014; Weng, Varges u. a., 2006; Driver Focus-Telematics Working Group, 2006). Da eine hohe Anzahl an Unfällen auf Grund abgelenkter Fahrer geschehen (nach der National Highway Trafﬁc Sa- fety Administration (NHTSA) (2013) ca. 10% der Unfälle in den USA im Jahr 2011), bieten Hilfestrategien für anwendungsübergreifende Dialoge hohes Potential und werden somit in vorliegender Arbeit hinsichtlich Ablenkungsaspekten untersucht. Hierzu betrachtet diese Arbeit zuerst zwischenmenschliche Kom- munikationsformen sowie den bestehenden Stand der Technik be- züglich der Mensch-Maschine-Interaktion (HMI, engl. für Human- Machine Interaction). Um frei von technischen Gegebenheiten anwen- explorativer Ansatz dungsübergreifende Dialoge zu analysieren, wird ein explorativer An-

2 https://www.apple.com/ios/siri [Online 28.11.2015] 3 http://www.microsoft.com/en-us/mobile/experiences/cortana/ [Online 28.11.2015] 1.1 motivation und einführung in das thema 3 satz gewählt, welcher in erster Linie Nutzer in bestimmte Situatio- nen versetzt und ihr Verhalten analysiert. Durch die Simulation von Fehlern im SDS ermöglicht dies eine Analyse der Reaktionen von Fahrern, ein Aspekt welcher bisher wenig Beachtung fand (Ei-Wen Lo und Green, 2013). Zusätzlich können Hilfestrategien im Fehlerfall den Nutzer eines Sprachdialogsystems zum Interaktionsziel führen (Bohus und Rudnicky, 2005), wobei bisher unklar ist, in welcher Form diese im Anwendungsszenario Fahrzeug funktionieren. Vorliegende Arbeit adressiert dieses Thema in Form von iterativ entwickelten sowie empirisch evaluierten Hilfestrategien. Auf Basis der Evaluations- ergebnisse sowie Verhaltensbeobachtungen werden Anforderungen an ein SDS mit anwendungsübergreifenden Dialogen für das Anwen- dungsszenario Fahrzeug, beziehungsweise im Allgemeinen für die Bedienung mit einem SDS als Sekundäraufgabe, definiert. Dieses Vor- gehen zeigt Vorteile gegenüber einer Anforderungsdefinition zu Be- ginn der Arbeit, da die bevorzugte Interaktion von Menschen nicht von technischen Rahmenbedingungen einschränkt wird. Die Anfor- derungen bilden eine Grundlage, um ein anwendungsübergreifendes Dialogsystem zu entwickeln. Im zweiten Teil der vorliegenden Arbeit liegt der Fokus auf mo- modellgetriebene dellgetriebener Entwicklung eines Sprachdialogsystems mit mehreren An- SDS-Entwicklung wendungen. Da sich die Entwicklung eines Sprachdialogsystems zur mit mehreren Anwendungen Erfüllung der Anforderungen für anwendungsübergreifende Dialoge aufwendig und teuer gestaltet, wird eine Methodik entwickelt, welche zum großen Teil bestehende Formalismen, wie Taskmodelle und Wissensbasen, nutzt. Im Bereich der Softwareentwicklung (Partsch, 2010), sowie von visuell-haptischen Bedienschnittstellen (Poguntke, 2016; Melo, 2010), zeigen modellgetriebene Ansätze bereits deutliche Erfolge. Diese lassen sich zwar zum Teil zur Generierung von Bedien- schnittstellen klassischer Sprachdialogsysteme nutzen, zeigen jedoch Nachteile bei Besonderheiten von modernen Sprachdialogsystemen, wie zum Beispiel der Parallelität mehrerer Eingabeparameter, Natür- lichsprachlichkeit oder nutzer-initiierten Eingaben. Neben einer Ver- einfachung der Entwicklung finden zusätzlich Aspekte des nutzerzentrierten Computings Beachtung. Hierbei erfolgt eine Interaktion zwischen Mensch und Maschine auf Basis der Aufgaben. Dafür notwendige Aktivitäten, wie beispielsweise das Auswählen einer Anwen- dung, sollen im Hintergrund automatisiert erfolgen (Wang und Gar- lan, 2000). Eine natürliche, fehlerminimierte Interaktion zwischen Fahrer und Fahrzeug, oder allgemein in der HMI als sekundärer Aufgabe, kann die Ablenkung signifikant reduzieren und somit die Sicherheit erhö- hen. Durch die Beobachtung des menschlichen Verhaltens in entsprechenden Situationen und der iterativen Entwicklung von Hilfestra- tegien für potentiell fehleranfällige anwendungsübergreifende Dia- loge ist eine natürlich zu bedienende Schnittstelle definierbar. Eine 4 einleitung

konzeptuelle Umsetzung dieser Schnittstelle ermöglicht eine Aussage über die Machbarkeit. Die vorliegende Arbeit liefert damit einen ent- scheidenden Beitrag zur sicheren Interaktion zwischen Mensch und Maschine, während der Ausführung einer Primäraufgabe.

1.2 ziele und forschungsbeiträge

Die wissenschaftliche Zielsetzung der vorliegenden Arbeit stellt eine Betrachtung von anwendungsübergreifenden Dialogen als sekundäre Aufgabe dar. Hierbei liegt der Fokus auf der natürlichen Interaktion zwischen Mensch und Maschine, welche auf Basis explorativer Ver- haltensanalysen entwickelt wird. Durch Nutzerstudien entsteht eine fundierte Grundlage zur Deﬁnition der Anforderungen an eine technische Umsetzung. Das daraus entstandene Konzept wird mittels Im- plementierung evaluiert. Die vorliegende Arbeit untersucht infolge- dessen anwendungsübergreifende Dialoge ganzheitlich von theoretischen, explorativen, technischen und praktischen Gesichtspunkten. Forschungsfragen Insbesondere sind folgende Forschungsfragen adressiert:

F1: Wie interagieren Nutzer mit einem SDS in anwendungsüber- greifenden Aufgaben als Sekundäraufgabe und welche Auswir- kungen zeigen fehlerhafte Anwendungswechsel?

F2: Welche Interaktionsschemata ermöglichen Nutzern das Errei- chen eines Interaktionsziels, trotz Fehler während des anwen- dungsübergreifenden Dialogs?

F3: In welcher Form lässt sich ein SDS mit mehreren Anwendun- gen modellgetrieben mittels Taskmodellen und Wissensbasen entwickeln?

Die vorgeschlagenen Lösungen sind eingegliedert in bestehende Ar- beiten im interdisziplinären Forschungsumfeld der Informatik, Inge- nieurwissenschaften sowie der Psychologie. Neben einer Einordnung in den Forschungskontext und Behandlung entsprechender Grundla- gen, beinhaltet die vorliegende Arbeit hauptsächlich folgende Beiträ- ge:

Abschnitt 2.3 Analyse bestehender Arbeiten: In einer umfassenden Analyse bestehender Sprachdialogsysteme hinsichtlich anwendungsüber- greifender Dialoge, Fehlerbehandlungsstrategien und deren Ein- satz im Fahrzeug unter Ablenkungsaspekten, sind die grundle- genden Aspekte vorliegender Arbeit in Relation zu bestehenden Arbeiten gesetzt. Die Kombination dieser drei Aspekte ﬁndet bisher jedoch wenig Betrachtung und führte somit zur Formu- lierung der Forschungsfragen F1 und F2, sowie zur Deﬁnition des Forschungsgegenstandes der vorliegenden Arbeit. 1.2 ziele und forschungsbeiträge 5

Anwendungsübergreifende Dialoge als Sekundäraufgabe: Zur Ent- Abschnitt 3.1 wicklung eines Sprachdialogsystems in einer neuen Domäne ist es erforderlich die Kommunikation und das Verhalten von Nutzern zu analysieren (Karat u. a., 2012). Hierfür wählt vorliegende Arbeit den explorativen Ansatz einer Nutzerstudie im Fahrsimulator. Die Ergebnisse zeigen, dass nicht-erfolgreiche Anwendungswechsel einerseits sicherheitskritisch und andererseits wenig gebrauchstauglich sind. Im Versuch zeigten Nutzer kein Bewusstsein für eine Anwendungstrennung und wechsel- ten Anwendungen implizit, weshalb diese Situationen besondere Herausforderungen für ein SDS mit mehreren Anwendungen darstellt.

Hilfestrategien für nicht-erfolgreiche Anwendungswechsel: Auf Abschnitt 3.2 & 3.3 Basis der ersten Fahrsimulatorstudie zeigte sich die Notwen- digkeit im Fehlerfall, beziehungsweise bei nicht-erfolgreichen Anwendungswechseln, den Dialog system-geführt fortzusetzen und dem Fahrer durch Systemhinweise zu helfen. Im Anwen- dungsszenario Fahrzeug sind diese Hinweise in erster Linie auditiv und visuell mitzuteilen. Verschiedene Kombinationen der Modalitäten sowie des Hinweisinhalts werden entwickelt und in Nutzerstudien evaluiert. In einer ersten breit angelegten In- ternetstudie zeigten einige Variationen Erfolg und auf Basis der Ergebnisse erfolgt eine Verfeinerung der Konzepte. In einer folgenden Fahrsimulatorstudie stellte sich heraus, welche Konzep- te sinnvoll im Fahrzeug einzusetzen sind, so dass eine sichere Bedienung während der Fahrt mit hoher Gebrauchstauglichkeit gegeben ist.

Anforderungen an ein SDS mit mehreren Anwendungen: Die Er- Abschnitt gebnisse vorhergehender Studien ermöglichen eine Deﬁnition 3.4 & 4.1.1 von Anforderungen für ein SDS mit mehreren Anwendungen im Szenario Fahrzeug. Zusätzlich zu Anforderungen an die In- teraktion zwischen Mensch und Maschine, erfolgt die Betrach- tung aus technischen Aspekten und die Formulierung entsprechender Anforderungen.

Konzept zur modellgetriebenen Entwicklung: Aufbauend auf den Kapitel 4 formulierten Anforderungen wird eine modellgetriebene Ent- wicklung von Sprachdialogsystemen mit mehreren Anwendun- gen vorgeschlagen. Das Konzept nutzt Taskmodelle zur Spezi- ﬁkation des Programmablaufs und stellt etwaige Verbindungen über eine globale lexikalisch-semantische Wissensbasis bereit. Durch detaillierte theoretische Betrachtung und beispielhafte Verdeutlichung wird ein Prozess von Nutzereingabe bis hin zur Taskausführung beschrieben. Es erfolgt eine klare Abgrenzung zu anderen Modulen eines Sprachdialogsystems und schafft so- 6 einleitung

mit eine Grundlage zur Integration in bestehende Implementie- rungen durch wohldeﬁnierte Schnittstellen.

Kapitel 5 Taskmanager: Zum Nachweis der Machbarkeit und Qualität sowie zur theoretischen Betrachtung bezüglich der Anforderungen, erfolgt eine Implementierung des Konzeptes als Taskmanager. Die Implementierung ermöglicht eine exakte Analyse mit Hilfe eines bestehenden Korpus. Die Ergebnisse zeigten eine deutliche Verbesserung im Vergleich zu bestehenden Sprachdialog- systemen und Potential für zukünftige Systeme.

1.3 übersicht über die arbeit

In Kapitel 2 erfolgt eine grundlegende Betrachtung der zwischenmenschlichen Kommunikation und der Interaktion zwischen Mensch und Maschine. Ausgehend von diesen Grundlagen wird ein detaillierter Überblick über den bisherigen Stand der Technik gegeben. Dies führt zur Identifikation des Forschungsschwerpunktes vorliegender Arbeit in Form von anwendungsübergreifenden Dialogen als Sekun- däraufgabe. Das darauffolgende Kapitel 3 beinhaltet die Beschrei- bungen dreier Nutzerstudien zur einerseits explorativen Erfassung menschlichen Verhaltens und andererseits zur iterativen Entwicklung sowie Evaluation von Hilfestrategien für nicht-erfolgreiche Anwen- dungswechsel. Abschließend wird eine Zusammenfassung der Er- gebnisse aller Studien gegeben, welche letztlich zur Definition der Anforderungen führt. Zur Umsetzung dieser Anforderungen erfolgt die Konzeptentwicklung und formale Definition, wie in Kapitel 4 beschrieben. Hierbei wird die Verbindung von Taskmodellen über eine globale lexikalisch-semantische Wissensbasis erstellt, welche gleichzeitig zur Interpretation der Nutzereingabe Verwendung findet. Der Prozess von der Nutzereingabe über die Interpretation bis zur Tas- kausführung wird ebenso in diesem Kapitel behandelt. Anschließend zeigt Kapitel 5 die Implementierung und die Evaluation sowie die Diskussion der Ergebnisse. Abschließend fasst Kapitel 6 die erreich- ten Ergebnisse und Beiträge vorliegender Arbeit zusammen, diskutiert die vorhandenen Einschränkungen und liefert einen Ausblick zukünftiger Forschungsthemen mit ihren Herausforderungen. Beiträge aus der vorliegenden Arbeit wurden auf internationalen Konferenzen und in Workshops veröffentlicht und präsentiert. Eine Übersicht der betreffenden Veröffentlichungen ist auf Seite 219 zu finden. ANWENDUNGSÜBERGREIFENDE 2 MENSCH-MASCHINEKOMMUNIKATION

“no matter how one may try, one cannot not communicate.”1 Watzlawick u. a. (1967, S. 275)

Dem ersten Axiom von Watzlawick u. a. (1967) zufolge (siehe obiges Zitat), hat Verhalten keinen Gegensatz. Jegliche menschliche Ak- tivität oder Inaktivität wird als Verhalten angesehen, somit ist selbst eine ausbleibende Reaktion wiederum ein Verhalten. Wird nun Kom- munikation als Verhalten in einer Interaktionssituation betrachtet, ergibt sich der Schluss, dass Nicht-Kommunizieren für Menschen un- Nicht-Kom- möglich ist. Doch wie kommunizieren Menschen untereinander? Und munizieren wie ändert sich dies im Falle eines nicht-menschlichen Kommunika- tionspartners? Diese Fragestellungen werden im folgenden Kapitel untersucht. Hierzu wird zuerst auf die Kommunikation zwischen Menschen untereinander in Abschnitt 2.1 eingegangen. Darauf aufbauend erfolgt eine Betrachtung der Besonderheiten von Mensch-Maschine Dia- logen. In Abschnitt 2.3 wird eine Einführung zur sprachlichen Kom- munikation zwischen Mensch und Maschine gegeben und es werden bestehende Arbeiten präsentiert sowie analysiert. Hieraus ergeben sich die Forschungsfragen vorliegender Arbeit, welche in Abschnitt 2.4 diskutiert und zusammengefasst werden.

2.1 zwischenmenschliche kommunikation

Menschen kommunizieren seit jeher mit ihrer Umwelt. Über Jahrmil- lionen hinweg haben sich dabei verschiedene Kommunikationsfor- men entwickelt, doch eine genaue Definition des Begriffs Kommu- nikation fällt immer noch schwer (Littlejohn und Foss, 2008). Dance Kommunikation (1970) prägte verschiedene Ansätze der Definitionen durch eine Klas- sifizierung in drei Dimensionen: Abstraktionslevel, Zweck und Beur- teilung. Anhand jeweils einer Definition je Dimension wird der Be- griff Kommunikation für diese Arbeit definiert: Abstraktionslevel (restriktiv): „Communication: the transmission of information, ideas, emotions, skills, etc., by the use of symbols, words, pictures, figures, graphs, etc. It is the act or process of

1 Übersetzung des Autors: Man kann nicht nicht-kommunizieren, egal wie bemüht man ist.

7 8 anwendungsübergreifende mensch-maschine kommunikation

transmission that is usually called communication.“2 (Berelson und Steiner, 1964, S. 254)

Zweck (Absicht): „Communication has as its central interest those be- havioral situations in which a source transmits a message to a receiver(s) with conscious intent to affect the latter’s beha- viors.“3 (Miller, 1966, S. 92)

Beurteilung (erfolgreich): „Communication is the verbal interchange of a thought or idea.“4 (Hoben, 1954, S. 77) Für diese Arbeit wird somit Kommunikation lediglich auf einem konkreten Level als Informationsaustausch mit bestimmter Absicht und erfolgreicher Übertragung betrachtet. Dies folgt der Ansicht, den Men- schen als aktive, sensomotorische Verarbeitungseinheit von Informa- Menschliche Infor- tionen zu sehen (Welsh u. a., 2012). Zusätzlich zur Wahrnehmung mationsverarbeitung und Übertragung von Informationen erfolgen im Menschen kognitive Prozesse, die ein Übersetzen, Reduzieren, Zusammenstellen, Spei- chern und Abfragen von Informationen ermöglichen. Es kann somit von drei Basisprozessen des Menschen gesprochen werden: Wahr- nehmung, Bestimmung der Antwort (durch kognitive Prozesse) und Antworterstellung (z.B. Fitts und Posner (1967), Welford (1968) und Welsh u. a. (2012)). Im folgenden Abschnitt wird zuerst auf die menschliche Wahrnehmung und Antworterstellung eingegangen. Die Kom- munikation zwischen Menschen und deren Austausch von Informa- tionen wird in Abschnitt 2.1.2 behandelt. Anschließend werden für diese Arbeit relevante, kognitive Prozesse und Verhaltensweisen zur Bestimmung der Antwort aufgezeigt.

2.1.1 Kommunikationsmöglichkeiten des Menschen

Die Wahrnehmung von Reizen aus der Umwelt erfolgt beim Men- schen durch Sinnesorgane. Aufgenommene Reize werden über Ner- venzellen zum Gehirn geleitet und lösen dort eine subjektive Wahr- nehmung sowie die Verarbeitung der Informationen aus. Um mit ihrer Umwelt in Kontakt zu treten, bedienen sich Menschen haupt- sächlich des Muskelapparats. Die vorliegende Arbeit betrachtet den menschlichen Organismus fokussiert auf die Interaktion, eine aus-

2 Übersetzung des Autors: Kommunikation: die Übertragung an Informationen, Ideen, Emotionen, Fähigkeiten usw., durch Nutzung von Symbolen, Wörtern, Bildern, Ab- bildungen, Diagrammen usw. Für gewöhnlich wird die Handlung oder der Prozess der Übertragung Kommunikation genannt. 3 Übersetzung des Autors: Kommunikation betrachtet als zentrales Element die Ver- haltenssituationen, in welchen ein Sender eine Nachricht zu einem Empfänger(n) überträgt, mit der bewussten Absicht das Verhalten des Empfängers zu beeinﬂus- sen. 4 Übersetzung des Autors: Kommunikation ist der mündliche Austausch eines Gedan- kens oder einer Idee. 2.1 zwischenmenschliche kommunikation 9 führliche medizinische Beschreibung ﬁndet sich in Klinke und Sil- bernagl (1996).

2.1.1.1 Wahrnehmung über Sinnesorgane Zur Aufnahme von Reizen, wie zum Beispiel Temperatur, elektroma- gnetische Wellen, oder Schallwellen, besitzt der menschliche Körper diverse Rezeptoren. Für diese Arbeit sind lediglich Exterozeptoren, welche die Umwelt wahrnehmen, von Bedeutung. Dieser Rezeptor- Wahrnehmung klasse gehören die klassischen fünf Sinnesmodalitäten an, die bereits Aristoteles identiﬁzierte (Klinke und Silbernagl, 1996; Aristote- les, übersetzt und erläutert von Kirchmann, 1871):

1. Sehen, visuelle Wahrnehmung über das Sinnesorgan Auge.

2. Hören, auditive Wahrnehmung über das Sinnesorgan Ohr.

3. Riechen, olfaktorische Wahrnehmung über das Sinnesorgan Na- se.

4. Schmecken, gustatorische Wahrnehmung über das Sinnesorgan Zunge.

5. Tasten: taktile Wahrnehmung über das Sinnesorgan Haut.

Die Sinne Hören, Sehen und Tasten sind für die menschliche Kom- munikation bedeutender als Riechen oder Schmecken (Van Servel- len, 2009). Diese drei Sinne sind allerdings nicht bei jedem Menschen gleich ausgeprägt. Van Servellen (2009) zeigt diverse Belege für unterschiedliche Sinnespräferenzen und die Fähigkeit, ein Zusammenspiel mehrerer Sinne zur Wahrnehmung der Umwelt zu nutzen. Die Unter- Wahrnehmungs- schiede in der Wahrnehmung sind in erster Linie auf Eigenschaften unterschiede wie Alter, Reife, Ausbildung, Beruf und Erfahrung zurückzuführen. Zusätzlich kann sich die bevorzugte Art der Wahrnehmung auch mit der Zeit oder der Situation ändern. Neben körperlich beeinﬂussten Sinnespräferenzen kann der Mensch auch aktiv seine Wahrnehmung steuern, beziehungsweise seine Auf- merksamkeit bestimmten Informationen zuwenden. Am deutlichsten ist dies beim Sehen über die Blickrichtung und das Schließen oder Öffnen der Augen zu erkennen. Doch auch die anderen Sinne kön- nen aktiv gesteuert werden. Ein berühmtes Beispiel ist der „Cocktail- party-Effekt“, der die selektive Wahrnehmung einer Konversation in selektive einer lauten Umgebung beschreibt (Cherry, 1953). Menschen nutzen Wahrnehmung hierbei eine Kombination aus verschiedenen Sinnen, um ihren Ge- sprächspartner zu verstehen. Die Steuerung der Aufmerksamkeit auf wesentliche Informationen ergibt sich aus der begrenzten Kapazität des menschlichen Informationsverarbeitungssystems. Es kann somit nicht davon ausgegangen werden, dass jeder Mensch Informationen aus der Umwelt gleich wahrnimmt. 10 anwendungsübergreifende mensch-maschine kommunikation

2.1.1.2 Verbale und nonverbale Kommunikation Neben einer reinen Wahrnehmung seiner Umwelt kann der Mensch auch Eingriff in diese nehmen und selbst wahrnehmbare Reize erzeugen. Dafür verantwortlich ist ein enges Zusammenspiel des Ner- vensystems und Muskelapparats (Klinke und Silbernagl, 1996). In der zwischenmenschlichen Kommunikation kann man die gesende- ten Informationen nach verbaler und nonverbaler Kommunikation klassifizieren (Knapp und Hall, 2009). Verbale Kommunikation erfolgt durch den menschlichen Sprechapparat, welcher in Zusammenspiel diverser Muskeln und der Atemluft akustische Signale einer Spra- che produziert (siehe Abschnitt 2.1.2.1). Über die Definition von nonverbaler Kommunikation besteht hingegen Uneinigkeit (Littlejohn und Foss, 2008). Manche sehen als nonverbale Kommunikation jegliche Kom- munikation die nicht durch Worte erfolgt. Andere wiederum zählen zum Beispiel Gebärdensprache, die durch Gesten erfolgt, nicht zur nonverbalen Kommunikation (Knapp und Hall, 2009). Da diese Ar- beit nonverbale Kommunikation nur am Rande betrachtet, ist eine weitgefasste Definition nach Knapp und Hall ausreichend: „To most people, the phrase nonverbal communication refers to communication effected by means other than words, assuming words are the verbal element.“5 (Knapp und Hall, 2009, S. 5). Verbale und nonverbale Kommunikation erfolgt über verschiedene Kodierungskanäle (Burgoon u. a., 2011), auf welche im folgenden Abschnitt unter dem Begriff Nachrichtenkanäle eingegangen wird.

2.1.2 Kommunikationsmodelle

Wie gezeigt, können Menschen Informationen wahrnehmen und erzeugen. Für eine erfolgreiche zwischenmenschliche Kommunikation ist allerdings der Austausch essentiell. Bereits 1948 deﬁnierte Shannon Modell nach (1948) ein allgemeines Kommunikationsmodell über Informationsquelle, Shannon Sender, Nachrichtenkanal, Empfänger und Informationsziel. Abbil- dung 2.1 zeigt den Prozess, über welchen eine Information zunächst vom Sender kodiert wird, bevor sie über einen Nachrichtenkanal zum Empfänger gelangt. Auf diesem Weg kann es zu Störungen der Über- tragung kommen. Der Empfänger dekodiert das empfangene Signal und führt die Information ihrer Bestimmung zu. Ein Vorteil des Mo- dells ist seine Einfachheit sowie seine Allgemeingültigkeit. Betrachtet man das Shannon’sche Modell allerdings hinsichtlich der drei Kom- munikationsprobleme nach Weaver (1949) (technisch, semantisch und effektiv), ergeben sich einige Schwächen. Shannon betrachtet lediglich das technische Problem durch die Störung im Übertragungskanal. Ob allerdings die Nachricht semantisch richtig vom Empfänger inter-

5 Übersetzung des Autors: Für die meisten Personen bedeutet der Ausdruck nonverbale Kommunikation eine Kommunikation, welche auf andere Weise als durch Wörter (angenommen Wörter stellen das verbale Element dar) herbeigeführt wird. 2.1 zwischenmenschliche kommunikation 11 pretiert wird, oder ob die Kommunikation effektiv erfolgt, ist nicht deﬁniert. In dieser Arbeit ist in erster Linie das gegenseitige Verständ- nis von Sender und Empfänger, und somit die korrekte semantische Dekodierung der Nachricht, von Bedeutung, wobei die technisch kor- rekteKap 2: Übertragung Kommunikationsmodell eine notwendige nach Shannon Bedingung dafür darstellt. Im Weiteren soll diese daher als gegeben vorausgesetzt sein.

Kontext: Beziehung, Gruppen, Struktur, Massenmedien, Kultur, Gesellschaft

Nachricht & Feedback

Informationsquelle Informationsziel

Sender Empfänger Nachrichtenkanal

Nachricht & Feedback

Abbildung 2.1: Kommunikationsmodell nach Shannon (1948), mit Erweite- rungen um Kontext (Littlejohn und Foss, 2008) sowie Feed- back (Schramm, 1954; Wood, 2011).

Vor Betrachtung des Inhalts und der Bedeutung einer Nachricht wird allerdings auf das Rollenverhältnis zwischen Sender und Emp- fänger eingegangen. Shannon deﬁniert dies als lineares Modell, in dem ein Austausch von Informationen lediglich vom Sender zum Empfänger möglich ist. Schramm (1954) hingegen beschreibt ein in- teraktives Modell, in dem der Empfänger dem Sender wiederum Feedback gibt und somit ebenfalls zum Sender wird (der Sender wird dabei zum Empfänger). Dieser gegenseitige Austausch und die Folge an Nachrichten wird von Watzlawick u. a. (1967) als Interak- tion bezeichnet. Dem dritten Axiom von Paul Watzlawick zufolge Interaktion übernimmt ein Gesprächspartner meist die Gesprächsführung, wobei der andere eine untergeordnete Rolle des Antwortgebers einnimmt. Die Initiative der Kommunikation liegt somit zumeist bei einem Ge- Initiative sprächspartner. Im interaktiven Kommunikationsmodell wird die Fol- ge der Nachrichten während der Interaktion nur sequentiell betrachtet. Wood (2011) erweitert dieses zu einem transaktionalen Modell, welches den simultanen Nachrichtenaustausch berücksichtigt. Dieses Modell beinhaltet zusätzlich eine zeitliche Komponente und beachtet somit Änderungen des Kommunikationsverhaltens. Diese entstehen hauptsächlich durch das geteilte Wissen der Gesprächspartner untereinander. Neben diesem ist der Kontext, wie zum Beispiel die Be- ziehung, Gruppenzugehörigkeit, Struktur und Gesellschaft, von ent- 12 anwendungsübergreifende mensch-maschine kommunikation

scheidender Bedeutung. Für eine ausführliche Betrachtung sei auf Littlejohn und Foss (2008) verwiesen.

2.1.2.1 Sprache als zentrales Element des Nachrichtenaustauschs Ein zentraler Punkt des Nachrichtenaustauschs ist der Inhalt und die Bedeutung einer Nachricht. Wie gesehen, kann die Übermittlung über verschiedene Arten und Weisen erfolgen, wobei die Informati- onskodierung sowie -dekodierung zueinander kompatibel sein müs- sen. Hierbei verständigen sich der Sender und Empfänger auf Re- geln, wie zum Beispiel einer gemeinsamen Sprache (Fromkin u. a., 2002). Dies schränkt die Art des Nachrichtenkanals in keinster Weise auf rein auditive Signale ein, sondern kann auch über einen haptisch oder visuellen Nachrichtenkanal erfolgen. Als Beispiel sei hier die Gebärdensprache aufgeführt. Semiotik Die Semiotik als Lehre der Zeichen und Symbole behandelt deren Zusammenhang und Bedeutung. Eine Sprache kann als eine bestimmte Menge an Zeichen angesehen werden, die - mit gewissen Regeln - Objekte, Ideen, Zustände, Gefühle und Situationen beschreiben. Die Semiotik wird oftmals in drei Bereiche gegliedert : Syntaktik, Seman- tik und Pragmatik (Fromkin u. a., 2002; Littlejohn und Foss, 2008). Syntaktik Die Syntaktik beschäftigt sich mit Beziehungen verschiedener Sym- bole untereinander. Dies können zum Beispiel durch Grammatiken verknüpfte Wörter sein oder aber Gesten, die zu komplexen, non- Semantik verbalen Symbolen verbunden werden. Die Semantik betrachtet die Zuordnung von Symbolen zu ihrer Bedeutung. Es wird von zwei Welten ausgegangen, einer bestehend aus Symbolen und einer aus Objekten. Eine Person kann nun abhängig von ihrer gegenwärtigen Situation eine Zuordnung herstellen. Diese muss nicht immer eindeutig sein, so kann ein Symbol mehrere Bedeutungen haben (Homonym) oder aber mehrere Symbole die gleiche Bedeutung (Synonym). Oft- mals stehen Objekte auch in Verbindung zueinander. Die Beziehung Hyponym beispielsweise besteht zwischen einem allgemeinen Objekt (z.B. Tier) und einem Speziﬁscheren (z.B. Vogel, Säugetier, Fisch). Be- steht zwischen zwei Objekten ein Gegensatz, spricht man von einem Pragmatik Antonym. Pragmatik, als dritter Bereich der Semiotik, beschäftigt sich mit kontextuellen und persönlichen Unterschieden bei der Interpreta- tion von Symbolen. Sender und Empfänger müssen ein gemeinsames Verständnis der Beziehungen zwischen Symbol und Bedeutung erlangen, um erfolgreich kommunizieren zu können. Durch beispielsweise soziale oder kulturelle Unterschiede können sich diese Beziehungen von Mensch zu Mensch unterscheiden. Während der Kommunikati- on beachten Menschen diese Unterschiede und adaptieren ihre Spra- che in Abhängigkeit der Beziehung zum Gesprächspartner (zweites Axiom von Watzlawick u. a. (1967)). Ein wichtiger Bereich der Pragmatik ist die Sprechakttheorie. Die- se betrachtet die menschliche Sprache als Instrument, Handlungen 2.1 zwischenmenschliche kommunikation 13

(Akte) auszulösen. Zum Beispiel kann die Äußerung „Das Fenster ist offen“ eine Handlung, nämlich das Fenster zu schließen, beim Gesprächspartner auslösen. Die Sprechakttheorie wurde maßgeblich von John L. Austin geprägt und später von Searle (1969) erweitert. In dieser Arbeit sind die Unterschiede nicht von Relevanz und es wird somit lediglich die erweiterte Theorie nach Searle (1969) betrachtet. Ein Sprechakt wird hierbei in vier Teilakte untergliedert: Äußerungs- Sprechakttheorie akt, propositionaler Akt, illokutionärer Akt und perlokutionärer Akt. nach Searle Der Äußerungsakt umfasst das Äußern eines Satzes, bestehend aus mehreren Wörtern einer Sprache. In diesem bezieht sich der Spre- cher auf bestimmte Objekte (im obigen Beispiel „Das Fenster“) und ordnet diesen Eigenschaften zu (in obigem Beispiel „ist offen“). Diese Zuordnung wird propositionaler Akt genannt. Der illokutionäre Akt bezeichnet die Absicht, mit welcher eine Satz formuliert wird. In erster Linie informiert der Sender seinen Gesprächspartner mit genanntem Satz über ein offenes Fenster, die Intention könnte allerdings sein „Bit- te schließe das Fenster“. Vollführt der Gesprächspartner diesen Akt, hat die Äußerung zu einer Handlung geführt, dem perlokutionären Akt.

2.1.3 Ausgewählte Theorien menschlicher Kommunikation

Bisher wurden die menschlichen Kommunikationsmöglichkeiten, sowie der gegenseitige Informationsaustausch betrachtet. Doch auf Ba- sis welcher kognitiven Prozesse und Theorien bestimmen Menschen den Inhalt einer Kommunikation oder die Antwort auf eine Nach- richt? In diesem Abschnitt soll ein kurzer Überblick über für diese Arbeit relevanten Theorien gegeben werden. Grice (1975) formuliert ein kooperatives Interaktionsverhalten als allgemeine Regel zwischen Kommunikationspartnern. Er geht davon aus, dass während einer Interaktion einzelne Nachrichten in Abhän- gigkeit zueinander stehen. Für eine kooperative Kommunikation de- ﬁniert er vier Maxime: Quantität, Qualität, Relevanz sowie Art und Grice’sche Maxime Weise. Bezüglich Quantität soll ein Kommunikationspartner nur so- viel Information wie nötig kommunizieren und nicht zu viel. Ein zentraler Punkt stellt die Qualität einer Nachricht dar, lediglich wahre Beiträge folgen diesem Maxim. Zusätzlich sollte eine jede Nachricht relevant für die aktuelle Situation sein. Die Art und Weise, wie etwas gesagt wird, beschreibt die Verständlichkeit sowie die Deutlichkeit einer Nachricht. Folgt eine Kommunikation diesen Regeln, kann von einer efﬁzienten und erfolgreichen Kommunikation gesprochen werden. Eine erfolgreiche Umsetzung der Grice’schen Maxime setzt voraus, dass eine Kommunikationssituation (Umgebung, Gesprächspartner, Nachricht) interpretiert und auf Basis der Interpretation der Inhalt sowie die Art und Weise einer Nachricht gewählt wird. Pearce und 14 anwendungsübergreifende mensch-maschine kommunikation

Cronen entwickelten in den 70er Jahren die Theorie „coordinated management of meaning“, welche Regeln zur Interpretation von Nach- richten und zum resultierenden Verhalten beschreibt (Pearce, 2004; Kontext Littlejohn und Foss, 2008). Die Regeln werden abhängig vom Kontext gewählt, welcher sich aus einer Kombination folgender Einzelkontex- te ergibt: Episode (aktuelle Umgebung und erlebte Ereignisse), Be- ziehung zum Gesprächspartner, Selbstbild und Kultur. Somit kann sich die Reaktion eines Menschen auf eine Nachricht je nach Kontext unterscheiden. Ein weiterer wichtiger Punkt ist das Thema einer Nachricht. Dem Thema Duden zufolge deﬁniert sich Thema als „Gegenstand [..] eines Ge- sprächs“6. Jede sprachliche Äußerung besitzt ein Thema, jedoch kön- nen mehrere Äußerungen sich auf dasselbe beziehen (Hymes, 1962). Während eines Gesprächs ist es Gesprächspartnern somit möglich mit sprachlichen Äußerungen ein Thema aufrecht zu halten (engl. maintenance), es zu ändern (engl. change) sowie das Bisherige in ein Neues überzuleiten (engl. shading) (Stover und Haynes (1989), nach Aufrechterhaltung Klassiﬁkation von Brinton und Fujiki (1984)). Beim Aufrechterhalten ei- eines Themas nes Themas gehört die aktuelle Äußerung direkt zum Thema der vorherigen, wie zum Beispiel eine Bestätigung, die Beantwortung einer Frage, oder das Hinzufügen weiterer Informationen zum Thema. Das Abrupte Änderung Ändern eines bestehenden Themas erfolgt durch eine Äußerung, welche eines Themas dieses einführt und abrupt zum Themenwechsel führt (übersetzt aus Stover und Haynes (1989)):

Sprecher 1: „Die Kinder spielen den größten Teil des Tages im Boot.“ Sprecher 2: „Ich muss gehen und einige Geburtstagskarten kaufen.“

Überleitung Bei einer Überleitung eines Themas wird ein Aspekt einer vorherigen eines Themas Äußerung aufgegriffen und dadurch ein Themenwechsel eingeleitet (übersetzt aus Stover und Haynes (1989)):

Sprecher 1: „Der Test letzte Woche war sehr schwer, nie- mand unserer Klasse erwartet ein gutes Ergeb- nis.“ Sprecher 2: „Unsere Klasse geht nächste Woche auf einen Ausﬂug.“ Der Aspekt Klasse wird somit aus der vorherigen Äußerung aufgegriffen und leitet zum Thema der Klassenaktivitäten über. Dies wird als weicher Übergang zwischen Themen angesehen, erfordert von den Gesprächspartnern allerdings ausgefeilte, linguistische Fähigkei- ten (Caissie, 2002). Oftmals wird dabei auf Aspekte Bezug genommen, ohne welche ein Verständnis der aktuellen Äußerung nicht mög-

6 Bibliographisches Institut GmbH, Dudenverlag, http://www.duden.de/ rechtschreibung/Thema [Online 12.12.2014] 2.2 mensch-maschine dialog 15 lich ist (Stover und Haynes, 1989; Halliday und Hasan, 2014). Diese Beziehung kann auf syntaktischer, semantischer und pragmatischer Ebene erfolgen und wird als Kohärenz bezeichnet (Carstensen u. a., Kohärenz 2010). Anaphern sind dabei die Referenzausdrücke, die auf ein Ele- Anapher ment einer vorhergehenden Äußerung Bezug nehmen.

2.2 mensch-maschine dialog

Im vorherigen Abschnitt wurde Kommunikation und Interaktion zwischen zwei menschlichen Gesprächspartnern betrachtet. Durch die rasante Entwicklung von elektronischen Geräten wurde eine efﬁziente Interaktion mit diesen in den letzten Jahrzehnten immer wichtiger. Das Themenfeld der HMI betrachtet, als Querschnittsdisziplin aus Informatik, Psychologie und Ingenieurswissenschaften, die Interakti- on mit einer Maschine, anstatt eines menschlichen Kommunikations- partners. Wie von Doran u. a. (2001) gezeigt, bestehen gewisse Unter- schiede zwischen dem Dialogverhalten in der zwischenmenschlichen Kommunikation und der Interaktion mit einer Maschine, auf welche im Folgenden eingegangen wird. In Abschnitt 2.2.1 wird zuerst ein allgemeines Modell der Interakti- on deﬁniert und es werden mögliche Verständnisprobleme zwischen Mensch und Maschine präsentiert. Anschließend werden verschiedene Maschinenschnittstellen abhängig von ihrer Modalität zur Benut- zerinteraktion vorgestellt (siehe Abschnitt 2.2.2).

2.2.1 Interaktionsmodelle und mögliche Interaktionsfehler

Bereits im frühen Kindesalter lernt der Mensch den Umgang, beziehungsweise die Interaktion, mit Dingen der realen Welt. Dies kön- nen im einfachen Fall zum Beispiel Schalter, Schubladen, Hebel oder Schieberegler sein. Für Maschinen werden diese Bedienelemente oftmals aufgegriffen, um die Erfahrungen zu nutzen und somit eine einfache, intuitive Bedienung zu ermöglichen. Die HMI ist dadurch ein Teilgebiet der Interaktion zwischen Mensch und Umwelt und folgt den Regeln des allgemeinen Interaktionszyklus nach Norman (2002), Interaktionszyklus wie in Abbildung 2.2 dargestellt. Norman definiert als oberstes Element das Ziel, welches ein Mensch erreichen möchte. Um dieses Ziel zu erreichen, bedient er sich der Ausführung von Aktionen, die Einfluss auf die Welt nehmen und eine Änderung dieser hervorrufen. Ob nun diese Änderungen dem definierten Ziel entsprechen, wird in der anschließenden Beurteilung ge- prüft. Aus dem Ergebnis können weitere Ziele entstehen. Nun sind Ziele oftmals unterspezifiziert, wie zum Beispiel „Öffne das Fenster“. Zum Erreichen dieses Ziels müssen zuerst Einzelaktionen (z.B. „Hin- laufen“, „Hebel bewegen“ und „Kippen“) bestimmt, geplant und aus- geführt werden. Somit setzt sich die Ausführung aus den drei Teil- 16 anwendungsübergreifende mensch-maschine kommunikation Kap 2: Norman Interaktionsmodell

Ziel

Ausführung Beurteilung

Bestimmung Vergleich

Planung Interpretation

Durchführung Wahrnehmung

Welt

Abbildung 2.2: Interaktionszyklus nach Norman (2002).

bereichen Bestimmung, Planung und Durchführung zusammen. Auf der Seite der Beurteilung kann auch eine Gliederung in drei Teilberei- che vorgenommen werden: die Wahrnehmung der Änderung, deren Interpretation und der Vergleich zum erwünschten Ziel. Die Teile des Zyklus sind dabei keine fest vorgegebenen Schritte, vielmehr soll das Modell als ungefähre Beschreibung dienen. Weiterhin können sich Ziele mitten in der Ausführung ändern, zum Beispiel wenn jemand anderes aufsteht und das Fenster schließt. Zusätzlich kann der Zyklus an jeder Stelle beginnen. Nicht selten tritt der Fall ein, dass eine Än- derung der Welt ein (zuvor unvorhergesehenes) Ziel beim Menschen hervorruft. Anhand des Interaktionszykluses können zwei Fehlerquellen wäh- Interaktionsfehler rend einer Interaktion identifiziert werden, einerseits Ausführungs- fehler (engl. gulf of execution) und andererseits Beurteilungsfehler (engl. gulf of evaluation) (Norman, 2002). Auf Seiten der Ausfüh- rung kann es beispielsweise zur Diskrepanz zwischen Planung und menschlichem mentalen Modell kommen. Forrester (1971) definiert Mentales Modell als allgemeines mentales Modell ein persönliches Abbild, also eine bestimmte Sichtweise, der realen Welt, auf Basis dessen ein Mensch Entscheidungen trifft. Hierbei ist jedes Modell unvollständig, unprä- zise, individuell und ändert sich über die Zeit. Norman (2002) passt diese Definition an die HMI an, indem er die wahrnehmbaren Aktio- nen, Strukturen und Interaktionselemente als Bestandteile des mentalen Modells definiert, die ein Mensch durch Erfahrung, Training und Anleitung während der Interaktion erlernt. Auf Basis eines korrekten Modells ist es möglich, vor Ausführung einer Aktion ihren Effekt zu bestimmen, sowie bei unerwarteten Problemen eine Lösung zu finden (Bourguet, 2011). Beurteilungsfehler hingegen entstehen durch eine unzureichende Rückmeldung oder eine fehlerhafte Wahrnehmung, 2.2 mensch-maschine dialog 17 beziehungsweise Fehlinterpretation, des Zustandes. Für eine effiziente und effektive Interaktion zwischen Mensch und Maschine müssen die Aspekte des Interaktionszyklus berücksichtigt, und Interaktions- fehler vermieden werden. Auf Grund der unterschiedlichen mentalen Modelle wird eine komplett fehlerfreie Bedienung nur schwer mög- lich sein, weshalb Fehlerbehandlungsstrategien im Systemdesign aufgegriffen werden müssen (siehe Abschnitt 2.3.3).

2.2.2 Benutzerschnittstellen

Über die Jahrzehnte hinweg wurden aus einfachen Schaltern oftmals umfangreiche Bedienschnittstellen, welche verschiedene menschliche Sinne ansprechen können. Eine Bedien- beziehungsweise Benutzer- schnittstelle (UI, engl. für User Interface) ermöglicht es Nutzern einem elektronischen Gerät (u.a. Computer, Smartphone, Auto, Wasch- maschine) Anweisungen zu geben sowie Informationen und Rück- meldungen zu erlangen. Die europäische Norm DIN EN ISO 9241-110 DIN 9241-110 definiert eine Benutzerschnittstelle (UI, engl. für User Interface) als „alle Bestandteile eines interaktiven Systems (Software oder Hardwa- re), die Informationen und Steuerelemente zur Verfügung stellen, die für den Benutzer notwendig sind, um eine bestimmte Arbeitsaufga- be mit dem interaktiven System zu erledigen“ (Deutsches Institut für Normung (DIN) e.V., 2008, S. 7). Untergliedert wird hierbei in, einerseits Informationsdarstellung und andererseits Steuerelemente. Dies legt den Schluss nahe, die Begriffe Systemeingabe und Systemaus- gabe an bestimmte Hardwareklassen zu binden. Bei klassischen Paa- rungen, wie zum Beispiel Schalter-Statuslampe, Maus-Monitor, oder Joystick-Motor, ist diese Unterteilung durchaus gängig. Doch zunehmend gewinnen kombinierte Benutzerschnittstellen an Bedeutung, die, wie zum Beispiel ein berührungsempfindliches Display, gleichzeitig Informationsdarstellung und Steuerung ermöglichen. Die Ein- teilung von Hardware in Eingabe und Ausgabegeräte verschwimmt somit zunehmend (Hinckley und Wigdor, 2012). In dieser Arbeit werden verschiedene Benutzerschnittstellen anhand der genutzten Sinne des Menschen klassifiziert. Die Begriffe Systemeingabe und System- ausgabe werden auf Basis des Informationsflusses definiert und nicht an bestimmte Hardwareklassen gebunden. Eine Nachricht vom Nut- Systemeingabe und zer zum Gerät wird als Systemeingabe und eine Nachricht vom Gerät -ausgabe zum Nutzer als Systemausgabe bezeichnet.

2.2.2.1 Klassifkiation von UIs anhand verschiedener Modalitäten Wie in Abschnitt 2.1.1 vorgestellt, verfügt der Mensch über verschiedene Sinne zur Wahrnehmung von Informationen, sowie nonverbale und verbale Mechanismen zur Kommunikation. Für eine erfolgreiche Kommunikation zwischen Mensch und Maschine muss die Maschine nun passende Benutzerschnittstellen zu den menschlichen Kommuni- 18 anwendungsübergreifende mensch-maschine kommunikation

Modalität Beispiel Maschine Eingabe Ausgabe

Visuell Blick, Bilder Kamera Display Auditiv Sprache, Audio Mikrofon Lautsprecher Haptisch Druck, Oberﬂä- Tastatur, Maus, Vibration, Tem- che, Gesten Touchpad peratur

Tabelle 2.1: Abbildung von Hardwareklassen auf menschliche Sensormoda- litäten (nach Blattner und Glinert (1996)).

kationsmöglichkeiten bereitstellen. Blattner und Glinert (1996) identi- ﬁzieren für die HMI wichtige menschliche Sensormodalitäten (siehe Modalität Tabelle 2.1). Unter Modalität wird dabei ein Nachrichtenkanal zwischen Mensch und Maschine verstanden, welcher zum Versand und Empfang einer Nachricht genutzt wird (Sutcliffe, 2012). Menschen be- nötigen zum Versand sowie zum Empfang von Nachrichten lediglich ihren Körper, wogegen Maschinen für jede Modalität auf verschiedene Sensoren und Aktuatoren zur Systemeingabe und -ausgabe angewiesen sind (Blattner und Glinert, 1996). Tabelle 2.1 ordnet den menschlichen Sensormodalitäten Beispiele von klassischen Hardwa- reklassen zu. Neben den genannten Modalitäten verfügt der Mensch über zwei weitere wichtige Sinne: das Riechen und das Schmecken. Die olfaktorische Wahrnehmung ermöglicht es, einerseits emotiona- le (Corbin, 2008) und andererseits erinnernde (Chu und Downes, 2000) Reaktionen auszulösen. Die gustatorische Wahrnehmung steht in engem Bezug zur olfaktorischen und kann ähnliche Reaktionen bewirken (Ohloff und Thomas, 1971). Beide Modalitäten werden allerdings im Bereich der HMI bisher wenig eingesetzt, da sowohl technische Schwierigkeiten bestehen (z.B. Produktion der Geruchs- und Geschmacksstoffe), als auch, bisher nicht kontrollierbare, menschliche Faktoren (z.B. einheitliche Interpretation) existieren (Ba¸sdo˘gan und Loftin, 2009). Im Folgenden wird somit nicht näher auf diese Modalitäten eingegangen. Nicht direkt mit einer Modalität des Menschen verbunden, aber physiologische für die HMI zunehmend wichtiger, ist die physiologische Sensorik. Fort- Sensorik schritte in den Neurowissenschaften ermöglichen die Bedienung von Computern rein auf Basis von Gehirnaktivitäten (engl. Brain Com- puter Interfaces). Stark getrieben wurde diese Forschungsdisziplin durch den Wunsch, körperlich behinderten Personen die Möglich- keit zu geben, Prothesen oder Computer zu steuern (Wilson, 2012). Durch nichtinvasive Elektroenzephalograﬁe kann die Gehirnaktivität gemessen und zur Steuerung, wie zum Beispiel eines Computercur- sors, eingesetzt werden (Machado u. a., 2010). Zunehmend gewinnen auch Biofeedback-Sensoren im Bereich der HMI Bedeutung. Sensoren 2.2 mensch-maschine dialog 19

zur Überwachung von Körperfunktionen7, wie zum Beispiel Herzfre- quenz, Puls, Hautleitwert oder Temperatur, dienen nicht mehr nur der reinen Information für Arzt oder Sportler, sondern beeinflussen aktiv die Interaktion zwischen Mensch und Maschine. Physiologische Sensoren ermöglichen eine zuverlässige Bestimmung der kognitiven Belastung, dem Stresslevel (Healey und Picard, 2005; Sun u. a., 2012) und dem emotionalen Empfinden von Menschen (Picard u. a., 2001; Wagner u. a., 2005; Healey, 2014). Der Bereich Affective Computing beschäftigt sich mit der Fragestellung, wie diese Informationen für Computer genutzt werden können, um eine natürliche und intelligente Interaktion zu erreichen (Picard, 1997). Das Messen der Werte stellt hierbei inzwischen weniger ein Problem dar als vielmehr die Interpretation und den Einsatz dieser Technologie (Wilson, 2012). Neben den verschiedenen Ein- und Ausgabegeräten ist die Soft- ware von entscheidender Bedeutung. Ein Display wird zum Beispiel erst zu einer bedienbaren Schnittstelle, wenn eine bestimmte Anzei- ge darauf dargestellt wird. Hinckley und Wigdor (2012) definieren eineUI daher als Komposition aus elektronischen Geräten, konzeptionellen Modellen und Interaktionsschemata. Konzeptionelle Modelle Konzeptionelles beschreiben eine Anwendung auf abstraktem Level aus Nutzerper- Modell spektive, indem Konzepte identifiziert und in Beziehung zueinander gesetzt werden. Zusätzlich erfolgt eine Beschreibung der möglichen Operationen, sowie eine Abbildung auf die Aufgaben des Nutzers (J. Johnson und Henderson, 2011). Ein Interaktionsschema, oder auch Interaktionsmodell, umfasst verschiedene Ein- und Ausgabegeräte, auf Interaktionsschema Hardware- sowie Softwareseite, um dem Nutzer eine Möglichkeit zu geben, bestimmte Aufgaben des konzeptionellen Modells auszufüh- ren. Ein Beispiel stellt das Interaktionsschema Drag&Drop dar, welches ein Verschieben von Elementen mittels Maus oder Touchpad beschreibt (Hinckley und Wigdor, 2012). Über die Jahrzehnte hinweg haben sich verschiedenste Interaktions- schemata etabliert. Zu Beginn des Computerzeitalters waren Lochkar- ten und textbasierte Kommandozeilen vorherrschend. Mit fortschrei- tender technologischer Entwicklung wurden sie zunehmend von Gra- fischen Benutzeroberflächen (GUIs, engl. Graphical User Interfaces) abgelöst, welche, in Verbindung mit Display, Tastatur und Maus, bis heute in Büroumgebungen überwiegen. Durch rasante Fortschritte erhielten allerdings immer mehr elektronische Geräte Einzug in das tägliche Leben der Menschen. Ein kleiner Auszug stellen beispielsweise folgende Geräteklassen dar: MP3-Player, Smartphone, SmartTV, Tabletcomputer, automobiles Infotainment-System oder intelligente Kleidung. Es ist offensichtlich, dass sich diese Geräte stark in Form, Ausstattung, Einsatzzweck und -situation unterscheiden. Ein MP3- Player kommt zum Beispiel ohne großes Display oder Tastatur aus,

7 http://www.hasomed.de/us/products/biofeedback-stressmessung/ nexus-systeme/nexus-sensoren.html [Online 25.11.2014] 20 anwendungsübergreifende mensch-maschine kommunikation

wogegen ein Tablet auf ein kontrastreiches Display zum Lesen bei Ta- geslicht angewiesen ist. Stark situationsabhängig sind Infotainment- Systeme im Fahrzeug, da der Fahrer nur begrenzte Modalitäten zur Verfügung hat und nicht vom Fahrgeschehen durch aufwendige GUIs abgelenkt werden sollte (siehe Abschnitt 2.3.4 sowie Maciej und Voll- rath (2009) und Hofmann, Tobisch u. a. (2014)). Hier bietet sich unter bestimmten Umständen eine Sprachbedienbare Benutzerschnittstel- le (VUI, engl. für Voice User Interface) an. Es gibt somit kein optimales Interaktionsschema oder Modalität für jede Situation beziehungsweise für jedes Gerät (Myers u. a., 2000; Hin- Situation, Gerät & ckley und Wigdor, 2012). Neben der Situation und dem Gerät sind die Nutzer jeweiligen Nutzer von entscheidender Bedeutung, welche sich in ihren Vorlieben hinsichtlich Interaktionsschemata unterscheiden (Oviatt, P. Cohen u. a., 2000; Schüssel u. a., 2014). Zusätzlich können Einschrän- kungen in einer Modalität (z.B. Seh- oder Hörschwäche) eine andere erfordern. In einer Studie mit älteren Personen zeigen Wright u. a. (2008), dass Menschen auf Basis ihrer kognitiven Fähigkeiten Modali- täten präferieren. Daraus ergibt sich die Notwendigkeit, dies bei der Entwicklung von Benutzerschnittstellen zu berücksichtigen und verschiedene Modalitäten sowie Interaktionsschemata mit Nutzern des Systems zu evaluieren.

2.2.2.2 Multimodale Benutzerschnittstellen Im Abschnitt 2.1.1.1 zur zwischenmenschlichen Kommunikation wurde gezeigt, dass Menschen unterschiedliche Sinne oftmals in Kom- bination nutzen (z.B. Cocktailparty-Effekt). Dadurch kann einerseits fehlende Präzision einer Modalität ausgeglichen, und andererseits gezielt eine weitere Modalität zur Kommunikation eingesetzt werden. Im Bereich der HMI kann dies ebenso von Nutzen sein. Silsbee und Bovik (1996) zeigen zum Beispiel eine verbesserte Automatische Spracherkennung (ASR, engl. Automatic Speech Recognition) durch Kombination mit einem Modul, welches Lippenbewegungen analysiert. Hinsichtlich Systemeingabe sind unzählige Kombinationen von Modalitäten bereits untersucht worden. Allen voran „Put-that-there“ von Bolt (1980), welcher eine Spracheingabe mit Gesten erweitert, um eine GUI zu steuern. Neben Natürlichkeit der Interaktion kann eine Kombination von Modalitäten auch die Efﬁzienz steigern, wie zum Beispiel P. Cohen u. a. (1998) zeigen. Im Vergleich zu einer rein haptischen Schnittstelle absolvierten Nutzer Kartenaufgaben mit Stift und Spracheingabe um den Faktor 3,2 bis 8,7 schneller. Eine Vielzahl von Benutzerschnittstellen nutzen auch hinsichtlich der Systemausgabe verschiedene Modalitäten (für einen Überblick siehe Foster (2002)). SmartKom zum Beispiel kombinierte visuelle, haptische und auditive Systemausgaben durch einen anthropomorphen, persönlichen Agen- ten, welcher sich adaptiv an seinen Nutzer und dessen Situation an- passt (Reithinger u. a., 2003). Die Nutzung mehrerer Modalitäten als 2.3 grundlagen und stand der technik 21

Systemeingabe beziehungsweise Systemausgabe wird im Folgenden als multimodal bezeichnet. multimodal In multimodalen Benutzerschnittstellen stellt sich allerdings das Problem, wann welche Modalität für bestimmte Informationen genutzt werden soll, und wie diese Modalitäten zusammenspielen. Ein Nutzer kann zum Beispiel bei der Systemeingabe über verschiedene Modalitäten widersprüchliche oder redundante Informationen zur Verfügung stellen, welche entsprechend klassifiziert und verarbeitet werden müssen. Der Prozess zur Verarbeitung verschiedener Sens- ordaten nennt man im Bereich der HMI multimodale Fusion. Hier- Fusion bei kann zwischen früher und später Fusion unterschieden werden (Atrey u. a., 2010). Die frühe Fusion agiert rein auf Basis der Sensor- werte, das heißt vor Interpretation deren. Bei der späten Fusion wird jeder Eingabewert zuerst einzeln interpretiert und anschließend, auf Basis seines semantischen Inhalts, mit anderen fusioniert. Ein ähn- licher Prozess, multimodale Fission genannt, bestimmt, mit welcher Fission Modalität eine Information dem Nutzer präsentiert werden soll. Mul- timodale Fission und Fusion hängen von einer Vielzahl an Faktoren, wie zum Beispiel der Situation und des jeweiligen Nutzers, ab (für eine genaue Betrachtung von Fusion und Fission sei auf Honold (unver- öffentlicht), Schüssel (unveröffentlicht), Turk (2014) und Lalanne u. a. (2009) verwiesen). Wie in Abschnitt 2.2.2.1 gezeigt, ist die Wahl einer Modalität stark von der Situation, in der sich ein Nutzer befindet, ab- hängig. Ebendies gilt auch für die Fission und Fusion von Modalitä- ten. Eine rein auditive Informationspräsentation ist zum Beispiel für den Fahrer eines Autos weniger ablenkend als eine visuelle (Jensen u. a., 2010). Sitzen hingegen weitere Personen im Fahrzeug, sollten private Informationen nicht unbedingt auditiv für alle wahrnehmbar sein und unter Umständen nur für den Fahrer visuell im Display ein- geblendet werden. Wie von Oviatt, P. Cohen u. a. (2000) gezeigt, gibt es auch hinsichtlich der Nutzer Unterschiede. Sie typisieren Nutzer anhand ihrer temporalen Interaktionsmuster bezüglich kombinierter Eingabemodalitäten in sequentiell und simultan. Schüssel u. a. (2014) hingegen zeigen, dass diese Klassifikation im Allgemeinen zu stark vereinfacht ist. In einer Studie wiesen sie stark nutzerindividuelle Un- terschiede der Interkationsmuster nach.

2.3 grundlagen und stand der technik

Wie in vorherigem Abschnitt gezeigt, können Benutzerschnittstellen unterschiedliche Sinnesmodalitäten des Menschen ansprechen. In der vorliegenden Arbeit werden in erster Linie VUIs betrachtet, welche eine auditive Modalität nutzen und somit die Bedienung einer Ma- schine mittels Sprache ermöglichen. Die Technologie zur Umsetzung einer VUI wird Sprachdialogsystem (SDS) genannt. 22 anwendungsübergreifende mensch-maschine kommunikation

Im Folgenden wird ein Überblick über Sprachdialogsysteme im Architektur, Dialog Allgemeinen gegeben und es werden bestehende Architekturen, Dia- und Anwendung logstrategien und Anwendungen betrachtet. Waren Sprachdialogsyste- me früher eher einfache Kommandosysteme, nimmt ihre Komple- xität heutzutage stetig zu. Nicht selten ermöglicht ein SDS Zugriff auf eine Vielzahl an Anwendungen, wie in Abschnitt 2.3.2 präsen- tiert. Doch je komplexer ein SDS, desto wahrscheinlicher treten Ver- ständnisprobleme auf, weshalb Fehlerbehandlungsstrategien an Be- deutung gewinnen (siehe Abschnitt 2.3.3). Während auf mobilen Ge- räten oder per Telefon sich Nutzer hauptsächlich mit deren Bedie- nung auseinandersetzen und sich somit darauf konzentrieren, muss im Fahrzeug die Bedienung neben der Fahraufgabe erfolgen. In Ab- schnitt 2.3.4 wird aus diesem Grund auf Ablenkungsaspekte eingegangen und diese in Relation zur Sprachbedienung gesetzt. Der darauffolgende Abschnitt 2.3.5 analysiert schließlich bestehende Imple- mentierungen von Sprachdialogsystemen in Fahrzeugen sowie bestehende Forschungsprojekte.

2.3.1 Sprachdialogsysteme

Seit Mitte der 80er Jahre existieren interaktive Sprachsysteme (engl. Interactive Voice Response), welche über Telefon einfache Komman- dos des Nutzers interpretieren und über Audioausgabe antworten. Diese sprachbedienbaren Systeme setzen auf einer Auswahl von Menü- einträgen auf (Wyard u. a., 1996). Für jede Funktion der zu steuern- den Anwendung werden Kommandoworte definiert. Nach Becker Kommandowort- (2010) werden diese Kommandowortsysteme allerdings nicht als echte systeme Dialogsysteme betrachtet, da sie lediglich die definierten Komman- doworte verstehen. Der Nutzer muss folglich diese zur Bedienung dialogische kennen und verwenden. Eine dialogische Interaktion wird erforderlich, Interaktion wenn die Nutzereingabe nicht direkt zum vordefinierten Kommando- wort einer Anwendungsfunktion passt, wie zum Beispiel: inkremen- telle Eingaben, Klärungsfragen, Wiederholungen oder Hilfe.

2.3.1.1 Struktur von Sprachdialogsystemen Die Struktur eines Sprachdialogsystems (SDS) untergliedert sich in der Regeln in verschiedene Module, einerseits anhand des Eingabe- und Ausgabekanals, andererseits, anlehnend an die Semiotik und Sprechakttheorie, in Symbol-, Semantik-, Planungs- und Ausführungs- ebene. Im Bereich der Sprachdialogsysteme spricht man hierbei von folgenden Modulen: Automatische Spracherkennung (ASR, engl. Au- tomatic Speech Recognition), Verständnis gesprochener Sprache (SLU, engl. Spoken Language Understanding), Dialogmanager, Präsentati- onsplanung und Sprachsynthese (TTS, engl. Text to Speech Synthesis) (McTear, 2002; Jokinen und McTear, 2010). Jedoch ist diese Aufteilung nicht exklusiv auf die auditive Modalität beschränkt, sondern oftmals 2.3 grundlagen und stand der technik 23 unabhängig der Modalität mit zusätzlicher Fusions- und Fissions- komponente umgesetzt (vgl. Becker (2010)). Im Allgemeinen kann somit die ASR als Analyse, das SLU als Interpretation und die TTS als Generierung bezeichnet werden. Wie Abbildung 2.3 zu entnehmen, ist eine mögliche Verbindung der Module, sie sequentiell zu reihen. Diverse Arbeiten betrachten weitere Verbindungen der Modu- le (zum Beispiel Wyard u. a. (1996), Seneff, Hurley u. a. (1998) oder Pellom u. a. (2000)), was jedoch in dieser Arbeit nicht weiter von Re- levanz ist. Kann bei einfachen Dialogsystemen der Dialogmanager direkt auf die Schnittstelle zur Anwendungsprogrammierung (API, engl. Application Programming Interface) zugreifen, wird im komplexen Dialogsystem ein Modul zur Anwendungsanbindung erforder- Anwendungs- lich (in Abschnitt 4.1.3 als Teil des Taskmanagers deﬁniert), welches anbindung die Aktionen des Aufgabenmodells in einzelne Schritte umsetzt und die Anwendung ansteuert (Becker, 2010)).

Dialogsystem Fusion Erkennung /

Interpretation Anwendungs

Analyse Anwendung anbindung

Dialogmanager API

Fission - Präsentations- Generierung planung

Abbildung 2.3: Struktur eines Sprachdialogsystems nach Becker (2010).

Anhand der Struktur eines Sprachdialogsystems wurden verschiedene Module erwähnt, welche im Folgenden näher erläutert werden. SDS-Module Dieses Kapitel betrachtet in erster Linie die Theorie, wogegen eine technische Betrachtung Abschnitt 4.1.3 zu entnehmen ist. Da diese Arbeit in erster Linie den Dialogmanager und das Aufgabenmodell der Anwendungsanbindung betrifft, sind die weiteren Module lediglich in Kürze behandelt. Für genauere Beschreibungen sei auf McTe- ar (2002), Becker (2010), Wyard u. a. (1996) und Jokinen und McTear (2010) verwiesen.

Automatische Spracherkennung: Die sprachliche Eingabe des Nut- zers liegt als Schallsignal vor, welches gefiltert, analysiert und Vom Schallsignal zu schlussendlich einem definierten Satz an Symbolen zugeordnet Symbolen wird. Diese können im einfachsten Fall eine Sequenz an Wörter bilden oder aber komplexere Strukturen mit mehreren Hypothe- sen. Die Sprachabdeckung für einen Spracherkenner kann auf zwei Arten definiert werden, erstens mittels einer regelbasier- ten Grammatik oder zweitens durch ein statistisches Sprachmo- dell. Eine regelbasierte Grammatik definiert alle als Eingabe mög- regelbasierte lichen Konstituenten, sowie Regeln, wie diese miteinander kom- Grammatik biniert werden können. Während dies bei einem SDS mit gerin- 24 anwendungsübergreifende mensch-maschine kommunikation

ger Funktionalität vergleichsweise einfach zu bewerkstelligen ist, erfordern komplexe Sprachdialogsysteme viel Expertenwis- sen (McTear, 2002), da Menschen identische Anfragen auf unterschiedlichste Weise ausdrücken (Fromkin u. a., 2002). Ein statis- statistisches tisches Sprachmodell hingegen berechnet Übergangswahrschein- Sprachmodell lichkeiten zwischen Wörtern. Um die Qualität zu sichern, müs- sen hierfür umfassende und verschiedenartige Trainingsdaten- sätze erfasst werden. Dies wird seit längerem in der domänen- unabhängigen Verschriftung (z.B. in Diktiererkennern) genutzt, jedoch zunehmend auch als Analyseverfahren im SDS eingesetzt. Hofmann, Ehrlich, Reichel u. a. (2013) zeigen die Robust- heit von domänenunabhängigen statistischen Verfahren für die Spracherkennung im dialogorientierten SDS (engl. conversational SDS).

Verständnis gesprochener Sprache: Zum Verständnis einer Nutzer- äußerung muss die Ausgabe der ASR interpretiert und ihre Be- deutung bestimmt werden. Im Allgemeinen wird zwischen syntaktischer und semantischer Interpretation unterschieden (Mc- syntaktische Tear, 2002). Die syntaktische Interpretation ermittelt die Konstitu- Interpretation enten einer Äußerung und deren Struktur. Neben Eigenschaf- ten, wie zum Beispiel Wortart und Numerus, enthält eine syntaktische Grammatik zusätzlich Regeln zu möglichen Abhän- gigkeiten zwischen Konstituenten. Die eigentliche Bedeutung semantische der Konstituenten stellt die semantische Interpretation fest. Ähn- Interpretation lich einer syntaktischen Grammatik werden Regeln definiert, welche die semantische Bedeutung beziehungsweise die Funkti- on der Konstituenten, in Form von Kategorien beschreibt (Joki- nen und McTear, 2010). Diese können domänenspezifisch und bei einer Flugbuchung zum Beispiel Fluglinie, Abflugsort und Zielort sein. Als Resultat der semantischen Interpretation wird für gewöhnlich der Wert einer Eingabe der entsprechenden Ka- tegorie zugeordnet, wie zum Beispiel: „Abflugsort=Berlin“.

Dialogmanager: Als zentrales Modul plant der Dialogmanager die Kommunikation zwischen Mensch und Maschine. Auf Basis der Interpretationsergebnisse sowie des Kommunikationskontextes entscheidet der Dialogmanager über den weiteren Fortgang des Dialogs. Hierfür kann eine Untergliederung in die zwei Kompo- nenten Dialogkontext und Ablaufkontrolle stattfinden (Jokinen Dialogkontext und McTear, 2010). Der Dialogkontext behält den Gesamtüber- blick der Konversation und beinhaltet die bisher mit dem Nut- zer ausgetauschten Informationen. Er stellt somit das geteilte Wissen zwischen Mensch und Maschine dar, welches zur weiteren Interpretation und Entscheidungsfindung genutzt wird. Die Entscheidung zum Fortgang des Dialogs trifft die Ablauf- Ablaufkontrolle kontrolle, welche, über definierte Regeln oder statistische Verfah- 2.3 grundlagen und stand der technik 25

ren, auf die interpretierte Nutzereingabe reagiert. Zum Beispiel kann bei Interpretationen mit schlechter Konﬁdenz eine explizite Veriﬁkation beim Nutzer erfolgen. Liegen genügend Infor- mationen zur Anfrage an eine externe Anwendung vor, voll- zieht der Dialogmanager diese und kann das Resultat an den Nutzer weitergeben (McTear, 2002). Mögliche Dialogstrategien für einen Dialogmanager werden nachfolgend behandelt. Die technische Seite des Dialogmanagers wird in Kapitel 4.1.3 betrachtet.

Aufgabenmodell und Anwendungen: Nutzer bezwecken durch In- teraktionen mit einem SDS bestimmte Interaktionsziele zu erreichen. Sie stellen hierzu verschiedene Aufgaben an ein SDS. Zur Erfüllung derer werden in der Regel externe Anwendungen externe benötigt, für welche das Dialogsystem alsUI dient. Wyard u. a. Anwendungen (1996) bezeichnet dies als Datenbankanfrage oder -transaktion, was jedoch heutzutage breiter gefasst werden muss. Prinzipi- ell kann jede beliebige Anwendung, wie zum Beispiel Webser- vices, Anwendungslogiken oder Steuergeräte im Fahrzeug, mittels API in ein SDS integriert werden. Die eigentliche Imple- mentierung dieser Anwendungen ist allerdings nicht Teil der vorliegenden Arbeit. Wie erwähnt, bildet im komplexen Dialog- system ein Aufgabenmodell die Verbindung zwischen Dialog und Aufgabenmodell Anwendungen. Das Modell setzt Aufgaben des Nutzers, wie zum Beispiel „eine Sendung aufzeichnen“, in einzelne Aktio- nen um, welche die API der Anwendung unterstützt (Becker, 2010). Somit enthält das Modell alle steuerbaren Einzelaktio- nen der Anwendung. Eine Verarbeitung kann einerseits im Dia- logmanager erfolgen oder in einem speziellen Modul. Das Ra- venClaw-Dialogmanagementsystem setzt zum Beispiel auf eine strikte Trennung zwischen domänenspeziﬁschen Aspekten und ein davon unabhängiges allgemeingültiges Dialogverhalten (Bohus und Rudnicky, 2009). Ein ähnlicher Ansatz verfolgt diese Arbeit, durch modellbasierte Speziﬁkation des Aufgabenmo- dells mit Verarbeitung in einem speziellen Modul, Taskmanager Taskmanager genannt (siehe Abschnitt 4.1.3).

Präsentationsplanung: Nachdem vom Dialogmanager eine Ausga- be an den Nutzer initiiert wird, muss die Präsentationsplanung die konkrete Information erstellen. Nach Jokinen und McTear (2010) beinhaltet dies zuerst eine inhaltliche Ausarbeitung, das inhaltliche heißt, welche Information dem Nutzer mitgeteilt wird, und an- Ausarbeitung schließend die Realisierung der Information. Hierbei können unter anderem Dialogkontext und Nutzerpräferenzen mit ein- bezogen werden.

Generierung: Im Falle einer sprachlichen Ausgabe durch das SDS muss die, von der Präsentationsplanung erstellte Information, 26 anwendungsübergreifende mensch-maschine kommunikation

in ein Sprachsignal umgewandelt werden. Zwei gängige An- aufgenommene sätze sind, zuvor aufgenommene Sprachsamples abzuspielen oder Sprachsamples oder einen freien Text mittels TTS umzuwandeln (Jokinen und Mc- TTS Tear, 2010). Speziell bei dynamischen Daten ist eine vorherige Aufnahme an Sprachsamples nicht möglich und erfordert eine generische TTS, welche auf Basis einer linguistischen Analyse des Textes und einer prosodischen Beschreibung ein Sprachsi- gnal erzeugt (McTear, 2002).

2.3.1.2 Dialogstrategien Wie in Abschnitt 2.1.2 betrachtet, kann jeder menschliche Gesprächs- partner die Initiative eines Gesprächs ergreifen. Zusätzlich ist es üb- lich, dass die Gesprächsführung während eines Gesprächs wechselt. Das sollte in der HMI auch möglich sein und muss daher vom Dia- Dialoginitiative logmanager unterstützt werden. Die Dialoginitiative eines Sprachdia- logsystems kann somit klassiﬁziert werden in: vom Nutzer geführter, vom System geführter oder gemischt-geführter Dialog (McTear, 2002; Karat u. a., 2012). Jede dieser Dialogvarianten hat verschiedene Aus- prägungen und unterschiedliche Einsatzfelder, welche im Folgenden erörtert wird.

System-geführter Dialog: Diese Art der Dialoginitiative stellt das System in den Vordergrund und weist Nutzern ein passive Rol- le zu (Karat u. a., 2012). Das System bestimmt den Dialogab- direkte Fragen lauf durch Stellung von direkten Fragen (engl. directed prompts), worauf Nutzer antworten müssen, um den Dialog fortzusetzen. Durch gezielte Formulierung der Frage wird die Antwortvari- anz eingeschränkt, was früher auch den technischen Möglich- keiten von Sprachdialogsystemen geschuldet war (Kamm, 1995). Das Folgende Beispiel zeigt einen vom Navigationssystem ge- führten Dialog:

System: „Wie lautet der Zielort?“ Nutzer: „Ulm“ System: „Ok Ulm, wie lautet die Straße?“ Nutzer: „James-Frank-Ring“ System: „Navigation nach Ulm, James-Frank-Ring starten? Sagen Sie nein für Korrekturen.“ Nutzer: „Ja“ Durch die Restriktion der Spracherkennergrammatik auf die vorgegebenen Antwortmöglichkeiten ist es Nutzern nicht mög- lich, mehr Informationen als erfragt zur Verfügung zu stellen. Ebenso lassen sich keine neuen Themen einführen, was zu ei- unﬂexibler Dialog nem unﬂexiblen Dialog führt (McTear, 2002; Jokinen und McTear, 2010). Jedoch zeigt ein vom System geführter Dialog speziell 2.3 grundlagen und stand der technik 27

bei Novizen, welche keine Erfahrung vorweisen, Vorteile (Karat u. a., 2012).

Nutzer-geführter Dialog: Im Gegensatz zum vom System geführten Dialog bestimmt im nutzer-geführten Dialog alleinig der Nut- zer die nächsten Dialogschritte. An das System werden somit offene Fragen gestellt und es übernimmt hierbei die Rolle des System als Antwortgebers. Das folgende Beispiel zeigt einen nutzergeführ- Antwortgeber ten Dialog einer Navigationsanwendung:

Nutzer: „Navigation nach Ulm zum James-Frank- Ring.“ System: „Ok, Navigation zum James-Frank-Ring in Ulm wird gestartet.“ Nutzer: „Aber bitte nicht über die Autobahn.“ System: „Routenoptionen geändert, keine Autobahn.“ Diese Dialogvariante erfordert ein vom Nutzer eindeutiges mentales Modell des Systems, das heißt, was es versteht und was nicht. Somit ist diese Art der Dialogführung eher für Experten zu nutzen als für Systemneulinge (Karat u. a., 2012).

Gemischt-geführter Dialog: Nach Karat u. a. (2012) ist ein gemischt- geführter Dialog die einfachste und natürlichste Art und Weise für Nutzer ein SDS zu bedienen. Die Vorteile beider zuvor genannter Dialoginitiativen werden kombiniert. Wie im zwischenmenschlichen Dialog kann, abhängig vom aktuellen Dialogkon- text, entweder das System oder der Nutzer die Dialoginitiative er- Dialoginitiative greifen. Somit wird der Nutzer nicht in seinen Äußerungen ein- durch System oder geschränkt, kann Informationen in beliebiger Reihenfolge zur Nutzer Verfügung stellen und dem System wird ermöglicht, bei unprä- zisen Äußerungen, effektiv nachzufragen. In folgendem Dialog liegt zuerst die Initiative beim Nutzer, wechselt allerdings auf Grund unvollständiger Informationen zum System:

Nutzer: „Navigation nach Ulm.“ System: „Zu welcher Straße in Ulm möchten Sie?“ Nutzer: „Zum James-Frank-Ring bitte.“ System: „Soll die Navigation zum James-Frank-Ring gestartet werden?“ Nutzer: „Ja, aber bitte ohne Autobahn.“ System: „Routenoptionen geändert, keine Autobahn.“ Wie in der Bestätigung des Nutzers zu sehen, ermöglichen gemischt-geführte Dialoge in der Regel mehr Informationen als erfragt zur Verfügung zu stellen. Dies wird als Überbeantworten Überbeantworten (engl. over-answering) bezeichnet (Jokinen und McTear, 2010). Ein gemischt-geführter Dialog ist somit ein guter Kompromiss für Experten und Neulinge. 28 anwendungsübergreifende mensch-maschine kommunikation

Adaptiver Dialog: Wie bereits erwähnt, ist die einzusetzende Dia- logstrategie unter anderem vom Erfahrungswert des Nutzers adaptive abhängig. In der aktuellen Forschung sind dadurch adaptive Dia- Dialogstrategie logstrategien, welche sich an Nutzer und deren Situation anpassen, im Fokus. Bertrand (2014) zum Beispiel entwickelte einen adaptiven Dialogmanager, der den Dialogﬂuss abhängig von kontextuellen Informationen, wie Emotionen des Nutzers, an- passt. Weiterhin stellte sich eine Anpassung und Systemerklä- rung hinsichtlich der Kenntnisse jeweiliger Nutzer, ihrer Elo- quenz und ihrer aktuellen Situation als vorteilhaft heraus (Noth- durft, 2016).

Vom technischen Aspekt her stellen nutzer-geführte, gemischt-geführ- te und adaptive Dialoge hohe Anforderungen an die ASR, das SLU und den Dialogmanager, da die möglichen Nutzereingaben nur begrenzt eingeschränkt werden können.

2.3.1.3 Verschiedene Arten an Sprachdialogsystemen Seit Anfang der 90er Jahre wurden eine Vielzahl an Sprachdialogsys- temen für unterschiedlichste Einsatzzwecke mit verschiedenen Dia- logstrategien entwickelt (Jokinen und McTear, 2010). Hierbei verfolgten Wissenschaft und Industrie zu Beginn nicht dieselben Ansätze (Pieraccini und Huerta, 2005). Während in wissenschaftlicher For- schung Natürlichkeit und uneingeschränkte Kommunikation im Vor- dergrund standen, beschränkten sich industrielle Implementierungen auf pragmatische Werte, wie Gebrauchstauglichkeit und Aufgaben- erfolg. Durch die anfangs limitierte Leistung von Sprachdialogsyste- Korrelation men und die starke Korrelation von Nutzerzufriedenheit zu SDS-Präzision Zufriedenheit und sind für viele Anwendungen Natürlichkeit sowie uneingeschränkte Präzision Kommunikation hinderlich (Oviatt, 1995; Williams und Witt, 2004; Pieraccini, Suendermann u. a., 2009). Somit ist der technische Fort- schritt über die Jahre entscheidend für die Entwicklung von Sprach- dialogsystemen. Im Folgenden wird, von den ersten telefonbasier- ten Sprachdialogsystemen, über Sprachdialogsysteme zur Bedienung von Geräten, bis hin zu Companion-Systemen, die technische Ent- wicklung aufgezeigt. telefonbasiertes SDS Die ersten Sprachdialogsysteme waren telefonbasiert (engl. IVR, In- teractive Voice Response), zur Ablösung von menschlichen Operato- ren. In einem strikt system-geführten Dialog konnten Anrufer zwischen einzelnen Menüeinträgen auswählen, um einerseits Informatio- nen zu erlangen oder andererseits Transaktionen auszuführen (Wy- ard u. a., 1996). In für den Nutzer vertrauten Domänen, wie zum Beispiel Pizzabestellungen, Telefonbanking oder Flugauskünfte sind system-geführte, einfache Dialoge ausreichend (Pieraccini und Huer- ta, 2005). Bei umfangreichen Anwendungen kann eine Auswahlliste an Menüeinträgen allerdings lang werden. Aus diesem Grund stel- 2.3 grundlagen und stand der technik 29

len viele Sprachdialogsysteme eine offene Frage an den Nutzer, wie zum Beispiel „Wie kann ich Ihnen helfen?“, welche natürliche Nut- zereingaben ermöglicht. Auf Basis deren erfolgt eine Klassifikation und ein anschließend system-geführter Dialog (Jokinen und McTear, 2010). Diese Dialogvariante implementiert zum einen das automatische Zugauskunftssystem von Philips (Aust u. a., 1994) und zum anderen „How may I help you?“ von AT&T (Gorin u. a., 1997) zur Ver- mittlung von Anrufern. Komplexere Aufgaben, wie zum Beispiel eine Flugbuchung oder Problemlösung, erfordern hingegen eine Koopera- Kooperation tion, bei welcher der Nutzer bestimmte Nachfragen stellt. Seneff und Polifroni (2000) implementierten im „MIT Mercury System“ ein gemischt-geführtes Flugbuchungssystem, in welchem Nutzer zwar vom System geführt werden, allerdings Fragen wie „Um welche Uhrzeit ist der Abflug?“ stellen können. Während früher lokale Systeme, wie Desktopcomputer oder Mo- biltelefone, nicht über genügend Leistung für ein SDS verfügten und somit auf eine Telefonanbindung angewiesen waren, sind heute diese portablen Systeme in der Lage ein SDS zu integrieren. Dies ermög- portable Systeme licht, neben Informationsabfragen, Transaktionen und Problemlösun- gen, zusätzlich eine Bedienung des elektronischen Gerätes per Spra- che. In nahezu allen Lebensbereichen finden sich inzwischen sprachbedienbare Produkte oder Forschungsprototypen, wie beispielsweise „Hermine“, die sprechende Waschmaschine (Hummel, 2003). Ne- ben reinen Kommandoworten zur Systembedienung ermöglicht die Waschmaschine eine Beratung zur Fleckenentfernung und Wäsche- sortierung. Ein weiteres Beispiel ist ein intelligenter Küchenherd mit Rezeptführung (Reichel, Müller u. a., 2011), welcher eine freihändige Bedienung durch Sprache ermöglicht. Zumeist besitzen diese elektronischen Geräte allerdings schon eineUI, welche mit dem SDS in Ein- klang gebracht werden muss. Die Kombination von verschiedenen Mo- Kombination von dalitäten betrachten bereits eine Vielzahl von Forschergruppen und Modalitäten Forschungsprojekten (z.B. SmartKom (Wahlster, 2006), SFB Transre- gio 628 oder GetHomeSafe (GHS)9). Klassisch ist beispielsweise der Anwendungsfall einer Routenplanung mit einem SDS, Touch-Einga- be und grafischer Ausgabe (Hurtig und Jokinen, 2006). In dieser Ar- beit hingegen wird Multimodalität nur zur Unterstützung der auditiven Modalität, durch eine visuelle Repräsentation in Fehlerbehand- lungsstrategien eingesetzt, für einen Überblick multimodaler Benut- zerschnittstellen sei daher auf Turk (2014) verwiesen. Ein wichtiger Aspekt portabler elektronischer Geräte ist ihr mobiler Einsatz und damit spezielle Anforderungen an das mobile SDS, mobile SDS zum Beispiel eine Adaption an die aktuelle Situation. Als eines der ersten Projekte revolutionierte SmartKom (Wahlster, 2006) die Bedie- nung von mobilen und stationären Geräten durch einen multimoda-

8 http://www.sfb-trr-62.de/ [Online 20.06.2015] 9 http://www.gethomesafe-fp7.eu/ [Online 20.06.2015] 30 anwendungsübergreifende mensch-maschine kommunikation

len Avatar (engl. conversational embodied agent) als ganzheitliche UI zu verschiedenen Anwendungen. Je nach Situation des Nutzers (PDA, Heimcomputer, öffentliches Display) wählt der Avatar unterschiedliche Interaktionsformen. Dies zeigt die Wichtigkeit, auf die Situation des Nutzers zu reagieren (Reithinger u. a., 2003). In der vorliegenden Arbeit wird ein einheitliches Interaktionsschemata im Fahrzeugumfeld betrachtet, weshalb Abschnitt 2.3.5 explizit auf si- tuationsadaptive Arbeiten im Fahrzeug eingeht. Sprachdialogsysteme können in aufgabenorientierte und nicht-aufgabenorientierte Systeme untergliedert werden (Jokinen und McTear, aufgabenorientiert 2010). Der aktuelle Abschnitt stellte bisher hauptsächlich aufgabenorientierte Sprachdialogsysteme vor, welche es Nutzern ermöglichen, bestimmte Aufgaben auszuführen. Hingegen erlauben nicht-aufgabenorientierte Sprachdialogsysteme eine Kommunikation zum Vergnü- gen zu führen. Dies können einerseits Chat-Roboter sein (z.B. Wei- zenbaum (1966), Rodrigo und Abraham (2012) und Nishimura u. a. (2013)) oder andererseits komplexe Systeme, welche eine langzeitige Bindung zwischen Mensch und Gerät aufbauen. Speziell im Bereich der Robotik ist dies ein Forschungsschwerpunkt, um die Interaktion sowie die persönliche Bindung zwischen Roboter und Mensch zu för- dern (z.B. Matuszek u. a. (2013) und Pandey u. a. (2014)). Ebenso be- schäftigen sich viele Forschungsgruppen mit künstlichen Begleitern (engl. artificial companion), um zum Beispiel die Gefahr der Vereinsa- mung von älteren Personen zu reduzieren (z.B. Danilava u. a. (2012), Pulman u. a. (2010) und Wilks u. a. (2011)). Diese Arbeit betrachtet in erster Linie aufgabenorientierte Sprachdialogsysteme, in Form ei- persönlicher nes persönlichen Assistenten oder Companions, um einheitlich, intuitiv Assistent oder und effizient Aufgaben verschiedener Anwendungen auszuführen. Companion Nach Wendemuth und Biundo (2012) stehen in einem Companion- System Nutzer im Fokus, und das System unterstützt sie abhängig ihrer aktuellen Situation und ihren Bedürfnissen. Im SDS heißt dies, eine Systembedienung ohne Lernen bestimmter Kommandos zu er- möglichen, eine natürliche Bedienung auf Basis des mentalen Mo- dells zu erlauben und eine Anpassung im Dialog an Nutzer sowie sprachbedienbare In- Situation durchzuführen. Speziell für sprachbedienbare Internetanwen- ternetanwendungen dungen erfordert dies, neue Dialogstrategien zu entwickeln: „Especi- ally the voice-control of the Web and its countless fields of application require the development of new speech dialog concepts (Schmitt, 2012).“10(Hofmann, 2014, S. 14). Hofmann (2014) entwickelte infolge- dessen, zum Zugriff auf Internetdienste aus einem automobilen In- fotainment-System heraus, intuitive Benutzerschnittstellen unter Be- rücksichtigung von Ablenkungsaspekten. Die Evaluation zeigt den Erfolg dieser Dialogstrategien, wobei bisher lediglich die Interakti-

10 Übersetzung des Autors: Speziell die Sprachbedienung des Internets und seinen unzähligen Anwendungsfeldern erfordert die Entwicklung neuer Sprachdialogkon- zepte (Schmitt, 2012). 2.3 grundlagen und stand der technik 31

on mit einer Anwendung betrachtet wurde. Die vorliegende Arbeit knüpft an die Erkenntnisse an und betrachtet anwendungsübergrei- fende Sprachdialogsysteme im Fahrzeug.

2.3.2 Anwendungsübergreifende Sprachdialogsysteme

In der aufgabenorientierten Interaktion zwischen Mensch und Ma- schine hat der Mensch das Ziel, bestimmte Aufgaben mit dem System auszuführen. Zu Beginn waren elektronische Geräte und Sprachdia- logsysteme für einen bestimmten Aufgabenbereich entwickelt, wie zum Beispiel ein Mobiltelefon zum Telefonieren oder ein SDS zur Buchung eines Fluges. Jedoch entwickeln sich elektronische Geräte immer mehr zu Alleskönnern mit verschiedensten Aufgabenberei- chen. Der Übersichtlichkeit halber gliedert sich die Software elektronischer Geräte zumeist in Anwendungen, oder auch Dienste ge- Anwendung nannt, mit jeweils bestimmten Aufgabenbereichen. Im Themenfeld der Sprachtechnologie wird ein Aufgabenbereich eines Sprachdialog- systems auch als Domäne bezeichnet (McTear, 2002). Beinhaltet ein Domäne elektronisches Gerät nun mehrere Anwendungen oder ein SDS mehrere Domänen, legen Nutzer Wert auf eine konsistente Interaktion mit diesen (Shneiderman, 2014; Kaasinen, 2005). Dies schließt zum einen die Interaktion innerhalb von Anwendungen und zum anderen den Wechsel zwischen Anwendungen ein. Während die konsistente Interaktion für eine Anwendung durch einen abgestimmten Entwick- lungsprozess bereits üblich ist, wird der Anwendungswechsel eher weniger betrachtet. Speziell bei einer VUI bieten sich hier allerdings diverse Möglichkeiten. Wie in Abschnitt 2.1.3 behandelt, ist ein zwi- schenmenschliches Gespräch von einem Thema geprägt. Betrachtet man nun im Dialog zwischen Mensch und Maschine die Anwen- dung beziehungsweise Domäne als Thema, können Methodiken des zwischenmenschlichen Themenwechsels auf den Anwendungswech- sel im SDS übertragen werden. Diverse Sprachdialogsysteme ermöglichen den Zugriff auf mehrere Anwendungen in unterschiedlichen Szenarien. Das vorherrschen- de abstrakte Interaktionsschema ist, eine Anwendung zu starten und anschließend mit dieser zu interagieren. Diese explizite Auswahl der Anwendung wird in vielen bestehenden Arbeiten (z.B. Dausend und Ehrlich (2008)) und fertigen Produkten (z.B. Mercedes-Benz Lingua- tronic11 oder Samsung Evolution Kit für SmartTVs12) implementiert. In der Regel unterbricht ein Startbefehl einer Anwendung den aktuellen Dialog und startet die erwähnte Anwendung. Alternativ kann der aktuelle Dialog durch den Nutzer abgebrochen und die neue An- wendung im Anschluss gestartet werden. Beides ignoriert allerdings

11 http://techcenter.mercedes-benz.com/de/linguatronic/detail.html [Online 17.06.2015] 12 E-Manual Samsung SEK2500U One Connect Evolution Kit, 2015 32 anwendungsübergreifende mensch-maschine kommunikation

den bestehenden Dialog und wird in dieser Arbeit somit nicht als an- wendungsübergreifender Dialog verstanden. Ein anwendungswech- selnder Dialog ohne Beachtung des konkreten Dialogkontextes, wird abrupter Anwen- im Folgenden als abrupter Anwendungswechsel bezeichnet. Weng, Yan dungswechsel u. a. (2007) entwickelten in CHAT, einem dialogorientierten SDS für Aufgaben im Fahrzeug, explizite und implizite Dialogstrategien zum abrupten Wechsel zwischen MP3-Player, Navigations- und Restauran- expliziter Anwen- tanwendung. Explizite Anwendungswechsel sind hierbei davon geprägt, dungswechsel dass Nutzer durch bestimmte Phrasen den Sprung zu einer neuen An- wendung initiieren, wie zum Beispiel in folgendem Dialogausschnitt zur Navigationsanwendung (übersetzt aus Weng, Yan u. a. (2007)):

System: „Das Little Garden Restaurant ist ein gehobenes chinesisches Restaurant. [..] Es liegt an der Straße El Camino Real in Palo Alto.“ Nutzer: „Wechsel zu Navigation“ System: „Ok, zum Navigationssystem gewechselt.“ Nutzer: „Fahre mich zum Little Garden Restaurant [..]“ System: „Ok, ich plane eine Route zum Restaurant [..] Eine explizite Strategie wird von Villing u. a. (2008) als rudimentä- re und wenig natürliche Art des Anwendungswechsels angesehen. impliziter Anwen- Praktischer stellt sich ein impliziter Anwendungswechsel dar, welcher dungswechsel auf Basis des Inhalts der Äußerung die Anwendungszugehörigkeit bestimmt und somit einen Wechsel initiiert (übersetzt aus Weng, Yan u. a. (2007)):

System: „Das Little Garden Restaurant ist ein gehobenes chinesisches Restaurant. [..] Es liegt an der Straße El Camino Real in Palo Alto.“ Nutzer: „Finde mir eine schnelle Route zum Restaurant Little Garden.“ System: „Ok, ich plane eine Route zum Restaurant.“ Im Gegensatz zur expliziten Strategie ermöglichen implizite Anwen- dungswechsel einen kürzeren Dialog, da direkt der erste Dialogschritt der Ziel-Anwendung ausgeführt werden kann. Jedoch stellt ein impliziter Wechsel höhere Anforderungen an ein SDS, weshalb CHAT standardmäßig nur explizite Anwendungswechsel aktiviert. Für eine implizite Anwendungsselektion bzw. -wechsel muss die Äußerung klassiﬁziert und einer Domäne zugewiesen werden. Zum Beispiel kann im kommandowortbasierten SDS SENECA (Minker u. a., 2004) der Nutzer mit der Äußerung „Enter address“ die Navigati- globale Kommandos onsanwendung starten. Somit wird ein solches globales Kommando, das immer gesprochen und verstanden werden kann, implizit einer Anwendung zugeordnet. Verschiedene Klassiﬁkatoren ermöglichen auch die Zuordnung von komplexeren Äußerungen. Zur Wahrung der Erweiterbarkeit von Systemen hat sich bewährt, unabhängige Mo- 2.3 grundlagen und stand der technik 33

dule (oftmals Agenten genannt) pro Domäne zu erstellen, jedes dieser Module die Äußerung klassifizieren zu lassen und in einer zentralen Komponenten das zutreffendste Modul auszuwählen (Komatani, Kanda u. a., 2006; I. Lee u. a., 2014; Wang, Chen u. a., 2014; Robichaud u. a., 2014). Zusätzlich sind verschiedene Architekturen entstanden, die auf unterschiedlichste Weise Multi-Domänen-Sprachdialogsyste- me behandeln (z.B. Pellom u. a. (2000), Pakucs (2003), Larsson und Ericsson (2002) und Planells u. a. (2013)). Ein Framework für Dialoge mit mehreren Geräten stellen Cavedon u. a. (2005) vor, welches anhand verschiedener Features, wie zum Beispiel Filmtitel oder Sänger, zwischen Geräten, wie DVD-Player und MP3-Player, unterscheidet. Allen vorgestellten Arbeiten ist gemein, keine oder nur eine rudi- mentäre Betrachtung des Dialogkontextes beim Anwendungswech- sel zu implementieren. Durch die Klassifikation der Nutzeräußerung wird diese zwar einer Anwendung zugeordnet, jedoch zumeist ohne Beziehung zur vorherigen Äußerung behandelt. Lediglich Koma- tani, Kanda u. a. (2006) und Cavedon u. a. (2005) ziehen kontextuel- le Inhalte im Domänenklassifikator in Betracht, und Robichaud u. a. (2014) nehmen die aktive Anwendung im Klassifikator auf. Einen in- teressanten Ansatz verfolgen Planells u. a. (2013), welche drei unab- hängige Sprachdialogsysteme mit unterschiedlichen Anwendungen mit einem zentralen Taskmanager verbinden. Jedes SDS analysiert die Nutzeräußerung und der Taskmanager entscheidet auf Basis der Kon- fidenz, welche Anwendung auszuführen ist. Wie viele andere, behandeln diese Ansätze hauptsächlich technische Aspekte, aber inwieweit diese mit realen Nutzern funktionieren bleibt fraglich. Zusätzlich betrachten bestehende Arbeiten bisher lediglich wenige, verschiedene Anwendungen, was nur eingeschränkt auf den realen Einsatz über- tragbar ist. Elektronische Geräte zum Beispiel besitzen eine hohe An- zahl an Anwendungen, welche zusätzlich eine ähnliche Funktionali- tät anbieten können. Somit können Nutzeräußerungen unter Umstän- den mehreren Anwendungen zugeordnet werden, was eine Klärung durch den Dialogmanager oder Annahmen über beispielsweise Prä- ferenzen des Nutzers erfordert (siehe Abschnitt 2.3.3). Während eine Unterteilung einerUI in Anwendungen im system- geführten Dialog in der Regel der Übersichtlichkeit der ersten Syste- minteraktion geschuldet ist (z.B. Größe der GUI oder Länge der Syste- mäußerung einer VUI), besteht diese Einschränkung im vom Nutzer geführten Dialog nicht. In einem nutzer-geführten Dialog kann ein Nutzer prinzipiell beliebig zwischen Domänen wechseln, unabhän- gig von den hinterlegten Anwendungen. Persönliche Assistenten, wie Persönliche zum Beispiel Smartakus (Reithinger u. a., 2003), Apple Siri13 oder Mi- Assistenten crosoft Cortana14, nutzen dies durch Bildung eines einheitlichen Dia-

13 https://www.apple.com/ios/siri [Online 08.06.2015] 14 http://www.microsoft.com/en-us/mobile/experiences/cortana/ [Online 28.11.2015] 34 anwendungsübergreifende mensch-maschine kommunikation

loginterfaces zu mehreren Hintergrundanwendungen. Wie in Reichel, Berton u. a. (2013) vorgestellt, wird ein persönlicher Assistent als ein- heitlicheUI definiert, welche die eigentlichen Anwendungen kapselt und für Nutzer nicht ersichtlich sein muss, mit welcher Anwendung sie interagieren. Visuelle Informationen, Hilfedialoge oder Brandings von Datenergebnissen, die Rückschlüsse auf Anwendungen erlauben, verletzten diese Definition nicht, solange bei einer Nutzereingabe keine Kenntnis der Anwendungen nötig ist. Laut dieser Definition sind somit auch erweiterte Suchmaschinen, wie beispielsweise die globale Suche in Microsoft Windows 8.115, einfache persönliche Assisten- ten. Per Texteingabe werden Suchbegriffe oder Fragen gestellt und anschließend zutreffende Dokumente, Anwendungen, Bilder und In- ternetergebnisse angezeigt. Eine Steuerung von Anwendungen ist, ohne diese zu öffnen, dabei nicht möglich. Einen ähnlichen Ansatz verfolgt „Google Voice Search“16, jedoch zusätzlich mit Spracheinga- be, einfacher Anwendungssteuerung und direkter Antwort auf eine Frage. Betrachtet Microsoft jede Anfrage für sich, kann bei „Google Voice Search“ eine Nutzeräußerung Bezug zum Dialogkontext nehmen (z.B. „Wie ist das Wetter dort?“). Wechselt diese referenzielle übergeleiteter An- Äußerung die Anwendung, wird dies im Folgenden als übergeleiteter wendungswechsel Anwendungswechsel bezeichnet. Beide Implementierungen beinhalten den Zugang zu Informationen, jedoch die Ausführung von Aufga- ben ist nur mit wenigen Anwendungen möglich. Anders ist hingegen der persönliche Assistent von Lau u. a. (2010), welcher wiederkehren- de Aufgaben mit Webanwendungen ausführt. Über ein textbasiertes Dialogsystem lassen sich Skripte verschiedener Webanwendungen erstellen und ausführen. Anwendungsübergreifende Aspekte werden allerdings nur in Skripten, nicht aber im Dialog beachtet. Anwen- dungsübergreifende Dialoge sind dagegen zentraler Fokus der Arbei- ten von Banchs u. a. (2013), welche eine Dialogmanagement- und Ent- wicklungsplattform (AIDA) für verschiedene Anwendungen (Flugbu- chung, Restaurantführer, Informationsauskunft, Frage-Antwort, Chat) und unterschiedliche Dialogarten (Kommandoworte, Fragen, aufgabenorientierte und nicht-aufgabenorientierte Äußerungen) entwickelten. Deren persönlicher Assistent ermöglicht es, in einem nutzer-ge- führten Dialog per Text oder Sprache zu interagieren. Ein anwen- dungsübergreifender Sprachdialog über Flugbuchung, Restaurantfüh- rer und Chat könnte folgendermaßen vonstatten gehen (übersetzt aus Banchs u. a. (2013)):

15 http://windows.microsoft.com/en-us/windows-8/search-apps-files-settings [Online 18.06.2015] 16 https://www.google.com/search/about/ [Online 18.06.2015] 2.3 grundlagen und stand der technik 35

System: „Dies ist dein Flugplan“ (Flüge werden angezeigt) Nutzer: „Gibt es ein Café in der Nähe?“ System: „In diesem Gebäude gibt es drei Cafés: Jass Café, Starbucks und Ya Kun.“ Nutzer: „Trinkst du Kaffee?“ System: „Nein.“ Wie anhand der Nutzeräußerungen erkennbar, lässt sich die Anwen- dung implizit wechseln, und ein natürlicher Dialog ist zwischen Nut- zer und AIDA möglich. Inwieweit allerdings übergeleitete Anwen- dungswechsel verfügbar sind, ist fraglich, ebenso wie der Assistent auf mehrdeutige implizite Anwendungswechsel reagiert. Von Seiten der Dialogführung bildet AIDA eine Basis zur vorliegenden Arbeit. Seit Einführung von Apple Siri erleben persönliche Assistenten auf Smartphones einen regelrechten Hype. Die wohl berühmtesten sind - neben Siri - Microsoft Cortana17 oder Samsung S Voice18. Alle Siri, Cortana & kapseln Funktionalitäten verschiedener Anwendungen wie Kalender, S Voice Telefon, Nachrichten, Social Media, Internetsuche und viele mehr. Die Interaktionsschemata der Assistenten variieren zwar leicht, doch weisen sie im Grunde ähnliche Stärken und Schwächen auf, welche im Folgenden am Beispiel von Microsoft Cortana präsentiert werden Cortana als Beispiel (Stand 25.07.2015). Zur Aktivierung von Cortana betätigt der Nutzer einen Button, um anschließend, nach einem Signalton, seinen Wunsch sprachlich zu äußern. Je nach Anwendung erfolgt eine visuelle oder eine sprachliche und visuelle Antwort. Sind für eine Aufgabe nicht alle notwendigen Werte in der Äußerung enthalten, erfragt Cortana diese. Es handelt sich somit um einen gemischt-geführten Dialog (siehe Abbildung 2.4a). Bezüglich der Nutzereingabe versteht Cortana eine breite Varianz an natürlichsprachlichen Äußerungen und interpretiert selbst indirekte Anfragen, wie zum Beispiel „Ich habe Hun- ger“. Eine deutliche Schwäche von Cortana zeigt sich in mehrdeutigen mehrdeutige Nutzeräußerungen. Speziell bei Sprachdialogsystemen mit umfangrei- Äußerungen cher Funktionalität kann es vorkommen, dass eine Nutzeräußerung für mehrere Anwendungen zutrifft, oder Parameter nicht eindeutig sind. Während Cortana eine Mehrdeutigkeit der Parameter (siehe Abbildung 2.4b) korrekt erkennt und den Nutzer zum Disambiguie- ren auffordert, funktioniert dies bei Anwendungen nicht. Unabhän- gig vom Kontext wird die wahrscheinlichste Anwendung ausgeführt. Zum Beispiel geht Cortana bei der Äußerung „Nachrichten“ davon aus, der Nutzer wolle aktuelle Schlagzeilen. Möchte er jedoch seine SMS lesen, kann die Antwort durchaus für Erstaunen oder Frus- tration sorgen. Weitere Dialogfehler treten bei Fehlinterpretation oder Außerhalb der Domäne (OOD, engl. Out-Of-Domain)-Anfragen auf. Hier Fehlinterpretation und OOD-Anfragen

17 http://www.microsoft.com/en-us/mobile/experiences/cortana/ [Online 28.11.2015] 18 http://www.samsung.com/global/galaxys3/svoice.html [Online 18.06.2015] 36 anwendungsübergreifende mensch-maschine kommunikation

bietet Cortana entweder auf Basis einer Teilinterpretation eine falsche Anwendung oder eine Websuche an (siehe Abbildung 2.4c).

(a) Gemischt-geführter (b) Disambiguierung von (c) Websuche bei Fehlin- Dialog Telefonnummern terpretation oder OOD

Abbildung 2.4: Interaktionsschema des persönlichen Assistenten Microsoft Cortana anhand von Beispieldialogen (Nutzeräußerung rot umrandet).

Wie gezeigt, existieren diverse Ansätze, mehrere Anwendungen in ein SDS zu integrieren und Nutzern anwendungsübergreifende Dia- loge zu ermöglichen. Neben expliziten Anwendungswechseln bestehen Verfahren, durch Äußerungen abrupt oder übergeleitet die An- wendung zu wechseln. Jedoch steigt durch die hohe Anzahl an An- wendungen und Funktionen, und daraus resultierenden komplexen Sprachmodellen, die Gefahr von Fehlerkennungen (Carstensen u. a., 2010). Vom Dialogmanager muss somit speziell auf Fehler eingegangen werden, um dem Nutzer angemessen zu antworten (Wong u. a., 2007). Neben Fehlerkennungen steigt bei persönlichen Assistenten, durch Kapselung und Maskierung der Anwendungen, zusätzlich die Gefahr der Diskrepanz zwischen mentalem Modell des Nutzers und tatsächlich verfügbarer Systemfunktionalität. Dies kann zu unterspe- ziﬁzierten Nutzeräußerungen führen, welche nicht eindeutig einer Anwendung zugeordnet werden können. Um Dialogfehler zu verhindern, muss ein Dialogmanager somit auf mehrdeutige Äußerungen speziell eingehen. Der nächste Abschnitt betrachtet bestehende Dialogstrategien zur Auﬂösung von Mehrdeutigkeiten und Reaktion auf Fehlerkennun- gen. 2.3 grundlagen und stand der technik 37

2.3.3 Fehlerbehandlungsstrategien

Bei der Interaktion zwischen Mensch und Maschine können einerseits, wie im Interaktionszyklus nach Norman definiert, Fehler des Nutzers in der Ausführung und Beurteilung auftreten, aber andererseits auch Systemfehler das Erreichen des Nutzerziels verhindern. Vor allem in mobilen Systemen ist die Zuverlässigkeit jedoch äu- ßerst wichtig, um Vertrauen zum System zu schaffen (Kaasinen, 2005). Sprachdialogsysteme hingegen sind immer noch anfällig für Fehler, speziell bei umfangreichen Grammatiken, umfassenden Sprachmo- dellen, schlechter Audioqualität und Variabilität der menschlichen Spracheigenschaften (Bourguet, 2011). Technische Ursachen, wie zum Beispiel Fehlerkennungen der ASR, sind bereits ausführlich in der Forschung behandelt (Jokinen und McTear, 2010; Skantze, 2007; Bo- hus, 2007), weshalb diese Arbeit verstärkt auf Fehler der Diskrepanz zwischen mentalem Modell des Nutzers und tatsächlicher Anwen- dungsfunktionalität eingeht. Eine Möglichkeit, Nutzer zuverlässig zu ihrem Interaktionsziel zu führen, ist ein sorgfältiges Design des Sprach- dialogsystems und somit Fehler zu vermeiden (M. Cohen u. a., 2004). Vermeidung von Indem Nutzer auf ein möglichst geringes Antwortvokabular einge- Fehlern schränkt werden, kann eine selektive Aktivierung von Grammatiken und vereinfachten Sprachmodellen Fehler minimieren. Bei anwen- dungsübergreifenden Dialogen ist dies jedoch kritisch, da ein Nut- zer prinzipiell jederzeit die Anwendung wechseln kann, was bei einer auf die aktuelle Anwendung eingeschränkte Grammatik unwei- gerlich zum Fehler führt. Nach Robichaud u. a. (2014) ist die Feh- lerbehandlung eines Sprachdialogsystems mit mehreren Anwendun- gen besonders wichtig, da eine als Resultat einer falsch klassifizier- ten Nutzeräußerung unkorrekt ausgeführte Aktion oder sinnwidrige Antwort von Nutzern negativ wahrgenommen wird, und eine Kor- rektur oftmals schwierig ist. Im Folgenden werden daher Strategien von Sprachdialogsystemen zur Behebung verschiedener Fehlerarten aufgezeigt. Verschiedene Arten von Nutzeräußerungen können zu Fehlern im SDS führen. Diese Äußerungen lassen sich klassifizieren in Außer- Außerhalb des halb des Vokabulars (OOV, engl. Out-Of-Vocabular) und Außerhalb der Vokabulars Domäne (OOD, engl. Out-Of-Domain). OOV-Ausdrücke sind hierbei Außerhalb der Domäne Unbekannte, oftmals Namen oder Orte, welche nicht im Vokabular der ASR sind und somit nicht erkannt werden (Qin, 2013). OOD-An- fragen sind hingegen Nutzeräußerungen, die eine Funktionalität des Sprachdialogsystems verlangen, die es in Wirklichkeit nicht erfüllen kann (Lane u. a., 2007). Bohus und Rudnicky (2005) unterscheiden bei OOD-Anfragen noch zusätzlich den Fall einer Äußerung, die im aktuellen Anwendungskontext nicht erfüllt werden kann (Außerhalb der Außerhalb der An- Anwendungsdomäne (OOA, engl. Out-Of-Application-scope)), im Kontext wendungsdomäne einer anderen Anwendung hingegen schon (Bohus und Rudnicky, 38 anwendungsübergreifende mensch-maschine kommunikation

2005). Solche Äußerungen können zu Kommunikationsfehlern füh- ren, welche in einerseits Missverständnis (engl. misunderstanding) und andererseits Nicht-Verständnis (engl. non-understanding) klassi- Missverständnis fiziert werden (Skantze, 2007). Ein Missverständnis tritt auf, wenn die Interpretation einer Äußerung beim Empfänger nicht der Intention des Senders entspricht. Hierbei besteht die Gefahr, dass ein Miss- verständnis Gesprächspartner nicht bemerken und den Dialog un- Nicht-Verständnis beirrt fortsetzen. Hingegen fallen Nicht-Verständnisse den Gesprächs- partnern sofort auf, da der Empfänger nicht in der Lage ist, eine Inter- pretation des Gesagten zu vollziehen oder sich unsicher der Bedeu- tung ist. Im Allgemeinen sind Missverständnisse schwerwiegender, da der Dialog fortgesetzt wird, und der Sender aktiv intervenieren muss (Bohus und Rudnicky, 2001). Um Missverständnisse und Nicht-Verständnisse zu minimieren, ko- operieren menschliche Gesprächspartner durch verschiedene Strate- Grounding gien. Diese Kooperation wird als Prozess des Groundings bezeichnet und hat als Ziel, ein gemeinsames Verständnis zu erreichen (Clark, 1996). Paek und Horvitz (2000) definieren ein Modell mit vier Ebenen, auf welchen verschiedene Strategien des Groundings Anwendung finden: Konversation, Absicht, Signal und Nachrichtenkanal. Vorliegen- de Arbeit hingegen betrachtet lediglich die Ebenen Konversation und Absicht, da in den anderen keine Unterschiede zu einem SDS mit nur einer Anwendung bestehen. In Absicht und Konversationsziel steigen allerdings im SDS mit mehreren Anwendungen die Gefahren von einerseits der Diskrepanz zwischen mentalem Modell und tatsächlicher Verfügbarkeit der Anwendungen, sowie andererseits der Mehrdeutig- keit von Äußerungen für ähnliche Anwendungen. Zur Erreichung eines gemeinsamen Verständnisses muss der Dialogmanager spezielle Dialogstrategien zur Klärung zur Verfügung stellen. Bevor jedoch auf Sprachdialogstrategien eingegangen wird, ist ein generelles Verständnis von Fehlerbehandlungsprozessen eines Sprach- dialogsystems notwendig. Jokinen und McTear (2010) gliedern diesen Fehlererkennung in Fehlererkennung, Fehlerprognose und Fehlerbehebung. Ohne Er- kennung eines Fehlers kann ein Dialogmanager nicht darauf reagieren, somit stellt dieser Prozess die Grundlagen einer effektiven Fehlerbe- handlung dar. Verschiedenste Methodiken sind hierzu bereits verfüg- bar, wie beispielsweise regelbasierte (Komatani und Kawahara, 2000; Hazen u. a., 2000) oder statistische (Krahmer u. a., 2001) Verfahren. Je nach Systemarchitektur können diese Methodiken auch im anwen- dungsübergreifenden SDS angewandt oder in Kombination mit klassischen Verfahren des maschinellen Lernens (Daume III und Marcu, 2006; Lane u. a., 2007) genutzt werden, um OOD- beziehungsweise OOA-Äußerungen zu identifizieren. Eine genauere Betrachtung ist Jokinen und McTear (2010) sowie Bulyko u. a. (2005) zu entnehmen. Fehlerprognose Zusätzlich können lernende Verfahren zur Fehlerprognose eingesetzt werden (Litman u. a., 1999), um Dialogschritte mit potentiell hoher 2.3 grundlagen und stand der technik 39

Fehlerrate zu identifizieren und den Dialog dahingehend anzupassen. Ist ein Fehler erkannt, muss vom Dialogmanager eine Fehlerbe- Fehlerbehandlung handlung initiiert werden, um Nutzer zu ihrem Interaktionsziel zu führen. Hierfür existieren diverse Strategien, welche im Folgenden gezeigt und für den Einsatz im anwendungsübergreifenden SDS bewertet werden. Die einfachste Dialogreaktion zur Behebung eines Kommunikati- onsfehlers ist die Äußerung abzulehnen und den Nutzer zur Wie- Wiederholung oder derholung oder Umformulierung der Äußerung aufzufordern (McTear, Umformulierung 2002). Bulyko u. a. (2005) identifizierten eine Entschuldigung, sowie anschließende Aufforderung zur Neuformulierung als die am wenigs- ten frustrierende Möglichkeit. McTear (2002) zufolge ist dies allerdings keine adäquate Lösung, da eine an den Fehler adaptierte Stra- tegie gewählt und Nutzer in der Neuformulierung unterstützt werden sollten. Zusätzlich bewirkt eine solche Nachfrage bei Nutzern, dass diese ihre Prosodie verändern, womit Fehlerkennungen der ASR noch wahrscheinlicher auftreten (Goldwater u. a., 2010). Trotz der Be- kanntheit dieses Problems implementieren heutige Sprachdialogsys- teme allerdings immer noch sehr häufig diese Variante der Fehler- behandlung: „Most dialogue systems today employ generic clarifica- tion strategies asking a speaker to repeat or rephrase an entire utterance“19 (Stoyanchev u. a., 2014, S. 1). Im anwendungsübergreifen- den SDS ist diese Art der Fehlerbehandlung allerdings ungeeignet, da bei einer Diskrepanz im mentalen Modell Nutzer über die nicht vorhandene Funktion aufgeklärt werden müssen und zusätzlich eine adäquate Hilfestellung benötigen. Besteht Unsicherheit über die Interpretation der Nutzeräußerung oder potentielle Gefahr einer OOA-Anfrage, kann durch Verifikation ein Fehler verhindert werden. Hierbei wird explizit oder implizit die Interpretation vom Nutzer bestätigt, um ein gemeinsames Verständ- nis zwischen Mensch und System zu erreichen (McTear, 2002). Bei einer expliziten Verifikation bestätigen Nutzer einen oder mehrere Wer- expliziten te der Eingabe (nach McTear (2002)): Verifikation

Nutzer: „Ich möchte von Meran nach Rom.“ System: „Möchten sie von Mailand nach Rom?“ Nutzer: „Nein. Von Meran“ System: „Von Meran nach Rom?“ Nutzer: „Ja.“ System: „Zu welcher Uhrzeit?“ Diese Art der Veriﬁkation ermöglicht ein robustes gemeinsames Ver- ständnis, führt allerdings zu langen und für Nutzer lästige Dialoge.

19 Übersetzung des Autors: Die meisten aktuellen Dialogsysteme nutzen generische Hilfestrategien, indem sie Nutzer zur Wiederholung oder Umformulierung einer gesamten Äußerung auffordern. 40 anwendungsübergreifende mensch-maschine kommunikation

implizite Eine implizite Veriﬁkation verkürzt den Dialog durch Einbetten der zu Veriﬁkation bestätigenden Werte in die nächste Frage. Dies ermöglicht eine Kor- rektur im Falle eines Missverständnisses beziehungsweise bei Beant- wortung der Frage eine implizite Bestätigung (nach McTear (2002)):

Nutzer: „Ich möchte von Meran nach Rom.“ System: „Zu welcher Uhrzeit möchten sie von Mailand nach Rom?“ Nutzer: „Nein. Ich möchte heute Abend von Meran abfah- ren.“ Vorteil dieser Verifikation ist der kurze Dialog, wobei Nutzer mehr Schwierigkeiten haben, Fehler in impliziten Bestätigungen zu korrigieren, als bei anderen Strategien (Shin u. a., 2002). Bezogen auf einen nutzer-initiierten Anwendungswechsel ist eine implizite Verifikation allerdings nicht möglich, da der Fortgang des Dialogs von dem zu bestätigenden Wert abhängt. Somit bleibt zur Klärung einer Unsicher- heit von OOA-Anfragen lediglich eine explizite Verifikation. Eine Schwierigkeit stellt der Inhalt der expliziten Nachfrage beim Nutzer dar. Bohus und Rudnicky (2005) evaluieren hierfür 10 verschiedene Dialogstrategien für Sprachdialogsysteme bei komplettem Nicht-Verständnis oder keinerlei Nutzereingabe auf eine Systemäu- ßerung. In einer empirischen Untersuchung erweisen sich „MoveOn“ und „Hilfe mit Beispielen“ als beste Lösungen hinsichtlich quantitati- ver Attribute, wie zum Beispiel Aufgabenerfolg. Unter Nutzung von „MoveOn“ „MoveOn“ schreitet der Dialog fort, indem das SDS eine andere Frage stellt und im Zweifelsfall erst später auf das Nicht-Verständnis ein- „Hilfe mit geht. Die Strategie „Hilfe mit Beispielen“ hingegen stoppt den Dialog- Beispielen“ fluss und geht direkt auf das Nicht-Verständnis mit einer Erklärung ein. Zusätzlich werden Nutzern mögliche Beispieläußerungen, abhän- gig vom aktuellen Dialogzustand, präsentiert und somit die Trans- parenz erhöht. Zgorzelski u. a. (2010) evaluieren diese Strategien zu- sätzlich hinsichtlich Gebrauchstauglichkeit, geteilt in zwei Gruppen nach Experten und Novizen. Deutlich zu sehen sind Unterschiede der Gruppen: während Experten möglichst schnell zum Ziel gelangen möchten, benötigen Novizen ausführlichere Hilfedialoge. Beide Dialogstrategien funktionieren, jedoch wird „MoveOn“ geringfügig besser bewertet. Im anwendungsübergreifenden Dialog ist „MoveOn“ allerdings nicht möglich, da keine anderen Fragen im Dialog existieren, dies aber eine notwendige Bedingung für „MoveOn“ ist (Joki- nen und McTear, 2010). Eine Hilfestellung kann einerseits genereller Natur sein, andererseits zielgerichtet und kontextsensitiv. Wie von zielgerichtet Skantze (2007) und Stoyanchev u. a. (2014) gezeigt, sind zielgerichtete kontextsensitiv und kontextsensitive Dialogstrategien vorzuziehen, da Menschen diese bevorzugen und selbst nutzen. Skantze (2007) und Stoyanchev u. a. (2014) identifizieren hierzu nicht verstandene Elemente einer Phra- se und passen die Hilfestrategie dahingehend an. Ist bei OOA-Äu- 2.3 grundlagen und stand der technik 41

ßerungen eine Teilinterpretation möglich, kann diese genutzt werden, jedoch bei fehlender Interpretation nicht. Um dennoch eine an den Kontext angepasste Fehlerbehandlung zu ermöglichen, können Methodiken eingesetzt werden, welche den Dialogkontext und die nächstmöglichen Anwendungen in Betracht ziehen. Ein Beispiel stellt der statistische Dialogmanager von Torres u. a. (2005) dar, welcher die Übergänge zwischen Dialogschritten lernt und zusätzlich Hilfestrate- gien in Betracht zieht. Eine Vorhersage der nächstmöglichen Aufga- ben wird beispielsweise in Pappu und Rudnicky (2013) verwendet, um die Dialogschritte zu minimieren. Wie im vorliegenden Abschnitt gezeigt, sind im Allgemeinen Feh- ler wie Missverständnisse oder Nicht-Verständnisse im SDS ausführ- lich untersucht. Jedoch sind im anwendungsübergreifenden Dialog- system, auf Grund der unklaren Dialogfortsetzung, viele Fehlerbe- handlungsstrategien nicht einzusetzen. OOD-Äußerungen, OOA-Äu- ßerungen und mehrdeutige Nutzeräußerungen stellen zusätzlich hohe Anforderungen an eine efﬁziente Fehlerbehandlung. Neben rein sprachlichen Lösungen kann im multimodalen Dialogsystem ein Wech- sel der Modalität Vorteile bringen (Suhm u. a., 2001). Diese Arbeit betrachtet lediglich eine zusätzliche visuelle Veranschaulichung mehrerer Alternativen eines Hilfedialogs - für eine ausführliche Über- sicht multimodaler Aspekte sei daher auf Bourguet (2011) verwiesen. In Kapitel 3 werden explizite Fehlerbehebungsstrategien für anwen- dungsübergreifende Dialoge beschrieben und mittels Nutzerstudien im Anwendungsszenario eines Infotainment-Systems evaluiert.

2.3.4 Fahrerablenkung durch sekundäre Aufgaben

Im Gegensatz zur Bedienung eines Sprachdialogsystems auf mobilen Geräten muss im Infotainment-System eines Fahrzeugs ein mögliches Ablenkungspotential des Fahrers beachtet werden. Einer Analyse der National Highway Trafﬁc Safety Administration (NHTSA) (2013) zufolge, ereigneten sich 2011 in den USA 10% aller tödlichen Unfälle und 17% der Unfälle mit Verletzten auf Grund von abgelenkten Fah- rern. Fahrerablenkung lässt sich hierbei deﬁnieren als spezielle Form Fahrerablenkung der Unachtsamkeit, wenn Fahrer ihre Aufmerksamkeit auf andere Aufgaben als das Fahren richten. Stutts u. a. (2005) untersuchten in einer Feldstudie mögliche Ablenkungspotentiale anhand von Video- beobachtungen. Dabei waren die größten Ursachen für Ablenkung (in absteigender Reihenfolge): Objekte/Personen außerhalb des Fahr- zeugs, Radio/Kassette/CD, Mitfahrer, Objekte im Auto, Nutzung eines ins Auto gebrachten Objekts/Geräts, Bedienung der Klimaanlage, Essen/Trinken, Mobiltelefon und viele mehr. In aktuellen Fahrerbeob- achtungen zeigt sich jedoch das Smartphone als Hauptgrund für Ab- lenkung. Vollrath u. a. (2016) beobachteten in drei deutschen Städten 11837 Fahrer. Dabei zeigten sich insgesamt 13,2% der Fahrer abge- 42 anwendungsübergreifende mensch-maschine kommunikation

lenkt, wobei 8,4% ihre Aufmerksamkeit dem Smartphone widmeten. Speziell junge Fahrer und Fahrer mittleren Alters zeigten sich anfällig für eine Ablenkung durch das Smartphone. Dies deckt sich mit Un- fallzahlen in den vereinigten Staaten (National Highway Traffic Safe- ty Administration (NHTSA), 2013) und einer Onlinebefragung (Hof- mann, Ehrlich, Berton u. a., 2012), in welcher 36% junger Fahrer angaben, selbst unter der Gefahr der Ablenkung, internetfähige Gerä- te während der Fahrt zu nutzen. Aus dieser Befragung erschließt sich somit die Wichtigkeit der Integration von Internetservices in das Fahrzeug-interne Infotainment-System (heutzutage der Überbegriff für Radio, Navigation, Klimaanlage, Telefon, Internet uvm.). Es ist somit davon auszugehen, dass die Anzahl der Anwendungen im Info- tainment-System in den nächsten Jahren stark ansteigt. Diese Arbeit betrachtet anwendungsübergreifende Sprachdialoge im Infotainment- System sowie ein mögliches Ablenkungspotential von Dialogfehlern des Sprachdialogsystems. Aus diesem Grund werden im Folgenden Arbeiten zur Ablenkung durch Infotainment-Systeme und Smartpho- nes vorgestellt. In der Literatur werden die Aufgaben von Fahrern, die zum Fah- ren erforderlich oder optional sein können, in drei Aufgabenarten untergliedert (Kern und Schmidt, 2009): primäre, sekundäre und ter- Primäraufgabe tiäre Aufgaben. Primäre Aufgaben sind dabei zur Führung eines Fahr- zeugs erforderlich, zum Beispiel, um die Geschwindigkeit oder den Sekundäraufgabe Abstand zu anderen Fahrzeugen zu kontrollieren. Sekundäre Aufgaben beinhalten Funktionen, welche die Sicherheit des Fahrers und seiner Tertiäraufgabe Umgebung erhöhen, wie Blinker oder Scheibenwischer. Als tertiäre Aufgaben werden alle Funktionen bezeichnet, die zur Unterhaltung und somit zur Bedienung des Infotainment-Systems dienen. Da se- kundäre Aufgaben, wie beispielsweise Fahrerassistenzsysteme oder Einparkkameras, inzwischen oftmals auch über das Infotainment-Sys- tem gesteuert werden, folgt diese Arbeit der Definition nach Wier- wille (1993) und fasst tertiäre Aufgaben mit sekundären zusammen. Nach de Waard (1996) stellt jede Aktion gewisse Forderungen (engl. Demand) an Fahrer, deren Erfüllung eine bestimmte Belastung (engl. Workload) auslöst. Sind nun die Belastungen der einen Aufgabe zu hoch oder zu verlockend, kann die andere beeinträchtigt werden und zu einer Fahrerablenkung führen (K. Young und Regan, 2007). Eine theoretisch fundierte Begründung für die gegenseitige Beein- „multiple resource flussung von Aufgaben liefert die „multiple resource theory“ nach Wi- theory“ ckens (Wickens, 1981; Wickens, 2008). Sie geht davon aus, dass Men- schen nur begrenzte Ressourcen zur Verfügung stehen. Diese betreffen verschiedene mentale Aktionen, von der Wahrnehmung bis zur Bedeutungsrepräsentation. Neben einer Abschätzung der Komplexi- tät einzelner Aufgaben kann das Modell Aufgaben identifizieren, welche sich bei gleichzeitiger Bearbeitung gegenseitig behindern (Basil, 2012). 2.3 grundlagen und stand der technik 43

Verarbeitungsstufen

Wahrnehmung Erkennung Ausführung

visuell

auditiv Modalitäten

räumlich verbal

Abbildung 2.5: „Multiple resource model“ nach Wickens (2008).

Das „multiple resource model“ ordnet Ressourcen vier Dimensionen „multiple resource zu (siehe Abbildung 2.5): Verarbeitungsstufen (engl. Stages of Proces- model“ sing), Kodierung (engl. Code), Modalität und visueller Kanal (nicht dargestellt). Auf der Verarbeitungsebene nutzen Wahrnehmungs- und Erkennungsaktionen andere Ressourcen als die Ausführung einer Ak- tion. Die Dimension Kodierung zeigt eine unterschiedliche Nutzung von Ressourcen hinsichtlich räumlicher und verbaler/linguistischer Aktivitäten. Wie bereits erwähnt, lässt sich die Wahrnehmung, neben räumlich und verbal, noch in die Modalitäten visuell und auditiv unterteilen. Zur Abschätzung, wie effizient zwei Aufgaben parallel Effizienz paralleler ausgeführt werden können, erfolgt eine Einordnung der Aufgaben Aufgaben in das Modell. Benötigen zwei Aufgaben unterschiedliche Ressour- cen, ist eine effiziente gleichzeitige Ausführung möglich. Teilen sie sich jedoch die Ressourcen, sinkt die Effizienz gleichermaßen. Nimmt nun die Komplexität der einen Aufgabe zu, geschieht dies zu Lasten der anderen Aufgabe. Neben dem Einfluss von Ressourcen können auch physische Einschränkungen die Effizienz beeinträchtigen. Zum Beispiel lassen sich keine zwei Worte gleichzeitig sprechen (Wickens, 1981; Wickens, 2008). Um mögliche kritische Konkurrenzen an Ressourcen im Fahrzeug zu identifizieren, muss in erster Linie die primäre Fahraufgabe in das Fahraufgabe im Modell eingeordnet werden. Das sichere Führen eines Fahrzeugs er- Modell fordert vom Fahrer den Blick auf der Straße, die Hände am Lenkrad sowie ausreichende Konzentration. Dies bestimmt die Einordnung in visuelle und räumliche Dimension sowie die gesamte Verarbei- tungskette über Wahrnehmung bis Ausführung. In der Literatur über Fahrerablenkung findet sich dies meist unter den Begriffen visueller, manueller und kognitiver Belastung (Peissner u. a., 2011; Kern und Schmidt, 2009). Im Folgenden wird auf die Interaktionsschemata von Infotainment-Systemen, welche mit diesen Ressourcen konkurrieren, eingegangen. Am kritischsten zeigen sich sekundäre Aufgaben, welche genau dieselben Ressourcen der primären Fahraufgabe erfordern (visuell, 44 anwendungsübergreifende mensch-maschine kommunikation

räumlich und entsprechende Verarbeitungsstufen). Dies ist beim Be- dienen eines Mobiltelefons oder einem anderen elektronischen Ge- rät der Fall, wie bereits eine Vielzahl an Studien (Caird u. a., 2008; Horrey und Wickens, 2004) oder Analysen von Unfalldaten (Natio- nal Highway Traffic Safety Administration (NHTSA), 2013) belegen. Als Resultat ist deren Nutzung hinter dem Steuer in vielen Ländern verboten und erfordert somit eine Integration in das Infotainment- System. Zur Bedienung von Fahrzeug und Infotainment-System sind über haptische die Jahre eine Vielzahl verschiedener haptischer Eingabegeräte entwi- Eingabe ckelt worden (einen Überblick liefern Kern und Schmidt (2009)). Um möglichst wenig Belastung zu erzeugen, ist deren Anordnung, je nach betreffender Aufgabenart, untergliedert in Bedienelemente für primäre Aufgaben (Fahraufgabe), sekundäre Aufgaben (Aktivierung für die Fahraufgabe erforderlicher Funktionen) und tertiäre Aufga- ben (Infotainment) (Tönnis u. a., 2006). Taktile Buttons, Touch-Einga- be oder Gestensteuerung sind in diversen Studien bereits untersucht (z.B. Bach u. a. (2008), Bellotti u. a. (2005) und Castronovo u. a. (2011)) und Richtlinien zu deren Verwendung entstanden (Driver Focus-Te- lematics Working Group, 2006). Für Infotainment-Systeme mit mehreren Anwendungen finden diese haptischen Elemente ebenso Ver- wendung wie mit einzelnen Anwendungen, weshalb in vorliegender Arbeit nicht näher darauf eingegangen wird. visuelle Ähnlich der manuellen Eingabe werden visuelle Ausgabeelemente in Ausgabe die drei Bereiche für primäre (Windschutzscheibe), sekundäre (nahe des Fahrers/Lenkrads) und tertiäre Aufgaben (Mittelkonsole) gegliedert (Tönnis u. a., 2006). Zusätzlich zu einfachen Statusleuchten finden Displays Einzug in die Bereiche und ermöglichen somit komplexe visuelle Darstellungen (einen Überblick liefern Kern und Schmidt (2009) und Tönnis u. a. (2006)). Jedoch besteht, wie im „multiple resource model“ definiert, die Einschränkung des Blickes auf einen fokussierten Punkt, was somit offensichtlich zu konkurrierenden Res- sourcen führt. In vielen Studien wurde somit der Blick als Indiz einer hohen Ablenkung identifiziert (z.B. Tsimhoni und Green (2001) und Hofmann, Tobisch u. a. (2014)). Dies unterstützt die Herangehenswei- se dieser Arbeit, bei anwendungsübergreifenden Dialogen in erster Linie Sprachdialoge zu untersuchen und die visuelle Modalität lediglich zur Hilfestellung zu nutzen. auditive Wie anhand des „multiple resource model“ gezeigt, ist die audi- Ressource tive Ressource nicht direkt in der Fahraufgabe involviert und kann effizient parallel ausgeführt werden. Dies erklärt die geringere Ab- lenkung von sprachlich durchgeführten Aufgaben im Vergleich zu haptisch und visuellen (z.B. Maciej und Vollrath (2009), Barón und Green (2006) und Peissner u. a. (2011)). Eine Analyse diverser Stu- dien (Ei-Wen Lo und Green, 2013) ergab einen Vorteil von sprachlicher Bedienung hinsichtlich Spurhaltung, peripherer Wahrnehmung, 2.3 grundlagen und stand der technik 45 subjektiver Belastung, Präferenz und Dauer sowie Anzahl von Bli- cken. Bezüglich Dauer der Interaktion, nach Cooper u. a. (2014) ein entscheidendes Maß der potentiellen Ablenkung, ist allerdings kein einheitliches Ergebnis zu erkennen, sondern scheint von der Kom- plexität der Aufgabe abzuhängen. Speziell bei Eingabe der Adresse zeigt sich eine Spracheingabe um 82% schneller als eine Eingabe mit haptisch-visuellem Touchscreen (Tsimhoni, D. Smith u. a., 2002). Im Vergleich zur reinen Fahraufgabe konnten Maciej und Vollrath (2009) al- Vergleich lerdings feststellen, dass eine gewisse Ablenkung durch Sprachdia- Fahraufgabe logsysteme besteht. Sie führen dies ebenso auf die Komplexität der sekundären Aufgabe zurück, da bei sehr einfachen Aufgaben ähn- liche Leistungen zur Baseline erreicht wurden. Komplexe und umfangreiche Aufgaben, wie anwendungsübergreifende Aufgaben, stellen somit ein erhöhtes Risiko dar. Zumal eine erhöhte Fehleranfällig- keit Korrekturdialoge erfordert und somit direkten Einfluss auf die Dialogdauer hat. Kun, Paek u. a. (2007) und Gellatly (1997) untersuchen aus diesem Grund ASR-Fehler und ASR-Genauigkeit hinsichtlich Ablenkung durch Fahrerablenkung. Gellatly (1997) stellt fest, dass die Genauigkeit über Fehler & 75% liegen sollte, um subjektiv empfundene Belastung und Lenkbe- Ungenauigkeit wegungen nicht zu beeinflussen. Er unterscheidet hierbei zwischen Ersetzungsfehler (Missverständnis) und Rückweisung der Äußerung (Nicht-Verständnis), wobei Ersetzungsfehler negativeren Einfluss auf die Fahrleistung aufweisen. Hingegen zeigt sich bei Kun, Paek u. a. (2007) kein Unterschied in der Fahrleistung zwischen Missverständ- nis und Nicht-Verständnis. Ein möglicher Grund hierfür könnte allerdings das Aufklären der Versuchsteilnehmer über die Fehlersituation und -behandlung sein und der somit fehlende Überraschungseffekt. Bezüglich der ASR-Genauigkeit stellen sie ebenso schlechtere Lenk- bewegungen bei geringer (44%) als bei hoher (89%) ASR-Genauigkeit fest, wogegen die Spurhaltung und Geschwindigkeit keinen signifikanten Unterschied aufweisen. Somit bedeutet ein SDS nicht automatisch eine Verringerung der Ablenkung (siehe auch Hamilton (2014)). Ein weiterer Faktor, der zur Fahrerablenkung beiträgt, ist die ko- kognitive Belastung gnitive Belastung. Die Nutzung unterschiedlicher Ressourcen für zwei Aufgaben bedeutet nicht automatisch eine perfekte gleichzeitige Aus- führung beider Aufgaben. Trotz unterschiedlicher Ressourcen kön- nen Wahrnehmungs- und Interpretationsprozesse sich gegenseitig beeinflussen (Wickens, 2008). Harbluk u. a. (2002) zum Beispiel stellten Versuchspersonen während einer Fahrt Rechenaufgaben unterschiedlichen Schwierigkeitsgrades. Die Ergebnisse zeigen, je schwieriger die Aufgabe, desto weniger Augenbewegungen treten auf und der Blick bleibt fokussiert auf einem zentralen Bereich der Straße unter Vernachlässigung der Peripherie, des Rückspiegels sowie des Instru- mentenclusters. Dieses Phänomen tritt häufig bei kognitiver Belas- tung auf und wird Tunnelblick (engl. perceptual tunneling) genannt. Tunnelblick Die Höhe der kognitiven Belastung hängt in der Konversation vom 46 anwendungsübergreifende mensch-maschine kommunikation

Inhalt ab. Cooper u. a. (2014) identiﬁzieren eine höhere Belastung durch übliche Sprachkommandos als durch natürliche Konversation, Radio oder Hörbuch. Dies widerspricht allerdings den Ergebnissen von Hofmann, Tobisch u. a. (2014), welche keine großen Unterschie- de zwischen menschenähnlicher Konversation (engl. conversational) und vom System geführten Dialog feststellen können. Dies könnte jedoch auch ein Resultat der beschränkten Leistung von der ASR sowie dem SLU, und dadurch entstandenen Dialogfehlern, sein. An- wendungsübergreifende Dialoge im Fahrzeug wurden bisher nicht in hoher Detailtreue hinsichtlich kognitiver Belastung evaluiert. Je- doch kann auf Grund der Komplexität der Aufgabe von einer kognitiven Belastung ausgegangen werden. Als Indiz hierfür können zwischenmenschliche Konversationen mit Themenwechsel gesehen werden, welche eine erhöhte kognitive Belastung und daraus resul- tierende Fahrerablenkung hervorrufen (Kun, Shyrokov u. a., 2013). Zusammenfassend lässt sich ein hohes Gefahrenpotential für alle Verkehrsteilnehmer durch abgelenkte Fahrer erkennen. Hierbei kann, durch konkurrierende Ressourcen der primären und sekundären Auf- gabe, zwischen manueller, visueller und kognitiver Ablenkung unterschieden werden. Durch die freie auditive Ressource ist eine sprachliche Interaktion im Fahrzeug im Allgemeinen besser als eine manuell- visuelle, jedoch erfordert es hohe Sorgfalt beim Design und der Imple- mentierung für kurze und fehlerfreie Dialoge, da sonst die kognitive Belastung steigt (Peissner u. a., 2011). Dies setzt hohe Anforderungen an ein SDS im Fahrzeug. Im nächsten Abschnitt wird auf die spezielle Situation von Sprachdialogsystemen im Fahrzeug eingegangen.

2.3.5 Sprachdialogsysteme im Fahrzeug

Der vorherige Abschnitt identiﬁzierte hohe Ablenkungspotentiale in Folge der Nutzung von Mobiltelefonen und verschiedenen Modali- täten in der Fahrzeug-UI. Im Folgenden wird daher zu Beginn auf implementierte Sprachdialogsysteme im Infotainment-System eingegangen. Zunehmend erfolgt die Integration des Smartphones in Form von speziellen Programmen, welche das externe Gerät ausführt unter Nutzung der internen Fahrzeug-UI. Ein Zugriff auf das SDS des Smartphones wird hierbei möglich und in Abschnitt 2.3.5.2 diskutiert. Im darauffolgenden Abschnitt erfolgt eine Betrachtung bestehender Forschungsarbeiten.

2.3.5.1 Im Fahrzeug implementierte Sprachdialogsysteme

Mercedes-Benz Bereits 1996 brachte Mercedes-Benz, unter dem Namen Linguatronic, Linguatronic das erste SDS ins Fahrzeug, welches einfache Kommandoworte zur Bedienung des Telefons anbot. Der Fokus bestand dabei auf einer sprecherunabhängigen und robusten Erkennung, trotz der Geräusch- kulisse des Fahrzeuginnenraumes (Heisterkamp, 2001). Über die Jah- 2.3 grundlagen und stand der technik 47

re hinweg fanden immer mehr und komplexere Funktionen Einzug in das SDS, zunächst zum Beispiel eine Navigationseingabe mit Ein- zelworterkennung, später die Adresseingabe direkt mit Stadt, Straße und Hausnummer. Selbst große Musiksammlungen und Telefonlis- ten lassen sich inzwischen mittels Sprache durchsuchen. Inzwischen bietet nicht nur Mercedes-Benz eine Sprachbedienung, sondern alle namhaften Automobilhersteller. Die Funktionalität und das Interak- tionsschema variiert zwar nach Hersteller und Modell leicht, jedoch sind diese Herstellerspeziﬁtäten für vorliegende Arbeit irrelevant. Ei- ne Betrachtung erfolgt somit auf technologischem Gesichtspunkt und etwaige Markennennungen sind beispielhaft zu sehen. Bezüglich Interaktionsschemata erfordert ein SDS im Fahrzeug die Interaktions- Aktivierung über einen bestimmten Schalter (engl. Push-to-Activate- schemata bzw. Push-to-Talk-Button). Dies verhindert eine unbeabsichtigte Ak- tivierung, und dadurch entstehende Verwirrung des Fahrers, sowie schützt die Privatsphäre der Insassen durch selektive Aktivierung des Mikrofons (Weinberg u. a., 2010). Nach Rückmeldung der Aktivie- rung kann der Fahrer eine offene Anfrage stellen und das System führt offene Anfrage dann die Aktion aus. Im Falle von fehlenden Angaben, wie im Beispiel zum geführt Starten einer Navigation, führt das SDS einen Dialog (Mercedes-Benz S-Klasse von 2015):

Nutzer: „Ziel eingeben.“ System: „Bitte sprechen Sie den Namen des Ortes, der Stra- ße und die Hausnummer.“ Nutzer: „Ulm, Albert-Einstein-Allee“ System: „Ulm, Albert-Einstein-Allee übernommen. Möch- ten Sie eine Hausnummer eingeben?“ Nutzer: „Ja.“ System: „Bitte sprechen Sie die Hausnummer.“ Nutzer: „5.“ System: „Hausnummer 5 übernommen. Möchten Sie die Zielführung starten?“ Nutzer: „Ja.“ System: „Die Zielführung wird gestartet.“ Im system-geführten Dialog ist hierbei kein Überbeantworten mög- lich. Waren früher lediglich strikte Kommandoworte implementiert, ist heutzutage auch eine freiere Eingabe als erste Anfrage möglich. freie Eingabe Zum Beispiel bietet Ford SYNC 2 auf die Eingabe „Ich habe Hunger“ Restaurants in der Umgebung an (Ford-Werke GmbH, 2014). Ebenso ermöglicht Audi im virtuellen Cockpit20 die Interpretation natürliche- rer Anfragen, wie zum Beispiel „navigiere mich zum James-Franck- Ring 1 in Ulm“. Dies vermeidet zwar ein notwendiges Lernen der

20 http://www.audi.de/de/brand/de/vorsprung_durch_technik/content/2014/03/ audi-virtual-cockpit.html [Online 04.07.2015] 48 anwendungsübergreifende mensch-maschine kommunikation

Kommandoworte, jedoch steigt die Gefahr von Fehlerkennungen, da Nutzer unter Umständen freie Äußerungen verwenden, die vom SDS nicht unterstützt werden. Bisher verfolgten Sprachdialogsysteme im Fahrzeug eher die Stra- Fehler vermeiden tegie, Fehler zu vermeiden, als Fehler korrigieren und behandeln zu müssen. Ein gängiger Ansatz hierfür ist Fahrern auf der GUI an- zuzeigen, was aktuell gesprochen werden kann. Einerseits geschieht dies implizit durch sprechbare Menüeinträge der GUI, „speak-what- you-see“ genannt (Hassel und Hagen, 2005), und andererseits durch explizite Overlays mit sprechbaren Befehlen, welche als Teleprompter bezeichnet werden (siehe Abbildung 2.6a). Bei Systemen mit wenigen Kommandoworten ist dies ein probates Mittel, bei komplexen Sprach- dialogsystemen mit umfassender Funktionalität, durch die begrenzte Fehlererkennung Bildschirmgröße, allerdings kritisch. BMW setzt zur Fehlererkennung eine visuelle Rückmeldung der Interpretation des Sprachdialogsys- tems ein (siehe Abbildung 2.6b). Im Falle einer Fehlinterpretation erkennt somit der Fahrer die Ursache, was wiederum die Verwirrung senkt und eine einfache Behebung durch erneute Eingabe ermöglicht. Ein gängiges Mittel zur Aufforderung einer erneuten Eingabe, und so- Fehlerbehebung mit zur Fehlerbehebung bei keiner Eingabe, ist eine spezifischere Syste- mäußerung zu wählen (engl. iterative prompt). Hierbei werden dem Fahrer mögliche sprechbare Äußerungen vorgeschlagen oder auf ein separates Hilfemenü verwiesen. Neben einer Systemerklärung för- dert dies den Lerneffekt. Jedoch ist eine solche Fehlerbehandlung lediglich bei Nicht-Verständnissen möglich, Missverständnisse werden durch diese Strategie nicht behandelt. Um Missverständnisse zu korrigieren, setzt Mercedes-Benz auf eine implizite Verifikation im Navigationsdialog (siehe Beispieldialog). Die erkannte Nutzereinga- be wird mit der nächsten Frage im Dialog verknüpft und im Fehlerfall ermöglicht dies dem Fahrer mit „Korrektur“ zu intervenieren. Der Korrekturdialog erfragt daraufhin die letzte Eingabe erneut: „Bitte sprechen Sie die Straße noch einmal“. Eine nicht eindeutige Eingabe lösen die meisten Sprachdialogsysteme im Infotainment-System über eine grafische Liste an möglichen Werten auf, mit der Aufforderung „Wählen Sie die Zeilennummer“. Bei phonetisch ähnlichen Werten ein probates Mittel; phonetisch unterschiedliche, wie beispielsweise eine mobile oder geschäftliche Telefonnummer, können im Dialog auch direkt nachgefragt werden. Derzeit ist die Anzahl sprachlich zu bedienender Anwendungen im Infotainment-System noch sehr gering und die sprachliche Modalität meist eher als unterstützende Modalität zur haptisch-visuellen zu sehen. Somit überwiegt das vom haptisch-visuell übernommene Inter- aktionsschema, zuerst eine Anwendung per globalem Kommando zu öffnen, um anschließend mit ihr zu interagieren (expliziter Anwen- dungswechsel). Lediglich für wenige Szenarien, wie zum Beispiel ein 2.3 grundlagen und stand der technik 49

(a) Teleprompter Mercedes-Benz S-Klasse (b) Darstellung des Dialogs im BMW 645 von 2015. von 2013.

Abbildung 2.6: Bildschirminhalte zur Fehlervermeidung und Fehlererken- nung.

Navigationssonderziel anzurufen, existieren implizite und übergelei- tete Anwendungswechsel. Wie gezeigt, sind Sprachdialogsysteme im Fahrzeug bereits seit einiger Zeit etabliert, doch derzeit hauptsächlich für klassische An- wendungen wie Navigation, Musik und Telefon verfügbar. In visuell- haptischer Modalität bieten hingegen die meisten Infotainment-Sys- teme bereits viele internetbasierte Anwendungen an und zukünftig vermutlich auch eine Bedienung mittels Sprache, womit die Komple- xität stark steigen wird. Jedoch bergen selbst bestehende Systeme bei einfachen Aufgaben ein gewisses kognitives Ablenkungspotential. Wie Ablenkungspotential Cooper u. a. (2014) in einer Studie mit 6 Serien-Sprachdialogsyste- men (auf Basis von Modellen aus 2012 und 2013) gezeigt, kann die mentale Belastung ähnlich hoch einer Mathematikaufgabe sein und die Komplexität sowie die Interaktionsdauer, signiﬁkanten Einﬂuss auf die Reaktionszeit haben. Der Sicherheitsaspekt stellt somit in Zu- kunft hohe Anforderungen an komplexe Infotainment-Systeme, um eine Interaktion mittels Sprache mit geringem Ablenkungspotential zu bieten.

2.3.5.2 Mobile Geräte zur Nutzung im Fahrzeug Anstatt von fest integrierten Infotainment-Systemen mit einem SDS, werden im Mittel- und Kleinwagensegment zunehmend Lösungen auf Basis mobiler Geräte, wie dem Smartphone, genutzt. Da ein mobi- Smartphone im les Gerät unabhängig vom Einsatzort ist, kann eine Nutzung im Fahr- Fahzeug zeug erfolgen. Wie jedoch diverse Studien belegen (siehe Abschnitt 2.3.4) ist durch eine nicht-adaptierte Integration eine erhöhte Ablen- nicht-adaptierte kung zu verzeichnen. Yager (2013) verglich die manuelle Texteinga- Integration be mit den persönlichen Assistenten Apple Siri21 und Vlingo22 zur Texteingabe und konnte, selbst bei sprachlicher Bedienung der As- sistenten, eine Ablenkung feststellen. Somit ist nachvollziehbar, weshalb für diese Art der Nutzung in vielen Ländern ein Verbot besteht.

21 https://www.apple.com/ios/siri [Online 08.06.2015] 22 http://www.vlingo.com/apps/android [Online 07.07.2015] 50 anwendungsübergreifende mensch-maschine kommunikation

Aus diesem Grund erfolgt in der vorliegenden Arbeit lediglich eine Betrachtung von adaptierten Integrationen des Smartphones in den situativen Kontext Fahrzeug. Einen Überblick über verschiedene In- tegrationsvarianten sowie Entwicklung konsistenter Benutzerschnitt- stellen liefert der Artikeln von Stolle u. a. (2007), auf welchem dieser Abschnitt aufbaut. In erster Linie kann eine Integration in das Fahrzeug durch eine einfache Smartphone-Halterung sowie der Nutzung eines Headsets und angepassterUI erfolgen. Diese Integration bietet den Vorteil, auf Unabhängig von keinerlei Fahrzeugspezifika angewiesen zu sein. Speziell im Bereich fahr- Fahrzeug & Modell zeugrelevanter Szenarien, wie zum Beispiel Navigation, Musik oder Telefon, existieren diverse angepasste Anwendungen. Diese beruhen jedoch hauptsächlich auf visuell-haptischer Bedienung. Eine Bedie- nung per Sprache gestaltet sich durch die erhöhte Geräuschkulis- se im Fahrzeug, als schwierig, da höhere Umgebungsgeräusche die Performanz des Spracherkenners negativ beeinflussen (Gong, 1995). Alternativ kann jedoch das Fahrzeug seineUI zur Steuerung des Smartphones zur Verfügung stellen und eine Geräuschvorverarbei- tung, vor Übertragung des Sprachsignals an das Smartphone, durch- führen. Mit dieser Variante lässt sich das Infotainment-System entweder mit Funktionalität erweitern oder sogar ersetzen. Zwei beispiel- CarPlay & Android hafte Umsetzung sind einerseits Apples CarPlay23 und andererseits Auto Googles Android Auto24. Beide nutzen das Display des Fahrzeugs zur grafischen Anzeige sowie die jeweils fahrzeugspezifischen Bedienele- mente zur Steuerung des Smartphones. Die sprachliche Bedienung bietet dieselbe Funktionalität wie lokal auf dem Smartphone, allerdings über Fahrzeugmikrofone und Lautsprecher. Für gängige Sze- narien des Smartphones gestaltet sich diese Variante der Integration als durchaus nützlich, jedoch zur Bedienung von Fahrzeugfunktio- nen, wie zum Beispiel Massagesitze, fehlen notwendige Schnittstellen. Aus diesem Grund verfolgt Ford SYNC25 mit AppLink eine Varian- te im internen Infotainment-System Fahrzeugfunktionen anzubieten und diese durch Zugriff auf Anwendungen des Smartphones zu er- nahtlose Integration weitern (Ford-Werke GmbH, 2015). DieUI ist hierbei nahtlos in das In- fotainment-System integriert und zusätzlich per Kommandoworte be- dienbar. Diese Art der Integration bietet auf Grund der einheitlichen, an die Fahrsituation adaptierte Schnittstelle klare Vorteile hinsichtlich Gebrauchstauglichkeit, ist jedoch kostenintensiv und erfordert eine höhere Wartung durch die Schnelllebigkeit des Smartphonemarktes. Eine Nutzung mobiler Geräte im Fahrzeug ist somit auf unterschiedlichste Weise möglich. Alle Varianten bieten diverse Vor- und Nachteile. In der vorliegenden Arbeit werden anwendungsübergrei- fende Dialoge aus Nutzerperspektive sowie Entwicklersicht betrach-

23 https://www.apple.com/ios/carplay/ [Online 08.07.2015] 24 https://www.android.com/auto/ [Online 08.07.2015] 25 https://www.ford.com/technology/sync/ [Online 08.07.2015] 2.3 grundlagen und stand der technik 51

tet und somit unabhängig von technischen Integrationsaspekten. In- wieweit nun Anwendungen intern im Infotainment-System ausge- führt werden oder extern auf Smartphones ist im Folgenden nicht von Relevanz.

2.3.5.3 Forschungsprojekte zu Sprachdialogsystemen im Fahrzeug Weit vor jeweiliger technischer Umsetzung im Produkt beschäftigten sich bereits diverse Forschungsprojekte mit der sicheren Integration von Komfortfunktionen, und ihrer sprachlichen Bedienung, in das Infotainment-System. Einen wertvollen Überblick bieten Ei-Wen Lo und Green (2013), die bestehende Arbeiten zusammenfassen und somit als grundlegende Literatur für folgenden Abschnitt dienen. Ei- ne Analyse bestehender Projekte zeigt, inwieweit Anwendungswechsel Analyse bestehender und Fehlerbehandlungsdialoge in bestehenden Arbeiten Berücksich- Projekte tigung fanden. Die Analyse umfasst Projekte, welche sich mit dem situativen Kontext Fahrzeug befassen, hauptsächlich die auditive Mo- dalität als Interaktionsschema betrachten und mehrere Anwendun- gen beinhalten. Dies trifft in erster Linie auf folgende Forschungs- projekte zu: CHAT (Weng, Yan u. a., 2007; Weng, Varges u. a., 2006), DICO (Larsson und Villing, 2007; Villing u. a., 2008), GHS26, SENE- CA (Minker u. a., 2004), SMARTKOM (Berton u. a., 2006; Reithinger u. a., 2003) und VICO (Geutner, Steffens und Manstetten, 2002; Geut- ner, Steffens, Peirlinckx u. a., 2004). Wie Tabelle 2.2 zu entnehmen, erfolgt eine Analyse hinsichtlich verschiedener, diese Arbeit betreffenden Dimensionen. Bezüglich des Anwendungswechsels ist erkennbar, in welchen Projekten implizite und explizite Wechsel möglich sind. Die jeweilige Fehlerbehandlung ist analysiert hinsichtlich den Dimen- sionen Missverständnis, Nicht-Verständnis, Hilfestrategien, dialogi- sches Verhalten von Menschen auf Fehler sowie durch Fehler verur- sachte Ablenkung. Die Analyse erfolgt auf Basis genannter Veröffent- lichungen, wobei nicht zu jeder Dimension eine Aussage getroffen werden kann, da nicht immer hervorgeht, bis zu welchem Grad diese Projekte eine Dimension beachten oder implementieren. Im EU-Projekt SENECA (Minker u. a., 2004) wurde ein Prototyp auf SENECA Basis von Mercedes-Benz Linguatronic entwickelt, welcher die An- wendungen Radio, CD, Navigation und Telefon implementiert. Die Bedienung folgte dem Seriensystem, wobei der Fokus des Projektes auf einer Verbesserung der SDS-Qualität lag, durch Geräuschreduk- tion, verbesserter ASR und flexibler Dialoge. Das kommandowortbasierte SDS ermöglichte zwar keine anwendungsübergreifenden Dialo- ge, behandelte jedoch Eingaben geringer Konfidenz und Mehrdeutig- keiten durch Verifikationsdialoge beziehungsweise Nachfrage nach mehr Informationen, um Mehrdeutigkeiten aufzulösen. Fehler konnten somit behoben werden; wobei SENECA vorwiegend Fehlerver- meidung durch Teleprompter und Antworten auf nutzer-initiierte

26 http://www.gethomesafe-fp7.eu/ [Online 11.07.2015] 52 anwendungsübergreifende mensch-maschine kommunikation

Projekt Anw.wechsel Fehler impl. expl. MV NV Hilfe MenVer Abl

CHAT x x x† ?--- DICO x x x† x† x† -- SENECA - - x† ? x* - - SmartKom x x ? ? ? - - VICO x ? ? x† - x† x

Tabelle 2.2: Analyse von Forschungsarbeiten im Fahrzeugkontext hinsichtlich Anwendungswechsel und Fehlerbehandlung. MV: Missverständnis, NV: Nicht-Verständnis, MenVer: Mensch- liches Verhalten, Abl: Ablenkung. (*) vom Nutzer initiiert, (†) nicht bei anwendungsüberfreienden Dialogen, (?) Umfang unklar.

Hilfeanfragen nutzte. Es wird von vermehrten OOV-Eingaben und Dialogfehlern berichtet, jedoch findet sich keinerlei Information dar- über, wie Nutzer auf solche Fehler reagierten, beziehungsweise, ob sich diese im Nutzerexperiment auf die Ablenkung auswirkten. Eine menschenähnliche, natürliche Kommunikation zwischen Fah- VICO rer und Fahrzeug entwickelte VICO in Form eines virtuellen Bei- fahrers. Als fahrzeugrelevant betrachtete das Projekt folgende An- wendungen: Navigation, Routenplanung, Hotel, Sightseeing, Bedie- nungsanleitung und Schlagzeilen. In einer explorativen Wizard-of- Oz (WoZ)-Studie (Geutner, Steffens und Manstetten, 2002) wurden Nutzeräußerungen der einzelnen Anwendungen erhoben, auf Basis derer ein SDS entwickelt wurde. Vom Wizard initiierte Nicht-Ver- ständnisse ergaben keine Auswirkungen auf die Fahrerablenkung; Nutzer wiederholten die letzte Äußerungen beziehungsweise formulierten diese um. Anwendungswechsel betrachtete diese Studie allerdings nicht, somit kann nicht abgeleitet werden, wie Menschen bei anwendungsübergreifenden Aufgaben interagieren. Die spätere Im- plementierung von VICO (Geutner, Steffens, Peirlinckx u. a., 2004) er- möglichte allerdings implizite Anwendungswechsel, wobei die Eva- luation lediglich Aufgaben mit einer Anwendung von Versuchsteil- nehmern verlangte. Es wird von unbeabsichtigten Anwendungswech- seln und Fehlerkennungen gesprochen, jedoch erfolgt keine Analyse hinsichtlich menschlichem Verhaltens auf solch einen Fehler noch etwaige Auswirkungen auf die Ablenkung. Eine komplette Abstraktion von Anwendungen, mittels einer einheitlichen, natürlichenUI in Form eines Avatars, wurde im Projekt SmartKom SmartKom entwickelt (Reithinger u. a., 2003). Implizite und explizite Wechsel innerhalb von 14 Anwendungen waren mit dem Gesamt- system möglich, wobei der Fokus nicht auf dem Szenario Fahrzeug lag, sondern vielmehr auf dem Wechsel zwischen privater, mobiler, 2.3 grundlagen und stand der technik 53 und öffentlicher Umgebung. Berton u. a. (2006) übertragen jedoch das mobile Szenario auf den Fahrzeugkontext und implementierten eine Navigations-, Karten- und Parkplatzanwendung, um einen naht- losen Wechsel vom externen Gerät, wie beispielsweise einem PDA, zur Fahrzeug-UI zu zeigen. Hauptaspekte waren hierbei die Integra- tion von und der Wechsel zwischen Geräten, jedoch ohne Evaluation des Systems mit realen Nutzern, beziehungsweise einer Betrachtung des Dialogs im Fehlerfall oder der Ablenkung. Um Missverständnisse und Fehleingaben zu minimieren, analysierte das Projekt CHAT (Weng, Varges u. a., 2006; Weng, Yan u. a., 2007) CHAT unvollständige Referenzeingaben und Füllwörter. Durch ein begrenz- tes Kurzzeitgedächtnis kommt es bei der Auswahl eines langen Lis- teneintrags oftmals zu verkürzten Eingaben durch den Menschen, wie zum Beispiel „Garden Restaurant“ anstatt des vollständigen Lis- teneintrags „Little Garden Restaurant China“. Neben einer Reduzie- rung an Missverständnissen durch diese Methodik, wurden zusätz- lich explizite Verifikationsdialoge zum Grounding genutzt. Ein weiterer wichtiger Punkt des Projektes sind implizite und explizite An- wendungswechsel für die drei Anwendungen Navigation, Musiksu- che und Restaurant (siehe Abschnitt 2.3.2). Auf Grund der Komplexi- tät wurden implizite Anwendungswechsel allerdings nicht standard- mäßig aktiviert. Zusätzlich ist unklar, wie auf Missverständnis oder Nicht-Verständnis beim Anwendungswechsel, einerseits vom SDS, andererseits vom Menschen, reagiert wurde. Im Gegensatz zu den bisher vorgestellten Projekten, und stark im Kontext dieser Arbeit, untersuchte DICO (Larsson und Villing, 2007) DICO Hilfedialoge bei uneindeutigen Nutzereingaben sowie explizite und implizite Anwendungswechsel. Im Fall einer uneindeutigen Nutzerein- gabe gab das DICO-SDS proaktiv Vorschläge der nächstmöglichen Aktionen, abhängig vom aktuellen Dialogzustand. Dies scheint allerdings lediglich innerhalb einer Anwendung möglich und nicht an- wendungsübergreifend. Bei einem Nicht-Verständnis oder Missver- ständnis zeigt sich das SDS wenig kooperativ und wiederholt die Frage mehrmals - eine Verletzung des Punktes 3.4 der Alliance of Automobile Manufacturers (AAM)-Richtlinie, welcher eine Vermei- dung von zeitkritischen Antworten des Nutzers fordert (Driver Fo- cus-Telematics Working Group, 2006). Im Projekt wurde die Frage bearbeitet, wie Menschen untereinander einen Themenwechsel, unter Be- Themenwechsel im rücksichtigung der aktuellen Fahrsituation, initiieren. In einem Nut- zwischenmenschli- zerexperiment beobachteten Villing u. a. (2008), dass Menschen zum chen Dialog Themenwechsel generelle (z.B. „Let’s see“) oder domänenspezifische Phrasen (z.B. „Turn right!) je nach Aufgabe verwenden. In nachfol- gender Arbeit konnte ein, auf die kognitive Belastung des Fahre- res, adaptiertes Verhalten des Beifahrers beim Themenwechsel festgestellt werden (Villing, 2010). Demnach wechseln Beifahrer nur in Si- tuationen geringer kognitiver Belastung des Fahrers das Thema. Zu 54 anwendungsübergreifende mensch-maschine kommunikation

ähnlichen Ergebnissen gelangen Kun, Shyrokov u. a. (2013), welche ebenfalls zwischenmenschliche Dialogunterbrechungen und Wieder- aufnahmen während einer Fahraufgabe analysierten. Es zeigte sich, dass Dialogpartner hauptsächlich explizite Aufgabenwechsel nutzen. Dies könnte jedoch des Experimentdesigns geschuldet sein, da kein Bezug zwischen den Aufgaben bestand. Anders hingegen beim Rück- wechsel auf die vorherige Aufgabe. Hierbei konnten implizite und explizite Aufgabenwechsel festgestellt werden. Wie Tabelle 2.2 zu entnehmen, sind Anwendungswechsel Teil vie- ler Forschungsarbeiten. Die Anzahl implementierter Anwendungen ist jedoch sehr gering, wodurch die Gefahr von Mehrdeutigkeiten oder Fehlerkennungen weniger gegeben ist. Somit ist verständlich, weshalb Missverständnisse und Nicht-Verständnis hauptsächlich innerhalb von Anwendungen behandelt werden, allerdings nicht bei anwendungsübergreifenden Dialogen. Die Reaktion von Nutzern auf Fehler, und dadurch potentiell entstehende Auswirkungen auf die Fahrleistung, analysiert lediglich VICO innerhalb von Anwendungen. Für die Mensch-Fahrzeug-Interaktion bleibt die Frage, wie Nutzer dem SDS Anwendungswechsel mitteilen, das heißt, welche Erwartun- gen an das SDS gestellt werden. Dieses Fragestellung zu beantworten war unter anderem Aufgabe GHS des EU-Projektes GetHomeSafe (GHS)27, in dessen Kontext die vorliegende Arbeit durchgeführt wurde. Zwischen 2012 und 2014 wurde im iterativen Prozess ein natürlich zu bedienendes SDS entwickelt und evaluiert. Es sollte eine sichere Interaktion mit den Internetan- wendungen Hotelreservierung, Facebook28, Schlagzeilen und Wolf- ramAlpha29 (Frage-Antwort) ermöglichen. Neben einer multimodalen natürlichsprachlichenUI (Hofmann, 2014) erfolgte zusätzlich eine explorative Untersuchung des Anwendungswechsels (Reichel u. a., 2014; Reichel, Sohn u. a., 2014), und diverser Hilfestrategien im Feh- lerfall (Reichel u. a., 2015a) - die Ergebnisse sind dem folgenden Kapi- tel zu entnehmen. Eine abschließende Evaluation im realen Fahrzeug zeigte klare Verbesserungen bezüglich Ablenkungsaspekten gegen- über konventionellen fahrzeuginternen Benutzerschnittstellen (Schnee- berger u. a., 2015)

2.4 zusammenfassung und diskussion zwischenmenschli- Wie in Abschnitt 2.1 gezeigt, kommunizieren Menschen unter ande- che Kommuni- rem um Informationen auszutauschen oder Handlungsanweisungen kation zu geben. Einerseits können Menschen Nachrichten durch ihren Mus- kelapparat erzeugen und andererseits durch Sinnesorgane Nachrich- ten empfangen und über kognitive Prozesse interpretieren. Die Nach-

27 http://www.gethomesafe-fp7.eu/ [Online 11.07.2015] 28 https://www.facebook.com [Online 16.07.2015] 29 http://www.wolframalpha.com/ [Online 16.07.2015] 2.4 zusammenfassung und diskussion 55 richten können verbaler und nonverbaler Natur sein, wobei vorliegende Arbeit in erster Linie auf die sprachliche Interaktion eingeht. Wichtig zeigt sich somit die Semiotik, welche Zeichen auf verschiedenen Ebenen definiert, um ein gegenseitiges Verständnis der Kom- munikationspartner zu erreichen. Der Kontext, in welchem die Nach- richt steht, ist entscheidend für die Kommunikation und Reaktion menschlicher Gesprächspartner. Zusätzlich beinhaltet jede Nachricht ein Thema, welches während der Kommunikation beibehalten, abrupt gewechselt oder in ein neues übergeleitet werden kann. Übernimmt nun eine Maschine die Rolle eines Gesprächspartners, muss Mensch-Maschine eineUI zur Interaktion entwickelt werden (siehe Abschnitt 2.2). Diese Interaktion ermöglicht Menschen ihr Interaktionsziel zu erreichen und zu beur- teilen (siehe Interaktionszyklus nach Norman (2002)). Das mentale Modell des jeweiligen Nutzers spielt hierbei eine zentrale Rolle, um notwendige Aktionen zu bestimmen und die Interaktion zu planen. Dieses Modell ist geprägt von Nutzereigenschaften sowie -erfahrungen und unterscheidet sich somit je nach Nutzer. Aus diesem Grund kann man keine optimale und intuitiv bedienbareUI für jeden Nutzer identifizieren. Passt das mentale Modell eines Nutzers, beziehungsweise seiner Situation, Aufgabe oder des zu bedienende Geräts, nicht zurUI und zur eingesetzter Modalität, können Interaktionsfehler auftreten. Zur Führung eines sprachlichen Dialogs zwischen Mensch und Ma- schine ist ein SDS erforderlich. Anfangs existierten rein kommandowortbasierte Systeme zur Auslösung einer Aktion per Sprache. Zu- nehmend ermöglichen Sprachdialogsysteme jedoch, Dialoge mit dem Nutzer zu führen und sie interpretieren natürliche Sprache erfolgreich. Aktuelle Sprachdialogsysteme erlauben dem Nutzer, freie An- fragen zu stellen und in einem gemischt-geführten Dialog das Inter- aktionsziel zu erreichen. Dies setzt jedoch voraus, dass ein Nutzer korrekt antizipiert, beziehungsweise weiß, was ein SDS an Funktiona- lität anbietet und versteht. Frühere Sprachdialogsysteme umfassten, auf Grund technischer Einschränkungen, nur sehr begrenzte Funk- tionalität und erleichterten somit das Lernen der Systembedienung. Ein aktuelles SDS hingegen kann eine Vielzahl an Anwendungen umfassen und erschwert das Lernen möglicher Kommandoworte. Es erfordert daher ein konsistentes Interaktionsschema, welches einen Wechsel zwischen Anwendungen auf natürliche Weise zulässt. Inter- pretiert man eine Anwendung als Thema einer Kommunikation, kön- nen Methodiken, namentlich ein abrupter oder übergeleiteter The- menwechsel, der zwischenmenschlichen Kommunikation als Modell des Anwendungswechsels Verwendung finden. Jedoch ergibt sich bei Anwendungen ähnlicher Funktionalität die Gefahr, eine Nutzeräuße- rung nicht eindeutig einer Anwendung zuordnen zu können. Eben- so steigt mit der Funktionalität die Komplexität von Sprachmodellen und somit die Wahrscheinlichkeit von Fehlerkennungen. Zur Auflö- 56 anwendungsübergreifende mensch-maschine kommunikation

sung von Mehrdeutigkeiten, sowie zur Behebung von Fehlern, müs- sen Sprachdialogsysteme mit mehreren Anwendungen effiziente Feh- lerbehandlungsstrategien einsetzen. Wie gezeigt, existieren viele solcher Strategien zur Auflösung von Missverständnis oder Nicht-Ver- ständnis. In erster Linie sind hierbei implizite sowie explizite Verifika- tion, „MoveOn“ und kontextsensitive „Hilfe mit Beispielen“ zu nennen. Jedoch lassen sich implizite Verifikation und „MoveOn“ nicht bei anwendungsübergreifenden Dialogen nutzen, da der Dialogfortgang nicht sicher bestimmt werden kann. Neben einer natürlichen, intuitiven und gebrauchstauglichen Be- dienung steht im Fahrzeug eine Minimierung der Ablenkung des Fahrers im Vordergrund. Der „multiple resource theory“ zufolge be- einträchtigen sich parallel ausgeführte Aufgaben, welche dieselben Ressourcen benötigen. Dies ist vorteilhaft für Sprachbedienung ge- genüber haptisch-visueller Bedienung, jedoch, speziell bei Fehlerken- nungen sowie unzureichender ASR-Genauigkeit, scheint es kognitiv belastend zu sein. Im Fahrzeug sind bereits seit längerem Sprachdia- logsysteme implementiert, die jedoch bisher hauptsächlich das Prin- zip der Fehlervermeidung verfolgen durch Teleprompter oder system-geführte Dialoge. Sind dies bei geringem Funktionsumfang probate Mittel, ergeben sich bei einem SDS mit mehreren Anwendungen Probleme, wie Mehrdeutigkeiten oder zu umfangreiche Telepromp- ter. Eine Möglichkeit, Fehler zu vermeiden bietet die Integration externer Geräte, da ihre Nutzer das Interaktionsschema in der Regel ab- seits des Fahrzeugs lernen. Einerseits werden dadurch Gerätefunktio- nen zugreifbar, andererseits ermöglicht dies nicht die Bedienung von Fahrzeugfunkionen. Viele Forschungsprojekte beschäftigen sich daher mit der ablenkungsminimierenden sprachlichen Interaktion zwischen Fahrzeug und Fahrer. Wie gezeigt, ist jedoch die Anzahl der Anwendungen gering und somit Fehlerbehandlungen über Anwen- dungsgrenzen hinweg selten ein Kernthema. Dialoge die anwendungsübergreifende Aufgaben modellieren, sind komplex und fehleranfällig und können daher ein erhöhtes Ablen- kungspotential darstellen. Ist dem Nutzer der mögliche Funktions- umfang nicht bekannt, ist zudem die Gefahr von OOA- und OOD- Äußerungen gegeben. Wie in diesem Kapitel aufgezeigt, werden diese Art der Dialoge, sowie Fehlerbehandlungen von OOA- oder OOD- Äußerungen als sekundäre Aufgaben, in der Literatur wenig beachtet. Zudem existieren bisher keine detaillierten wissenschaftlichen Unter- suchungen, wie Fahrer auf Fehler reagieren, wie lange sie zu deren Behebung benötigen und welche Strategien dafür genutzt werden (Ei- Forschungsfragen Wen Lo und Green, 2013). Diese Fragen sind Teil der vorliegenden Ar- beit, der Untersuchung von anwendungsübergreifenden Sprachdia- logen, während des Führens eines Fahrzeuges. Das nächste Kapitel zeigt hierzu Ergebnisse einer Studie zu Anwendungswechseln, Ablen- kungsaspekten nicht-erfolgreicher Wechsel sowie ein Konzept einer 2.4 zusammenfassung und diskussion 57

Hilfestrategie zur Führung des Nutzers im Fehlerfall. Im iterativen Entwicklungszyklus wird anschließend die Hilfestrategie verfeinert und in einer breit angelegten Internetstudie hinsichtlich Gebrauch- stauglichkeit evaluiert. Anschließend werden die besten Konzepte verfeinert und in einer weiteren Studie im Fahrsimulator bezüglich Ablenkungsaspekten analysiert.

STUDIENZUMANWENDUNGSWECHSELUNDZU 3 FEHLERBEHANDLUNGEN

“The ﬁrst step in designing a speech interface is to educate yourself about the ways people speak in the domain of the task.”1 Karat u. a. (2012, S. 377)

Wie in vorherigem Kapitel gezeigt, untergliedern sich Infotainment- Systeme im Fahrzeug hauptsächlich auf Anwendungsebene. Dies ist notwendig, da der vorwiegend visuell-haptischenUI nur eine begrenzte Bildschirmgröße im Cockpit zugemessen werden kann. Mit Einzug von Sprachdialogsystemen ins Fahrzeug gilt diese Einschrän- kung allerdings nur noch begrenzt. Menschen ist es möglich, mittels Sprache komplexe und themen- beziehungsweise anwendungsüber- greifende Dialoge zu führen. Derzeit wird dies von Sprachdialogsys- temen im Fahrzeug allerdings nur rudimentär unterstützt. In diesem Kapitel werden anwendungsübergreifende Sprachdialo- ge für Fahrzeuganwendungen anhand dreier Nutzerstudien analysiert. Dies folgt dem iterativen Entwicklungsprozess nach Harvey u. a. (2011) in Form von jeweils Design - Analyse - Verfeinerung. Eine erste Fahrsimulatorstudie (siehe Abschnitt 3.1) untersucht implizite und explizite Anwendungswechsel hinsichtlich menschlichen Verhaltens, Fahrerablenkung sowie Gebrauchstauglichkeit. Die in der ersten explorativen Studie genutzte Hilfestrategie, zur Führung des Nutzers durch den Anwendungswechsel, wird variiert und in einer zweiten Studie evaluiert. Verschiedene Interaktionsvarianten werden hierbei hinsichtlich Aufgabenerfolg und Gebrauchstauglichkeit untersucht (siehe Abschnitt 3.2). Anhand der Ergebnisse der zweiten Stu- die werden die Hilfestrategien iterativ weiterentwickelt und hinsichtlich Ablenkung im Fahrsimulator in einer dritten Studie analysiert (siehe Abschnitt 3.3). Abschnitt 3.4 fasst schließlich die Ergebnisse der Studien zusammen und formuliert Anforderungen an ein anwen- dungsübergreifendes SDS im Fahrzeug.

3.1 explorative fahrsimulatorstudie

Wie von Karat u. a. (2012) treffend formuliert (siehe obiges Zitat), ist der erste Schritt während der Entwicklung eines Sprachdialogsys- tems, zu beobachten, wie Menschen in der jeweiligen Domäne intera-

1 Übersetzung des Autors: Der erste Schritt zur Entwicklung einer Sprachbedien- schnittstelle ist, zu ergründen, wie Menschen in der Aufgabendomäne sprechen.

59 60 studien zum anwendungswechsel und zu fehlerbehandlungen

gieren. Doch zur Beobachtung der Nutzer ist erst ein System notwendig. Da dessen Entwicklung jedoch eine Beobachtung voraussetzt, kann hier von einem klassischen Henne-Ei-Problem gesprochen werden (Glass u. a., 2000). Im Folgenden wird aus diesem Grund ein an- wendungsübergreifendes SDS mittels Wizard-of-Oz (WoZ)-Methodik implementiert, welches gewisse Systemfunktionalitäten durch einen Menschen ersetzt und somit eine Beobachtung der Interaktion zwischen Nutzer und Fahrzeug ohne vollständige Systementwicklung ermöglicht (Fraser und G.Gilbert, 1991). Eine Korpusanalyse zeigt die verwendeten Arten von Äußerungen zum Anwendungswechsel, die Ausdrucksweise der Nutzer, die Verwendung von anaphorischen Ausdrücken und die Dialogperformanz. Durch simulierte Miss- und Nicht-Verständnisse lässt dies den Schluss zu, wie Fahrer auf Feh- ler beim Anwendungswechsel reagieren, und welche Strategien sie nutzen - ein bisher nicht betrachteter Faktor: „no research has been reported on drivers’ responses to [SDS] errors, how long drivers need to take to correct errors, or what strategies drivers use to correct errors.“2 (Ei-Wen Lo und Green, 2013, S. 7). Wie in Abschnitt 2.3.4 behandelt, erfolgt die Interaktion zwischen Nutzer und Fahrzeug als Sekundäraufgabe, welche sich negativ auf die Primäraufgabe, das Fahren, auswirken kann. Zum Beispiel beobachtet Kun, Paek u. a. (2007) einen negativen Einﬂuss von Spra- cherkennungsfehlern auf die Fahrleistung. Inwieweit sich fehlerhafte Anwendungswechsel auf die Fahrleistung auswirken, untersucht folgende Fahrsimulatorstudie. Neben objektiven Fahrparametern werden Wirkungsgrößen wie subjektive Belastung, Stresslevel, Gebrauch- stauglichkeit und Dialogperformanz betrachtet. Die Durchführung und Auswertung wurde im Zusammenhang des betreuten Psycholo- giepraktikums von Sohn (2014) unterstützt. Teile der nachfolgenden Abschnitte wurden bereits in Reichel u. a. (2014) und Reichel, Sohn u. a. (2014) diskutiert.

3.1.1 Studienkonzept

Auf Basis des Funktionsumfangs von aktuellen Infotainment-Syste- men wurden Szenarien für anwendungsübergreifende Nutzeraufga- ben abgeleitet. Diese werden aus Sicht des Nutzers sowie des zwischenmenschlichen Dialogs betrachtet und in verschiedenen Interak- tionsvarianten implementiert. Es ist davon auszugehen, dass die Vari- anten hierbei unterschiedliche Auswirkungen auf diverse Wirkungs- größen haben, welche in Hypothesen formuliert werden.

2 Übersetzung des Autors: Bisher ﬁnden sich keine wissenschaftlichen Berichte über die Reaktion von Fahrern auf [SDS]-Fehler, wie lange Fahrer benötigen, Fehler zu korrigieren oder welche Strategien Fahrer nutzen, um Fehler zu korrigieren. 3.1 explorative fahrsimulatorstudie 61

3.1.1.1 Anwendungsübergreifende Aufgaben der Nutzer Ein entscheidender Punkt eines Nutzerexperiments sind die von der Versuchsperson zu absolvierenden Aufgaben. Im realen Systemein- satz entstehen diese aus der Situation, wogegen ein kontrolliertes Ex- periment eine klare Aufgabenstellung erfordert. Um die Ergebnisse des Experiments auf reale Situationen übertragen zu können, müs- sen die Aufgaben möglichst realitätsgetreuer Natur sein (Bernsen u. a., realitätsgetreue 1997). Hierfür wurde die Funktionalität moderner Infotainment-Sys- Aufgaben teme analysiert. Daraus werden acht anwendungsübergreifende Sze- narien zusammengestellt (siehe Tabelle 3.1). Ein Szenario besteht aus einer Dreier-Kombination von Funktionen verschiedener Anwendun- gen. In Aufgabe Nummer 5 zum Beispiel soll die Versuchsperson als erste Teilaufgabe die Navigation zum Brandenburger Tor in Ber- lin starten und anschließend ein chinesisches Restaurant entlang der Route suchen. Das gefundene Restaurant soll daraufhin in das Adress- buch übernommen werden (siehe AnhangA. 1.1 für Beispieldialoge).

Nr. Anwendung 1 Anwendung 2 Anwendung 3

1 Point-of-Interest_i Restaurant_i Telefon_a (Ort, Kategorie) (NähePOI, Küche) (Restaurant) 2 Wissen_i Wetter_i Navigation_a (Berg, Land) (Ort, Schneelage) (Adresse) 3 Wetter_i Hotel_a Adressbuch_a (Datum, Ort) (Ort, Dauer) (Hotel) 4 Radio_a Schlagzeilen_i eMail_a (Genre) (Sänger, Tag) (Artikel, Adressat) 5 Navigation_a Restaurant_i Adressbuch_a (Stadt, POI) (Route, Küche) (Restaurant) 6 Schlagzeilen_i Internetradio_a Facebook_a (Thema) (Interpret) (Song) 7 Schlagzeilen_i Wissen_i Währungsrechner_a (Thema) (BIP, Land) (Betrag, Währung) 8 Navigation_a Benzinpreis_i Reichweite_i (Ort) (Land1, Land2) (Tankstelle)

Tabelle 3.1: Anwendungsübergreifende Aufgaben mit Klassiﬁkation der Tei- laufgaben (i=Informationsanfrage, a=Aktionsausführung) und erforderlichen Parametern. Unterstrichene Parameter symboli- sieren die Werteübergabe zwischen Anwendungen.

Die Teilaufgaben wurden in Informationsanfrage (_i) und Aktions- ausführung (_a) klassifiziert. Dies basiert auf der Klassifikation nach Aufgabenklas- Kellar u. a. (2006), welche Nutzeraufgaben in Informationsanfrage sifikation 62 studien zum anwendungswechsel und zu fehlerbehandlungen

(engl. information seeking), Informationsaustausch (engl. information exchange) und Informationserhaltung (engl. information maintenance) untergliedern. Im Fahrzeugkontext ist Informationserhaltung (z.B. Wartung von Webseiten) eher nebensächlich und wird in dieser Arbeit daher mit Aufgaben des Informationsaustausches zusammengefasst. Zur deutlicheren Unterscheidung wird diese Art der Aufga- ben im Folgenden als Aufgaben zur Aktionsausführung bezeichnet. Sie umfassen somit Teilaufgaben, welche eine Anweisung an das In- fotainment-System enthalten, wie zum Beispiel das Radio anzuschal- ten. Wie aus Tabelle 3.1 ersichtlich, benötigen Teilaufgaben bestimmte Parameter Parameter (z.B. eine Stadt wie Berlin) zur Aktionsausführung, beziehungsweise, um eine Informationsanfrage zu beantworten. Da sich diese Arbeit lediglich mit dem Starten einer Teilaufgabe und dem Wechsel zwischen Anwendungen beschäftigt, sind Funktionen innerhalb von Anwendungen oftmals vereinfacht. Einerseits erfolgen Ver- einfachungen in der Anzahl der geforderten Parameter, andererseits in der Akzeptanz von Parametern und deren Werten (z.B. erkennt das Telefon anstatt der Telefonnummer auch direkt den Namen des anwendungsüber- Restaurants). Einen zentralen Punkt stellen die Parameter der Werte- greifende übergabe zwischen Anwendungen dar (in Tabelle 3.1 unterstrichen dar- Parameterübergabe gestellt). Diese sorgen für einen natürlichen Dialogverlauf durch eine inhaltliche Verbindung der Teilaufgaben. Das Ergebnis, beziehungsweise die Antwort der vorherigen Teilaufgabe, wird als Parameter der folgenden benötigt. Zum Beispiel soll die Versuchsperson in Auf- gabe 7 das Bruttoinlandsprodukt zu dem im Nachrichtenartikel genannten Land erfragen. Innerhalb einer Teilaufgabe reagiert das SDS wie vom Nutzer erwartet, wogegen als Antwort auf erforderliche An- wendungswechsel verschiedene Interaktionsvarianten umgesetzt und evaluiert werden.

3.1.1.2 Interaktionsvarianten des Anwendungswechsels Der Start einer Anwendung, beziehungsweise ein Anwendungswech- sel, kann nutzer-initiiert auf zwei unterschiedliche Arten erfolgen; ei- Explizite & nerseits explizit, andererseits implizit (siehe Abschnitt 2.3.2). Bei einer implizite Anwen- expliziten Anwendungsselektion müssen Nutzer den Kontext der An- dungsselektion wendung setzen, bevor sie ihre eigentliche Aufgabe absolvieren kön- nen. Folgende Interaktion kann als Beispiel einer expliziten Anwen- dungsselektion gesehen werden:

Nutzer: „Wechsel zur Restaurantanwendung.“ System: „Restaurantanwendung, was möchten Sie?“ Nutzer: „Eine Pizzeria in Berlin bitte“ Eine implizite Anwendungsselektion ermöglicht die Ausführung der Aufgabe direkt, ohne den Kontext setzen zu müssen. Ein Beispiel hier- für wäre folgende Äußerung: 3.1 explorative fahrsimulatorstudie 63

Nutzer: „Suche mir eine Pizzeria in Berlin.“ Durch die begrenzte Bildschirmgröße eines hauptsächlich visuell um- gesetzten Infotainment-Systems oder Smartphones, und der damit verbundenen Untergliederung in Anwendungen, ist eine explizite Anwendungsselektion ein gebräuchliches Interaktionsschema für diese Geräte. Hauptsächlich sprachbasierte Umsetzungen hingegen, wie zum Beispiel persönliche Assistenten (Apple Siri3 oder Microsoft Cort- ana4), nehmen diese Untergliederung weniger vor und ermöglichen implizite Selektion bestimmter Anwendungen. Speziell im Fahrzeug kann dies von Vorteil sein, da tendenziell weniger Dialogschritte be- nötigt werden, um eine Aufgabe auszuführen. Eine implizite Anwendungsselektion stellt hohe Anforderungen an Anforderungen an ein SDS, da eine Vielzahl möglicher Aufgaben global verfügbar ist. ein SDS Dies resultiert in komplexen Modellen für die Spracherkennung sowie des Sprachverständnis, welche anfällig für Fehlerkennungen und Fehlinterpretationen werden (Carstensen u. a., 2010). Zusätzlich kön- nen Mehrdeutigkeiten bezüglich ähnlicher Anwendungen auftreten, wie zum Beispiel eine Äußerungen „Nachrichten abrufen“, welche die aktuellen Schlagzeilen oder eMails meinen könnte. Wie in Ab- schnitt 2.3.3 gezeigt, kann ein SDS verschieden auf solche Äußerun- Kap 3: Interaktionsvariantengen reagieren und OOD Fehlerbehandlungsstrategien Studie anwenden.

Impliziter Anwendungswechsel

keine OOA-Erkennung OOA-Erkennung

Erwartete Missverständnis Nicht-Verständnis Dialoginitiativen- Reaktion (ER) (MU) (NU) wechsel (DIS)

Abbildung 3.1: Varianten der Reaktion auf einen impliziten Anwendungs- wechsel (rot).

In dieser Studie wurden vier verschiedene Systemreaktionen auf implizite Anwendungswechsel untersucht, welche Abbildung 3.1 zu entnehmen sind (Beispieldialoge ﬁnden sich in AnhangA. 1.1). In erster Linie kann zwischen einer OOA-Erkennung (wie im allgemeinen OOD-Fall von z.B. Ryu u. a. (2014) gezeigt) und keiner OOA-Erken- nung unterschieden werden. Besitzt ein SDS eine OOA-Erkennung, werden Äußerungen, die im aktuellen Kontext nicht richtig interpretiert werden können, identiﬁziert und darauf angemessen reagiert.

3 https://www.apple.com/ios/siri/ [Online 27.12.2014] 4 http://www.windowsphone.com/en-us/how-to/wp8/cortana/meet-cortana [Online 27.12.2014] 64 studien zum anwendungswechsel und zu fehlerbehandlungen

Ist keine OOA-Erkennung vorhanden, werden Äußerungen im aktuellen (falschen) Anwendungskontext interpretiert. Unterstützt ein SDS implizite Anwendungswechsel, sind anwendungsübergreifende Äußerungen im Kontext enthalten, und das System reagiert wie vom Interaktions- Nutzer erwartet, welches die Interaktionsvariante Erwartungskonfor- varianten me Systemreaktion (ER) simuliert. Wird ein impliziter Anwendungs- wechsel vom SDS nicht unterstützt, hat dies eine Fehlerkennung, eine falsche Interpretation und somit eine fehlerhafte Kommunikation zur Folge. Skantze (2007) unterscheidet hierbei zwischen Missverständ- nis (MU, engl. MisUnderstanding) und Nicht-Verständnis (NU, engl. Non-Understanding). ImMU-Fall wird die Anfrage, die Anwendung zu wechseln, im Kontext der aktuellen Anwendung interpretiert und beantwortet, wogegen imNU-Fall der Fehler von der OOA-Erken- nung erkannt und die Anfrage zurückgewiesen wird. Diese Zurück- weisung erfolgt durch eine Entschuldigung sowie einer Aufforderung zur Umformulierung und ist somit eine Kombination der Fehlerbe- handlungsstrategien „Notify“ und „AskRephrase“ von Bohus und Rudnicky (2005). Die einzige Möglichkeit für einen Nutzer in den MU- oderNU-Varianten einen Aufgabenerfolg zu erlangen, ist durch einen expliziten Anwendungswechsels. Ein Ansatz zur Sicherung des Aufgabenerfolgs, trotz nicht vorhandenen impliziten Anwendungs- wechsels, bietet ein Dialoginitiativenwechsel (DIS, engl. Dialog Initia- tive Switch). In dieser Variante übernimmt das SDS die Dialogfüh- rung und führt den Nutzer durch den Anwendungswechsel. Imple- mentiert wird hierzu die „Notify“ und „YouCanSay“ Strategie nach Bohus und Rudnicky (2005), welche eine Präsentation der möglichen Kommandos vorsieht. Dies ermöglicht dem Nutzer, zuerst die An- wendung und Funktion auszuwählen, um anschließend Beispieläu- ßerungen vorgelesen zu bekommen. Nach Wechsel der Anwendung wird die Dialogführung zurück an den Nutzer gegeben.

3.1.1.3 Wirkungsgrößen der Interaktionsvarianten Zur Bewertung der Gebrauchstauglichkeit von Infotainment-Syste- men entwickelten Harvey u. a. (2011) ein Toolkit, welches aus 70 Eva- luationsmethodiken die passendsten identiﬁzierte. Für experimentel- le Studien sind dies in erster Linie objektive Daten wie die Leistung der Versuchsperson in Primär- und Sekundäraufgabe. Zusätzlich geben subjektive Daten Aufschluss über das Empﬁnden der Versuchs- person und ihrer Einstellung gegenüber dem System. Auf Basis des Toolkits wurden folgende Wirkungsgrößen zur Analyse der Interak- tionsvarianten ausgewählt:

Fahrleistung: Wie in Abschnitt 2.3.4 beschrieben, können sich se- kundäre Aufgaben, wie das Bedienen von Infotainment-Syste- men, negativ auf die Fahrleistung auswirken. Die Fahrleistung wird deﬁniert durch Geschwindigkeit, Fahrzeugposition auf der 3.1 explorative fahrsimulatorstudie 65

Straße und Reaktion auf Ereignisse (SAE International, 2013; Harvey u. a., 2011). Diese Faktoren werden durch die Bedienung von Gas- und Bremspedal sowie Lenkung beeinflusst. Besonde- re Schwierigkeit besteht bei realen Fahrsituationen das jeweilige Signal zu separieren und trotz Rauschen in den Daten Ver- änderungen zu identifizieren (SAE International, 2013). Mahr u. a. (2012) raten daher zu einer strikter kontrollierten Fahrum- gebung, um die Variabilität der Daten zu senken. Darauf basierend wird in dieser Studie die Fahrleistung über die Spur- haltung, Reaktionszeit und Angemessenheit der Reaktion definiert.

Subjektive Belastung: Neben der objektiven Fahrleistung ist die vom Fahrer empfundene Belastung ein wichtiger Indikator für die Qualität eines Sprachdialogsystems. Eine Befragung der Ver- suchspersonen mittels „Driver Activity Load Index (DALI)“- Fragebogen (Pauzié u. a., 2007) ermöglicht eine Einschätzung hinsichtlich der Dimensionen globale Aufmerksamkeit, auditive Anforderungen, Stress, Interferenz zwischen primärer und se- kundärer Aufgabe, sowie zeitlichen Anforderungen (siehe An- hangA. 1.4). Der DALI-Fragebogen ist hierbei ein auf die Fahr- aufgabe angepasste Variante des NASA-TLX (Task Load)-Fra- gebogens nach Hart und Staveland (1988). In der vorliegenden Arbeit wird eine deutsche Übersetzung des DALIs verwendet (siehe Hofmann (2014)).

Stresslevel: Neben subjektiven Einschätzungen durch eine Dimen- sion des DALI-Fragebogens, kann das Stresslevel des Fahrers über physiologische Sensoren erhoben werden (Schneegass u. a., 2013; Mehler u. a., 2012; Solovey u. a., 2014). Der Hautleitwert ist dabei einer der zuverlässigsten Faktoren, Stress zu detektieren (Healey und Picard, 2005).

Gebrauchstauglichkeit: Zur Beurteilung der Gebrauchstauglichkeit von Sprachdialogsystemen existieren bereits eine Vielzahl an verschiedenen Methodiken. Einen umfassenden Überblick liefern Möller (2005) und Möller (2010). Der „Subjective Assess- ment of Speech System Interfaces (SASSI)“-Fragebogen (Hone und Graham, 2000) deckt den Großteil durch folgende Dimen- sionen ab: Genauigkeit der Systemantwort, Beliebtheit, kognitive Anstrengung, Ärgernis, erkennbares konzeptionelles Modell und Schnelligkeit. In der vorliegenden Arbeit wird eine deutsche Übersetzung des SASSIs verwendet (siehe Strauss (2010)).

Dialogperformanz: Neben subjektiven Einschätzungen durch die Gebrauchstauglichkeit, lassen auch objektive Interaktionspara- meter einen Schluss über die Qualität eines Sprachdialogsys- tems zu (Möller, 2010). In dieser Studie werden die Dimensio- 66 studien zum anwendungswechsel und zu fehlerbehandlungen

nen Aufgabenerfolg, Antwortzeit des Nutzers sowie die Dauer der Nutzer- und Systemäußerungen analysiert.

3.1.1.4 Hypothesen Die genannten Interaktionsvarianten des Anwendungswechsels werden hinsichtlich verschiedener Wirkungsgrößen in einem Nutzerex- periment analysiert. Zusätzlich werden die Varianten zu einer Situa- tion ohne Bedienung des Sprachdialogsystems verglichen, im Folgen- Baseline den Baseline (B) genannt. Dies zeigt auf in welchem Ausmaß das SDS die Primäraufgabe beeinflusst (Harvey u. a., 2011). Zu Beginn und zu Ende des Experiments wird eine Baseline-Fahrt absolviert, um mögliche Lerneffekte während des Experiments zu identifizieren. Durch eine vorherige Trainingszeit im Simulator und dem Besitz eines gültigen Führerscheins ist davon auszugehen, dass zwischen beiden Baseline-Fahrten keine signifikanten Unterschiede auftreten (Hy- pothese 1).

Nr. Hypothese Beschreibung

H1 B1 = B2 es existieren keine sig. Unterschiede zwischen Baseline-Fahrten

H2 ER = BX ER weist keine sig. Unterschiede zu Baseline auf H3 ER > (MU, NU) ER ist sig. besser als MU oder NU H4 NU > MU NU ist sig. besser als MU H5 ER > DIS > (MU, NU) DIS liegt zwischen ER und MU, NU

Tabelle 3.2: Hypothesen zu verschiedenen Varianten des Anwendungswech- sels (sig. = signiﬁkant).

Hypothesen Tabelle 3.2 ist eine Übersicht der Hypothesen zu entnehmen. Auf Grund der Implementierung im SDS als rein sprachliche Modalität, und der direkten Ausführung der Anwendungen sollten sich die Fahrleistung und kognitiven Belastungen von derER auf demselben Niveau wie die der Baseline-Fahrten beﬁnden (Hypothese 2). Basie- rend auf Arbeiten von Gärtner u. a. (2001) und Kun, Paek u. a. (2007) kann davon ausgegangen werden, dass bei einer nicht-erwartungskonformen Systemantwort, wie bei den VariantenMU undNU, die kognitive Belastung steigt, und dadurch diese Varianten schlechter abschneidet (Hypothese 3). Hypothese 4 zieht einen Vergleich der Va- riantenMU undNU, wobei nach Bohus und Rudnicky ( 2001)NU signiﬁkant besser alsMU bewertet werden sollte, da beiMU das SDS falsche Information nutzt und eine Korrektur durch den Nutzer erfolgen muss.NU hingegen gibt eine Erklärung sowie einen Lösungs- vorschlag. Auf Dauer könnte dies allerdings zur Frustration des Nut- zers führen. Eine interessante Fragestellung dieses Experiments ist, 3.1 explorative fahrsimulatorstudie 67 ob der DIS als erfolgreiche Strategie zur Antwort auf OOA-Anfragen im Fahrzeug-SDS eingesetzt werden kann. Es wird davon ausgegangen, dass die Variante DIS schlechter als die VarianteER, aber besser als die VariantenMU undNU abschneidet (Hypothese 5).

3.1.2 Aufbau und Durchführung des Experiments

Die Situation, in welcher sich ein Nutzer befindet, kann Einfluss auf die Interaktion mit dem SDS haben. Aus diesem Grund sollte ein Nutzerexperiment unter möglichst realen Bedingungen durchgeführt werden (Bernsen u. a., 1997). Die Durchführung eines Ablenkungs- experiments im realen Straßenverkehr ist allerdings, auf Grund von Sicherheitsaspekten (Harvey u. a., 2011) und fehlender Kontrolle der Situation (Mahr u. a., 2012), nicht sinnvoll. Daher wird für die Durch- führung dieses Experiments ein Fixed-Base-Fahrsimulator verwendet. Fixed-Base- Abbildung 3.2 zeigt die Fahrgastzelle, den Bildschirm zur blickfeld- Fahrsimulator ausfüllenden Fahrsimulation und den Arbeitsplatz des Versuchslei- ters (Wizards). Gesteuert wird die Umgebung von einem Computer, welcher einerseits die Fahrsimulation (vgl. Abschnitt 3.1.2.1) und andererseits das SDS (vgl. Abschnitt 3.1.2.3) ausführt. Dies ermöglicht einen direkten Vergleich der Messdaten anhand von eindeutigen Zeit- stempeln. Wie in Abschnitt 2.3.4 beschrieben, erfordern weitere Mo- dalitäten, wie zum Beispiel visuelle oder haptische, menschliche Res- sourcen und interferieren mit anderen Aufgaben. Um solche Interfe- renzen zu vermeiden, wird in diesem Experiment auf eine visuelle Darstellung im Zentraldisplay des Fahrzeugs verzichtet. Zusätzlich würde eine visuelle Darstellung unter Umständen die Wortwahl der Versuchspersonen durch dargestellte Begriffe beeinflussen.

Abbildung 3.2: Fahrsimulator mit Bildschirm und Wizard Arbeitsplatz.

3.1.2.1 Fahrsimulation mit OpenDS und ConTRe Task Anhand des Datensatzes der Vorstudie von Hofmann, Silberstein u. a. (2014) wurden Dialog- und ASR-Fehler in Bezug zu Fahrleistungen 68 studien zum anwendungswechsel und zu fehlerbehandlungen

„Lane Change“ Test gesetzt (gemessen mit dem „Lane Change“ Test (Mattes, 2003)). Dies zeigte nur geringe Anzeichen einer Auswirkung von Dialogfehlern auf die Fahrleistung, identiﬁzierte allerdings ein Problem des „Lane Change“ Tests. Viele Dialogfehler konnten keine Auswirkung auf die Fahrleistung haben, da sie zwischen zwei Fahrspurwechseln eintra- ten, und somit keine Aufmerksamkeit des Fahrers erforderlich war. Der „Lane Change“ Test ist somit für diese Art der feingranularen Analyse nicht geeignet. Es ist eine Fahraufgabe, welche dauerhaft die Aufmerksamkeit des Fahrers erfordert, notwendig. Der Continuous Tracking and Reaction Task (ConTRe Task) nach Mahr u. a. (2012) erfordert solch eine dauerhafte und konstante Aufmerksamkeit durch Lenkbewegungen und Reaktionen auf Ereignisse.

Abbildung 3.3: Continuous Tracking and Reaction Task (ConTRe Task) nach Mahr u. a. (2012). Entwickelt und lizenziert im GHS-Projekt.

ConTRe Task als Abbildung 3.3 zeigt die Fahrsimulation mit ConTRe Task. In kon- Fahraufgabe stantem Abstand zum Fahrzeug beﬁndet sich ein blauer Lenkzylin- der, ein gelber Zylinder und eine Ampel. Der gelbe Zylinder bewegt sich unvorhergesehen nach links und rechts, wobei der Fahrer durch Lenkbewegungen den blauen Zylinder deckungsgleich halten muss. Dies ist vergleichbar mit der Fahrt auf einer kurvenreichen Stre- cke und erfordert somit konstante Lenkkorrekturen. Ein wichtiger Aspekt im Straßenverkehr ist die Reaktion auf plötzliche Ereignisse. Dies wird durch eine Ampel über den Zylindern simuliert, welche in zufälligen Abständen rot oder grün anzeigt. Als Reaktion auf ein grü- nes Licht muss der Fahrer schnellstmöglich das Gaspedal betätigen, entsprechend bei rot das Bremspedal. Da sich das Fahrzeug konstant mit 50km/h bewegt, ist ein Betätigen der Pedale lediglich als Reak- tion auf Ampelereignisse erforderlich. Nach SAE International (2013) ist die Ursprungsposition des Fußes entscheidend, wie schnell eine jeweilige Pedalreaktion erfolgen kann. Aus diesem Grund werden die Versuchspersonen angewiesen, ihren Fuß leicht auf dem Gaspedal zu halten. Dies führt zu schnelleren Reaktionszeiten auf ein grünes Licht, kann allerdings bei der Auswertung berücksichtigt werden. Der Con- TRe Task ermöglicht verschiedene Schwierigkeitsgrade, wobei in die- 3.1 explorative fahrsimulatorstudie 69

ser Studie die schwierige Einstellung „hard driving“ nach Mahr u. a. (2012) gewählt wird. Als Ausführungsumgebung für den ConTRe Task ist die Fahrsimu- lation OpenDS5 geeignet (Math u. a., 2012) - Vorabversion, entwickelt OpenDS als und lizenziert im GHS-Projekt. Neben physikalischer Fahrsimulation Fahrsimulation und Erstellung einer virtuellen Welt beinhaltet OpenDS umfangreiche Protokollmechanismen. Eine hohe Genauigkeit der Auswertung wird durch die Erstellung eines Datensatzes ca. alle 3ms garantiert. Zur Anbindung des Fahrsimulators wurde ein Modul entwickelt, welches CAN-Daten der Lenkradposition und des Pedalstatus aufberei- tet und über eine Socketverbindung OpenDS zur Verfügung stellt.

3.1.2.2 Elektrodermale Aktivität (EDA) als Indikator für Stress Wie erwähnt, wird der Hautleitwert, auch ElektroDermale Aktivi- tät (EDA) genannt, von kognitiver Belastung, Erregung und Stress beeinflusst. Die EDA bezieht sich auf die veränderlichen elektrischen elektrische Eigenschaften der menschlichen Haut als Antwort auf Schweißabsonde- Eigenschaften der rungen (einen Überblick liefern Boucsein u. a. (2012)). Die Leitfähig- Haut keit der Haut wird mittels zweier Elektroden ermittelt, über welche eine konstante Spannung angelegt und somit der Strom gemessen werden kann. Die Angabe des Leitwerts erfolgt in µS (Mikrosiemens). Zur Auswertung kann zwischen dem Hautleitwertsniveau (SCL, engl. Skin Conductance Level) und der Hautleitwertsreaktion (SCR, engl. Skin Conductance Response) unterschieden werden (Schandry, 1998). SCL verändert sich langsam über die Zeit und ist intra- und inter- individuell sehr unterschiedlich. SCR hingegen reagiert kurzzeitig auf einzelne Reize und führt zu einer charakteristischen Amplitude. In dieser Studie interessieren in erster Linie die Einflüsse von nicht- erwartungskonformen Systemantworten, welche als Reize aufgefasst werden können, und somit eine Analyse der SCR verlangen. Zur Messung der EDA wird der tragbare Rekorder Varioport der Fir- EDA-Messung ma Becker Meditec eingesetzt. Elektroden können nach Boucsein u. a. (2012) an Fußsohle, Fingerspitze oder Handfläche angebracht werden und sollten möglichst konstantem Druck und Temperatur ausgesetzt werden. Durch die Reaktions- und Lenkaufgabe sind somit Fußsoh- le sowie Handfläche ausgeschlossen, und die Elektroden werden an den Fingerspitzen des Mittel- und Ringfingers angeklebt und mittels Klettband fixiert. Zwischen Elektrode und Finger stellt ein elektroly- tisches Gel die Verbindung her. Die Messung des Leitwerts erfolgt durch Anlegen einer Gleichspannung von 0,5 Volt über den Vario- port-Rekorder, welcher das Signal mit 64Hz abtastet und als 16Bit- Wert auf die interne SD-Karte schreibt. Über einen externen Tastgeber können vom Versuchsleiter Markierungen in die Messaufzeichnung eingefügt werden. Dies erleichtert durch Synchronisationspunkte mit anderen Daten die spätere Auswertung.

5 http://opends.eu/ [Online 30.12.2014] 70 studien zum anwendungswechsel und zu fehlerbehandlungen

3.1.2.3 Implementierung des Sprachdialogsystems als Wizard-of-Oz Ein reales SDS benötigt entweder Lexika und Grammatiken oder aber trainierte Sprachmodelle. Ist dies bei einfachen, system-geführ- ten Dialogen mit wenigen Kommandoworten noch vergleichsweise unkompliziert umzusetzen, gestaltet sich die Entwicklung von na- türlichsprachlichen, nutzer-geführten Dialogen mit mehreren Anwen- dungen als aufwendig (Carstensen u. a., 2010). Für ein solch komple- Wizard-of-Oz xes SDS kann in einer erster Evaluationsphase ein WoZ-Experiment Experiment hilfreiche Erkenntnisse über die Interaktion zwischen Mensch und zukünftigem SDS liefern (Bernsen u. a., 1997). Hierbei werden Teile des Systems, wie zum Beispiel die ASR und das SLU, durch einen speziell geschulten Versuchsleiter (Wizard) ersetzt. Ein WoZ-Expe- riment ist zwar hinsichtlich Planung und Datenanalyse aufwendig, doch die erhobenen Korpusdaten können direkt in die Entwicklung einer Grammatik einfließen oder für das Training eines statistischen Sprachmodells genutzt werden (Glass u. a., 2000). Zusätzlich werden Fehlinterpretationen minimiert, beziehungsweise entstehen lediglich als Resultat falscher Wizard-Reaktionen oder auf Grund fehlerhafter Planung. Ein wichtiger Aspekt eines WoZ-Experiments ist, dass die Versuchsperson von einem realen System ausgeht, da ein Unterschied zwischen zwischenmenschlicher und Mensch-Computer-Kommuni- kation besteht (Fraser und G.Gilbert, 1991). Aus diesem Grund wird sichergestellt, dass Versuchspersonen die Interaktion des Wizards mit dem System, wie beispielsweise Mausklicks, nicht wahrnehmen kön- nen. Um die Illusion der Interaktion mit einem Realsystem aufrecht zu halten, werden Systemantworten mittels TTS generiert (NUANCE Vocalizer Expressive6, Version 1.2.1, Stimme: anna.full). Herausforderungen für den Wizard sind einerseits eine konsistente Reaktion über das gesamte Experiment hinweg zu garantieren, andererseits eine schnelle Reaktionszeit zu gewährleisten. Beispielsweise sollte ein SDS innerhalb von zwei Sekunden nach Ende einer Nutzer- äußerung reagieren (Fried und Edmondson, 2006). Beides wird durch SUEDE als SDS- Softwareunterstützung erreicht. Das Tool SUEDE von Klemmer u. a. Ersatz im (2000) ermöglicht einerseits eine Spezifikation des Dialogverlaufs und WoZ-Experiment andererseits eine Arbeitsumgebung für den Wizard (siehe Anhang A.1.2). Die Spezifikation des Dialogs wird in SUEDE mittels Zustands- diagrammen erreicht. Hierbei sind Systemausgaben als Zustände (in der Farbe Orange dargestellt), und potentielle Nutzeräußerungen als Kanten zwischen Zuständen umgesetzt (in grün dargestellt). Wäh- rend des Versuchs dient SUEDE als SDS, in welchem die ASR und das SLU durch den Wizard ersetzt werden. Hierzu werden dem Wi- zard, abhängig vom Dialogzustand, die möglichen Äußerungen als Links dargestellt. Nach jeder Nutzeräußerung klickt der Wizard den passenden Link, und SUEDE wechselt in den nächsten Dialogzustand

6 http://www.nuance.com/for-business/mobile-solutions/ vocalizer-expressive/ [Online 27.12.2014] 3.1 explorative fahrsimulatorstudie 71 und spielt der Versuchsperson die synthetisierte Systemantwort vor. Für eine spätere Analyse wird der Dialog und die Nutzeräußerung gespeichert. Dieses Experiment erforderte eine Anpassung von SUE- DE an die aktuelle Java-Version und Implementierungen für Schnitt- stellen zur TTS, sowie zur automatischen Protokollierung in OpenDS. Alle in Abschnitt 3.1.1.1 dargestellten anwendungsübergreifenden Aufgaben wurden in jeder Interaktionsvariante mit SUEDE implemen- SUEDE Dialogim- tiert. Wie erwähnt, erfordert jede Teilaufgabe 2 bis 4 Parameter, wel- plementierung che der Nutzer eingeben muss. Neben einer sequentiellen Eingabe (z.B. „Navigation“), können auch alle in einer Äußerung eingegeben werden (z.B. „Navigiere mich nach Berlin zum Brandenburger Tor“). Für jede Kombination an möglichen Parametern ist ein Dialogzu- stand implementiert, welcher die potentiell fehlenden Parameter ab- fragt. Nach Eingabe aller Parameter enden alle Dialogpfade in einem gemeinsamen Zustand, von welchem aus ein Anwendungswechsel stattﬁnden kann. Etwaige Meta-Dialogäußerungen, wie zum Beispiel eine Systemäußerung erneut vorzulesen, können über Schaltﬂächen vom Wizard in jedem Dialogzustand initiiert werden.

3.1.2.4 Teilnehmer des Experiments Vor Durchführung eines Experiments ist es entscheidend, die Popu- lation der Versuchsteilnehmer zu definieren. Faktoren wie zum Bei- spiel Alter, Geschlecht, Bildung können einen Einfluss auf die Wir- kungsgrößen haben. Aus diesem Grund ist es essentiell, die Popu- lation ähnlich der Grundgesamtheit, das heißt, ähnlich der späteren Systemnutzer, auszuwählen (Lazar u. a., 2010). Die Definition der Po- Definition der pulation für dieses Experiment basiert auf Ergebnissen der National Population Highway Traffic Safety Administration (NHTSA) (2013), welche töd- liche Unfälle im Jahr 2011 analysierte. Diese Analysen zeigten, dass 73% der durch Handynutzung abgelenkten Fahrer unter 40 Jahren alt sind. Somit ergibt sich als Zielgruppe für dieses Experiment eine Altersgruppe von 18 bis 40 Jahren, ausgeglichen im Geschlecht und im Besitz eines gültigen Führerscheins. Die Akquise der Versuchsteil- nehmer erfolgt durch persönliche Ansprache, eMails und Facebook- Nachrichten. Zur Hälfte werden Daimler-Mitarbeiter gewählt, welche das Experiment während der Arbeitszeit durchführen; externe erhalten eine Aufwandsentschädigung in Höhe von 30 Euro.

3.1.2.5 Ablauf pro Teilnehmer Wie von Bernsen u. a. (1997) empfohlen, wurde mittels Vortests iterativ ein Versuchsablauf erstellt, um die Hypothesen (vgl. Abschnitt 3.1.1.4) zu prüfen. Jede Versuchsperson wird zu Beginn begrüßt, er- hält einen Versuchsüberblick und muss zur Teilnahme einwilligen. Anschließend werden die Elektroden der EDA-Messung an Mittel- und Ringﬁnger geklebt, um vor der ersten Messung eine ausreichen- 72 studien zum anwendungswechsel und zu fehlerbehandlungen

de Zeit zur thermalen Anpassung und Bildung einer Feuchtigkeits- schicht zu gewährleisten. Abbildung 3.4 kann der weitere Ablauf ent- nommen werden. Durch einen Vorbefragungsbogen wird ein Profil der Versuchsperson erstellt sowie allgemeine Fragen zum Anwen- dungswechsel und zur Technikaffinität gestellt (siehe AnhangA. 1.3). Einer Einführung in den Fahrsimulator mit anschließender Trainings- phase folgt die erste Baseline-Fahrt. Nach jeder Fahraufgabe füllt die Versuchsperson einen DALI-Fragebogen zur subjektiv empfundenen Belastung aus (siehe AnhangA. 1.4). Daraufhin folgt die erste Interaktion mit dem SDS in Form von vier Explorationsaufgaben, welche einen impliziten und expliziten Anwendungswechsel ermögli- chen. Zum SDS erfolgt keinerlei Erklärung, außer es durch die Äuße- rung „Start“ zu aktivieren, worauf ein Earcon zur Eingabe animiert. Anschließend führt die Versuchsperson die Aufgabe aus, die sie zuvor vom Versuchsleiter erhalten hat. Bernsen u. a. (1997) schlagen vor schriftliche oder grafische Aufgabenbeschreibungen zu geben. Grafi- sche sind jedoch für umfangreiche Aufgaben schlecht geeignet. Bei schriftlichen muss auf Priming-Effekte geachtet werden, welche in vorliegender Studie durch unterschiedliche Formulierungen und vergleichsweise langen Texten minimiert werden. Eine jede Aufgabe besteht aus einer zusammenhängenden Geschichte, so dass Versuchs- personen sich diese einprägen können, da die Aufgabenerklärung nicht während des Versuchs zugänglich ist. Nach einer Gewöhnung an das SDS erfolgt eine Beurteilung mittels SASSI-Fragebogen (siehe Strauss (2010)). Während der anschließenden Experimentperiode wird jede Interaktionsvariante ausgeführt und mit DALI- und SASSI- Fragebogen bewertet. DALI- und SASSI-Fragen werden jeweils auf einer 7-stufige Likert-Skala bewertet. Die DALI-Bewertung erfolgt von „gering“ (-3) bis „hoch“ (+3) und SASSI von „starke Ablehnung“ (-3) bis „starke Zustimmung“ (+3). Hohe Werte bedeuten im DALI hohe Belastung und im SASSI gute Gebrauchstauglichkeit, außer für die umgepolten Dimensionen Ärgernis und kognitive Anstrengung. Um einen Einfluss der Reihenfolge zu verhindern, wird die Reihenfol- ge der Interaktionsvarianten zwischen den Versuchspersonen block- weise permutiert. Weiterhin erfolgt eine permutierte Zuordnung zwischen SDS-Aufgabe und Explorationsphase beziehungsweise Interak- tionsvariante. Am Ende des Experiments absolviert jede Versuchsper- son eine zweite Baseline-Fahrt, um eventuelle Lerneffekte während des Experiments zu erkennen. Abschließend ermöglicht ein Nachbe- fragungsbogen mit je einer SASSI-Frage pro Dimension einen Ver- gleich der vier Varianten zu ziehen. Da hierbei jedoch keine Unter- schiede zur Bewertung zwischen den Interaktionsvarianten festzustellen war, werden im Folgenden lediglich die Ergebnisse des vollstän- digen SASSIs präsentiert. Kap 3: Procedure OOD Studie 3.1 explorative fahrsimulatorstudie 73

Vorbefragungsbogen Erwartete Reaktion (ER) Baseline-Fahrt 2 Implizit & Explizit Missverständnis (MU) Baseline-Fahrt 1 Nachbefragungsbogen Explizit 4 Explorationsaufgaben Nicht-Verständnis (NU) Implizit & Explizit Explizit Dialoginitiativenwechsel Usability (SASSI) (DIS) Geführt

Experimentperiode Explorationsperiode Endperiode (Varianten permutiert)

Abbildung 3.4: Versuchsablauf pro Teilnehmer. Nach jeder Fahraufgabe (rot) wurde ein DALI gestellt und während der Experimentperi- ode jeweils zusätzlich ein SASSI (nicht dargestellt).

3.1.3 Ergebnisse und Diskussion

Im Folgenden werden die Ergebnisse hinsichtlich Korpusanalyse (Rei- chel u. a., 2014) und Interaktionsvarianten (Reichel, Sohn u. a., 2014) aufgezeigt. Abbildungen zeigen im Folgenden Mittelwerte (M) und Standardabweichungen (SD, engl. Standard Deviations). Analysiert wurden Datensätze von 31 Versuchspersonen (16 männlich, 15 weib- Erhobener lich) mit einem Durchschnittsalter von 26,65 Jahren (SD=3,32). Ein Datensatz Smartphone nutzen 26 davon regelmäßig, sowie interagieren mit verschiedenen Apps täglich (1-5 Apps: 18 Personen, 6-10 Apps: 7 Per- sonen) und sind somit an anwendungsbasierte Interaktion gewöhnt. Die Varianz hinsichtlich Erfahrung mit Sprachdialogsystemen ist zwischen Versuchspersonen sehr hoch (6-stufige Likert-Skala: M=3,06, SD=1,48), wogegen die Nutzung dieser Systeme eher gering ist (5- stufige Likert-Skala: M=2,04, SD=1,16). Hinsichtlich Fahrerfahrung befinden sich die Versuchspersonen seit durchschnittlich 8,6 Jahren (SD=3,5) im Besitz eines Führerscheins. Fragen bezüglich des Heran- tretens an unbekannte, technische Systeme und das Erlernen deren Bedienung zeigen starke Indizien, dass Nutzer in erster Linie ausprobie- Nutzer probieren ren. Alle Versuchspersonen verlassen sich zuerst auf ihr mentales Mo- zuerst dell, bevor Bedienungsanleitungen oder Ähnliches zu Rate gezogen werden. Dies bestärkt den Ansatz dieser Arbeit ein intuitiv bedienbaren Infotainment-System zu entwickeln, welches im Fehlerfall den Nutzer leitet.

3.1.3.1 Korpusanalyse

In Summe wurde ein Korpus von 5 Stunden 25 Minuten an Nutzerin- Korpusumfang teraktionen erstellt, welcher 3 Stunden und 8 Minuten reiner Nutzer- äußerungen enthält. Er umfasst 243 nutzer-initiierte Aufgabenstarts und 444 nutzer-initiierte Anwendungswechsel. 5 Aufgaben konnten 74 studien zum anwendungswechsel und zu fehlerbehandlungen

auf Grund von Datenverlust nicht analysiert werden. Die tatsächli- che Anzahl der Anwendungswechsel ist geringer als die theoretisch mögliche, da in den VariantenMU undNU einige Aufgaben abgebrochen wurden. Bezüglich der Teilaufgabenart wurden 91 Aktions- ausführungen und 152 Informationsanfragen für Anwendungsstarts, sowie 236 Aktionsausführungen und 208 Informationsanfragen bei Anwendungswechsel absolviert. Zur Analyse wurden alle Tonaufnahmen verschriftet und von ei- Annotation des ner Person annotiert. Dies sichert eine konsistente Annotation über Datensatzes den gesamten Datensatz hinweg. Als Dimensionen der Analyse wurden die Arten der Anwendungsselektion, die Ausdrucksweise, sowie anaphorische Ausdrücke und semantische Konzepte annotiert.

Explizite und implizite Anwendungsselektion Jeder Anwendungsstart und -wechsel wurde hinsichtlich impliziter oder expliziter Charakteristik annotiert. Zusätzlich wurden nicht-erfolgreiche implizite Anwendungswechsel der Interaktionsvarianten MU undNU dahingehend markiert, ob ein Umschwung zur expliziten Strategie stattfand und wenn ja, wie viele Äußerungen dies dau- erte. Zum Starten einer Aufgabe verwendeten Nutzer lediglich zu 4,9% explizite Äußerungen und zum Wechsel einer Anwendung nur 1,1%. Wie erwartet gehen Nutzer somit davon aus, dass sich das SDS bereits keine Anwendungs- im richtigen Kontext beﬁndet oder keine Anwendungstrennung besteht. trennung In den InteraktionsvariantenMU undNU wird ein impliziter An- wendungswechsel verhindert. Dies ermöglicht die Beobachtung, ob Versuchspersonen, nach nicht-erfolgreichen impliziten Äußerungen, eine explizite Strategie als Dialogreparatur wählen. Tabelle 3.3 zeigt die Anzahl aller Anwendungswechsel (#AW) der VariantenMU und NU, die Anzahl an Strategiewechsel zum expliziten Anwendungs- wechsel (#SW) sowie die durchschnittliche Anzahl an Äußerungen, bis ein Strategiewechsel (#Äußerungen bis SW) gewählt wurde. Auf- fällig zeigt sich, dass beiMU mehr Strategiewechsel erfolgten als bei NU, wobei mehr Äußerungen notwendig waren. Letzteres lässt sich durch die fehlende Zurückweisung inMU erklären, wodurch Nut- zer nicht über den OOA-Fall aufgeklärt werden, wobei dieser Unter- schied nicht signiﬁkant ist (p=,051). Alles in allem haben lediglich 43,7% der Versuchspersonen die Strategie von implizit zu explizit gewechselt, bei den restlichen musste die Aufgabe durch den Versuchs- leiter abgebrochen werden. Durch die Analyse der Anwendungsselektion kann davon ausgegangen werden, dass Nutzer sich keiner klaren Anwendungstren- nung im rein sprachlichenUI bewusst sind. Das Interaktionsschema der impliziten Anwendungsselektion entspricht eher der Kommuni- kation zwischen Menschen untereinander oder mit einem persönli- chen Assistenten. 3.1 explorative fahrsimulatorstudie 75

#AW #SW #Äußerungen bis SW

Missverständnis (MU) 45 23 M=3,74, SD=1,79 Nicht-Verständnis (NU) 42 15 M=2,93, SD=1,91

Tabelle 3.3: Strategiewechsel (SW) von impliziten zu expliziten Äußerungen beim Anwendungswechsel (AW).

Sprachstile der impliziten Anwendungsselektionen Eine implizite Anwendungsselektion bedeutet allerdings nicht zugleich eine umgangssprachliche Interaktion zwischen Mensch und SDS. Im Korpus konnten unter allen impliziten Äußerungen fünf verschiedene Sprachstile identifiziert werden (siehe Tabelle 3.4). Im gezeigten Beispiel ist der illokutionäre Sprechakt (siehe Abschnitt 2.1.2.1), ein Restaurant in Berlin zu suchen, identisch, jedoch die Aus- drucksweise variiert. Schlagwortstil und explizite Aufforderung sind hierbei eher Stile die in der HMI Verwendung finden, wogegen implizite Aufforderung, offene und geschlossene Frage höflichere Sprach- stile und daher eher Teil der Mensch-Mensch-Kommunikation sind (Hofmann, 2014).

Sprachstil Beispielnutzeräußerungen

Schlagwort „Restaurantsuche. Berlin.“ Implizite Aufforderung „Ich möchte ein Restaurant in Berlin.“ Explizite Aufforderung „Suche ein Restaurant in Berlin.“ Offene Frage „Welche Restaurants gibt es in Berlin?“ Geschlossene Frage „Gibt es Restaurants in Berlin?“

Tabelle 3.4: Im Korpus identiﬁzierte Sprachstile.

Abbildung 3.5 ist zu entnehmen, dass die Mehrzahl der Versuchs- personen explizite Aufforderungen an das SDS gerichtet haben (beim Aufgabenstart 37,1% und beim Anwendungswechsel 42,5%). Weiter- hin wurde der Schlagwortstil zu 16,2% für Aufgabenstarts und zu 9,3% für Anwendungswechsel genutzt. Geringe Unterschiede konnten zwischen Aufgabenstart und Anwendungswechsel identiﬁziert werden, indem Schlagwortstil und implizite Aufforderung, zu Guns- ten von Fragestilen, abnahmen. Bei Betrachtung von Informationsan- fragen (Inf) und Aktionsausführungen (Akt) ist einfach nachzuvollziehen, dass Aufforderungsstile bei Aktionsausführungen und Fra- gestile bei Informationsanfragen genutzt werden. Interessant ist die häuﬁgere Verwendung des Schlagwortstils bei Informationsanfragen. Dies könnte Priming-Effekten von Suchmaschinen geschuldet sein, bei welchen Informationsanfragen üblicherweise über Schlagwörter gestellt werden. 76 studien zum anwendungswechsel und zu fehlerbehandlungen

40,0% 9,7%

10,9% 30,0% Inf Akt Inf 20,0% 5,8% 32,8% ActInf 22,7% 26,2% Akt 10,0% 10,2% 1,9% 22,1% 17,3% 7,0% 8,2% 9,3% 6,0% 0,0% 3,2% 0,6% 3,4% 0,0% 1,1% 1,0% Start Wechsel Start Wechsel Start Wechsel Start Wechsel Start Wechsel Schlagwort Implizite Auff. Explizite Auff. Offene Frage Geschl. Frage

Abbildung 3.5: Sprachstile der impliziten Äußerungen, unterteilt nach Auf- gabenstart (Start) und Anwendungswechsel (Wechsel), sowie Aktionsausführungen (Akt) und Informationsanfra- gen (Inf).

Die Analyse der Sprachstile zeigt eine gleichmäßige Verwendung von Stilen aus der Mensch-Mensch-Kommunikation und der HMI. Das heißt, ein SDS wird teilweise als anthropomorpher Kommunika- tionspartner oder aber als maschineller Dienstleister gesehen. Sprach- stile hängen dabei vom Nutzer, von der Art der Aufgabe und in geringer Weise vom Dialogzustand ab.

Anaphorische Ausdrücke Wie erwähnt, sind anwendungsübergreifende Aufgaben durch jeweils einen Parameter verbunden, welcher vom Nutzer in die nächste An- wendung übernommen werden muss. Auf diesen kann verschieden anaphorisch referenziert werden. Die Klassiﬁkation basiert auf From- kin u. a. (2002) und ist Tabelle 3.5 zu entnehmen (Beispiele sind Anfra- gen zu einem Restaurant nach der Systemäußerung „Navigation nach Berlin wird gestartet“). Eine Möglichkeit für Nutzer ist die Wiederho- lung oder das Umformulieren des Parameters. Weiterhin ist es mög- lich, mit einem Pronomen oder einer deﬁniten Nominalphrase darauf zu referenzieren. In einer elliptischen Referenzierung wird der Para- meter nicht gesprochen, aber dennoch durch den Kontext verstanden (engl. gapping).

Anaphorische Referenz Beispielnutzeräußerungen

Umformulierung, Wiederholung „Suche Restaurants in Berlin.“ Deﬁnite Nominalphrase „Suche Restaurants in der Stadt.“ Pronomen „Suche Restaurants dort.“ Elliptisch „Suche Restaurants.“

Tabelle 3.5: Anaphorische Referenzen nach Fromkin u. a. (2002).

Knapp die Hälfte (47,7%) aller impliziten Anfragen zum Anwen- dungswechsel enthielten eine Umformulierung oder Wiederholung 3.1 explorative fahrsimulatorstudie 77

(siehe Abbildung 3.6). Dies erfordert lediglich eine normale Inter- pretation der Äußerung durch das SDS und setzt im Allgemeinen keine Referenzauflösung mittels Dialogkontext voraus. Eine definite Nominalphrase, welche die referenzierte Instanz im Dialogkontext semantisch bezeichnet, wurde zu 31,5% genutzt und muss daher vom SDS aufgelöst werden. Einen komplexeren Auflösungsmechanismus erfordern Pronominalphrasen und elliptische Referenzierungen, da hierbei nur eine syntaktische Verbindung zwischen Antezedent und Anapher, beziehungsweise keine genannte Anapher, existiert. Im Ver- gleich zwischen Aktionsausführungen und Informationsanfragen ist eine stärkere Verwendung von Umformulierungen und Wiederholun- gen bei Informationsanfragen zu beobachten.

50,0%

40,0% 29,1% 30,0% 14,0% Inf 20,0% Akt 4,7% 10,0% 17,5% 18,6% 2,2% 5,0% 8,9% 0,0% Elliptisch Pronomen, Definite Umformulierung, Adverb Nominalphrase Wiederholung

Abbildung 3.6: Anaphorische Ausdrücke in impliziten Äußerungen, unterteilt in Aktionsausführungen (Akt) und Informationsanfra- gen (Inf).

Alles in allem verwenden Nutzer bei anwendungsübergreifenden Aufgaben anaphorische Verbindungen über Anwendungsgrenzen hinweg. Das ist verständlich, da dies eine Verkürzung der Äußerung bedeutet und genaue Bezeichnungen nicht im Gedächtnis behalten werden müssen. Die Ergebnisse decken sich mit Weng, Yan u. a. (2007), welche eine Reduzierung der kognitiven Belastung im Fahrszenario durch Nutzung von anaphorischen Referenzen auf Restaurantnamen beobachteten. Ein SDS im Fahrzeug muss daher anaphorische Verbin- dungen auﬂösen können.

Efﬁzienz von Nutzeräußerungen Auf Grund von Ablenkungseffekten ist speziell im Fahrzeug eine möglichst kurze und efﬁziente Interaktion zwischen Fahrer und SDS wichtig (siehe Abschnitt 2.3.4). In dieser Studie wurden durchschnittlich 6,27 Wörter (SD=2,62) pro Nutzeräußerung registriert. Jedoch ist die Wortanzahl nur ein Aspekt, entscheidender ist die Anzahl an semantisch bedeutenden Konzepten (Parametern) einer Äußerung, da be- bedeutende Konzepte nötigte Eingabeparameter sonst im Dialog nachgefragt werden müs- sen. Die Anzahl der semantischen Konzepte pro Äußerung wurde an- 78 studien zum anwendungswechsel und zu fehlerbehandlungen

notiert und in Relation zu den notwendigen Eingabeparametern der Aufgabe gesetzt. Dies wird im Folgenden als Effizienz bezeichnet. Alles in allem wurden im Durchschnitt 2,77 semantische Konzepte (SD=0,73) pro Äußerung gezählt. In Relation zu den erforderlichen Parametern (M=3,26, SD=0,59) ergibt sich eine durchschnittliche Ef- fizienz von 85%(SD=0,22). Tabelle 3.6 stellt den Vergleich zwischen Aktionsausführungen und Informationsanfragen in Bezug auf Aufga- benstart und Anwendungswechsel dar. Lediglich beim Aufgabenstart einer Aktionsausführung sind signifikant geringere Effizienzwerte im Vergleich zu Informationsanfragen zu bemerken (p=,0018). Trotz einer signifikant (p<,001) höheren Zahl an benötigten Eingabeparame- tern in Aktionsausführungen (M=3,66, SD=0,48) als in Informations- anfragen (M=3,2, SD=0,4) haben Nutzer nicht mehr semantische Kon- zepte gesprochen. Ein Grund für diese Abweichung könnten die be- schränkten kognitiven Fähigkeiten von Menschen sein. Gewohnt an die Mensch-Mensch-Kommunikation, erwarten Menschen von ihrem Gegenüber nur eine begrenzte kognitive Leistung. Zum Beispiel werden Menschen in einer persönlichen Reisebuchungen niemals alle semantischen Konzepte auf einmal mitteilen, sondern im Dialog darauf eingehen.

Aktionsausführungen Informationsanfragen

Aufgabenstart 69%(SD=0,22) 88%(SD=0,2) Anwendungswechsel 87%(SD=0,21) 91%(SD=0,2)

Tabelle 3.6: Efﬁzienz der Nutzeräußerungen.

Zusammenfassend kann daraus geschlossen werden, dass Sprach- dialogsysteme im Fahrzeug mehrere semantische Konzepte, wie zum Beispiel Stadt, Straße und Hausnummer für eine Adresseingabe, verstehen müssen.

3.1.3.2 Vergleich der Interaktionsvarianten Im Weiteren werden die Interaktionsvarianten hinsichtlich verschiedener Wirkungsgrößen analysiert und gegen die aufgestellten Hypo- thesen getestet. Zwischen den beiden VariantenMU undNU konnten keinerlei signiﬁkanten Unterschiede festgestellt werden. Aus diesem MU&NU Grund werden im Folgenden die Varianten zusammengefasst betrach- zusammengefasst tet. Der Datensatz einer Versuchsperson wurde aus der Auswertung über den Vergleich verschiedener Interaktionsvarianten herausgenom- men, da diese Person Deutsch nicht als Muttersprache spricht und somit von einer höheren kognitiven Belastung, durch Formulierung der sprachlichen Äußerungen, ausgegangen werden muss. 3.1 explorative fahrsimulatorstudie 79

Fahrleistung Die objektiven Fahrleistungen werden mit dem ConTRe Task anhand der Dimensionen Spurhaltung, Reaktionszeit und Angemessenheit der Reaktion analysiert. Inadäquate Reaktionen können falsche Reak- tionen, das Betätigen eines falschen Pedals auf eine Reaktionsaufgabe, oder missachtete Reaktionen, wie ignorieren der Ampel, sein.

0,24 * 1,3 ***

[s] 1,2 0,22 1,1

0,2 1 1,038 1,042 1,060 0,9 0,18 0,19 0,8 0,840 0,17 0,18 0,18 0,16 0,7 Baseline ER DIS MU_NU Baseline ER DIS MU_NU

Abbildung 3.7: Fahrleistungen, gemessen hinsichtlich Spurabweichung (links) und Reaktionszeiten (rechts). Signiﬁkanzniveau (Korrektur nach Bonferroni): p<,0083(*); p<,0016(**); p<,00016(***).

Abbildung 3.7 zeigt die deskriptive Statistik der durchschnittlichen Spurhaltung und Reaktionszeit während verschiedener Interaktions- varianten. Ein Shapiro und Wilk (1965)-Test zeigt eine Normalver- teilung aller Daten (W(29)=[0,905, 0,959], p=[,011,,292]). Die Analy- se fasst beide Baseline-Fahrten zusammen, da keine Unterschiede in Spurabweichung (t(29)=1,84, p=,077) und Reaktionszeiten (t(29)=0,398, p<,693) festgestellt werden können. Ähnlich zu Kun, Paek u. a. (2007), wirken sichMU undNU in dieser Studie ebenfalls negativ auf die Spurhaltung aus (t(29)=3,26, p=,003). Zwischen den Interaktionsvari- anten sind allerdings keine Unterschiede festzustellen (F(2, 58)=2,07, p=,135, η2=,067). Die Reaktionszeiten zeigen eine schnellere Reakti- on der Versuchsteilnehmer, wenn keine gleichzeitige Bedienung mit dem SDS stattﬁndet (Varianzanalyse (ANOVA, engl. ANalysis Of VA- riance) mit Helmert Kontrast: F(1,29)=82,47, p<,001, η2=,74). Wie im Lenkverhalten kann allerdings kein Unterschied zwischen Interakti- onsvarianten beobachtet werden (F(2,58)=,47, p=,625, η2=,016).

20% 11,30% 15% 9,78% 7,83% 10%

7,44% 5% 6,16% 5,82% 2,47% 0% 1,45% Baseline ER DIS MU_NU

Abbildung 3.8: Inadäquate Reaktionen der Teilnehmer, helle Farben symbo- lisieren falsche Reaktionen, dunkle Farben missachtete Reak- tionen. 80 studien zum anwendungswechsel und zu fehlerbehandlungen

Eine Betrachtung der Reaktionsarten (siehe Abbildung 3.8) zeigt ebenfalls einen besseren Wert bei Fahrten ohne SDS. Die Interaktions- varianten untereinander weisen geringe Unterschiede auf, wobei ein erwartungskonformes SDS(ER) nur minimal besser als der DIS abschneidet, und das nicht-erwartungskonforme SDS, wie erwartet, am meisten falsche sowie missachtete Reaktionen aufweist. Zusammenfassend kann geschlossen werden, dass die Fahrleistung durch ein SDS negativ beeinﬂusst wird, hinsichtlich der Interaktions- varianten allerdings nur geringe Unterschiede in der Angemessenheit der Reaktion auftreten.

Subjektive Belastung Die empfundene Belastung bewertet eine jede Versuchsperson durch DALI-Fragebogen die Beantwortung des DALI-Fragebogens. Auf einer 7-stuﬁgen Likert- Skala werden die Dimensionen globale Aufmerksamkeit, auditive An- forderungen, Stress, Interferenz zwischen primärer und sekundärer Aufgabe sowie zeitliche Anforderungen, von „gering“ (-3) bis „hoch“ (+3) beurteilt. Diagrammtitel 3 ** ** ** ** ** ** ** * ** ** 2 ** 1

0 DALI -1

-2

-3 Aufmerksam Auditiv Stress Interferenz Zeitlich Baseline 1 Baseline 2 ER DIS MU_NU

Abbildung 3.9: Subjektive Belastung, gegliedert nach DALI-Dimensionen. Signiﬁkanzen von Baseline-Fahrten nicht dargestellt. Si- gniﬁkanzniveau (Korrektur nach Bonferroni): p<,005(*); p<,001(**); p<,0001(***).

Abbildung 3.9 zeigt die mittleren Belastungen, sowie signiﬁkan- te Unterschiede der Interaktionsvarianten. Auf Grund mehrfacher Vergleiche wurde das Signiﬁkanzniveau nach Bonferroni angepasst. Baseline-Fahrten sind nur hinsichtlich Aufmerksamkeit und Stress bewertet, da keine sekundäre Aufgabe bestand. Hierbei ist die erste Baseline-Fahrt mehr belastend, als die zweite bezüglich Aufmerksam- keit (t(23)=4,03, p<,001) und Stress (t(23)=3,8, p<,001). Im Vergleich zu den Interaktionsvarianten zeigen sich alle zweiten Baseline-Fahrten weniger belastend (p<,001), wobei die erste lediglich im Vergleich zu nicht-erwartungskonformen SDS-Reaktionen weniger belastend ist (p<,001). Im Vergleich der Interaktionsvarianten ist deutlich zu erkennen, dass ein SDS, welches erwartungskonform reagiert (ER), am wenigs- 3.1 explorative fahrsimulatorstudie 81

ten belastend ist (p<,005). Zwischen DIS undMU_NU kann hingegen lediglich hinsichtlich der Dimension Stress ein Unterschied festgestellt werden. Der DIS ist subjektiv somit weniger stressig für Fahrer als die VariantenMU_NU( t(29)=3,94, p<,001).

Stresslevel Die EDA dient als zuverlässiger Indikator zur objektiven Messung EDA von kognitiver Belastung, Erregung und Stress. Auf einen Reiz erfolgt eine SCR nach ca. 0,5-4 Sekunden mit einem Amplitudenausschlag größer als 0,02 µS, wobei sich der absolute Amplitudenwert stark nach Person unterscheidet. Somit wird im Folgenden die mittlere Amplitude jeweils als Differenz zwischen Interaktionsvarianten und Baseline-Fahrten analysiert. Zusätzlich wird die Anzahl der Ampli- tuden pro Sekunde betrachtet. Zur Extraktion der Amplituden wird auf das Tool Ledalab7 zurückgegriffen. Zum Vergleich der Baseline-Fahrten wird jeweils die Differenz der gemittelten Amplituden gebildet. Nach Shapiro und Wilk (1965)-Test sind diese Differenzen nicht normalverteilt (W(28)=0,85, p<,001). Ein Vergleich der Differenzen zum Median ergibt keine signiﬁkanten Un- terschiede (Wilcoxon-Vorzeichen-Rang-Test: Z(28)=-0,228, p=,82). Be- züglich der Anzahl der Amplituden pro Sekunde kann ebenfalls kein Unterschied festgestellt werden (t(27)=1,067, p=,295). Somit werden im Folgenden die Baseline-Fahrten zusammengefasst.

0,25 *** 0,20

0,25 µS] [ 0,175 0,20 0,15 0,173 0,170 0,15 0,139 0,10 0,10 0,109 Sekunde] pro [Amplituden 0,087 0,077 0,05 0,05 ER-Baseline DIS-Baseline MU_NU-Baseline Baseline ER DIS MU_NU

Abbildung 3.10: Mittlere Differenzen der Amplituden zwischen Interak- tionsvariante und Baseline-Fahrt (links), sowie Anzahl der Amplituden pro Sekunde je Interaktionsvariante und Baseline-Fahrt (rechts).

Abbildung 3.10 zeigt jeweils die mittleren Differenzen der Ampli- tuden zwischen Interaktionsvarianten und Baseline-Fahrt, sowie die Anzahl der Amplituden pro Sekunde. Alle Mittelwerte sind nach Sha- piro und Wilk (1965)-Test normalverteilt. Unterschiede in den Interak- tionsvarianten bezüglich der mittleren Amplitudendifferenz können nicht festgestellt werden (ANOVA: F(1,27)=1,186, p=,286). Dies gilt ebenso für die Anzahl der Amplituden pro Sekunde. Hingegen kann festgestellt werden, dass mehr Amplituden pro Sekunde während der Bedienung des Sprachdialogsystems auftreten als während Baseline- Fahrten (ANOVA m. Helmert-Kontrast: F(1,27)=14,65, p<,001, η2=,352).

7 http://www.ledalab.de/ [Online 17.05.2015] 82 studien zum anwendungswechsel und zu fehlerbehandlungen

Hinsichtlich des Stresslevels kann somit geschlossen werden, dass bei Bedienung des Sprachdialogsystems mehr Amplituden in der SCR zu erkennen sind als bei der reinen Fahraufgabe. Verschiedene Interaktionsvarianten zeigen dagegen keinen Einﬂuss.

Gebrauchstauglichkeit Ein probates Mittel zur Erhebung der Gebrauchstauglichkeit eines SASSI-Fragebogen Sprachdialogsystems stellt der SASSI-Fragebogen dar. Anhand von 34 Fragen bewertet jede Versuchsperson das SDS hinsichtlich folgender Dimensionen: Genauigkeit der Systemantwort (SRA), Beliebtheit (Li- ke), kognitive Anstrengung (CogDem), Ärgernis (Ann), erkennbares konzeptionelles Modell (Hab) und Schnelligkeit (Speed). Die Bewer- tung erfolgt auf Basis einer 7-stuﬁgen Likert-Skala von „starke Ableh- nung“ (-3) bis „starke Zustimmung“ (+3).

3 2 1 0 ER

SASSI DIS -1 MU_NU -2 -3 SRA Like Cog Dem Ann Hab Speed

Abbildung 3.11: Gebrauchstauglichkeit, gegliedert nach SASSI-Dimensio- nen. Unterschiede signiﬁkant (p<,01), außer DIS und MU_NU bzgl. Geschwindigkeit (Speed)

Abbildung 3.11 zeigt die Ergebnisse jeder Interaktionsvariante unterteilt in SASSI-Dimensionen. Wie zu erwarten, erweist sich die erwartungskonforme Interaktionsvariante (ER) in allen Dimensionen als die Erfolgreichste (p<,001). Der DIS hingegen wird neutral bis ge- ringfügig positiv bewertet, wobei in Punkten des konzeptionellen Mo- dells ein negativer Wert festzustellen ist. Im Generellen wird der DIS allerdings besser bewertet als die VariantenMU_NU( p<,01). In der Dimension Geschwindigkeit kann hingegen kein signiﬁkanter Unter- schied festgestellt werden (ANOVA m. Helmert Kontr.: F(1,29)=0,176, p=,678, η2=,006). Die erwartungskonforme Variante zeigt somit sehr gute Werte be- züglich Gebrauchstauglichkeit, wogegen ein nicht-erwartungskonformes SDS deutlich schlechter bewertet wird. Der DIS hingegen liegt in den meisten Dimensionen dazwischen.

Dialogperformanz Qualität SDS Neben subjektiver Einschätzung der Qualität eines Sprachdialogsystems liefern auch objektive Dialogparameter wertvolle Erkenntnisse. Im 3.1 explorative fahrsimulatorstudie 83

Folgenden werden die Dimensionen Aufgabenerfolg, Antwortzeit des Nutzers sowie die Dauer der Nutzer- und Systemäußerungen betrachtet (siehe Abbildung 3.12). DIS undMU_NU sind dabei unterteilt in zwei Phasen, einerseits während der Interaktion mit einer An- wendung und andererseits während der Interaktion zwischen zwei Anwendungen.

100% 8 *** *** 96,8% 93,6% 80% 6 60% 4 4,57 40%

Aufgabenerfolg 2

Antwortzeit [Sek] Antwortzeit 2,53 2,55 20% 29,0% 2,41 19,4% 1,52 0% 0 ER DIS MU NU ER DIS MU_NU 6 *** *** *** ** 8 7,75 4 4,46 6 4,10

3,45 3,63 [Sek] [SeK] 4 2,89 4,50 4,25 2 3,93 3,30

Dauer Nutzeräußerung Nutzeräußerung Dauer Dauer Systemäußerung Systemäußerung Dauer 0 0 ER DIS MU_NU ER DIS MU_NU

Abbildung 3.12: Dialogperformanz der Interaktionsvarianten. In DIS und MU_NU unterteilt in Phase innerhalb von Anwendungen (dunkel) und zwischen Anwendungen (hell). Signiﬁkanzni- veau: p<,05(*); p<,01(**); p<,001(***).

Hinsichtlich des Aufgabenerfolgs erreichen nur wenige Teilnehmer in den VariantenMU undNU ihr Interaktionsziel. Werden sie hingegen durch den Anwendungswechsel geführt (DIS), oder das Sys- tem antwortet erwartungskonform (ER), wird das Ziel fast immer erreicht. Im Allgemeinen benötigen Versuchspersonen 2-3 Sekunden bevor eine Antwort auf eine Systemäußerung erfolgt. Bei Betrachtung derMU_NU-Variante fällt hingegen auf, dass Versuchspersonen zwischen Anwendungen länger benötigen, eine Antwort zu erstellen, als innerhalb von Anwendungen (t(29)=4,58, p<,001), was eine höhere kognitive Belastung vermuten lässt. In der Variante DIS zeigt sich Gegenteiliges, da eine einfache Wiederholung eines Teils der System- äußerung wohl nur geringe kognitive Leistungen bedarf (Wilcoxon- Vorzeichen-Rang-Test: Z(29)=-3,84, p<,001). Eine Nutzeräußerung ist in der Regel ca. 3-4 Sekunden lang. Auffällig ist, dass in der Vari- anteMU_NU die Nutzeräußerungen zwischen Anwendungen län- ger werden (t(29)=6,47, p<,001), somit Versuchspersonen im Fehlerfall eher ausführlicher oder langsamer formulieren. Durch die Vorgabe von kurzen Äußerungen bei der Variante DIS ergeben sich selbstver- ständlich auch kürzere Nutzeräußerungen (t(29)=3,84, p<,001). Ein Problem des DIS zeigt sich in der Länge der Systemäußerungen zwi- 84 studien zum anwendungswechsel und zu fehlerbehandlungen

schen zwei Anwendungen. Der Erklärungsdialog für mögliche Äuße- rungen ist mit durchschnittlich 8 Sekunden fast doppelt so lange wie die durchschnittlichen Systemäußerungen (t(29)=14,81, p<,001). Zusammenfassend zeigt sich aus der Dialogperformanz der erfolgreiche Einsatz der Variante DIS, da sie einen hohen Aufgabenerfolg ermöglicht. Nachteilig ist die Dauer zu sehen, welche der Erklärungs- dialog benötigt. BezüglichMU undNU kann deutlich erkannt werden, dass Versuchspersonen länger zum Antworten benötigen und ihre Äußerungen ausführlicher oder langsamer formulieren.

3.1.3.3 Test der Hypothesen und Diskussion Anhand der Ergebnisse können die aufgestellten Hypothesen getestet werden.

Hypothese 1: B1 = B2 Durch eine Übungsphase und genereller Fahrpraxis wird erwartet, dass sich beide Baseline-Fahrten nicht signiﬁkant unterscheiden. Hin- sichtlich der objektiven Fahrleistung kann diese Hypothese angenommen werden, subjektiv empﬁnden Versuchspersonen allerdings einen Unterschied. Dies ist darauf zurückzuführen, dass Baseline-Fahrten nicht mit den Interaktionsvarianten permutiert wurden, somit Ver- suchspersonen die zweite Baseline-Fahrt abhängig von ihren vorherigen Erfahrungen mit den Interaktionsvarianten bewerteten. Die zweite Baseline-Fahrt ist somit als Verlässlichere zu sehen.

Hypothese 2: ER = BX Reagiert das SDS wie vom Nutzer erwartet, kann von einer geringen kognitiven Belastung ausgegangen werden, somit sollten keine signi- ﬁkanten Unterschiede zwischenER und Baseline-Fahrten auftreten. Für das Lenkverhalten trifft dies zu, und die Hypothese kann angenommen werden. Hingegen muss für Reaktionsereignisse eine Ab- lehnung erfolgen. Ein Grund hierfür ist in der subjektiven Belastung und dem Stresslevel zu ﬁnden. Beide Wirkungsgrößen zeigen schlechtere Werte bei gleichzeitiger Bedienung eines erwartungskonformen Sprachdialogsystems. Dies deckt sich mit Patten u. a. (2004), die eine abnehmende Reaktionszeit bei Telefonaten mit komplexem Inhalt, und somit hoher kognitiver Belastung, feststellen - durch Nutzung einer Freisprecheinrichtung wurde manuelle und visuelle Ablenkung ausgeschlossen.

Hypothese 3: ER > (MU, NU) Basierend auf Arbeiten von Gärtner u. a. (2001) und Kun, Paek u. a. (2007) sollteER ein besseres Ergebnis alsMU undNU ergeben. Auf Grund von Hypothese 4 (kein Unterschied zwischenMU undNU festzustellen) wird im FolgendenMU mitNU zusammengefasst behandelt und die Hypothese umformuliert in ER > MU_NU. 3.1 explorative fahrsimulatorstudie 85

Im Gegensatz zu Kun, Paek u. a. (2007) können anhand der Ergeb- nisse keine negativen Auswirkungen eines fehlerhaften Verhaltens des Sprachdialogsystems gegenüber erwartungskonformen Antwor- ten bezüglich Lenkverhalten und Reaktionszeit festgestellt werden. Somit muss die Hypothese in diesen Dimensionen, sowie im Stress- level, zurückgewiesen werden. Jedoch zeigen sich in den subjektiven Faktoren, wie Belastung und Gebrauchstauglichkeit, klare positive Auswirkungen von einer erwartungskonformen Systemantwort (ER). Ist dies hinsichtlich Gebrauchstauglichkeit durch den besseren Aufga- benerfolg offensichtlich, deutet die subjektive Belastung auf Schwie- rigkeiten der Versuchspersonen inMU_NU hin. Nach Wickens ( 2008) können Menschen dieselben Ressourcen nur begrenzt für verschiedene Aufgaben einsetzen, wobei die Priorisierung jeweils selbstbe- stimmt ist. Somit könnte eine stärkere Priorisierung auf der Primär- aufgabe liegen, was das gleichbleibende Lenkverhalten und die Re- aktionszeit erklären würde, und Einbußen in der Sekundäraufgabe bewirken könnte - längere Antwortzeiten inMU_NU stützen diese These. Zusätzlich sind Einbußen in der Reaktionsart zu vermerken, welche diese Hypothese stärken. Durch die Position der Ampel über dem Zylinder ist sie etwas außerhalb des fokussierten Blickpunktes und kann als Element im peripheren Sichtfeld bezeichnet werden. Die geringfügig angemessenere Reaktion inER lässt sich somit durch Vic- tor u. a. (2005) erklären, die eine starke Konzentration des Blickes auf die Straßenmitte bei auditiv belastenden Aufgaben beobachteten, wodurch periphere Elemente oftmals ignoriert werden (engl. perceptual tunneling). Eine Reaktionsaufgabe am Straßenrand hätte diesen Ef- fekt eventuell verstärken können. Im realen Straßenverkehr kann dies zur erheblichen Gefahr werden, da sich Ampeln und Straßenschilder oftmals im peripheren Sichtfeld beﬁnden.

Hypothese 4: NU > MU Auf Grund einer Erklärung sollte laut Bohus und Rudnicky (2001) NU ein besseres Ergebnis aufweisen alsMU. Den Ergebnissen dieser Studie zufolge, kann diese Hypothese allerdings in keiner Wirkungs- Hypothese 4 größe angenommen werden. Somit ist eine reine Information über ein ablehnen Nicht-Verständnis kein probates Mittel, um auf eine nicht interpretierbare Nutzeräußerung zu reagieren.

Hypothese 5: ER > DIS > (MU, NU) Durch die Hilfestellung des DIS sollte eine bessere Leistung als in den VariantenMU undNU erreicht werden, wobei von einer Ein- buße gegenüberER auszugehen ist. Wie in der Hypothese 3 erfolgt eine gemeinsame Betrachtung vonMU undNU und daher eine Um- formulierung der Hypothese in: ER > DIS > MU_NU. Ähnlich zu vorheriger Hypothese ergibt sich kein Unterschied der Interaktions- varianten in den Wirkungsgrößen Lenkverhalten, Reaktionszeit und Stresslevel, somit muss diese Hypothese darin ebenfalls abgelehnt 86 studien zum anwendungswechsel und zu fehlerbehandlungen

werden. Des Weiteren erfolgt eine getrennte Betrachtung als Hypo- these 5.1 (ER > DIS) und Hypothese 5.2 (DIS > MU_NU). Hypothese 5.1 Hypothese 5.1 kann für subjektive Faktoren, wie Gebrauchstauglich- keit und subjektive Belastung, für alle Dimensionen angenommen werden. Die Angemessenheit der Reaktion zeigt inER geringfügig bessere Werte als beim DIS. Die objektiven Dialogparameter weisen jedoch nur geringfügig bessere Aufgabenerfolgsraten inER auf. Hin- sichtlich Antwortzeit sind die Versuchspersonen in der Lage, durch Wiederholung der Systemäußerung beim DIS schneller zu antworten. Somit muss in diesen Dimensionen die Hypothese 5.1 zurückgewie- sen werden. Hypothese 5.2 Hypothese 5.2 kann hinsichtlich der Wirkungsgröße Gebrauchstaug- lichkeit, abgesehen von der Dimension Geschwindigkeit, angenommen werden. Ebenso gilt dies für die Dimension Stress der subjektiven Belastung und die Antwortzeit. Ersteres lässt sich wohl auf den guten Aufgabenerfolg des DIS zurückführen. Letzteres suggeriert hingegen eine geringere kognitive Belastung, was allerdings durch die subjektive Bewertung der Versuchspersonen widerlegt wird. Alle Di- mensionen der subjektiven Belastung - außer Stress - ergeben keinen Unterschied zwischen den beiden Interaktionsvarianten. Auditiv ist der DIS sogar belastender alsMU_NU, was durch die signiﬁkant län- gere Systemäußerung einfach nachzuvollziehen ist. Somit kann hier- für die Hypothese 5.2 nicht angenommen werden.

3.1.4 Fazit zu anwendungsübergreifenden Dialogen im Fahrzeug

Anhand der präsentierten Studie können Richtlinien zur Entwick- lung eines anwendungsübergreifenden Sprachdialogsystems formuliert werden. Die Analyse des Korpus zeigt die natürliche Interaktion zwischen Fahrzeug-SDS und jungen, technisch afﬁnen Versuchsperso- nen, welche keine Kenntnis über das Interaktionsschema des Systems erhielten. Zusätzlich ergaben verschiedene Interaktionsvarianten Hin- weise auf eine ablenkende Wirkung von nicht-erfolgreichen Anwen- dungswechseln. Die Korpusanalyse zeigt, dass keine Anwendungstrennung im mentalen Modell eines rein sprachlich bedienbaren Sprachdialogsystems besteht. Somit müssen neben expliziten auch implizite Anwendungs- wechsel, mit Bezug auf die Dialoghistorie der vorhergehenden An- wendung, möglich sein. Durch fehlende visuelle Anhaltspunkte, sowie keinerlei Systemerklärung, konnte eine sehr hohe Varianz an Sprachstilen festgestellt werden. Dies zeigt die Notwendigkeit, sowohl natürliche Äußerungen der Mensch-Mensch-Kommunikation als auch kommandowortbasierte der HMI zu verstehen. Weiterhin sollten Äußerungen mit mehreren semantischen Konzepten verstanden werden, da selbst Systemneulinge dies nutzen. Es kann davon aus- 3.2 internetstudie zu hilfestrategien 87 gegangen werden, dass erfahrene Nutzer, die sich der Möglichkeit bewusst sind, dies noch umfangreicher verwenden. Ähnlich zu Strayer u. a. (2014) zeigen die Ergebnisse dieser Studie, dass ein SDS nicht automatisch ablenkungsfreie Interaktion ermög- licht. Hinsichtlich objektiver Fahrleistungen und EDA-Daten konnte ein leicht negativer Einﬂuss eines Sprachdialogsystems festgestellt werden. Die subjektive Belastung und Gebrauchstauglichkeit sind hingegen stark von der Qualität des Sprachdialogsystems abhängig und weisen bei erwartungskonformen Systemen deutlich bessere Werte auf, als bei nicht-erwartungskonformen. Auditive und kognitive Fah- rerablenkung sind somit nicht zu unterschätzen. Dies zeigt sich speziell während der Interaktionsvariante DIS, welche lange Systemäu- ßerungen als Hilfestellung für den Nutzer enthält. Wie erwartet ist der DIS somit nicht optimal, besitzt allerdings den Vorteil, Nutzer zum Aufgabenerfolg zu führen. Zur Verbesserung der Variante DIS wird im Folgenden eine Studie präsentiert, welche verschiedene Im- plementierungen, variiert nach Kontextsensitivität und Modalität, in den Dimensionen Gebrauchstauglichkeit sowie Aufgabenerfolg analysiert. Auf Basis der Ergebnisse erfolgt eine iterative Verfeinerung der Konzepte mit anschließender Evaluation im Fahrsimulator.

3.2 internetstudie zu hilfestrategien

Wie in dem vorherigen Abschnitt gezeigt, hilft ein Wechsel der Dia- loginitiative dem Nutzer, sein Interaktionsziel zu erreichen. Der mehr- stuﬁge Disambiguierungprozess zog allerdings lange Systemäußerun- gen nach sich, welche auditiv belastend auf den Fahrer wirken. Um dies zu umgehen, wird im Folgenden die Strategie des Dialoginitia- tivenwechsels detailliert betrachtet, und es werden Variationen be- züglich Dialogkontext sowie Modalität entwickelt. Im ersten Schritt werden diese hinsichtlich Gebrauchstauglichkeit und Aufgabenerfolg in einer Internetstudie mit vielen Teilnehmern evaluiert. Teile dieser Studie wurden bereits in Reichel u. a. (2015a) und Reichel u. a. (2015b) veröffentlicht („With permission of Springer“). Auf Basis der Ergebnisse erfolgt eine Verbesserung der Interaktionsvarianten mit anschließender Evaluation im Fahrsimulator bezüglich subjektiver Be- lastung und Fahrleistung (siehe Abschnitt 3.3).

3.2.1 Studienkonzept

Wie in Abschnitt 2.3.3 gezeigt, existieren verschiedene Ansätze zur Auﬂösung von Mehrdeutigkeiten und Behandlung von Fehlern im SDS. Auf Basis der Ansätze werden verschiedene Varianten des Dia- loginitiativenwechsels entwickelt und in diesem Abschnitt vorgestellt. Anhand diverser Wirkungsgrößen werden Hypothesen für eine hypo- thesengetriebene Evaluation der Varianten formuliert. 88 studien zum anwendungswechsel und zu fehlerbehandlungen

3.2.1.1 Interaktionsvarianten des Dialoginitiativenwechsels Die Implementierung des DIS der vorherigen Studie zeichnet sich durch einen mehrstuﬁgen Hilfedialog aus, in welchem die Versuchs- personen zuerst die richtige Anwendung selektieren und anschlie- ßend mögliche Beispieläußerungen der Anwendung erfahren. Spe- ziell letztere verlängerten die Systemäußerung signiﬁkant. Doch oft- Äußerungen nicht mals ist ein Vorlesen der Beispieläußerungen nicht notwendig, da bereits vorlesen die OOA-Äußerung des Nutzers im korrekten Anwendungskontext eindeutig interpretiert werden kann. Somit beschränkt sich nachfol- gende Untersuchung lediglich auf die Selektion einer Anwendung. Eine Implementierung könnte nach einer Anwendungsselektion die gespeicherte OOA-Nutzeräußerung erneut im richtigen Kontext interpretieren und nur bei erfolgloser Interpretation mögliche Beispiel- äußerungen präsentieren. Weiterhin ignoriert die Interaktionsvariante der vorherigen Studie den Dialogkontext, indem keine Anpassung an die wahrscheinlichsten nächsten Anwendungen erfolgt. Ebenso wurde ein nutzer-initi- Barge-in iertes Unterbrechen der Systemäußerungen, Barge-in genannt, unterbunden. Beides stellen jedoch gute Möglichkeiten dar, um Systemäu- ßerungen abzukürzen und somit die auditive Belastung des Fahrers zu senken. Hören Nutzer bereits zu Beginn der Systemäußerung die gesuchte Anwendung, können sie diese sofort durch Barge-in aus- wählen. Im Allgemeinen kann zur Klärung einer unverstandenen oder mehr- generische & deutigen Äußerung zwischen generischen (Bohus und Rudnicky, 2005) kontextsensitive und kontextsensitiven, zielgerichteten Hilfestrategien (Skantze, 2007) un- Hilfestrategien terschieden werden (siehe Abschnitt 2.3.3). Während in zwischenmenschlicher Kommunikation hauptsächlich letztere Strategien zum Einsatz kommen, reagieren Sprachdialogsysteme in erster Linie gene- risch (Stoyanchev u. a., 2014). Zum Vergleich beider Strategien sind drei Dialogstrategien für einen Initiativenwechsel entstanden, welche in Relation zu einer Referenzimplementierung mit erwartungskonfor- mer Reaktion gesetzt werden (siehe auch Abbildung 3.13):

generische Offene Frage (OF), engl. Ask the User (AU): Im Dialog können Fra- Hilfestrategie gen an Nutzer gestellt und somit Nutzer zur Präzisierung ihrer Anfrage aufgefordert werden. Fragen können einerseits direkt (engl. directed prompt), wie zum Beispiel „Meinten Sie A oder B“, oder offen (engl. open-ended prompt), wie zum Beispiel „Was meinen Sie?“, formuliert werden (Karat u. a., 2012). Die- se generische Hilfestrategie nutzt eine offene Frage nach der An- wendung, folglich behalten Nutzer die Dialogführung. Nutzer müssen auf Basis ihres mentalen Modells entscheiden, welche Äußerung (bzw. welche Anwendungen) das System versteht.

stark Zweierauswahl (ZA), engl. Domain Choice (DC): Im Gegensatz kontextsensitive zu offenen Fragen benötigen direkte Fragen kein Vorwissen der Hilfestrategie 3.2 internetstudie zu hilfestrategien 89

U: Drive me to the concert U: Drive me to the concert S: Do you want to Parkbühne in S: Which application are you ad- Leipzig? dressing with your request? U: Yes, please U: Navigation (a) Reference System (REF) (b) Ask the User (AU)

U: Drive me to the concert U: Drive me to the concert S: Does your request concern the S: Select an application for your naviation or radio application? request: radio, navigation, U: Navigation application U: Yes (c) Domain Choice (DC) (d) Domain List Selection (DLS)

Abbildung 3.13: Strategien des Dialoginitiativenwechsels, abgebildet in multimodaler Variante jeweils mit graﬁscher Darstellung und sprachlichem Dialog: Nutzer (U) und System (S). Erstver- öffentlichung in Reichel u. a. (2015b) „With permission of Springer“.

Nutzer, da sie alle Alternativen anbieten. Abhängig vom Dia- logkontext kann eine Einschränkung der möglichen Alternati- ven erreicht und demnach eine stark kontextsensitive Hilfestrate- gie mit zwei Alternativen implementiert werden. Jedoch erhöht sich hierbei das Risiko, nicht die richtige Alternative anzubieten, was wiederum den Disambiguierungsprozess verlangsamt (Suhm u. a., 2001).

Listenauswahl (LA), engl. Domain List Selection (DLS): Mehr als schwach zwei Alternativen lassen sich über eine Liste darbieten (erfor- kontextsensitive dert keinen oder einen schwachen Dialogkontext). Während dies Hilfestrategie das Risiko minimiert, nur falsche Alternativen zu präsentieren, wird dadurch allerdings die Systemäußerung verlängert. Die 90 studien zum anwendungswechsel und zu fehlerbehandlungen

Dialogstrategie berücksichtigt Barge-in, wodurch Nutzer die Sys- temäußerung vorzeitig unterbrechen können. Einerseits wird diese Funktionalität zu Beginn des Experiments erklärt, andererseits durch eine kurze Pause zwischen dem Vorlesen der Al- ternativen gefördert.

Referenz (Ref), engl. Reference System (REF): Aufgrund subjektiver Bewertungen können Unterschiede zwischen Versuchsper- sonen auftreten. Um dies zu berücksichtigen, wird jede Dia- logstrategie mit einer optimalen Referenz verglichen, welche einen erfolgreichen Anwendungswechsel simuliert. Da ein falscher Anwendungswechsel schwerwiegende Folgen haben kann (z.B. Verlust bereits eingegebener Daten), wird eine explizite Bestäti- gung des Anwendungswechsels verlangt.

Nach Bourguet (2011) unterscheiden sich Fehlerbehandlungsstrategi- en hinsichtlich Zweck, Akteur und Modalität. Für vorliegenden An- wendungsfall ist der Zweck, Anwendungen auszuwählen, konstant, wobei Akteur bei offenen Fragen der Nutzer und bei direkten Fra- gen das System ist. Im Fahrzeug sind als Ausgabegeräte in erster Linie Display und Lautsprecher verfügbar. Somit lassen sich zur Prä- visuelle & auditive sentation möglicher Alternativen die Modalitäten visuell und auditiv Modalität nutzen. Zusätzlich ergibt sich eine Kombination beider Modalitäten, welche im Regelfall präzisere Ergebnisse als unimodale Strategien liefert (Suhm u. a., 2001). Die generische Strategie Offene Frage und das Referenzsystem profitieren nicht von zusätzlichen grafischen Darstel- lungen. Hingegen können die Alternativen der Auswahl grafisch und sprachlich präsentiert werden. Somit ergeben sich für die Zweier- und Listenauswahl folgende Variationen (siehe Abbildung 3.13c und Abbil- dung 3.13d):

Vorwiegend Grafisch (G): Ziel dieser Variante ist die Dauer der Systemäußerungen zu minimieren und daher Alternativen nur grafisch darzustellen. Lediglich eine generische Äußerung weist auf die grafische Repräsentation hin: „Sagen Sie die Anwen- dung“.

Vorwiegend Sprachlich (S): Hierbei werden Alternativen nicht gra- ﬁsch dargestellt, sondern lediglich per Sprache ausgegeben.

Graﬁsch & Sprachlich (GS): Im multimodalen Ansatz werden gra- ﬁsch die Alternativen dargestellt und zusätzlich sprachlich ausgegeben. Die Hervorhebung des Listenelements erfolgt synchronisiert zur sprachlichen Ausgabe.

Die Präsentation möglicher Alternativen (in vorliegendem Beispiel Anwendungen) erfordert die Beschränkung auf zwei Anwendungen (Zweierauswahl) oder das Festlegen einer Reihenfolge der Liste (Listen- auswahl). Hierbei können Methodiken ähnlich zu Mitsubishi Electric 3.2 internetstudie zu hilfestrategien 91

Corporation (2014) oder Rodriguez Garzon (2013) angewandt werden, um die wahrscheinlichsten nächsten Nutzeraktivitäten auf Basis des aktuellen Dialogkontextes zu identiﬁzieren. Jedoch sichern diese Methodiken nicht absolute Korrektheit zu, zumal auch mehrere Anwendungen mit derselben Wahrscheinlichkeit in Frage kommen könnten. Somit könnten zwei falsche Anwendungen bei der Zweier- auswahl angezeigt werden, sowie die gesuchte Anwendung erst am Ende der Liste auftreten. Daher wird im Folgenden eine Variante mit Variante mit & Kontext (mitKtx) und eine ohne Kontext (ohneKtx) simuliert. ohne Kontext

3.2.1.2 Wirkungsgrößen Es kann davon ausgegangen werden, dass die verschiedenen Vari- anten unterschiedlichen Einﬂuss auf Gebrauchstauglichkeit und Auf- gabenerfolg aufweisen. Wie in vorheriger Studie bewerten Versuchs- personen die Gebrauchstauglichkeit (Fragebogen siehe AnhangA. 2.2) Gebrauchstaug- mit Hilfe der deutschen Übersetzung (Strauss, 2010) des SASSI-Fra- lichkeit gebogens (Hone und Graham, 2000). Da lediglich eine Bewertung einzelner Systemäußerungen während des Anwendungswechsels erfolgt, sind Fragen nach der generellen Systemperformanz nicht sinnvoll. Nutzer bewerten die Varianten somit hinsichtlich der SASSI- Dimensionen Genauigkeit der Systemantwort, Beliebtheit und Ärger- nis. Zusätzlich geben drei Fragen des ITU-T Rec. P.851 (Internatio- nal Telecommunication Union (ITU), 2003) Aufschluss über nicht ausreichende Hilfestellung (7.3 Q4), notwendige Konzentration (7.2 Q6) und Gesamteindruck. Zur Bestimmung des Aufgabenerfolgs erfolgt ei- Aufgabenerfolg ne manuelle Annotation, ob der Nutzer die korrekte Anwendung aus- wählen konnte oder nicht.

3.2.1.3 Hypothesen In einem Nutzerexperiment werden die Varianten des Dialoginitiati- venwechsels hinsichtlich Aufgabenerfolg und Gebrauchstauglichkeit evaluiert. Tabelle 3.7 zeigt die zu testenden Hypothesen in den Di- mensionen Interaktionsstrategie, Kontext und Modalität. Es ist davon auszugehen, dass die Strategien unterschiedliche Erfolge aufweisen, wobei die Referenzimplementierung am Besten abschneiden sollte (H1). Im Vergleich der Varianten mit Kontext (mitKtx) und ohne Kon- text (ohneKtx), sollten klare Vorteile bei den kontextsensitiven liegen, da Nutzer ihr Interaktionsziel efﬁzienter erreichen (H2.1 &H2.2). Be- züglich der Modalitäten sind im Aufgabenerfolg keine Unterschiede zu erwarten, da alle Varianten dieselben Informationen enthalten. Je- doch sollten sich die Vorlieben der Nutzer in der Bewertung der Ge- brauchstauglichkeit niederschlagen (H3). 92 studien zum anwendungswechsel und zu fehlerbehandlungen

Nr. Dimension Aufgabenerfolg Gebrauchstauglichkeit

H1 Strategie Ref > OF 6= ZA 6= LA Ref > OF 6= ZA 6= LA

H2.1 Kontext ZAmitKtx>ZAohneKtx ZAmitKtx>ZAohneKtx

H2.2 Kontext LAmitKtx>LAohneKtx LAmitKtx>LAohneKtx H3 Modalität G = S = GS G 6= S 6= GS

Tabelle 3.7: Hypothesen zu verschiedenen Varianten des Dialoginitiativen- wechsels (= keine signifikanten Unterschiede; 6= signifikante Un- terschiede; > signifikant besser als). Für Abkürzungen der Inter- aktionsvarianten siehe Abschnitt 3.2.1.1. Erstveröffentlichung in Reichel u. a. (2015a)

3.2.2 Aufbau und Durchführung der Studie

Die in Abschnitt 3.2.1.1 vorgestellten Interaktionsvarianten werden durch eine Internetstudie evaluiert. Diese Art der Evaluation ermög- licht einen breiten Teilnehmerkreis in kurzer Zeit, jedoch mit dem Nachteil, die Situation des Nutzers zu vernachlässigen (Lazar u. a., Vorstudie 2010). Die Studie ist somit als Vorstudie zu einem Experiment im Fahr- simulator zu sehen, in welchem die erfolgreichen Konzepte zusätzlich im sekundären Task evaluiert werden. Aus diesem Grund erfolgt die Entwicklung der GUI bereits unter Beachtung der standardisierten AAM-Richtlinie (Driver Focus-Telematics Working Group, 2006). So- mit sollte die visuelle Ablenkung minimiert und eine spätere Integra- tion in ein automobiles Infotainment-System erleichtert werden.

3.2.2.1 Anwendungsübergreifende Aufgaben der Nutzer Während im realen Einsatz eines Sprachdialogsystems Nutzeraufga- ben natürlich entstehen, müssen Versuchspersonen einer Studie in- struiert werden. Bernsen u. a. (1997) schlagen hierzu unter anderem Aufgabenbe- schriftliche und graﬁsche Aufgabenbeschreibungen vor. Speziell bei kur- schreibungen zen, einfachen Aufgaben ist es bei schriftlichen Anweisungen jedoch schwierig Priming-Effekte zu verhindern. Aus diesem Grund werden Aufgabenbeschreibungen dieser Studie, wie beispielhaft in Abbil- dung 3.14 dargestellt, graﬁsch veranschaulicht. Dies bietet vor allem in unkontrollierter Umgebung, wie einer Internetstudie, den Vorteil, dass Versuchspersonen die Aufgabenbeschreibung während des Ver- suchs behalten können (bei schriftlichen Anweisungen würde dies zum Ablesen führen). Ebenso wichtig ist es, Versuchspersonen reale Aufgaben zu stellen, so dass sie sich in die bestimmte Situation versetzen können. Hierfür Dialogkontext dient ein Kalendereintrag eines Konzerts (siehe Abbildung 3.14), wel- Kalendereintrag cher durch verschiedene Parameter, wie Titel, Datum, Ort, Teilnehmer und Beschreibung, diverse Anwendungswechsel mit Parameterüber- 3.2 internetstudie zu hilfestrategien 93

Abbildung 3.14: Beispielhafte Aufgabenbeschreibung für Versuchspersonen, um das Wetter beim Konzert (aktueller Dialogkontext: Ter- mineintrag einer Kalenderanwendung) zu erfahren. gabe begünstigt. Tabelle 3.8 zeigt die den Versuchspersonen gestellten Aufgaben, ausgehend vom Dialogkontext des Kalendereintrags. Wie in der vorherigen Studie stellt jeweils ein Parameter die Verbindung zur Verbindung von nächsten Anwendung her. Zum Beispiel soll die Versuchsperson bei Anwendungen über Task 2 zur Wetteranwendung wechseln, um das Wetter beim Kon- Parameter zert abzurufen. Wie in der vorherigen Studie sind Tasks klassiﬁziert nach Informationsanfrage (Inf) und Aktionsausführung (Akt) (siehe Abschnitt 3.1.1.1 und Kellar u. a. (2006)).

Task Anwendung Parameter Typ Beispielnutzeräußerung

1 Hotel Datum Akt „Ich möchte ein Hotel für das Konzert“ 2 Wetter Datum, Ort Akt „Zeige das Wetter” 3 Wissen Ort Inf „Was ist Parkbühne?” 4 Telefon Teilnehmer Akt „Ruf Alexandra an, um das Treffen abzusagen“ 5 Musik Beschreibung Akt „Spiele das neue Album im Radio“ 6 Navigation Ort Akt „Fahre mich hin“ 7 Facebook Titel Akt „Teile den Termin auf Fa- cebook“ 8 Wissen Ort Inf „Wann wurde die Park- bühne eingeweiht?“ 9 Wissen Titel Inf „Wann wurde Peter Mül- ler geboren?“

Tabelle 3.8: Anwendungsübergreifende Aufgaben der Versuchspersonen.

3.2.2.2 Split-Plot Studiendesign Wie in Abschnitt 3.2.1.1 beschrieben, sind drei Dialogstrategien zu evaluieren und mit einer Referenz in Relation zu setzen (Innergrup- Innergruppen- variable 94 studien zum anwendungswechsel und zu fehlerbehandlungen

penvariable). Die Dialogstrategien werden beeinflusst von Modalität und Kontextsensitivität (siehe Tabelle 3.9). Durch Kombination von Modalität und Kontextsensitivität entstehen sechs Bedingungen. Je- doch erweist sich eine Variation der vorwiegend grafischen Bedin- gung hinsichtlich Kontext als nicht sinnvoll, da ein Scrollen der Lis- te einen zusätzlichen Dialogschritt erfordern und somit diese Bedin- gung benachteiligen würde. Zusätzlich lässt sich nicht bestimmen, an welcher Position der Liste die gesuchte Anwendung im Optimalfall dargestellt werden soll, da Nutzer an unterschiedlichen Regionen des Bildschirms zu lesen beginnen können. Daher ist die grafische Varian- te in nur einer Bedingung, mit wechselnden Postionen der gesuchten Anwendung, implementiert.

Bedingung Modalität Kontext Interaktionsvariante

G Graﬁsch - Ref, OF, ZA, LA

SmitKtx Sprachlich mit Ref, OF, ZA, LA

SohneKtx Sprachlich ohne Ref, OF, ZA, LA

GSmitKtx Graﬁsch & Sprachlich mit Ref, OF, ZA, LA

GSohneKtx Graﬁsch & Sprachlich ohne Ref, OF, ZA, LA

Tabelle 3.9: Split-Plot Studiendesign, jede Versuchsperson evaluiert alle In- teraktionsvarianten einer Bedingung. Für Abkürzungen der In- teraktionsvarianten siehe Abschnitt 3.2.1.1.

Wie von Suhm u. a. (2001) gezeigt, ergibt eine Kombination mehrerer Modalitäten präzisere Ergebnisse als unimodale Hilfestrategien. Somit würden im direkten Vergleich der in Tabelle 3.9 dargestellten Bedingungen wahrscheinlich eine Präferenz zur multimodalen Präsentation festzustellen sein. Für eine spätere Implementierung im Fahrzeug-SDS bedeutet eine graﬁsche Veranschaulichung allerdings auch eine potentielle visuelle Ablenkung. Um zu evaluieren, ob eine rein sprachliche Präsentation Nachteile gegenüber graﬁsch oder multimodalen Implementierungen aufweist, werden die Bedingun- gen unter den Versuchspersonen aufgeteilt, so dass jede Versuchs- Zwischengruppen- person nur eine Bedingung evaluiert (Zwischengruppenvariable). Die variable Durchführung der Studie erfolgt somit im Split-Plot Design.

3.2.2.3 Ablauf des Experiments Zur Evaluation der fünf Bedingungen sind fünf Gruppen nötig. Hem- pel (2006) beobachtet einen Einﬂuss von Alter, Geschlecht und Tech- nikafﬁnität der Versuchspersonen auf Bewertung der Gebrauchstaug- lichkeit und des Aufgabenerfolgs im telefongestützten SDS. Dies bedeutet, über alle Versuchspersonen sollten sich fünf homogene Grup- pen hinsichtlich dieser Eigenschaften ergeben. Bei einer Internetstu- die besteht allerdings nur begrenzte Kontrolle der Teilnehmer und 3.2 internetstudie zu hilfestrategien 95

die vorherige Auswahl sowie die Zuweisung zu einer Gruppe ist daher nicht trivial. Somit muss eine Gruppenzuweisung adaptiv nach Ein- adaptive gabe des Alters, des Geschlechts und der Technikaffinität erfolgen. Gruppenzuweisung Hierfür wird der Algorithmus von Hoare u. a. (2013) genutzt, welcher eine adaptive, zufällige Zuordnung auf Basis mehrerer Strata ermöglicht. Für jede Bedingung wird eine Umfrage mit Hilfe des Tools Li- meSurvey8 implementiert, welche die Versuchspersonen durch die Studie begleitet. Zu Beginn erfolgt eine Aufnahme personenbezoge- ner Daten und genereller Erfahrungen mit technischen Geräten sowie Sprachdialogsystemen (siehe AnhangA. 2.1). Anschließend erfolgt die Studie in zwei Teilen: im ersten Teil interagieren die Teilneh- mer selbst, im zweiten werden Videos mit Beispielinteraktionen vor- gespielt. Im interaktiven Teil sehen Versuchspersonen eine grafische interaktiver Teil Veranschaulichung ihrer Aufgabe (vgl. Abschnitt 3.2.2.1) und müs- sen anschließend ihre Nutzeräußerung mit Hilfe eines HTML5-Re- korders beziehungsweise Adobe Flash-Players9 aufnehmen. Die Sys- temantwort wird mittels vorgefertigtem Video abgespielt (siehe Ab- bildung 3.13 für Beispieldialoge), wobei ein wiederholtes Abspielen unterbunden wird, da dadurch der Aufgabenerfolg verfälscht würde. Wie den Versuchspersonen zu Beginn erklärt wird, ist Barge-in, also das Unterbrechen der Systemäußerung, möglich, allerdings ist da- nach ein weiteres Abspielen unterbunden. Die Nutzerantwort darauf wird wieder aufgezeichnet und dient zur Bestimmung des Aufgaben- erfolgs. Anschließend an jede Interaktion mit einer Dialogstrategie erfolgt eine Bewertung mittels Gebrauchstauglichkeitsfragebogens auf einer 7-stufigen Likert-Skala (siehe AnhangA. 2.2). Zwischen Teil eins und Teil zwei wird ein Vergleich der Interaktionsvarianten bezüglich Gesamteindruck verlangt. Im Teil der Beispielinteraktionen betrachten Beispiel- die Teilnehmer zunächst ein Video, in welchem ein Nutzer mit dem interaktionen System interagiert. Anschließend erfolgt eine Bewertung hinsichtlich Gesamteindruck des Sprachdialogsystems (International Telecommu- nication Union (ITU), 2003). Am Ende erfolgt ein abschließender Ver- gleich der Dialogstrategien und es besteht die Möglichkeit zur Teil- nahme an einem Gewinnspiel.

3.2.3 Ergebnisse und Diskussion

Im Folgenden werden Ergebnisse der Internetstudie mit 99 Teilneh- mern (71 männlich, 28 weiblich), nach Dialogstrategie, Kontext und Teilnehmer Modalität gegliedert, präsentiert. Versuchspersonen sind im Schnitt 30,4 Jahre alt (SD=9,7) und haben mittlere Erfahrung mit Sprachdia- logsystemen( 6-stufige Likert-Skala: M=3,3, SD=1,37), weisen jedoch eine überdurchschnittliche Technikaffinität auf (5-stufige Likert-Skala:

8 http://www.limesurvey.org [Online 29.05.2015] 9 http://www.adobe.com/products/flashplayer.html [Online 29.05.2015] 96 studien zum anwendungswechsel und zu fehlerbehandlungen

M=3,99, SD=0,68). 8 Versuchspersonen hatten Probleme mit ihrem Mikrofon und flossen somit nicht in die Auswertung des interaktiven Teils ein. Hingegen haben 5 Teilnehmer nach dem ersten Teil die Stu- die abgebrochen und flossen somit nicht in die Auswertung des zweiten Teils ein. 95% der Aufgaben wurden korrekt verstanden, was den Ansatz der grafischen Aufgabenbeschreibung bestätigt. Ein Kruskal- Wallis-Test (Kruskal und Wallis, 1952) zeigt keine signifikanten Unter- schiede der Gruppen bezüglich Alter (χ2(4)=2,9, p=,575) und Techni- kaffinität (χ2(4)=8,19, p=,085). Da dies für die Geschlechtsverteilung homogene Gruppen ebenso gilt, kann von homogenen Gruppen ausgegangen werden. In allen vier Phasen wurde der Gesamteindruck jeder Dialogstrate- gie ermittelt: (1) nach jeder Interaktion im interaktiven Teil; (2) nach dem interaktiven Teil im Vergleich; (3) nach jeder Beispielinteraktion; (4) nach Betrachtung aller Beispielinteraktionen im Vergleich. Zwi- schen (1) und (2) ergeben sich nur jeweils minimale Unterschiede (t(90)>0,47, p>,035), weshalb im Folgenden (2) nicht betrachtet wird. Während bei (1) die Beurteilung nach einer realen Interaktion erfolgt, zeigt (3) und (4) lediglich den Blick aus Sicht einer dritten Person. So- mit wird im Folgenden primär (1) analysiert und lediglich bei signifikanten Unterschieden auf (3) oder (4) eingegangen. Abbildungen zeigen im Folgenden Mittelwerte (M) und Standardabweichungen (SD, engl. Standard Deviations).

3.2.3.1 Ergebnisse der Dialogstrategien (Hypothese 1)

Beurteilungen Ge- Abbildung 3.15 sind die Beurteilungen der Gebrauchstauglichkeit ver- brauchstauglichkeit schiedener Dialogstrategien zu entnehmen. Hierbei wurden alle SAS- SI-Dimensionen zu einem Gesamtwert zusammengefasst. Deutlich erkennbar wird das Referenzsystem am Besten bewertet, wobei eine offene Frage am Schlechtesten beurteilt wird. Die Zweier- und Listen- auswahl beﬁnden sich dazwischen, jedoch hängt die Zweierauswahl stark vom Kontext ab (siehe Abschnitt 3.2.3.2) und wird aus diesem Grund im allgemeinen Vergleich schlechter als die Listenauswahl bewertet. Anhand der Bewertung der Hilfe-Dimension wird offensicht- offene Frage reicht lich, dass eine offene Frage als Hilfestellung nicht ausreichend ist. Eben- nicht aus so erfordert diese Dialogstrategie mehr Konzentration als die anderen. Neben einer rein subjektiven Bewertung durch die Nutzer, gibt der Aufgabenerfolg Aufgabenerfolg Aufschluss über die objektive Leistung einer Hilfestra- tegie, das heißt, ob ein Nutzer zu seinem Interaktionsziel gelangt oder nicht. Wie in der vorherigen Studie zeigen die Listenauswahl (100%) und das Referenzsystem (97,78%) sehr gute Aufgabenerfolgs- raten. Hingegen schneiden offene Frage (68,45%) und Zweierauswahl (59,02%) deutlich schlechter ab. Speziell in Aufgaben der Informati- onsanfrage hatten Versuchspersonen Probleme, die richtige Anwen- dung zu benennen. Hohe Varianzen zeigen sich hierbei in Anwen- dungsnamen wie zum Beispiel: „Websuche“, „Browser“, „Wikipedia“ 3.2 internetstudie zu hilfestrategien 97

3 *** *** *** *** 2 *** 1 0 -1 -2 -3 Gesamteindruck SASSI Hilfe erw. Konzentration Referenz Offene Frage Zweierauswahl Listenauswahl

Abbildung 3.15: Beurteilung der Dialogstrategien. Signiﬁkanzniveau (Korrektur nach Bonferroni): p<,0083(*), p<,0016(**), p<,00016(***). oder „Google“. Ähnlich zur subjektiven Bewertung müssen die Ergeb- nisse der Zweierauswahl unter Vorbehalt des Aspekt der Varianten mit und ohne Kontext behandelt werden (siehe Abschnitt 3.2.3.2). Ein Problem der offenen Frage ist für die Teilnehmer, dass sie die verfügbaren Anwendungen nicht kennen. Die Bewertung der offenen Frage in einer Beispielinteraktion, in welcher der Teilnehmer lediglich Zuschauer ist und sieht, wie der vermeintliche Nutzer mit dem SDS interagiert, zeigt einen um 1,3 Punkte besseren Gesamteindruck (t(85)=6,825, p<,001). Somit könnte für ein Expertennutzer, der die jeweiligen Anwendungen kennt, diese Strategie durchaus erfolgreich sein. Laut Hypothese 1 sollten sich verschiedene Dialogstrategien hinsichtlich Aufgabenerfolg und Gebrauchstauglichkeit unterscheiden. Im Aufgabenerfolg zeigen die Dialogstrategien Unterschiede, wobei das Referenzsystem nicht besser als die Listenauswahl abschneidet. Somit gilt Hypothese 1 nur teilweise und müsste umformuliert werden: Hypothese 1 gilt LA > Ref > OF > ZA. Dagegen erfordert die Gebrauchstauglichkeit teilweise differenziertere Betrachtungen. Für SASSI und erwartete Hilfe wird die Hypothese 1 angenommen. Jedoch ergibt sich im Gesamteindruck kein Unterschied zwischen ZA und LA und bezüglich der Konzentra- tion nur ein Unterschied in ZA und OF. Somit muss die Hypothese zum Teil abgelehnt werden.

3.2.3.2 Nutzung kontextsensitiver Informationen (Hypothese 2) Hypothese 2.1 zieht Vergleiche der Zweierauswahl mit Kontext und ohne Kontext. Die kontextsensitive Variante zeigt die gesuchte An- wendung an, wogegen die Variante ohne Kontext zwei falsche An- wendungen präsentiert. Wie erwartet, ergeben sich große Unterschie- de des Aufgabenerfolgs von 80,23% mit Kontext zu 19,75% ohne Kontext. Ebenso zeigen kontextsensitive Varianten, bezüglich den Ge- 98 studien zum anwendungswechsel und zu fehlerbehandlungen

brauchstauglichkeitsdimensionen SASSI, Gesamteindruck und erwartete Hilfe, signiﬁkant bessere Werte (siehe Abbildung 3.16). Somit Hypothese 2.1 kann die Hypothese 2.1, außer in der vom Nutzer aufzuwendenden annehmen Konzentration, angenommen werden.

3 *** * *** ** 2 1 0 -1 -2 -3 Gesamteindruck SASSI Hilfe erw. Konzentration ZAmitKtx ZAohneKtx LAmitKtx LAohneKtx

Abbildung 3.16: Beurteilung der Varianten bezüglich Kontext. Vergleiche nur hinsichtlich identischer Dialogstrategien dargestellt, Si- gniﬁkanzniveau: p<,05(*), p<,01(**), p<,001(***).

Die Dialogstrategie Listenauswahl implementiert ebenfalls einen Unterschied abhängig vom Dialogkontext durch die Anordnung der gesuchten Anwendung. Im Aufgabenerfolg konnten, ebenso wie in den Gebrauchstauglichkeitsdimensionen des SASSIs, bei der erwar- teten Hilfe und der Konzentration keine signiﬁkanten Unterschiede Hypothese 2.2 festgestellt werden (siehe Abbildung 3.16). Somit kann Hypothese 2.2 gilt nicht nicht gehalten werden. Jedoch wird bezüglich Gesamteindruck die Variante ohne Dialogkontext minimal besser bewertet (t(65)=2,094, p=,04). Dies lässt sich darauf zurückführen, dass lediglich 37% der Versuchspersonen Barge-in nutzten. Die restlichen hörten, trotz Kennt- nis der gesuchten Anwendung zu Beginn, die Liste bis zu Ende.

3.2.3.3 Grafische und sprachliche Modalität (Hypothese 3) Einen Unterschied in der Präsentation implementieren lediglich die Dialogvarianten Zweier- und Listenauswahl, weshalb ein Vergleich nur auf Basis deren Ergebnisse stattfinden kann. Ebenso müssen die Ergebnisse der hauptsächlich grafischen Varianten mit Vorsicht betrachtet werden, da hier keine Variation nach Kontext stattfand, und somit die anderen Varianten in der nicht-kontextsensitiven Implemen- tierung einen Nachteil beinhalten (siehe vorheriger Abschnitt). Die zu testende Hypothese geht von keinem Unterschied hinsichtlich Aufga- benerfolg aus, aber von einem Unterschied in Werten der Gebrauchs- tauglichkeit. Aufgabenerfolg Im Vergleich des Aufgabenerfolgs der Präsentationsformen grafisch (97,37%), grafisch & sprachlich (78,35%) und sprachlich (72,98%) zeigt sich zunächst eine starker Unterschied. Unter Ausschluss der Varian- 3.2 internetstudie zu hilfestrategien 99 ten ohne Kontext, ergeben sich allerdings Aufgabenerfolgsquoten von grafisch & sprachlich 97,06% und sprachlich 84,21%. Somit lässt sich lediglich ein Unterschied zwischen den rein sprachlichen und grafischen grafisch besser als Präsentationsmodalitäten feststellen. Unter genauer Betrachtung fällt rein sprachlich auf, dass im Falle einer rein sprachlichen Zweierauswahl Versuchsper- sonen mit „ja“ antworteten, somit die entweder-oder-Auswahl nicht deutlich wird. 3 * 2 1 0 -1 -2 -3 Gesamteindruck SASSI Hilfe erw. Konzentration Grafisch (G) Sprachlich (S) Grafisch & Sprachlich (GS)

Abbildung 3.17: Beurteilung der verschiedenen Modalitäten. Signiﬁkanzni- veau: p<,05(*), p<,01(**), p<,001(***).

Abbildung 3.17 zeigt Werte der Gebrauchstauglichkeit. Hierbei kön- Gebrauchstaug- nen kaum signiﬁkante Unterschiede zwischen den Modalitäten fest- lichkeit gestellt werden. Lediglich im Gesamteindruck wird die hauptsäch- lich graﬁsche Umsetzung besser bewertet (Univariate ANOVA mit Helmert-Kontrast: F(2,88)=4,633, p=,012, η2=,095), was allerdings auf die fehlende Variante ohne Kontext zurückzuführen ist. Anhand der gezeigten Ergebnisse kann Hypothese 3 somit nicht an- Hypothese 3 genommen werden. Bezüglich Aufgabenerfolg ist, speziell hinsichtlich gilt nicht der Zweierauswahl, ein Unterschied festzustellen, wogegen in Punk- ten der Gebrauchstauglichkeit im Allgemeinen nur ein minimaler Un- terschied vorliegt.

3.2.4 Fazit zu Hilfestrategien für die Disambiguierung von Anwendungen

Der Dialoginitiativenwechsel der vorherigen Studie wurde näher betrachtet, und folgende drei Dialogstrategien wurden entwickelt und evaluiert: Offene Frage, Zweier- und Listenauswahl. Die Erstere implementiert dabei eine generische Hilfestrategie, wogegen die Letz- teren kontextsensitive und zielgerichtete Ansätze darstellen, welche dem Nutzer aktiv mögliche Alternativen anbieten. Die Position der Alternativen wird nach verfügbarem Dialogkontext variiert. Ebenso erfolgen Variationen hinsichtlich der Ausgabemodalitäten graﬁsch, sprachlich und kombiniert. Die Strategien sollten einen Einﬂuss auf 100 studien zum anwendungswechsel und zu fehlerbehandlungen

Aufgabenerfolg sowie Gebrauchstauglichkeit zeigen und werden mit einer optimalen Referenz verglichen. Die Dialogstrategien wurden mittels einer Internetstudie an 99 Teil- nehmern evaluiert. Wie zu erwarten, zeigt die Referenz die besten generische Werte, wobei die Listenauswahl hinsichtlich Aufgabenerfolg auf glei- Hilfestrategie chem Niveau zu ﬁnden ist. Eine offene Frage bietet hingegen keine ungenügend ausreichende Hilfestrategie für Nutzer ohne Systemkenntnis - speziell bei Informationsanfragen ohne eindeutigen Anwendungsbezug gelangen sie nicht zum Interaktionsziel. Dies deckt sich mit Ergebnissen von R. Smith (1993), welcher in einer Nutzerstudie beobachtete, dass Novizen lieber geführt werden wollen, wogegen Experten gerne die Zweierauswahl gut Dialoginitiative übernehmen. Die Zweierauswahl ist sehr stark vom aber kontext- Kontext abhängig: ist die gesuchte Anwendung unter der Auswahl, ist abhängig dies eine probate Hilfestrategie. Lassen sich die möglichen Alternativen durch den Dialogkontext nicht auf zwei beschränken, sollte auf die Listenauswahl zurückgegriffen werden, bei welcher die Position der gesuchten Anwendung bisher keinen großen Einﬂuss aufweist. Dies könnte der geringen Nutzung von Barge-in geschuldet sein. Bezüg- lich der Modalität benötigt die Zweierauswahl eine visuelle Reprä- sentation, wobei sonst keine großen Unterschiede festgestellt werden konnten. Wie gezeigt, sind eine Zweier- und Listenauswahl für Systemneu- linge probate Hilfestrategien zur Disambiguierung von Anwendun- gen im anwendungsübergreifenden SDS. Für eine Umsetzung im Fahr- Aspekt der zeug ist allerdings der Aspekt Fahrerablenkung zusätzlich zu betrach- Fahrerablenkung ten. Die Variation hinsichtlich Modalität ergab in der präsentierten Studie keine großen Unterschiede. Jedoch ist zu erwarten, dass als sekundäre Aufgabe speziell die visuelle Darstellung vom Fahrgesche- hen ablenkt. Aus diesem Grund werden die beiden Strategien hinsichtlich verschiedener Ausgabemodalitäten in einer anschließenden Fahrsimulatorstudie analysiert.

3.3 fahrsimulatorstudie zu hilfestrategien

Die erste Fahrsimulatorstudie dieser Arbeit (siehe Abschnitt 3.1) iden- tiﬁzierte einen Dialoginitiativenwechsel als probate Möglichkeit der Fehlerbehandlung im Falle einer OOA-Äußerung. Durch das Vorle- sen von Beispieläußerungen entstanden jedoch lange Systemdialo- ge, welche erhöhtes Ablenkungspotential des Fahrers bedeuten. Bei OOA-Äußerungen sind allerdings Beispiele nicht notwendig, da eine Interpretation der ursprünglichen Äußerung im richtigen Anwen- dungskontext möglich ist. Dies erfordert ein Setzen der richtigen An- wendung durch den Nutzer, wofür in der vorherigen Studie (siehe Abschnitt 3.2) Dialogstrategien entwickelt und evaluiert wurden. Die Zweier- sowie Listenauswahl zeigten Vorteile in Gebrauchstauglich- keit und Aufgabenerfolg, jedoch fehlt bisher eine Evaluation hinsicht- 3.3 fahrsimulatorstudie zu hilfestrategien 101 lich Bedienung als Sekundäraufgabe. Speziell bezüglich der Modali- tät ist ein Unterschied zwischen der Bedienung als Sekundär- und Primäraufgabe zu erwarten. Im Folgenden werden daher die zwei Dialogstrategien auf Ablenkungsaspekte untersucht. Die Evaluation erfolgte im Zusammenhang der betreuten Bachelorarbeit von Szauer (2015) und wurde in Teilen bereits publiziert und diskutiert (Reichel, Szauer u. a., 2015). Die Auswahl von Anwendungen kann im Allgemeinen als Selekti- Selektion phonetisch on phonetisch unterschiedlicher Elemente einer Liste oder eines Menüs unterschiedlicher abstrahiert werden. Vorliegende Studie ist somit ähnlich zu Arbei- Elemente ten von Gable u. a. (2013), welche eine Auswahl von Einträgen langer Menüs analysierten. Wie auf Grund der „multiple resource theory“ zu vermuten und durch diverse Arbeiten abgesichert (siehe Swette u. a. (2013)), begünstigen auditive Rückmeldungen zum aktuellen Lis- tenelement den Blick der Versuchspersonen auf die Straße, wobei eine visuelle Präsentation eine verstärkte Ablenkung bewirkt. Jedoch wurde für die Studie von Swette u. a. (2013) ein handelsübliches Smart- phone genutzt, wodurch zusätzlich von einer manuellen Ablenkung auszugehen ist. Einen Vergleich der visuellen, auditiven und multimodalen Präsentation eines Menüs untersuchten Zhao u. a. (2013) als Primär- und Sekundäraufgabe. Während die visuelle Modalität eine schnellere Auswahl in der Primäraufgabe zeigte, bewirkte sie als se- kundäre Aufgabe eine Ablenkung. Die auditive Systemausgabe min- derte dieses Risiko. Die Evaluation erfolgte allerdings mit einer sehr geringen Anzahl an Teilnehmern, sowie ohne detaillierte Analyse der subjektiven Belastung und Gebrauchstauglichkeit mit standardisierten Fragebögen. Die Selektion erfolgte mittels Touchpad und nicht per Sprache, wie in der Studie vorliegender Arbeit. Diese soll wertvolle Erkenntnisse liefern, wie Listen mit wenigen phonetisch unterschiedlichen Einträgen in ein multimodales Infotainment-System im Fahrzeug integriert werden können. Ähnlich zu den vorherigen Ab- schnitten erfolgt eine Präsentation über Studienkonzept, Aufbau und Durchführung der Studie, gefolgt von den festgestellten Ergebnissen mit einer Diskussion und einem abschließenden Fazit.

3.3.1 Studienkonzept

Wie gezeigt, ist eine generische Hilfestrategie keine sinnvolle Mög- lichkeit, Systemneulingen eine Anwendungsauswahl zu ermöglichen; Zweier- und Listenauswahl sind hingegen besser geeignet. Dies basiert zwar auf Ergebnissen während einer Interaktion als Primärauf- gabe, jedoch sind keine Unterschiede zum Einsatz in einer Sekun- däraufgabe zu erwarten. Somit werden im Folgenden lediglich die Dialogstrategien Zweier- (ZA) und Listenauswahl (LA) im Fahrzeug ana- Zweier- und lysiert (siehe Abbildung 3.18). Die Implementierung erfolgt wie in Listenauswahl im Abschnitt 3.2.1.1 vorgestellt (Anwendungen sind jedoch durch Obst- Fahrzeug 102 studien zum anwendungswechsel und zu fehlerbehandlungen

1. Poster

2. Buch

3. Kirsche

4. Kerze

5. Fahrrad

N: „Wählen Sie einen Eintrag: Kir- N: „Wählen Sie einen Eintrag: sche oder Buch?“ Poster, Buch, Kirsche, Kerze oder Fahrrad?“ S: „Kirsche“ S: „Kirsche“ N: „Auswahl erfolgreich“ N: „Auswahl erfolgreich“ (a) Zweierauswahl (ZA) (b) Listenauswahl (LA)

Abbildung 3.18: Strategien der Selektion eines Listeneintrags, abgebildet in multimodaler Variante jeweils mit graﬁscher Darstellung und sprachlichem Dialog: Nutzer (N) und System(S).

sorten und Gegenstände abstrahiert). Während als Primäraufgabe kein signifikanter Unterschied der Modalitäten festgestellt werden visuelle & auditive konnte, kann davon ausgegangen werden, dass visuelle und auditive Modalität Modalität während des Fahrens unterschiedlich stark ablenken (siehe Abschnitt 2.3.4). Wie in der vorherigen Studie erfolgt aus diesem Grund eine Unterscheidung in: vorwiegend Grafisch (G), vorwiegend Sprachlich (S) sowie kombiniert Grafisch und Sprachlich (GS). Ab- bildung 3.18 zeigt jeweils die kombinierte Variante, wobei das her- vorgehobene Listenelement synchronisiert mit der Sprachausgabe ist. In vorwiegend Sprachlich und vorwiegend Grafisch werden die Ele- mente nicht angezeigt respektive nicht vorgelesen, jedoch Nutzer mit einer generischen Äußerung („Wählen Sie einen Eintrag“) proaktiv aufmerksam gemacht. Es ist davon auszugehen, dass sich die Dialogstrategien und ihre Wirkungsgrößen Modalitätsvariationen in den Wirkungsgrößen Fahrleistung, subjektive Belastung, Gebrauchstauglichkeit, Aufgabenerfolg und Dialogdauer unterscheiden. Die Fahrleistung und subjektive Belastung wird, wie in Abschnitt 3.1.1.3 beschrieben, durch Spurhaltung und Reaktion auf Ereignisse objektiv und, mittels DALI-Fragebogen (Pauzié u. a., 2007) subjektiv, erfasst (deutsche Übersetzung nach Hofmann (2014)). Die Beurteilung der Gebrauchstauglichkeit erfolgt über eine verkürz- te Version des SASSI-Fragebogens nach Hone und Graham (2000) mit deutscher Übersetzung nach Strauss (2010) (siehe AnhangA. 3.2). Bei- de Fragebögen basieren auf einer 5-stufigen Likert-Skala. Die DALI- Bewertung erfolgt von „sehr gering“ (-2) bis „sehr hoch“ (+2) und SASSI von „trifft gar nicht zu“ (-2) bis „trifft voll zu“ (+2). Die Auf- gabe ist erfolgreich absolviert bei richtiger sprachlicher Selektion des gesuchten Elements. Eine Korpusanalyse ergibt in aktueller Studie 3.3 fahrsimulatorstudie zu hilfestrategien 103 keinen Sinn, da Versuchspersonen lediglich den Namen des Eintrags nennen müssen. Auf Basis der durchgeführten Studien und bestehenden Arbeiten lassen sich Hypothesen ableiten (siehe Tabelle 3.10), welche anhand Hypothesen einer Nutzerstudie im Fahrsimulator überprüft werden.

Nr. Dimension Fahrleist. subj. Bel. Geb.taugl. Erfolg

H1 Strategie Zweierauswahl > Listenauswahl H2 Modalität S > GS > GS = GS = G

Tabelle 3.10: Hypothesen zu verschiedenen Dialogvariationen der Auswahl (= keine signiﬁkanten Unterschiede; > signiﬁkant besser als).

Der Vergleich der Dialogstrategien sollte deutliche Vorteile einer Zweier- gegenüber einer Listenauswahl ergeben, da weniger Elemen- te zur Auswahl stehen, was somit einen kürzeren Dialog erfordert. Neben der Anzahl der Elemente unterscheiden sich die beiden Dia- logstrategien noch zusätzlich in der visuellen Präsentation in Form von Bild und Text. Da eindeutig interpretierbare Bilder gewählt werden ist hier nicht von einem Unterschied bezüglich der Interpretation auszugehen. Sollten sich jedoch unterschiedliche Ergebnisse ergeben, muss dies gesondert analysiert werden. Bezüglich der Modalität ist davon auszugehen, dass visuelle Darstellungen objektiv und subjektiv belastend wirken und somit eine auditive Präsentation in diesen Dimensionen von Vorteil ist. Auf Grund vorheriger Studie ist allerdings davon auszugehen, dass Gebrauchstauglichkeit und Aufgaben- erfolg keine signiﬁkanten Unterschiede ergeben.

3.3.2 Aufbau und Durchführung im Fahrsimulator

Zum Testen der Hypothesen mit anschließender Bewertung einer mög- lichen Nutzung der Konzepte in einem Infotainment-System dient eine Nutzerstudie. Auf Basis der Erfahrungen der ersten Fahrsimu- latorstudie (siehe Abschnitt 3.1) erfolgt die Deﬁnition des Aufbaus und die Durchführung der Studie. Wie erwähnt, erfolgt eine Evalua- tion zweier Dialogstrategien in jeweils drei Modalitäten, was zu sechs verschiedenen Bedingungen führt. Jede Versuchsperson führt alle Be- dingungen aus, wobei die Reihenfolge der Bedingungen permutiert wird, um potentielle Effekte der Reihenfolge zu eliminieren. Als Fahrsimulation und Fahraufgabe dient erneut OpenDS (Math u. a., Fahrsimulation & 2012) mit ConTRe Task (Mahr u. a., 2012), wie in Abschnitt 3.1.2.1 be- Fahraufgabe schrieben. Bezüglich des Versuchsaufbaus erfolgt eine Änderung, von Versuchsaufbau ehemals einer Fahrgastzelle, hin zu handelsüblicher PC-Hardware in Form eines Logitech G27 Lenkrads mit Force Feedback sowie zuge- hörigen Pedalen (siehe Abbildung 3.19). Dies mindert zwar den Ein- druck einer realen Fahrzeugumgebung, erhöht jedoch durch Force 104 studien zum anwendungswechsel und zu fehlerbehandlungen

Feedback den Lenkwiderstand und erzeugt somit eine realitätsge- treue, schwierigere Lenkaufgabe. Ein Monitor zur Darstellung des In- fotainment-Systems ist rechts des Fahrers angebracht und entspricht der gängigen Größe (7", 800x480 Pixel) und Position in Fahrzeugen.

Abbildung 3.19: Fahrsimulator auf Basis von PC-Hardware.

Für die Sekundäraufgabe ist entscheidend, dass Versuchspersonen ein klares Verständnis ihrer Aufgabe haben. Bei der Auswahl einer Anwendung müsste eine Erklärung, welche die gesuchte Anwendung ist, stattfinden. Da dies keine triviale Aufgabe ist, wird die Sekundär- Anwendungen aufgabe dahingehend vereinfacht, indem Anwendungen durch Objekte durch Objekte abstrahiert sind. Unter den Objekten ist jeweils eine Obstsorte darge- abstrahiert stellt, welche ausgewählt werden muss. Ist dies in einer Textdarstel- lung eindeutig, muss bei bildlicher Darstellung besondere Sorgfalt hinsichtlich ähnlicher Obstsorten erfolgen, so sind zum Beispiel Oran- gen, Mandarinen oder Pfirsiche ausgeschlossen. Die Auswahl wird vom SDS durch eine sprachliche Äußerung initiiert. Daraufhin müssen die Teilnehmer die Obstsorte sprachlich aus- wählen, worauf eine generische Systemäußerung („Auswahl erfolg- statischer Dialog reich“) als Bestätigung erfolgt. Somit ist der Dialog, sowie seine Elemen- te, statisch und kann im voraus definiert werden. Dies geschieht durch eine Bildschirmpräsentation mit der Software LibreOffice10, welche auf dem Monitor des Infotainment-Systems dargestellt wird. Zur Ver- meidung von Fehlerkennungen ist die ASR des Sprachdialogsystems erneut als WoZ implementiert, das heißt, der Versuchsleiter interpre- Wizard-of-Oz (WoZ) tiert die Antwort der Versuchsperson und schaltet die Präsentation weiter. Ein Makro zeichnet die Aktionen des Wizards für die spätere Auswertung auf. Um die Illusion eines realen Sprachdialogsystems

10 https://de.libreoffice.org/ [Online 07.08.2015] 3.3 fahrsimulatorstudie zu hilfestrategien 105

zu erhalten, erfolgen sämtliche Sprachausgabe synthetisiert (NUAN- CE Vocalizer Expressive11, Version 1.2.1, Simme: anna.full) Zur Durchführung wird jeder Versuchsteilnehmer anfangs begrüßt, Durchführung erhält einen Versuchsüberblick und muss zur Teilnahme einwilligen. Durch einen Vorbefragungsbogen wird ein Proﬁl der Versuchsperson hinsichtlich Alter, Geschlecht, Erfahrung mit Sprachdialogsystemen und Technikafﬁnität erstellt (siehe AnhangA. 3.1). Anschließend erfolgt eine Einweisung in den Fahrsimulator, Erklärung des ConTRe Tasks und eine Übungsfahrt zur Gewöhnung an die Fahraufgabe. Zu Beginn und zu Ende erfolgt eine Baseline-Fahrt ohne Sekundärauf- gabe, um mögliche Lerneffekte festzustellen. Dazwischen werden die Bedingungen, welche jeweils fünf Selektionen im durchschnittlichen Abstand von 10 Sekunden erfordern, absolviert. Jede Fahrt ist somit unterteilt in Phasen mit Dialog und Phasen ohne Dialog (siehe Abbil- dung 3.20). Im Anschluss an eine Fahrt wird die Bedingung mittels verkürztem SASSI- und DALI-Fragebogen bewertet (siehe Anhang A.3.2). Das Experiment dauert in der Regel 40 Minuten und als Dan- keschön erhalten die Versuchspersonen Süßigkeiten.

Start Ø10 sek Dialogdauer Ende

Dialog Kein Dialog Dialog … Dialog t

Abbildung 3.20: Fahrt unterteilt in Phasen mit und ohne Dialog.

3.3.3 Ergebnisse und Diskussion

Im Folgenden werden die Ergebnisse der Fahrsimulatorstudie mit 30 Teilnehmern (22 männlich, 8 weiblich), untergliedert nach Wirkungs- Teilnehmer größen, präsentiert. Im Schnitt sind die Versuchspersonen 25,8 Jah- re alt (SD=2,92) sowie technikaffin (5-stufige Likert-Skala: M=4,16, SD=0,76) und würden daher ein fortschrittliches Infotainment-Sys- tem im Fahrzeug nutzen. Die Teilnehmer weisen mittlere Erfahrung mit sprachbedienbaren Geräten auf (6-stufige Likert-Skala: M=3,17, SD=1,26). Alle Personen besitzen einen Führerschein, jedoch über die Hälfte (56,67%) fährt lediglich wenige Male pro Woche und kann somit als Gelegenheitsfahrer mit wenig Fahrpraxis eingestuft werden. Wie in der vorherigen Ergebnispräsentationen zeigen Abbildungen Mittelwerte (M) und Standardabweichungen (SD, engl. Standard De- viations).

11 http://www.nuance.com/for-business/mobile-solutions/ vocalizer-expressive/ [Online 27.12.2014] 106 studien zum anwendungswechsel und zu fehlerbehandlungen

3.3.3.1 Fahrleistung Die Fahrleistung wird gemessen anhand von Spurabweichung und Reaktionszeit. Zu Beginn und zu Ende des Experiments erfolgt eine Messung beider Wirkungsgrößen in einer Bedingung ohne SDS- Bedienung (Baseline-Fahrten). Im Durchschnitt ist die Abweichung der Spur in der ersten Baseline-Fahrt (M=0,208, SD=0,058) signifikant höher (p=,002) als in der zweiten Baseline-Fahrt (M=0,173, SD=0,051). Dies deutet auf einen gewissen Lerneffekt über die Zeit hin. Um diese Einflüsse auf die Bedingungen zu verhindern, wurde die Reihenfol- ge permutiert. Zwischen zwei SDS-Phasen (Dialog) sind im Schnitt 10 Sekunden reine Fahrt (kein Dialog), welche im Folgenden anstatt der Baseline-Fahrten zur Analyse verwendet werden. Da die reine Fahrt direkt im selben Lernfortschritt wie die jeweilige SDS-Bedie- nung erfolgt, sind die Ergebnisse trotz Lerneffekt vergleichbar. Die Phasen mit und Daten sind somit geteilt nach Phasen mit Dialog und Phasen ohne Dia- ohne Dialog log. Die Daten der Spurabweichung sind normalverteilt (Test auf Nor- malverteilung nach Shapiro und Wilk (1965): W(29)=[0,908, 0,986], p=[,015,,956]), bis auf Zweierauswahl_GS_Dialog (W(29)=0,896, p=,008) und Listenauswahl_S_Dialog (W(29)=0,784, p<,001). Wie in Abbildung 3.21 dargestellt, zeigen sich signifikante (p<,001) Abweichungen der Spur während der SDS-Bedienung in Bedingungen, welche haupt- sächlich auf grafischer Modalität beruhen (G). Die sprachliche Bedie- nung (S) zeigt ebenso in Zweierauswahl (t(28)=2,4, p=,023) und in Listenauswahl (Z(30)=-2,931, p=,003) signifikante Unterschiede zwischen Dialog und kein Dialog. In Kombination der Modalitäten (GS) ergibt sich jedoch kein signifikanter Unterschied zwischen Dialog und kein Dialog (p>,09).

0,4 * *** ** ***

0,3

kein Dialog 0,2 Dialog

0,1 S G GS S G GS Zweierauswahl (ZA) Listenauswahl (LA)

Abbildung 3.21: Gemessene Spurabweichung, unterteilt nach Dialogstrate- gie und Modalität. Signiﬁkanzniveau: p<,05(*), p<,001(***)

Wie in Abschnitt 3.3.1 durch Hypothese 1 formuliert, sollte eine Zweierauswahl weniger ablenkend als eine Listenauswahl sein. Ein Vergleich beider Dialogstrategien erfolgt jeweils in derselben Modali- tät. Bezüglich der sprachlichen Variante (S) ergibt ein Wilcoxon-Vor- zeichen-Rang-Test keinen signifikanten Unterschied hinsichtlich Spu- 3.3 fahrsimulatorstudie zu hilfestrategien 107 rabweichung (Z(29)=-1,589, p=,112), was ebenso in der kombinierten Modalität (GS) gilt (Z(29)=-0,681, p=,496). Lediglich in der vorwiegend grafischen Umsetzung (G) ergibt sich ein signifikanter Unter- schied zwischen den Dialogstrategien (t(29)=4,552, p<,001). Hypothe- Hypothese 1 gilt se 1 ist somit nur in der vorwiegend grafischen Modalität anzunehmen (G). teilweise Die Betrachtung des Vergleichs der Phasen mit und ohne Dialog lässt bereits den Schluss über Unterschiede bezüglich des Vergleichs der Modalitäten zu. Ein Test nach Friedman (1937) zeigt beim Ver- gleich der Modalitäten in der Dialogstrategie Zweierauswahl signifikante Unterschiede (χ2(2)=17,655, p=<,001). Dies gilt ebenso für die Dialogstrategie Listenauswahl (χ2(2)=19,103, p=<,001). Ergebnisse an- schließender Post-Hoc-Tests sind Tabelle 3.11 zu entnehmen. Nach Bonferroni-Korrektur sind jeweils signifikante Unterschiede von vorwiegend Grafisch (G) zu den anderen beiden Varianten festzustellen. Hinsichtlich einer kombinierten Ausgabe (GS) und der sprachlichen Ausgabe (S) ist kein Unterschied festzustellen, somit kann angenommen werden, dass Versuchspersonen die grafische Darstellung ignorieren und lediglich auf die auditive Ausgabe hören. Hypothese 2 kann Hypothese 2 somit nicht angenommen, sondern muss zu S=GS>G umformuliert umformuliert in > werden. S=GS G

Modalität Zweierauswahl Listenauswahl

S vs. G t(29)=4,406, p<,001 Z(30)=-4,083, p<,001 S vs. GS Z(30)=-1,092, p=,275 Z(30)=-1,049, p=,294 G vs. GS Z(30)=-2,581, p=,010 t(29)=-4,532, p<,001

Tabelle 3.11: Post-Hoc-Tests zum Vergleich der Modalitäten der jeweiligen Dialogstrategien.

Bei den Reaktionszeiten zeigen sich die Nachteile des ConTRe Tasks. Reaktionsereignisse sind diskret in Form einer Ampel mit Rot- oder Diskrete Grünlicht, worauf die Versuchsperson das Brems- beziehungsweise Reaktionsereignisse das Gaspedal betätigen soll. Diese Ereignisse treten in zufälligen Ab- ständen auf, somit in machen Bedingungen während der Dialogpha- se, in anderen dazwischen. Durch die teilweise kurzen Sprachdialo- ge ist die Gesamtanzahl der Reaktionsereignisse im Dialog gering oder nicht vorhanden, wodurch kein verlässlicher Vergleich der Bedin- kein Vergleich gungen möglich ist. Eine ANOVA zeigt für die Bremsreaktionen kei- möglich ne signiﬁkanten Unterschiede (F(5,85)=1,277, p=,281, η2=0,07, N=18). Gleiches trifft für die Reaktion auf ein Grünlicht zu (F(5,75)=3,783, p=,71, η2=0,201, N=16). Eine gemeinsame Betrachtung beider Reak- tionsarten schließt sich durch die Positionierung des Fußes von Ver- suchspersonen auf dem Gaspedal aus, da dadurch diese Reaktionszei- ten um durchschnittlich 245ms kürzer ausfallen als Bremsreaktionen (t(23)=9,219, p<,001). 108 studien zum anwendungswechsel und zu fehlerbehandlungen

3.3.3.2 Subjektive Belastung Die subjektive Belastung wird mittels DALI-Fragebogen in den Di- mensionen globale Aufmerksamkeit, visuelle und auditive Belastung, Stress, Interferenz sekundärer und primärer Aufgabe sowie zeitliche Anforderungen erhoben. Abbildung 3.22 zeigt die Ergebnisse, gegliedert nach Dialogstrategie und Modalität. Nach dem Normalvertei- lungstest von Shapiro und Wilk (1965) sind die meisten Daten nicht normalverteilt (p<,023), weshalb im Folgenden nicht-parametrische Tests zur Bestimmung der Signiﬁkanz genutzt werden. Visuelle und auditive Belastung sind nicht dargestellt, da die Ergebnisse - wie zu erwarten - eine identische Belastung zur jeweiligen Modalität aufweisen. Das heißt, graﬁsche Darstellung führt zu visueller Belastung und sprachliche Präsentation zu auditiver Belastung.

-1

-2 Aufmerksamk. Stress Interferenz Zeitlich ZA_S ZA_G ZA_GS LA_S LA_G LA_GS

Abbildung 3.22: Beurteilung der subjektiven Belastung, gegliedert nach DA- LI-Dimensionen unterteilt in Dialogstrategie und Modali- tät. Signiﬁkanzen nicht dargestellt.

Ähnlich zur objektiven Fahrleistung ist davon auszugehen, dass eine Zweierauswahl subjektiv weniger belastend ist als eine Listen- auswahl. Zur Bewertung beider Dialogstrategien erfolgt ein Vergleich jeweils gleicher Modalität in jeder DALI-Dimension. Wie in Abbil- dung 3.22 dargestellt, erfordert eine Zweierauswahl im Allgemeinen geringere Belastung. Wilcoxon-Vorzeichen-Rang-Tests ergeben signifikante Unterschiede in allen Dimensionen (p<.019), außer zeitliche Belastung in multimodaler Darstellung (p=,055). Somit ist eine klare Hypothese 1 Tendenz zur Zweierauswahl zu erkennen, wodurch Hypothese 1 hin- annehmen sichtlich subjektiver Belastung angenommen wird. Hypothese 2 formuliert eine Zunahme der subjektiven Belastung von Sprachlich (S), kombiniert (GS) zu Grafisch (G). Zum Test der Hy- pothese werden die drei Varianten innerhalb der jeweiligen Dimensi- on und Dialogstrategie verglichen. Ein Test nach Friedman (1937) ergibt signifikante Unterschiede zwischen den Varianten (χ2(2)=[10,753, 18,489], p<,01). Anschließende Post-Hoc-Tests (Wilcoxon-Vorzeichen- Rang mit Bonferroni Korrektur) ergeben einen signifikanten Unter- 3.3 fahrsimulatorstudie zu hilfestrategien 109 schied zwischen vorwiegend sprachlicher (S) und vorwiegend grafischer (G) Modalität (Z(30)=[-3,978,-3,131], p<,002). Im Vergleich zwischen kombinierter Darstellung (GS) und sprachlicher Ausgabe (S) sind keine signifikanten Unterschiede erkennbar (Z(30)=[-2,15,-0,098], p=[0,032, 0,992]). Hinsichtlich vorwiegend grafischer (G) und kombinierter (GS) Varianten zeigen sich keine signifikanten, aber tenden- zielle Unterschiede in der globalen Aufmerksamkeit (Z(30)=[-2,351, -1,862], p=[0,019, 0,063]). In den Dimensionen Interferenz, Stress und Hypothese 2 Zeit sind allerdings signifikante Unterschiede zu sehen (Z(30)=[-3,719, umformuliert in > -2,813], p<.005). Wie bei der objektiven Fahrleistung muss die Hypothe- S=GS G se somit umformuliert werden zu S=GS>G.

3.3.3.3 Gebrauchstauglichkeit Die Gebrauchstauglichkeit setzt sich zusammen aus den Einzeldi- mensionen Beliebtheit (Likeability), kognitive Anstrengung (Cogniti- ve Demand) und erkennbares konzeptionelles Modell (Habitability). Abbildung 3.23 stellt die Ergebnisse abhängig von der Modalität und der Dialogstrategie dar. Daten der Dimension Beliebtheit und kognitive Anstrengung sind normalverteilt (Shaphiro-Wilk-Test), wogegen die Dimension konzeptionelles Modell in allen Varianten nicht normalverteilt ist (p<,001).

-1

-2 Beliebtheit kognitive Anstrengung Habitability ZA_S ZA_G ZA_GS LA_S LA_G LA_GS

Abbildung 3.23: Beurteilung der Gebrauchstauglichkeit, gegliedert nach SASSI-Dimensionen unterteilt in Dialogstrategie und Mo- dalität. Signiﬁkanzen nicht dargestellt.

Wie in Abschnitt 3.3.1 diskutiert, sollte eine Zweierauswahl bessere Gebrauchstauglichkeit als eine Listenauswahl aufweisen. Metho- disch identisch zu den vorherigen Analysen der Dialogstrategien erfolgen Vergleiche derselben Modalität, jeweils pro SASSI-Dimension. In den Dimensionen Beliebtheit und kognitiver Anstrengung sind si- gniﬁkante Unterschiede zwischen den Dialogstrategien zu erkennen (t(29)>2,812, p<,01). Bezüglich erkennbarem Modell sind jedoch keine signiﬁkanten Unterschiede zu erkennen ist. In Punkten der Ge- brauchstauglichkeit ist somit eine Zweierauswahl beliebter und ko- 110 studien zum anwendungswechsel und zu fehlerbehandlungen

gnitiv weniger anstrengend, wobei beide Dialogstrategien sehr gute Werte hinsichtlich erkennbarem konzeptionellen Modell aufweisen. Hypothese 1 kann Hypothese 1 kann daher großteils angenommen werden. angenommen Auf Basis der Ergebnisse der vorherigen Studien sollten keine Un- werden terschiede hinsichtlich Gebrauchstauglichkeit der Modalitäten auftreten. Die Ergebnisse des erkennbaren konzeptionellen Modells folgen dieser Hypothese und ergeben keine signifikanten Unterschiede in Zweier- (p=,073) und Listenauswahl (p=,091). Bezüglich der anderen SASSI-Dimensionen zeigen jedoch ANOVAs signifikante Unter- schiede der Modalitäten (F(2,56)=[11,737, 24,236], p<,001, η2=[0,295, 0,455]). Anschließende Post-Hoc-Tests ergeben signifikante Unterschie- de zwischen sprachlichen (S) und grafischen (G) Varianten (p<,001) sowie grafischen (G) und kombinierten (GS) Varianten (p<,001). Un- ter Betrachtung des Vergleichs der vorwiegend sprachlichen (S) und kombinierten (GS) Varianten bezüglich kognitiver Anstrengung sowie Beliebtheit der Zweierauswahl ergeben sich allerdings keine signifikanten Unterschiede (t(29)>0,338, p>0,407). In Punkten der Beliebt- heit der sprachlichen (S) und kombinierten (GS) Variante bei einer Lis- tenauswahl zeigt sich jedoch eine Tendenz in Richtung sprachlicher, wobei nach Bonferroni keine klare Signifikanz vorliegt (t(29)=2,388, p=,024). Ein Grund hierfür könnte der sich bewegende Cursor bei der Liste sein oder die Gesamtgestaltung. Im Allgemeinen kann jedoch Hypothese 2 die Hypothese 2 bezüglich Gebrauchstauglichkeit ebenfalls in S=GS>G umformuliert in umformuliert werden. Das erkennbare konzeptionelle Modell folgt die- > S=GS G ser Hypothese zwar nicht, jedoch sind die Ergebnisse in jeder Moda- lität so hoch, dass Nutzer mit allen Varianten zurecht kommen. Dies wird vom Aufgabenerfolg bestätigt.

3.3.3.4 Aufgabenerfolg und Dialogdauer Ein wichtiger Wert für die Güte eines Sprachdialogsystems stellt einerseits der Aufgabenerfolg und andererseits die Dialogdauer dar. Tabelle 3.12 zeigt die Ergebnisse, unterteilt nach Dialogstrategie und durchgängig hoher Modalität. Zu erkennen ist ein durchgängig hoher Aufgabenerfolg in al- Aufgabenerfolg len Bedingungen. Signifikante Unterschiede sind nicht festzustellen und Abweichungen von 100% sind zumeist durch Unachtsamkeit der Versuchspersonen zu erklären. Dialogdauer In Punkten der Dialogdauer variieren die Ergebnisse allerdings be- trächtlich. Einem Normalverteilungstest nach Shapiro und Wilk (1965) zufolge sind die Daten nicht normalverteilt, weshalb ein nicht-para- metrischer Test nach Friedman (1937) angewendet wird. Dieser ergibt signifikante Unterschiede (χ2(5)=122,931, p<,001). Wie zuvor er- Dialogstrategien folgt ein Vergleich der Dialogstrategien jeweils hinsichtlich identischer Modalität. Wilcoxon-Vorzeichen-Rang-Tests zeigen signifikante Un- terschiede (Z(29)<-4,595, p<,001). Wie erwartet ist somit festzustellen, dass eine Zweierauswahl eine geringere Dialogdauer erfordert als die Auswahl aus einer längeren Liste. Um die Auswirkungen der 3.3 fahrsimulatorstudie zu hilfestrategien 111

Zweierauswahl Listenauswahl S G GS S G GS

Aufgabenerfolg (M) 100% 100% 100% 97,2% 96,5% 100% Dialogdauer (M in Sek) 4,93 3,52 4,32 6,72 4,80 9,45 Dialogdauer (SD) 0,31 0,77 0,57 0,88 0,77 3,92

Tabelle 3.12: Aufgabenerfolg und Dialogdauer unterteilt in Dialogstrategie und Modalität.

Präsentationsmodalität zu analysieren, erfolgen Wilcoxon-Vorzeichen- Modalität Rang-Post-Hoc-Tests jeweils identischer Dialogstrategie. Alle Verglei- che ergeben signiﬁkante Unterschiede der Modalitäten (Z(29)<-3,189, p<,001). Somit ergibt sich eine Reihung von kurzer nach langer Dia- logdauer bei einer Zweierauswahl in G

3.3.4 Fazit zu Hilfestrategien im Infotainment-System

Die erfolgreichen Hilfekonzepte der vorherigen Studie (Abschnitt 3.2) wurden hinsichtlich des Einsatzes im Infotainment-System, somit als sekundäre Aufgabe während des Fahrens, analysiert. Eine genaue Betrachtung von Zweier- und Listenauswahl, umgesetzt in vorwiegend graﬁscher, sprachlicher und kombinierter Variante, erfolgte in den Wirkungsgrößen objektive Fahrerleistung, subjektiv empfundene Belastung, Gebrauchstauglichkeit, Aufgabenerfolg und Dialogdauer. Die Evaluation erfolgte auf Basis einer hypothesengetriebenen Nut- zerstudie im Fahrsimulator, mit ConTRe Task als Primäraufgabe und mit einem als WoZ implementierten SDS als Sekundäraufgabe. 112 studien zum anwendungswechsel und zu fehlerbehandlungen

Die Ergebnisse zeigen Vorteile einer Zweierauswahl im Vergleich Zweier- und zur Listenauswahl, wobei beide Dialogstrategien, in Umsetzung von Listenauswahl im sprachlicher oder sprachlich und grafischer Modalität, mit geringer Fahrzeug Fahrablenkung im Infotainment-System einzusetzen sind. Inwiefern die einzusetzen Anzahl an Elementen oder eine bildliche Darstellung die besseren Er- gebnisse der Zweierauswahl bewirken, kann anhand der erhobenen Ergebnisse nicht nachvollzogen werden. Die Wahl der Dialogstrate- gie ist jedoch zusätzlich von der Anzahl an möglichen Elementen abhängig und ihre Darstellung von deren Ausdrucksfähigkeit in Bil- Grafische dern. Die grafischen Umsetzungen beider Dialogstrategien minimieren Umsetzung zwar jeweils die Dialogdauer, zeigen jedoch starke Auswirkungen auf beeinträchtigt die Primäraufgabe und sollten somit nur kombiniert mit sprachlicher Fahraufgabe Ausgabe eingesetzt werden. Die Ergebnisse, in Form von negativen Auswirkungen grafischer Benutzerschnittstellen im Fahrzeug, decken sich daher mit Zhao u. a. (2013) und Hofmann, Tobisch u. a. (2014), welche ebenso die Akzeptanz und Tauglichkeit rein sprachlicher Be- nutzerschnittstellen nachweisen. Zusammenfassend ist zu sehen, dass eine Minimierung der Dia- logdauer nicht automatisch eine Reduzierung der Ablenkung ermög- licht. Ein sinnvoller Einsatz von Modalitäten, welche nicht mit Res- sourcen für die Fahraufgabe konkurrieren, bringt erhebliche Vortei- le. Durch die Hilfestrategien können Anwender, welche nicht durch- gängig vertraut mit der Funktionalität des Sprachdialogsystems sind, dennoch zu ihrem Aufgabenziel gelangen, ohne vom Fahrgeschehen signifikant abgelenkt zu werden. In folgendem Abschnitt wird der iterativer Entwicklungsprozess der Hilfestrategien zusammengefasst und Anforderungen für ein SDS definiert, welches mehrere Anwen- dungen zur Verfügung stellen sowie Hilfestrategien implementieren soll.

3.4 zusammenfassung und anforderungen

Das vorliegende Kapitel stellte drei Nutzerstudien vor, welche den sprachlichen Wechsel zwischen verschiedenen Anwendungen eines iterativer Prozess ins Fahrzeug integrierten Infotainment-Systems analysierten. Im iterativen Prozess konnten somit einerseits Verhaltensweisen von Nutzern beobachtet und andererseits eine Hilfestrategie entwickelt werden, um Nutzer im Falle einer OOA-Anfrage oder mehrdeutigen Äuße- rungen zum Aufgabenziel zu führen. Eine Hilfestrategie reduziert die objektive und subjektive Fahrerablenkung signifikant, da unerwarte- te und unlogische Reaktionen des Sprachdialogsystems erhebliches Ablenkungspotential bergen. Die Ergebnisse zeigen, dass sich Nutzer nicht verschiedener An- wendungen bewusst sind und implizit zwischen diesen wechseln, solange ihr mentales Modell unbeeinflusst ist. Dies hat anaphorische Ausdrücke zur Folge, welche auch zwischen Anwendungen genutzt 3.4 zusammenfassung und anforderungen 113 werden. Ist ein impliziter Anwendungswechsel nicht möglich, führt dies einerseits zu Fahrerablenkung und andererseits zu schlechter Gebrauchstauglichkeit sowie fehlendem Aufgabenerfolg. Aus diesem Grund ist es für ein anwendungsübergreifendes SDS wichtig, Feh- ler zu erkennen und angemessen darauf zu reagieren. In erster Um- setzung einer Hilfestrategie zeigten sich, durch natürlichsprachliche Beispieläußerungen, lange Dialoge als lästig und ablenkend, führten Nutzer allerdings zum Aufgabenerfolg. Für OOA-Anfragen sind Bei- spiele jedoch nicht nötig, da eine korrekte Interpretation der Äuße- rung im richtigen Anwendungskontext möglich ist. Zur Auswahl der richtigen Anwendung zeigte eine anschließende Studie mit System- neulingen eine generische Hilfestrategie als nicht ausreichend. Hinge- gen bewerteten die Teilnehmer der Studie kontextsensitive und zielgerichtete Hilfestrategien als probates Mittel, eine Anwendung zu selektieren. Essentieller Punkt ist hierbei, die gesuchte Anwendung anzubieten, wobei die Implementierung in grafischer oder sprachlicher Darstellung als Primäraufgabe keine großen Unterschiede bewirkt. Anders hingegen bei Einsatz im Infotainment-System. Für die Fahraufgabe wird die visuelle Aufmerksamkeit benötigt, welche mit der Sekundäraufgabe des Infotainment-Systems konkurrieren kann. Eine Studie der Hilfestrategien im Fahrsimulator zeigt daher klare Ablenkungspotentiale bei lediglich visueller Darstellung der Listen- elemente. Ein Vorlesen dieser Elemente senkt die Fahrerablenkung erheblich. Eine bildliche Auswahl aus zwei Elementen und eine Lis- tenauswahl mit Text zeigt zwar leichte Vorteile der ersteren Strategie, allerdings sind beide Dialogstrategien sicher im Fahrzeug einzusetzen und führen zum Aufgabenerfolg. Auf Basis der Ergebnisse der vorgestellten Studien und theoretischen Vorarbeiten (Reichel, Berton u. a., 2013) lassen sich Anforderun- Anforderungen gen an ein SDS mit mehreren Anwendungen im Infotainment-System ableiten:

A1: Eine konsistente sprachliche Interaktion über verschiedene An- wendungen hinweg muss möglich sein.

A2: Nutzer müssen Anwendungen implizit sowie explizit wechseln können.

A3: Zwischen beliebigen Anwendungen müssen Parameter überge- ben werden.

A4: Eine Hilfestrategie erfordert die Bestimmung der wahrscheinlichsten nächsten Anwendungen auf Basis der Nutzeräußerung und des Dialogkontextes.

Im folgenden Kapitel wird ein Konzept zur Umsetzung der genannten Anforderungen vorgestellt. Dieses basiert auf voneinander un- abhängig deﬁnierten Anwendungen in Taskmodellen und ihre Ver- bindung zur Laufzeit über eine lexikalisch-semantische Wissensbasis 114 studien zum anwendungswechsel und zu fehlerbehandlungen

zum Parameteraustausch und zur Vorhersage wahrscheinlicher An- wendungswechsel. KONZEPTMITTASKMODELLENUND 4 WISSENSBASEN

“human engineers know that it is easier to describe a job through tasks and goals rather than objects to manipulate”1 Tarby und Barthet (1996, S. 96)

Das vorherige Kapitel stellte Nutzerstudien vor, welche explorativ das Interaktionsschema für anwendungsübergreifende Sprachdialog- systeme entwickelten. Da nicht-erfolgreiche Anwendungswechsel im Infotainment-System eine Ablenkung des Fahrers bedeuten, wurden im iterativen Entwicklungszyklus Hilfestrategien entwickelt, um unerfahrene Nutzer während eines Anwendungswechsels zum Aufga- benziel zu führen. Dies stellt hohe Anforderungen an ein SDS in Spra- cherkennung, Sprachverständnis und speziell hinsichtlich Dialogfüh- rung. Im Folgenden wird ein Konzept, welches die in Abschnitt 3.4 definierten Anforderungen umsetzt, beschrieben und nachfolgend durch eine Proof-of-Concept-Implementierung hinsichtlich der Anforderun- gen validiert. Wertvolle Erkenntnisse zur Entwicklung des Konzepts lieferte die in diesem Zusammenhang betreute Masterarbeit von Pfar- herr (2013), welche in Reichel, Pfarherr u. a. (2014) diskutiert wird. Abschnitt 4.1 zeigt die Problemstellung auf, beschreibt das Prinzip des Konzeptes und gibt eine Einordnung in ein SDS. Anschließend erfolgt eine Abgrenzung zu bestehenden Arbeiten, sowie eine formale Definition mit Beispiel, jeweils zu Taskmodellen (siehe Abschnitt 4.2.1) und Wissensbasen (siehe Abschnitt 4.2.2), zwei essentiellen Be- standteilen des entwickelten Konzeptes. Abschnitt 4.2.3 definiert die Verbindung von Taskmodellen und der lexikalisch-semantischen Wis- sensbasis. Den Gesamtprozess, von Nutzereingabe über Erkennung, Interpretation im Kontext bis hin zur Taskausführung beschreibt Ab- schnitt 4.3. Abschließend erfolgt eine Zusammenfassung in Abschnitt 4.4, bevor in nachfolgendem Kapitel auf die Proof-of-Concept-Imple- mentierung eingegangen wird.

4.1 konzeptentwicklung

Die Entwicklung eines Konzeptes setzt es voraus, die Problemstel- lung, welche sich durch die in Abschnitt 3.4 deﬁnierten Anforderun-

1 Übersetzung des Autors: Menschliche Entwickler wissen, dass ein Job durch Aufga- ben und Ziele einfacher zu beschreiben ist, als durch zu manipulierende Objekte.

115 116 konzept mit taskmodellen und wissensbasen

gen ergibt, zu verstehen. Ausgehend von dieser wurde ein Konzept entwickelt und wird in Abschnitt 4.1.2 auf nicht-formeller Ebene beschrieben sowie anhand eines Beispiels verdeutlicht (für eine formelle Beschreibung siehe Abschnitt 4.2). Anschließend erfolgt eine Einord- nung in die allgemeine Architektur eines Sprachdialogsystems.

4.1.1 Problemstellung

Die Anforderungen A1 bis A4 (siehe Abschnitt 3.4) sind in erster Li- nie auf Basis des Bedienerlebnisses für Nutzer definiert. Hierbei sind technische Aspekte technische Aspekte bisher außer Acht gelassen. Für einen konsistenten anwendungsübergreifenden Dialog ergeben sich jedoch komplexe Abhängigkeiten zwischen verschiedenen Anwendungen. Bei der Ent- wicklung einzelner Anwendungen können diese entweder fest pro- grammiert oder dynamisch zur Laufzeit ermittelt werden. Wie erwähnt existieren Produkte, welche anwendungsübergreifen- de Dialoge bieten. Als Beispiel führt Abschnitt 2.3 Infotainment-Syste- me und persönliche Assistenten auf. Hierbei sind Anwendungswech- fest programmierte sel in der Regel fest im System einprogrammiert, somit ist ein Wechsel Abhängigkeit nur zwischen definierten Anwendungen möglich. Um mögliche An- wendungswechsel zu identifizieren und zu programmieren, erfordert dies eine enge Kooperation zwischen verschiedenen Anwendungsent- wicklern. Ist dies für Software eines gemeinsamen Herstellers viel- leicht noch möglich, erhöht sich die Schwierigkeit bei nachträglich zu installierenden Anwendungen, wie zum Beispiel aus App-Stores, erheblich, da einzelne Entwicklerteams im Allgemeinen die Funktio- nalität einer anderen Anwendung nicht kennen. Zusätzlich erfordert die Weiterentwicklung einer Anwendung unter Umständen eine Ak- tualisierung bestehender abhängiger Anwendungen. Abhängigkeiten zur Im Gegensatz zu fest programmierten Lösungen ermöglicht dyna- Laufzeit auflösen misches Erzeugen der Anwendungsabhängigkeiten zur Laufzeit eine einfa- chere Erweiterbarkeit von Systemen, jedoch komplexere Bindungsme- chanismen. Hierbei bestehen hauptsächlich zwei Herausforderungen, einerseits einen logischen Programmablauf zwischen Anwendungen zu sichern und andererseits gleichbedeutende Parameter zu überge- ben. Googles Betriebssystem Android bietet über das Konzept „Im- plicit Intent Resolution“2 mittels abstrakter Beschreibung (Intent genannt) von Aktionen, Kategorien und Daten eine Möglichkeit, einen Anwendungswechsel mit Parameterübergabe auszulösen. Dabei pro- pagiert eine Anwendung ein Intent, welches von anderen mit passenden Schnittstellen konsumiert werden kann. Ist dies für Hardware- ereignisse und einfache Daten durchaus zufriedenstellend, erfordern anwendungsübergreifende Dialoge jedoch einen komplexen Dialog- kontext, bestehend aus mehreren Parametern. Im Bereich der Service-

2 http://developer.android.com/reference/android/content/Intent.html [Onli- ne 06.09.2015] 4.1 konzeptentwicklung 117

Orientierte Architektur (SOA) sind verschiedene Umsetzungen entstanden, Services, inklusive ihrer komplexen Parameter, zu beschreiben (Microsoft, 2014). Jedoch sind diese Methodiken in erster Linie zur Verbindung von Business-Services und weniger fürUI-Entwick- lung gedacht. Eine Möglichkeit ist es, Services als Domänenexperten anzusehen, welche im SDS Nutzeraufgaben einer bestimmten Domä- ne erfüllen können. Komatani, Kanda u. a. (2006) präsentieren einen Ansatz, welcher potentielle Domänenwechsel auf Basis verschiedener Regeln, wie unter anderem Dialogkontext, vorherige Domäne oder übereinstimmende Parameter, bewertet und im Zweifelsfall die Do- mäne wechselt. Dies ist ähnlich zur vorliegenden Arbeit. Da jedoch ein jeweiliger Domänenexperte als eigenständiges SDS implementiert ist, kann keine konsistente sprachliche Interaktion sichergestellt werden. Bezüglich einzelner Themen dieser Arbeit existiert eine Vielzahl wissenschaftlicher Beiträge, auf welche an der jeweiligen Stelle Bezug genommen wird. Durch die zunehmende Anzahl an Anwendungen im SDS ist eine feste Deﬁnition von Abhängigkeiten verschiedener Anwendungen nicht mehr praktikabel. Nutzer verlangen ihre Geräte, durch Instal- lation beliebiger Anwendungen aus App-Stores, zu personalisieren und erwarten eine konsistente Interaktion über die gesamteUI. So- mit ergibt sich für das Konzept der vorliegenden Arbeit als zusätzli- che technische Anforderung: technische Anforderung A5: Abhängigkeiten zwischen Anwendungen sollen sich dynamisch zur Laufzeit ergeben.

Hierfür ergeben sich zwei Herausforderungen: erstens den logischen Programmablauf von Anwendungen zu definieren und wäh- rend der Laufzeit Stellen für Anwendungswechsel zu identifizieren sowie zweitens die Bedeutung von Parametern zur Laufzeit zugäng- lich zu machen, um darauf aufbauend mögliche Übergaben zu er- möglichen. Der Programmablauf wird im Folgenden durch Taskmo- delle definiert, und die Parameter für Tasks werden durch eine gemeinsame lexikalisch-semantische Wissensbasis beschrieben. Ziel dieser Arbeit ist somit eine modellgetriebene Entwicklung von einzelnen modellgetriebene Anwendungen mittels Taskmodellen und ihre Verbindungen dynamisch Entwicklung: zur Laufzeit über eine gemeinsame Wissensbasis zu erstellen. Taskmodelle, Wissensbasis

4.1.2 Taskmodelle und Wissensbasen

Die Entwicklung von Software anhand diverser abstrakter Modelle ist gebräuchlich. Bereits vor der Implementierung können durch Mo- delle komplexe Sachverhalte eines Softwaresystems, wie zum Beispiel dessen Aufbau, Funktionsweise oder Zusammenhänge, verdeutlicht modellbasierte & werden. Hierbei lässt sich zwischen modellbasierter und modellgetrie- modellgetriebene bener Entwicklung unterscheiden (Poguntke, 2016). Kommen Model- Entwicklung 118 konzept mit taskmodellen und wissensbasen

le bei der Entwicklung als Kommunikationsgrundlage zur Verwen- dung, wird von einer modellbasierten Entwicklung gesprochen. Sind die Modelle allerdings Gegenstand einer automatischen Codegenerie- rung, beziehungsweise werden direkt ausgeführt, nennt man dies modellgetriebene Entwicklung. Viele Arbeiten und Modellierungsvarian- ten existieren für unterschiedlichste Einsatzzwecke, für einen Über- blick sei daher auf Standardliteratur des Requirements Engineering verwiesen, wie zum Beispiel Partsch (2010). Im Bereich derUI-Ent- wicklung mittels Interaktionsmodellen ist ebenfalls eine breite wissenschaftliche Grundlage gelegt, wie beispielsweise die Generierung derUI auf Basis von Unified Modeling Language (UML)-Modellen (Melo, 2010; Poguntke, 2016), von Petri-Netzen (Mahfoudhi u. a., 2005) oder anderen Formalismen (Paternò, 2000; Paternò u. a., 2009; Pau- lenz und Schlegel, 2013). Hierbei geht die Betrachtung von der visuell-haptischen Modalität aus. Meist ist die auditive Modalität lediglich darauf aufgesetzt oder wird aus der visuell-haptischen generiert, wie beispielsweise in Reichel (2012) und Reichel, Ehrlich und Weber (2012). Anders hingegen ist das Dialogmodell von Falb, Kaindl u. a. (2006), welches eine theoretische Modellierung auf Basis der Mensch- Mensch-Kommunikation formuliert. Jedoch erfolgt eine Generierung von Benutzerschnittstellen lediglich in Verhaltenslogik und GUI (Falb, Kavaldjian u. a., 2009). Sonderheiten einer VUI, wie zum Beispiel Par- allelität mehrerer Eingabeparameter, Natürlichsprachlichkeit oder rein nutzer-initiierte Eingaben finden in der Regel keine spezielle Betrach- tung. Im Bereich der modellgetriebenenUI-Entwicklung können Model- le auf verschiedenen Abstraktionsebenen formuliert werden. Ähnlich zum Interaktionszyklus nach Donald Norman (siehe Abschnitt 2.2.1) beschreiben Modelle unter anderem Ziele, Einzelaktionen, Aktions- sequenzen oder konkrete Benutzerschnittstellen zur Durchführung einer Aktion. Ein theoretisches Rahmenwerk zur Klassifikation von CAMELEON Interaktionsmodellen stellt das CAMELEON ReferenzFramework (CRF) ReferenzFramework dar (siehe Abbildung 4.1), welches unter anderem vier Abstraktions- (Calvary u. a., 2002) ebenen, von Tasks und Konzepten bis zur konkreten finalenUI , einführt. Der Klasse Tasks und Konzepte sind hierbei Modelle, welche die Auf- gaben der Nutzer und die Interaktionskonzepte unabhängig von einer Modalität beschreiben, zugeordnet. Interaktionsmodelle der ab- straktenUI definieren, ebenso unabhängig von einer Modalität, generische Interaktionselemente, mit welchen der Nutzer ein Gerät bedienen kann. Bezogen auf die Funktionalitäten des Gerätes können diese Elemente an konkrete, modalitätsabhängige Interaktionselemente gebunden werden, jedoch unabhängig von einer Entwicklungsumge- bung. Erst Modelle der finalenUI legen eine Implementierungsart fest, welche kompiliert vorliegen oder zur Laufzeit eineUI erstellen. Die vorliegende Arbeit definiert Modelle hauptsächlich auf der abstrakten Ebene Tasks und Konzepte (im Folgenden Taskmodelle genannt), 4.1 konzeptentwicklung 119 da keine Interaktionselemente bei der Definition einer einzelnen An- wendung vorgegeben werden sollen. Durch identische Interpretation der Modelle wird eine konsistente Interaktion mit dem Gesamtsys- tem erreicht. Abstraktion

Tasks und Abstrakte Konkrete Finale Konzepte UI UI UI

Konkretisierung

Abbildung 4.1: Vier Abstraktionsebenen des CRF nach Calvary u. a. (2002).

Wie im Zitat anfangs des Kapitels von Tarby und Barthet (1996) zu erkennen, stellen Tasks und Ziele eine einfache Möglichkeit dar, einen komplexen Job auszudrücken. In der nutzerzentrierten Entwicklung von Benutzerschnittstellen sind daher Taskmodelle ein probates Mit- tel, um frühzeitig im Entwicklungsprozess die Interaktion mit einem System zu beschreiben (siehe z.B. Meixner und Görlich (2008) und Meixner und Seissler (2012)). Dies basiert auf den Eigenschaften des menschlichen Dialogs im Allgemeinen, welcher, ausgehend von Zie- len, Einzelaktionen plant und durchführt. Jedes Ziel oder jeder Task kann somit in einzelne Dialogsequenzen unterteilt werden, was Falb, Kaindl u. a. (2006) im theoretischen Diskursmodell zur Beschreibung eines Dialogablaufs nutzen. In der praktischen Anwendung setzen Ehrlich (1999) und Bohus und Rudnicky (2003) einfache Taskmodelle er- Taskmodelle im SDS folgreich im SDS ein, um Ziele und Aufgaben auf hierarchischer Ebene zu modellieren. Beide Modellierungsvarianten deﬁnieren allerdings den Interaktionsablauf nur implizit durch die Hierarchie beziehungsweise Reihenfolge der Subtasks, oder über Vorbedingungen. Komple- xe temporale Abhängigkeiten der Aufgaben können somit nur einge- schränkt modelliert werden. Jedoch zeigt sich die Praktikabilität von Taskmodellen zur Dialogmodellierung, weshalb diese Arbeit einen sehr ähnlichen Ansatz, jedoch mit diversen temporalen Operatoren, einsetzt. Die Modellierung in Taskmodellen beschreibt somit die Art der Aufgabe, ihre hierarchische Untergliederung, ihre Zusammenhänge durch Operatoren und Vorbedingungen, jedoch nicht die Bedeutung hinsichtlich der eigentlichen Aufgabe (Falb, Kaindl u. a., 2006). Ein nächster logischer Schritt ist somit die Bedeutung der jeweiligen Auf- gabe mit ihren Ein- und Ausgabeparameter einheitlich zu deﬁnieren. Da sich Nutzeraufgaben von der Situation, somit von zustandsab- hängigen, realweltlichen Objekten, ableiten (siehe Interaktionszyklus nach Norman in Abschnitt 2.2.1), bieten hierfür lexikalisch-semantische Wissensbasen eine geeignete Methodik. Diese Art der Wissensba- sen beinhalten maschinenverarbeitbare lexikalische Ressourcen und 120 konzept mit taskmodellen und wissensbasen

außersprachliches Weltwissen (Kunze und Lemnitzer, 2007). Somit lässt sich eine Verbindung zwischen lexikalischen Zeichen, ihrer Be- deutung und dem Kontext im Weltwissen herstellen. Frage-Antwort- SDS und Systeme (QAs, engl. Question-Answer systems), wie Sprachdialogsyste- Wissensbasen me zur Beantwortung von natürlichsprachlichen Fragen genannt werden, setzen seit längerem lexikalisch-semantische Wissensbasen zur Interpretation einzelner, bedeutungstragender, lexikalischer Zeichen ein. Auf Basis der Interpretation und des Weltwissens kann die Ant- wort durch Inferenz geschlossen werden (siehe zum Beispiel Berant u. a. (2013)). QAs sind in erster Linie zur Beantwortung einer Frage entwickelt, erfordern somit in der Regel keine komplexen Dialoge oder mehrere Dialogschritte. Einen Überblick über bestehende An- sätze zur Integration von Wissensbasen in Sprachdialogsysteme liefern Milward und Beveridge (2003) und Araki und Funakura (2010). Neßelrath und Porta (2011) nutzen semantische Modelle zur Reprä- sentation von Dialoginhalt, anaphorischen Referenzen und Nutzerab- sichten im SDS mit mehreren Domänen. Ihr modellgetriebener An- satz eignet sich zur raschen Entwicklung neuer Domänen im Dialog- system, beinhaltet allerdings keine Dialogmodelle. An diesem Punkt setzt vorliegende Arbeit an, indem ein Konzept entwickelt wird, welches lexikalisch-semantische Wissensbasen zur Beschreibung des Dia- loginhalts mit Taskmodellen zur Ablaufdeﬁnition kombiniert, um an-

wendungsübergreifende Dialoge mit Hilfestrategie zu ermöglichen. Taskmodelle

schwäbische Biergarten Region Küche zur Donau Ulm Küche

Wissensbasis Restaurant Stadt

Abbildung 4.2: Vereinfachtes Beispiel zur Verbindung von Taskmodellen und Wissensbasen.

Konzeptidee anhand Ein vereinfachtes Beispiel verdeutlicht die prinzipielle Grundidee des eines Beispiels Konzeptes, bevor in Abschnitt 4.2 eine formale Deﬁnition der einzelnen Bestandteile gegeben wird. Abbildung 4.2 zeigt Taskmodelle zweier Anwendungen sowie einen Ausschnitt der Wissensbasis. Mittels Restaurantanwendung kann ein Nutzer unter Eingabe einer bestimm- 4.1 konzeptentwicklung 121 ten Küche Restaurants in seiner Umgebung abrufen. Nach Eingabe durch den Nutzer wird ein Webservice angefragt, und entsprechende Ergebnisse werden präsentiert. Die Wetteranwendung beinhaltet eine ähnliche Kombination aus Nutzereingabe und Webservice, indem Nutzer eine Region eingeben und zu dieser das aktuelle Wetter erfahren. Wie im Beispiel zu sehen, kann jeder Task (Küche, Webservice und Region) verschiedene Konzepte der Wissensbasis referenzieren und somit Ein- und Ausgabeparameter festlegen. Der Nutzertask Kü- che referenziert das Konzept Küche der Wissensbasis und beschreibt somit die Bedeutung des Inhalt dieses Dialogschrittes. Dies erfordert die Eingabe einer Instanz des Konzeptes, wie beispielsweise schwä- bische, italienische oder chinesische Küche, durch den Nutzer. Das Ergebnis des Webservices beinhaltet ein Tupel aus Restaurant sowie seinem Ort. Da die Stadt in einer Region liegt, für die die Anwendung Wetter eine Anfrage entgegennimmt, kann ein Dialog über beide An- wendungen erfolgen, ohne direkte Verknüpfung der Taskmodelle. So- mit lässt sich zum Beispiel nach einer Restaurantsuche mit der Äuße- rung „Wie ist das Wetter beim Restaurant“ beantworten. Auf Basis der Temporaloperatoren zwischen Tasks (z.B. sequenzielle Folge von Küche und Webservice), und Verknüpfungen zwischen Anwendun- gen über die Wissensbasis, lassen sich die nächsten möglichen Dia- logschritte und Anwendungen für eine Hilfestrategie vorhersagen.

4.1.3 Einordnung in ein Dialogsystem: Dialog- und Taskmanager

Wie in Abschnitt 2.3.1 beschrieben plant der Dialogmanager, auf Basis von Nutzereingaben und Ergebnissen aus Anwendungsanfragen, den Dialogablauf zwischen SDS und Nutzer. Der Dialogmanager kann in zustands-, formular- oder agentenbasiert klassifiziert werden (Mc- Klassifikation Tear, 2002; Jokinen und McTear, 2010). In einem zustandsbasierten Dialogmanager Dialogmanager erfolgt eine Definition von allen möglichen Dialog- sequenzen durch Zustände und Übergangsbedingungen. Ein formu- larbasierter Dialogmanager stellt Fragen an Nutzer, um Eingabepa- rameter für ein Formular auszufüllen. Beide Varianten erfordern eine feste Definition der Zustände beziehungsweise Formulare, was eine dynamische Erstellung der Abhängigkeiten verschiedener An- wendungen zur Laufzeit erschwert (Widerspruch zu Anforderung A5). Agentenbasierte Dialogmanager ermöglichen hingegen komplexere, gemischt geführte Dialoge, welche abhängig vom Kontext dynamisch die nächsten Dialogschritte bestimmen. Hierbei ist jeder Dia- logpartner als Agent zu sehen, welcher über Aktionen und Meinun- gen schlussfolgert. Über die Jahre hinweg sind eine Vielzahl an verschiedenen Varianten von Dialogmanagern entstanden, wie zum Bei- Dialogmanager- spiel regelbasierte Verfahren (Traum und Larsson, 2003), beispielba- varianten sierte Umsetzungen (C. Lee u. a., 2009), statistisch überwachte Lern- verfahren (Griol u. a., 2014) und reward-basierte Ansätze (Williams 122 konzept mit taskmodellen und wissensbasen

und S. Young, 2007; S. Young u. a., 2013). Statistische Verfahren benö- tigen jedoch eine hohe Anzahl an Trainingsdaten pro Domäne, was für Sprachdialogsysteme mit vielen Anwendungen einen beträchtli- chen Aufwand bedeutet. Aus diesem Grund verzichtet vorliegende Arbeit auf statistische Verfahren und wählt den Ansatz spezifizierter Dialoge in Taskmodellen. Werden die Anwendungen eines Sprachdialogsystems einzeln definiert, erschwert dies einerseits eine konsistente Interaktion (siehe Anforderung A1), und andererseits erhöht sich der Entwicklungsauf- wand, da generische Dialogeigenschaften, wie zum Beispiel Fehler- behandlung oder Verifikation, für jeden Agenten modelliert werden generischer domäne- müssen. Aus diesem Grund schlägt McTear (2002, S. 144) einen gene- nunabhängiger rischen domänenunabhängigen Dialogmanager vor: „A more satisfactory Dialogmanager solution is to develop a generic domain-independent dialogue management component that can be easily adapted to new tasks.“3. Diver- se Umsetzungen folgen diesem Ansatz, wie zum Beispiel Allen u. a. (2000) und Bohus und Rudnicky (2003). Dieses Argument stärken Neßelrath und Porta (2011) durch eine Analyse der Aufwände und damit verbundenen Entwicklungskosten für eine Anpassung von einem SDS an neue Anwendungen. Hierbei zeigt sich das generische Dialogmanagement und die Aktionsausführung moderat, wobei die Verbindung zu Anwendungen sowie die Abbildung der jeweiligen Se- mantik sehr hohe Anpassungen nach sich ziehen. Aus diesem Grund trennt vorliegende Arbeit zwischen generischem Dialogmanager und domänenspezifischem Aufgabenmodell der Anwendungsanbindung (siehe auch Abbildung 2.3). Zur Abgrenzung der generischen Dialoganteile [DM] und domä- nenspezifischen Elemente [TM] erfolgt eine Analyse der Aufgaben eines Dialogmanagers, aufbauend auf der allgemeinen Aufgabendefi- nition eines Dialogmanagers nach Griol u. a. (2014):

1. Nutzereingabe im Kontext interpretieren. [DM+TM]

2. Anaphern auf vorhergehende Äußerungen auﬂösen. [DM]

3. Entscheidung über die nächste Aktion treffen. [TM]

4. Relevanz der Nutzeräußerung einschätzen. [TM]

5. Vollständigkeit der Nutzeräußerung einschätzen. [TM]

6. Fehlererkennung und -behandlung durchführen. [DM+TM]

7. Informationsanfragen an Anwendungen koordinieren. [TM]

8. Systemäußerungen bestimmen. [DM]

3 Übersetzung des Autors: Eine zufriedenstellendere Lösung ist einen generischen do- mänenunabhängigen Dialogmanager zu entwickeln, welcher einfach an neue Tasks angepasst werden kann. 4.2 formale definitionen des konzepts 123

Im Folgenden werden die generischen Dialogaufgaben dem Dialog- manager [DM] zugeordnet, und für domänenspezifische Aufgaben wird der Begriff Taskmanager [TM] eingeführt, welcher das Anwen- Taskmanager dungsmodell enthält. Aufgabe 1 ist hinsichtlich des Dialogkontextes klar dem Dialogmanager zuzuteilen, wogegen der Kontext des An- wendungszustandes beim Taskmanager liegt. Die Aufgaben 2 und 8 sind eindeutig generischer Natur, da hierbei lediglich vorherige Äuße- rungen betrachtet und Systemäußerungen an den allgemeinen konsistenten Dialogstil des Sprachdialogsystems angepasst werden müssen. Hinsichtlich Fehlererkennung und -behandlung lässt sich keine klare Grenze ziehen, da hierbei ein Zusammenspiel aus Genauigkeit der ASR und des SLU für eine Verifikation eingesetzt, oder aber, basierend auf dem Anwendungskontext, domänenspezifische Hilfestrate- gien angeboten werden. Die restlichen Aufgaben sind eindeutig dem Taskmanager zuzuschreiben, da diese abhängig vom Anwendungs- modell sind. Diese Arbeit legt den Fokus auf anwendungsübergrei- fende Dialoge, weshalb im Folgenden in erster Linie auf die domä- nenspezifischen Aufgaben des Taskmanagers eingegangen wird, und generische Dialogstrategien als gegeben angesehen werden.

4.2 formale definitionen des konzepts

Der folgende Abschnitt deﬁniert die Kernbestandteile des entwickelten Konzepts: Taskmodelle, lexikalisch-semantische Wissensbasis und deren Verbindung. Zu Beginn eines jeden Abschnitts erfolgt eine kurze Einordnung in bestehende Arbeiten, gefolgt von der formalen De- ﬁnition und abschließendem Minimalbeispiel.

4.2.1 Taskmodelle

Taskmodelle bieten die Möglichkeit zur Modellierung von Nutzer- aufgaben auf abstraktem und verständlichem Niveau. Ähnlich zur menschlichen Kommunikation erfolgt eine Untergliederung der Ziele von Nutzern (engl. Goal) in eine Abfolge von Einzelaufgaben (Tasks), welche in temporaler und konditionaler Beziehung zueinander stehen. Führt ein Nutzer die Aktionen der Tasks aus, ist es ihm möglich sein Interaktionsziel zu erreichen. Zur Deﬁnition von Taskmodellen existieren verschiedene Formalismen, wobei im Folgenden lediglich auf eine Auswahl eingegangen werden kann. Eine umfassende Über- sicht ist der W3C MBUI Working Group (2014), Limbourg und Van- derdonckt (2003) und Paternò (2000) zu entnehmen. Bestehende Formalismen zur Modellierung von Taskmodellen kön- nen unter anderem hinsichtlich ihres Zweckes klassiﬁziert werden. Einerseits sind Taskmodelle zur Dokumentation von Arbeitsabläufen beziehungsweise zur Evaluation bestehender Benutzerschnittstellen im Einsatz oder andererseits zur Entwicklung neuer Benutzerschnitt- 124 konzept mit taskmodellen und wissensbasen

stellen (Paternò, 2000), wobei diese Arbeit lediglich die Entwicklung betrachtet. Diese Kategorie lässt sich jedoch weiter unterteilen in For- malismen, welche hauptsächlich zur Diskussion und Kommunikati- on zwischen Menschen oder zur Interpretation mittels Maschinen eingesetzt werden. Zur Verdeutlichung komplexer Sachverhalte sind Taskmodell als Taskmodelle beliebte Methodiken als Kommunikationsgrundlage. Hierbei Kommunikations- steht die Verständlichkeit im Fokus und weniger die formal korrek- grundlage te Beschreibung oder maschinelle Verarbeitung. Als Beispiele dieser Kategorie sind zu nennen: GOMS (Card u. a., 1983), TKS (P. John- son u. a., 1988), UAN (Hartson u. a., 1990) und GTA (Veer u. a., 2002). In einem modellbasierten Entwicklungsprozess können diese Model- le als Vorgabe zur Implementierung dienen. Nach der Implementie- rung ist die Semantik und Logik allerdings in Quellcode gebunden und die Bedeutung zur Laufzeit somit nicht zugänglich (Klug und Kangasharju, 2005; Yuan und Liu, 2012). Um diese Einschränkungen zu umgehen, existieren Modelle, welche durch Maschinen interpre- Generierung & tiert werden können und auf Basis derer eine Codegenerierung oder Interpretation zur Interpretation zur Laufzeit erfolgt. Als Beispiele sind hierbei zu nen- Laufzeit nen: DIANE+ (Tarby und Barthet, 1996), ConcurTaskTree (CTT) (Pa- ternò, 2000), TADEUS (Stary, 2000), TOOD (Mahfoudhi u. a., 2005), AMBOSS (Giese u. a., 2008) und useML (Meixner, Seissler und Brei- ner, 2011). Diese modellgetriebenen Varianten vereinfachen zwar die Spezifikation von Anwendungen, stellen jedoch hohe Anforderungen an das Interpretationsmodul. Vorliegende Arbeit sieht daher von einer eigenen Entwicklung eines solchen Formalismus ab und nutzt ConcurTaskTrees CTTs nach Paternò (2000) als etablierte Methodik zur Spezifikation und maschineller Interpretation. Durch das Programm CTT-Environ- ment4 besteht gute Softwareunterstützung zur Erstellung und Simu- lation von CTTs. Eine Ausführung von CTTs während der Laufzeit zur dynamischen Erstellung von GUIs zeigen Klug und Kangashar- ju (2005), wobei der praktische Einsatz in einem SDS nicht betrachtet wird. Die W3C MBUI Working Group (2014) setzt auf den Ar- beiten von Paternò (2000) auf und definiert minimale Änderungen zum ursprünglichen CTT-Formalismus. Für diese Arbeit ist der Un- terschied nicht von Relevanz, wobei auf die aktuelleren Arbeiten der W3C MBUI Working Group (2014) Bezug genommen wird. Definition Die W3C MBUI Working Group (2014) definiert Taskmodelle als ziel- Taskmodell gerichtete Beschreibung von interaktiven Systemen, welche jeweils ein bestimmtes Interaktionsziel, das in Tasks mit verschiedenen temporalen Abhängigkeiten und Vorbedingungen unterteilt ist, beinhalten. Jeder Task beschreibt hierbei eine Aktivität, die ausgeführt werden muss, um das Interaktionsziel zu erreichen. Eine Ausführung dieser Tasks kann entweder vom Nutzer (Interaktionstask) oder vom System (Systemtask) erfolgen. Tasks sind auf verschiedenem abstraktem Niveau zu sehen und können somit in weitere Tasks (Subtask)

4 http://giove.cnuce.cnr.it/ctte.html [Online 18.09.2015] 4.2 formale definitionen des konzepts 125 hierarchisch unterteilt werden (abstrakter Task). Zusätzlich sieht die W3C MBUI Working Group (2014) Nutzertasks vor, welche eine kognitive Aufgabe des Nutzers unabhängig vom System modellieren. Da im Folgenden jedoch eine Modellierung der HMI im Fokus steht, wird diese Art der Tasks nicht näher betrachtet. Abbildung 4.3 zeigt eine Deﬁnition des Taskmodells als UML-Klassendiagramm.

Vorbedingung/ <> Nachbereitung Unärer Operator <> optional 0..* 0..2 <> wiederholen

<> 1 1 N-ärer Operator Domänen- 0..1 Task <> Auswahl objekt 0..* 0..* SubTask <> unabhängig 0, 2..* <> verschachtelt <> parallel <> Synchronisierung <> deaktivieren Interaktions- Abstrakter Systemtask <> aufheben_aufnehmen task Task <> aktivieren

Abbildung 4.3: Deﬁnition Taskmodell als UML-Klassendiagramm nach W3C MBUI Working Group (2014).

Zwischen Tasks lassen sich temporale Abhängigkeiten sowie Vorbe- dingungen definieren. Temporale Abhängigkeiten bestimmen die Aus- temporale führungsreihenfolge von Tasks und sind über Operatoren definiert. Abhängigkeiten Tabelle 4.1 zeigt die unterstützen Operatoren inklusive ihrer Beschrei- bung, geordnet von hoher nach niedriger Priorität. Neben N-ären Operatoren können unäre eine Wiederholung einzelner Tasks oder optionale Tasks definieren. Jeder Task kann beliebige Vorbedingungen Vorbedingung und und Nachbereitungen erfordern. Im Folgenden wird auf diese nicht Nachbereitung näher eingegangen, da sich kein Unterschied zu etablierten Umset- zungen von W3C MBUI Working Group (2014) oder Paternò (2000) ergeben. Einen wichtigen Teil für die vorliegende Arbeit stellen Domä- Domänenobjekt nenobjekte dar, welche Objekte, aus zum Beispiel Datenbanken, definieren, auf die der jeweilige Task zugreift beziehungsweise diese ver- ändert. Im entwickelten Konzept dienen die Domänenobjekte zur Ver- bindung der Taskmodelle mit der Wissensbasis (siehe Abschnitt 4.2.3). Abbildung 4.4 zeigt das Taskmodell einer vereinfachten Wetteran- Beispiel wendung in CTT-Notation. Die Anwendung ermöglicht es Nutzern, Wetteranwendung Wettervorhersagen für einen bestimmten Ort und Wochentag zu erfragen. Dieses Interaktionsziel ist in drei Tasks (Ort, Wochentag, Webser- vice) unterteilt, wobei der abstrakte Task Ort weiter in Region und POI unterschieden wird. Letztere sind über den Auswahl-Operator verbunden und erfordern somit die Eingabe einer Region oder eines POI durch den Nutzer, um den Task Ort auszuführen. Da eine ver- schachtelte Verbindung zwischen Ort und Wochentag besteht, werden keine Anforderungen an die Reihenfolge der Dateneingabe für diese Tasks gestellt. Wochentag ist hierbei als optionaler Task definiert und 126 konzept mit taskmodellen und wissensbasen

Operator Name Beschreibung

T1[]T2[].. Auswahl Ausführung von T1 oder T2

T1| = |T2| = |.. unabhängig Ausführung der Tasks in beliebiger Reihenfolge

T1|||T2|||.. verschachtelt Sequentielle, Parallele oder beliebige Ausführung

T1||T2||.. parallel Parallele Ausführung von T1 und T2

T1|[]|T2|[]|.. Synchronisierung Gleichzeitige Ausführung mit Datenaustausch

T1[> T2[> .. deaktivieren T2 unterbricht T1

T1| > T2| > .. aufheben aufnehmen T2 unterbricht T1, wobei T1 nach Beenden von T2 fortgesetzt wird

T1 T2 .. aktivieren Ausführung von T2 nach T1 [T] optional T ist nicht erforderlich T ∗ Wiederholung Ausführung von T 1 bis n mal

Tabelle 4.1: Operatoren zur Deﬁnition temporaler Abhängigkeiten von Tasks (T).

wird somit von der Anwendungslogik nicht benötigt. Der Aktivie- rungsoperator zwischen Wochentag und Webservice zeigt die Notwen- digkeit Ort und optional Wochentag auszuführen, bevor das System eine Anfrage an die Anwendungslogik stellen kann.

Abbildung 4.4: Taskmodell einer vereinfachten Wetteranwendung in CTT- Notation. Erstellt mit CTT-Environment (Version: 2.6.11, Freeware)

4.2.2 Lexikalisch-semantische Wissensbasis

Wie in vorherigem Abschnitt gezeigt, deﬁnieren Taskmodelle die Struk- tur eines Interaktionsziels durch Hierarchisierung von Tasks sowie ihre temporalen Abhängigkeiten und Vorbedingungen. Jedoch sind die 4.2 formale definitionen des konzepts 127

Beschreibungen der Tasks informell gehalten (Giese u. a., 2008). Wäh- rend Menschen die Bedeutung von Tasks aus den Beschreibungen ableiten können, ist für Maschinen diese Art der Wissensrepräsentation ungeeignet. Somit ist der nächste logische Schritt nicht nur den struk- turellen Aufbau eines Interaktionsziels zu beschreiben, sondern die Bedeutung der Tasks maschinenverständlich zu definieren. Eine Analo- Bedeutung von gie zu vorliegendem Problem lässt sich im Bereich der Webtechnolo- Tasks gie finden, wobei die Struktur des Webs mittels diverser Formalismen definiert wird (z.B. HTML), jedoch der Inhalt der jeweiligen Doku- mente in erster Linie nur für Menschen verständlich ist. Berners-Lee u. a. (2001) zeigen in ihrem Artikel über das SemanticWeb die Vortei- le auf, den Inhalt der Dokumente auch maschinenverständlich zu for- malisieren. Sie beschreiben hierfür eine Ontologie, welche einerseits Objekte sowie deren Beziehungen zueinander und andererseits Inter- ferenzregeln enthält. Eine Ontologie, als Spezialfall einer Wissensbasis Ontologie (Köhler, 2010), ist eine formale Konzeptualisierung eines abstrakten, vereinfachten Abbilds der realen Welt (Gruber, 1993). Eine Wissensbasis soll im Folgenden eine Verbindung zwischen lexikalischen Zeichen, ihrer Bedeutung und außersprachlichem Welt- wissen herstellen. Als mögliche Organisationsformen solcher Wissens- basen können Wortnetze und Ontologien bedeutungsverwandte Wör- ter und Objekte miteinander verknüpfen (für eine detailliertere Be- trachtung sei auf Kunze und Lemnitzer (2007) verwiesen). Nardi und Brachman (2003) unterscheiden Wissen als generisches und spezifi- sches Wissen. Generisches Wissen beinhaltet hierbei abstrakte Objek- te, welche im Folgenden als Konzepte bezeichnet werden. Diese Kon- Konzepte zepte können spezifische Objekte als Ausprägung haben, im Folgen- den Instanzen genannt. Ein wichtiges Prinzip der Wissensbasis stellt Instanzen die Objektidentität dar, welches besagt, dass jedes Objekt (Konzept oder Instanz) nur einmal vorkommt und somit alle Informationen darüber an einer bestimmten Stelle zusammenkommen (Reichenber- ger, 2010). Über eine einfache Ordner- oder Baumstruktur lässt sich diese Identität nicht sicherstellen, da Objekte in diversen Ordnungs- dimensionen vorkommen können. Um eine Identität der Objekte zu erreichen, erlauben Wortnetze und Ontologien in der Regel beliebige Relationen zwischen Objekten untereinander. Viele Formalismen, wie Relationen zum Beispiel das Resource Description Framework (RDF), setzten auf Tripels der Form (Objekt, Prädikat, Objekt) (Passin, 2004). Hiermit lassen sich beliebige Fakten wie (Hamlet, geschriebenVon, Shakespeare) ausdrücken. Wie erwähnt, ist der Einsatz von Wissensbasen in Sprachdialogsys- temen durch diverse Projekte bereits etabliert. Gurevych u. a. (2006) zeigten im Projekt SmartKom die Einsetzbarkeit einer einzelnen On- tologie im multimodalen Dialogsystem mit mehreren Anwendungen und Geräten. Eine einzelne einheitliche Wissensbasis zum übergrei- fenden Verständnis vermeidet dabei komplexe Abbildungsmechanis- 128 konzept mit taskmodellen und wissensbasen

men von Objekten verschiedener Wissensbasen und erleichtert eine konsistente Interaktion (Behnke u. a., 2015). Um dies zu ermöglichen, muss die Wissensbasis allgemeingültig und umfassend sein. Diver- se Projekte analysieren und klassifizieren Wissen zur Erstellung einer allgemeinen Wissensbasis, wie zum Beispiel Freebase (Bollacker u. a., 2008), DBpedia (Bizer u. a., 2009), Cyc5 oder das Wortnetz Prin- ceton WordNet (Fellbaum, 1998; Miller, 1995). Während allgemeine Wissensbasen Konzepte und Instanzen unabhängig sprachlicher Ge- lexikalisch- gebenheiten modellieren, betrachtet WordNet zusätzlich Relationen semantische auf lexikalisch-semantischer Ebene. Für ein SDS bietet dies den Vorteil, Relationen auf Hyperonym (Oberbegriff) und Hyponym (Unterbegriff) reagieren zu können (Milward und Beveridge, 2003). Deshalb erfolgt eine formale Definition der lexikalisch-semantischen Wissensbasis dieser Arbeit auf Basis von WordNet. Eine Zusammenführung von WordNet mit allgemeinen Ansätzen für außersprachliches Wissen ist durchaus möglich, wie zum Beispiel Suchanek u. a. (2007) mit YAGO zeigen, einer Verbindung von WordNet mit Wikipedia. Zur Definition der Wissensbasis und Operationen auf deren Ob- Beschreibungslogik jekten, nutzt diese Arbeit Beschreibungslogiken als Sprache zur Wis- sensrepräsentation (Nardi und Brachman, 2003). Beschreibungslogi- ken bestehen in der Regel aus drei Teilen: terminologischer Formalis- mus (TBox), assertionaler Formalismus (ABox) und binären Prädika- tensymbolen (Relationen). Die TBox (T) beschreibt hierbei die allge- meingültigen Konzepte der Wissensbasis und die ABox (A) beinhaltet die konkreten Instanzen der Wissensbasis. Über binäre Relationen (R) werden Beziehungen zwischen zwei Instanzen, zwischen Instanz und Konzept oder zwischen zwei Konzepten definiert. Die Bildung von Ausdrücken erfolgt über bestimmte Symbole, welche verschiedene Konstruktoren nutzen. Zum Beispiel wird die Schnittmenge (engl. intersection) aus C und D als C u D gekennzeichnet, wobei dies in Prädikatenlogik erster Stufe identisch zu C(x) ∧ D(x), unter den An- nahmen x seien Individuen der Wissensbasis und C(x) = true gelte für alle zu C gehörigen Individuen (D(x) analog). Eine Vereinigung (engl. union) aller Individuen aus C und D wird gekennzeichnet

durch C t D. Eine Schnittmenge über n Konzepte C0 u .. u Cn kann nF durch die Schreibweise i=0 Ci ausgedrückt werden (Vereinigung Fn analog durch i=0 Ci). Einen essentiellen Punkt stellt die Deﬁnition von Relationen dar, welche der Form R.C entsprechen und Objekte beschreiben, die in Relation R zum Konzept C stehen. Wie erwähnt, wird im Folgenden als lexikalisch-semantische Wis- Princeton WordNet sensbasis Princeton WordNet6 eingesetzt, da eine rein theoretische For- malisierung und Entwicklung einer eigenen Wissensbasis im Umfang der vorliegenden Arbeit nicht möglich ist. Hierdurch entstehende Vor- und Nachteile werden an entsprechender Stelle diskutiert. WordNet

5 http://www.cyc.com/ [Online 04.10.2015] 6 https://wordnet.princeton.edu/ [Online 29.12.2015] 4.2 formale definitionen des konzepts 129 ist in englischer Sprache definiert, wobei entsprechende Netze für beispielsweise Deutsch mit GermaNet (Hamp und Feldweg, 1997) oder mehrsprachig im EU-Projekt EuroWordNet (Vossen, 1998) entwickelt wurden. WordNet ist unterteilt in die Wortarten Nomen, Verb, Adjek- tiv und Adverb, welche zu kognitiven Synonymen (Synsets genannt) gruppiert werden. Jedes Synset entspricht einer Bedeutung, somit einem Konzept oder einer Instanz. Zwischen Synsets sind einerseits lexikalische und andererseits semantische Relationen definiert. Im Fol- genden werden die für diese Arbeit relevanten lexikalisch-semantischen lexikalisch- Relationen mittels Beschreibungslogiken formal definiert: semantische Relationen Instanz: Wie erwähnt, kann eine Wissensbasis aus spezifischen In- stanzen und generischen Konzepten bestehen. Hierbei ist entscheidend, dass für jede Instanz ein entsprechendes Konzept referenziert wird: . Instance = I u instanceOf.C mit I ∈ A und C ∈ T

Hyperonym (Oberbegriff): Wie von Milward und Beveridge (2003) beschrieben, können Nutzer auf eine Systemäußerung Antwor- ten liefern, welche nicht exakt im Bereich der Erwartungswerte liegen. Sind dies Ober- oder Unterbegriffe, muss das SDS darauf reagieren. Um dies bei Interpretation einer Nutzeräußerung zu gewährleisten, kann die Hyperonym-Relation zwischen Kon- zepten genutzt werden: . Hypernym = C u hypernym.D mit C, D ∈ T

Hyponym (Unterbegriff): Im linguistischen Sinne liegt zwischen Hyperonym und Hyponym eine bijektive Abbildung vor, wodurch zu jeder Hyperonym- auch eine Hyponym-Beziehung de- ﬁniert wird: . Hyponym = C u hyponym.C u hyernym.D mit C, D ∈ T

Benennung: Jedes Synset kann durch verschiedene Synonyme benannt sein. Diese können entweder ein einzelnes Wort sein oder aus verschiedenen zu einer Phrase zusammengesetzt sein. Da Konzepte und Instanzen in der vorliegenden Arbeit mittels Spra- che angesprochen werden, wird die Benennung über eine Spo- ken-Relation ausgedrückt (dies ist vom Prinzip ähnlich der „writ- tenRepresentation“ des Lemon-Modells nach McCrae u. a. (2010)).

hname, Oi ∈ spoken.O mit O ∈ T oder O ∈ A

Wortartenübergreifende Relation: Im Prinzip besteht WordNet aus einem einzelnen Wortnetz je Wortart. Über die „morphosemantic“-Relation sind jedoch Beziehungen zwischen Synsets unterschiedlicher Wortarten mit ähnlicher Bedeutung deﬁniert. Dies 130 konzept mit taskmodellen und wissensbasen

ermöglicht im SDS zum Beispiel eine korrekte Auﬂösung der Äußerungen „Navigation nach Berlin“ und „Nach Berlin navi- gieren“, welche somit identisch behandelt werden können, obwohl unterschiedliche Wortarten für die Aktion verwendet wurden. . Morphosemantic = C u relateTo.D mit C, D ∈ T

Beispiel lexikalisch- Abbildung 4.5 zeigt das Beispiel einer vereinfachten lexikalisch-semanti- semantischer schen Wissensbasis zur Verdeutlichung oben genannter Relationen (un- Wissensbasis abhängig von WordNet). Die Instanz New York hat zwei Synonyme (New York und Big Apple), welche durch die spoken-Relation modelliert sind. New York ist hierbei Instanz des Konzeptes Stadt, welches wiederum ein Hyponym einer Region ist. Objekt bildet ein Hyperonym für alle Konzepte der Wissensbasis. Da Namen von Konzepten und Instanzen nicht eindeutig sind, können verschiedene spoken-Relatio- nen bestehen (siehe „Berlin“ als Namen einer Stadtinstanz und Per- soneninstanz).

hyponym Objekt hyponym hypernym

Person Region

hypernym hyponym instanceOf Stadt instanceOf Irving Berlin Berlin New York spoken spoken „Berlin“ „New York“ „Big Apple“

Abbildung 4.5: Vereinfachter Ausschnitt an Nomina der lexikalisch-semantischen Wissensbasis. Spoken-Relationen für Konzepte sind nicht dargestellt.

4.2.3 Bindung von Objekten der Wissensbasis an Taskmodelle

Die beiden vorherigen Abschnitte definieren einerseits Taskmodelle zur Beschreibung des Interaktionsschemas und andererseits eine lexikalisch-semantische Wissensbasis zur Repräsentation von Konzep- ten, Instanzen und ihren Beziehungen. Im Folgenden wird die Verbin- dung beider Formalismen beschrieben, um die Bedeutung von Tasks und ihren Parametern über Objekte der Wissensbasis zu definieren. Ein SDS kann somit, auf Basis der spezifizierten Modelle die Bedeu- tung erfassen und dementsprechend Nutzeräußerungen interpretieren. Die Beschreibung von Diensten (engl. Services) im Bereich der SOA befasst sich mit einer ähnlichen Problemstellung, da Taskmodelle, 4.2 formale definitionen des konzepts 131

aus technischer Sicht, als Prozessmodelle aufgefasst werden können. Komplexe Prozessmodelle, wie zum Beispiel über die „Business Pro- Prozessmodelle cess Prozessmodelle Execution Language (BPEL)“ (OASIS WSBPEL Technical Committee, 2007) definierbar, setzen sich zusammen aus einer Vielzahl an verschiedenen Diensten, welche analog zu Tasks im Taskmodell gesehen werden können. Neben einer technischen Doku- mentation der API ist es wichtig, die Aufgabe des Dienstes sowie not- Beschreibung wendige Parameter zu beschreiben, um passende Dienste zu nutzen Dienste und zu kombinieren. Hierfür existieren Formalismen, wie zum Bei- spiel „Universal Description Discovery & Integration (UDDI)“ (UDDI Spec Technical Committee, 2002), die „Web Service Definition Lan- guage (WSDL)“ (Christensen u. a., 2001) oder die „Ontology Web Language for Services (OWL-S)“ (Martin u. a., 2004). Während die Bedeutung eines Dienstes bei UDDI und WSDL hauptsächlich auf informellen Beschreibungen basiert, nutzt OWL-S Techniken des Se- manticWeb. Dies ermöglicht ein automatisiertes Auffinden, Aufrufen und Kombinieren von Diensten. Hierfür werden die Servicekatego- rie sowie Aufruf- und Rückgabeparameter des Dienstes mit Konzep- ten einer Wissensbasis verknüpft. Mögliche Parameter sind jeweils Instanzen des definierten Konzeptes. Unter Beachtung der jeweiligen Ein- und Ausgabeparameter lassen sich somit komplexe Prozessmo- delle automatisch generieren, wie zum Beispiel von Zhang u. a. (2003) gezeigt. Die semantische Beschreibung von Diensten ist somit wohl untersucht und in entsprechenden Standards formuliert. Jedoch ist die Interaktion zwischen Nutzer und Dienst, worauf vorliegende Ar- beit den Fokus legt, sehr eingeschränkt: „current [Service-Oriented Computing] tools produce applications that interact with users in a limited way.“7 (Kritikos u. a., 2014, S. 25.1). Paternò u. a. (2011) hingegen betrachten die Problemstellung aus Sicht der HMI, indem im ersten Schritt die Interaktion mittels Taskmo- HMI-Sicht dell definiert wird und im zweiten Schritt eine Bindung von Diensten an die jeweiligen Systemtasks stattfindet. Der Ansatz geht davon aus, dass jeder Webservice eine formalisierte Beschreibung enthält (engl. Annotation), mit welcher Aktionen, Parameter, Datentypen und vieles mehr definiert sind. Notwendige Eingabeparameter für einen Ser- vice müssen durch entsprechende Interaktionstasks vom Nutzer eingegeben werden. Damit erfolgt eine Abbildung gewisser Anteile der Servicebeschreibung auf Interaktionstasks. Unter Verwendung verschiedener Services ergibt sich hierbei allerdings keine konsistente Be- schreibung. Einen gegensätzlichen Ansatz entwickelten Kritikos u. a. (2014), welche Interaktionstasks mittels CTT-Notation definieren und, abhängig der vom Entwickler gewählten Namen für Tasks sowie An- wendungsobjekten, automatisiert passende Ontologien und Services für Systemtasks identifizieren. Anwendungsobjekte sind hierbei Ein-

7 Übersetzung des Autors: Aktuelle service-orientierte Computerprogramme erstellen Anwendungen, welche mit Nutzern auf eingeschränkte Weise interagieren. 132 konzept mit taskmodellen und wissensbasen

und Ausgabeparameter eines Tasks, welche vom Entwickler beliebig benannt werden. Hierbei ergibt sich das Problem einer eventuell in- konsistenten oder undeutlichen Benennung, wie zum Beispiel bei Ver- wendung von Abkürzungen, welche nur schwierig automatisiert auf Konzepte einer Ontologie abbildbar sind. Ähnlich hierzu formulieren Yuan und Liu (2012) eine Ontologie für Taskmodelle, in welcher eine Beziehung zwischen Task und verwendeten Domänenobjekten besteht (identisch der Domänenobjekte in CTTs). In allen drei Ansät- zen wird von Tasks auf bestimmte Objekte referenziert, jedoch erfolgt keine Definition über deren Inhalt. Vorliegende Arbeit setzt hierauf Domänenobjekt auf und fordert als Domänenobjekt eine Referenz in die lexikalisch-seman- Referenz in tische Wissensbasis. Viele bestehende Wissensbasen beinhalten textuel- Wissensbasis le Erklärungen und Beispielinstanzen zu Konzepten (z.B. in WordNet gloss genannt), wodurch eine konsistente, und für Entwickler einfache Möglichkeit der Definition von Domänenobjekten existiert. Wie in Abbildung 4.3 gezeigt, kann jeder Task beliebig viele Domä- nenobjekte referenzieren. Dies stellt im Folgenden die Verbindung zwischen Taskmodell und lexikalisch-semantischer Wissensbasis her und definiert somit die Parameter eines Tasks. Handelt es sich bei dem Task um einen Interaktionstask oder einen abstrakten Task, sind die Domänenobjekte als Eingabeparameter zu sehen, welche ein Nut- zer zur Taskerfüllung eingeben muss. Bei einem Systemtask hingegen beschreiben die Domänenobjekte Ausgabeparameter, die zum Bei- spiel eine Anwendung oder ein Webservice bereitstellen. Aus Sicht des Taskmodells sind somit Domänenobjekte jeweils Konzepte oder Instanzen der Wissensbasis, die nach Ausführung des Tasks zur Ver- fügung stehen. Während der Erstellung eines Taskmodells definiert Definition der Entwickler die validen Domänenobjekte für Tasks. Ein Domänen- Domänenobjekt objekt ist definiert als Quadrupel aus Konzept (C), Objekttyp (O), Über- einstimmung (M) und Attribut (A): . DomainObject = (C, O, M, A)

Hierbei sind die einzelnen Elemente des Quadrupels wie folgt deﬁ- niert:

Konzept (C) stellt die Beziehung zur Wissensbasis her und deﬁ- niert den Parameter, welcher nach Taskausführung zur Verfü- gung steht. Sollte kein Konzept der Wissensbasis den Parameter beschreiben können, müssen entweder Domänenobjekte kombiniert oder die Wissensbasis erweitert werden (siehe unten). Für bestimmte Anwendungsfälle kann es notwendig sein, auf Dependenzen von Nomina einzugehen (nach De Marneffe u. a. (2014) z.B. Präpositionen, Postpositionen oder Klitika), welche als Spezialfall von C deﬁniert werden können.

Objekttyp (O) deﬁniert, ob der jeweilige Parameter vom Typ Kon- zept (con) oder Instanz (inst) sein soll. 4.2 formale definitionen des konzepts 133

Übereinstimmung (M) ist ein Wahrheitswert, ob ein Hyponym als gültiger Wert des Parameters angenommen werden kann (true) oder nicht (false).

Attribut (A) ist ein Wert, welcher das Domänenobjekt als optional (opt) oder erforderlich (req) klassiﬁziert.

Trotz einer allgemeingültigen Wissensbasis können spezifische An- wendungen Konzepte erfordern, welche nicht in der Wissensbasis enthalten sind. Dies lässt sich entweder durch Kombination bestehender Konzepte oder einer Erweiterung der Wissensbasis lösen. Vor- zuziehen ist die Kombination bestehender Konzepte, da dadurch die Domänenobjekt- Wissensbasis unverändert und somit konsistent bleibt. McCrae u. a. kombination (2010) schlagen im Lemon-Modell vor, zusammengesetzte Wörter, wie zum Beispiel „Schweineschnitzel“, als Kombination bestehender Kon- zepte zu formulieren, also „Schwein“ und „Schnitzel“. Somit ist es Entwicklern möglich, beliebige Kombinationen an Domänenobjekten einem Task zuzuordnen. Lässt sich ein Parameter eines Tasks dennoch nicht definieren, ist eine Erweiterung der Wissensbasis erforder- Erweiterung lich. Zwingend hierbei ist ein Verlinken des zusätzlichen Konzeptes Wissensbasis in die bestehende Wissensbasis via Hyperonym-Relation. Zusätzlich müssen notwendige Eigenschaften der Wissensbasis, wie zum Bei- spiel Bestimmung der Wortart, Synonyme und Beschreibung, definiert werden. Über einen Updateprozess oder Konsortium, welches die Wissensbasis verwaltet, sollte eine Verbreitung erfolgen, um an- schließend die erstellte Anwendung global nutzen zu können. Anhand der Wetteranwendung (siehe Abschnitt 4.2.1) wird im Fol- genden die Referenzierung auf Domänenobjekte beispielhaft gezeigt Beispiel und ist in Tabelle 4.2 dargestellt. Als Interaktionsziel sieht die Anwen- Referenzierung dung vor, das Wetter abzurufen. Nennt ein Nutzer die sprachliche Repräsentation des Konzeptes weather%1:19:00:: wird der abstrakte Task Wetter ausgeführt. Beim Task Region können Nutzer eine Instanz einer geografischen Region (geographical_area%1:15:00::) oder einer Stadt (city%1:15:00::) mit Präposition in (Case:IN) eingeben, wie zum Beispiel Berlin (Berlin%1:15:00::) als Instanz des Konzeptes Stadt. Ähnlich hierzu referenziert der Task Point-of-Interest (POI) auf einen Berggipfel (mountain_peak%1:17:00::) oder See (lake%1:17:00::). Je- doch sollen zusätzlich Hyponyme valide Werte als Eingabe sein, wodurch zum Beispiel Lake_Powell (Lake_Powell%1:06:00::) als künstli- cher See (artificial_lake%1:06:00::) eine mögliche Eingabe darstellt. Als Systemtask liefert Webservice eine Vereinigung aus einer Tempera- turinstanz (temperature%1:07:00::) und einer Wetterbedingung als Konzept (weather_condition%1:19:00::) oder entsprechendem Hy- ponym. Abhängig von der Anwendung könnte dies 23%1:28:02:: und wind%1:19:00:: sein.

8 https://wordnet.princeton.edu/ [Online 11.10.2015] 134 konzept mit taskmodellen und wissensbasen

Task referenzierte Domänenobjekte

Wetter (weather%1:19:00::, con, false, req) Region (geographical_area%1:15:00::, inst, false, req) t (case:IN u city%1:15:00::, inst, true, req) POI (mountain_peak%1:17:00::, inst, true, req) t (lake%1:17:00::, inst, true, req) Wochentag (day_of_the_week%1:28:00::, con, false, req) Webservice (temperature%1:07:00::, inst, false, req) u (weather_condition%1:19:00::, con, true, req)

Tabelle 4.2: Zuweisung von Domänenobjekten zu Tasks des Taskmodells einer Wetteranwendung (siehe Abbildung 4.4). Konzepte basieren auf WordNet8 Version 3.0.

4.3 prozess von nutzereingabe bis taskausführung

Während die Konzeptentwicklung und die formale Deﬁnition wichtiger Konzeptbestandteile Gegenstand der vorausgehenden Abschnitte waren, wird im Folgenden der Prozess von Nutzereingabe, über Inter- pretation bis zur Taskausführung beschrieben. Abschließend erörtert Abschnitt 4.3.5 anwendungsübergreifende Aspekte des Konzeptes.

4.3.1 Abbildung von Nutzereingaben auf Konzepte und Instanzen der Wis- sensbasis

Zu Beginn einer Interaktion steht die sprachliche Eingabe, also die Nutzeräußerung. Wie in Abschnitt 2.3.1 für allgemeine Sprachdialog- systeme gezeigt, analysiert die ASR das Sprachsignal und weist ihm einen deﬁnierten Satz an Symbolen zu. Im Anschluss erfolgt eine Interpretation der Äußerung. Beide Prozessschritte stehen nicht im Fokus vorliegender Arbeit, weswegen sie als Grundlage zur Imple- mentierung und Evaluation vorausgesetzt werden. Eine zuverlässige automatisierte automatisierte Verschriftung des Sprachsignals ist bereits weitgehend Verschriftung im Einsatz und soll im Folgenden nicht weiter betrachtet werden. Be- züglich der Interpretation wird ein Prozess deﬁniert, welcher weitest- gehend auf etablierte linguistische Verfahren setzt. Interpretation Die Interpretation erfolgt auf Basis der Struktur der Konstituenten unter Annahme des Kompositionalitätsprinzipes: „[T]he meaning of a sentence is a function of the meanings of its parts.“9 (McTear, 2002, S. 108). Demzufolge bildet die syntaktische Struktur der Äußerung und die Bedeutung der Konstituenten eine entscheidende Grundlage

9 Übersetzung des Autors: Die Bedeutung eines Satzes ist eine Funktion seiner Teilbe- deutungen. 4.3 prozess von nutzereingabe bis taskausführung 135 zur Interpretation. Entsprechende Analyseverfahren sind bei Frage- Antwort-Systemen im Einsatz, um natürlichsprachliche Fragen auf Objekte einer Wissensbasis abzubilden. Zum Beispiel setzen Araki und Funakura (2010) SemanticWeb-Technologien zur Identifikation relevanter Konstituenten einer Frage und zur Erstellung einer formalen Anfrage an eine Wissensbasis ein. Irrelevante Konstituenten und Füllwörter werden hierbei ignoriert. Detaillierter beschreiben Be- rant u. a. (2013) einen Algorithmus zur Identifikation von Objekten und Relationen einer Wissensbasis auf Basis einer natürlichsprach- lichen Frage. Sie nutzen hierfür die domänenunabhängige allgemeine Wissensbasis Freebase (Bollacker u. a., 2008) und zeigen somit die Realisierbarkeit einer Abbildung von beliebigen gesprochenen Äuße- rungen auf Konzepte, Instanzen und Relationen einer Wissensbasis. Diese Verfahren könnten in der vorliegenden Arbeit auch eingesetzt werden. Problematisch hierbei ist jedoch die fehlende Verbindung zu WordNet und dass die eingesetzte Software nicht frei verfügbar ist. Aus diesem Grund muss ein Prozess aus bestehenden Umsetzungen definiert werden, um eine Äußerung in Synsets von WordNet abzubilden. Zur Vorbereitung der Identifikation von Synsets müssen Eigenna- Eigennamen men aus der Anfrage extrahiert werden. Hinsichtlich der Eigenna- menerkennung (engl. named entity recognition) existieren diverse Verfahren mit hoher Genauigkeit, von manuellen Listen über über- wachtes oder semi-überwachtes Lernen bis hin zu unüberwachten Lernmethoden (Carstensen u. a., 2010). Aus diesem Grund sieht vorliegende Arbeit das Erkennen von Eigennamen als gegeben voraus und verwendet in der Implementierung eine manuelle Liste, wobei jedes andere Verfahren ebenso einsetzbar wäre. Wie erwähnt, ist Word- Net nach Wortarten in Nomen (NN), Verben (VB), Adjektive (JJ) und Wortarten Adverbien (RB) unterteilt. Zur Klassifikation der Konstituenten einer Äußerung sind unter dem Begriff Wortartenannotierung (engl. POS-Tagging) Methodiken entwickelt worden, welche eine automatisierte Klassifikation nahezu fehlerfrei ermöglichen (Carstensen u. a., 2010; Toutanova u. a., 2003). Ein weit verbreitetes Klassifizierungs- schema für Wortarten bietet die Penn Treebank (Marcus u. a., 1993), welches auch für vorliegende Arbeit genutzt wird. Unterscheidun- gen der Wortarten, wie z.B. bei Nomina in Plural (NNS) und Sin- gular (NN), sind für die Identifizierung im WordNet nicht notwendig und werden daher nicht weiter behandelt. Ein weiterer wichtiger Punkt ist eine Analyse der Nutzeräußerung hinsichtlich Dependen- Dependenz- zen, um auf diese im Vergleich mit den definierten Domänenobjekten annotation einzugehen. Aus grammatikalischen Gründen treten Wörter in verschiedenen Formen auf, wie beispielsweise konjugierte Verben. Da im WordNet eine Benennung von Synsets in der Basisform (engl. Lem- ma) erfolgt, muss für eine Identifikation die gesprochene Konstitu- ente der Äußerung in seine Basisform überführt werden (für Lemma- Lemmatisierung 136 konzept mit taskmodellen und wissensbasen

tisierung siehe Manning, Raghavan u. a. (2009)). In der vorliegenden Arbeit wird für die erwähnten Verfahren der Computerlinguistik die Stanford CoreNLP (Manning, Surdeanu u. a., 2014) genutzt, für eine theoretische Betrachtung sei auf die genannte Literatur verwiesen. Beispiel Anhand der Beispieläußerung „How is the weather in Washington?“10 Interpretation erfolgt eine Verdeutlichung der eingesetzten Interpretationsverfahren. Abbildung 4.6 zeigt das Ergebnis der mehrstuﬁgen Analyse durch die Standford CoreNLP11. Im ersten Schritt erfolgt eine Klassiﬁkation der Wortarten und im zweiten Schritt die Annotation der Dependen- zen. Im Beispiel sind das Verb is, die Nomina weather und Washington sowie die Präposition in von Bedeutung. Wegen der Dependenzanno- tation wird die Präposition dem Nomen Washington zugeordnet. Das konjugierte Verb is wird in sein Lemma be transferiert. How is the weather in Washington

WRB advmod VBZ DT det NN IN case NNP

nsubj nmod:in

Abbildung 4.6: Beispiel der Interpretation einer Nutzeräußerung durch die Stanford CoreNLP11mit Wortarten und Dependenzen.

Auf Basis von Wortarten, Dependenzannotation und Lemma der Synsetidentifikation Konstituenten einer Nutzereingabe erfolgt die Identifikation von Syn- sets im WordNet. Existiert eine Benennung eines Synsets, welche identisch zur Basisform einer Konstituenten ist, wird dies als Hypothese betrachtet. Benennungen sind hierbei nicht eindeutig, sondern kön- nen Homonyme enthalten, welche zwar gleich lauten, aber verschiedene Bedeutungen haben und somit unterschiedliche Synsets referenzieren. Aus diesem Grund können für jede Konstituente p mehrere (Altp) alternative Objekte O als Hypothese identifiziert werden, von welchen jeweils nur maximal eine die korrekte Interpretation der Nutzeräußerung darstellt. Betrachtet man die Gesamtheit der Nut- zeräußerung, können mehrere Konstituenten (P) enthalten sein. Da Nomen verschiedene, nicht in der Wissensbasis darstellbare Depen- denzen (engl. cases Ca), referenzieren können, müssen diese jeweils an ihre Nomen angehängt werden. Die Bedeutung der Nutzeräuße- rung kann somit folgendermaßen definiert werden:

P Altp Cases

. G G UserInput = G (∃spoken.Op,a Cai) (1) p=0 a=0 i=0

Auf Basis des genannten Wetterbeispiels wird die Identiﬁkation von Synsets im WordNet verdeutlicht (siehe Abbildung 4.7). Nach Interpretation mittels der Stanford CoreNLP sind das Verb be, die

10 Übersetzung des Autors: Wie ist das Wetter in Washington? 11 http://nlp.stanford.edu:8080/corenlp/process [Online 17.10.2015] 4.3 prozess von nutzereingabe bis taskausführung 137 beiden Nomina weather und Washington sowie die Präposition in von Bedeutung. Abgesehen von der Präposition existieren hierfür Synsets im WordNet. Für das Nomen weather existiert genau ein Synset, wogegen das Verb be und das Nomen Washington nicht eindeutig bestimmt werden können. Es existieren somit mehrere Hypothesen für diese Konstituenten.

be:VB weather:NN Washington:NN case:IN

Abbildung 4.7: Beispiel der Identiﬁkation von Synsets im WordNet (Darstel- lung beinhaltet nur einen Auszug).

Um die Bedeutung der Äußerung festzulegen, werden die Einzelbe- deutungen der Konsitutenten kombiniert: UserInput =(be%2:42:03:: t be%2:42:06::) u weather%1:19:00:: u ((washington%1:15:01:: t washington%1:18: 00::) u case:IN)

4.3.2 Kontext eines Dialogzustandes

Taskmodelle definieren temporale Abhängigkeiten von Tasks sowie Vorbedingungen und Nachbereitungen. Abhängig davon ergibt sich eine bestimmte Ausführungsreihenfolge der Tasks. Durch das Taskmo- dell lässt sich somit zu jedem Zeitpunkt entscheiden, welche Tasks als Ausführbarkeit von nächstes zur Ausführung kommen können. Zur Bestimmung ausführ- Tasks barer Tasks sei auf Paternò (2000) verwiesen. Eine Unterscheidung erfolgt in der vorliegenden Arbeit je nach Dialogzustand in nicht-aktives und aktives Taskmodell. Bei einem aktiven Taskmodell kamen bereits Tasks in vorherigen Dialogschritten zur Ausführung, wobei ein nicht-aktives Modell den initialen Zustand beschreibt. Anhand der vereinfachten Wetteranwendung (siehe Abbildung 4.4) wird dies verdeutlicht. Im initialen Zustand können Nutzer die Tasks Region, POI und/oder Wochentag ausführen, jedoch nicht Webservice, da dieser Task erst aktiv wird, sobald ein Subtask von Ort zur Ausführung kam. Ist dies geschehen, geht das Taskmodell in den aktiven Zustand über und das SDS befindet sich im Dialog mit dem Nutzer. Gibt der Nutzer hingegen im ersten Schritt keinen Subtask von Ort ein, muss das SDS nachfragen, und Webservice bleibt solange nicht ausführbar. Zur Nachfrage und Ausführung eines Tasks siehe Abschnitt 4.3.4. Ausgehend von den ausführbaren Tasks erfolgt eine Definition der möglichen Eingaben durch Nutzer, im Folgenden als Kontext bezeich- Kontext net. Der Kontext setzt sich hierbei zusammen aus den verfügbaren Taskmodelle, die Anordnung ihrer Tasks und deren Domänenobjekte, welche die möglichen Eingabeparameter definieren. Zum einfacheren 138 konzept mit taskmodellen und wissensbasen

Subkontext Verständnis erfolgt eine Unterteilung des Kontextes in Subkontexte, welche jeweils mit der Nutzereingabe verglichen werden (siehe nach- folgender Abschnitt) und der Ähnlichste zur Ausführung kommt. Fünf verschiedene Arten von Subkontexten sind zu deﬁnieren:

Taskmodellsubkontext bezeichnet den obersten Einsprungpunkt in ein Taskmodell und besteht aus den Domänenobjekten des Wur- zeltasks.

Globale Subkontexte beinhalten die Domänenobjekte aller Tasks, die auf dem Pfad (TaskPath) zwischen Wurzeltask und aus- führbarem Blatttask liegen.

Pfadabhängige Subkontexte beinhalten alle Domänenobjekte der Teilpfade zwischen Wurzeltask und ausführbaren Blatttasks.

Lokale Subkontexte beziehen sich auf bereits ausgeführte Tasks und beinhalten alle Domänenobjekte der Pfade (TaskPath) zwischen den nächsten ausführbaren Tasks zu einem ausgeführten Elterntask.

Zusammengefügte Subkontexte werden auf Basis der bisher be- schriebenen Subkontexte, unter Beachtung temporaler Opera- toren zwischen Tasks, gebildet. Hierzu erfolgt eine Analyse hinsichtlich identischer Pfade der Tasks. Sind die Subtasks des letzten gemeinsamen Tasks im Pfad über die Operatoren verschachtelt, parallel oder Synchronisierung verbunden, wird die Schnitt- menge beider Subkontexte zusätzlich im Kontext eingefügt. Dies ermöglicht die gleichzeitige Ausführung mehrerer Tasks.

Lokale Subkontexte werden hierbei lediglich für aktive Taskmodel- le erstellt. Somit wird sichergestellt, dass bei nicht-aktiven Taskmo- dellen die ausführbaren Tasks nicht ohne Erwähnung der Domäne- nobjekte ihrer Elterntasks ausgeführt werden können. Anderenfalls würde beispielsweise die Äußerung „Berlin“ in einer Wetteranfrage enden, obwohl der Nutzer unter Umständen beabsichtigt, eine Navi- gationsanwendung zu steuern. Unter Vereinigung der Subkontexte (SubCon) mit ihren jeweiligen Domänenobjekten (DO) der Tasks ergibt sich als Deﬁnition des Kon- textes:

SubCon TaskPathc

. G Context = G t.DO (2) c=0 t=0

Beispiel zur Die Erstellung von Kontexten soll im Folgenden anhand des Beispiels Erstellung von der vereinfachten Wetteranwendung (siehe Abschnitt 4.2) verdeut- Kontexten licht werden. Der erste Schritt identiﬁziert Tasks, aus welchen ein jeweiliger Subkontext besteht (siehe Tabelle 4.3). Im zweiten Schritt erfolgt hieraus die Erzeugung des Kontextes nach Formel (2), indem 4.3 prozess von nutzereingabe bis taskausführung 139 zu jedem Task seine Domänenobjekte mit denen der anderen Tasks kombiniert werden. Bezogen auf das Beispiel der Wetteranwendung ergibt dies einen initialen Kontext (Domänenobjekte sind lediglich auf Basis ihrer Beschriftung und nicht mit vollständiger ID dargestellt):

ConW =weather t (weather u (mountain_peak t lake)) t (weather u (geographical_area t (IN u city))) t (weather u day_of_the_week) t · · ·

Subkontextart Mengen der Tasks für jeden Subkontext

Taskmodell {Wetter} Global {Wetter,Ort,Region},{Wetter,Ort,POI}, {Wetter,Wochentag} Pfadabhängig {Wetter,Ort} Lokal {} Zusammengefügt {Wetter,Ort,Region,Wochentag},{Wetter,Ort, POI,Wochentag},{Wetter,Ort,Wochentag}

Tabelle 4.3: Subkontexte des initialen Taskmodells der Wetteranwendung.

4.3.3 Vergleich von Nutzereingabe und Kontext

Wie in Abschnitt 4.3.1 vorgestellt, liegt die Eingabe als Interpreta- tion von Objekten der Wissensbasis und zugehörigen Argumenten (engl. cases) vor. Der Kontext des SDS ist ebenfalls in Objekten der Wissensbasis dargestellt (siehe Abschnitt 4.3.2) und in Subkontexte unterteilt. Im Folgenden wird ein Verfahren vorgestellt, welches die Nutzereingabe beziehungsweise ihre Interpretations-Hypothesen mit jedem Subkontext vergleicht, um im nächsten Schritt die auszufüh- renden Tasks zu bestimmen. Zur Vereinfachung des Vergleichs erfolgt eine Umformulierung der Nutzereingabe (Beweis siehe AnhangB. 1):

Alt Alt P Cases

G0 GP

G UserInput ≡ ··· G (∃spoken.Op,ap Cai) (3) a0=0 aP=0 p=0 i=0

Somit lässt sich jede Interpretations-Hypothese einzeln mit den Sub- kontexten vergleichen, was einerseits zur Übersichtlichkeit führt und andererseits eine parallele Verarbeitung zulässt. Die Bewertung jedes Bewertung Subkontextes ist ein Tripel, bestehend aus den Dimensionen Überein- Subkontext stimmung (M), Ausführbarkeit (E) und semantischer Ähnlichkeit (S):

g :(UserInput, SubCon) → (M, E, S) (4) 140 konzept mit taskmodellen und wissensbasen

Die folgenden Unterabschnitte deﬁnieren jeweils die einzelnen Di- mensionen des Tripels. Jede Dimension wird anhand des begleiten- den Wetterbeispiels verdeutlicht.

4.3.3.1 Anzahl übereinstimmender Objekte (M) Ein Anzeichen, inwieweit eine Interpretations-Hypothese zu einem Subkontext passt, liefert ein Vergleich hinsichtlich der Übereinstim- mung ihrer referenzierten Objekte der Wissensbasis. Zwei Fälle kön- exakte & nen hierbei auftreten, einerseits die exakte Übereinstimmung und ande- hierarchische rerseits eine hierarchische Übereinstimmung. Bei einer exakten Überein- Übereinstimmung stimmung entspricht ein Objekt der Interpretations-Hypothese eindeutig dem referenzierten Konzept eines Domänenobjektes im Sub- kontext. Anders ist dies hingegen bei einer hierarchischen Überein- stimmung, welche, ähnlich zum Vererbungsprinzip der objektorientierten Programmierung, die Idee verfolgt, spezifische Typen auf ab- straktere abzubilden. Übertragen auf diese Arbeit bedeutet dies, wenn ein Objekt der Interpretations-Hypothese spezifischer ist als das Kon- zept eines Domänenobjektes im Subkontext, dann ist es ein Hyponym dieses Objektes. Eine hierarchische Übereinstimmung ist nur möglich, insofern dies im Domänenobjekt spezifiziert ist. Liegt in der Interpre- tations-Hypothese eine Instanz vor, ist, wie von Kritikos u. a. (2014) vorgeschlagen, ihr entsprechendes Konzept auf Übereinstimmung zu prüfen. Sind alle als erforderlich spezifizierten Domänenobjekte eines Sub- Berechnung kontextes in der Nutzereingabe enthalten, erfolgt die Berechnung des Übereinstimmungswerts. Hierbei werden die übereinstimmenden Do- mänenobjekte des Subkontextes gezählt, unabhängig ob exakte oder hierarchische Übereinstimmung vorliegt. Dies beruht auf der Annah- me, dass je mehr Anteile der Nutzereingabe mit dem Subkontext übereinstimmen, desto höher ist die Wahrscheinlichkeit, dass der Sub- kontext die Intention des Nutzers trifft. Tabelle 4.4 zeigt die Übereinstimmungswerte für das diese Arbeit Beispiel begleitende Beispiel der Wetteranfrage mit der Nutzeräußerung „How Wetteranfrage is the weather in Washington?“12. Die Interpretations-Hypothese wird hierbei mit einem Subkontext auf Übereinstimmung verglichen, wobei für be keine Übereinstimmung gefunden werden kann. Jedoch zeigt sich eine exakte Übereinstimmung bei weather, sowie eine hierarchische Übereinstimmung für Washington, welches Instanz des Konzeptes national_capital und somit Hyponym von city ist. So- mit ist die Voraussetzung der Übereinstimmung aller erforderlichen Domänenobjekte des Subkontextes mit der Interpretations-Hypothe- se gegeben, und die Summe der übereinstimmenden Domänenobjek- te ergibt drei.

12 Übersetzung des Autors: Wie ist das Wetter in Washington? 4.3 prozess von nutzereingabe bis taskausführung 141

Subkontext Interpretations-Hypothese i h be weather IN Washington → capital → city weather 0 1 0 0 IN 0 0 1 0 city 0 0 0 1

Tabelle 4.4: Übereinstimmung einer Interpretations-Hypothese mit einem Subkontext (Domänenobjekte und Objekte der Wissensbasis sind nur durch ihre Beschriftung dargestellt).

4.3.3.2 Anzahl ausführbarer Tasks (E) Im Kontext enthalten sind alle Tasks, welche theoretisch vom Nut- zer im aktuellen Dialogzustand ausgeführt werden können. Auf Basis der Nutzereingabe ergeben sich die auszuführenden Tasks. Jede Kom- bination aus Interpretations-Hypothese und Subkontext kann daher dahingehend bewertet werden, wie viele Tasks potentiell zur Ausfüh- rung kommen können. Dies ermöglicht bei der Auswahl der optimalen Kombination (siehe Abschnitt 4.3.4) eine Bewertung hinsichtlich der Effizienz des Dialogs. Dies beruht auf der Annahme, dass jeder Dialogeffizienz nicht-optionale Task im Taskmodell ausgeführt werden muss. Eine parallele Ausführung mehrerer Tasks mit einer Äußerung minimiert somit die Anzahl der Nachfragen und als Resultat die Anzahl der Dialogschritte. Der Vergleich von Interpretations-Hypothese und Subkontext erfolgt analog zum vorherigen Abschnitt, jedoch hinsichtlich eines Tests auf Ausführbarkeit der Tasks. Ein Task ist ausführbar, wenn alle seinen Ausführbarkeit spezifizierten Domänenobjekte ausführbar sind. Bei Verben, Adver- von Tasks ben und Adjektiven ist dies bei Übereinstimmung immer der Fall, wogegen Nomen zwischen Instanz und Konzept unterscheiden. Somit ist ein als Nomen spezifiziertes Domänenobjekt ausführbar, wenn der Objekttyp der Interpretations-Hypothese identisch zum spezifizierten Objekttyp des Domänenobjektes ist. Das heißt, es wird entweder vom Nutzer eine Instanz eingegeben, wobei eine Instanz im Domä- nenobjekt gefordert wird, oder der Nutzer gibt ein Konzept ein, und das Domänenobjekt fordert dies. In anderen Fällen ist das Domänen- objekt nicht ausführbar. In die Bewertung des Subkontextes geht die Summe der ausführbaren Tasks ein. Zur Verdeutlichung erfolgt eine leichte Abänderung des beglei- tenden Wetterbeispiels in der Nutzeräußerung durch die Anfrage „I Wetterbeispiel would like to know the weather of a city“13. Tabelle 4.5 zeigt den Vergleich einer Interpretations-Hypothese mit einem Subkontext. Be- züglich des Domänenobjektes (weather, con) wird ein Konzept als Eingabe gefordert, was von der Eingabe über weather:NN abgedeckt

13 Übersetzung des Autors: Ich möchte das Wetter einer Stadt wissen. 142 konzept mit taskmodellen und wissensbasen

wird. Hingegen fordert das Domänenobjekt (city, inst) eine Instanz einer Stadt, wogegen die Eingabe nur ein Konzept enthält. Somit ist der Task Region, zu welchem das Domänenobjekt gehört, nicht aus- führbar und lediglich der Task Wetter ist auszuführen, was einen Wert der Ausführbarkeit von eins ergibt.

Subkontext Interpretations-Hypothese like:VB know:VB weather:NN of:IN city:NN

(weather, con) 0 0 1 0 0 (IN,_) 0 0 0 1 0 (city, inst) 0 0 0 0 0

Tabelle 4.5: Test auf Ausführbarkeit eines Subkontextes mit einer Interpreta- tions-Hypothese (Domänenobjekte und Objekte der Wissensba- sis sind nur durch ihre Beschriftung dargestellt).

4.3.3.3 Semantische Ähnlichkeit (S) Wie in Abschnitt 4.3.3.1 gezeigt, treten Übereinstimmungen über Hy- peronym-Beziehungen auf, wobei sich die Frage stellt, wie ähnlich diese Konzepte zueinander sind. Während die Übereinstimmung (Di- mension M) keine Auskunft über die Ähnlichkeit liefert, soll im Fol- Ähnlichkeit von genden die Ähnlichkeit zwischen Konzepten der Interpretations-Hypo- Konzepten thesen und den Subkontexten bewertet werden. Bellur u. a. (2008) zeigen hierbei die Vorteile eines semantischen Ähnlichkeitsvergleichs ge- genüber eines syntaktischen Vergleichs, bei Abbildung einer Anfrage auf Webservices. Sie liefern zusätzlich eine gute Übersicht zu diversen Algorithmen im Bereich des „semantic matchmaking“. Über die Abstraktionsbeziehung Hyponym/Hyperonym der Wissensbasis lassen sich demnach semantische Ähnlichkeiten identifizieren. Viele bestehende Arbeiten betrachten semantische Ähnlichkeit über Abstraktionsbeziehungen. Einen Überblick über die gängigsten Vari- anten in Verbindung mit WordNet liefern Pedersen u. a. (2004). In Distanzmaß dieser Arbeit soll in erster Linie das Distanzmaß zweier Konzepte Ver- wendung finden, da hiermit eine Abbildung auf Anwendungslogiken analog zum Vererbungsprinzip der objektorientierten Programmie- rung erfolgen kann. Somit lassen sich spezifische Konzepte einfach auf abstrakte abbilden. Bei anderen Ähnlichkeitsmaßen, wie zum Bei- spiel nach Wu und Palmer (1994) durch Beachtung des nächsten gemeinsamen Hyperonyms, müsste eine Methodik entwickelt werden, um die Parameter auf Anwendungen der Systemtasks abzubilden, da beide Konzepte nicht zwingend in direkter Abstraktionsbeziehung zueinander stehen. Die semantische Ähnlichkeit definiert sich daher Pfadlänge in dieser Arbeit über die Pfadlänge der Hyponym-/Hyperonym-Bezie- hungen zwischen den Konzepten. Je kürzer der Pfad desto ähnlicher 4.3 prozess von nutzereingabe bis taskausführung 143

1 sind beide Konzepte, womit die Ähnlichkeit über Pfadlänge einen Wert zwischen 1 für Identität und 0 für keinen bestehenden Pfad an- nimmt. Um einen Unterschied zwischen exakter und hierarchischer Übereinstimmung im Ähnlichkeitsmaß zu verdeutlichen, erfolgt die Definition der Pfadlänge über die Anzahl der Knoten des Pfades und nicht, wie in der Graphentheorie üblich, über die Anzahl der Kan- ten. Liegt als Interpretations-Hypothese eine Instanz der Wissensba- sis vor, ist, wie von Kritikos u. a. (2014) vorgeschlagen, ihr entsprechendes Konzept im Ähnlichkeitsvergleich zu verwenden. Ein mög- licher Nachteil des ungewichteten Distanzmaßes ist, dass jede Hype- ronym-/Hyponym-Beziehung identisch gewertet wird. Sind jedoch gewisse Konzepte ähnlicher zueinander als andere, kann dies nur über gewichtete Beziehungen ausgedrückt werden. Dieser Aspekt wird allerdings nicht weiter betrachtet, da dies eine Änderung der Wissensbasis nach sich ziehen würde und nicht im Rahmen der vorliegenden Arbeit umzusetzen wäre. Der Vergleich von Konzepten jeder Interpretations-Hypothese mit Subkontexten erfolgt analog zu den anderen Dimensionen, jedoch jeweils hinsichtlich ihrer Ähnlichkeit. Herbei ergibt sich der Ähnlich- keitswert eines Tasks zur Interpretations-Hypothese als Durchschnitt der Ähnlichkeitswerte seiner jeweiligen Domänenobjekte. Der Wert für einen Subkontext wird weiterhin über die Summe der Ähnlich- keit seiner enthaltenen Tasks gebildet. Tabelle 4.6 sind die Ähnlichkeitswerte des Wetterbeispiels, mit der Wetterbeispiel Nutzeräußerung „How is the weather in Washington?“14, zu entnehmen. Für die Domänenobjekte weather und IN lässt sich eine exakte Übereinstimmung in der Interpretations-Hypothese finden und somit eine Identität feststellen. Hinsichtlich des Domänenobjektes city besteht eine hierarchische Übereinstimmung zur Instanz Washington. Wie erwähnt, wird somit das referenzierte Konzept capital geprüft und es findet sich in direkter Hyperonym-Beziehung zu city. Somit ergibt sich eine Pfadlänge von zwei und daher eine Ähnlichkeit des Domänenobjektes von 0,5. Alles in allem kann somit eine Ähnlichkeit der Interpretations-Hypothese zum Subkontext von 1,75 festgestellt werden.

4.3.4 Ausführung von Tasks

Wie im vorherigen Abschnitt gezeigt, wird jeder Subkontext hinsichtlich drei Dimensionen bewertet. Auf Basis dieser Bewertungen erfolgt eine Auswahl des Subkontextes, welcher bestmöglich zur Nutzerein- gabe passt. Hierzu wird für jeden Subkontext (sc) eine gewichtete

14 Übersetzung des Autors: Wie ist das Wetter in Washington? 144 konzept mit taskmodellen und wissensbasen

Subkontext Interpretations-Hypothese i h be weather IN Washington → capital → city weather 0 1.0 0 0 IN 0 0 1.0 0 city 0 0 0 0.5

Tabelle 4.6: Ähnlichkeit einer Interpretations-Hypothese mit einem Subkon- text (Domänenobjekte und Objekte der Wissensbasis sind nur durch ihre Beschriftung dargestellt).

Summe der Einzeldimensionen gebildet und hinsichtlich der Anzahl der Konstituenten einer Nutzereingabe (P) normalisiert:

f :(msc, esc, ssc) → fsc mit msc ∈ M, esc ∈ E, ssc ∈ S

msc · wm + esc · we + ssc · ws (5) fsc = (wm + we + ws) ∗ P Abhängig vom SDS, seines Einsatzzweckes und beinhaltenden An- unterschiedliche wendungen können unterschiedliche Gewichtungen (msc, esc, ssc) der Gewichtungen Dimensionen Sinn ergeben. Sind zum Beispiel viele Anwendungen verschiedener Domänen Bestandteil des Sprachdialogsystems, könn- te eine höhere Gewichtung der Übereinstimmung sinnvoll sein. Hin- gegen sorgt eine stärkere Gewichtung der Ausführbarkeit für eine Minimierung der Dialoglänge, was im situativen Kontext Fahrzeug beispielsweise bezüglich Ablenkungsaspekten nützlich erscheint. An- wendungen ähnlicher Domänen, mit leicht unterschiedlichen Para- metern, profitieren von einer höheren Gewichtung der Ähnlichkeits- dimension, da somit die spezifischste Anwendung für die Nutzerein- gabe ausgewählt werden kann. Beinhaltet ein SDS zum Beispiel eine allgemeine Nachrichtenanwendung sowie eine über Wirtschaftsnach- richten, kann über den Ähnlichkeitswert festgestellt werden, dass bei einer Nutzereingabe „Aktuelle Nachrichten zur Wirtschaft“ die An- wendung für Wirtschaftsnachrichten hierfür spezialisiert ist. auszuführende Tasks Zur Bestimmung der auszuführenden Tasks werden die Subkontex- te hinsichtlich ihres fsc-Wertes verglichen. Im Optimalfall kann der Subkontext mit höchstem Wert ausgeführt werden. Jedoch besteht zu- sätzlich die Möglichkeit, dass mehrere Subkontexte denselben Wert, beziehungsweise minimale Unterschiede zueinander, haben. Je nach Strategie des Dialogmanagers erfolgt darauf eine Auflösung von Mehr- deutigkeiten, mit zum Beispiel einer Hilfestrategie wie in Kapitel 3 entwickelt wurde. Ausgehend vom identifizierten Subkontext werden alle seine ausführbaren Tasks ausgeführt. Abhängig von der Funktio- nalität von Tasks kann dies unter Umständen eine Anfrage an einen Webservice, Ausführung von Anwendungslogik oder eine Nachricht an fahrzeuginterne Steuergeräte sein. Eine Anbindung realer Anwen- dungen ist nicht Teil der vorliegenden Arbeit, jedoch existieren ver- 4.3 prozess von nutzereingabe bis taskausführung 145

schiedene Arbeiten, welche sich diesem Problem annehmen (z.B. Kri- tikos u. a. (2014)). Nach Ausführung der Tasks eines Subkontextes werden durch den Algorithmus von Paternò (2000), und nach Vor- bild des CTT-Environments15, die nächsten auszuführenden Tasks bestimmt, und es erfolgt eine Neugenerierung des Kontextes (wie in Abschnitt 4.3.2 beschrieben). Im Anschluss an eine Ausführung von Tasks können prinzipiell zwei Fälle eintreten. Einerseits kann ein Systemtask zur Ausführung kommen, und seine Ergebnisse müssen dem Nutzer präsentiert werden, andererseits kann eine weitere Eingabe des Nutzers erforderlich sein und muss daher nachgefragt werden. Es ist somit erforderlich, über eine Systemausgabe Rückmeldungen an den Nutzer zu geben. Systemausgabe Da dies nicht im Fokus der vorliegenden Arbeit steht, soll hierbei auf bestehende Arbeiten von Honold u. a. (2012) verwiesen werden, wobei der Task als abstraktes und die zugehörige Ausgabe als konkretes Informationselement zu sehen sind. Ein mögliches konkretes Informationselement für die Systemausgabe des Webservices im Wetter- beispiel sowie ein Nachfragen des Ortes ist dem eXtensible Markup Language (XML)-Dokument in Listing 1 zu entnehmen. Über und können verschiedene Modalitäten angegeben werden, welche jeweils optional verschiedene Sprachen (lng) beinhalten können. Dies kann als Eingabe in eine multimodale Fissionsengine (z.B. Honold u. a. (2012)) dienen. Bei auditiver Ausgabe wird somit zum Nachfragen des Ortes im Deutschen die Systemäußerung „Ge- ben Sie Region oder Sonderziel ein.“ ausgegeben. Ähnlich hierzu ist die sprachliche Ergebnispräsentation des Tasks Webservice mit der Äu- ßerung „Es ist windig bei aktuell 20 Grad Celcius“, unter der Voraus- setzung, das Domänenobjekt (temperature%1:07:00::, inst, false, req) hat den Wert 20 und (weather_condition%1:19:00::, con, true, req) den Wert windig. Eine Abbildung der Werte der Anwendungslogik auf Domänenobjekte wird in der vorliegenden Arbeit nicht näher betrachtet.

4.3.5 Anwendungsübergreifende Aspekte

Während bisher eine Beschreibung des Konzeptes anhand eines eindeutigen Taskmodells im SDS erfolgte, werden im Folgenden die Nut- zen für mehrere Anwendungen, jeweils durch ein Taskmodell modelliert, gezeigt. Das Konzept ist uneingeschränkt für mehrere Taskmodelle mehrere Taskmodelle nutzbar, lediglich bei der Erstellung des Kontextes erfolgt eine Ände- rung durch Kombination aller Einzelkontexte der Taskmodelle. Äu- ßerungen, welche Tasks verschiedener Taskmodelle gleichzeitig aus- führen, sind in der vorliegenden Arbeit nicht beachtet, da Unklarhei- ten über die temporale Ausführung der Tasks verschiedener Modelle,

15 http://giove.cnuce.cnr.it/ctte.html [Online 18.09.2015] 146 konzept mit taskmodellen und wissensbasen

Region oder Sonderziel? Geben Sie Region oder Sonderziel ein. Providea region or POI. Temperatur $temperature°C, $weather _condition Es ist $weather_condition bei aktuell $temperature Grad Celcius.

Listing 1: Konkretes Informationselement (vereinfacht) für das ¥ Wetterbeispiel (nach Honold u. a. (2012))

sowie Bestimmung der nächsten ausführbaren Tasks, im CTT-Forma- lismus bestehen. Als ein zentraler Punkt der Nutzerstudien (siehe Abschnitt 3.1), sowie der anschließend deﬁnierten Anforderungen (siehe Abschnitt 3.4), nutzer-initiierte An- sind nutzer-initiierte Anwendungswechsel mit Parameterübergabe. Spe- wendungswechsel ziell hierfür bietet das Konzept, durch eine globale lexikalisch-semantische Wissensbasis, Vorteile. Beim Anwendungs- beziehungsweise Taskmodellwechsel können die Werte ausgeführter Tasks an entsprechende Tasks des zu aktivierenden Taskmodells weitergegeben werden. Hierfür ist dieselbe Methodik einzusetzen wie eine Abbildung von Nutzereingabe auf Tasks, jedoch mit der Vereinfachung, dass die Konzepte und Instanzen bereits eindeutig als Objekte der Wissens- basis interpretiert sind. Einen ähnlichen Ansatz zeigten bereits Klug und Kangasharju (2005), welche über Input- und Output-Ports von Tasks eine Informationsübertragung zwischen diesen mit Hilfe einer Ontologie ermöglichten. Auf Basis eines Vergleichs der Domänenobjekte von Tasks verschiedener Taskmodelle hinsichtlich ihrer Übereinstimmung und Ähnlich- Vorhersage Anwen- keit, lassen sich bereits vor einer Nutzereingabe potentielle Anwen- dungswechsel dungswechsel identiﬁzieren. Dies ermöglicht einerseits die Einschrän- kung von Grammatiken der ASR und andererseits effektive Hilfestel- lungen für Nutzer. Zum Beispiel implementieren aktuelle Sprachdia- logsysteme im Fahrzeug als Hilfestellung einen Teleprompter, welcher mögliche Äußerungen des aktuellen Dialogzustandes anzeigt und auf Basis der Vorhersagen dynamisch Anwendungswechsel darstellen könnte. 4.4 zusammenfassung 147

4.4 zusammenfassung

Dieses Kapitel präsentierte ein Konzept, um die zuvor definierten Anforderungen für einen anwendungsübergreifenden Dialog umzusetzen. Zentraler Punkt hierbei stellt die dynamische Erzeugung von Anwendungsabhängigkeiten zur Laufzeit dar. In einer modellgetriebener Entwicklung kann die Definition des Programmablaufs mittels Taskmodellen und deren Verbindung über eine globale lexikalisch-semantische Wissensbasis erfolgen. Somit lässt sich jede Anwendung eigenständig entwickeln. Alle notwendigen Abhängigkeiten zur Pa- rameterübergabe zwischen Anwendungen ergeben sich über die Wis- sensbasis. Der Fokus liegt hierbei auf dem Taskmanager unter Nut- zung von bestehenden Ansätzen zu generischen Dialogmanagern. Taskmodelle sowie Wissensbasen sind etablierte Gegenstände der Forschung und somit für die vorliegende Arbeit gegeben. Zur Model- lierung von Taskmodellen setzt diese Arbeit den CTT-Formalismus nach Paternò (2000) ein und als lexikalisch-semantische Wissensba- sis WordNet (Fellbaum, 1998; Miller, 1995). Der Fokus liegt somit auf der Verbindung beider Formalismen. Über Domänenobjekte eines Tasks lassen sich dessen Bedeutung mittels der Konzepte und Instan- zen der Wissensbasis definieren. Für Nutzertasks lassen sich somit die Eingabe- und für Systemtasks die Ausgabeparameter durch den Anwendungsentwickler bestimmen. Der Prozess, um von der Nut- zereingabe zur Taskausführung zu gelangen, besteht aus mehreren Schritten. Zu Beginn erfolgt eine Erkennung und Interpretation der Nutzeräußerung hinsichtlich der Objekte der Wissensbasis. Zusätz- lich ergibt sich aus den Domänenobjekten der ausführbaren Tasks ein Kontext, welcher anschließend mit den Objekten der interpretierten Nutzereingabe bezüglich den drei Dimensionen Übereinstimmung, Ausführbarkeit und Ähnlichkeit verglichen wird. Weiterhin erfolgt eine Bewertung jedes Subkontextes durch eine gewichtete Summe der drei Dimensionen. Die Tasks des Subkontextes mit maximaler Bewer- tung werden schließlich ausgeführt. Abschließend erfolgt eine Sys- temausgabe über eine multimodale Fissionsengine sowie einer Neu- generierung des Kontextes, um die nächste Nutzereingabe im Dia- log zu interpretieren. Im SDS mit mehreren Anwendungen kann jede Anwendung mittels Taskmodell definiert werden. Dies ermöglicht einerseits die Übergabe von Parametern zwischen Anwendungen und andererseits die Vorhersage potentieller Anwendungswechsel. Mittels einer Implementierung wird im folgenden Kapitel das vorgestellte Konzept auf Machbarkeit geprüft, evaluiert und seine Vor- und Nachteile diskutiert.

IMPLEMENTIERUNGUNDEVALUATION 5

„Für das Können gibt es nur einen Beweis: das Thun.“ Ebner-Eschenbach (2015, S. 14)

Das vorherige Kapitel beschrieb ein Konzept zur Kombination von Taskmodellen und einer lexikalisch-semantischen Wissensbasis für die sprachliche Interaktion zwischen Mensch und SDS. Hierbei ergibt sich der Programmablauf aus Taskmodellen und die Bedeutung der einzelnen Tasks über eine globale Wissensbasis. Dies ermöglicht einerseits eine konsistente, sprachliche Interaktion und andererseits eine Übergabe der Parameter zwischen verschiedenen Anwendungen. Wie von Ebner-Eschenbach (2015) trefflich formuliert (siehe obiges Zitat), erfordert der Beweis eines theoretischen Konzepts eine Umset- zung. Die folgenden Abschnitte präsentieren somit eine Beurteilung des Konzepts hinsichtlich seiner Machbarkeit, Qualität und theoretischer Betrachtung. Zu Beginn erfolgt in Abschnitt 5.1 eine Vorstel- lung der Implementierung zur Überprüfung der Machbarkeit. An- schließend wird mit Hilfe dieser und eines bestehendes Korpus die Abbildung der Eingabe auf Tasks (siehe Abschnitt 5.2.2) sowie die Identifizierung auszuführender Tasks (siehe Abschnitt 5.2.3) evaluiert. In Abschnitt 5.3 wird ein theoretischer Abgleich zwischen den definierten Anforderungen und dem entwickelten Konzept vollzogen. Abschließend erfolgt eine Zusammenfassung.

5.1 nachweis der machbarkeit durch implementierung

Wie bereits erwähnt, setzt die vorliegende Arbeit eine zuverlässige Funktionsweise von ASR, SLU, generischem Dialogmanager und multimodaler Systemausgabe voraus. Die zu evaluierenden Teile sind daher zu evaluierende auf die Abbildung der interpretierten Eingabe auf Tasks, sowie die Teile Bewertung und Auswahl der auszuführenden Tasks, zu beschränken. Da kein bestehendes SLU-Modul die Nutzeräußerung in Synsets von WordNet interpretiert, beinhaltet die Implementierung ein vereinfachtes SLU-Modul. Dieses basiert hauptsächlich auf etablierten Analy- severfahren der Computerlinguistik. Auf Grund der Nutzung eines bestehenden Korpus zur Evaluation, in welchem Nutzereingaben als Text vorliegen, sieht die Implementierung als Ein- und Ausgabe eine textuelle Schnittstelle vor. Im realen SDS könnten hierbei ohne weiteres bestehende Module angebunden werden. Abbildung 5.1 zeigt die Architektur der Implementierung zur Evalua- Architektur der Implementierung

149 150 implementierung und evaluation

tion, welche mittels Java (Version 1.8.0_31)1 umgesetzt wird. Wie er- wähnt, erfolgt die Eingabe als Text und wird in einem vereinfachten SLU-Modul, bestehend aus der Stanford CoreNLP Bibliothek (Man- ning, Surdeanu u. a., 2014) und Princeton WordNet (Miller, 1995; Fell- baum, 1998), interpretiert. Die Eingabe für den Taskmanager erfolgt somit als Objekte der Wissensbasis, wie nach Formel (1) in Abschnitt 4.3.1 beschrieben. Auf Basis des Programms CTT-Environment2 erfolgt eine Nachimplementierung der Algorithmen nach Paternò (2000), in vorliegender Arbeit CTT-Simulation genannt. Hieraus ergibt sich die Erstellung des Kontextes nach Formel (2) aus Abschnitt 4.3.2. Der Vergleich und die anschließende Bewertung von Subkontexten stellt den Kern der vorliegenden Arbeit dar. Das Vergleichsmodul implementiert die Algorithmen wie in Abschnitt 4.3.3 beschrieben, um jeden Subkontext bezüglich den drei Dimensionen Übereinstim- mung, Ausführbarkeit und Ähnlichkeit mit der Eingabe zu vergleichen. Schließlich erfolgt eine Bewertung sowie die Auswahl des aus- zuführenden Subkontextes mit seinen Tasks auf Grundlage der in Abschnitt 4.3.4 vorgestellten Formel (5). Ein vereinfachter Dialogma- nager führt die Tasks mit Hilfe der CTT-Simulation aus und gibt konkrete Informationselemente aus. Eine Betrachtung der Systemausga- be ist nicht Fokus vorliegender Arbeit.

Text Stanford CoreNLP Princeton WordNet SLU Eingabe

CTT Kontext Vergleich Simulation (M,E,S)

Bewertung Taskmanager

Subkontext Text Dialogmanager

Abbildung 5.1: Architektur der Implementierung (in der vorliegenden Ar- beit umgesetzte Module sind grün dargestellt).

Im ersten Schritt der Analyse des SLU-Moduls erfolgt eine einfache Erkennung von Eigennamen mittels einer manuellen Liste (nicht in Abbildung 5.1 dargestellt). Anschließend wird die textuelle Ein- Stanford CoreNLP gabeEvaluation durch die 1Stanford CoreNLP Bibliothek (Version 3.5.1) annotiert. Wie Manning, Surdeanu u. a. (2014) zu entnehmen ist, setzt sich die Analyse aus einer Sequenz verschiedener Analysemodulen (engl. An- notator genannt) zusammen. Die vorliegende Arbeit nutzt hierbei eine Sequenz aus „Tokenization“, „Sentence Splitting“, „Part-of-Speech

1 https://www.java.com/ [Online 08.11.2015] 2 http://giove.cnuce.cnr.it/ctte.html [Online 18.09.2015] 5.1 nachweis der machbarkeit durch implementierung 151

Tagging“, „Morphological Analysis“ und „Syntactic Parsing“. Es werden die Standardmodelle für Englisch verwendet, außer für den An- notator „Part-of-Speech Tagging“, welcher ein spezielles, gegenüber Groß- und Kleinschreibung invariantes, Modell nutzt (english-case- less-left3words-distsim.tagger). Die Basisform und die Wortart der Konstituenten können somit im WordNet identifiziert werden. Zur Anbindung von WordNet setzt die Implementierung auf das Java Word- WordNet Net Interface (JWI) in Version 2.3.3 vom Massachusetts Institute of Technology (Finlayson, 2014). Im Vergleich zu vielen anderen Biblio- theken als Schnittstellen zu WordNet zeichnet sich das JWI in erster Linie durch einen schnellen Zugriff aus. Unterstützt wird die Word- Net Version 3.0, welche somit in der vorliegenden Arbeit zum Ein- satz kommt. Für einen Anwendungsentwickler ist, zur Spezifikation der Domänenobjekten, ein einfacher und übersichtlicher Zugriff auf WordNet notwendig. Hierfür wird der WordNet-Browser3 der Univer- sität von Rochester (URCS) verwendet (siehe Abbildung 5.2), welcher eine Übersicht über Objekte und deren Hyponym-/Hyperonym-Be- ziehungen, Synonyme, Namen, Identifikatoren und Beschreibungen liefert.

Abbildung 5.2: Screenshot des URCS-WordNet-Browsers (Version 1.0, GNU General Public License) mit beispielhafter Suche nach Wa- shington und einer dargestellten Instanz.

Der Taskmanager ist das Kernmodul dieser Arbeit, welches die Al- Taskmanager als gorithmen des Konzepts in einer Java-Implementierung umsetzt. Die Kernmodul CTT-Simulation ist hierbei kompatibel zu den Arbeiten von Paternò (2000) unter Nutzung desselben XML-Schemas zur Beschreibung von Taskmodellen. Dies ermöglicht dem Anwendungsentwickler, auf das etablierte Tool CTT-Environment4 zurückzugreifen. Für den Einsatz im SDS und zur Evaluation sind Schnittstellen zu Schnittstellen zu anderen Modulen (API) unerlässlich. In erster Linie sind dies Ein- und anderen Modulen Ausgabe, erstere zum Entgegennehmen von Objekten der Wissens- basis beziehungsweise ihren syntaktischen Argumente (UserInput), und letztere in der Form des auszuführenden Subkontextes (oder

3 http://www.cs.rochester.edu/research/cisd/wordnet/ [Online 29.01.2016] 4 http://giove.cnuce.cnr.it/ctte.html [Online 18.09.2015] 152 implementierung und evaluation

mehrerer bei keiner Eindeutigkeit). Während der Dialogmanager die Ausführung von Tasks steuert, ist es erforderlich, dem Taskmanager mitzuteilen, welche zur Ausführung kommen, so dass der Kontext erstellt werden kann. Die Bewertungsfunktion lässt sich mittels verschiedener Gewichte anpassen, was über den Dialogmanager zu kon- ﬁgurieren ist. Die Taskmodelle können dynamisch zur Laufzeit hin- zugefügt oder aber deaktiviert werden, was zum Beispiel einerseits Updates und andererseits ein nachträgliches Installieren sowie Dein- stallieren von Anwendungen ermöglicht. Hierfür bietet der Taskma- nager ebenfalls eine API. Für die Evaluation ist wichtig, einen bestimmten Zustand des Taskmodells zu setzen, sowie die Werte des Vergleichs und der Bewertung zu protokollieren, um diese später zu analysieren.

5.2 evaluation

Anhand der Implementierung zur Machbarkeit soll im Folgenden das Evaluation Konzept Konzept evaluiert werden, um Vor- und Nachteile zu identiﬁzieren. Die CTT-Simulation ist hierbei auf Basis eines etablierten Algorith- mus entwickelt, weshalb sich die Evaluation hauptsächlich auf den Vergleich zwischen Kontext und Eingabe sowie die Übergabe von Pa- rametern zwischen Taskmodellen bezieht. Im Folgenden werden zu Beginn das Konzept der Evaluation und anschließend die Ergebnisse der beiden Teile präsentiert.

5.2.1 Evaluation mittels bestehendes Korpus

Zur Evaluation eines Sprachdialogsystems können einerseits Nutzer- studien, wie in Kapitel 3 gezeigt, oder andererseits bestehende Kor- pora eingesetzt werden. Während Nutzerstudien die Möglichkeit bieten, subjektive Meinungen von Versuchspersonen detailliert zu erfassen, ist deren Durchführung aufwendig, und die Datensätze sind meist vergleichsweise klein. Ein bestehendes SDS hingegen hat den Nachteil, Nutzer in der Regel nicht befragen zu können, kann jedoch die Nutzung des Sprachdialogsystems in realer Situation aufzeichnen und ermöglicht dadurch die Erfassung umfangreicher Korpora. Für eine leistungsorientierte Betrachtung des entwickelten Konzepts ist Korpus anstatt somit die Nutzung eines bestehenden Korpus einer Nutzerstudie vorzu- Nutzerstudie ziehen. Zumal in eine Nutzerstudie ein Ende-zu-Ende-SDS notwendig wäre, wobei in der vorliegenden Arbeit lediglich die Evaluation des Taskmanagers im Fokus steht, und andere SDS-Module somit zusätz- liche Fehlerquellen darstellen würden. Es existieren viele verschiedene Korpora mit unterschiedlichen Ei- genschaften. Während eine große Anzahl in erster Linie aus Audioda- ten und deren Verschriftung bestehen (wie z.B. Wooters (2015), Euro- pean Language Resources Association (2015) und Brutti u. a. (2010)), 5.2 evaluation 153

benötigt die vorliegende Arbeit ein Korpus, das das textuelle ASR- Ergebnis, die semantische Interpretation, die Dialogabfolgen und zu- sätzlich die spezifizierte Anwendung enthält. Dies bietet das Korpus DSTC-Korpus der Dialog State Tracking Challenge (DSTC), welches auf den Sprach- dialogsystemen der Spoken Dialog Challenge (SDC) von Black u. a. (2010) basiert. In der SDC wurden drei verschiedene telefonbasierte Sprachdialogsysteme mit unterschiedlichen Komponenten und Dia- logverhalten, aber derselben Aufgabe, realen Nutzern zugänglich gemacht. Die Aufgabe basiert auf dem „Let’s Go! bus“-SDS, welches Auskünfte über Busfahrpläne von Pittsburgh (USA) liefert (Raux u. a., 2005). Hierbei können reale Nutzer, abhängig von Busroute, Abfahrt, Ankunft, Uhrzeit und Datum, verschiedene Fahrpläne abrufen. Die DSTC annotierte die Dialoge der drei verschiedenen Sprachdialog- systeme bezüglich der semantischen Interpretation (Labels genannt). Hierbei ergibt sich für jeden Dialog eine Referenz, bestehend aus ASR-Ergebnis, Verschriftung, semantischer Interpretation und Dialog- schritte (siehe AnhangB. 3). Da die DSTC in erster Linie statistische Dialogmanager evaluiert, sind die Datensätze in Trainings- und Test- daten geteilt. Abbildung 5.3 zeigt das Konzept der Evaluation auf schematische Weise. Konzept Anhand der Definition der „Let’s Go!“-Anwendung wird ein Taskmo- schematisch dell in CTT-Notation definiert und anschließend dessen Tasks mit Do- mänenobjekten der Wissensbasis annotiert (siehe unten). Als weitere Vorarbeit müssen die spezifischen Instanzen, wie zum Beispiel Bus- haltestellen in Pittsburgh, dem WordNet hinzugefügt werden. In der vorliegenden Evaluation sind diese aus den annotierten Labels der Trainingsdaten extrahiert. Eine reale Anwendung müsste hierbei die mögliche Datenbasis zur Verfügung stellen. Existiert die Datenbasis in einer allgemeine Wissensbasis wie beispielsweise YAGO (Suchan- ek u. a., 2007), einer Wissensbasis, die Instanzen aus Wikipedia5 mit Konzepten von WordNet verbindet, könnte diese alternativ eingesetzt werden. Zur Laufzeit lädt der in dieser Arbeit implementierte Task- manager (siehe Abschnitt 5.1) WordNet sowie die definierten Taskmo- delle und verarbeitet die Eingaben des Korpus. Hierbei dient die jeweils beste ASR-Hypothese eines Dialogschrittes als Eingabe, da Ver- schriftungen durch Menschen uneinheitliche Schreibweisen enthalten (z.B. Groß- und Kleinschreibung, Ausschreiben von Zahlen, usw.), und somit nicht vergleichbare Ergebnisse zu einem realen SDS liefern würden. Dieses Vorgehen ist identisch zu der Verarbeitung des DSTC- Baseline-Trackers (siehe unten). Die Implementierung bildet den Text des ASR-Ergebnisses auf Tasks und Subkontexte ab, welche anschlie- ßend mit den manuell annotierten Labels, also der menschlich erstell- ten Referenzinterpretation, verglichen werden. Dies ermöglicht die Leistung des Konzepts der vorliegenden Arbeit zu evaluieren. Das Taskmodell der „Let’s Go!“-Anwendung, inklusive seiner Domäne- Taskmodell & Domänenobjekte der 5 http://wikipedia.org/ [Online 11.11.2015] Anwendung 154 implementierung und evaluation

Korpus (DSTC) Spezifikation Taskmodell Trainingsdaten Testdaten

ASR-Ergebnis Taskmanager

Annotierte Labels Vergleich

Instanzen

Princeton WordNet

Abbildung 5.3: Konzept der Evaluation mittels DSTC-Korpus.

nobjekte, ist in AnhangB. 2 dargestellt. Für jede semantisch relevante Eingabe (Slot genannt) existiert ein Task, wobei Abfahrt, Ankunft, Datum und Zeit hierarchisch als abstrakte Tasks gruppiert sind. Wäh- rend dies für Zeit und Datum der Lesbarkeit geschuldet ist, ist es für Abfahrt und Ankunft essentiell, da deren Subtasks dieselben Kon- zepte als Eingabe erwarten, nämlich Bushaltestelle, Wohngegend oder Landmarke. Die Anwendung sieht jedoch vor, bei einzelner Eingabe von Bushaltestelle, Wohngegend oder Landmarke dies als Abfahrsort zu interpretieren, weshalb diese Tasks zusätzlich im Taskmodell ohne Hierarchie wiederholt werden. Eine Reihenfolge der Tasks untereinander ist in der „Let’s Go!“-Anwendung nicht definiert, weshalb alle Tasks mit dem Operator verschachtelt verbunden werden. Die Domä- nenobjekte jedes Tasks sind auf Basis von WordNet 3.0 Konzepten definiert. In bestimmten Fällen, wie zum Beispiel der Nutzeräuße- rung „Zeige Busroute 61c an“, kann eine Kombination aus Konzept (Busroute) und Instanz (61c) sinnvoll sein und wird als Kombination beider definiert. Die DSTC definiert drei JavaScript Object Notation (JSON)-Forma- te für das Dialogprotokoll, die manuell annotierte Referenz und die Interpretation des Dialog-Trackers (für eine genaue Definition siehe Dialogprotokoll Williams, Raux u. a. (2012)). Das Dialogprotokoll (siehe AnhangB. 3.1) stellt die gesamte Interaktion, also einen Telefonanruf zwischen Nut- zer und SDS, dar. Wichtig hierbei sind der Dialogzustand der Aus- gabe (act), das heißt, welche Tasks nachgefragt werden (act=request), ein Neustart (restart) und die ASR-Hypothesen der Eingabe (asr-hyp). Referenzdatei Die Referenzdatei, dargestellt in AnhangB. 3.2, beinhaltet die manuelle Verschriftung (transcription) sowie eine Bewertung der semantischen Interpretation (label) hinsichtlich korrekt (true) oder nicht korrekt (fal- Interpretation se). Die Interpretation des Dialog-Trackers (siehe AnhangB. 3.3) wird pro Dialog-Tracker Dialogschritt für jeden Slot einzeln aufgeführt. Der Taskmanager der vorliegenden Arbeit nutzt das Dialogprotokoll als Eingabe und spei- 5.2 evaluation 155 chert seine Interpretation konform zur DSTC. Somit lassen sich die Analysetools der DSTC zur Evaluierung nutzen und für die in Ab- schnitt 5.2.2 und 5.2.3 vorgestellten Evaluationsmetriken anpassen. Wie erwähnt, besteht das Korpus der DSTC aus einer Sammlung an Dialogen verschiedener Sprachdialogsysteme, welche jeweils als einzelne Datensätze vorliegen. Die vorliegende Arbeit nutzt jedoch nur verwendete die Datensätze train1a, train2, test1, und test4, da andere nicht zwi- Datensätze schen Bushaltestelle, Wohngegend und Landmarke unterscheiden und somit unterschiedliche Taskmodelle erfordern würden. Alles in allem sind 2907 Dialoge, mit durchschnittlich 3,05 Nutzereingaben, in der Auswertung berücksichtigt. Die geringe Anzahl an Nutzereingaben pro Dialog lässt sich darauf zurückführen, dass nur Nutzereingaben mit korrekt annotierten Labels der Referenz in den Vergleich einflie- ßen.

5.2.2 Ergebnisse hinsichtlich Abbildung der Eingabe auf Tasks

Eine wichtige Metrik bezüglich der Interpretation gesprochener Spra- che stellt die Konzeptgenauigkeit (CA, engl. Concept Accuracy) dar (Bo- Konzeptgenauigkeit ros u. a., 1996). Diese basiert auf der Annahme, die Interpretation der Nutzeräußerung bestehe aus einer Liste an semantischen Einheiten (SU für engl. Semantic Unit), welche im Inhalt die Absicht des Nut- zers enthält. Eine semantische Einheit besteht in der Regel aus einem Attribut und zugehörigem Wert (z.B. „from.neighborhood=downtown pittsburgh“). Unter Hinzunahme einer Referenz lässt sich nun die In- terpretation, welche in vorliegender Arbeit die Abbildung von Kon- zepten und Instanzen der Eingabe auf Tasks darstellt, anhand derCA evaluieren:

SUS + SUI + SUD CA = 1 − (6) SU Hierbei ist SU die Gesamtanzahl aller semantischen Einheiten der Referenz. Die Werte für SUS, SUI und SUD ergeben sich aus der An- zahl der ersetzten, eingefügten und gelöschten semantischen Einhei- ten. Stimmt eine semantische Einheit zwar im Attribut zur Referenz überein, weicht jedoch zugleich vom Wert her ab, wird dies als Erset- zung gewertet. EineCA von 1 bedeutet somit, dass jede semantische Einheit korrekt interpretiert wurde. Da die Evaluation lediglich korrekt annotierte Nutzereingaben der DSTC verwendet, muss jeweils der aktive Dialogzustand aus der Re- ferenz dem Taskmanager zur Verfügung gestellt werden. Basierend darauf wird der jeweilig nachzufragende Task aktiviert oder, durch einen nutzer-initiierten Neustart, das Taskmodell zurückgesetzt. Da- von ausgehend erfolgt eine Analyse des ASR-Ergebnisses durch den Taskmanager und die Ausgabe der ausgeführten Tasks im Format für Dialog-Tracker. Die Analysetools der DSTC wurden hinsichtlich CA erweitert, und die in dieser Arbeit entwickelte Methode wurde 156 implementierung und evaluation

in Vergleich zum Baseline-Tracker der DSTC gesetzt. Der Baseline- Tracker nutzt die höchsten SLU-Konfidenzen der in der SDC genutzten Sprachdialogsysteme und bildet somit die Leistung bestehender Systeme ab. Gesamtergebnis: Das Gesamtergebnis bezüglich derCA über alle Tasks - respektive Taskmanager besser Slots - zeigt klare Vorteile für den in dieser Arbeit entwickelten Ansatz. als Baseline Unter Berücksichtigung von 9286 Slots ergibt sich eineCA in Höhe von 71% für die Implementierung vorliegender Arbeit und 51% für den Baseline-Tracker der DSTC. Somit zeigt sich eine Verbesserung derCA für den Ansatz der vorliegenden Arbeit um ca. 20%, wobei eine Gewichtung zur Taskbewertung von (msc, esc, ssc) = (1, 1, 1) angenommen wurde. Einzelanalyse Neben dem Gesamtergebnis ist jedoch die Einzelanalyse für jeden pro Slot Slot von entscheidender Bedeutung. Nur dadurch kann eine verläss- liche Aussage getroffen werden, inwieweit vorliegendes Konzept eingesetzt werden kann. Abbildung 5.4 zeigt für jeden Task - respektive Slot - dieCA sowie zusätzlich die Anzahl an analysierten semantischen Einheiten pro Slot. Die Anordnung der Slots im Diagramm setzt beide Ansätze in Korrelation zueinander, wobei diejenigen auf der linken Seite (verdeutlicht durch grüne Balken) von vorliegendem Ansatz profitieren, wogegen Slots auf der rechten Seite (mit rotem Balken) besser mit dem Baseline-Tracker interpretiert werden. Deut- lich feststellbar bietet der Taskmanager Vorteile beim Erkennen von Slots, welche eindeutig bestimmbare Konzepte und Instanzen referenzieren, wie zum Beispiel eine Busroute (route), eine Haltestelle (desc) oder einen Wochentag (day). Hingegen zeigen sich bei mehrdeutigen Werten, wie zum Beispiel Minute (time.minute) klare Nachteile. Dies ist darauf zurückzuführen, dass diese Zahlenwerte ebenso beispielsweise einer Temperatur zugeordnet werden könnten. Der Slot Stunde (time.hour) hingegen profitiert von der Kombination des Zahlenwerts mit dem Konzept o0clock%4:02:00::, da somit die Äußerung „next bus at one o’clock“6 eindeutig der Uhrzeit ein Uhr zugeordnet werden kann. Strukturierte Werte, wie zum Beispiel genaue Zeitinforma- tionen, zeigen sich zudem kritisch, da schwierig zu bestimmen ist, ob zum Beispiel „halb vier“ als eine Instanz oder als Kombination aus Stunde und Minute modelliert werden soll. Zur verlässlichen Inter- pretation von Zeit und Datumswerten existieren jedoch eine Vielzahl an grammatikbasierter Arbeiten, welche in Kombination mit dem vorliegenden Ansatz genutzt werden könnten (siehe Abschnitt 6.3). Slotweiser Vergleich Ein weiteres Problem zeigt sich bei der Betrachtung der interpre- von Referenz und tierten Slots im Vergleich zu den Slots der Referenz. Wie der Konfusi- Interpretation onsmatrix in Abbildung 5.5 zu entnehmen, werden die Subtasks der Slots from und to besonders häufig verwechselt. Das heißt, ein An- kunftsort (t.*) wird oftmals fälschlicherweise als Abfahrtsort (f.*) erkannt. Dies trifft gleichermaßen für Haltestelle (desc), Wohngegenden

6 Übersetzung des Autors: Nächster Bus um ein Uhr 5.2 evaluation 157

1 3000 N Taskmanager DSTC Baseline

2500 0,8

2000 Slots(N) Anzahl 0,6

1500 Konzeptgenauigkeit (CA) Konzeptgenauigkeit 0,4 1000

0,2 500

0 0

Abbildung 5.4: Konzeptgenauigkeit der entwickelten Methode im Vergleich zur Baseline.

(neigh) und Landmarken (mon) zu. Geschuldet ist dies der Hierarchie des Taskmodells, da die Unterscheidung zwischen Ankunft und Ab- fahrt lediglich auf Basis der Dependenzannotation getroffen werden kann. Bei identischen Konzepten als Domänenobjekte, und komplexen Satzstrukturen, ist der Ansatz über Argumente der Nomen somit nicht ausreichend. Zusätzlich zeigen sich Homonyme für Haltestellen (desc) und Wohngegenden (neigh) als problematisch, da vorliegender Ansatz keine Auﬂösung von Mehrdeutigkeiten durchführt, sondern das erste Ergebnis wählt. Hierfür könnte eine Hilfestrategie, wie in Kapitel 3 iterativ entwickelt, vom Dialogmanager genutzt werden.

date.day

Slots time.rel time.hour time.ampm t.mon Erkannte t.neigh t.desc f.mon f.neigh f.desc

route

f.desc

f.mon

t.desc

t.mon

f.neigh

t.neigh

time.rel

date.day

time.hour time.ampm Annotierte Slots (Referenz)

Abbildung 5.5: Konfusionsmatrix zum Vergleich erkannter und annotierter Slots. Kreisﬂäche entspricht Anzahl abgebildeter Slots. Blau Linie zeigt den Wert korrekter Zuordnung.

Um den Einﬂuss der Gewichte der Bewertungsfunktion (siehe For- Bewertungsfunktion mel (5) aus Abschnitt 4.3.4) zu analysieren, erfolgte die Berechnung 158 implementierung und evaluation

mit unterschiedlichen Gewichten. Wie zu erwarten, zeigen sich hierbei keinerlei Unterschiede. Dies lässt sich in erster Linie auf die sehr geringe Query-Density (Glass u. a., 2000) der Dialoge in Höhe von durchschnittlich 0,721 (SD: 0,044) zurückführen. Das heißt, weniger als ein Task wurde pro Nutzeräußerung ausgeführt. In Kombination mit nur einem aktiven Taskmodell ergeben sich somit wenige Bedin- gungen, in welchen mehrere Subtasks in Frage kommen könnten.

5.2.3 Ergebnisse bezüglich der Taskausführung und Parameterübergabe

Wie im vorherigen Abschnitt diskutiert, lässt sich die Bewertungs- funktion auf Grund der geringen Query-Density schlecht analysieren. Da die parallele Eingabe, beziehungsweise die Übergabe mehrerer Parameter zwischen Anwendungen, ein essentieller Bestandteil Query-Density der vorliegenden Arbeit ist, muss die Query-Density erhöht, und zu- erhöhen & sätzlich müssen mehrere semantisch ähnliche Taskmodelle hinzugefügt semantisch ähnliche werden. Ersteres wird durch Fusion der korrekt annotierten Eingabe Taskmodelle hinzufügen (label=true) einzelner Dialogschritte zu einer Gesamteingabe erreicht (siehe AnhangB. 3.4). Somit erfolgt pro Dialog (ohne Neustart) die Eingabe aller Konzepte und Instanzen auf einmal, was eine Para- meterübergabe zwischen Anwendungen, jeweils am Ende eines Dia- logs, simuliert. Zusätzlich werden semantisch ähnliche Taskmodelle, in Form einer Restaurantsuche, Touristeninformation, Wetter- und Nachrichtenanwendung, hinzugefügt. Restaurant- sowie Touristen- information zeigen hierbei eine Ähnlichkeit zur Busanwendung in Form von Stadtteilen und Landmarken, wogegen Wetter Datum und Städte abdeckt. Eine Besonderheit ist mit der Nachrichtenanwendung umgesetzt, da diese sehr abstrakte Suchbegriffe (entity%1:03:00::) an- nimmt, wie beispielsweise beliebige Dinge oder Personen. Während eine Analyse hinsichtlichCA bei der Interpretation einer Nutzeräußerung Auskunft über die Qualität liefert, ist bei einer reinen Abbildung von bereits interpretierten Konzepten und Instanzen diese Metrik nicht einsetzbar, da eingefügte und ersetzte semantische Einheiten nicht auftreten können. Somit bleibt als Evaluationsmetrik Identifikation für die Parameterübergabe einerseits eine korrekte Identifikation des Taskmodell & Taskmodells und andererseits die Anzahl der zuordenbaren Slots. Wie er- zuordenbare Slots wähnt, erfolgt die Eingabe über die fusionierten korrekt annotierten Slots pro Dialog (ein Neustart zählt als eigenständiger Dialog). Im ersten Schritt wird hierzu die Eingabe den entsprechenden Konzepten und Instanzen der Wissensbasis zugeordnet und im zweiten Schritt vom Taskmanager verarbeitet. Das Ergebnis der Taskzuordnung kann anschließend mit der Referenz verglichen werden. Um eine Analy- se der Bewertungsfunktion (siehe Formel (5) aus Abschnitt 4.3.4) zu ermöglichen, findet die Berechnung mittels verschiedener Gewichte statt. 5.2 evaluation 159

Insgesamt analysierte der Taskmanager 3025 verschiedene Einga- ben mit durchschnittlich 2,938 Slots (SD=0,27). Somit beinhaltet der Datensatz mit 8888 Slots geringfügig weniger Slots als die Analyse im vorherigen Abschnitt. Dies lässt sich darauf zurückführen, dass jeweils der Zustand zum Ende eines Dialogs eine Eingabe ergibt, wogegen zur Analyse im aktiven Dialog zusätzlich auch mehrmalige Änderungen eines Slots während des Dialogs berücksichtigt werden. Wie erwähnt ist zu prüfen, ob die Eingabe das Taskmodell des Bus- Ergebnis informationssystems eindeutig identifiziert, oder ob Mehrdeutigkeiten Identifikation zu anderen Taskmodellen auftreten. Abbildung 5.6 zeigt die Anzahl Taskmodell der Eingaben, welche korrekt dem Taskmodell zugeordnet werden können, unterteilt in Anzahl der Slots der Eingabe und Gewichtung der Bewertungsfunktion. Deutlich zu sehen, führen die Bedingun- gen ohne semantische Ähnlichkeit zu einer schlechteren Identifikati- on des Taskmodells, wogegen ein Einfluss der anderen Dimensionen nicht festzustellen ist. Bei der Betrachtung der Anzahl an Slots der Eingabe zeigt sich, dass Parameterübergaben mit wenigen Slots, und ohne Bewertung der Ähnlichkeit, oftmals nicht eindeutig zugeordnet werden. Dies lässt sich darauf zurückführen, dass zum Beispiel eine Zuordnung von einer Instanz des Konzepts city%1:15:00:: zum allgemeineren Konzept geographical_area%1:15:00:: der Wetteran- wendung erfolgen könnte. Bei einer höheren Anzahl an Slots als Ein- gabe tritt dies nicht auf, da die Wahrscheinlichkeit konkurrierender Taskmodelle mit Zunahme der Slotanzahl abnimmt.

3000 Slots: 254 254 254 254 2500 9 568 567 567 567 8 2000 7 250 250 1500 758 250 757 758 757 6 535 537 537 5

identifiziertem Taskmodell identifiziertem 1000 Anzahl Eingaben mit korrekt korrekt mit Eingaben Anzahl 583 580 583 580 4 588 596 597 3 500 631 616 631 616 2 304 311 311 0 52 52 52 1 (0,0,1) (0,1,0) (1,0,0) (0,1,1) (1,0,1) (1,1,0) (1,1,1) Gewichtung der Bewertungsfunktion

Abbildung 5.6: Identiﬁkation eines Taskmodells abhängig von den Gewich- ten (msc, esc, ssc) der Bewertungsfunktion und der Anzahl an Slots pro Eingabe.

Neben der Identiﬁkation des richtigen Taskmodells ergibt ein detaillierter Blick auf die Zuordnung der Eingabe zu Slots Vor- und Nach- Zuordnung Eingabe teile des Konzepts, bezogen auf die Parameterübergabe. Abbildung 5.7 zu Slots zeigt eine Übersicht der übergebenen Parameter abhängig von der Anzahl der eingegebenen Slots sowie eine Unterscheidung bezüglich der semantischen Ähnlichkeit (ssc). Wie zuvor bereits diskutiert, ist deutlich zu erkennen, dass ohne semantische Ähnlichkeit (1,1,0) in erster Linie Eingaben mit wenigen Slots schlecht zugeordnet werden. 160 implementierung und evaluation

Jedoch zeigt sich ein weiterer Punkt anhand des Diagramms: eine Ein- gabe von mehr als zwei Slots führt zu einer nicht vollständigen Zu- ordnung zu Tasks, das heißt, gewisse Slots werden ignoriert. Gründe hierfür sind die Hierarchie des Taskmodells und die identischen Kon- zepte von Abfahrt- und Ankunftsort. Bei der Eingabe eines Slots einer Bushaltestelle zum Beispiel (*.desc → bus_stop%1:15:00::) ist für den Taskmanager nicht ersichtlich, ob dies Ankunft (t.desc) oder Abfahrt (f.desc) ist. Bei einer realen Parameterübergabe zwischen Taskmodel- len müssen somit die zugewiesenen Domänenobjekte der abstrakten Tasks mit übergeben werden.

(wm,we,ws)=(1,1,1)(msc, esc, ssc)=(1,1,1) Slots (M,E,S)=(1,1,0)(m , e , s )=(1,1,0) 6 sc sc sc

4 zugeordneter zugeordneter

Anzahl Anzahl 2

0 0 2 4 6 8 Anzahl eingegebener Slots

Abbildung 5.7: Konfusionsmatrix zum Vergleich übergebener Parameter bezogen auf Anzahl der Slots. Kreisﬂäche entspricht Anzahl abgebildeter Eingaben. Graue Kreise sind kleiner oder identisch zu schwarzen. Rote Linie zeigt den Wert einer optimalen Abbildung.

Die Analyse der Bewertungsfunktion zeigt in erster Linie die Wich- tigkeit der semantischen Ähnlichkeitsbeziehungen und wenig Ein- fluss von Ausführbarkeit sowie Übereinstimmung. Jedoch ist dies zurückzuführen auf die konkurrierenden Taskmodelle, da in erster Linie auf semantisch ähnliche Eingaben fokussiert wird. Eine Aussa- ge hinsichtlich der Gewichte ist somit nur beschränkt möglich und hängt von den jeweiligen Taskmodellen sowie dem Einsatzzweck des Sprachdialogsystems ab. Bei einer Parameterübergabe muss die Hier- archie der Taskmodelle mit berücksichtigt werden, um identische Kon- zepte und Instanzen korrekt abzubilden. In einem realen SDS basiert ein Anwendungswechsel auf expliziten beziehungsweise impliziten Äußerungen des Nutzers, welche zu- sätzlich in die Analyse einfließen sollten. Zum Beispiel könnte ein impliziter Anwendungswechsel („Wie ist das Wetter dort“) einerseits über das Konzept (weather%1:19:00::) die nächste Anwendung bestimmen und andererseits über Auflösung der anaphorischen Refe- renz einen Parameter von der vorherigen zur neuen Anwendung übergeben. 5.3 theoretischer abgleich der anforderungen 161

5.3 theoretischer abgleich der anforderungen

Bisher erfolgte eine Evaluation des entwickelten Konzepts anhand praktischer Implementierung und anschließender Analyse mit einem bestehenden Korpus. Ein weiterer wichtiger Punkt stellt jedoch die theoretische Betrachtung und Evaluation hinsichtlich der deﬁnierten Anforderungen dar (siehe Abschnitt 3.4 und 4.1.1). Diese Anforderun- gen wurden auf Basis von explorativen Nutzerstudien deﬁniert und bilden die Grundlage des entwickelten Konzepts. Im Folgenden soll nun dieses hinsichtlich jener Anforderungen bewertet werden.

A1: Eine konsistente sprachliche Interaktion über verschiedene Anwendungen hinweg muss möglich sein. Das vorliegende Konzept setzt auf der Basis einer vollständigen domänenunabhängigen Verschriftung des Sprachsignals auf, wodurch sich keinerlei Inkonsistenzen in Punkten der ASR ergeben. Dies gilt ebenso hinsichtlich der Interpretation und Ab- bildung als Objekte einer allgemeinen lexikalisch-semantischen Wissensbasis (siehe Abschnitt 4.3.1). Auf Grund der einheitlichen Kontextbewertung, und somit der Taskausführung, ist eine konsistente sprachliche Interaktion über verschiedene Taskmo- delle hinweg gegeben. Jedoch können sich Unterschiede in Punk- ten der Modellierung von Taskmodellen ergeben, das heißt, die hierarchische Untergliederung in Subtasks sowie deﬁnierte Ope- ratoren und Vorbedingungen zwischen den Tasks, können von jedem Anwendungsentwickler unterschiedlich umgesetzt werden. Bezogen auf die Deﬁnition der Domänenobjekte, und somit auf die Bedeutung von Konstituenten mit ihren Synonymen, zeigt sich Konsistenz, da die lexikalisch-semantische Wissensba- sis Objektidentität voraussetzt. Zusätzlich sieht das vorliegende Konzept einen generischen Dialogmanager vor, welcher unab- hängig von der Anwendungsdomäne Hilfestrategien implementiert (siehe Abschnitt 4.1.3).

A2: Nutzer müssen Anwendungen implizit sowie explizit wechseln können. Der Kontext eines nicht-aktiven Taskmodells ergibt sich aus dem Taskmodellsubkontext, den globalen sowie den pfadabhängi- gen Subkontexten (siehe Abschnitt 4.3.2). Da im Gesamtkon- text jeweils all diese Subkontexte enthalten sind, auch wenn ein anderes Taskmodell gerade aktiv ist, können Nutzer zwischen Anwendungen wechseln. Im Falle eines expliziten Wechsels der Anwendung ergibt der Vergleich zwischen Nutzereingabe und Taskmodellsubkontext die höchste Bewertung und das entsprechende Taskmodell kann aktiviert werden. Einen Unterschied zwischen explizitem Wechsel und Start einer Anwendung sieht 162 implementierung und evaluation

das vorliegende Konzept nicht vor, da dies in erster Linie für eine Dialoghistorie oder einen Meta-Dialogmanager von Interes- se ist, welche beide in der vorliegenden Arbeit nicht betrachtet werden. Im Falle eines impliziten Anwendungswechsels ist dies identisch zum impliziten Anwendungsstart und wird durch die Integration der globalen und pfadabhängigen Subkontexte erreicht. Als Resultat zeigt sich das vorliegende Konzept hinsichtlich implizitem und explizitem Anwendungswechsel als erfolgreich, wobei bei ähnlichen Anwendungen Hilfestrategien des generischen Dialogmanagers Mehrdeutigkeiten auﬂösen müs- sen.

A3: Zwischen beliebigen Anwendungen müssen Parameter über- geben werden. Zur Übergabe von Parametern nutzt das vorliegende Konzept einen ähnlichen Ansatz wie Klug und Kangasharju (2005), welche Input- und Output-Ports von Tasks zur Informationsüber- tragung auf Basis einer Ontologie definieren. Auf Grund einer gemeinsamen Wissensbasis können Ein- und Ausgaben der Tasks von einem Taskmodell auf ein anderes Taskmodell über- tragen werden. Der Prozess der Parameterübergabe erfolgt nach demselben Prinzip wie eine sprachliche Eingabe, jedoch mit bereits eindeutig interpretierten Konzepten und Instanzen (siehe Abschnitt 4.3.3 und Abschnitt 4.3.4). Die Evaluation beweist das Prinzip der Parameterübergabe, identifiziert jedoch ein Pro- blem der Abbildung bei fehlender Hierarchieinformation des Ursprungs-Taskmodells. In der Implementierung kann dies mit einem zusätzlichen Transfer der Objekte abstrakter Tasks erreicht werden. Zusätzlich erfordert der Taskmanager eine In- formation der zu übergebenden Parameter. Basiert die Überga- be auf anaphorischen Referenzen der Nutzeräußerung, finden sich bestehende linguistische Lösungen, wie sie zum Beispiel in Mitkov (2014) detailliert zusammengefasst sind. Eine andere Lösung wäre, alle vorhandenen Parameter als Gesamtzustand zu übergeben, unabhängig davon, ob die Zielanwendung diese überhaupt benötigt. Planells u. a. (2013) nutzen diesen An- satz durch standardmäßige Übergabe von Datum, Zeit und Ort. Im vorliegenden Konzept wäre dies ohne Probleme möglich, da Objekte, welche nicht auf den Subkontext einer anderen Anwen- dung abbildbar sind, nicht beachtet werden. Somit zeigt sich die Parameterübergabe als möglich.

A4: Eine Hilfestrategie erfordert die Bestimmung der wahrscheinlichsten nächsten Anwendungen auf Basis der Nutzeräuße- rung und des Dialogkontextes. Der Gesamtkontext des Taskmanagers umfasst die Vereinigung der Kontexte aller verfügbaren Anwendungen, wodurch eine 5.4 zusammenfassung und diskussion 163

Nutzereingabe immer hinsichtlich aller Anwendungen bewertet wird. Im Falle einer Mehrdeutigkeit an zutreffenden Anwen- dungen (durch gleichem beziehungsweise ähnlichem f_sc-Wert der Formel (5) aus Abschnitt 4.3.4) stehen somit die Anwendun- gen, welche die Nutzereingabe verarbeiten können, fest, und die Mehrdeutigkeit lässt sich mittels Hilfestrategie auﬂösen. So- mit ergibt sich der Vorteil, lediglich die wahrscheinlichsten An- wendungen nennen zu müssen und nicht alle vorhandenen. Ei- ne Vorhersage der wahrscheinlichsten nächsten Anwendungen lediglich auf Basis des Dialogkontextes, wie im Falle einer OOA- Anfrage, geschieht über eine Vorabberechnung der möglichen Parameterübergaben. Eine Implementierung beider Fälle ist trivial und somit nicht Teil vorliegender Arbeit.

A5: Abhängigkeiten zwischen verschiedenen Anwendungen sollen sich dynamisch zur Laufzeit ergeben. Der technischen Anforderung, in Form eines dynamischen Hin- zufügens und Entfernens von Anwendungen, wird Rechnung getragen, indem dass Taskmodelle für sich stehen und keinerlei Abhängigkeiten zwischen diesen deﬁniert sind. Der Kontext (siehe Abschnitt 4.3.2) wird dynamisch nach jeder Nutzerein- gabe - beziehungsweise Änderung der Taskmodelle - neu berechnet, weshalb hierbei keinerlei Einschränkungen auftreten. Die Verbindung zwischen Anwendungen zur Parameterüber- gabe ergibt sich ebenfalls zur Laufzeit, durch Nutzung einer gemeinsamen Wissensbasis. Benötigt eine Anwendung eine Er- weiterung der Wissensbasis, können Parameter erst übergeben werden, wenn diese Erweiterung als Update der Wissensbasis eingespielt wurde.

Die theoretische Betrachtung hinsichtlich der einzeln deﬁnierten Anforderungen zeigt im Allgemeinen eine positive Bewertung des Kon- Konzept positiv zepts. Da sich diese Bewertung jedoch hauptsächlich auf den Taskma- bewertet nager bezieht, ist nicht sichergestellt, dass andere Module (z.B. ASR, SLU, generischer Dialogmanager) diese Anforderungen ebenfalls er- füllen. Bei Umsetzung eines Gesamtsystems muss dieses folglich in Bezug auf die Anforderungen evaluiert werden.

5.4 zusammenfassung und diskussion

Das vorliegende Kapitel zeigte die Machbarkeit des deﬁnierten Kon- zepts anhand einer Implementierung mit anschließender Evaluation und theoretischen Betrachtung. Die Basis stellt die Implementierung Implementierung des Taskmanagers dar, welcher eine Umsetzung in Java umfasst unter Taskmanager Nutzung wohl etablierter Bibliotheken wie Stanford CoreNLP (Man- ning, Surdeanu u. a., 2014), JWI (Finlayson, 2014) und WordNet 3.0 (Miller, 1995; Fellbaum, 1998). Eine textuelle Eingabe wird hierbei 164 implementierung und evaluation

als Instanzen und Konzepte von WordNet interpretiert, welche vom Taskmanager mit dem Kontext verglichen werden. Zur Erstellung des Kontextes erfolgte eine Nachimplementierung des Algorithmus von Paternò (2000), unter Nutzung derselben Spezifikationsmethodik für CTTs. Die Schnittstellen zum Dialogmanager und zum SLU-Modul sind definiert, wobei eine Umsetzung dieser Module nicht Teil der vorliegenden Arbeit ist. Evaluation mit Mit Hilfe der Implementierung und des bestehenden Korpus der Korpus DSTC (Williams, Raux u. a., 2012) erfolgte eine Evaluation des Kon- zepts, einerseits hinsichtlich der Abbildung einer Eingabe auf Tasks, und andererseits bezüglich der Taskausführung sowie Parameterüber- gabe. Das Korpus bezieht sich auf das „Let’s Go!“-Businformations- system (Raux u. a., 2005) und beinhaltet ein Protokoll der Dialoge, eine Referenzinterpretation sowie ein Baseline-Dialog-Tracker, als Re- ferenz für die Leistung bestehender Sprachdialogsysteme. Eine Um- setzung der „Let’s Go!“-Anwendung in einem CTT dient, neben der Nutzerdialoge (bzw. deren ASR-Ergebnis), als Eingabe für den Task- Abbildung manager. Damit lässt sich die Abbildung von Nutzereingabe auf Tasks Nutzereingabe auf hinsichtlich derCA analysieren. Insgesamt ergibt sich eineCA in Tasks Höhe von 71% für den Taskmanager, im Vergleich zu 51% für den Baseline-Tracker. Eine detaillierte Betrachtung der einzelnen Tasks, beziehungsweise Slots der DSTC, zeigt einen Vorteil für eindeutig bestimmbare Konzepte und Instanzen, wie zum Beispiel Busrouten, Tage oder Haltestellen, und Nachteile hinsichtlich mehrdeutiger Zah- lenwerte sowie strukturierter Werte, wie zum Beispiel bei Uhrzei- ten. Diese Einschränkung könnte jedoch durch Nutzung bestehender grammatikbasierter Interpretationsverfahren in einem hybriden Ansatz behoben werden (siehe Abschnitt 6.3). Weiterhin zeigen sich mehrere identische Domänenobjekte im Taskmodell als kritisch, da trotz Dependenzannotation und hierarchisch definiertem Taskmodell Verwechslungen auftreten können, beziehungsweise Auflösung von Parameterübergabe Mehrdeutigkeiten erfordern. Die Übergabe von Parametern zwischen verschiedenen Anwendungen ist über die Wissensbasis möglich und auf Basis der Bewertungsfunktion an die jeweilig verfügbaren An- wendungen anzupassen. Die vorgestellte Evaluation berücksichtigte in erster Linie semantisch ähnliche Anwendungen, wodurch diese hinsichtlich den Dimensionen Ausführbarkeit und Übereinstimmung weniger mit der Busanwendung konkurrieren. Dies bestärkt den An- satz mit konfigurierbaren Gewichtungen der Dimensionen. Zusätz- lich ist eindeutig zu sehen, dass je weniger Parameter übergeben werden, desto schwieriger ist eine eindeutige Zuordnung zum Taskmo- dell. Dies kann über eine zusätzliche Interpretation der zu einem Anwendungswechsel führenden Nutzeräußerung verbessert werden. Ein weiterer kritischer Punkt zeigt sich in identischen Konzepten, welche sich lediglich hinsichtlich der Task-Hierarchie im Taskmodell unterscheiden (z.B. Ankunfts- und Abfahrtsort). Im realen Einsatz kann 5.4 zusammenfassung und diskussion 165 hier das Ursprungs-Taskmodell jedoch ohne weiteres die Hierarchie mit übergeben, oder der Dialogmanager durch eine Hilfestrategie die Auflösung eventueller Mehrdeutigkeiten ermöglichen. Ein theoretischer Abgleich des Konzepts mit den definierten Anforderun- Theoretischer gen ergibt im Allgemeinen eine positive Bewertung. Jedoch erfordert Abgleich eine reale Implementierung zusätzlich den Abgleich der Anforderun- Anforderungen & Konzept gen bezüglich der restlichen Module des Sprachdialogsystems. Un- terstützen diese ebenfalls die Anforderungen, können mit dem vorliegenden Konzept anwendungsübergreifende Dialoge mit Parame- terübergabe und Hilfestrategien umgesetzt werden.

ZUSAMMENFASSUNGUNDAUSBLICK 6

“The purpose of computing is insight, not numbers”1 Hamming (1973, S. v)

6.1 beiträge der arbeit

In der vorliegenden Arbeit wurde die Interaktion zwischen Mensch und Maschine im Bereich anwendungsübergreifender Dialoge untersucht. Eine Analyse bestehender Arbeiten zeigte, dass die bisher üb- Analyse bestehender liche Fehlervermeidung mittels system-geführter Dialoge oder Tele- Arbeiten prompter für Sprachdialogsysteme mit einer hohen Funktionsvielfalt schwierig und nicht mehr zeitgemäß ist. Nutzer-initiierte Dialoge bergen jedoch die Gefahr einer OOA-Äußerung, auf welche angemessen reagiert werden sollte. Bekannte Fehlerbehandlungsstrategien, wie zum Beispiel „MoveOn“ (Bohus und Rudnicky, 2005) oder implizite Veriﬁkation (McTear, 2002), sind beim nicht-erfolgreichen Anwen- dungswechsel nicht einzusetzen, da der Fortgang des Dialogs nicht sicher bestimmt werden kann. Die in Abschnitt 2.3.5 analysierten Arbeiten betrachten zwar Teilaspekte dieser Problemstellung, jedoch zumeist mit wenigen Anwendungen oder ohne expliziter Fehlerbe- handlung über Anwendungsgrenzen hinweg. Somit ergab sich als Kernthema dieser Arbeit nutzer-initiierte anwendungsübergreifende Dialoge mit effektiver Fehlerbehandlung zu ermöglichen. Als Herangehensweise wurde in der vorliegenden Arbeit ein explorativer Ansatz einer Nutzerstudie im Fahrsimulator gewählt, um anwendungs- das Verhalten von Versuchspersonen, ohne Kenntnis des Interaktions- übergreifende schemas, bei anwendungsübergreifenden Aufgaben zu beobachten. Die Dialoge als Sekundäraufgabe Korpusanalyse zeigte eine Verwendung von hauptsächlich impliziten Anwendungswechseln mit anaphorischen Ausdrücken über Anwen- dungsgrenzen hinweg, wodurch deutlich wird, dass keine Anwen- dungstrennung im mentalen Modell eines rein sprachlich bedienbaren Sprachdialogsystems besteht. Zusätzlich konnte eine hohe Vari- anz an Sprachstilen, von kommandowortbasiert bis natürlichsprach- lich, festgestellt werden. Ähnlich zu Strayer u. a. (2014) konnte ein Ablenkungspotential durch das SDS erkannt werden, wobei objektive Daten wie Fahrleistung und EDA nur geringfügigen Einﬂuss zeigen, jedoch die subjektive Belastung sowie Gebrauchstauglichkeit stark von der Qualität des Sprachdialogsystems abhängen. Ein Wechsel der

1 Übersetzung des Autors: Der Zweck des Rechnens ist Erkenntnis, nicht Zahlen.

167 168 zusammenfassung und ausblick

Dialoginitiative im Fehlerfall bewirkte positive Ergebnisse hinsichtlich des Aufgabenerfolgs, zeigte allerdings Schwächen in der Umset- zung durch lange Systemäußerungen. Lange Systemäußerungen kamen in erster Linie durch das Vorlesen möglicher Beispieläußerungen zustande. Beispieläußerungen sind allerdings bei OOA-Anfragen, oder mehrere Anwendungen betreffende Äußerungen, nicht unbedingt notwendig, da eine korrekte Inter- pretation im richtigen Anwendungskontext möglich ist. Somit lässt sich die ursprüngliche Äußerung, nach Identifikation der Anwen- dung durch den Nutzer, im richtigen Kontext interpretieren. Zur Iden- Hilfestrategien tifikation zeigten sich kontextsensitive und zielgerichtete Hilfestrate- gien (Zweier- und Listenauswahl) einer generischen Strategie überle- gen. Eine kontextsensitive Strategie erfordert jedoch, die gesuchte An- wendung anzubieten, was technisch eine Herausforderung darstellt. Bezüglich sprachlicher oder grafischer Modalität ergab sich als Pri- märaufgabe kein großer Unterschied. Aus diesem Grund erfolgte in einer dritten Nutzerstudie im Fahrsimulator eine Analyse der Moda- litäten einer Zweier- sowie einer Listenauswahl als Sekundäraufga- be. Wie zu erwarten, zeigten sich klare Ablenkungspotentiale bei der visuellen Darstellung der Anwendungen, wogegen ein Vorlesen die Ablenkung minimiert und dennoch zum Aufgabenerfolg führt. Der Vergleich einer bildlichen Zweier- mit einer textuellen Listenauswahl zeigte zwar leichte Vorteile der Zweierauswahl, allerdings sind beide Varianten sicher als Sekundäraufgabe einzusetzen. Anforderungen Auf Basis der Studienergebnisse ließen sich vier Anforderungen an die Interaktion zwischen Mensch und Maschine für anwendungs- übergreifende Sprachdialogsysteme definieren. Diese beinhalten eine konsistente Interaktion über verschiedene Anwendungen hinweg, mit implizitem und explizitem Anwendungswechsel, sowie zusätzli- chem Parameteraustausch. Außerdem sollen die Hilfestrategien die wahrscheinlichsten nächsten Anwendungen anbieten. Eine weitere technische Anforderung formuliert die Notwendigkeit, dynamisch zur Laufzeit Anwendungsabhängigkeiten zu erstellen, um eine einfache Austauschbarkeit von Anwendungen zu erreichen. Konzept zur Zur Umsetzung der Anforderungen wurde ein Konzept entwickelt, modellgetriebenen welches als zentralen Punkt die Formalismen zu Taskmodellen (in Entwicklung CTT-Notation) und lexikalisch-semantischer Wissensbasen (WordNet) verbindet. Ein Anwendungsentwickler kann somit modellgetrieben die Interaktion zwischen Mensch und Maschine mittels Taskmodell definieren und die Bedeutung von Tasks mittels globaler Wissensbasis beschreiben. Zur Laufzeit ergibt sich eine Verbindung der Tasks verschiedener Taskmodelle über die gemeinsame Wissensbasis. Dadurch lassen sich Parameter von einer Anwendung zur nächsten überge- ben und potentielle Anwendungswechsel identifizieren. Weiterhin erfolgte eine Formalisierung des Prozesses von Nutzereingabe bis Tas- kausführung. Die Zuordnung von Objekten der Nutzereingabe zu 6.2 diskussion erzielter ergebnisse 169 auszuführenden Tasks erfolgt über eine gewichtete Bewertungsfunk- tion der Dimensionen Übereinstimmung, Ausführbarkeit und Ähn- lichkeit. Mittels dieser Gewichte wird eine Adaption an den jeweiligen Einsatzzweck des Sprachdialogsystems möglich. Eine Überprüfung der Machbarkeit des Konzepts geschah durch Implementierung eines Taskmanagers, welcher einerseits auf praktischer Implementierung Ebene mittels Korpus evaluiert und zusätzlich theoretisch hinsicht- Taskmanager lich der Anforderungen bewertet wurde. Vorteile zeigten sich bei eindeutig bestimmbaren Objekten, wie Wochentage oder Bushalte- stellen, wogegen mehrdeutige Objekte, wie zum Beispiel Zahlenwer- te, schwierig zu interpretieren sind. Bezüglich der Bewertungsfunk- tion zeigt sich die Wichtigkeit, die verschiedenen Dimensionen unterschiedlich gewichten zu können, da bei ähnlichen Anwendungen somit die spezifischste ausgewählt werden kann. Bezüglich des theoretischen Abgleichs der Anforderungen ist ein überwiegend positives Ergebnis zu verzeichnen, wobei für ein erfolgreiches Gesamtsystem die restlichen Module des Sprachdialogsystems diese Anforderungen ebenfalls erfüllen müssen.

6.2 diskussion erzielter ergebnisse

Wie gezeigt, untersuchte vorliegende Arbeit anwendungsübergreifen- de Dialoge ganzheitlich von theoretischen, explorativen, technischen und praktischen Gesichtspunkten aus. Grundlage hierfür bildeten die in Abschnitt 1.2 vorgestellten Forschungsfragen. In der ersten Nutzerstudie konnte durch Beobachtung festgestellt werden, dass sich Fahrer bei der sprachlichen Bedienung keiner An- wendungstrennung bewusst sind und eher Methodiken der zwischenmenschlichen Kommunikation einsetzen, wie einen übergeleiteten An- wendungswechsel mit anaphorischen Ausdrücken (F1). Zusätzlich Forschungsfrage 1 verschlechterten, neben einem negativen Einfluss auf die Gebrauch- stauglichkeit, nicht-erfolgreiche Anwendungswechsel die Primärauf- gabe signifikant hinsichtlich subjektiver Belastung (F1). Objektive Fahrdaten zeigten weniger einen negativen Einfluss von nicht-erfolgreichen Anwendungswechseln, sondern eher einen generellen negativen Einfluss von Sprachdialogsystemen (vergleichbar zu Ergebnissen von Strayer u. a. (2014)). Dies deutet darauf hin, dass die Versuchs- personen ihren Fokus weiterhin auf der Straße behielten, unabhängig der Reaktion des Sprachdialogsystems. Die folgenden zwei Studien ermöglichten eine iterative Entwick- lung und Evaluation verschiedener Interaktionsschemata, wie Fehler beim Anwendungswechsel behoben werden können. Wie bereits in der ersten Studie beobachtet, ist es wichtig, dass das System die Dia- logführung übernimmt und eine kontextsensitive und zielgerichtete Hilfestrategie anbietet (F2). Diese wurde in Form einer bildlichen Forschungsfrage 2 Zweier- und textuellen Listenauswahl multimodal implementiert, wo- 170 zusammenfassung und ausblick

bei beide Varianten im Fahrzeug eingesetzt werden können, jedoch eine visuelle Repräsentation die Ablenkung des Fahrers erhöht. Der zweistuﬁge Prozess, zuerst die betreffende Anwendung zu selektieren und im Anschluss eine erneute Interpretation der OOA-Anfrage im richtigen Kontext durchzuführen, ermöglicht eine starke Verkür- zung der Dialogdauer im Vergleich zu bestehenden Hilfestrategien, wie zum Beispiel von Bohus und Rudnicky (2005). Die konzeptuellen Arbeiten, mit anschließender Implementierung und Evaluation, zeigten eine Möglichkeit, anwendungsübergreifen- Forschungsfrage 3 de Dialoge modellgetrieben zu entwickeln (F3). Unter Verwendung von etablierten Methodiken, wie CTT als Taskmodelle und WordNet als Wissensbasis, konnte ein Taskmanager entwickelt werden, welcher konsistente Interaktionen mit mehreren Anwendungen und implizitem Wechsel ermöglicht. Abhängigkeiten der Anwendungen untereinander ergeben sich zur Laufzeit, wodurch ein Installieren und Deinstallieren von Anwendungen, wie bei elektronischen Geräten mit App-Stores üblich, unterstützt wird. Schwierigkeiten bestehen hinsichtlich der Interpretation mehrdeutiger, nicht realer Objekte, worauf im folgenden Abschnitt 6.3 mit dem Vorschlag eines hybriden Ansatzes eingegangen wird. Wie von Hamming (1973) empfohlen (siehe Zitat zu Beginn des Kapitels), präsentierte vorliegende Arbeit nicht nur Zahlen, sondern wertvolle Erkenntnisse hinsichtlich anwendungsübergreifender Dia- loge, daraus resultierender Fehlerbehandlungsstrategien und deren Einsatz als Sekundäraufgabe im Fahrzeug. Das entworfene Konzept sowie die Implementierung sind unabhängig des Fahrzeugkontexts und somit allgemeingültig in Systemen mit mehreren sprachbedienbaren Anwendungen einzusetzen.

6.3 ausblick

Die umfassende Betrachtung von anwendungsübergreifenden Dialo- gen als Sekundäraufgabe sowie eine konzeptuelle Umsetzung, de- monstrierte deren Machbarkeit. Dennoch bestehen weitere Heraus- forderungen, bis zur finalen Realisierung der Vision von Jonze (2014) im Film Her, in Form einer sprachbedienbaren Assistentin, welche wie ein menschlicher Partner agiert. Bezüglich der sprachlichen Interaktion über Anwendungen hinweg war deutlich zu sehen, dass Nutzer nicht explizit zwischen Anwen- dungen wechseln. Zusätzlich sollten Fehlerbehandlungsstrategien ein essentieller Bestandteil von Sprachdialogsystemen sein. Die in dieser Arbeit entwickelte Hilfestrategie, in der potentielle nächste Anwen- dungen vorgelesen werden, funktioniert, solange die möglichen Wer- phonetisch ähnliche te phonetisch unterschiedlich sind. Für phonetisch ähnliche Elemente, Elemente wie zum Beispiel bei einer Namens- oder Ortsauswahl, ist derzeit die visuelle Präsentation unumgänglich. Ein intelligentes Präsentations- 6.3 ausblick 171 planungsmodul könnte jedoch die sprachliche Äußerung anreichern und zum Beispiel mit folgender Antwort reagieren „Meinten Sie Mai- er mit ai oder ey?“ beziehungsweise „Ulm im Schwarzwald oder an der Donau?“. Dies setzt allerdings aufwendige Analyseverfahren des Inhalts sowie gemeinsames Allgemeinwissen bei SDS und Benutzer voraus. Durch den Einzug neuer Präsentationsmodalitäten im Fahrzeug, neue Modalitäten wie zum Beispiel Head-up-Displays oder taktiles Feedback, könnten diese in der Fehlerbehandlung eine wichtige Rolle spielen. Zukünf- tige Arbeiten müssen somit eine detaillierte Betrachtung abhängig vom Anwendungsszenario unternehmen, wo, wann und wie Fehler- behandlungsstrategien eingesetzt werden. Die Ergebnisse der Umsetzung zeigten Nachteile des Konzepts hinsichtlich mehrdeutiger Zahlenwerte oder strukturierte Werte, wie zum Beispiel Uhrzeiten. Zur Erkennung und Interpretation dieser existieren jedoch wohl etablierte grammatikbasierte Methodiken. In Zu- kunft sollten somit hybride Ansätze untersucht werden, welche die Vor- hybrider Ansatz teile einer eindeutigen Objekterkennung mit zusätzlichen Teilgram- matiken für Werte wie Uhrzeit, Datum, Währung oder ähnliches kombinieren. Bisher wurde semantisches Schlussfolgern (engl. semantic rea- semantisches soning) nicht genutzt, wodurch jedoch komplexere Anfragen in ihre Schlussfolgern semantisch korrekten Objekte aufgelöst werden könnten. Als Beispiel wäre die Wissensbasis YAGO (Suchanek u. a., 2007) zu nennen, welche WordNet mit Wikipedia kombiniert. Mit Hilfe der Wissensbasis könnte eine Äußerung wie „Navigation zum höchsten Kirchturm der Welt“ als navigation%1:04:00:: u Ulm%1:15:00:: interpretiert werden. Diese Kombination ausQA und SDS, mit komplexen Dialogstruktu- ren sowie Anwendungslogik, verspricht vielfältige Anwendungsmög- lichkeiten. Da dies lediglich eine Erweiterung des Interpretationsmo- duls darstellt, wäre der Taskmanager der vorliegenden Arbeit ohne weiteres in solch einem System einzusetzen. Anders ist dies hingegen bei Verwendung von komplexen Anfragen, welche gleichzeitig Aktio- Aktionen mehrerer nen mehrerer Taskmodelle ansprechen, wie zum Beispiel „Fahre mich Taskmodelle zur Pizzeria San Marco und reserviere einen Tisch für 4 Personen.“. Ob und wie solche Anfragen jedoch Sinn ergeben, muss zuerst in der Definition von Anwendungsszenarien und Nutzerstudien evaluiert werden, bevor eine Konzeptanpassung stattfinden kann. Ein weiterer wichtiger Forschungszweig stellt die Nutzeradaption Adaption dar. Zunehmend kennen elektronische Geräte ihren Nutzer, zum Bei- spiel durch Accounts oder Biometrie, und lernen dessen Gewohnhei- ten. Diese Adaption wird in Zukunft im SDS fester Bestandteil sein, wie es zum Beispiel schon ansatzweise in Apples Siri durch Klassi- fizierung verschiedener Adressbuchkontakte implementiert ist, um Nutzeräußerungen wie „Rufe meine Frau an“ aufzulösen. Die Ver- wendung des geteilten Wissens mit dem Nutzer ist hierbei der An- fang, wobei davon auszugehen ist, dass in Zukunft auch eine Adap- tion im Dialog, beziehungsweise gesamtheitlich im Interaktionspat- 172 zusammenfassung und ausblick

tern, Verwendung ﬁndet (Schüssel u. a., 2014; Oviatt, Coulston u. a., 2004; Larsson, Kronlid u. a., 2014). In Bezug auf die vorliegende Ar- beit könnte somit ein potentieller Anwendungswechsel auf Basis des Interaktionspatterns gewählt werden, um auf eine Hilfestrategie zu verzichten oder die Anzahl der möglichen Folgeanwendungen zu minimieren. In der vorliegenden Arbeit wurde eine gesamtheitliche Betrachtung von anwendungsübergreifenden Dialogen als Sekundäraufgabe prä- sentiert und ein Konzept zur Implementierung im SDS entwickelt. Dies bildet eine Grundlage auf dem Weg hin zu einem natürlichen, lernenden und konsistent zu bedienenden SDS, unabhängig von An- wendungen verschiedener Entwickler. ANHANG

173

UNTERLAGENZUSTUDIEN A a.1 explorative fahrsimulatorstudie

Die folgenden Abschnitte enthalten detaillierte Unterlagen zu der ersten Fahrsimulatorstudie, welche in Abschnitt 3.1 präsentiert wird. a.1.1 Beispieldialoge für verschiedene Varianten des Anwendungswechsels

Zur Verdeutlichung der unterschiedlichen Interaktionsvarianten ist im Folgenden jeweils ein Beispieldialog dargestellt. Die Dialoge basieren auf realen Daten des Experiments, wobei Nutzeräußerungen durch N und Systemäußerungen durch S hervorgehoben sind. Die Dialogphasen zwischen zwei Anwendungen sind dunkelgrau gefärbt:

Erwartete Reaktion (ER):

N: „Navigation.“ S: „Navigation, was möchten Sie?“ N: „Nach Berlin.“ S: „Zu welcher Straße oder zu welchem Ort in Berlin?“ N: „Zum Brandenburger Tor.“ S: „Das Brandenburger Tor in Berlin wurde als neues Navi- gationsziel übernommen.“ N: „Suche chinesisches Restaurant entlang der Route.“ S: „Ich habe ein chinesisches Restaurant entlang Ihrer Rou- te gefunden: Peking Ente in 2km Entfernung.“ N: „Speichere die Adresse.“ S: „Das Restaurant Peking Ente wurde zu Ihrem Adress- buch hinzugefügt.“

Missverständnis (MU)

N: „Navigation nach Berlin, Brandenburger Tor.“ S: „Das Brandenburger Tor in Berlin wurde als neues Navi- gationsziel übernommen.“ N: „Chinesisches Restaurant entlang der Route.“ S: „Ziel chinesisches Restaurant wurde nicht gefunden.“ N: „Restaurant entlang der Route.“ S: „Ziel Restaurant wurde nicht gefunden.“

175 176 unterlagen zu studien

N: „Ich würde gerne ein Restaurant suchen.“ S: „Wie bitte?“ N: „Starte Restaurantanwendung.“ S: „Restaurantsuche, was möchten Sie?“ N: „Ein chinesisches Restaurant entlang der Route.“ S: „Ich habe ein chinesisches Restaurant entlang Ihrer Rou- te gefunden: Peking Ente in 2km Entfernung.“ N: „Speichere die Adresse.“ S: „Die Adresse des Restaurants Peking Ente ist Berlin, Hauptstraße 5.“ N: „Hinzufügen.“ S: „Was für eine Bewertung möchten Sie hinzufügen?“ N: „Restaurant Peking Ente.“ S: „Das Restaurant Peking Ente bietet echte chinesische Kü- che im Herzen Berlins.“ N: „Adressbuch starten.“ S: „Adressbuch, was möchten Sie?“ N: „Füge Restaurant Peking Ente hinzu.“ S: „Das Restaurant Peking Ente wurde zu Ihrem Adress- buch hinzugefügt.“

Nicht-Verständnis (NU):

N: „Navigation nach Berlin, Brandenburger Tor.“ S: „Das Brandenburger Tor in Berlin wurde als neues Navi- gationsziel übernommen.“ N: „Chinesisches Restaurant entlang der Route.“ S: „Aktion leider nicht bekannt, bitte Anfrage ändern.“ N: „Ich möchte ein chinesisches Restaurant.“ S: „Aktion leider nicht bekannt, bitte Anfrage ändern.“ N: „Chinesisches Restaurant.“ S: „Aktion nicht bekannt, Anfrage ändern.“ N: „Restaurant entlang der Route.“ S: „Aktion nicht bekannt, Anfrage ändern.“ Abbruch durch Wizard.

Dialoginitiativenwechsel (DIS):

N: „Ich möchte zum Brandenburger Tor in Berlin.“ S: „Das Brandenburger Tor in Berlin wurde als neues Navi- gationsziel übernommen.“ N: „Suche chinesisches Restaurant entlang der Route.“ A.1 explorative fahrsimulatorstudie 177

S: „Aktion unbekannt, mögliche Anwendungen sind: Navi- gation, Restaurant, Hotel oder Radio.“ N: „Restaurant.“ S: „Sie können Restaurant suchen, Tisch reservieren, Bewer- tung abgeben, Öffnungszeiten abrufen.“ N: „Restaurant suchen.“ S: „Sagen Sie zum Beispiel: Suche ein Restaurant am Zielort, ich suche ein italienisches Restaurant, Die Kro- ne in Stuttgart oder ein Mexikaner in Ulm.“ N: „Ich suche ein chinesisches Restaurant.“ S: „Wo suchen Sie ein chinesisches Restaurant?“ N: „Entlang der Route.“ S: „Ich habe ein chinesisches Restaurant entlang Ihrer Rou- te gefunden: Peking Ente in 2km Entfernung.“ N: „Speichere die Adresse.“ S: „Aktion unbekannt, mögliche Anwendungen sind: Re- staurant, Adressbuch, Navigation oder Radio.“ N: „Adressbuch.“ S: „Sie können Adressen hinzufügen, Einträge abrufen, gespeicherte Adressen löschen oder Adressen bearbeiten.“ N: „Adresse hinzufügen.“ S: „Sagen Sie zum Beispiel: Füge Schloss Neuschwanstein zu meinem Adressbuch hinzu, Hotel Goldenes Rad hin- zufügen, Speichere die Poststraße 1 im Adressbuch oder ich möchte Aldi in Ulm hinzufügen.“ N: „Füge Peking Ente zu meinem Adressbuch hinzu.“ S: „Das Restaurant Peking Ente wurde zu Ihrem Adress- buch hinzugefügt.“ 178 unterlagen zu studien

a.1.2 SUEDE als Wizard-of-Oz Tool

Deﬁnition des Dialogs mit SUEDE anhand des Beispiels der Naviga- tion nach Berlin, Brandenburger Tor (siehe Tabelle 3.1: Anwendung 1 von Aufgabe 5). Systemäußerungen sind als orange Zustände und mögliche Nutzeräußerungen als grüne Kanten dargestellt: A.1 explorative fahrsimulatorstudie 179

Während der Ausführung bekommt der Wizard je nach Dialogzu- stand die möglichen Nutzeräußerungen angezeigt (ausgehende Kan- ten). Im Beispiel beﬁndet sich der Dialog im Zustand . Sagt der Nutzer daraufhin „Starte Navigationsanwendung“, oder eine semantisch identische Äußerung, klickt der Wizard den ersten Link. Im Dialog wird daraufhin der Systemzustand D aktiviert und die Syste- mäußerung „Navigation, was möchten Sie?“ ausgegeben. Auf allgemeine Nutzeräußerungen wie „Erneut vorlesen“ kann in der oberen Leiste immer reagiert werden. 180 unterlagen zu studien

a.1.3 Vorbefragungsbogen

Zur Erstellung eines Proﬁls der Versuchsperson werden unter ande- File: vorbefragung.htm file:///D:/Dissertation/Doktorarbeit/Ausarbeitung/Abbildungen/... rem folgende Fragen gestellt:

Alter:

Geschlecht: männlich weiblich

Seit wieviel Jahren besitzen Sie den Führerschein?

Wie oft fahren Sie Auto?

wenige Male pro weniger als 1 mehr als 1 nie Woche Stunde am Tag Stunde am Tag

Wieviel Erfahrung haben Sie mit sprachbedienbaren Geräten (Computer, Mobiltelefon, Auto, usw.)?

keine sehr gering gering mittel viel sehr viel

Wenn ja, wie oft nutzen Sie diese sprachbedienbaren Geräte?

nie sehr selten selten manchmal häufig

Besitzen Sie ein Smartphone? nein ja

Wie viele Apps nutzen Sie im Durchschnitt pro Tag?

keine 1-5 6-10 11-20 >20

Stellen Sie sich vor Sie hätten eine neue App auf Ihrem Smartphone installiert. Was würden Sie machen um deren Bedienung zu erlernen? ich probiere ich schaue ein Video-Tutorial ich suche Online ich beachte Tipps beim Start ich schaue in der Sonstiges: Systemhilfe nach ich frage Freunde

1 von 3 18.01.2016 19:11 A.1 explorative fahrsimulatorstudie 181

Stellen Sie sich vor sie kommen bei der Bedienung Ihres Smartphones nicht weiter, was würden Sie machen um dennoch zum Ziel zu kommen? ich probiere ich schaue ein Video-Tutorial ich suche Online ich beachte Tipps beim Start ich schaue in der Sonstiges: Systemhilfe nach ich frage Freunde

Stellen Sie sich vor Sie hätten eine neue App auf Ihrem Infotainment-System im Auto während der Fahrt installiert. Was würden Sie machen um deren Bedienung zu erlernen? ich probiere ich rufe meinen Händler an ich suche Online mit dem Infotainment- ich rufe Freunde an System ich suche Online mit ich schaue ein Video-Tutorial im dem Smartphone Infotainment-System ich schaue in der Sonstiges: Systemhilfe nach ich schaue in der Betriebsanleitung

Stellen Sie sich vor Sie kommen bei der Bedienung Ihres Infotainment-Systems während der Fahrt nicht weiter. Was würden Sie machen um dennoch zum Ziel zu kommen? ich probiere ich rufe meinen Händler an ich suche Online mit dem Infotainment- ich rufe Freunde an System ich suche Online mit ich schaue ein Video-Tutorial im dem Smartphone Infotainment-System ich schaue in der Sonstiges: Systemhilfe nach ich schaue in der Betriebsanleitung

...

Dieses Formular wurde mit GrafStat (Ausgabe 2013 / Ver 4.276) erzeugt. Informationen zu GrafStat: http://www.grafstat.de 182 unterlagen zu studien

a.1.4 Fragebogen zur subjektiv empfundenen Belastung

Nach einer Fahrt im Fahrsimulator bewerten Versuchspersonen die subjektiv empfundene Belastung mittels DALI-Fragebogen (deutsche Übersetzung nach Hofmann (2014)):

Wie hoch waren die Anforderungen an die globale Aufmerksamkeit? (Erklärung: Insgesamt alle mentalen (denken, entscheiden...), visuellen und auditiven Faktoren, die insgesamt während des Versuchs erforderlich sind, um die Gesamtleistung zu erzielen) gering1 2 3 4 5 6 7hoch

Wie hoch waren die auditiven Anforderungen? (Erklärung: Auditive Faktoren, die während des Versuchs erforderlich sind, um die Gesamtleistung zu erzielen (alles, was mit Gehörtem zu tun hat)) gering1 2 3 4 5 6 7hoch

Wie stark war das Stressniveau? (Erklärung: Stressniveau während des Versuchsablaufs wie Irritation, Müdigkeit, Unsicherheit, Entmutigung, etc.) gering1 2 3 4 5 6 7hoch

Wie stark war der Interferenzfaktor? (Erklärung: Beeinträchtigung des Fahrerzustandes und Auswirkungen auf die Fahrleistung durch die gleichzeitige Zweitaufgabe des Sprachdialogs während dem Fahren) gering1 2 3 4 5 6 7hoch

Wie hoch war die zeitliche Anforderung? (Erklärung: Gefühlte Belastung und spezifische Beeinträchtigung durch die schnelle Abfolge der Aufgabe) gering1 2 3 4 5 6 7hoch

Dieses Formular wurde mit GrafStat (Ausgabe 2013 / Ver 4.276) erzeugt. Informationen zu GrafStat: http://www.grafstat.de A.2 internetstudie zu hilfestrategien 183

a.2 internetstudie zu hilfestrategien

In den folgenden Abschnitten sind Unterlagen zur zweiten Benutzer- studie dargestellt, welche als Ergänzung zu Abschnitt 3.2 dienen.

a.2.1 Vorbefragungsbogen

Zur Erstellung eines Proﬁls der Versuchsperson werden unter ande-

rem folgende Fragen gestellt (mit dem Tool LimeSurvey1 erstellt):

£¨ ¦£ §

+ , -¤

§'$$*

4¤¤ 5¤6 7¤67 7¤67 8 8¤ 9¤ 5¤6 9¤

¤ 5¤6 5¤8¤ 5¤8¤ ,, < =7 4¤¤ >8 ?68

GHIJJG KL H GHI JJG R ORH

MINOG PQ MI NOG PQ GRIST UGRIST GHIJJG RORH PQ GHIJJG VW SS PQ

XYZ [\]]\ ^_\

` \_ab\]

cd][b _e]\] ^\ f

\g\[bfe ]_aYZ\]

h\ fib\ j ^_\ _YZ

k \a_bl\

ma ` nYZb ` _f

op nqj \_]

\ g\[bfe ]_aYZ\a

h \ fib

ndaldpfek _\f\]

mg\[bfe ]_aYZ\

h \f ib\ ` nYZ\]

r_\g\a

d` abi]^g_YZ\f

XYZ [\]]\ ` _YZ

_` s\f \_YZ

\ g\[bfe]_aYZ\f

h \ fib\ nda

+ , -¤ $$$

1 http://www.limesurvey.org [Online 29.05.2015] 184 unterlagen zu studien

a.2.2 Fragebogen im interaktiven Teil

Für jede Interaktionsvariante wird im interaktiven Teil folgender Fra- gebogen zur Gebrauchstauglichkeit gestellt. Da das SDS lediglich eine Antwort gibt, wird ein angepasster SASSI-Fragebogen (deutsche Übersetzung nach Strauss (2010)) verwendet, mit zusätzlichen drei Fragen aus dem ITU-T Rec. P.851 zu Hilfe, Konzentration und Ge-

samteindruck (International Telecommunication Union (ITU), 2003).

¢ ©¨¢£¤

¥ ! "# ¥$ % & ¥ ' ¥%(¥ ) # % *¥ + ", ,-. % -" ) *-, . , / % & 0, 1 2 " # )) %3

4 56789 4 56789

: ;< 9=>?> @ >9?576 < A?45BC C ?>@

DE FEG HIJKJ LMNOP Q KMRIK

SJQK JTUJVWSXX T FKEK

SUYV NZK KO Y[MMKJ L\ JJGK]

^FK SJG Q_OG TK E `aEGKb E

FEG X OcdFEK]

^FK SJG Q_OG TK E `aEGKb E

FEG UJe_OIKOEK IZNO]

^FK SJG Q_OG TK E `aEGKb E

FEG KY Y FdFKJG]

^FK SJG Q_OG TK E `aEGKb E

FEG J[Gd MFRI]

^FK SJG Q_OG TK E `aEGKb E

FEG NJVKJK Ib]

^FK SJG Q_OG TK E `aEGKb E

FEG FOOFGFKOKJT]

^FK SJG Q_OG TK E `aEGKb E

FEG YO UEGOFKOKJT]

fNRI KFJKb gKIMKO Q [OTK

T FK SJGQ_O G b FO IKMYKJP

b FRI Q FKTKO dUOK RIG dU

Y FJTKJ]

DE FEG LMNOP Q FK b NJ b FG

T Kb `aEGKb JNRI TK O

SJGQ_O G d U EX OKRIK J ING]

`FK IcGGKJ EFRI b K IO

h FMYK e_b `aEGKb

KO QNOG KG]

`FK b UEEGKJ EFRI

L_JdK JGOFKOKJP Ub dU

eKOEGK IK JP QNE TNE

`aEGK b e_J HIJKJ

Q_ MMGK]

¥ i #ij$$, k% *¥. % &¥ *-, )j$. % * l 13

49 =7 4 9=7

4 m=<9m =5 >9?576 < @ ?5

SMMKE FJ SMMKb Y FJTKJ `FK

TFK SJGQ_ OG TK E `aEGK bE] ]] A.3 fahrsimulatorstudie zu hilfestrategien 185 a.3 fahrsimulatorstudie zu hilfestrategien

Im folgenden Abschnitt sind Unterlagen zur Fahrsimualtorstudie über Hilfestrategien (siehe Abschnitt 3.3) dargestellt. a.3.1 Vorbefragungsbogen

Mit dem folgenden Fragebogen wird ein Proﬁl der Person erstellt:

Alter: Geschlecht: männlich weiblich

Wie oft fahren Sie Auto?

wenige Male pro weniger als 1 mehr als 1 Stunde nie Woche Stunde am Tag am Tag

Wieviel Erfahrung haben Sie mit sprachbedienbaren Geräten (Computer, Mobiltelefon, Auto, usw.)?

keine sehr gering gering mittel viel sehr viel

Wenn ja, mit welchen Geräten haben Sie Erfahrungen gesammelt?

Wie oft nutzen Sie sprachbedienbare Geräte?

häufig manchmal selten sehr selten nie

Besitzen Sie ein Smartphone? ja nein

Geben Sie an, wie gut folgende Aussagen auf Sie zutreffen: trifft gar teils / trifft voll nicht zu teils zu Ich kenne die meisten Funktionen der elektronischen Geräte, die ich besitze Es macht mir Spaß, ein elektronisches Gerät auszuprobieren Elektronische Geräte machen vieles umständlicher Ich kenne mich im Bereich elektronischer Geräte aus

...

Dieses Formular wurde mit GrafStat (Ausgabe 2014 / Ver 4.310) erzeugt. Informationen zu GrafStat: http://www.grafstat.de 186 unterlagen zu studien

a.3.2 Fragebogen zur Bewertung der Bedingungen

Zur Bewertung der Bedingungen bezüglich subjektiv empfundener Belastung wird der DALI-Fragebogen (siehe AnhangA. 1.4) mit 5- stuﬁger Likert-Skala gestellt. Da die Studie jedoch eine visuelle Dar- stellung im Infotainment-System beinhaltet, wird das entsprechende Item des DALI-Fragebogens hinzugenommen (deutsche Übersetzung nach Hofmann (2014):

Wie hoch waren die visuellen Anforderungen? (Erklärung: Visuelle Faktoren, die während des Versuchs erforderlich sind, um die Gesamtleistung zu erzielen (alles, was mit dem Sehen zu tun hat)) sehr gering gering neutral hoch sehr hoch

Zusätzlich erfolgt eine Bewertung der Gebrauchstauglichkeit durch folgende Items des SASSI-Fragebogens (deutsche Übersetzung nach Strauss (2010)):

trifft gar trifft voll teils / teils nicht zu zu Das System ist nützlich Das System ist angenehm Es hat mir Spaß gemacht das System zu benutzen Es ist klar, wie man mit dem System zu sprechen hat Es ist einfach zu lernen wie man mit dem System umzugehen hat Ich würde das System im Alltag benutzen Ein hohes Maß an Konzentration ist im Umgang mit dem System nötig Das System ist einfach zu benutzen Ich wusste immer, wie ich mit dem System zu sprechen habe

Dieses Formular wurde mit GrafStat (Ausgabe 2014 / Ver 4.310) erzeugt. Informationen zu GrafStat: http://www.grafstat.de KONZEPT,IMPLEMENTIERUNG,EVALUATION B b.1 beweis der formel (3)

Annahmen: P Anzahl an Konstituenten p AP Anzahl an Alternativen für Konstituente p Op,a Objekt O der Wissensbasis in p-ter Konstituenten und a-ten Alternative der Nutzereingabe Zu zeigen:

P Ap A A P

G G0 GP

G G Op,a ≡ ··· Op,ap p=0 a=0 a0=0 aP=0 p=0 Beweis:

P Ap P

G G Op,a ≡ [Op,0 t · · · t Op,Ap ] p=0 a=0 p=0

≡ [O0,0 t · · · t O0,A0 ] u · · · u [OP,0 t · · · t OP,AP ]

≡ [O0,0 u O1,0 u · · · u OP,0]

t [O0,0 u O1,0 u · · · u OP,1] t · · ·

t [O0,A0 u O1,A1 u · · · u OP,AP ] A G0 ≡ [O0,a0 u O1,0 u · · · u OP,0 a0=0

t O0,a0 u O1,0 u · · · u OP,1 t · · ·

t O0,a0 u O1,A1 u · · · u OP,AP ] A A G0 G1 ≡ [O0,a0 u O1,a1 u · · · u OP,0 a0=0 a1=0

t O0,a0 u O1,a1 u · · · u OP,1 ···

t O0,a0 u O1,a1 u · · · u OP,AP ] A A G0 GP ≡ ··· [O0,a0 u · · · u OP,aP ] a0=0 aP=0 A A P

G0 GP ≡ ··· G Op,ap q.e.d. a0=0 aP=0 p=0

187 188 konzept, implementierung, evaluation

b.2 taskmodell und domänenobjekte der busanwendung 4 32 t.neigh Wohngegend Eastmont x 23 28 TaskbusService Buswebservicedate Übersetzungdate.aday Beispieldate.day Absoluter Tag Datumdate.month Wochentag Monatdate.relf.desc Heute Relativer Tagf.mon Juli Taskf.neigh nächster Montag Bushaltestellefrom t.desc Landmarke Spring Hill Wohngegendroute Flughafen time.arriveleave Downtown Abfahrt Ankunft- Übersetzung oder time Abfahrtszeit Busroute Bushaltestelle ankommen time.hour t.mon time.ampm time.rel time.minute Zeit Vormittag, Stunde Nachmittag Beispiel Wood Minute Street Landmarke a.m., Relative p.m. Zeit to Carnegie Mellon Universität jetzt Ankunft B.2 taskmodell und domänenobjekte der busanwendung 189

Task referenzierte Domänenobjekte route (route%1:15:00::, inst, true) t ((route%1:15:00::, con, true) u (route%1:15:00::, inst, true)) from case:FROM Stanford CoreNLP: prep_from f.desc (bus_stop%1:15:00::, inst, true) f.neigh (city%1:15:00::, inst, true) t (city_district%1:15:00::, inst, true) f.mon (monument%1:06:00::, inst, true) to case:TO Stanford CoreNLP: prep_to t.desc (bus_stop%1:15:00::, inst, true) t.neigh (city%1:15:00::, inst, true) t (city_district%1:15:00::, inst, true) t.mon (monument%1:06:00::, inst, true) date.day (today%1:28:01::, con, false) t (tomorrow%1:28:01::, con, false) t (day_of_the_week%1:28:00::, con, true) date.month (gregorian_calendar_month%1:28:00::, con, true) date.aday (day_of_the_month%1:28:00::, inst, true) date.rel (next%5:00:00:succeeding:00, con, true) u (day_of_the_week%1:28:00::, con, true) time.hour (hour%1:28:01::, inst, false) u (o0clock%4:02:00::, con, true) time.minute (minute%1:28:00::, inst, true) u (minute%1:28:00::, con, true) time.ampm (a.m.%5:00:00:ante_meridiem:00, con, false) t (a.m.%4:02:00::, con, false) t (p.m.%5:00:00:post_meridiem:00, con, false) t (p.m.%4:02:00::, con, false) time.arriveleave (arrival%1:04:01::, con, true) t (leave%1:04:00::, con, true) time.rel (next%5:00:00:succeeding:00, con, true) t (now%4:02:01::, con, false) 190 konzept, implementierung, evaluation

b.3 dateien der evaluation

Für die Evaluation des Konzeptes wird der Korpus sowie Methodi- ken der DSTC verwendet. Der folgende Abschnitt zeigt Beispiele der Dateitypen der DSTC und dient somit als Ergänzung zu Abschnitt 5.2. Die Dateien sind im JSON-Format deﬁniert und werden mit Altova XMLSpy 20151 dargestellt (Lizenz: 30 Tage Testversion).

b.3.1 Dialogprotokoll

Das Dialogprotokoll stellt jeweils eine Interaktion zwischen SDS und Nutzer dar, also genau einen Telefonanruf. Folgender Ausschnitt zeigt zwei Dialogschritte (turns) mit jeweils einer Systemausgabe (output) und einer Nutzereingabe (input).

b.3.2 Manuell annotierte Referenzdatei

In der Referenzdatei wird ein Dialog manuell von Menschen annotiert. Dies beinhaltet eine Verschriftung (transcription) und Bewertung der semantischen Interpretationen (labels):

1 http://www.altova.com/de/xmlspy.html [Online 11.11.2015] B.3 dateien der evaluation 191

b.3.3 Interpretation des Dialog-Trackers

Der Dialog-Tracker führt pro Dialogschritt die Interpretation der Nut- zeräußerung nach Slots getrennt auf:

b.3.4 Fusionierte korrekt annotierte Eingabe

In der fusionierten Eingabe werden alle korrekt annotierten Labels zusammengefasst. Im Folgenden sind zwei Dialoge dargestellt, im ersten mit einer korrekt annotierten Eingabe, im zweiten mit sieben korrekten:

LITERATUR publikationen des autors

Hofmann, H., U. Ehrlich, S. Reichel und A. Berton (2013). “Deve- lopment of a Conversational Speech Interface Using Linguistic Grammars”. In: Adjunct Proceedings of the AutomotiveUI Conference. Eindhofen, Niederlande: ACM. Reichel, S., A. Berton, U. Ehrlich und M. Weber (2013). “Semantische Anwendungsmodellierung und Nutzermodelle: Anforderungen an einen sprachlich zu bedienenden persönlichen Assistenten im dynamischen Systemumfeld”. In: Tagungsband der 24. Konferenz Elektronische Sprachsignalverarbeitung. Bielefeld, Deutschland: TUD- Press. Reichel, S., U. Ehrlich, A. Berton und M. Weber (2014). “In-Car Multi- Domain Spoken Dialogs: A Wizard of Oz Study”. In: EACL Work- shop Dialog in Motion. Göteborg, Schweden: ACL. —(2015a). “Evaluation of Machine-led Error Recovery Strategies for Domain Switches in a Spoken Dialog System”. In: Proceedings of the 6th International Workshop on Spoken Dialog Systems. Busan, Südkorea. —(2015b). “Evaluation of Machine-led Error Recovery Strategies for Domain Switches in a Spoken Dialog System”. In: Natural Langua- ge Dialog Systems and Intelligent Assistants. Hrsg. von G. Lee, H. Kim, M. Jeong und J.-H. Kim. Springer International Publishing. Reichel, S., U. Ehrlich und M. Weber (2012). “Speech Dialog Genera- tion from Graphical UIs of Nomadic Devices and the Integration into an Automotive HMI”. In: Adjunct Proceedings of the Automoti- veUI Conference. Portsmouth, USA: ACM. Reichel, S., T. Müller, O. Stamm, F. Groh, B. Wiedersheim und M. We- ber (2011). “MAMPF: An Intelligent Cooking Agent for Zoneless Stoves”. In: Proceedings of the 7th International Conference on Intelli- gent Environments. Nottingham, UK: IEEE. Reichel, S., P. Pfarherr, U. Ehrlich, A. Berton und M. Weber (2014). “Semantisches Taskmodell für Dialoge mit Taskwechsel”. In: Ta- gungsband der 25. Konferenz Elektronische Sprachsignalverarbeitung. Dresden, Deutschland: TUDPress. Reichel, S., J. Sohn, U. Ehrlich, A. Berton und M. Weber (2014). “Out- of-Domain Spoken Dialogs in the Car: A WoZ Study”. In: Procee- dings of the 15th Annual SIGdial Meeting on Discourse and Dialogue. Philadelphia, USA: ACL. Reichel, S., P. Szauer und M. Weber (2015). “In-Car Distraction Issues of Auditory and Visual Modality for Spoken List Selection Tasks”.

193 194 Literatur

In: Proceeding of the International Symposium on Companion Techno- logy. Ulm, Deutschland: Universität Ulm. Reichel, S. (2012). Automatic Speech Dialog Generation from User Interfa- ces of Mobile Applications. Diplomarbeit, Universität Ulm.

referenzen

Allen, J., D. Byron, M. Dzikovska, G. Ferguson, L. Galescu und A. Stent (2000). “An Architecture for a Generic Dialogue Shell”. In: Natural Language Engineering 6.3-4. Cambridge Univ. Press. Araki, M. und Y. Funakura (2010). “Impact of Semantic Web on the Development of Spoken Dialogue Systems”. In: Spoken Dialogue Systems for Ambient Environments. Hrsg. von G. Lee, J. Mariani, W. Minker und S. Nakamura. Bd. 6392. Lecture Notes in Computer Science. Springer Berlin Heidelberg. Aristoteles, übersetzt und erläutert von Kirchmann (1871). Drei Bücher über die Seele. L. Heimann. Atrey, P., A. Hossain, A. El Saddik und M. Kankanhalli (2010). “Multi- modal Fusion for Multimedia Analysis: A Survey”. In: Multimedia Systems 16.6. Springer Berlin Heidelberg. Aust, H., M. Oerder, F. Seide und V. Steinbiss (1994). “Experience with the Philips Automatic Train Timetable Information System”. In: Proceedings of the 2nd IEEE Workshop on Interactive Voice Technology for Telecommunications Applications. Kyoto, Japan: IEEE. Bach, K., M. Jæger, M. Skov und N. Thomassen (2008). “You Can Touch, but You Can’t Look: Interacting with In-vehicle Systems”. In: Proceedings of the SIGCHI Conference on Human Factors in Com- puting Systems. Florence, Italien: ACM. Banchs, R., R. Jiang, S. Kim, A. Niswar und K. Yeo (2013). “AIDA: Ar- tiﬁcial Intelligent Dialogue Agent”. In: Proceedings of the SIGDIAL Conference. Metz, Frankreich: ACL. Barón, A. und P. Green (2006). Safety and Usability of Speech Interfaces for In-Vehicle Tasks while Driving: A Brief Literature Review. Techn. Ber. University of Michigan Transportation Research Institute. Ba¸sdo˘gan,Ç. und B. Loftin (2009). “Multimodal Display Systems: Haptic, Olfactory, Gustatory, and Vestibular”. In: The PSI Hand- book of Virtual Environments for Training and Education. Hrsg. von D. Nicholson, D. Schmorrow und J. Cohn. Bd. 2. Praeger Security International. Basil, M. (2012). “Multiple Resource Theory”. In: Encyclopedia of the Sciences of Learning. Hrsg. von N. Seel. Springer USA. Becker, T. (2010). “(Multimodale) Dialogssteme”. In: Computerlinguis- tik und Sprachtechnologie. Hrsg. von K.-U. Carstensen, C. Ebert und C. Ebert. Spektrum Akademischer Verlag. Kap. 5.5. Behnke, G. u. a. (2015). “Coherence Across Components in Cognitive Systems–One Ontology to Rule Them All”. In: Proceedings of the Literatur 195

25th International Joint Conference on Artificial Intelligence. Buenos Aires, Argentinien: AAAI Press. Bellotti, F., A. De Gloria, R. Montanari, N. Dosio und D. Morreale (2005). “COMUNICAR: Designing a Multimedia, Context-Aware Human-Machine Interface for Cars”. In: Cognition, Technology & Work 7.1. Springer London. Bellur, U., H. Vadodaria und A. Gupta (2008). “Semantic Matchma- king Algorithms”. In: Greedy Algorithms. Hrsg. von W. Bednorz. Rijeka, Kroatien: InTech. Kap. 26. Berant, J., A. Chou, R. Frostig und P. Liang (2013). “Semantic Parsing on Freebase from Question-Answer Pairs”. In: Proceedings of the International Conference on Empirical Methods on Natural Language Processing. Seattle, USA: ACL. Berelson, B. und G. Steiner (1964). Human Behavior: An Inventory of Scientific Findings. Hrsg. von L. Warshay. Harcourt, Brace & World. Berg, M. (2013). “Natürlichsprachlichkeit in Dialogsystemen”. In: In- formatik-Spektrum 36.4. Springer Berlin Heidelberg. Berners-Lee, T., J. Hendler, O. Lassila u. a. (2001). “The Semantic Web”. In: Scientific American 284.5. Nature Publishing Group. Bernsen, N., H. Dybkjær und L. Dybkjær (1997). Designing Interactive Speech Systems: From First Ideas to User Testing. Secaucus, USA: Springer New York. Berton, A., D. Bühler und W. Minker (2006). “SmartKom-Mobile Car: User Interaction with Mobile Services in a Car Environment”. In: SmartKom: Foundations of Multimodal Dialogue Systems. Hrsg. von W. Wahlster. Cognitive Technologies. Springer Berlin Heidelberg. Bertrand, G. (2014). Situation- and User-Adaptive Dialogue Management. Dissertation, Universität Ulm. Bizer, C. u. a. (2009). “{DBpedia} - A Crystallization Point for the Web of Data”. In: Web Semantics: Science, Services and Agents on the World Wide Web 7.3. Elsevier Ltd. Black, A., S. Burger, B. Langner, G. Parent und M. Eskenazi (2010). “Spoken Dialog Challenge 2010”. In: Proceedings of the IEEE Work- shop on Spoken Language Technology. Berkeley, USA: IEEE. Blattner, M. und E. Glinert (1996). “Multimodal Integration”. In: Mul- tiMedia 3.4. IEEE. Bohus, D. (2007). Error Awareness and Recovery in Conversational Spo- ken Language Interfaces. Dissertation, Carnegie Mellon University. Pittsburgh, USA. Bohus, D. und A. Rudnicky (2001). “Modeling the Cost of Misunder- standing Errors in the CMU Communicator Dialog System”. In: Proceedings of the IEEE Workshop on Automatic Speech Recognition and Understanding. Pittsburgh, USA: IEEE. —(2003). “RavenClaw: Dialog Management Using Hierarchical Task Decomposition and an Expectation Agenda”. In: Proceedings of Eurospeech. Genf, Schweiz: ISCA. 196 Literatur

Bohus, D. und A. Rudnicky (2005). “Sorry, I Didn’t Catch That! An Investigation of Non-understanding Errors and Recovery Strate- gies”. In: Proceedings of the 6th Annual SIGdial Meeting on Discourse and Dialogue. Lisbon, Portugal: ACL. —(2009). “The RavenClaw Dialog Management Framework: Archi- tecture and Systems”. In: Computer Speech & Language 23.3. Else- vier Ltd. Bollacker, K., C. Evans, P. Paritosh, T. Sturge und J. Taylor (2008). “Freebase: A Collaboratively Created Graph Database for Struc- turing Human Knowledge”. In: Proceedings of the 2008 ACM SIG- MOD International Conference on Management of Data. Vancouver, Kanada: ACM. Bolt, R. (1980). “Put-that-there: Voice and Gesture at the Graphics Interface”. In: SIGGRAPH Computer Graphics 14.3. ACM. Boros, M., W. Eckert, F. Gallwitz, G. Gorz, G. Hanrieder und H. Nie- mann (1996). “Towards Understanding Spontaneous Speech: Word Accuracy vs. Concept Accuracy”. In: Proceedings of the 4th Interna- tional Conference on Spoken Language. Philadelphia, USA: IEEE. Boucsein, W. u. a. (2012). “Publication Recommendations for Electro- dermal Measurements”. In: Psychophysiology 49. Wiley Online Li- brary. Bourguet, M.-L. (2011). “Uncertainty and Error Handling in Pervasi- ve Computing: A User’s Perspective”. In: Ubiquitous Computing. Hrsg. von E. Babkin. InTech. Kap. 3. Brinton, B. und M. Fujiki (1984). “Development of Topic Manipulati- on Skills in Discourse”. In: Speech, Language, and Hearing Research 27.3. ASHA. Brutti, A., L. Cristoforetti, W. Kellermann, L. Marquardt und M. Omo- logo (2010). “WOZ Acoustic Data Collection for Interactive TV”. In: Language Resources and Evaluation 44.3. Springer Niederlande. Bulyko, I., K. Kirchhoff, M. Ostendorf und J. Goldberg (2005). “Error- Correction Detection and Response Generation in a Spoken Dia- logue System”. In: Speech Communication 45.3. Elsevier Ltd. Burgoon, J., L. Guerrero und V. Manusov (2011). “Nonverbal Signals”. In: The SAGE Handbook of Interpersonal Communication. Hrsg. von M. Knapp und J. Daly. SAGE Publications. Kap. 8. Caird, J., C. Willness, P. Steel und C. Scialfa (2008). “A Meta-analysis of the Effects of Cell Phones on Driver Performance”. In: Accident Analysis & Prevention 40.4. Elsevier Ltd. Caissie, R. (2002). “Changing Topics and Communication Breakdowns”. In: The Volta Review. AG Bell Academy. Calvary, G. u. a. (2002). “The CAMELEON Reference Framework”. In: Deliverable 1.1 of the CAMELEON Project. http : / / giove . isti . cnr . it / projects / cameleon / deliverable1 _ 1 . html [Online 27.12.2016]. Literatur 197

Card, S., A. Newell und T. Moran (1983). The Psychology of Human- Computer Interaction. Hillsdale, USA: L. Erlbaum Associates Inc. Carstensen, K.-U., C. Ebert, C. Ebert, S. Jekat, R. Klabunde und H. Langer (2010). Computerlinguistik und Sprachtechnologie. Spektrum Akademischer Verlag. Castronovo, A., C. Endres, T. Schneeberger und C. Müller (2011). “Determining Human-Centered Parameters of Ergonomic Micro- Gesture Interaction for Drivers Using the Theatre Approach”. In: Proceedings of the 3rd International Conference on Automotive User In- terfaces and Interactive Vehicular Applications. Salzburg, Österreich: ACM. Cavedon, L., M. Purver, F. Ratiu, C. Hall und P. Stanford (2005). “Com- bining Confidence Scores with Contextual Features for Robust Multi-Device Dialogue”. In: Proceedings of the Australasian Langua- ge Technology Workshop. Sydney, Australien: ACL. Cherry, E. (1953). “Some Experiments on the Recognition of Speech, with One and with Two Ears”. In: The Journal of the Acoustical Society of America 25.5. AIP Publishing. Christensen, E., F. Curbera, G. Meredith und S. Weerawarana (2001). Web Services Description Language (WSDL) 1.1.W3C Note. W3C. Chu, S. und J. Downes (2000). “Odour-evoked Autobiographical Me- mories: Psychological Investigations of Proustian Phenomena”. In: Chemical Senses 25.1. Oxford University Press. Clark, H. (1996). Using Language. Cambridge University Press. Cohen, M., J. Giangola und J. Balogh (2004). Voice User Interface Design. Addison-Wesley. Cohen, P., M. Johnston, D. McGee, S. Oviatt, J. Clow und I. Smith (1998). “The Efficiency of Multimodal Interaction: a Case Study.” In: Proceedings of the 5th International Conference on Spoken Language Processing. Sydney, Australien: ACL. Cooper, J., I. Hailey und D. Strayer (2014). Mental Workload of Common Voice-Based Vehicle Interactions across Six Different Vehicle Systems. Techn. Ber. Washington DC, USA: AAA Foundation. Corbin, A. (2008). Le miasme et la jonquille : L’odorat et l’imaginaire social aux XVIIIe et XIXe siècles. Flammarion Champs Histoire. Dance, F. (1970). “The Concept of Communication”. In: Journal of Com- munication 20.2. Blackwell Publishing Ltd. Danilava, S., S. Busemann und C. Schommer (2012). “Artificial Con- versational Companions. Requirement Analysis”. In: Proceedings of the 4th International Conference on Agents and Artificial Intelligence. Vilamoura, Portugal: SciTePress. Daume III, H. und D. Marcu (2006). “Domain Adaptation for Statisti- cal Classifiers”. In: Journal of Artificial Intelligence Research 26.1. AI Access Foundation. Dausend, M. und U. Ehrlich (2008). “A Prototype for Future Spoken Dialog Systems Using an Embodied Conversational Agent”. In: 198 Literatur

Perception in Multimodal Dialogue Systems. Hrsg. von E. André, L. Dybkjær, W. Minker, H. Neumann, R. Pieraccini und M. Weber. Springer Berlin, Heidelberg. De Marneffe, M.-C. u. a. (2014). “Universal Stanford Dependencies: A Cross-linguistic Typology”. In: Proceedings of the 9th International Conference on Language Resources and Evaluation. Reykjavik, Island: ELRA. de Waard, D. (1996). The Measurement of Drivers’ Mental Workload. Dis- sertation, University of Groningen, Niederlande. Deutsches Institut für Normung (DIN) e.V. (2008). DIN EN ISO 9241- 110. Doran, C., J. Aberdeen, L. Damianos und L. Hirschman (2001). “Com- paring Several Aspects of Human-computer and Human-human Dialogues”. In: Proceedings of the 2nd Annual SIGdial Meeting on Discourse and Dialogue. Aalborg, Dänemark: ACL. Driver Focus-Telematics Working Group (2006). Statement of Princip- les, Criteria and Veriﬁcation Procedures on Driver Interactions with Advanced In-Vehicle Information and Communication Systems. Techn. Ber. Alliance of Automotive Manufacturers. Ebner-Eschenbach, M. von (2015). Aphorismen. Hofenberg. Ehrlich, U. (1999). “Task Hierarchies Representing Sub-Dialogs in Speech Dialog Systems”. In: Proceedings of Eurospeech. Budapest, Ungarn: ISCA. European Language Resources Association (2015). Catalogue of Lan- guage Resources. http://www.elda.org/en/catalogues/catalogue- language-resources/ [Online 09.11.2015]. Falb, J., S. Kavaldjian, R. Popp, D. Raneburger, E. Arnautovic und H. Kaindl (2009). “Fully Automatic User Interface Generation from Discourse Models”. In: Proceedings of the 14th International Con- ference on Intelligent User Interfaces. Sanibel Island, Florida, USA: ACM. Falb, J., H. Kaindl, H. Horacek, C. Bogdan, R. Popp und E. Arnauto- vic (2006). “A Discourse Model for Interaction Design Based on Theories of Human Communication”. In: Conference for Human- Computer Interaction: Extended Abstracts on Human Factors in Com- puting Systems. Montréal, Kanada: ACM. Fellbaum, C. (1998). WordNet: An Electronic Lexical Database. Hrsg. von C. Fellbaum. Finlayson, M. (2014). “Java Libraries for Accessing the Princeton Word- net: Comparision and Evaluation”. In: Proceedings of the 7th Inter- national Global WordNet Conference. Tartu, Estland: ACL. Fitts, P. und M. Posner (1967). Human Performance. Basic Concepts in Psychology Series. Prentice-Hall International Incorporated. Ford-Werke GmbH (2014). Hungrig? Sprachgesteuertes Ford SYNC 2- Bediensystem reserviert einen Tisch im Restaurant und weist den Weg. Pressemitteilung 11.09.2014. Literatur 199

—(2015). How to use SYNC AppLink. http://www.ford.de/Rund-um- den-Service/Ford-SYNC/ [Online 08.07.2015]. Forrester, J. (1971). “Counterintuitive Behavior of Social Systems”. In: Technology Review. Bd. 73. 3. MIT Press. Foster, M. (2002). “State of the Art Review: Multimodal Fission”. In: Deliverable of the COnversational Multimodal Interaction with Compu- ters Project (COMIC, IST-2001-32311) 6.09. Fraser, N. und G.Gilbert (1991). “Simulating Speech Systems”. In: Computer Speech & Language 5.1. Elsevier Ltd. Fried, J. und R. Edmondson (2006). “How Customer Perceived Laten- cy Measures Success In Voice Self-Service”. In: Business Communi- cations Review 36.3. Key3Media Group. Friedman, M. (1937). “The Use of Ranks to avoid the Assumption of Normality Implicit in the Analysis of Variance”. In: Journal of the American Statistical Association 32.200. Taylor & Francis. Fromkin, V., R. Rodman und N. Hyams (2002). An Introduction to Lan- guage. Hrsg. von M. Rosenberg. 7. Auﬂ. Itps Thomson Learning. Gable, T., B. Walker, H. Moses und R. Chitloor (2013). “Advanced Au- ditory Cues on Mobile Phones Help Keep Drivers’ Eyes on the Road”. In: Proceedings of the 5th International Conference on Automo- tive User Interfaces and Interactive Vehicular Applications. Eindhoven, Niederlande: ACM. Gärtner, U., W. König und T. Wittig (2001). “Evaluation of Manual vs. Speech Input when Using a Driver Information System in Real Trafﬁc”. In: Proceedings of the International Driving Symposium on Human Factors in Driver Assessment, Training and Vehicle Design. Aspen, Colorado, USA. Gellatly, A. (1997). The Use of Speech Recognition Technology in Automo- tive Applications. Dissertation, Virginia Polytechnic Institute and State University, USA. Geutner, P., F. Steffens und D. Manstetten (2002). “Design of the VI- CO Spoken Dialogue System: Evaluation of User Expectations by Wizard-of-Oz Experiments”. In: Proceedings of the International Conference on Language Resources and Evaluation. Las Palmas, Spa- nien: ELRA. Geutner, P., F. Steffens, L. Peirlinckx u. a. (2004). “VICO: Development and Evaluation of an In-Car Natural Voice Interface”. In: Procee- dings of the International Conference on Acoustics, Speech, and Signal Processing. Montréal, Kanada: IEEE. Giese, M., T. Mistrzyk, A. Pfau, G. Szwillus und M. Detten (2008). “AMBOSS: A Task Modeling Approach for Safety-Critical Sys- tems”. In: Engineering Interactive Systems. Hrsg. von P. Forbrig und F. Paternò. Bd. 5247. Lecture Notes in Computer Science. Springer Berlin Heidelberg. Glass, J., J. Polifroni, S. Seneff und V. Zue (2000). “Data Collection And Performance Evaluation Of Spoken Dialogue Systems: The 200 Literatur

Mit Experience”. In: Proceedings of INTERSPEECH. Peking, China: ISCA. Goldwater, S., D. Jurafsky und C. Manning (2010). “Which Words are Hard to Recognize? Prosodic, Lexical, and Disfluency Factors that Increase Speech Recognition Error Rates”. In: Speech Commu- nication 52.3. Elsevier Ltd. Gong, Y. (1995). “Speech Recognition in Noisy Environments: A Sur- vey”. In: Speech Communication 16.3. Elsevier Ltd. Gorin, A., G. Riccardi und J. Wright (1997). “How May I Help You?” In: Speech Communication 23.1-2. Elsevier Ltd. Grice, P. (1975). “Logic and Conversation”. In: Syntax and Semantics. Hrsg. von P. Cole und J. Morgan. New York, USA: Academic Press. Griol, D., Z. Callejas, R. López-Cózar und G. Riccardi (2014). “A Domain-independent Statistical Methodology for Dialog Manage- ment in Spoken Dialog Systems”. In: Computer Speech & Language 28.3. Elsevier Ltd. Gruber, T. (1993). “A Translation Approach to Portable Ontology Spe- cifications”. In: Knowledge Acquisition 5.2. Academic Press. Gurevych, I., R. Porzel und R. Malaka (2006). The SmartKom Ontology. Heidelberg, Deutschland: European Media Laboratory GmbH. Halliday, A. und R. Hasan (2014). Cohesion in English. English Langua- ge Series. Taylor & Francis. Hamilton, B. (2014). Distracted Driving: Research Updates from 2013 and 2014. Washington DC, USA: AAA Foundation for Traffic Safety. Hamming, R. (1973). Numerical Methods for Scientists and Engineers. Bd. 2. New York, USA: McGraw-Hill. Hamp, B. und H. Feldweg (1997). “GermaNet - a Lexical-Semantic Net for German”. In: Proceedings of the ACL workshop on Automatic Information Extraction and Building of Lexical Semantic Resources for NLP Applications. Madrid, Spanien: ACL. Harbluk, J., Y. Noy und M. Eizenman (2002). The Impact of Cognitive Distraction on Driver Visual Behaviour and Vehicle Control. Techn. Ber. Transport Canada. Hart, S. und L. Staveland (1988). “Development of NASA-TLX (Task Load Index): Results of Empirical and Theoretical Research”. In: Human Mental Workload. Hrsg. von P. Hancock und N. Meshkati. Bd. 52. Advances in Psychology. Elsevier Ltd. Hartson, H., A. Siochi und D. Hix (1990). “The UAN: A User-oriented Representation for Direct Manipulation Interface Designs”. In: Transactions on Information Systems 8.3. ACM. Harvey, C., N. Stanton, C. Pickering, M. McDonald und P. Zheng (2011). “A Usability Evaluation Toolkit for In-Vehicle Information Systems (IVISs)”. In: Applied Ergonomics and Transportation Safety 42.4. Elsevier Ltd. Literatur 201

Hassel, L. und E. Hagen (2005). “Evaluation of a Dialogue System in an Automotive Environment”. In: Proceedings of the 6th Annual SIGdial Meeting on Discourse and Dialogue. Lisbon, Portugal: ACL. Hazen, T., T. Burianek, J. Polifroni und S. Seneff (2000). “Integrating Recognition Conﬁdence Scoring with Language Understanding and Dialogue Modeling.” In: Proceedings of INTERSPEECH. Bei- jing, China: ISCA. Healey, J. (2014). “Physiological Sensing of Emotion”. In: The Oxford Handbook of Affective Computing. Hrsg. von R. Calvo, S. D’Mello, J. Gratch und A. Kappas. Oxford University Press. Healey, J. und R. Picard (2005). “Detecting Stress During Real-world Driving Tasks Using Physiological Sensors”. In: Transactions on Intelligent Transportation Systems 6.2. IEEE. Heisterkamp, P. (2001). “Linguatronic Product-level Speech System for Mercedes-Benz Cars”. In: Proceedings of the 1st International Conference on Human Language Technology Research. San Diego, USA: ACL. Hempel, T. (2006). “Usability of Telephone-Based Speech Dialog Sys- tems as Experienced by User Groups of Different Age and Back- ground”. In: Proceedings of the 2nd ISCA/DEGA Tutorial and Rese- arch Workshop on Perceptual Quality of Systems. Bonn, Deutschland: ISCA. Hinckley, K. und D. Wigdor (2012). “Input Technologies and Techni- ques”. In: The Human-Computer Interaction Handbook. Hrsg. von J. Jacko. CRC Press Taylor & Francis Group. Hoare, Z., C. Whitaker und R. Whitaker (2013). “Introduction to a Generalized Method for Adaptive Randomization in Trials”. In: Trials 14.19. BioMed Central. Hoben, J. (1954). “English Communication at Colgate Re-examined”. In: Journal of Communication 4.3. Blackwell Publishing Ltd. Hofmann, H. (2014). Intuitive Speech Interface Technology for Information Exchange Tasks. Dissertation, Universität Ulm, Deutschland. Hofmann, H., U. Ehrlich, A. Berton und W. Minker (2012). “Speech Interaction with the Internet - A User Study”. In: Proceedings of the 8th International Conference on Intelligent Environments. Guana- juato, Mexico: IEEE. Hofmann, H., A. Silberstein, U. Ehrlich, A. Berton, C. Müller und A. Mahr (2014). “Development of Speech-Based In-Car HMI Con- cepts for Information Exchange Internet Apps”. In: Natural Inter- action with Robots, Knowbots and Smartphones. Hrsg. von J. Mariani, S. Rosset, M. Garnier-Rizet und L. Devillers. Springer New York. Hofmann, H., V. Tobisch, U. Ehrlich, A. Berton und A. Mahr (2014). “Comparison of Speech-based In-car HMI Concepts in a Driving Simulation Study”. In: Proceedings of the 19th International Confe- rence on Intelligent User Interfaces. Haifa, Israel: ACM. 202 Literatur

Hone, K. und R. Graham (2000). “Towards a Tool for the Subjecti- ve Assessment of Speech System Interfaces (SASSI)”. In: Natural Language Engineering 6.3&4. Cambridge Univ Press. Honold, F. (unveröffentlicht). Interaktionsmanagement und Modalitätsar- bitrierung für adaptive und multimodale Mensch-Computer Interaktion (vorläufiger Titel). Dissertation, Universität Ulm, Deutschland. Honold, F., F. Schüssel und M. Weber (2012). “Adaptive Probabilistic Fission for Multimodal Systems”. In: Proceedings of the 24th Austra- lian Computer-Human Interaction Conference. Melbourne, Australia: ACM. Horrey, W. und C. Wickens (2004). “Cell Phones and Driving Perfor- mance: A Meta-analysis”. In: Proceedings of the 48th Annual Mee- ting on Human Factors and Ergonomics Society. SAGE Publications. New Orleans, USA. Hummel, M. (2003). Hermine, bitte schleudern! http://speech-experts. com/hermine-bitte-schleudern/ [Online 28.12.2016]. Speech Ex- perts GmbH. Hurtig, T. und K. Jokinen (2006). “Modality Fusion in a Route Navi- gation System”. In: Proceedings of the Workshop on Effective Multi- modal Dialogue Interfaces. Sydney, Australien: ACM. Hymes, D. (1962). “The Ethnography of Speaking”. In: Anthropology and human behavior 13.53. Anthropological Society of Washington. International Telecommunication Union (ITU) (2003). Subjective Quali- ty Evaluation of Telephone Services Based on Spoken Dialogue Systems. ITU-T Rec. P.851. Jensen, B., M. Skov und N. Thiruravichandran (2010). “Studying Dri- ver Attention and Behaviour for Three Configurations of GPS Na- vigation in Real Traffic Driving”. In: Proceedings of the 28th SIGCHI Conference on Human Factors in Computing Systems. Atlanta, USA: ACM. Johnson, J. und A. Henderson (2011). Conceptual Models: Core to Good Design. Hrsg. von J. Carroll. Morgan & Claypool Publishers. Johnson, P., P. Johnson und A. Shouls (1988). “Task-Related Knowled- ge Structures: Analysis, Modelling and Application”. In: People and Computers IV. University Press. Jokinen, K. und M. McTear (2010). Spoken Dialogue Systems. Synthesis lectures on human language technologies. Morgan & Claypool Publishers. Jonze, S. (2014). Her. [Annapuma Pictures]. USA. Kaasinen, E. (2005). User Acceptance of Mobile Services: Value, Ease of Use, Trust and Ease of Adoption. Dissertation, Tampere University of Technology, Finnland. Kamm, C. (1995). “User Interfaces for Voice Applications”. In: Voi- ce Communication between humans and machines. Bd. 92. National Academy Press. Literatur 203

Karat, C.-M., J. Lai, O. Stewart und N. Yankelovich (2012). “Speech and Language Interfaces, Applications, and Technologies”. In: The Human-Computer Interaction Handbook. Hrsg. von J. Jacko. CRC Press Taylor & Francis Group. Kellar, M., C. Watters und M. Shepherd (2006). “A Goal-based Clas- siﬁcation of Web Information Tasks”. In: Proceedings of the 69th Annual Meeting of the American Society for Information Science and Technology. Austin, USA: ASIS&T. Kern, D. und A. Schmidt (2009). “Design Space for Driver-based Au- tomotive User Interfaces”. In: Proceedings of the 1st International Conference on Automotive User Interfaces and Interactive Vehicular Applications. Essen, Deutschland: ACM. Klemmer, S., A. Sinha, J. Chen, J. Landay, N. Aboobaker und A. Wang (2000). “Suede: a Wizard of Oz prototyping tool for speech user interfaces”. In: Proceedings of the 13th annual ACM symposium on User interface software and technology. San Diego, USA: ACM. Klinke, R. und S. Silbernagl (1996). Lehrbuch der Physiologie. Georg Thieme. Klug, T. und J. Kangasharju (2005). “Executable Task Models”. In: Pro- ceedings of the 4th international workshop on Task models and diagrams. Gdansk, Polen: ACM. Knapp, M. und J. Hall (2009). Nonverbal Communication in Human In- teraction. Cengage Learning. Köhler, A. (2010). Intelligent Data Interchange (IDI): Interventionsfrei- er Geschäfsdatenaustausch durch Wissensrepräsentation und ontologi- sches Matching. Entwicklung und Management von Informations- systemen und intelligenter Datenauswertung. Vieweg+Teubner. Komatani, K., N. Kanda u. a. (2006). “Multi-domain Spoken Dialogue System with Extensibility and Robustness Against Speech Reco- gnition Errors”. In: Proceedings of the 7th SIGdial Workshop on Dis- course and Dialogue. Sydney, Australien: ACL. Komatani, K. und T. Kawahara (2000). “Flexible Mixed-initiative Dia- logue Management Using Concept-level Conﬁdence Measures of Speech Recognizer Output”. In: Proceedings of the 18th Internatio- nal Conference on Computational Linguistics. Saarbrücken, Deutsch- land: ACL. Krahmer, E., M. Swerts, M. Theune und M. Weegels (2001). “Error De- tection in Spoken Human-machine Interaction”. In: International Journal of Speech Technology 4.1. Springer US. Kritikos, K., D. Plexousakis und F. Paternò (2014). “Task Model-driven Realization of Interactive Application Functionality Through Ser- vices”. In: Transactions on Interactive Intelligent Systems 3.4. ACM. Kruskal, W. und W. Wallis (1952). “Use of Ranks in One-Criterion Va- riance Analysis”. In: Journal of the American Statistical Association 47.260. Taylor & Francis, Ltd. 204 Literatur

Kun, A., T. Paek und Z. Medenica (2007). “The Effect of Speech Inter- face Accuracy on Driving Performance”. In: Proceedings of INTER- SPEECH. Antwerp, Belgien: ISCA. Kun, A., A. Shyrokov und P. Heeman (2013). “Interactions Between Human-human Multi-threaded Dialogues and Driving”. In: Per- sonal and Ubiquitous Computing 17.5. Springer London. Kunze, C. und L. Lemnitzer (2007). Computerlexikographie. Narr. Lalanne, D., L. Nigay, P. Palanque, P. Robinson, J. Vanderdonckt und J.-F. Ladry (2009). “Fusion Engines for Multimodal Input: A Sur- vey”. In: Proceedings of the 11th International Conference on Multimo- dal Interfaces. Cambridge, USA: ACM. Lane, I., T. Kawahara, T. Matsui und S. Nakamura (2007). “Out-of- Domain Utterance Detection Using Classification Confidences of Multiple Topics”. In: Transactions on Audio, Speech, and Language Processing 15.1. IEEE. Larsson, S. und S. Ericsson (2002). “GoDiS–issue-based Dialogue Ma- nagement in a Multi-domain, Multi-language Dialogue System”. In: Proceedings of the ACL-02 Demonstrations Session. Philadelphia, USA: ACL. Larsson, S., F. Kronlid und P. Wärnestal (2014). “Safe In-vehicle Dia- logue Using Learned Predictions of User Utterances”. In: Procee- dings of the 14th International Conference of the European Chapter of the Association for Computational Linguistics. Gothenburg, Schwe- den: EACL. Larsson, S. und J. Villing (2007). “The DICO project: A Multimodal Menu-based In-vehicle Dialogue System”. In: Proceedings of the 7th International Workshop on Computational Semantics. Tilburg, Nieder- lande: ACL. Lau, T., J. Cerruti, G. Manzato, M. Bengualid, J. Bigham und J. Ni- chols (2010). “A Conversational Interface to Web Automation”. In: Proceedings of the 23rd Symposium on User Interface Software and Technology. New York, USA: ACM. Lazar, J., J. Feng und H. Hochheiser (2010). Research Methods in Human- Computer Interaction. John Wiley & Sons Ltd. Lee, C., S. Jung, S. Kim und G. Lee (2009). “Example-based Dialog Modeling for Practical Multi-domain Dialog System”. In: Speech Communication 51.5. Elsevier Ltd. Lee, I. u. a. (2014). “A Two-Step Approach for Efficient Domain Selec- tion in Multi-Domain Dialog Systems”. In: Natural Interaction with Robots, Knowbots and Smartphones. Hrsg. von J. Mariani, S. Rosset, M. Garnier-Rizet und L. Devillers. Springer New York. Limbourg, Q. und J. Vanderdonckt (2003). “Comparing Task Models for User Interface Design”. In: Hrsg. von D. Diaper und N. Stan- ton. Mahwah, USA: Lawrence Erlbaum Associates. Kap. 6. Litman, D., M. Walker und M. Kearns (1999). “Automatic Detection of Poor Speech Recognition at the Dialogue Level”. In: Proceedings of Literatur 205

the 37th Annual Meeting of the Association for Computational Lingui- stics on Computational Linguistics. College Park, Maryland: ACL. Littlejohn, S. und K. Foss (2008). Theories of Human Communication. Wadsworth series in communication studies. Cengage Learning. Machado, S. u. a. (2010). “EEG-based Brain-computer Interfaces: An Overview of Basic Concepts and Clinical Applications in Neuro- rehabilitation”. In: Reviews in the Neurosciences 21.6. De Gruyter. Maciej, J. und M. Vollrath (2009). “Comparison of Manual vs. Speech- based Interaction with In-vehicle Information Systems”. In: Acci- dent Analysis and Prevention 41.5. Elsevier Ltd. Mahfoudhi, A., M. Abid und M. Abed (2005). “Towards a User Inter- face Generation Approach Based on Object Oriented Design and Task Model”. In: Proceedings of the 4th International Workshop on Task Models and Diagrams. Gdansk, Polen: ACM. Mahr, A., M. Feld, M. Mehdi und R. Math (2012). “The ConTRe (Con- tinuous Tracking and Reaction) Task: A Flexible Approach for Assessing Driver Cognitive Workload with High Sensitivity”. In: Adjunct Proceedings of the 4th International Conference on Automoti- ve User Interfaces and Interactive Vehicular Applications. Portsmouth, USA: ACM. Manning, C., M. Surdeanu, J. Bauer, J. Finkel, S. Bethard und D. Mc- Closky (2014). “The Stanford CoreNLP Natural Language Proces- sing Toolkit”. In: Proceedings of 52nd Annual Meeting of the ACL: System Demonstrations. Baltimore, USA: ACL. Manning, C., P. Raghavan und H. Schütze (2009). An Introduction to Information Retrieval. Cambridge University Press. Marcus, M., M. Marcinkiewicz und B. Santorini (1993). “Building a Large Annotated Corpus of English: The Penn Treebank”. In: Computational Linguistics 19.2. MIT Press. Martin, D. u. a. (2004). OWL-S: Semantic Markup for Web Services.W3C Member Submission. Math, R., A. Mahr, M. Moniri und C. Müller (2012). “OpenDS: A New Open-source Driving Simulator for Research”. In: Adjunct Proceedings of the 4th International Conference on Automotive User Interfaces and Interactive Vehicular Applications. Portsmouth, USA: ACM. Mattes, S. (2003). “The Lane-change-task as a Tool for Driver Distrac- tion”. In: Proceedings of IGfA. Dearborn, USA. Matuszek, C., E. Herbst, L. Zettlemoyer und D. Fox (2013). “Learning to Parse Natural Language Commands to a Robot Control Sys- tem”. In: Experimental Robotics. Hrsg. von J. Desai, G. Dudek, O. Khatib und V. Kumar. Bd. 88. Springer Tracts in Advanced Robo- tics. Springer International Publishing. McCrae, J. u. a. (2010). The Lemon Cookbook. http://lemon-model.net/ learn/cookbook.html [Online 28.12.2016]. 206 Literatur

McTear, M. (2002). “Spoken Dialogue Technology: Enabling the Con- versational User Interface”. In: Computing Surveys 34.1. ACM. Mehler, B., B. Reimer und J. Coughlin (2012). “Sensitivity of Physio- logical Measures for Detecting Systematic Variations in Cogniti- ve Demand From a Working Memory Task: An On-Road Study Across Three Age Groups”. In: The Journal of the Human Factors and Ergonomics Society. Bd. 54. 396. SAGE Publications. Meixner, G. und D. Görlich (2008). “Aufgabenmodellierung als Ker- nelement eines nutzerzentrierten Entwicklungsprozesses für Be- dienoberﬂächen”. In: Workshop "Verhaltensmodellierung: Best Prac- tices und neue Erkenntnisse", Fachtagung Modellierung. Berlin, Deutsch- land. Meixner, G. und M. Seissler (2012). Useware Markup Language (useML). W3C Model-Based UI Working Group Submission. W3C Model- Based UI Working Group. Meixner, G., M. Seissler und K. Breiner (2011). “Model-Driven Usewa- re Engineering”. In: Model-Driven Development of Advanced User Interfaces. Hrsg. von H. Hussmann, G. Meixner und D. Zuehlke. Bd. 340. Studies in Computational Intelligence. Springer Berlin Heidelberg. Melo, G. de (2010). Modellbasierte Entwicklung von Interaktionsanwen- dungen. Dissertation, Universität Ulm, Deutschland. Microsoft (2014). Chapter 1: Service Oriented Architecture. https : / / msdn.microsoft.com/en- us/library/bb833022.aspx [Online 06.09.2015]. Miller, G. (1995). “WordNet: A Lexical Database for English”. In: Com- munications of the ACM. Bd. 38. 11. ACM. Miller, G. (1966). “On Deﬁning Communication: Another Stab”. In: Journal of Communication 16.2. Blackwell Publishing Ltd. Milward, D. und M. Beveridge (2003). “Ontology-based Dialogue Sys- tems”. In: Proceedings of the 3rd Workshop on Knowledge and reasoning in practical dialogue systems. Acapulco, Mexiko: Citeseer. Minker, W., U. Haiber, P. Heisterkamp und S. Scheible (2004). “The SENECA Spoken Language Dialogue System”. In: Speech Commu- nication 43.1. Elsevier Ltd. Mitkov, R. (2014). Anaphora Resolution. Studies in Language and Lin- guistics. Taylor & Francis. Mitsubishi Electric Corporation (2014). Mitsubishi Electric Develops Pre- dictive HMI for In-Car Device Operation. Pressemitteilung 05.03.2014. Northville, USA. Möller, S. (2005). “Perceptual Quality Dimensions of Spoken Dialogue Systems: A Review and New Experimental Results”. In: Procee- dings of the 4th European Congress on Acoustics. Budapest, Ungarn. —(2010). Quality Engineering. Springer Berlin Heidelberg. Literatur 207

Myers, B., S. Hudson und R. Pausch (2000). “Past, Present, and Future of User Interface Software Tools”. In: Transactions on Computer- Human Interaction 7.1. ACM. Nardi, D. und R. Brachman (2003). “An Introduction to Description Logics”. In: Hrsg. von F. Baader, D. McGuinness, D. Nardi und P. Patel-Schneider. Sapporo, Japan: Cambridge University Press. Kap. 1. National Highway Traffic Safety Administration (NHTSA) (2013). Dis- tracted Driving 2011. Techn. Ber. Neßelrath, R. und D. Porta (2011). “Rapid Development of Multimo- dal Dialogue Applications with Semantic Models”. In: Proceedings of the 7th IJCAI Workshop on Knowledge and Reasoning in Practical Dialogue Systems. Barcelona, Spanien: Department of Computer und Information Science, Linköping University, Schweden. Nishimura, R., Y. Todo, K. Yamamoto und S. Nakagawa (2013). “Chat- like Spoken Dialog System for a Multi-party Dialog Incorporating Two Agents and a User”. In: Proceedings of the 1st International Conference on Human-Agent Interaction. Sapporo, Japan: ACM. Norman, D. (2002). The Design of Everyday Things. Basic Books. Nothdurft, F. (2016). User- and Situation-Adaptive Explanations in Dia- logue Systems. Dissertation, Universität Ulm, Deutschland. OASIS WSBPEL Technical Committee (2007). Web Services Business Process Execution Language Version 2.0. Ohloff, G. und A. Thomas (1971). Gustation and olfaction. London: Aca- demic press. Oviatt, S. (1995). “Predicting Spoken Disfluencies During Human- computer Interaction”. In: Computer Speech & Language 9.1. Else- vier Ltd. Oviatt, S., P. Cohen u. a. (2000). “Designing the User Interface for Multimodal Speech and Pen-based Gesture Applications: State- of-the-art Systems and Future Research Directions”. In: Human- Computer Interaction 15.4. L. Erlbaum Associates Inc. Oviatt, S., R. Coulston und R. Lunsford (2004). “When do we Interact Multimodally?: Cognitive Load and Multimodal Communication Patterns”. In: Proceedings of the 6th International Conference on Mul- timodal Interfaces. State College, USA: ACM. Paek, T. und E. Horvitz (2000). “Conversation As Action Under Un- certainty”. In: Proceedings of the 16th Conference on Uncertainty in Artificial Intelligence. Stanford, USA: Morgan Kaufmann Publis- hers Inc. Pakucs, B. (2003). “Towards Dynamic Multi-domain Dialogue Proces- sing.” In: Proceedings of INTERSPEECH. Geneva, Schweiz: ISCA. Pandey, A. u. a. (2014). “Romeo2 Project: Humanoid Robot Assistant and Companion for Everyday Life: I. Situation Assessment for So- cial Intelligence”. In: Proceedings of the 2nd International Workshop on Artificial Intelligence and Cognition. Torino, Italien: CEUR. 208 Literatur

Pappu, A. und A. Rudnicky (2013). “Predicting Tasks in Goal-Oriented Spoken Dialog Systems using Semantic Knowledge Bases”. In: Proceedings of the 14th Annual SIGdial Meeting on Discourse and Dia- logue. Metz, Frankreich: ACL. Partsch, H. (2010). Requirements-Engineering systematisch: Modellbildung für softwaregestützte Systeme. eXamen.press. Springer Berlin Hei- delberg. Passin, T. (2004). Explorer’s Guide to the Semantic Web. Greenwich, Eng- land: Manning. Paternò, F. (2000). Model-based Design and Evaluation of Interactive App- lications. Applied Computing Series. Springer. Paternò, F., C. Santoro und L. Spano (2009). “MARIA: A Univer- sal, Declarative, Multiple Abstraction-level Language for Service- oriented Applications in Ubiquitous Environments”. In: Transac- tions on Computer-Human Interaction 16.4. ACM. —(2011). “Engineering the Authoring of Usable Service Front Ends”. In: Journal of Systems and Software 84.10. Elsevier Ltd. Patten, C., A. Kircher, J. Östlund und L. Nilsson (2004). “Using Mobile Telephones: Cognitive Workload and Attention Resource Alloca- tion”. In: Accident Analysis & Prevention 36.3. Elsevier Ltd. Paulenz, M. und T. Schlegel (2013). “Modellbasierte Softwaretechno- logie zur Entwicklung durch Benutzer”. In: Multi-Touch. Hrsg. von T. Schlegel. Springer Berlin Heidelberg. Kap. 9. Pauzié, A., J. Manzan und N. Dapzol (2007). “Driver’s Behavior and Workload Assessment for New In-vehicle Technologies Design”. In: Proceedings of the 4th International Driving Symposium on Human Factors in Driver Assessment, Training, and Vehicle Design. Steven- son, Washington, USA. Pearce, B. (2004). “The Coordinated Management of Meaning”. In: Theorizing Communication and Culture. Hrsg. von W. Gudykunst. Thousand Oaks, CA: Sage. Pedersen, T., S. Patwardhan und J. Michelizzi (2004). “WordNet::Similarity: Measuring the Relatedness of Concepts”. In: Demonstration papers at the North American Chapter of the Association for Computational Linguistics – Human Language Technologies. ACL. Peissner, M., V. Doebler und F. Metze (2011). Can Voice Interaction Help Reducing the Level of Distraction and Prevent Accidents? Techn. Ber. Carnegie Mellon University und Fraunhofer-Institut (IAO). Pellom, B., W. Ward und S. Pradhan (2000). “The CU Communicator: An Architecture for Dialogue Systems.” In: Proceedings of INTER- SPEECH. Beijing, China: ISCA. Pfarherr, P. (2013). Aufgabenorientierte Mensch-Maschine-Interaktion über mehrere Anwendungen hinweg mit Hilfe semantisch annotierter Task- Modelle. Masterarbeit, Universität Ulm, Deutschland. Picard, R. (1997). Affective Computing. Techn. Ber. 321. M.I.T Media Laboratory Perceptual Computing Section. Literatur 209

Picard, R., E. Vyzas und J. Healey (2001). “Toward Machine Emotional Intelligence: Analysis of Affective Physiological State”. In: Tran- sactions on Pattern Analysis and Machine Intelligence 23.10. IEEE. Pieraccini, R. und J. Huerta (2005). “Where Do we Go from Here? Re- search and Commercial Spoken Dialog Systems”. In: Proceedings of the 6th Annual SIGdial Meeting on Discourse and Dialogue. Lisbon, Portugal: ACL. Pieraccini, R., D. Suendermann, K. Dayanidhi und J. Liscombe (2009). “Are We There Yet? Research in Commercial Spoken Dialog Sys- tems”. In: Text, Speech and Dialogue. Hrsg. von V. Matoušek und P. Mautner. Bd. 5729. Lecture Notes in Computer Science. Springer Berlin Heidelberg. Planells, J., L. Hurtado, E. Segarra und E. Sanchis (2013). “A Multi- domain Dialog System to Integrate Heterogeneous Spoken Dia- log Systems.” In: Proceedings of INTERSPEECH. Lyon, Frankreich: ISCA. Poguntke, M. (2016). Abstrakte Interaktionsmodelle für die Integration in bestehende Benutzerschnittstellen. Dissertation, Universität Ulm, Deutschland. Pulman, S., J. Boye, M. Cavazza, C. Smith und R. de la Cámara (2010). “How Was Your Day?” In: Proceedings of the Workshop on Compan- ionable Dialogue Systems. Uppsala, Schweden: ACL. Qin, L. (2013). Learning Out-of-Vocabulary Words in Automatic Speech Recognition. Dissertation, Carnegie Mellon University, Pittsburgh, USA. Raux, A., B. Langner, D. Bohus, A. Black und M. Eskenazi (2005). “Let’s Go Public! Taking a Spoken Dialog System to the Real World”. In: Proceedings of INTERSPEECH. Lisbon, Portugal: ISCA. Reichenberger, K. (2010). Kompendium semantische Netze. X.media.press. Springer Heidelberg. Reithinger, N. u. a. (2003). “SmartKom: Adaptive and Flexible Multi- modal Access to Multiple Applications”. In: Proceedings of the 5th International Conference on Multimodal Interfaces. Vancouver, Kana- da: ACM. Robichaud, J.-P., P. Crook, P. Xu, O. Khan und R. Sarikaya (2014). “Hy- potheses Ranking for Robust Domain Classiﬁcation And Tracking in Dialogue Systems”. In: Proceedings of the 15th Annual Conference of the International Speech Communication Association. Singapore: IS- CA. Rodrigo, S. und J. Abraham (2012). “Development and Implementa- tion of a Chat Bot in a Social Network”. In: Proceedings of the 9th International Conference on Information Technology: New Generations. Las Vegas, USA: IEEE. Rodriguez Garzon, S. (2013). Kontextsensitive Personalisierung automoti- ver Benutzerschnittstellen. Dissertation, Universität Berlin, Deutsch- land. 210 Literatur

Ryu, S., D. Lee, G. Lee, K. Kim und H. Noh (2014). “Exploiting Out- of-vocabulary Words for Out-of-domain Detection in Dialog Sys- tems”. In: Proceedings of the International Conference on Big Data and Smart Computing. Bangkok, Thailand: IEEE. SAE International (2013). Operational Definitions of Driving Performance Measures and Statistics - Proposed Draft 2013/02/13. Schandry, R. (1998). Lehrbuch Psychophysiologie: Körperliche Indikatoren psychischen Geschehens. BELTZ: Psychologie Verlags Union. Schmitt, A. (2012). Statistical Modeling for Online Monitoring of Adapti- ve Spoken Dialog Systems. Dissertation, Universität Ulm, Deutsch- land. Schneeberger, T., S. von Massow, M. Moniri, A. Castronovo, C. Mül- ler und J. Macek (2015). “Tailoring Mobile Apps for Safe On-road Usage: How an Interaction Concept Enables Safe Interaction with Hotel Booking, News, Wolfram Alpha and Facebook”. In: Procee- dings of the 7th International Conference on Automotive User Interfaces and Interactive Vehicular Applications. Nottingham, Großbritannien: ACM. Schneegass, S., B. Pfleging, N. Broy, F. Heinrich und A. Schmidt (2013). “A Data Set of Real World Driving to Assess Driver Workload”. In: Proceedings of the 5th International Conference on Automotive User Interfaces and Interactive Vehicular Applications. Eindhoven, Nieder- lande: ACM. Schramm, W. (1954). “How Communication Works”. In: The process and effects of mass communication. University of Illinois Press Urba- na. Schüssel, F. (unveröffentlicht). Multimodal Input Fusion for Companion Technology (vorläufiger Titel). Dissertation, Universität Ulm, Deutsch- land. Schüssel, F., F. Honold, M. Schmidt, N. Bubalo, A. Huckauf und M. Weber (2014). “Multimodal Interaction History and Its Use in Er- ror Detection and Recovery”. In: Proceedings of the 16th Internatio- nal Conference on Multimodal Interaction. Istanbul, Türkei: ACM. Searle, J. . (1969). Speech Acts: An Essay in the Philosophy of Language. Cambridge University Press. Seneff, S., E. Hurley, R. Lau, C. Pao, P. Schmid und V. Zue (1998). “Galaxy-II: A Reference Architecture For Conversational System Development”. In: Proceedings of the 5th International Conference on Spoken Language Processing. Sydney, Australien. Seneff, S. und J. Polifroni (2000). “Dialogue Management in the Mer- cury Flight Reservation System”. In: Proceedings of the 3rd ANLP/NAA- CL Workshop on Conversational Systems. Seattle, USA: ACL. Shannon, C. (1948). “A Mathematical Theory of Communication”. In: The Bell System Technical Journal. Bd. 27. 3. American Telephone und Telegraph Company. Literatur 211

Shapiro, S. und M. Wilk (1965). “An Analysis of Variance Test for Nor- mality (Complete Samples)”. In: Biometrika 52.3-4. Oxford Univer- sity Press. Shin, J., S. Narayanan, L. Gerber, A. Kazemzadeh, D. Byrd u. a. (2002). “Analysis of User Behavior under Error Conditions in Spoken Dialogs.” In: Proceedings of INTERSPEECH. Denver, USA: ISCA. Shneiderman, B. (2014). Designing the User Interface: Strategies for Effec- tive Human-computer Interaction. 5. Auﬂ. Harlow, England: Pear- son Education Ltd. Silsbee, P. und A. Bovik (1996). “Computer Lipreading for Improved Accuracy in Automatic Speech Recognition”. In: Transactions on Speech and Audio Processing 4.5. IEEE. Skantze, G. (2007). Error Handling in Spoken Dialogue Systems. Disser- tation, KTH Computer Science and Communication, Stockholm, Schweden. Smith, R. (1993). “Effective Spoken Natural Language Dialog Requi- res Variable Initiative Behavior: An Empirical Study”. In: Procee- dings of the AAAI Fall Symposium on Human-Computer Collaboration: Reconciling Theory, Synthesizing Practice. Menlo Park, USA: AAAI Press. Sohn, J. (2014). Praktikumsbericht. Psychologiestudium, Institut Hu- man Factors Universität Ulm, Deutschland. Solovey, E., M. Zec, E. Garcia Perez, B. Reimer und B. Mehler (2014). “Classifying Driver Workload Using Physiological and Driving Performance Data: Two Field Studies”. In: Proceedings of the 32nd Annual ACM Conference on Human Factors in Computing Systems. Toronto, Kanada: ACM. Stary, C. (2000). “TADEUS: Seamless Development of Task-Based and User-Oriented Interfaces”. In: Transactions on Systems, Man and Cybernetics, Part A: Systems and Humans 30.5. IEEE. Stolle, R., A. Saad, D. Weyl und M. Wagner (2007). “Integrating CE- based Applications into the Automotive HMI”. In: Proceedings of the SAE World Congress. Detroit, USA: SAE International. Stover, S. und W. Haynes (1989). “Topic Manipulation and Cohesive Adequacy in Conversations of Normal Adults Between the Ages of 30 and 90”. In: Clinical Linguistics & Phonetics 3.2. Taylor & Francis Online. Stoyanchev, S., A. Liu und J. Hirschberg (2014). “Towards Natural Clariﬁcation Questions in Dialogue Systems”. In: Proceedings of the AISB Symposium on Questions, discourse and dialogue: 20 years after Making it Explicit. London, England: Columbia University Press. Strauss, P.-M. (2010). Proactive Spoken Dialogue Interaction in Multi- Party Environments. Dissertation, Universität Ulm, Deutschland. Strayer, D., T. Jonna, J. Coleman, E. Ortiz und C. Joel (2014). Measuring Cognitive Distraction in the Automobile II: Assessing In-Vehicle Voice- 212 Literatur

Based Interactive Technologies. Washington DC, USA: AAA Foun- dation for Trafﬁc Safety. Stutts, J. u. a. (2005). “Driver’s Exposure to Distractions in their Natu- ral Driving Environment”. In: Accident Analysis & Prevention 37.6. Elsevier Ltd. Suchanek, F., G. Kasneci und G. Weikum (2007). “Yago: A Core of Semantic Knowledge”. In: Proceedings of the 16th International Con- ference on World Wide Web. Banff, Alberta, Kanada: ACM. Suhm, B., B. Myers und A. Waibel (2001). “Multimodal Error Cor- rection for Speech User Interfaces”. In: Transactions on Computer- Human Interaction 8.1. ACM. Sun, F.-T., C. Kuo, H.-T. Cheng, S. Buthpitiya, P. Collins und M. Griss (2012). “Activity-Aware Mental Stress Detection Using Physio- logical Sensors”. In: Mobile Computing, Applications, and Services. Hrsg. von M. Gris und G. Yang. Bd. 76. Lecture Notes of the Institute for Computer Sciences, Social Informatics and Telecom- munications Engineering. Springer Berlin Heidelberg. Sutcliffe, A. (2012). “Multimedia User Interface Design”. In: The Human- Computer Interaction Handbook. Hrsg. von J. Jacko. CRC Press Tay- lor & Francis Group. Swette, R., K. May, T. Gable und B. Walker (2013). “Comparing Three Novel Multimodal Touch Interfaces for Infotainment Menus”. In: Proceedings of the 5th International Conference on Automotive User Interfaces and Interactive Vehicular Applications. Eindhoven, Nieder- lande: ACM. Szauer, P. (2015). Präsentationsmodalitäten einer Auswahlliste für sprachliche Selektion im Fahrzeug. Bachelorarbeit, Universität Ulm, Deutsch- land. Tarby, J.-C. und M.-F. Barthet (1996). “The Diane+ method”. In: Procee- dings ot the 2nd International Conference on Computer-Aided Design of User Interfaces. Namur, Belgien. Tönnis, M., V. Broy und G. Klinker (2006). “A Survey of Challenges Related to the Design of 3D User Interfaces for Car Drivers”. In: Proceedings of the IEEE Symposium on 3D User Interfaces. Alexan- dria, USA: IEEE. Torres, F., L. Hurtado, F. García, E. Sanchis und E. Segarra (2005). “Er- ror Handling in a Stochastic Dialog System Through Conﬁdence Measures”. In: Speech Communication 45.3. Elsevier. Toutanova, K., D. Klein, C. Manning und Y. Singer (2003). “Feature- rich Part-of-speech Tagging with a Cyclic Dependency Network”. In: Proceedings of the International Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology. Edmonton, Kanada: ACL. Traum, D. und S. Larsson (2003). “The Information State Approach to Dialogue Management”. In: Current and new directions in discour- Literatur 213

se and dialogue. Bd. 22. Text, Speech and Language Technology. Springer Niederlande. Tsimhoni, O. und P. Green (2001). “Visual Demand of Driving and the Execution of Display-intensive In-vehicle Tasks”. In: Proceedings of the Human Factors and Ergonomics Society Annual Meeting. Bd. 45. 23. SAGE Publications. Minneapolis/St. Paul, USA. Tsimhoni, O., D. Smith, P. Green, M. Kaisha u. a. (2002). Destination Entry while Driving: Speech Recognition Versus a Touch-screen Key- board. Techn. Ber. University of Michigan, Transportation Rese- arch Institute. Turk, M. (2014). “Review Article: Multimodal Interaction: A Review”. In: Pattern Recognition Letters 36. Elsevier Ltd. UDDI Spec Technical Committee (2002). UDDI Version 3.0. http:// uddi.org/pubs/uddi-v3.00-published-20020719.htm [Online 09.10.2015]. Van Servellen, G. (2009). “Principles of Human Communication”. In: Communication Skills for the Health Care Professional: Concepts, Prac- tice, and Evidence. Jones & Bartlett Learning. Kap. 2. Veer, G., M. Welie und C. Chisalita (2002). “Introduction to Groupwa- re Task Analysis”. In: Proceedings of the 1st International Workshop on Task Models and Diagrams for User Interface Design. Bucharest, Rumänien: INFOREC Publishing House Bucharest. Victor, T., J. Harbluk und J. Engström (2005). “Sensitivity of Eye- movement Measures to In-vehicle Task Difficulty”. In: Transpor- tation Research Part F: Traffic Psychology and Behaviour 8.2. Elsevier Ltd. Villing, J. (2010). “Now, Where Was I? Resumption Strategies for an In-vehicle Dialogue System”. In: Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Uppsala, Schweden: ACL. Villing, J., C. Holtelius, S. Larsson, A. Lindström, A. Seward und N. Åberg (2008). “Interruption, Resumption and Domain Switching in In-Vehicle Dialogue”. In: Advances in Natural Language Proces- sing. Hrsg. von B. Nordström und A. Ranta. Bd. 5221. Lecture Notes in Computer Science. Springer Berlin Heidelberg. Vollrath, M., A. Huemer, C. Teller, A. Likhacheva und J. Fricke (2016). “Do German Drivers use their Smartphones Safely?—Not Really!” In: Accident Analysis and Prevention 96. Elsevier Ltd. Vossen, P., Hrsg. (1998). EuroWordNet: A Multilingual Database with Lexical Semantic Networks. Springer-Science+Business Media, B.V. W3C MBUI Working Group (2014). Model-Based User Interfaces (MBUI) - Task MModel. Working Group Note http://www.w3.org/2011/ mbui/ [Online 22.04.2015]. Wagner, J., J. Kim und E. André (2005). “From Physiological Signals to Emotions: Implementing and Comparing Selected Methods for Feature Extraction and Classification”. In: Proceedings of the IEEE 214 Literatur

International Conference on Multimedia and Expo. Amsterdam, Nie- derlande: IEEE. Wahlster, W. (2006). SmartKom: Foundations of Multimodal Dialogue Sys- tems. Bd. 12. Springer. Wang, Z. und D. Garlan (2000). Task-driven Computing. Techn. Ber. DTIC Document. Wang, Z., H. Chen, G. Wang, H. Tian, H. Wu und H. Wang (2014). “Policy Learning for Domain Selection in an Extensible Multi- domain Spoken Dialogue System”. In: Proceedings of the Internatio- nal Conference on Empirical Methods on Natural Language Processing. Doha, Qatar: ACL. Watzlawick, P., J. Beavin und D. Jackson (1967). “Some Tentative Axioms of Communication”. In: Pragmatics of Human Communication: A Study of Interactional Patterns, Pathologies, and Paradoxes. W. W. Nor- ton & Company Inc. Kap. 2. Weaver, W. (1949). “Recent Contributions to the Mathematical Theory of Communication”. In: The Mathematical Theory of Communication. Urbana: The University of Illinois Press. Weinberg, G., B. Harsham, C. Forlines und Z. Medenica (2010). “Con- textual Push-to-talk: Shortening Voice Dialogs to Improve Dri- ving Performance”. In: Proceedings of the 12th International Con- ference on Human Computer Interaction with Mobile Devices and Ser- vices. Lisbon, Portugal: ACM. Weizenbaum, J. (1966). “ELIZA - a Computer Program for the Study of Natural Language Communication Between Man and Machi- ne”. In: Communications of the ACM 9.1. ACM. Welford, A. T. (1968). Fundamentals of Skill. Methuen’s manuals of mo- dern psychology. Methuen. Welsh, T., S. Chandrasekharan, M. Ray, H. Neyedli, R. Chua und W. Daniel (2012). “Perceptual-Motor Interaction: Some Implications for Human-Computer Interaction”. In: The Human-Computer Inter- action Handbook. Hrsg. von J. Jacko. CRC Press Taylor & Francis Group. Ei-Wen Lo, V. und P. Green (2013). “Development and Evaluation of Automotive Speech Interfaces: Useful Information from the Hu- man Factors and the Related Literature”. In: International Journal of Vehicular Technology. Hindawi Publishing Corporation. Wendemuth, A. und S. Biundo (2012). “A Companion Technology for Cognitive Technical Systems”. In: Cognitive Behavioural Systems. Hrsg. von A. Esposito, A. Vinciarelli, R. Hoffman und V. Müller. LNCS Proceedings on Cognitive Behavioural Systems. Dresden, Deutschland: Springer. Weng, F., S. Varges u. a. (2006). “CHAT: A Conversational Helper for Automotive Task”. In: Proceedings of INTERSPEECH. Pittsburgh, USA: ISCA. Literatur 215

Weng, F., B. Yan u. a. (2007). “CHAT to your Destination”. In: Procee- dings of the 8th SIGdial Workshop on Discourse and Dialogue. Ant- werp, Belgien: CiteSeer. Wickens, C. (1981). Processing Resource in Attention and Workload. Techn. Ber. Dept. of Psychology, University of Illinois, USA. —(2008). “Multiple Resources and Mental Workload.” In: Human factors. Bd. 50. 3. SAGE Publications. Wierwille, W. (1993). “Demands on Driver Resources Associated with Introducing Advanced Technology into the Vehicle”. In: Transpor- tation Research Part C: Emerging Technologies 1.2. Elsevier Ltd. Wilks, Y. u. a. (2011). “A Prototype for a Conversational Companion for Reminiscing About Images”. In: Computer Speech and Language 25.2. Elsevier Ltd. Williams, J., A. Raux, D. Ramachandran und A. Black (2012). Dia- log State Traching Challenge Handbook. https : / / www . microsoft . com / en - us / research / publication / dialog - state - tracking - challenge-handbook/ [Online 02.05.2015]. Williams, J. und S. Witt (2004). “A Comparison of Dialog Strategies for Call Routing”. In: International Journal of Speech Technology 7.1. Kluwer Academic Publishers. Williams, J. und S. Young (2007). “Partially Observable Markov Deci- sion Processes for Spoken Dialog Systems”. In: Computer Speech & Language 21.2. Elsevier Ltd. Wilson, A. (2012). “Sensor- and Recognition-Based Input for Interac- tion”. In: The Human-Computer Interaction Handbook. Hrsg. von J. Jacko. CRC Press Taylor & Francis Group. Wong, A., A. Nguyen und W. Wobcke (2007). “Robustness of a Spo- ken Dialogue Interface for a Personal Assistant”. In: Proceedings of the International Conference on Intelligent Agent Technology. Fre- mont, USA: IEEE. Wood, J. (2011). “Communication in Our Lives”. In: Cengage Lear- ning. Kap. The World of Communication. Wooters, C. (2015). The Berkeley Restaurant Project (BeRP) Transcripts. https://github.com/wooters/berp-trans [Online 09.11.2015]. Wright, P. u. a. (2008). “Modality Preference and Performance when Seniors Consult Online Information”. In: Gerontechnology 7.3. ISG. Wu, Z. und M. Palmer (1994). “Verbs Semantics and Lexical Selec- tion”. In: Proceedings of the 32nd annual meeting on Association for Computational Linguistics. Las Cruces, USA: ACL. Wyard, P., A. Simons, S. Appleby, E. Kaneen, S. Williams und K. Pre- ston (1996). “Spoken Language Systems - Beyond Prompt and Response”. In: BT Technology Journal. Bd. 14. 1. Springer US. Yager, C. (2013). An Evaluation of the Effectiveness of Voice-to-Text Pro- grams at Reducing Incidences of Distracted Driving. Techn. Ber. Texas A&M Transportation Institute. 216 Literatur

Young, K. und M. Regan (2007). “Driver Distraction: A Review of the Literature”. In: Distracted Driving. Hrsg. von I. Faulks, M. Regan, M. Stevenson, J. Brown, A. Porter und J. Irwin. Sydney Australien: Australasian College of Road Safety. Young, S., M. Gasic, B. Thomson und J. Williams (2013). “POMDP- Based Statistical Spoken Dialog Systems: A Review”. In: Procee- dings of the IEEE 101.5. IEEE. Yuan, X. und G. Liu (2012). “A Task Ontology Model for Domain Independent Dialogue Management”. In: Proceedings of the Inter- national Conference on Virtual Environments Human-Computer Inter- faces and Measurement Systems. Tianjin, China: IEEE. Zgorzelski, A., A. Schmitt, T. Heinroth und W. Minker (2010). “Repair Strategies on Trial: Which Error Recovery do Users like Best?” In: Proceeding of INTERSPEECH 2010. Makuhari, Japan: ISCA. Zhang, R., I. Arpinar und B. Aleman-Meza (2003). “Automatic Com- position of Semantic Web Services.” In: Proceedings of the Interna- tional Conference on Web Services. Bd. 3. Las Vegas, USA. Zhao, S., D. Brumby, M. Chignell, D. Salvucci und S. Goyal (2013). “Shared Input Multimodal Mobile Interfaces: Interaction Modali- ty Effects on Menu Selection in Single-Task and Dual-Task Envi- ronments”. In: Interacting with Computers 25.5. VIELENDANK!

Ohne die Unterstützung diverser Menschen in meiner Umgebung hätte diese Arbeit nicht entstehen können. Besonderen Dank gilt Prof. Dr. Michael Weber, der mich bereits während des Studiums für die Mensch-Maschine Interaktion begeisterte und mir stets mit gutem Rat und wertvollen Diskussionen zur Seite stand. Herzlichen Dank auch Prof. Dr. Dr. Wolfgang Minker für die Erweckung meiner Lei- denschaft zur Sprachbedienung und die Übernahme des Zweitgut- achtens. Vorliegende Arbeit ist das Resultat meiner dreijährigen Forschungs- arbeit bei der Daimler AG, Ulm. Mein herzlicher Dank hierbei gilt Dr. Ute Ehrlich, welche eine sehr enge fachliche Betreuung ermög- lichte, die richtigen Fragen stellte, meine Arbeit kritisch hinterfragte und schließlich durch intensives Korrekturlesen den Genetiv und die Kommas sortierte. Ebenso herzlichen Dank an Dr. André Berton für die Anstellung und die Ermöglichung meines wöchentlichen Unitags, ohne diesen wäre die Arbeit nicht in dieser Form erschienen. Wäh- rend meiner Doktorandenzeit begleitete mich das EU-Projekt GetHo- meSafe (GHS)( 7th Framework STREP 288667), herzlichen Dank allen Kollegen für die Zusammenarbeit! Für eine unvergessliche Doktorandenzeit bei Daimler, viele hilfrei- chen Diskussionen, Feedback und Kritik möchte ich herzlich Hans- jörg, Alex, Mark und Daniel danken. Ebenso Frank und Felix, die mich an der Uni aufgenommen haben und diverse Senior-Fragen be- antworteten. Natürlich nicht zu vergessen alle Mitarbeiter des Insti- tuts für Medieninformatik der Universität Ulm, man wird auch als externer Doktorand bei Euch super integriert! Außerdem freut es mich sehr motivierte und begabte Studenten betreut zu haben. Philipp, Kathrin, Ömer, Patrick, Jens, Vanessa, mit Euren guten Ergebnissen habt ihr maßgeblich zu dieser Arbeit beige- tragen. Ebenso Dank an meine langjährigen Werkstudenten Johannes, Jasmin und Manuel sowie natürlich alle Studienteilnehmer! Zu guter Letzt danke ich meiner Familie Klaus, Birgit und Marc sowie meiner Partnerin Vroni, welche mich in der teilweise schwierigen Zeit ertragen, verstanden, geholfen und perfekt unterstützt haben!

Ihr seid die Besten!

217

VERÖFFENTLICHUNGEN

Teile aus der vorliegenden Arbeit wurden bereits auf internationalen Konferenzen, Journals und Workshops veröffentlicht und präsentiert. Die jeweiligen Abschnitte sind im Text gekennzeichnet.

Reichel, S., A. Berton, U. Ehrlich und M. Weber (2013) “Semantische Anwendungsmodellierung und Nutzermodelle: Anforderungen an einen sprachlich zu bedienenden persönlichen Assistenten im dynamischen Systemumfeld”. In: Tagungsband der 24. Konferenz Elektronische Sprachsignalverarbeitung. Bielefeld, Deutschland: TUD- Press. Reichel, S., U. Ehrlich, A. Berton und M. Weber (2014). “In-Car Multi- Domain Spoken Dialogs: A Wizard of Oz Study”. In: EACL Work- shop Dialog in Motion. Göteborg, Schweden: ACL. Reichel, S., U. Ehrlich, A. Berton und M. Weber (2015). “Evaluation of Machine-led Error Recovery Strategies for Domain Switches in a Spoken Dialog System”. In: Proceedings of the 6th International Workshop on Spoken Dialog Systems. Busan, Südkorea. Reichel, S., U. Ehrlich, A. Berton und M. Weber (2015). “Evaluation of Machine-led Error Recovery Strategies for Domain Switches in a Spoken Dialog System”. In: Natural Language Dialog Systems and Intelligent Assistants. Hrsg. von G. Lee, H. Kim, M. Jeong und J.-H. Kim. © Springer International Publishing Switzerland, 2015. “With permission of Springer”. Reichel, S., P. Pfarherr, U. Ehrlich, A. Berton und M. Weber (2014). “Semantisches Taskmodell für Dialoge mit Taskwechsel”. In: Ta- gungsband der 25. Konferenz Elektronische Sprachsignalverarbeitung. Dresden, Deutschland: TUDPress. Reichel, S., J. Sohn, U. Ehrlich, A. Berton und M. Weber (2014). “Out- of-Domain Spoken Dialogs in the Car: A WoZ Study”. In: Procee- dings of the 15th Annual SIGdial Meeting on Discourse and Dialogue. Philadelphia, USA: ACL. Reichel, S., P. Szauer und M. Weber (2015). “In-Car Distraction Issues of Auditory and Visual Modality for Spoken List Selection Tasks”. In: Proceedings of the International Symposium on Companion Techno- logy. Ulm, Deutschland: Universität Ulm.

219