Preliminary Project Report

Instituto Superior de Engenharia de Lisboa Departamento de Engenharia de Electrónica e Telecomunicações e de Computadores Interface de Fala para Dispositivos Móveis por João Freitas Submetido ao Departamento de Engenharia de Electrónica e Telecomunicações e de Computadores como requisito parcial para obtenção do grau de licenciado em Engenharia Informática e de Computadores ISEL, 15 de Setembro de 2007 Interface de Fala para Dispositivos Móveis por João Freitas Submetido ao Departamento de Engenharia de Electrónica e Telecomunicações e de Computadores como requisito parcial para obtenção do grau de licenciado em Engenharia Informática e de Computadores ISEL, 15 de Setembro de 2007 Autor __________________________________________________________________ Aluno n.º 26068, DEETC Certificado por ___________________________________________________________ Maria João Barros, orientador(a) do projecto Aceite por _______________________________________________________________ António Luís Freixo Guedes Osório, responsável de curso, ___/___/______ Interface de Fala para Dispositivos Móveis por João Freitas Submetido ao Departamento de Engenharia de Electrónica e Telecomunicações e de Computadores como requisito parcial para obtenção do grau de licenciado em Engenharia Informática e de Computadores ISEL, 15 de Setembro de 2007 Resumo As tecnologias da fala permitem aos utilizadores interagir com todo o tipo de máquinas através da fala. A interacção homem-máquina varia de acordo com o tipo de sistema automático e os dispositivos móveis (Pocket Pc e SmartPhone) não são excepção. O sucesso de uma aplicação de fala em dispositivos móveis está dependente de uma série de aspectos relacionados com a natureza da tarefa, por exemplo, cenários de utilização, tipo de utilizador, desempenho da aplicação, memória necessária, ruído ambiente e posição do dispositivo em relação ao utilizador. Para ter sucesso, as interfaces de fala devem ser superiores a interfaces alternativas que executam a mesma tarefa. Ao longo deste trabalho são apresentados problemas, desafios, metodologias e optimizações no desenvolvimento de interfaces de fala para aplicações móveis. Neste trabalho é apresentada uma versão do produto Voice Command adaptada ao Português Europeu. O Voice Command é uma aplicação para dispositivos Pocket PC e SmartPhone que permite ao utilizador comandar e controlar o seu dispositivo através da voz. Para realizar com sucesso esta adaptação foi previamente efectuado um estudo de interfaces fala para dispositivos móveis e desenvolvida uma versão compacta do motor de reconhecimento em Português Europeu. O motor de reconhecimento é depois integrado no Voice Command juntamente com um sintetizador, já existente e também em Português Europeu. No final é apresentada uma versão beta do produto completamente adaptada ao Português Europeu e o resultado de um estudo de usabilidade. Este estudo compara o uso da interface gráfica com a interface de fala ao executar tarefas básicas num dispositivo móvel e permite tirar conclusões sobre como melhorar a experiência do utilizador ao usar uma interface de fala. Palavras-chave: interface de fala; dispositivos móveis; Voice Command; Português Europeu. Orientador(a) do projecto: Maria João Barros, DEETC-ISEL, Instituto Superior de Engenharia de Lisboa Instituto Superior de Engenharia de Lisboa Departamento de Engenharia de Electrónica e Telecomunicações e de Computadores Spoken Language Interface for Mobile Devices by João Freitas Submited to the Departamento de Engenharia de Electrónica e Telecomunicações e de Computadores as a partial requisite to obtain the degree of Graduated in Computer Science Engineering ISEL, 15 September 2007 Spoken Language Interface for Mobile Devices por João Freitas Submited to the Departamento de Engenharia de Electrónica e Telecomunicações e de Computadores as a partial requisite to obtain the degree of Graduated in Computer Science Engineering ISEL, 15 de Setembro de 2007 Abstract Spoken language technologies allow the users to interact with all kind of machines through speech. Human-computer interaction varies according with the type of automated system and mobile devices (Pocket Pc and SmartPhone) aren’t exceptions. The success of a speech application in mobile devices is dependent on a series of aspects related with the nature of the task such as usage scenarios, type of user application performance, required memory, environment, associated background noise variation and device positioning towards the user. To be successful, speech interfaces should be superior to alternative interfaces that perform the same task. On the course of this work, problems, challenges, methodologies and optimizations concerning the development of spoken language interfaces are presented. In this work it is presented a localized version of Voice Command in European Portuguese. Voice Command is a product designed for Pocket PC and Smartphone devices that allows the user to command and control the device using his voice. To accomplish this objective a previous study of spoken language interfaces is presented focusing on mobile applications. A compacted version of a European Portuguese Speech Recognizer engine was also developed, which is then integrated into Voice Command along with a European Portuguese Text-to-speech engine already developed. At the end it is presented a beta version of the product fully localized to European Portuguese, as well as the results of a usability evaluation. This evaluation allows comparing a graphical interface with a spoken language interface when accomplishing the same tasks in a mobile device. They also allow to conclude how to improve user experience when using a spoken language interface. Keywords: Spoken language interface; mobile devices; Voice Command; European Portuguese. Project’s director: Maria João Barros, DEETC-ISEL, Instituto Superior de Engenharia de Lisboa To my father CONTENTS CONTENTS ........................................................................................................................ i LIST OF FIGURES ......................................................................................................... vi LIST OF TABLES ......................................................................................................... viii ACKNOWLEDGEMENTS ............................................................................................ ix GLOSSARY OF ABBREVIATIONS AND ACRONYMS ........................................... x Chapter 1 ........................................................................................................................... 1 Introduction ....................................................................................................................... 1 1.1 Motivations .......................................................................................................... 2 1.1.1 Spoken Language Interface ................................................................................ 2 1.1.2 Mobility .............................................................................................................. 3 1.1.3 European Portuguese in speech applications ..................................................... 4 1.2 Objectives ............................................................................................................. 5 1.2.1 Study and analysis of spoken language technology ........................................... 5 1.2.2 Mobile application development ........................................................................ 5 1.2.3 Localization of Voice Command to EP.............................................................. 6 1.3 Scope .................................................................................................................... 6 1.4 Audience .............................................................................................................. 7 1.5 Document Structure ............................................................................................. 7 Chapter 2 ........................................................................................................................... 9 Spoken Language Technology ......................................................................................... 9 2.1 Spoken language systems ..................................................................................... 9 2.1.1 Automatic speech recognition ............................................................................ 9 2.1.1.1 Acoustic-phonetic .............................................................................................. 10 2.1.1.2 Pattern recognition ............................................................................................ 10 2.1.1.3 Artificial intelligence .......................................................................................... 12 2.1.2 Text-to-speech synthesis .................................................................................. 12 2.1.2.1 Text analysis module ......................................................................................... 13 2.1.2.2 Phonetic analysis module .................................................................................. 13 i 2.1.2.3 Prosodic analysis module .................................................................................. 14 2.1.2.4 Speech synthesis module .................................................................................. 14 2.2 Hidden Markov Models ....................................................................................

Preliminary Project Report

Secure Access 6.5 Supported Platforms Guide

General Subtitling FAQ's

PSG Commercial Handheld Datasheet

Pointsec Mobile Smartphone (Windows Mobile) 3.1.1 © Pointsec Mobile Technologies AB, 2007, a Check Point Software Technologies Ltd

Speech Recognition Technology for Disabilities Education

Designing Energy and User Efficient Interactions with Mobile Systems

Mobiliųjų Telefonų Modeliai, Kuriems Tinka Ši Programinė Įranga

Automated Regression Testing Approach to Expansion and Refinement of Speech Recognition Grammars

Speech@Home: an Exploratory Study

Personalized Speech Translation Using Google Speech API and Microsoft Translation API

License Clerks

Acer Acer S200 F1 Neotouch Acer Acer E101 Asus Asus 1210 VDA