João Dinis Colaço De Freitas Interfaces De Fala Silenciosa
Total Page:16
File Type:pdf, Size:1020Kb
Universidade de Aveiro Departamento de Eletrónica, Telecomunicações e Ano 2015 Informática João Dinis Interfaces de Fala Silenciosa Multimodais para Colaço de Freitas Português Europeu com base na Articulação Articulation in Multimodal Silent Speech Interface for European Portuguese Tese apresentada à Universidade de Aveiro para cumprimento dos requisitos necessários à obtenção do grau de Doutor em Informática, realizada sob a orientação científica do Professor Doutor António Joaquim da Silva Teixeira, Professor Associado do Departamento de Eletrónica, Telecomunicações e Informática da Universidade de Aveiro e do Professor Doutor José Miguel de Oliveira Monteiro Sales Dias, Diretor do Centro de Desenvolvimento da Linguagem da Microsoft Portugal e Professor Associado Convidado do Instituto Universitário de Lisboa (ISCTE-IUL). To my Mother and to Diana for their immeasurable patience, support and unconditional love. To the loving memory of Carlos, I am forever grateful. o júri presidente Doutora Anabela Botelho Veloso Professora Catedrática da Universidade de Aveiro Doutora Isabel Maria Martins Trancoso Professora Catedrática do Instituto Superior Técnico da Universidade de Lisboa Doutora Maria Beatriz Alves de Sousa Santos Professora Associada com Agregação da Universidade de Aveiro Doutor José Miguel de Oliveira Monteiro Sales Dias Professor Associado Convidado do ISCTE-IUL – Instituto Universitário de Lisboa (Coorientador) Doutor Luís Manuel Dias Coelho Soares Barbosa Professor Associado da Escola de Engenharia da Universidade do Minho Doutor António Joaquim da Silva Teixeira Professor Associado da Universidade de Aveiro (Orientador) Doutor Carlos Jorge da Conceição Teixeira Professor Auxiliar da Faculdade de Ciências da Universidade de Lisboa Doutor Cengiz Acartürk Assistant Professor, Informatics Institute, Middle East Technical University (METU), Ankara - Turkey Agradecimentos I would like to thank to all the people whose contributions, assistance and support made the end result possible. In my case, both my supervisors, Prof. António Teixeira and Prof. Miguel Sales Dias, head the list. I want to thank them for their patience, continuous encouragement, support and understanding. Additionally, I also want to thank them for always finding the time to discuss new ideas and for helping me in the search for the right path. Their contributions for this work are invaluable and it has been an immense privilege to be their student. I am forever in their debt for all the knowledge they have passed me. I also want to thank the Microsoft Language Development Center for supporting this research and to all my colleagues that work or worked there for their encouragement, understanding and support. In particular, I want to thank António Calado, Daan Baldewijns, Pedro Silva, Manuel Ribeiro and Filipe Gaspar, for their reviews and friendship. To the remarkable researchers, Samuel Silva and Catarina Oliveira, from the University of Aveiro, and Artur Ferreira, from the Lisbon Engineering Institute, thank you all your help and advices. Your collaboration in several studies here described and your contributions add an enormous value to this thesis. I also want to thank Prof. Dr. Francisco Vaz for his contribution in designing the Ultrasonic Doppler device and in the Ultrasonic Doppler studies. To my colleagues from MAP-i, Carlos Pereira, Nuno Oliveira, Nuno Luz and Ricardo Anacleto, thank you for the great times in Braga during the first year of the PhD programme. I would also like to deeply thank all the people that have taken their time to participate in the data acquisition sessions. To all, thank you for donating your (silent) speech and for the valuable feedback. To my friends and family, thank you for all the get-away moments. It was after those moments that the best solutions and ideas were created in my mind. In particular, I want to thank my godfather, Carlos Faria, and his family, for being such wonderful hosts, for their continuous encouragement, belief, and for making my weekly trips to Braga worthy. Carlos was like an older brother to me, with great influence in my decision to pursue higher education. I wish he could be here to share this moment. To my mother, thank you for all the sacrifices, for always being present and for supporting me in every way. To Diana, my deepest thanks, I surely could not have done this without her love and understanding. In that sense, this thesis is also hers. Her friendship, support and patience are infinite. Last but not least, a word to my son, Pedro. Your smile, your ability for making me laugh even in the worst moments, are all the motivation I could ever ask. I hope that one day, the hours of absence, can be compensated by passing what I have learnt to you. Palavras-chave Fala Silenciosa, Multimodal, Português Europeu, Articulação, Nasalidade, Interação Humano-Computador, Electromiografia de superfície, Video, Informação de profundidade, Medição de Doppler em ultrassons Resumo O conceito de fala silenciosa, quando aplicado a interação humano- computador, permite a comunicação na ausência de um sinal acústico. Através da análise de dados, recolhidos no processo de produção de fala humana, uma interface de fala silenciosa (referida como SSI, do inglês Silent Speech Interface) permite a utilizadores com deficiências ao nível da fala comunicar com um sistema. As SSI podem também ser usadas na presença de ruído ambiente, e em situações em que privacidade, confidencialidade, ou não perturbar, é importante. Contudo, apesar da evolução verificada recentemente, o desempenho e usabilidade de sistemas de fala silenciosa tem ainda uma grande margem de progressão. O aumento de desempenho destes sistemas possibilitaria assim a sua aplicação a áreas como Ambientes Assistidos. É desta forma fundamental alargar o nosso conhecimento sobre as capacidades e limitações das modalidades utilizadas para fala silenciosa e fomentar a sua exploração conjunta. Assim, foram estabelecidos vários objetivos para esta tese: (1) Expansão das linguagens suportadas por SSI com o Português Europeu; (2) Superar as limitações de técnicas de SSI atuais na deteção de nasalidade; (3) Desenvolver uma abordagem SSI multimodal para interação humano-computador, com base em modalidades não invasivas; (4) Explorar o uso de medidas diretas e complementares, adquiridas através de modalidades mais invasivas/intrusivas em configurações multimodais, que fornecem informação exata da articulação e permitem aumentar a nosso entendimento de outras modalidades. Para atingir os objetivos supramencionados e suportar a investigação nesta área procedeu-se à criação de uma plataforma SSI multimodal que potencia os meios para a exploração conjunta de modalidades. A plataforma proposta vai muito para além da simples aquisição de dados, incluindo também métodos para sincronização de modalidades, processamento de dados multimodais, extração e seleção de características, análise, classificação e prototipagem. Exemplos de aplicação para cada fase da plataforma incluem: estudos articulatórios para interação humano-computador, desenvolvimento de uma SSI multimodal com base em modalidades não invasivas, e o uso de informação exata com origem em modalidades invasivas/intrusivas para superar limitações de outras modalidades. No trabalho apresentado aplica-se ainda, pela primeira vez, métodos retirados do estado da arte ao Português Europeu, verificando-se que sons nasais podem causar um desempenho inferior de um sistema de fala silenciosa. Neste contexto, é proposta uma solução para a deteção de vogais nasais baseada num único sensor de eletromiografia, passível de ser integrada numa interface de fala silenciosa multimodal. Keywords Silent Speech, Multimodal, European Portuguese, Articulation, Nasality, Human-Computer Interaction, Surface Electromyography, Video, Depth Information, Ultrasonic Doppler Sensing. Abstract The concept of silent speech, when applied to Human-Computer Interaction (HCI), describes a system which allows for speech communication in the absence of an acoustic signal. By analyzing data gathered during different parts of the human speech production process, Silent Speech Interfaces (SSI) allow users with speech impairments to communicate with a system. SSI can also be used in the presence of environmental noise, and in situations in which privacy, confidentiality, or non-disturbance are important. Nonetheless, despite recent advances, performance and usability of Silent Speech systems still have much room for improvement. A better performance of such systems would enable their application in relevant areas, such as Ambient Assisted Living. Therefore, it is necessary to extend our understanding of the capabilities and limitations of silent speech modalities and to enhance their joint exploration. Thus, in this thesis, we have established several goals: (1) SSI language expansion to support European Portuguese; (2) overcome identified limitations of current SSI techniques to detect EP nasality (3) develop a Multimodal HCI approach for SSI based on non-invasive modalities; and (4) explore more direct measures in the Multimodal SSI for EP acquired from more invasive/obtrusive modalities, to be used as ground truth in articulation processes, enhancing our comprehension of other modalities. In order to achieve these goals and to support our research in this area, we have created a multimodal SSI framework that fosters leveraging modalities and combining information, supporting research in multimodal SSI. The proposed framework goes beyond the