Portuguese Pronunciation Professor Thesis to Obtain the Master Of
Total Page:16
File Type:pdf, Size:1020Kb
3P 3P – Portuguese Pronunciation Professor Mariana Sofia Pimenta Lopes Thesis to obtain the Master of Science Degree in Electrical and Computer Engineering Supervisor: Prof. Isabel Maria Martins Trancoso Examination Committee Chairperson: Professor João Fernando Cardoso Silva Sequeira Supervisor: Professor Isabel Maria Martins Trancoso Members of the Committee: Professor Hugo Daniel dos Santos Meinedo October 2014 ii To my parents, iii iv Acknowledgements Acknowledgements I am using this opportunity to express my gratitude to everyone who supported me throughout the course of this project. I am sincerely grateful for their guidance, constructive criticism and friendly advice during the project work. I would like to express the deepest appreciation to my advisor Professor Isabel Trancoso for encouraging my research and providing priceless support and encouragement when I most needed it. I would also like to thank the L2F staff, especially to Professor Hugo Meinedo, Professor Alberto Gareta, Professor Thomas Pelligrini and Phd student Anna Pompili for the immense assistance, and provision of the source materials essential to helping me completing this project. Furthermore, I would like to extend my thankfulness to all the people mentioned in the references for making their work available, so people can understand and adapt their research. Finally a special thanks to my family. Words cannot express how grateful I am to my mother, and father for all of the sacrifices that you’ve made on my behalf and encouragement to strive towards my goal. v vi Abstract Abstract The quality of oral proficiency forms an important part in learning a foreign language. Yet, frequently students find it hard to obtain a reliable source where they can work their pronunciation intensely. An automatic assessment system can reduce the cost and workload associated with this task. This type of tools are available for students of widely spoken languages such as American or British English, however there is not a large amount of them for students of European Portuguese (EP). The research presented in this thesis investigates a solution for creating a computer assisted language learning (CALL) system for EP using as its base the work of Witt (1999)[1]. This thesis begins by outlining important aspects for computer-assisted language learning and makes a brief analysis of the EP phonemes and the comparison with the two other languages presented in the corpus, Spanish and Bulgarian. Then the several steps in the method are explained, i.e., firstly the audio speech is digitalized, then, using Audimus, posterior probabilities on 20 ms frames are calculated from the extracted features. Subsequently, a GOP score is calculated for each frame and for each phoneme. Then the GOP is normalized and using a pre-established threshold, from native speakers’ data, the threshold is adapted in order to improve efficiency in classifying the phonemes as a correct or incorrect utterance. Finally, since the threshold is a subjective to who implemented it, it is compared with three human judges in order to guarantee its quality. Keywords CAPT, GOP, normalization, pronunciation, natives, non-natives, European Portuguese vii Resumo Resumo A qualidade de proficiência oral constitui uma parte importante na aprendizagem de uma língua estrangeira. No entanto, muitas vezes os alunos têm dificuldade em obter uma fonte fiável, onde podem trabalhar intensamente a sua pronúncia. Um sistema de avaliação automática pode reduzir o custo e a carga de trabalho associada a essa tarefa. Este tipo de ferramentas está disponível para estudantes de línguas mais faladas, como o Inglês americano ou britânico, no entanto não há, em grande parte investigação para estudantes de Português Europeu (PE). A pesquisa apresentada nesta tese investiga uma solução para a criação de um sistema assistido por computador para a aprendizagem de línguas (CALL) para o PE usando como base o trabalho de Witt (1999) [1]. Esta tese começa por descrever aspetos importantes para a aprendizagem de línguas assistida por computador, fazendo também uma breve análise dos fonemas do EP e uma comparação com as outras duas línguas apresentadas no corpus, o espanhol e o búlgaro. Em seguida, os vários passos do processo são explicados, ou seja, em primeiro lugar, o registo áudio da fala é digitalizado, e, utilizando Audimus, as probabilidades posteriores em intervalos de 20 ms são calculadas a partir das características extraídas. Subsequentemente, uma pontuação GOP é calculada para cada intervalo e para cada fonema. Em seguida, o GOP é normalizado e usando um limite pré-estabelecido, obtido a partir de dados de falantes nativos, o limite é adaptado, a fim de melhorar a eficiência na classificação dos fonemas como correta ou incorretamente pronunciados. Finalmente, uma vez que o limite é subjetivo para quem o executou, ele é comparado com o julgamento de três juízes humanos, a fim de garantir a sua qualidade. Palavras-chave CALL, GOP, normalização, pronúncia, nativos, não nativos, Português Europeu. viii Table of Contents Acknowledgements ................................................................................... v Abstract .....................................................................................................vii Resumo.................................................................................................... viii List of Figures ........................................................................................... xi List of Tables ............................................................................................xii List of Acronyms ...................................................................................... xiii List of Software ........................................................................................xiv 1 Introduction ................................................................................... 15 1.1 Overview ................................................................................................ 16 1.2 Motivation and problem specification ..................................................... 16 1.3 Innovations of the work .......................................................................... 16 1.4 Thesis contents ..................................................................................... 16 2 Pronunciation ................................................................................ 18 2.1 Learning word pronunciation ................................................................. 19 2.2 Automatic Speech Recognition .............................................................. 19 3 Phonology ..................................................................................... 21 3.1 European Portuguese ............................................................................ 23 3.1.1 Brief description of EP ...................................................................................... 23 3.1.2 Phonology of EP ............................................................................................... 25 3.2 EP and foreign languages ..................................................................... 28 3.2.1 Brief comparison with Spanish .......................................................................... 28 3.2.2 Brief comparison with Bulgarian ........................................................................ 30 4 System Design.............................................................................. 31 4.1 State of the art ....................................................................................... 33 4.1.1 Scientific research ............................................................................................ 33 4.1.2 Existing tools .................................................................................................... 33 ix 4.2 Method................................................................................................... 34 4.2.1 Audimus ........................................................................................................... 35 4.2.2 GOP ................................................................................................................. 37 4.2.3 NGOP .............................................................................................................. 38 4.2.4 Threshold ......................................................................................................... 39 4.2.5 GOP for fluent speech ...................................................................................... 40 4.2.1 Overall score .................................................................................................... 41 4.2.2 Performance measure ...................................................................................... 41 4.3 Other classification methods .................................................................. 42 4.3.1 Likelihood Ratio ................................................................................................ 42 4.3.2 MFCC and DTW based evaluation .................................................................... 42 5 Experiments and results ............................................................... 43 5.1 Corpus ................................................................................................... 44 5.2 Implementation ...................................................................................... 45 5.3 Results..................................................................................................