Generating Non-Verbal Communication from Speech
Total Page:16
File Type:pdf, Size:1020Kb
Manuel Rebol, MSc. Generating Non-Verbal Communication From Speech Master's Thesis to achieve the university degree of Master of Science Master's degree programme: Computer Science submitted to Graz University of Technology Supervisor Christian G¨utl,Assoc.Prof. Dipl.-Ing. Dr.techn. Supervisor Krzysztof Pietroszek, Ass.Prof. M.Sc. Ph.D. In cooperation with American University, Washington, DC This work was supported by the Austrian Marshall Plan Foundation Graz, November 2020 Abstract The communication between human and virtual agents is becoming more important because of the increased usage of virtual environments in everyday life. Applications such as virtual learning platforms, online meetings and virtual assistance are gaining popularity. However, communication with virtual agents is often unintuitive and does not feel similar to talking with a person. Therefore, we focus on improving natural non-verbal human-agent communication in our work. We develop a speaker-specific model that predicts hand and arm gestures given input speech. We model the non-deterministic relationship between speech and gestures with a Generative Adversarial Network (GAN). Inside the GAN, a motion discriminator forces the generator to predict only gestures that have human-like motion. To provide data for our model, we extract the gestures from in-the- wild videos using 3D human pose estimation algorithms. This allows us to automatically create a large speaker-specific dataset despite the lack of motion capture data. We train our gesture model on speakers from show business and academia using publicly available video data. Once generated by our GAN, we animate the gestures on a virtual character. We evaluate the generated gestures by conducting a human user study. In the study, we compare our predictions with the original gestures and predictions from uncorrelated speech in two different tasks. The results show that our generated gestures are indistinguishable from the original gestures when animated on a virtual character. In 53 % of the cases, participants found our generated gestures to be more natural compared to the original gestures. When compared with gestures from an uncorrelated speech, participants selected our gestures to be more correlated 65 % of times. Moreover, we show that our model performs well on speakers from both show business and academia. iii Kurzfassung Durch den vermehrten Einsatz von virtuellen Umgebungen in Alltagssitua- tionen wird auch die Verstandigung¨ zwischen Mensch und virtuellem Kom- munikationspartner immer wichtiger. Das gilt insbesondere fur¨ virtuelle Lern- plattformen, online Meetings oder auch fur¨ die Verstandigung¨ mit digitalen Assistenten. Aktuell erfolgt die Kommunikation mit virtuellen Gesprachspart-¨ nern aber noch nicht intuitiv und sie fuhlt¨ sich nicht nach einer Unterhaltung mit einer Person an. Um dies zu verbessern, beschaftigen¨ wir uns in dieser Arbeit mit nonverbaler Kommunikation zwischen Mensch und virtuellem Gesprachspartner.¨ Wir erzeugen ein personenspezifisches Modell, das Korper-¨ sprache in Form von Hand und Armgesten passend zum Gesprochenem au- tomatisch synthetisiert. Wir modellieren den komplizierten Zusammenhang zwischen Sprache und Gestik mittels eines Generative Adversarial Network (GAN). Im GAN imple- mentieren wir einen Diskriminator, dessen Aufgabe darin besteht, den Genera- tor dazu zu bewegen, moglichst¨ menschenahnliche¨ Bewegungen zu generieren. Um unser Modell mit Daten zu versorgen, extrahieren wir die Gesten von unterschiedlichsten Videos mithilfe von 3-D-Erkennung von Personen. Diese Technik erlaubt uns, große Datenmengen zur Verbesserung unseres Modells automatisch zu generieren. Wir trainieren unser Modell zur Gestenerzeugung mit Videodaten von Univer- sitatsvorlesungen¨ und Fernsehshows. Nachdem wir die Gesten mithilfe unseres GANs generieren, animieren wir sie an einem virtuellen Avatar. Wir evaluieren die Qualitat¨ der erzeugten Korpersprache¨ anhand einer Nutzerstudie. In dieser Studie vergleichen wir die generierten Gesten mit den Originalgesten und mit Gesten, die nicht zum Gesprochenen passen. Die Ergebnisse zeigen, dass die synthetisierten Gesten nicht von den origi- nalen Gesten unterscheidbar sind. In 53 % der Falle¨ glaubten die Teilnehmer der Studie, dass die synthetisierten Gesten besser zum Gesprochenen passen. Beim Vergleich zwischen Gesten, die zum Gesprochenen passen und unpassenden Gesten, entschieden sich 65 % der Teilnehmer fur¨ die Gesten, die mithilfe der dazugehorigen¨ Sprache erzeugt wurden. Somit konnten wir zeigen, dass unser Modell naturliche¨ Gesten fur¨ Fernsehmoderatoren und Professoren generieren kann. v Contents 1. Introduction1 1.1. Use Case................................. 2 1.2. Basic Idea................................ 4 1.3. Structure of the Work.......................... 5 2. Background and Related Work7 2.1. Human Body Language........................ 8 2.1.1. Types of Gestures........................ 8 2.1.2. Nonverbal Communication.................. 9 2.2. Mathematical Notation and Conventions.............. 10 2.3. Machine Learning............................ 12 2.3.1. Discriminative vs Generative Models............ 12 2.3.2. Supervised vs Unsupervised Learning........... 12 2.3.3. Classification vs Regression Tasks.............. 13 2.4. Convolutional Neural Network.................... 14 2.4.1. Neural Network........................ 14 2.4.2. Neural Network Architecture................. 15 2.5. Generative Adversarial Network................... 18 2.5.1. Generator............................ 18 2.5.2. Discriminator.......................... 19 2.5.3. Training............................. 19 2.6. Body Language Synthesizing..................... 19 2.6.1. Motion Capture......................... 20 2.6.2. 3D Reconstruction....................... 20 2.6.3. Speech Gesture Relationship................. 21 2.6.4. Our Work Compared to the State-Of-The-Art....... 23 2.7. Encoding Human Body Language and Speech........... 24 2.7.1. Speech Processing....................... 24 2.7.2. Transferring 2D Video into 3D Virtual Reality....... 25 2.8. Related Work Summary........................ 32 3. Structural Approach and Development 33 3.1. Conceptual Architecture........................ 33 3.2. Structure................................. 34 3.3. Hardware and Setup.......................... 35 vii Contents 3.4. Data Collection............................. 36 3.4.1. TV Show Speakers....................... 36 3.4.2. Academic Speakers....................... 36 3.4.3. Data Preparation........................ 37 3.5. Human Pose Estimation........................ 40 3.5.1. 2D Pose Estimation....................... 40 3.5.2. 3D Body Pose Estimation................... 41 3.5.3. 3D Hand Pose Estimation................... 43 3.6. 3D Skeletal Gesture Generation.................... 47 3.6.1. Gesture GAN.......................... 47 3.6.2. UNet Generator......................... 48 3.6.3. Motion Discriminator..................... 49 3.6.4. Training the Parameters of our Model............ 50 3.6.5. Quantitative Evaluation on Human Pose.......... 50 3.7. Virtual Human Animation....................... 51 3.7.1. Skeleton to Virtual Human Animation........... 53 3.7.2. Designing the Environment.................. 54 3.8. Development Summary........................ 54 4. User Study 57 4.1. Study Design.............................. 57 4.1.1. Research Questions....................... 57 4.1.2. Methodology.......................... 58 4.2. Setting and Instruments........................ 59 4.2.1. Environmental Setting..................... 60 4.2.2. Instrument Design....................... 60 4.3. Procedure................................ 61 4.4. Study Participants............................ 64 4.5. Results and Discussion......................... 64 4.5.1. Results.............................. 64 4.5.2. Discussion............................ 66 4.6. User Study Summary.......................... 68 5. Lessons Learned 71 5.1. Background and Related Work.................... 71 5.2. Development.............................. 72 5.3. User Study................................ 72 6. Conclusion and Future Work 75 6.1. Conclusion................................ 75 6.2. Future Work............................... 76 Bibliography 79 viii Contents A. List Of Acronyms 87 ix List of Figures 1.1. Sophia Robot.............................. 3 1.2. Gesture Generation........................... 4 a. Professor Jonathan Gruber.................. 4 b. TV Host John Oliver...................... 4 2.1. The “OK” Sign............................. 8 2.2. The UNet Architecture......................... 17 2.3. GAN Framework............................ 18 2.4. Motion Capture............................. 21 2.5. Mel Spectrogram............................ 25 2.6. Human Pose and Shape Estimation VIBE.............. 26 2.7. Human Pose and Shape Estimation MTC.............. 27 2.8. OpenPose Body Keypoints....................... 28 a. Keypoints Pose 25 ....................... 28 b. Keypoints Pose 18 ....................... 28 2.9. OpenPose Hand and Face Keypoints................. 29 a. Keypoints Hand........................ 29 b. Keypoints Face......................... 29 2.10. Hand Model Estimation........................ 31 3.1. Gesture Pipeline............................. 35 3.2. Valid vs Invalid Frames........................ 39 a. Valid Frame........................... 39 b. Invalid Frame.......................... 39 3.3. Detectron 2D Human Pose....................... 41 3.4. 3D Human Pose Estimation.....................