A Deep Reinforcement Learning Framework Where Agents Learn a Basic Form of Social Movement

UPTEC F 18008 Examensarbete 30 hp April 2018 A Deep Reinforcement Learning Framework where Agents Learn a Basic form of Social Movement Erik Ekstedt Abstract A Deep Reinforcement Learning Framework where Agents Learn a Basic form of Social Movement Erik Ekstedt Teknisk- naturvetenskaplig fakultet UTH-enheten For social robots to move and behave appropriately in dynamic and complex social contexts they need to be flexible in their movement Besöksadress: behaviors. The natural complexity of social interaction makes this a Ångströmlaboratoriet Lägerhyddsvägen 1 difficult property to encode programmatically. Instead of programming Hus 4, Plan 0 these algorithms by hand it could be preferable to have the system learn these behaviors. In this project a framework is created in which Postadress: an agent, through deep reinforcement learning, can learn how to mimic Box 536 751 21 Uppsala poses, here defined as the most basic case of social movements. The framework aimed to be as agent agnostic as possible and suitable for Telefon: both real life robots and virtual agents through an approach called 018 – 471 30 03 "dancer in the mirror". The framework utilized a learning algorithm Telefax: called PPO and trained agents, as a proof of concept, on both a virtual 018 – 471 30 00 environment for the humanoid robot Pepper and for virtual agents in a physics simulation environment. The framework was meant to be a simple Hemsida: starting point that could be extended to incorporate more and more http://www.teknat.uu.se/student complex tasks. This project shows that this framework was functional for agents to learn to mimic poses on a simplified environment. Handledare: Alex Yuan Gao Ämnesgranskare: Ginevra Castellano Examinator: Tomas Nyberg ISSN: 1401-5757, UPTEC F 18008 Populärvetenskaplig sammanfattning Mänsklighetenblir alltmer beroende av teknologi och utvecklingen g˚arsnabbare änn˚agonsinförr. För ett decennium sedan s˚ablev den förstasmartphonen in- troducerad och plattformar som Facebook och Youtube dökupp föratt förändra samhälletföralltid. P˚agrund av hur fort teknologin utvecklas ärdet fullt möjligt att vi snart lever i ett samhälledärsociala robotar kännslika självklarasom v˚ara smartphones göridag. Robotar som kan hjälpaoss med allt fr˚ansällskap till sjukv˚ard,räddningstjänstoch utbildning. Närmänniskor interagerar och kommunicerar i v˚aravardagliga liv, det vill säga närvi träffasi det verkliga livet, användervi oss mycket av gester och rörelser.Vi röross p˚aolika sättberoende p˚avilken social umgängeskrets vi ärmed eller vad förslags social situation som ärrelevant. Det ärannorlunda att se n˚agonmöta sina bästavännerinne p˚aen fest eller g˚aut fr˚anen begravning. Vi använder v˚artkroppsspr˚aktill att förtydliga vad vi menar och vi kan bedömaandras sin- nesstämningfr˚ananalys av deras h˚allning och sättetde försig. Om sociala robotar ska vara en naturlig del av samhälletoch interagera och kommunicera med oss människor vore det fördelaktigt om dessa hade liknande egenskaper. Sociala robotar borde kunna rörasig p˚aett naturligt sättsom tillförn˚agottill den sociala interaktionen och göratt människor kännersig lugna och säkra. Deras tillvägag˚angssättborde ändrasberoende p˚ahur andra i det sociala sammanhanget beter sig. Sociala situationer ärav en dynamisk natur som gördet sv˚artatt p˚a förhandprogrammera in den exakta kunskap som krävsföratt rörasig p˚aett, för människor, övertygande sätt.Iställetföratt bestämmahur en robot ska bete sig och programmera in olika typer av rörelservore det bättreom roboten självlärde sig detta. P˚asenare ˚arhar deep learning, ett omr˚adeav maskininlärningsom användersig av neurala nätverk, visat stora framsteg inom m˚angaolika omr˚aden. AI ärett populärkulturellt begrepp och f˚armycket utrymme i media. Det kan vara rön om allt fr˚ansjälvkörande bilar, personliga assisstenter till cancerdiagnosterande system och i de flesta fallen ärdet deep learning och neurala nätverk som ärden underliggande teknologin. Neurala nätverk har funnits sedan 40-talet men det är under de senaste ˚arende har blivit mainstream. Det ärförstidag vi har tillräckligt med beräkningskrafttillgängligt förtillräckligt m˚anga människor som dessa neurala nätverk har kunnat ge de resultat vi nu ser ärmöjliga.Dessa typer av program ärnu standard i allt fr˚anljud- och bildigenkänningtill att att översättatext mel- lan olika spr˚ak.Det äräven denna teknologin som ligger bakom de program som nu ärbättreänmänniskor p˚aspel som Go, Atari och schack. Dessa program har lärtsig spela dessa spel genom en teknik, p˚aengelska kallad reinforcement learn- i ing. Denna teknik handlar om att lärasig beteende p˚aliknande sättsom djur och människor lärsig. Inom reinforcement learning s˚aanvändsuttryck som agent, miljöoch belöning.En agent interagerar med sin miljödärolika handlingar ger olika belöningarberoende p˚ahur bra handlingen var. Agenten testar sedan att göramassvis med olika handlingar och efter en viss mängdträninglärden sig vad som ärbästatt göraoch vad som börundvikas. Detta ärgenerellt och de beteenden som agenten lärsig beror p˚amiljön,belöningenoch inlärningsalgorithmen. Olika miljöermed olika belöningssystem ger upphov till agenter som ärbra p˚aolika saker. I detta projekt skapas en miljömed tillhörandebelöningssystemsom ärtill föratt en agent ska lärasig att härmaen annan agents kroppsh˚allning.Att härmaen annan agents kroppsh˚allningantas i detta projekt vara den mest elementäraformen av sociala rörelser.Planen ärsedan att utg˚afr˚andetta och introducera mer och mer komplexa uppgifter. Förutommiljöns˚aanvändesen ny optimeringsalgoritm, förkortad som PPO, föratt optimera de neurala nätverk som var skapade föratt lösauppgiften. I denna implementation ärdet viktigt att miljönärgenerell föratt kunna tränadels helt fiktiva virtuella figurer men ocks˚ariktiga robotar s˚asom den humanoida roboten Pepper fr˚anSoftbank Robotics. Projektet implementerade en miljöbaserat p˚aProgrammet Choregraphe därman kan styra Pepper samt en miljösom ärbaserat p˚anon profit-företagetOpenAI's Roboschool-miljöbyggt p˚a fysik-simuleringsprogram Bullet. Det de olika miljöernahar gemensamt ärsättet agenter i miljönska lärasig akten att härmaen annan agents kroppsh˚allning. Efter det att miljöernablev funktionella s˚autfördesn˚agramindre omfattande experiment för att se om algoritmen, miljön,belöningssystemetoch de neurala nätverken kunde visas klara uppgiften att härmaen annan agents kroppsh˚allning. Resultaten fr˚andessa mindre experiment visar p˚aatt det ärmöjligtatt härma kroppsh˚allningp˚adetta sättet,i en förenkladmiljö,men att mer arbete behövs föratt göramiljöernamer komplexa och relevanta förrealistiska situationer. ii TABLE OF CONTENTS 1 Introduction 1 1.1 Setup . 2 1.2 Dancer in the Mirror Approach . 3 1.3 Research Questions . 5 2 Background 5 2.1 Machine Learning . 5 2.2 Artificial Neural Networks . 6 2.3 Activation Functions . 7 2.3.1 Sigmoidal Activation Function . 7 2.3.2 ReLu . 8 2.4 Backpropogation . 9 2.4.1 Stochastic Gradient Descent . 9 2.4.2 Adam . 10 2.5 Architectures . 10 2.5.1 Convolutional Neural Network . 11 2.5.2 Recurrent Neural Networks . 11 2.5.3 Hyperparameters . 12 2.6 Reinforcement Learning . 12 2.6.1 Value iteration . 15 2.6.2 Policy Optimization . 15 2.6.3 Actor-Critic Methods . 17 2.6.4 Proximal Policy Optimization . 17 2.6.5 Exploration vs Exploitation . 18 2.7 Pepper . 19 2.7.1 Choregraphe . 19 2.8 OpenAI's Gym . 20 2.8.1 Roboschool . 21 3 Method 21 3.1 Learning Algorithm . 22 3.2 Pepper Environment . 24 3.3 Custom Roboschool Environment . 25 3.4 Reward Function . 26 3.5 Networks . 28 3.5.1 Modular Approach . 28 3.5.2 Semi Modular Approach . 29 3.5.3 Combined Approach . 30 3.6 Experiment . 30 iii 3.7 Custom Reacher Experiments . 31 3.8 Custom Humanoid Experiments . 32 3.9 Pepper Experiments . 33 4 Results 34 4.1 Reward Function . 34 4.2 Experiment . 34 4.2.1 Reacher Environment . 35 4.2.2 Humanoid Environment . 39 4.3 Pose Evaluation . 39 4.4 Pepper . 41 4.5 Code . 44 5 Discussion and Future Work 45 5.1 Custom Roboschool Environment . 45 5.2 Pepper . 46 5.3 Project . 48 5.4 Future Work . 49 6 Conclusion 49 iv 1 Introduction This project aims to construct a framework for training agents to learn a basic form of social movement through end to end deep reinforcement learning. In human social interactions individuals convey a lot of information through the movements of different body parts. We implement many detailed movements in the facial area and in the use of our arms, hands and overall posing. There are a wide variety of different movements humans use when we engage in social interactions and they range from fully conscious and explicit in their meanings, all the way to movements that we are unconsciously doing and are not aware of. We use the movement information of others as a way to infer the type of social interaction we are in as well as the emotional state and intentions of the people we socialize with. Social movements are highly context dependent and the context change over time. In other words the contexts are dynamical and require that an agent is able to adapt to different behaviors based on queues in the social environment.

A Deep Reinforcement Learning Framework Where Agents Learn a Basic Form of Social Movement

Self-Training Wavenet for TTS in Low-Data Regimes

Unsupervised Speech Representation Learning Using Wavenet Autoencoders Jan Chorowski, Ron J

Unsupervised Speech Representation Learning Using Wavenet Autoencoders

Real-Time Black-Box Modelling with Recurrent Neural Networks

Linear Prediction-Based Wavenet Speech Synthesis

Anomaly Detection in Raw Audio Using Deep Autoregressive Networks

Predicting Uber Demand in NYC with Wavenet

Parallel Wave Generation in End-To-End Text-To-Speech

Unsupervised Learning of Cross-Modal Mappings Between

A Survey of Forex and Stock Price Prediction Using Deep Learning

Accent Transfer with Discrete Representation Learning and Latent Space Disentanglement

A Practical Guide to Ai in the Contact Center