
UPTEC F 18008 Examensarbete 30 hp April 2018 A Deep Reinforcement Learning Framework where Agents Learn a Basic form of Social Movement Erik Ekstedt Abstract A Deep Reinforcement Learning Framework where Agents Learn a Basic form of Social Movement Erik Ekstedt Teknisk- naturvetenskaplig fakultet UTH-enheten For social robots to move and behave appropriately in dynamic and complex social contexts they need to be flexible in their movement Besöksadress: behaviors. The natural complexity of social interaction makes this a Ångströmlaboratoriet Lägerhyddsvägen 1 difficult property to encode programmatically. Instead of programming Hus 4, Plan 0 these algorithms by hand it could be preferable to have the system learn these behaviors. In this project a framework is created in which Postadress: an agent, through deep reinforcement learning, can learn how to mimic Box 536 751 21 Uppsala poses, here defined as the most basic case of social movements. The framework aimed to be as agent agnostic as possible and suitable for Telefon: both real life robots and virtual agents through an approach called 018 – 471 30 03 "dancer in the mirror". The framework utilized a learning algorithm Telefax: called PPO and trained agents, as a proof of concept, on both a virtual 018 – 471 30 00 environment for the humanoid robot Pepper and for virtual agents in a physics simulation environment. The framework was meant to be a simple Hemsida: starting point that could be extended to incorporate more and more http://www.teknat.uu.se/student complex tasks. This project shows that this framework was functional for agents to learn to mimic poses on a simplified environment. Handledare: Alex Yuan Gao Ämnesgranskare: Ginevra Castellano Examinator: Tomas Nyberg ISSN: 1401-5757, UPTEC F 18008 Popul¨arvetenskaplig sammanfattning M¨ansklighetenblir alltmer beroende av teknologi och utvecklingen g˚arsnabbare ¨ann˚agonsinf¨orr. F¨or ett decennium sedan s˚ablev den f¨orstasmartphonen in- troducerad och plattformar som Facebook och Youtube d¨okupp f¨oratt f¨or¨andra samh¨alletf¨oralltid. P˚agrund av hur fort teknologin utvecklas ¨ardet fullt m¨ojligt att vi snart lever i ett samh¨alled¨arsociala robotar k¨annslika sj¨alvklarasom v˚ara smartphones g¨oridag. Robotar som kan hj¨alpaoss med allt fr˚ans¨allskap till sjukv˚ard,r¨addningstj¨anstoch utbildning. N¨arm¨anniskor interagerar och kommunicerar i v˚aravardagliga liv, det vill s¨aga n¨arvi tr¨affasi det verkliga livet, anv¨andervi oss mycket av gester och r¨orelser.Vi r¨oross p˚aolika s¨attberoende p˚avilken social umg¨angeskrets vi ¨armed eller vad f¨orslags social situation som ¨arrelevant. Det ¨arannorlunda att se n˚agonm¨ota sina b¨astav¨annerinne p˚aen fest eller g˚aut fr˚anen begravning. Vi anv¨ander v˚artkroppsspr˚aktill att f¨ortydliga vad vi menar och vi kan bed¨omaandras sin- nesst¨amningfr˚ananalys av deras h˚allning och s¨attetde f¨orsig. Om sociala rob- otar ska vara en naturlig del av samh¨alletoch interagera och kommunicera med oss m¨anniskor vore det f¨ordelaktigt om dessa hade liknande egenskaper. Sociala robotar borde kunna r¨orasig p˚aett naturligt s¨attsom tillf¨orn˚agottill den so- ciala interaktionen och g¨oratt m¨anniskor k¨annersig lugna och s¨akra. Deras tillv¨agag˚angss¨attborde ¨andrasberoende p˚ahur andra i det sociala sammanhanget beter sig. Sociala situationer ¨arav en dynamisk natur som g¨ordet sv˚artatt p˚a f¨orhandprogrammera in den exakta kunskap som kr¨avsf¨oratt r¨orasig p˚aett, f¨or m¨anniskor, ¨overtygande s¨att.Ist¨alletf¨oratt best¨ammahur en robot ska bete sig och programmera in olika typer av r¨orelservore det b¨attreom roboten sj¨alvl¨arde sig detta. P˚asenare ˚arhar deep learning, ett omr˚adeav maskininl¨arningsom anv¨andersig av neurala n¨atverk, visat stora framsteg inom m˚angaolika omr˚aden. AI ¨arett popul¨arkulturellt begrepp och f˚armycket utrymme i media. Det kan vara r¨on om allt fr˚ansj¨alvk¨orande bilar, personliga assisstenter till cancerdiagnosterande system och i de flesta fallen ¨ardet deep learning och neurala n¨atverk som ¨arden underliggande teknologin. Neurala n¨atverk har funnits sedan 40-talet men det ¨ar under de senaste ˚arende har blivit mainstream. Det ¨arf¨orstidag vi har tillr¨ackligt med ber¨akningskrafttillg¨angligt f¨ortillr¨ackligt m˚anga m¨anniskor som dessa neu- rala n¨atverk har kunnat ge de resultat vi nu ser ¨arm¨ojliga.Dessa typer av program ¨arnu standard i allt fr˚anljud- och bildigenk¨anningtill att att ¨overs¨attatext mel- lan olika spr˚ak.Det ¨ar¨aven denna teknologin som ligger bakom de program som nu ¨arb¨attre¨anm¨anniskor p˚aspel som Go, Atari och schack. Dessa program har l¨artsig spela dessa spel genom en teknik, p˚aengelska kallad reinforcement learn- i ing. Denna teknik handlar om att l¨arasig beteende p˚aliknande s¨attsom djur och m¨anniskor l¨arsig. Inom reinforcement learning s˚aanv¨andsuttryck som agent, milj¨ooch bel¨oning.En agent interagerar med sin milj¨od¨arolika handlingar ger olika bel¨oningarberoende p˚ahur bra handlingen var. Agenten testar sedan att g¨oramassvis med olika han- dlingar och efter en viss m¨angdtr¨aningl¨arden sig vad som ¨arb¨astatt g¨oraoch vad som b¨orundvikas. Detta ¨argenerellt och de beteenden som agenten l¨arsig beror p˚amilj¨on,bel¨oningenoch inl¨arningsalgorithmen. Olika milj¨oermed olika bel¨oningssystem ger upphov till agenter som ¨arbra p˚aolika saker. I detta projekt skapas en milj¨omed tillh¨orandebel¨oningssystemsom ¨artill f¨oratt en agent ska l¨arasig att h¨armaen annan agents kroppsh˚allning.Att h¨armaen annan agents kroppsh˚allningantas i detta projekt vara den mest element¨araformen av sociala r¨orelser.Planen ¨arsedan att utg˚afr˚andetta och introducera mer och mer komplexa uppgifter. F¨orutommilj¨ons˚aanv¨andesen ny optimeringsalgoritm, f¨orkortad som PPO, f¨oratt optimera de neurala n¨atverk som var skapade f¨oratt l¨osauppgiften. I denna implementation ¨ardet viktigt att milj¨on¨argenerell f¨oratt kunna tr¨anadels helt fiktiva virtuella figurer men ocks˚ariktiga robotar s˚asom den humanoida roboten Pepper fr˚anSoftbank Robotics. Projektet implementerade en milj¨obaserat p˚aProgrammet Choregraphe d¨arman kan styra Pepper samt en milj¨osom ¨arbaserat p˚anon profit-f¨oretagetOpenAI's Roboschool-milj¨obyggt p˚a fysik-simuleringsprogram Bullet. Det de olika milj¨oernahar gemensamt ¨ars¨attet agenter i milj¨onska l¨arasig akten att h¨armaen annan agents kroppsh˚allning. Efter det att milj¨oernablev funktionella s˚autf¨ordesn˚agramindre omfattande experiment f¨or att se om algoritmen, milj¨on,bel¨oningssystemetoch de neurala n¨atverken kunde visas klara uppgiften att h¨armaen annan agents kroppsh˚allning. Resultaten fr˚andessa mindre experiment visar p˚aatt det ¨arm¨ojligtatt h¨arma kroppsh˚allningp˚adetta s¨attet,i en f¨orenkladmilj¨o,men att mer arbete beh¨ovs f¨oratt g¨oramilj¨oernamer komplexa och relevanta f¨orrealistiska situationer. ii TABLE OF CONTENTS 1 Introduction 1 1.1 Setup . 2 1.2 Dancer in the Mirror Approach . 3 1.3 Research Questions . 5 2 Background 5 2.1 Machine Learning . 5 2.2 Artificial Neural Networks . 6 2.3 Activation Functions . 7 2.3.1 Sigmoidal Activation Function . 7 2.3.2 ReLu . 8 2.4 Backpropogation . 9 2.4.1 Stochastic Gradient Descent . 9 2.4.2 Adam . 10 2.5 Architectures . 10 2.5.1 Convolutional Neural Network . 11 2.5.2 Recurrent Neural Networks . 11 2.5.3 Hyperparameters . 12 2.6 Reinforcement Learning . 12 2.6.1 Value iteration . 15 2.6.2 Policy Optimization . 15 2.6.3 Actor-Critic Methods . 17 2.6.4 Proximal Policy Optimization . 17 2.6.5 Exploration vs Exploitation . 18 2.7 Pepper . 19 2.7.1 Choregraphe . 19 2.8 OpenAI's Gym . 20 2.8.1 Roboschool . 21 3 Method 21 3.1 Learning Algorithm . 22 3.2 Pepper Environment . 24 3.3 Custom Roboschool Environment . 25 3.4 Reward Function . 26 3.5 Networks . 28 3.5.1 Modular Approach . 28 3.5.2 Semi Modular Approach . 29 3.5.3 Combined Approach . 30 3.6 Experiment . 30 iii 3.7 Custom Reacher Experiments . 31 3.8 Custom Humanoid Experiments . 32 3.9 Pepper Experiments . 33 4 Results 34 4.1 Reward Function . 34 4.2 Experiment . 34 4.2.1 Reacher Environment . 35 4.2.2 Humanoid Environment . 39 4.3 Pose Evaluation . 39 4.4 Pepper . 41 4.5 Code . 44 5 Discussion and Future Work 45 5.1 Custom Roboschool Environment . 45 5.2 Pepper . 46 5.3 Project . 48 5.4 Future Work . 49 6 Conclusion 49 iv 1 Introduction This project aims to construct a framework for training agents to learn a basic form of social movement through end to end deep reinforcement learning. In human so- cial interactions individuals convey a lot of information through the movements of different body parts. We implement many detailed movements in the facial area and in the use of our arms, hands and overall posing. There are a wide variety of different movements humans use when we engage in social interactions and they range from fully conscious and explicit in their meanings, all the way to movements that we are unconsciously doing and are not aware of. We use the movement information of others as a way to infer the type of social interaction we are in as well as the emotional state and intentions of the people we socialize with. Social movements are highly context dependent and the context change over time. In other words the contexts are dynamical and require that an agent is able to adapt to different behaviors based on queues in the social environment.
Details
-
File Typepdf
-
Upload Time-
-
Content LanguagesEnglish
-
Upload UserAnonymous/Not logged-in
-
File Pages61 Page
-
File Size-