Juan Manuel PÉREZ RÚA Hierarchical Motion-Based Video
Total Page:16
File Type:pdf, Size:1020Kb
ANNÉE 2017 THÈSE / UNIVERSITÉ DE RENNES 1 sous le sceau de l’Université Bretagne Loire pour le grade de DOCTEUR DE L’UNIVERSITÉ DE RENNES 1 Mention : Traitement du Signal et Télécommunications Ecole doctorale MathSTIC présentée par Juan Manuel PÉREZ RÚA préparée au Centre Inria Rennes - Bretagne Atlantique Thèse soutenue à Rennes Hierarchical le 4 décembre 2017 motion-based devant le jury composé de : Luce MORIN video analysis Professor, INSA Rennes/président de jury Christian WOLF Associate Professor, INSA Lyon/rapporteur with applications to Anil KOKARAM Prof./Head of Department, Trinity College Dublin/rapporteur Jean-Marc ODOBEZ video post-production. Senior Researcher, EPFL/examinateur Ivan LAPTEV Research Director, INRIA Paris/examinateur Patrick PÉREZ Distinguished Scientist, TECHNICOLOR/examinateur Patrick BOUTHEMY Research Director, INRIA Rennes/directeur de thèse Tomas CRIVELLI Senior Scientist, TECHNICOLOR/co-directeur de thèse I like the scientific spirit - the holding off, the being sure but not too sure, the willingness to surrender ideas when the evidence is against them: this is ultimately fine - it always keeps the way beyond open - always gives life, thought, affection, the whole man, a chance to try over again after a mistake - after a wrong guess. Walt Whitman ACKNOWLEDGEMENTS To my family and friends, and Asia. P.P.,P.B., and Tomas. Martin, Dmitry, Oriel, Jean, and Charlotte. It was an adventure. Thank you all for your support. i ii CONTENTS Contents 1 Résumé en français (Summary in French) 5 IPRELIMINARIES 13 1 General Introduction 15 1.1 Goals and motivations . 16 1.1.1 Hierarchical structure of natural scene motion . 16 1.1.2 Interactive and fully automatic methods for video analysis . 18 1.1.3 Motion analysis and video processing for the cinema industry 20 1.2 Organization of this thesis . 20 2 An overview of image motion analysis and its applications to the post- production pipeline 23 2.1 Motion analysis: a psychological context . 24 2.2 Computer-based motion analysis . 29 2.2.1 About optical flow . 29 2.2.2 Occlusions: issue or tool? . 32 2.2.3 Other ways to characterize motion: object tracking and motion trajectories . 33 2.3 Applications to post-production . 36 2.4 Discussion . 43 II INTERACTIVE VIDEO ANALYSIS 45 3 Object-aware dense motion estimation: Object Flow 47 3.1 Introduction . 47 3.2 Related work . 49 1 2 Contents 3.3 The compositional nature of dense motion . 51 3.4 Object flow . 55 3.4.1 A simple Object Flow implementation . 57 3.4.2 Deep object flow . 61 3.5 Experimental results . 62 3.6 Conclusions . 66 4 Rich object appearance models for rotoscoping and trimap tracking: ROAM and ROAM+ 69 4.1 Introduction . 70 4.2 Related work and motivation . 73 4.2.1 Rotoscoping and curve-based approaches . 73 4.2.2 Masks and region-based approaches . 74 4.2.3 Previous works on trimaps . 75 4.3 Introducing ROAM . 76 4.3.1 Curve-based modelling: EC ..................... 77 4.3.2 Landmark-based modelling: E L .................. 78 4.3.3 Curve-landmarks interaction: E J .................. 79 4.4 Introducing ROAM+ . 80 4.5 Using ROAM . 82 4.6 Using ROAM+ . 84 4.7 Results . 84 4.8 Conclusion . 92 III FULLY AUTOMATIC VIDEO ANALYSIS 97 5 Occlusion detection 99 5.1 Introduction . 99 5.2 On true motion and occlusion models . 101 5.3 From image reconstructions to occlusion . 104 5.4 Proposed occlusion detection . 105 5.4.1 A reconstruction-based criterion . 106 5.4.2 From motion models to occlusions without stopping by optical flow................................... 108 5.5 Experimental results . 111 5.5.1 Evaluation of the occlusion criterion . 111 5.5.2 Full system evaluation . 112 5.5.3 Failure modes . 113 5.6 Concluding remarks . 114 Contents 3 6 Hierarchical motion analysis 119 6.1 Introduction . 119 6.2 Related work . 121 6.3 Hierarchical motion decomposition . 123 6.4 A hierarchical analysis of motion from pairs of frames . 123 6.4.1 Constructing proposal motion tree M . 125 6.4.2 Estimating decomposition tree T and pixel labels . 126 6.4.3 Some visual results . 128 6.4.4 About frame-based hierarchical scene decomposition . 128 6.5 A hierarchical partition by learning structured dictionaries . 132 6.5.1 Hierarchical dictionary learning . 133 6.5.2 Hierarchical coding and clustering . 134 6.5.3 Extension to longer videos . 135 6.5.4 Experimental evaluation . 138 6.6 Discussion . 139 7 Parametric motion modeling via deep neural networks 141 7.1 Introduction and related work . 142 7.1.1 Motion2D . 144 7.1.2 Deep architectures . 145 7.2 Our model . 148 7.2.1 Optical flow outlier elimination network . 148 7.2.2 Motion2DNet . 149 7.2.3 Training schedule and datasets . 151 7.3 Experiments .................................. 154 7.4 Discussion . 157 IV CONCLUSIONS 159 8 General Conclusions 161 8.1 Our contributions and results . 162 8.1.1 On object flow . 162 8.1.2 On ROAM and ROAM+........................ 162 8.1.3 On occlusions . 163 8.1.4 On hierarchical motion analysis . 163 8.2 Current and future work . 164 A A method for video object segmentation 167 A.1 Introduction and background . 167 A.2 Video object segmentation . 169 4 Contents A.2.1 Motion estimation and foreground-background tracking . 170 A.2.2 MRF definition and minimization . 171 A.2.3 Bounding-box update . 172 A.3 Experimental results . 173 A.4 Discussion . 174 List of publications 175 Bibliography 177 RÉSUMÉENFRANÇAIS Nous présentons dans ce manuscrit les méthodes développées et les résultats obtenus dans notre travail de thèse sur l’analyse du contenu dynamique de scène visuelle. Nous avons considéré la configuration la plus fréquente de vision par ordinateur, à savoir caméra monoculaire et vidéos naturelles de scène extérieure. Nous nous concentrons sur des problèmes importants généraux pour la vision par ordinateur et d’un intérêt particulier pour l’industrie cinématographique, dans le cadre de la post-production vidéo. Les problèmes abordés peuvent être regroupés en deux catégories principales, en fonction d’une interaction ou non avec les utilisateurs : • Analyse interactive du contenu vidéo. • Analyse vidéo entièrement automatique Cette division est un peu schématique, mais elle est en fait liée aux façons dont les méthodes proposées sont utilisées en post-production vidéo. Ces deux grandes approches correspondent aux deux parties principales qui forment ce manuscrit, qui sont ensuite subdivisées en chapitres présentant les différentes méthodes que nous avons proposées. Néanmoins, un fil conducteur fort relie toutes nos contributions. Il s’agit d’une analyse hiérarchique compositionnelle du mouvement dans les scènes dynamiques. Nous motivons et expliquons nos travaux selon l’organisation du manuscrit résumée ci-dessous. Introduction Nous partons de l’hypothèse fondamentale de la présence d’une structure hiérarchique de mouvement dans la scène observée, avec un objectif de compréhension de la scène dynamique. Cette hypothèse s’inspire d’un grand nombre de recherches scientifiques sur la vision biologique et cognitive. Plus précisément, nous nous référons à la recherche sur la vision biologique qui a établi la présence d’unités sensorielles liées au mouvement dans le cortex visuel [Joh70, Gib77, GTJ15]. La découverte de ces unités cérébrales spécialisées a motivé les chercheurs en vision cognitive à étudier comment la locomotion des animaux (évitement des obstacles, 5 6 Contents ��������� ��� �������������� ��� ��������� ��� �������� ��� ������������� ��� ���� ����������� ��� Figure 0.1: Hiérarchie de mouvement. Illustration d’une entité mobile avec ses par- ties mobiles, et de la structure hiérarchique de la composition du mouvement. planification des chemins, localisation automatique) et d’autres tâches de niveau supérieur sont directement influencées par les perceptions liées aux mouvements. Fait intéressant, les réponses perceptuelles qui se déroulent dans le cortex visuel sont activées non seulement par le mouvement lui-même, mais par des occlusions, des désocclusions, une composition des mouvements et des contours mobiles. En outre, la vision cognitive a relié la capacité du cerveau à appréhender la nature compositionnelle du mouvement dans l’information visuelle à une compréhension de la scène de haut niveau, comme la segmentation et la reconnaissance d’objets [KS83, LHP80]. En raison de ce qui précède, nous nous sommes investis dans l’analyse hiérarchique des éléments en mouvement pour capter des aspects essentiels du mouvement dans des scènes naturelles. En effet, le mouvement dans les vidéos est trés souvent structuré de manière hiérarchique, selon les actions que les éléments de la scène effectuent. En effet, ces éléments partagent des modèles de mouvement de groupe, avec des différences se situant à un niveau d’instance plus fin. En outre, les parties d’un objet peuvent hériter des motifs de mouvement de leur racine commune, mais peuvent se différencier entre elles. L’ensemble du comportement dynamique d’une scène peut ainsi être compris comme relevant d’une nature compositionnelle du mouvement, et cette nature compositionnelle perdure dans le mouvement perçu dans la séquence vidéo. Cette structure compositionnelle du mouvement est illustrée à la figure 0.1 pour une entité animée d’un mouvement articulé. Dans cette thèse, nous commençons par effectuer des expériences initiales autour de cette idée, puis nous proposons des algorithmes qui exploitent explicitement la nature compositionnelle du mouvement des scènes dynamiques. De plus, nous nous plaçons dans le contexte des tâches liées aux mouvements qui sont utiles en postproduction vidéo. Plus exactement, dans la première partie de ce manuscrit qui concerne le traitement interactif, nous abordons les problèmes de vision numérique suivants : Contents 7 • Flot d’objet. Estimation du mouvement dense au sein d’un objet. • Suivi des contours d’objet. Ou rotoscopie, comme dénommé dans le domaine du post-traitement vidéo. Ces deux modules fonctionnent dans un mode supervisé par l’utilisateur, tout en partageant une architecture de mouvement hiérarchique, néanmoins peu profonde.