Fusion De Données Multi-Kinect Visant À Améliorer L'interaction Gestuelle
Total Page:16
File Type:pdf, Size:1020Kb
Université Paris 8 - Vincennes - Saint-Denis Laboratoire Paragraphe (EA 349) École doctorale Cognition, Langage, Interaction Mention: Informatique Thèse présentée et soutenue publiquement par Saleh SALOUS Fusion de données multi-Kinect visant à améliorer l’interaction gestuelle au sein d’une installation de réalité virtuelle Thèse dirigée par Khaldoun ZREIK Encadrée par Safwan CHENDEB et Laure LEROY Le 23 Novembre, 2015 Jury : Pr. Ioannis Kanellos, Telecom Bretagne, Brest Rapporteur Pr. Fouad Badran, Cnam-Paris Rapporteur Pr. Benoit Geller, ENSTA Examinateur Dr. Safwan Chendeb, Université Paris 8 Examinateur Dr. Taha Riden, ENSTA Examinateur Dr. Laure Leroy, Université Paris 8 Examinateur I Abstract Virtual Reality is the most modern technology that allows a user to interact with an artificial environment created by Hardware and Software, with visual and aural feedback powerful enough to create the impression of a realistic environment. As a consequence, this form of computer interaction can be used in various contexts such as entertainment, medicine or vehicle driving training. Furthermore, numerous types of VR installations exist depending on the physical and financial constraints as well as on the intended final user experience provided by the system. The subject of this thesis is user interaction in a specific type of VR installation called a CAVE. Our CAVE, named “Le SAS”, currently relies on AR technology technology to detect users, and a joystick is used to provide directional inputs. Our objective is to present, describe and analyze an alternative user-tracking method relying on a 4-Kinect set-up tasked with tracking the user‟s movements inside this CAVE. Proper user- tracking is one of the main challenges provided by Virtual Reality as well as one of the core elements that define a proper and functional VR system; therefore it is important to implement an effective tracking system. In order to create true interaction with the virtual world provided by the CAVE, the sensors can detect various types of input. In the case of a multi-Kinect system, interaction with the CAVE will be based on user gestures which recognition is performed by the Kinects on a skeleton created after fusing the joint data from the various sensors. This thesis will focus on four main points, as described below. II The first part will provide a context analysis of our immersive CAVE “Le SAS” and define the features as well as the constraints of this specific environment in which the multi-Kinect system is installed. In the second part, the topic of tracking algorithms will be discussed. Indeed, the immersive CAVE‟s large-scale implies a tracking system composed of several sensors. The use of a network of cameras to track a user inside the CAVE is synonymous with the use of an algorithm that determines in real-time what sensors provide the most accurate tracking data and will therefore properly recognize the user‟s inputs and movements. Subsequently, we will propose a gesture detection algorithm. Once the user‟s gestures are properly tracked, such an algorithm is necessary in order to provide interaction. While the Kinects can capture the user‟s movements, the question of the detection of specific gestures by this system comes into play as the CAVE needs to be configured as to recognize specific gestures as potential inputs. The presented algorithm will focus on three specific gestures: Raising the right hand, raising the left hand and short hopping. Lastly, we will provide experimental results comparing the effectiveness of a multi-Kinect set-up with the effectiveness of a single sensor and present data showing a noticeable increase in accuracy with the 4-Kinect system. III Résumé Les technologies liées à la réalité virtuelle sont les outils les plus avancés dans le domaine de l‟interaction numérique, permettant à un utilisateur de communiquer avec une simulation créée à partir d‟un matériel et d‟une solution logicielle dédiés. Le degré d‟immersion proposé par ces technologies et leur feedback audio et vidéo peut donner l‟impression que ces environnements virtuels sont réels. Par conséquent, de multiples secteurs tels que le divertissement vidéo-ludique ou la médecine peuvent incorporer ces technologies. De plus, les installations de réalité virtuelle existantes sont nombreuses et leurs caractéristiques peuvent varier en fonction des contraintes physiques et financières des projets, ainsi qu‟en fonction de l‟expérience utilisateur souhaitée. Un de ces types d‟installations de réalité virtuelle, le CAVE, est au cœur de cette thèse. Notre CAVE, nommé « Le SAS », utilise à l‟heure actuelle une combinaison de l‟technologie AR pour détecter des utilisateurs et d‟un joystick pour récupérer des inputs directionnels. Notre objectif à travers cette thèse est de présenter, décrire et analyser une méthode alternative de détection de mouvements au sein du SAS, reposant sur l‟utilisation d‟un système de 4 Kinects connectées ensemble. Cette analyse est pertinente et justifiée étant donnée l‟importance d‟un système de détection d‟utilisateur dans une installation de réalité virtuelle. Afin de proposer un niveau satisfaisant ‟interaction avec l‟environnement virtuel, les capteurs installés sur le CAVE peuvent détecter différents types d‟inputs. Dans le cadre d‟un système multi-Kinect, l‟interaction repose sur la détection de gestes effectués par l‟utilisateur. Ces gestes sont extraits d‟un squelette virtuel formé à partir des données recueillies par les Kinects. Cette thèse va aborder quatre points-clés décrits ci-dessous : IV Premièrement, nous étudierons le contexte lié à notre CAVE et définirions ses caractéristiques ainsi que les contraintes que cet environnement particulier de réalité virtuelle impose à notre dispositif multi-Kinect. En second lieu, nous aborderons le sujet es algorithmes de suivi d‟utilisateur au sein d‟un CAVE. En effet, les dimensions du SAS amènent à utiliser plusieurs capteurs pour suivre l‟utilisateur. Par conséquent, il devient nécessaire d‟utiliser un algorithme capable de déterminer en temps-réel quelles Kinects produisent les données les plus précises et les plus fiables afin de correctement détecter les mouvements de l‟utilisateur. Par la suite, nous proposerons un algorithme de détection de gestes. Cette étape est la suite logique de la détection d‟utilisateur et consiste à interpréter les mouvements enregistrés. Bien que les Kinects soient capables d‟enregistrer les mouvements et gestes de l‟utilisateur, le CAVE doit être configuré afin de reconnaître certains gestes spécifiques, créant ainsi la possibilité d‟interagir avec un environnement virtuel. Notre analyse se concentrera sur trois gestes spécifiques : Lever la main droite, lever la main gauche, et effectuer un petit saut. Finalement, nous fournirons des résultats d‟expérience ayant pour objectif de comparer l‟efficacité d‟un système Multi-Kinect par rapport à l‟utilisation d‟un seul capteur. Nous présenterons des données indiquant une amélioration de la précision de la détection de gestes avec plusieurs Kinects. V List of figures Figure 1.1 : Graphic representation of "SAS" (Ridene et al., 2013) .............................................. 32 Figure 1.2 : Kinect consists of Infra-red (IR) projector, IR camera and RGB camera (Smisek, 2011) ............................................................................................................................................. 33 Figure 1.3 : Diagram showing the Kinect FOV by Mr. Riley Porter (8) ......................................... 35 Figure 1.4 : Kinect detects movements of disabled persons(Chang et al,. 2011). ........................ 37 Figure 1.5 : joints of human body (Alexiadis et al., 2011) ............................................................ 38 Figure 1.6: User input and control of system (Du et al., 2011) .................................................... 39 Figure 1.7 : A) original image, B) model scan from Kinect, C) model got from Kinect fusion technique (Lezadi et al, .2011). ..................................................................................................... 40 Figure 1.8 : A) and C) show facial animation expressions by Kinect, B) and D) shows combined facial animations from database. (Weise et al., 2011). ................................................................. 41 Figure 1.9 : A) Gloves with accelerometers B) detailed accelerometers (Zafrulla et al., 2011). .. 42 Figure 1.10 :A) seated B) standing (Zafrulla et al., 2011). ........................................................... 43 Figure 1.11 : hand gesture recognition process (Z. Renet et al., 2011) ......................................... 45 Figure 1.12 : 14 Gestures commands and four arithmetic operations (Z. Renet et al., 2011) ....... 45 Figure 1.13 : A) addition operation 3+9=12, B) multiplication operation 5*8=40 (Z. Renet et al., 2011) ............................................................................................................................................. 46 Figure 1.14 : three gestures for Rock-paper-scissors game (Z. Renet et al., 2011) ...................... 46 Figure 1.15 : two examples of Rock-paper-scissors game (Z. Renet et al., 2011) ........................ 47 Figure 1.16 : a) Offline step. From multiple 3D face instances the 3DMM is fit to obtain a person specific 3D model b)-d) online steps. b) The person model is registered at each instant to multimodal data to retrieve the head pose c) Head stabilization computed from the inverse head VI pose