Camera Models and Algorithms for 3D Video Content Creation Sergi Pujades Rocamora

Camera Models and algorithms for 3D video content creation Sergi Pujades Rocamora To cite this version: Sergi Pujades Rocamora. Camera Models and algorithms for 3D video content creation. Image Pro- cessing [eess.IV]. Université Grenoble Alpes, 2015. English. NNT : 2015GREAM039. tel-01281363 HAL Id: tel-01281363 https://tel.archives-ouvertes.fr/tel-01281363 Submitted on 2 Mar 2016 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. THESE` Pour obtenir le grade de DOCTEUR DE L’UNIVERSITE´ DE GRENOBLE Specialit´ e:´ Mathematiques´ et Informatique Bourse: Action 3DS Present´ ee´ par Sergi PUJADES ROCAMORA These` dirigee´ par Remi´ RONFARD et codirigee´ par Fred´ eric´ DEVERNAY prepar´ ee´ au sein du Laboratoire d’Informatique de Grenoble a´ l’INRIA Rhone-Alpesˆ et de l’Ecole Doctorale de Mathematiques,´ Sciences et Technologies de l’Information Modeles` de cameras´ et algorithmes pour la creation´ de contenu video 3D These` soutenue publiquement le 14 octobre 2015, devant le jury compose´ de : M. James CROWLEY Professor at Grenoble INP, France, President´ Ms. Luce MORIN Professor at INSA Rennes, France, Rapporteur M. Jean-Yves GUILLEMAUT Assistant Professor at University of Surrey, United Kingdom, Rapporteur M. George DRETTAKIS Research Director at INRIA Sophia-Antipolis, France, Examinateur M. Aljoscha SMOLIC Senior Research Scientist at Disney Research Zurich, Switzerland, Examinateur M. Remi´ RONFARD Researcher at INRIA Grenoble, France, Examinateur M. Fred´ eric´ DEVERNAY Researcher at INRIA Grenoble, France, Examinateur For you, dear reader. Abstract Optics with long focal length have been extensively used for shooting 2D cinema and television, either to virtually get closer to the scene or to produce an aesthetical effect through the deformation of the perspective. However, in 3D cinema or television, the use of long focal length either creates a “cardboard effect” or causes visual divergence. To overcome this problem, state-of-the-art methods use disparity mapping techniques, which is a generalization of view interpolation, and generate new stereoscopic pairs from the two image sequences. We propose to use more than two cameras to solve for the remaining issues in disparity mapping methods. In the first part of the thesis, we review the causes of visual fatigue and visual discomfort when viewing a stereoscopic film. We then model the depth perception from stereopsis of a 3D scene shot with two cameras, and projected in a movie theater or on a 3DTV. We mathematically characterize this 3D distortion, and derive the mathematical constraints associated with the causes of visual fatigue and discomfort. We illustrate these 3D distortions with a new interactive software, “The Virtual Projection Room”. In order to generate the desired stereoscopic images, we propose to use image- based rendering. These techniques usually proceed in two stages. First, the input images are warped into the target view, and then the warped images are blended together. The warps are usually computed with the help of a geometric proxy (either implicit or explicit). Image blending has been extensively addressed in the literature and a few heuristics have proven to achieve very good performance. Yet the combination of the heuristics is not straightforward, and requires manual adjustment of many parameters. In this thesis, we propose a new Bayesian approach to the problem of novel view synthesis, based on a generative model taking into account the uncertainty of the image warps in the image formation model. The Bayesian formalism allows us to deduce the energy of the generative model and to compute the desired images as the Maximum a Posteriori estimate. The method outperforms state-of-the-art image-based rendering techniques on challenging datasets. Moreover, the energy equations provide a formalization of the heuristics widely used in image-based rendering techniques. Besides, the proposed generative model also addresses the problem of super-resolution, allowing to render images at a higher resolution than the initial ones. In the last part of this thesis, we apply the new rendering technique to the case of the stereoscopic zoom and show its performance. Keywords image-based-rendering, geometric uncertainty, Bayesian approach, stereoscopic cinematography, 3DTV. Résumé Des optiques àlongue focale ont étésouvent utilisées dans le cinéma 2D et la télévision, soit dans le but de se rapprocher de la scène, soit dans le but de produire un effet esthétique grâce àla déformation de la perspective. Toutefois, dans le cinéma ou la télévision 3D, l’utilisation de longues focales crée le plus souvent un “effet carton” ou de la divergence oculaire. Pour résoudre ce problème, les méthodes de l’état de l’art utilisent des techniques de transformation de la disparité, qui sont une généralisation de l’interpolation de points de vue. Elles génèrent de nouvelles paires stéréoscopiques àpartir des deux séquences d’images originales. Nous proposons d’utiliser plus de deux caméras pour résoudre les problèmes non résolus par les méthodes de transformation de la disparité. Dans la première partie de la thèse, nous passons en revue les causes de la fatigue visuelle et de l’inconfort visuel lors de la visualisation d’un film stéréoscopique. Nous modélisons alors la perception de la profondeur de la vision stéréoscopique d’une scène filmée en 3D avec deux caméras, et projetée dans une salle de cinéma ou sur un téléviseur 3D. Nous caractérisons mathématiquement cette distorsion 3D, et formulons les contraintes mathématiques associées aux causes de la fatigue visuelle et de l’inconfort. Nous illustrons ces distorsions 3D avec un nouveau logiciel interactif, la “salle de projection virtuelle”. Afin de générer les images stéréoscopiques souhaitées, nous proposons d’utiliser le rendu baséimage. Ces techniques comportent généralement deux étapes. Tout d’abord, les images d’entrée sont transformées vers la vue cible, puis les images transformées sont mélangées. Les transformations sont généralement calculées à l’aide d’une géométrie intermédiaire (implicite ou explicite). Le mélange d’images a étélargement étudiédans la littérature et quelques heuristiques permettent d’obtenir de très bonnes performances. Cependant, la combinaison des heuristiques proposées n’est pas simple et nécessite du réglage manuel de nombreux paramètres. Dans cette thèse, nous proposons une nouvelle approche bayésienne au problème de synthèse de nouveaux points de vue. Le modèle génératif proposétient compte de l’incertitude sur la transformation d’image. Le formalisme bayésien nous permet de déduire l’énergie du modèle génératif et de calculer les images désirées correspondant au maximum a posteriori. La méthode dépasse en termes de qualitéles techniques de l’état de l’art du rendu baséimage sur des jeux de données complexes. D’autre part, les équations de l’énergie fournissent une formalisation des heuristiques largement utilisés dans les techniques de rendu baséimage. Le modèle génératif proposéaborde également le problème de la super-résolution, permettant de rendre des images àune résolution plus élevée que les images de départ. Dans la dernière partie de cette thèse, nous appliquons la nouvelle technique de rendu au cas du zoom stéréoscopique et nous montrons ses performances. Mots-Clés rendu baséimage, incertitude geometrique, formalisme bayesien, cinmatographie stereoscopique, TV3D. Publications related with this thesis 1. S. Pujades, F. Devernay and B. Goldluecke, “Bayesian View Synthesis and Images-Based Rendering Principles”, in Conference on Computer Vision and Pattern Recognition (CVPR), Columbus (USA), Jun. 2014. 2. S. Pujades, F. Devernay, “Viewpoint Interpolation: Direct and Variational Methods”, in International Conference on Image Processing (ICIP), Paris (France), Oct. 2014. 3. S. Pujades, L. Boiron, R. Ronfard, F. Devernay “Dynamic Stereoscopic Previz”, in International Conference on 3D Imaging (IC3D), Liège (Belgium), Dec. 2014. 4. S. Pujades, F. Devernay “System for generating an optical illusion in binocular vision and associated method”, WO2015028626A1 Filing date: 2nd Sep. 2013. Acknowledgments This work would not have been possible without the help of a lot of people. I would like to thank them all. Un grand merci àla Caisse des Dépôts et Consignations qui a financéle projet Action 3DS. Sans cette aide, ces travaux n’auraient pas étépossibles. Merci beaucoup àvous, Rémi et Fred, de m’avoir donnéla possibilitéde faire cette thèse. L’experience a étéintense et m’a beaucoup enrichi. Merci de m’avoir encadré! Thank you, Luce Morin and Jean-Yves Guillemaut for reviewing the manuscript and helping me improve it. And thank you, Aljoscha Smolic and Georges Drettakis for examining my work. I enjoyed your questions and feedback, which have already sparked more ideas! Bastian, Dir möchte ich auch danken. Deine Arbeit und Vertrauen mit cocolib hat mir viel geholfen. Vielen Dank! Thank you Jim for your advice, which guided me during the journey. Et merci aussi àtoi Catherine, pour ton efficacitéet ta bonne humeur.

Camera Models and Algorithms for 3D Video Content Creation Sergi Pujades Rocamora

Stereoscopic Vision, Stereoscope, Selection of Stereo Pair and Its Orientation

Scalable Multi-View Stereo Camera Array for Real World Real-Time Image Capture and Three-Dimensional Displays

Effects on Visibility and Lens Accommodation of Stereoscopic Vision Induced by HMD Parallax Images

The Nature and Timing of Tele-Pseudoscopic Experiences

The Nature and Timing of Tele-Pseudoscopic

Visualization and Visual System Affect Spatial Performance in Augmented

Optimal Allocation of Quantized Human Eye Depth Perception for Light Field Display Design

University of Bradford Ethesis

Seeing in Three Dimensions: the Neurophysiology of Stereopsis Gregory C

Binocular Vision

Stereopsis and Aging

University of Dundee the Disparate Histories of Binocular Vision And