Camera Models and Algorithms for 3D Video Content Creation Sergi Pujades Rocamora
Total Page:16
File Type:pdf, Size:1020Kb
Camera Models and algorithms for 3D video content creation Sergi Pujades Rocamora To cite this version: Sergi Pujades Rocamora. Camera Models and algorithms for 3D video content creation. Image Pro- cessing [eess.IV]. Université Grenoble Alpes, 2015. English. NNT : 2015GREAM039. tel-01281363 HAL Id: tel-01281363 https://tel.archives-ouvertes.fr/tel-01281363 Submitted on 2 Mar 2016 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. THESE` Pour obtenir le grade de DOCTEUR DE L’UNIVERSITE´ DE GRENOBLE Specialit´ e:´ Mathematiques´ et Informatique Bourse: Action 3DS Present´ ee´ par Sergi PUJADES ROCAMORA These` dirigee´ par Remi´ RONFARD et codirigee´ par Fred´ eric´ DEVERNAY prepar´ ee´ au sein du Laboratoire d’Informatique de Grenoble a´ l’INRIA Rhone-Alpesˆ et de l’Ecole Doctorale de Mathematiques,´ Sciences et Technologies de l’Information Modeles` de cameras´ et algorithmes pour la creation´ de contenu video 3D These` soutenue publiquement le 14 octobre 2015, devant le jury compose´ de : M. James CROWLEY Professor at Grenoble INP, France, President´ Ms. Luce MORIN Professor at INSA Rennes, France, Rapporteur M. Jean-Yves GUILLEMAUT Assistant Professor at University of Surrey, United Kingdom, Rapporteur M. George DRETTAKIS Research Director at INRIA Sophia-Antipolis, France, Examinateur M. Aljoscha SMOLIC Senior Research Scientist at Disney Research Zurich, Switzerland, Examinateur M. Remi´ RONFARD Researcher at INRIA Grenoble, France, Examinateur M. Fred´ eric´ DEVERNAY Researcher at INRIA Grenoble, France, Examinateur For you, dear reader. Abstract Optics with long focal length have been extensively used for shooting 2D cinema and television, either to virtually get closer to the scene or to produce an aesthetical effect through the deformation of the perspective. However, in 3D cinema or television, the use of long focal length either creates a “cardboard effect” or causes visual divergence. To overcome this problem, state-of-the-art methods use disparity mapping techniques, which is a generalization of view interpolation, and generate new stereoscopic pairs from the two image sequences. We propose to use more than two cameras to solve for the remaining issues in disparity mapping methods. In the first part of the thesis, we review the causes of visual fatigue and visual discomfort when viewing a stereoscopic film. We then model the depth perception from stereopsis of a 3D scene shot with two cameras, and projected in a movie theater or on a 3DTV. We mathematically characterize this 3D distortion, and derive the mathematical constraints associated with the causes of visual fatigue and discomfort. We illustrate these 3D distortions with a new interactive software, “The Virtual Projection Room”. In order to generate the desired stereoscopic images, we propose to use image- based rendering. These techniques usually proceed in two stages. First, the input images are warped into the target view, and then the warped images are blended together. The warps are usually computed with the help of a geometric proxy (either implicit or explicit). Image blending has been extensively addressed in the literature and a few heuristics have proven to achieve very good performance. Yet the combination of the heuristics is not straightforward, and requires manual adjustment of many parameters. In this thesis, we propose a new Bayesian approach to the problem of novel view synthesis, based on a generative model taking into account the uncertainty of the image warps in the image formation model. The Bayesian formalism allows us to deduce the energy of the generative model and to compute the desired images as the Maximum a Posteriori estimate. The method outperforms state-of-the-art image-based rendering techniques on challenging datasets. Moreover, the energy equations provide a formalization of the heuristics widely used in image-based rendering techniques. Besides, the proposed generative model also addresses the problem of super-resolution, allowing to render images at a higher resolution than the initial ones. In the last part of this thesis, we apply the new rendering technique to the case of the stereoscopic zoom and show its performance. Keywords image-based-rendering, geometric uncertainty, Bayesian approach, stereoscopic cinematography, 3DTV. R´esum´e Des optiques `alongue focale ont ´et´esouvent utilis´ees dans le cin´ema 2D et la t´el´evision, soit dans le but de se rapprocher de la sc`ene, soit dans le but de produire un effet esth´etique grˆace `ala d´eformation de la perspective. Toutefois, dans le cin´ema ou la t´el´evision 3D, l’utilisation de longues focales cr´ee le plus souvent un “effet carton” ou de la divergence oculaire. Pour r´esoudre ce probl`eme, les m´ethodes de l’´etat de l’art utilisent des techniques de transformation de la disparit´e, qui sont une g´en´eralisation de l’interpolation de points de vue. Elles g´en`erent de nouvelles paires st´er´eoscopiques `apartir des deux s´equences d’images originales. Nous proposons d’utiliser plus de deux cam´eras pour r´esoudre les probl`emes non r´esolus par les m´ethodes de transformation de la disparit´e. Dans la premi`ere partie de la th`ese, nous passons en revue les causes de la fatigue visuelle et de l’inconfort visuel lors de la visualisation d’un film st´er´eoscopique. Nous mod´elisons alors la perception de la profondeur de la vision st´er´eoscopique d’une sc`ene film´ee en 3D avec deux cam´eras, et projet´ee dans une salle de cin´ema ou sur un t´el´eviseur 3D. Nous caract´erisons math´ematiquement cette distorsion 3D, et formulons les contraintes math´ematiques associ´ees aux causes de la fatigue visuelle et de l’inconfort. Nous illustrons ces distorsions 3D avec un nouveau logiciel interactif, la “salle de projection virtuelle”. Afin de g´en´erer les images st´er´eoscopiques souhait´ees, nous proposons d’utiliser le rendu bas´eimage. Ces techniques comportent g´en´eralement deux ´etapes. Tout d’abord, les images d’entr´ee sont transform´ees vers la vue cible, puis les images transform´ees sont m´elang´ees. Les transformations sont g´en´eralement calcul´ees `a l’aide d’une g´eom´etrie interm´ediaire (implicite ou explicite). Le m´elange d’images a ´et´elargement ´etudi´edans la litt´erature et quelques heuristiques permettent d’obtenir de tr`es bonnes performances. Cependant, la combinaison des heuristiques propos´ees n’est pas simple et n´ecessite du r´eglage manuel de nombreux param`etres. Dans cette th`ese, nous proposons une nouvelle approche bay´esienne au probl`eme de synth`ese de nouveaux points de vue. Le mod`ele g´en´eratif propos´etient compte de l’incertitude sur la transformation d’image. Le formalisme bay´esien nous permet de d´eduire l’´energie du mod`ele g´en´eratif et de calculer les images d´esir´ees correspondant au maximum a posteriori. La m´ethode d´epasse en termes de qualit´eles techniques de l’´etat de l’art du rendu bas´eimage sur des jeux de donn´ees complexes. D’autre part, les ´equations de l’´energie fournissent une formalisation des heuristiques largement utilis´es dans les techniques de rendu bas´eimage. Le mod`ele g´en´eratif propos´eaborde ´egalement le probl`eme de la super-r´esolution, permettant de rendre des images `aune r´esolution plus ´elev´ee que les images de d´epart. Dans la derni`ere partie de cette th`ese, nous appliquons la nouvelle technique de rendu au cas du zoom st´er´eoscopique et nous montrons ses performances. Mots-Cl´es rendu bas´eimage, incertitude geometrique, formalisme bayesien, cinmatographie stereoscopique, TV3D. Publications related with this thesis 1. S. Pujades, F. Devernay and B. Goldluecke, “Bayesian View Synthesis and Images-Based Rendering Principles”, in Conference on Computer Vision and Pattern Recognition (CVPR), Columbus (USA), Jun. 2014. 2. S. Pujades, F. Devernay, “Viewpoint Interpolation: Direct and Variational Methods”, in International Conference on Image Processing (ICIP), Paris (France), Oct. 2014. 3. S. Pujades, L. Boiron, R. Ronfard, F. Devernay “Dynamic Stereoscopic Previz”, in International Conference on 3D Imaging (IC3D), Li`ege (Belgium), Dec. 2014. 4. S. Pujades, F. Devernay “System for generating an optical illusion in binocular vision and associated method”, WO2015028626A1 Filing date: 2nd Sep. 2013. Acknowledgments This work would not have been possible without the help of a lot of people. I would like to thank them all. Un grand merci `ala Caisse des D´epˆots et Consignations qui a financ´ele projet Action 3DS. Sans cette aide, ces travaux n’auraient pas ´et´epossibles. Merci beaucoup `avous, R´emi et Fred, de m’avoir donn´ela possibilit´ede faire cette th`ese. L’experience a ´et´eintense et m’a beaucoup enrichi. Merci de m’avoir encadr´e! Thank you, Luce Morin and Jean-Yves Guillemaut for reviewing the manuscript and helping me improve it. And thank you, Aljoscha Smolic and Georges Drettakis for examining my work. I enjoyed your questions and feedback, which have already sparked more ideas! Bastian, Dir m¨ochte ich auch danken. Deine Arbeit und Vertrauen mit cocolib hat mir viel geholfen. Vielen Dank! Thank you Jim for your advice, which guided me during the journey. Et merci aussi `atoi Catherine, pour ton efficacit´eet ta bonne humeur.