Variational 3D Reconstruction from Stereo Image Pairs and Stereo Sequences

Variationelle 3D-Rekonstruktion aus Stereobildpaaren und Stereobildfolgen Dissertation zur Erlangung des Grades des Doktors der Naturwissenschaften der Naturwissenschaftlich-Technischen Fakultäten der Universität des Saarlandes vorgelegt von Levi Valgaerts Saarbrücken, 2011 R S V E I T I A N S U S S A I R S A V I E N Mathematische Bildverarbeitungsgruppe, Fakultät für Mathematik und Informatik, Universität des Saarlandes, 66041 Saarbrücken Vision and Image Processing Group, Cluster of Excellence MMCI, Universität des Saarlandes, 66041 Saarbrücken ii Tag des Kolloquiums 29.09.2011 Dekan Prof. Dr. Holger Hermanns Prüfungsausschuss Prof. Dr. Bernt Schiele (Vorsitz) Universität des Saarlandes Prof. Dr. Joachim Weickert (1. Gutachter) Universität des Saarlandes Prof. Dr. Thomas Brox (2. Gutachter) Universität Freiburg Dr. Andrés Bruhn Universität des Saarlandes Kurzzusammenfassung – Short Abstract Kurzzusammenfassung – Deutsch Diese Arbeit befasst sich mit der 3D Rekonstruktion und der 3D Bewegungsschätzung aus Stereodaten unter Verwendung von Variationsansätzen, die auf dichten Verfahren zur Berechnung des optischen Flusses beruhen. Im ersten Teil der Arbeit untersuchen wir ein neues Anwendungsgebiet von dichtem optischen Fluss, nämlich die Bestimmung der Fun- damentalmatrix aus Stereobildpaaren. Indem wir die Abhängigkeit zwischen der geschätzten Stereogeometrie in Form der Fundamentalmatrix und den berechneten Bildkorresponden- zen geeignet ausnutzen, sind wir in der Lage, im zweiten Teil der Arbeit eine gekop- pelte Bestimmung der Fundamentalmatrix und des optischen Flusses vorzuschlagen, die zur einer Erhöhung der Genauigkeit beider Schätzungen führt. Im Gegensatz zu vielen existierenden Verfahren berechnet unser gekoppelter Ansatz dabei die Lage der Kameras und die 3D Szenenstruktur nicht einzeln, sonderen bestimmt sie in einem einzigen gemeinsamen Optimierungsschritt. Dem Prinzip der gemeinsamen Schätzung weiter folgend kop- peln wir im letzten Teil der Arbeit die dichte 3D Rekonstruktion der Szene zusätzlich mit der Bestimmung der zugehörigen 3D Bewegung. Dies wird durch die Intergation von räumlicher und zeitlicher Information aus mehreren Stereobildpaaren in ein neues Modell zur Szenenflussschätzung realisiert. Short Abstract – English This work deals with 3D reconstruction and 3D motion estimation from stereo images us- ing variational methods that are based on dense optical flow. In the first part of the thesis, we will investigate a novel application for dense optical flow, namely the estimation of the fundamental matrix of a stereo image pair. By exploiting the high interdependency between the recovered stereo geometry and the established image correspondences, we propose a coupled refinement of the fundamental matrix and the optical flow as a second contribution, thereby improving the accuracy of both. As opposed to many existing tech- niques, our joint method does not solve for the camera pose and scene structure separately, but recovers them in a single optimisation step. True to our principle of joint optimisation, we further couple the dense 3D reconstruction of the scene to the estimation of its 3D motion in the final part of this thesis. This is achieved by integrating spatial and temporal information from multiple stereo pairs in a novel model for scene flow computation. iii iv Kurzzusammenfassung – Short Abstract Eidesstattliche Versicherung Hiermit versichere ich an Eides statt, dass ich die vorliegende Arbeit selbstständig und ohne Benutzung anderer als der angegebenen Hilfsmittel angefertigt habe. Die aus anderen Quellen oder indirekt ubernommenen Daten und Konzepte sind unter Angabe der Quelle gekennzeichnet. Die Arbeit wurde bisher weder im In- noch im Ausland in gle- icher oder ähnlicher Form in einem Verfahren zur Erlangung eines akademischen Grades vorgelegt. Saarbrücken, den 16. Oktober, 2011 Levi Valgaerts v vi Eidesstattliche Versicherung Zusammenfassung Variationsansätze zur Bestimmung des optischen Flusses haben sich als die genauesten und am besten verstandenen Verfahren für die Bewegunsschätzung aus Bildfolgen etabliert. Sie beruhen auf der Minimierung eines einzigen globalen Energiefunktionals, das die zeitliche Konstanz gewisser Bildeigenschaften modelliert (wie z.B. des Grauwerts), wäh- rend es gleichzeitig sicherstellt, dass das gesuchte Verschiebungsvektorfeld eine Form von Regularität aufweist. Im Laufe der Zeit wurden solche Verfahren so weiterentwickelt, dass sie in der Lage sind, große Verschiebungen zu schätzen, robust unter Rauschen und fehler- hafte Daten zu sein, scharfe Bewegungsgrenzen zu liefern – und dies alles in Echtzeit für praktische Anwendungen. Trotz dieser Fortschritte hat relativ wenig Forschung auf dem eng verwandten Gebiet der Stereo-Rekonstruktion stattgefunden, einem Bereich, der typischerweise von anderen Ansätzen zur Korrespondenzfindung dominiert wird. In dieser Arbeit zeigen wir anhand von drei Beiträgen, dass diese Unterteilung in ver- schiedene Anwendungsgebiete hinfällig ist. Zum einen untersuchen wir ein neues An- wendungsszenario für dichten optischen Fluss: die Berechnung der Fundamentalmatrix. Diese Matrix beschreibt die projektive Geometrie eines Stereo-Bildpaars und bildet die Grundlage für viele Algorithmen zur 3D-Rekonstruktion. Zum anderen schlagen wir einen neuen Variationsansatz vor, der die Fundamentalmatrix und den optischen Fluss gleichzeitig als Minimierer eines gemeinsamen Energiefunktionals berechnet. Konzep- tionell bestimmt dieses Verfahren die relative Lage und Orientierung der beiden Kameras sowie die Struktur der Szene in einem gemeinsamen Optimierungsrahmen, wodurch eine dichte Rekonstruktion der abgebildeten Szene möglich wird. Als dritten Beitrag erweitern wir die gemeinsame Schätzung von Korrespondenzen und Stereo-Geometrie auf den Fall mehrerer Bilderpaare. In diesem Zusammenhang entwicklen wir ein Variationsansatz, der für zwei aufeinander folgende Bildpaare einer Stereosequenz die Fundmentalmatrix und die Verschiebungsvektorfelder zwischen allen Bildern bestimmt. Neben einer dichter Rekonstruktion der abgebildeten Szene ermöglicht dieser Ansatz die Berechnung der tat- sächlichen 3D-Bewegung von Objekten in der Szene, den so genannten Szenenfluss. Der Schwerpunkt dieser Arbeit liegt auf einer konsequenten Modellierung als gemein- sames Optimierungsproblem und auf der gleichzeitige Schätzung von Geometrie, Struk- tur und Bewegung der zugrunde liegenden 3D-Szene. Wir gehen diese Aufgabe in einer sehr systematischen Weise an, indem wir zunächst untersuchen, ob die Bestimmung der Stereogeometrie aus dichtem optischen Fluss genau genug ist, um als Grundlage für weitere integrierte Ansätze zu dienen. In einem ausführlichen Vergleich mit zwölf merkmals- basierten Verfahren zeigen wir, dass dichte Flussfelder eine konkurrenzsfähige Schätzung der Geometrie mit Sub-Pixel Genauigkeit erlauben. Anschließend demonstrieren wir, dass eine gemeinsame Berechnung des optischen Flusses und der Fundamentalmatrix nicht nur eine stabilisierende Wirkung auf das Ergebnis hat, sondern auch zu einer Steigerung der Genauigkeit gegenüber einer sequentiellen Schätzung führt. In einem letzten Schritt kop- peln wir schließlich die Rekonstruktion der Szene und die Bestimmung der 3D-Bewegung. Neben diesem allgemeinen Modell für den Szenenfluss stellen wir noch einige weitere Verbesserungen vor. Im Rahmen der hierarchischen Optimierung, die typischerweise zur Schätzung grosser Verschiebungen verwendet wird, führen wir eine kompakte Tensor- notation ein, die eine Normalisierung der Modellannahmen ermöglicht. Auf diese Weise vii machen wir nicht nur die Abweichungen von Modellannahmen als Entfernungen in der Bildebene interpretierbar, sondern können auch ihre Äquivalenz zu weit verbreiteten ge- ometrischen Fehlermaßen im Bereich des Maschinensehens zeigen. Darüber hinaus bes- timmen wir explizit Verdeckungen, die aufgrund der Bewegung der Szene oder der Kam- eras entstanden sind, und schliessen die zugehörigen Korrespondenzen von der Schätzung aus. Alle diese Modellierungsschritte führen schließlich zu einem Ansatz, der aktuelle Verfahren in der Literatur zur Berechnung des Szenenflusses hinsichtlich der Genauigkeit der Schätzung übertrifft – obwohl diese explizit von der Kenntnis der zugrunde liegenden Stereo-Geometrie Gebrauch machen. ix Variational 3D Reconstruction from Stereo Image Pairs and Stereo Sequences Thesis for obtaining the degree of a doctor of the natural sciences of the natural-technical faculties of the Saarland University by Levi Valgaerts Saarbrücken, 2011 Thesis Supervisor: Prof. Dr. Joachim Weickert Thesis Advisor: Dr. Andrés Bruhn Referees: Prof. Dr. Joachim Weickert, Prof. Dr. Thomas Brox R S V E I T I A N S U S S A I R S A V I E N Mathematical Image Analysis Group, Faculty of Mathematics and Informatics, Saarland University, 66041 Saarbrücken Vision and Image Processing Group, Cluster of Excellence MMCI, Universität des Saarlandes, 66041 Saarbrücken x Zusammenfassung Copyright c by Levi Valgaerts 2011. All rights reserved. No part of this work may be reproduced or transmitted in any form or by any means, electronic or mechanical, in- cluding photography, recording, or any information storage or retrieval system, without permission in writing from the author. An explicit permission is given to Saarland Uni- versity to reproduce up to 100 copies of this work and to publish it online. The author confirms that the electronic version is equal to the printed version. It is currently available at http://www.mia.uni-saarland.de/valgaerts/phdthesis.pdf.

Variational 3D Reconstruction from Stereo Image Pairs and Stereo Sequences

Lecture 6: Camera Computation and the Essential Matrix

Table of Contents Stereopsis

Monitoring Mountain Cryosphere Dynamics by Time Lapse Stereo Photogrammetry

Essential' Matrix

Generalized Essential Matrix: Properties of the Singular Value Decomposition

Mathematical Methods for Camera Self-Calibration in Photogrammetry and Computer Vision

Epipolar Geometry and the Essential Matrix

Lecture 9: Epipolar Geometry

Inaugural-Dissertation

Fundamental Matrix / Image Rectification

Epipolar Geometry: Essential Matrix

Fast RANSAC Hypothesis Generation for Essential Matrix Estimation