Compressing Fingerprint Templates by Solving the K-Node Minimum Label Spanning Arborescence Problem by Branch-And-Price

Compressing Fingerprint Templates by Solving the k-Node Minimum Label Spanning Arborescence Problem by Branch-and-Price DIPLOMARBEIT zur Erlangung des akademischen Grades Diplom-Ingenieurin im Rahmen des Studiums Software Engineering / Internet Computing (066/937) eingereicht von Corinna Thöni,BSc. Matrikelnummer 9826437 an der FakultätfürInformatik der Technischen UniversitätWien Institut fürComputergrafik und Algorithmen Betreuung: Univ.-Prof. Dipl.-Ing. Dr. techn. GüntherRaidl Univ.Ass. Mag. Dipl.-Ing. Andreas Chwatal Wien, 05.02.2010 (Unterschrift Verfasserin) (Unterschrift Betreuer) Technische UniversitätWien A-1040 Wien Karlsplatz 13 Tel. +43/(0)1/58801-0 http://www.tuwien.ac.at Compressing Fingerprint Templates by Solving the k-Node Minimum Label Spanning Arborescence Problem by Branch-and-Price MASTER'S THESIS written at the Institute for Computer Graphics and Algorithms Vienna University of Technology under supervision of Univ.-Prof. Dipl.-Ing. Dr. techn. Günther Raidl Univ.Ass. Mag. Dipl.-Ing. Andreas Chwatal by Corinna Thöni,BSc. Software Engineering / Internet Computing (066/937), 9826437 Vienna, 05.02.2010 Abstract This thesis deals with the development of exact algorithms based on mathematical programming techniques for the solution of a combinatorial optimization problem which emerged in the context of a new compression model recently developed at the Algorithms and Data Structures Group of the Institute of Computer Graphics and Algorithms at the Vienna University of Technology. This compression model is particularly suited for small sets of unordered and multidimensional data having its application background in the field of biometrics. More precisely, fingerprint data given as a set of characteristic points and associated properties should be compressed in order to be used as an additional security feature for e.g. passports by embedding the data into passport images by watermarking techniques. The considered model is based on the well known Minimum Label Spanning Tree Problem (MLST) with the objective to find a small set of labels, associated to the edges of the graph, inducing a valid spanning tree. Based on this solution an encoding of the considered points being more compact than their trivial representation can be derived. So far, heuristic and exact algorithms have been developed, all of them requiring a time-consuming preprocessing step. The goal of this work is to develop an improved exact algorithm carrying out the tasks of the preprocessing algorithm during the execution of the exact methods in an profitable way. Within this thesis the problem is solved by mixed integer programming techniques. For this purpose a new flow formulation is presented which can be directly solved by linear programming based branch-and-bound, or alternatively by branch-and-price, being the main approach of this thesis. Branch-and-price works by starting with a restricted model, and then iteratively adding new variables potentially improving the objective function value. These variables are determined within the pricing problem which has to be solved frequently during the overall solution process. For this purpose specialized data structures and algorithms, based on a k-d tree are used, with the intention to exploit possible structures of the input data. Within this tree, improving variables can be found by various traversing and bounding techniques. These algorithms can also be adapted in order to work as an alternative to the existing preprocessing. All algorithms have been implemented and comprehensively tested. For the existing ap- proaches, the new methods reduced the preprocessing run times with a factor of 50 and use now 2% of the original run times. With the presented branch-and-price approach it is possible to solve a greater amount of test instances to optimality than previously. Generally, for most model parameters the branch-and-price approach outperforms the previous exact method. i Zusammenfassung Diese Diplomarbeit beschäftigt sich mit der Entwicklung von exakten Algorithmen, welche auf mathematischer Programmierung basieren. Ziel ist die Lösung eines kombinatorischen Optimie- rungsproblems, welches im Kontext eines neuen Komprimierungsverfahren auftritt, das kurzlich¨ vom Arbeitsbereich fur¨ Algorithmen und Datenstrukturen des Institut fur¨ Computergraphik und Algorithmen an der Technischen Universität Wien entwickelt wurde. Dieses Komprimierungsver- fahren ist insbesondere geeignet fur¨ kleine Mengen von ungeordneten und multidimensionalen Daten, wobei biometrische Applikationen den Anwendungshintergrund bilden. Insbesondere sol- len Fingerabdruckdaten, sogenannte Minutien, gegeben als Menge charakteristischer Punkte mit zugeordneten Eigenschaften, komprimiert werden, um als zusätzliches Sicherheitsmerkmal fur¨ z.B. Reisepässe verwendet werden zu können, indem die Daten als Wasserzeichen in das Passbild ein- gebettet werden. Das betrachtete Modell basiert auf dem bekannten Minimum Label Spanning Tree Problem (MLST). Das Ziel des Problems ist es, eine kleine Menge an Labels zu finden, welche den Kanten des Graphen zugeordnet sind und so einen gultigen¨ Spannbaum induzieren. Basierend auf dieser Lösung kann eine Kodierung der betrachteten Punkte abgeleitet werden, welche kompakter als ihre triviale Darstellung ist. Bislang wurden Heuristiken und ein exaktes Verfahren entwickelt, welche alle einen laufzeitintensiven Preprocessing-Schritt voraussetzen. Das Ziel dieser Arbeit ist es, einen verbesserten exakten Algorithmus zu entwickeln, welcher die Aufgaben des Preprocessing-Schritts in einer vorteilhaften Weise während der Ausfuhrung¨ der exakten Methode erledigt. In dieser Arbeit wurde das Problem mit Mixed Integer Programmierungstechniken gelöst. Zu diesem Zweck wird eine neue Flußnetzwerk Formulierung vorgestellt, welche direkt mittels Branch- and-Bound, basierend auf Linearer Programmierung, gelöst werden kann. Alternativ dazu gelingt die Lösung auch mittels Branch-and-Price, welches den Hauptansatz darstellt. Branch-and-Price beginnt mit einem reduzierten Problem und fugt¨ dann schrittweise neue Variablen, welche den Zielfunktionswert verbessern können, diesem reduzierten Problem hinzu. Diese Variablen werden mittels des Pricing Problems bestimmt, welches oftmals während des Lösungsvorgangs berechnet werden muss. Zu diesem Zweck wurden spezialisierte, auf einem k-d Tree basierende Datenstruk- turen und Algorithmen entwickelt, welche mögliche Strukturen der Eingabedaten in geschickter Weise ausnutzen.¨ Mittels verschiedener Traversierungs- und Boundingtechniken können aus dieser Baumdatenstruktur verbessernde Variablen effizient extrahiert werden. Weiters können die entwi- ckelten Algorithmen zu einer Alternative fur¨ den Preprocessing-Schritt adaptiert werden. Alle Algorithmen wurden implementiert und umfangreich getestet. Fur¨ die bestehenden Ansätze wurde die Zeit, die fur¨ den ursprunglichen¨ Vorberechnungsschritt gebraucht wurde, um Faktor 50 reduziert, die Laufzeiten sinken auf 2% der ursprunglichen¨ Zeit. Mit dem vorgestellten Branch- and-Price Verfahren ist es möglich eine größere Anzahl an Testinstanzen optimal zu lösen als bisher. Fur¨ die meisten Modellparameter ubertrifft¨ der Branch-and-Price Ansatz die bisherige exakte Methode. ii Acknowledgements Ich möchte allen Personen danken, die mir den Abschluß dieser Diplomarbeit ermöglicht haben. Ich danke meinen Eltern Robert und Johanna sowie meinem Bruder Rudolf, die viel Geduld und Verständnis fur¨ mich aufgebracht und mich immer wieder zum Weitermachen motiviert haben. Ich danke Dieter, der mich in Allem unterstutzt¨ und bekräftigt hat. Danke an Andreas Chwatal, dessen exzellente fachliche Kompetenz und unendliche Geduld diese Arbeit möglich gemacht haben. Danke an Gunther¨ Raidl fur¨ die großartigen Ideen und die viele Unterstutzung.¨ Danke an den gesamten Fachbereich fur¨ Algorithmen und Datenstrukturen fur¨ die gute technische Infrastruktur. iii Erklärung zur Verfassung Hiermit erkläre ich, dass ich diese Arbeit selbständig verfasst habe, dass ich die verwendeten Quel- len und Hilfsmittel vollständig angegeben habe und dass ich die Stellen der Arbeit, einschließlich Tabellen, Karten und Abbildungen, die anderen Werken oder dem Internet im Wortlaut oder dem Sinn nach entnommen sind, auf jeden Fall unter Angabe der Quelle als Entlehnung kenntlich gemacht habe. Wien, 05.02.2010 iv Contents Abstract . .i Zusammenfassung . ii Acknowledgements . iii 1 Introduction 1 1.1 Biometric Background . .2 1.1.1 Dactyloscopy . .3 1.1.2 Digital Watermarking, Steganography and Compression . .4 1.2 Previous Work . .5 1.2.1 The Compression Model . .5 1.2.2 Determining the Codebook . .6 1.3 Contributions of this Thesis . .7 2 Graph Theory and Algorithmic Geometry Essentials 9 2.1 Graph Theory Basics . .9 2.1.1 Minimum Label Spanning Tree (MLST) . 10 2.1.2 k-Cardinality Tree (k-CT) . 10 2.1.3 k-node Minimum Label Spanning Arborescence (k-MLSA) . 11 2.1.4 Flow networks . 11 2.2 Algorithmic Graph Theory Essentials . 12 2.3 Algorithmic Geometry . 12 2.3.1 Binary Search Tree . 12 2.3.2 2-d Tree and k-d Tree . 12 3 Optimization Theory Essentials 15 3.1 History and Trivia . 15 3.2 Introduction to Linear Optimization . 16 3.2.1 Linear Programs . 16 3.2.2 Duality . 17 3.2.3 Polyhedral Theory, Solvability and Degeneration . 18 3.2.3.1 Farkas' Lemma . 19 3.2.4 Solution Methods for Linear Programs . 19 3.2.4.1 Geometric Method . 20 3.2.4.2 Simplex Algorithm . 20 3.2.4.3 Nonlinear Optimization Techniques . 21 3.3 Integer Optimization .

Load more