Text Classification and Layout Analysis for Document Reassembling
Total Page:16
File Type:pdf, Size:1020Kb
Text Classification and Layout Analysis for Document Reassembling DISSERTATION submitted in partial fulfillment of the requirements for the degree of Doktor der technischen Wissenschaften by Markus Diem Registration Number 0226595 to the Faculty of Informatics at the Vienna University of Technology Advisor: Ao.Univ.Prof. Dipl.-Ing. Dr.techn. Robert Sablatnig The dissertation has been reviewed by: (Ao.Univ.Prof. Dipl.-Ing. (Basilis G. Gatos, PhD) Dr.techn. Robert Sablatnig) Wien, March 10, 2014 (Markus Diem) Technische Universit¨atWien A-1040 Wien Karlsplatz 13 Tel. +43-1-58801-0 www.tuwien.ac.at Erkl¨arung zur Verfassung der Arbeit Markus Diem Mollardgasse 22/19, 1060 Wien Hiermit erkl¨are ich, dass ich diese Arbeit selbst¨andig verfasst habe, dass ich die ver- wendeten Quellen und Hilfsmittel vollst¨andig angegeben habe und dass ich die Stellen der Arbeit { einschließlich Tabellen, Karten und Abbildungen {, die anderen Werken oder dem Internet im Wortlaut oder dem Sinn nach entnommen sind, auf jeden Fall unter Angabe der Quelle als Entlehnung kenntlich gemacht habe. (Ort, Datum) (Unterschrift Verfasser) i Danksagung Ich m¨ochte mich an dieser Stelle bei all jenen Menschen bedanken, die mich begleitet und unterst¨utzthaben. Sie haben wesentlich dazu beigetragen, dass ich diese Arbeit schreiben konnte. F¨urdie fachliche Unterst¨utzungm¨ochte ich mich bei allen Arbeitskollegen am Cvl bedanken, die in vielen Diskussionen meine Idee der Computer Vision geformt haben. Speziell m¨ochte ich mich bei Melanie Gau, Michael H¨odlmoser,Martin Kampel, Rainer Planinc, Michael Reiter, Sebastian Zambanini und Andreas Zweng bedanken. Ein Dank gilt auch Stefan, der mich nie zu seiner Masterparty eingeladen hat, Florian, dessen zum Teil absurde Ideen den B¨uroalltagauffrischen und Fabian, der mich schon beim Studium f¨urseine nicht immer absurden Ideen begeisterte. Florian hat mich zus¨atzlich durch alle Stasi Projekte begleitet und mir dabei die Mathematik sowie eine gewisse Stressresistenz n¨ahergebracht. Die letzteren drei hatten einen wesentlichen Einfluss auf die Entstehung des Montagsbier, welches in jeder gesunden B¨uroumgebungempfehlenswert ist. Ein spezieller Dank gilt auch meinem Betreuer Robert Sablatnig. Er hat eine B¨uroat- mosph¨aregeschaffen, die sowohl produktiv als auch belebend ist. Des Weiteren hat er mein Interesse an der Forschung geweckt und mich auf die Verfassung wissenschaftlicher Artikel vorbereitet. Begriffe wie many, more und jeglicher Konjunktiv verwendete ich weit h¨aufigerohne seine Korrekturen. Bei Basilis Gatos m¨ochte ich mich f¨urdie Zeit bedanken, die er in das Review dieser Arbeit investiert. Seine wissenschaftliche Arbeit ist die Grundlage einiger Entwicklungen die hier vorgestellt werden. Ein abschließender Dank gilt meiner Familie, die mich zu jenem Menschen formte, der ich nun bin. Meine Großmutter Frieda f¨ordertebesonders in meiner Kindheit meinen Wissensdurst. Lukas hat immer Zeit f¨urDiskussionen ¨uber Gott, die Welt und im speziellen die Informatik. Im Gegensatz dazu holt mich Clemens aus dieser Welt gerne heraus und zeigt mir jene, in der die Asthetik¨ der Form dominiert. Meine beiden Schwest- ern Sarah und Sabine holen mich wiederum gerne auf den Boden der Realit¨at.Ein letzter Dank gilt Alex, Sandro, Lara, Nina, Werner und Annemarie, die immer da sind wenn es notwendig ist. Diese Dissertation widme ich meinen Eltern und Babsi. Meine Eltern haben mein Studium erm¨oglicht und mir f¨urmeinen Lebensweg Werte mitgegeben, die sich bis heute als sehr gut erwiesen haben. Babsi, du bist nach Platons Symposion meine fehlende H¨alfte. Danke iii \as goht als" Abstract In the context of automated reassembling of manually torn document snippets contour based approaches are insufficient because snippets have the same rupture edges if more than one page is torn at the same time. Moreover jigsaw puzzling is np hard which requests for a grouping of document snippets beforehand such that the complexity and computational speed of reassembling is improved. Analyzing the visual content of doc- ument snippets renders the distinction of snippets with the same contours possible. In addition, a visual content extraction enables fine alignment of snippets with the same content and for grouping snippets. The document analysis approaches presented in this thesis are part of a combined reassembling which utilizes content and contour for the reconstruction of about 600 Million Stasi snippets. The ruling analysis classifies the supporting material into void, lined, and checked paper. If a ruling is detected, the lines are localized accurately which allows for snippet alignments. Snippets might have sparse visual content depending on the conscientious- ness when tearing. Therefore a new word localization { the so-called Profile Box { is introduced which keeps a compact word representation while accounting for anticipated deformations such as a word's local skew. These word boxes are further classified into printed, manuscript, and non-text elements by means of Gradient Shape Features (Gsf) which are designed newly for this task. The latter class allows for rejecting falsely bi- narized elements which improves the robustness in the presence of degraded or noisy documents. Finally, a layout analysis is performed that is based on a bottom-up ap- proach to keep the element clustering flexible even if a global text structure is not present. Results on various publicly available databases show that the methodology is capable of being adopted to different document analysis scenarios. A synthetic database for ruling line removal is created and made publicly available which allows comparisons between the approach proposed and other state-of-the-art methodologies. The text classification is compared to other approaches by means of the PRImA benchmarking database and the Iam database, which is a handwriting database written by multiple authors. The methodology presented achieves the best results in both empirical evaluations. On real world Stasi snippets, the recognition rate is lower because of the heterogeneity and sparseness of content in the data. The layout analysis is additionally evaluated on the most recent Handwriting Segmentation Contests where it competes state-of-the-art methods and on a medieval database. vii Kurzfassung Eine automatische Dokumentrekonstruktion von handzerrissenen Akten erm¨oglicht die Wiederherstellung von verlorengeglaubtem Inhalt. Das zugrundeliegende Datenmaterial beinhaltet 600 Millionen Stasi Schnipsel die beim Fall der Berliner Mauer vernichtet wurden. Konturbasierte Ans¨atze k¨onnen Schnipsel nicht richtig zusammensetzten wenn mehrere Seiten gleichzeitig zerrissen wurden. Zus¨atzlich ist die Komplexit¨at der automa- tischen Rekonstruktion zu hoch wenn jedes Schnipsel mit jedem verglichen werden muss. Deshalb wird vor der Rekonstruktion der visuelle Inhalt von Schnipseln analysiert. Da- durch kann einerseits eine Vorsortierung vorgenommen werden, andererseits erm¨oglicht es Schnipsel mit gleichen Risskanten voneinander zu unterscheiden. Algorithmen zur automatischen Textlokalisierung und Papieranalyse werden in dieser Doktorarbeit vor- gestellt, die bei der Rekonstruktion mit konturbasierten Ans¨atzen kombiniert werden. Die Papieranalyse klassifiziert Papier in liniiert, kariert und leeres Papier. Liegt ein liniiertes oder kariertes Schnipsel vor, so werden die Linien genau lokalisiert um benach- barte Schnipsel basierend auf deren Liniierung auszurichten. Des Weiteren wurde eine neue Textlokalisierung entwickelt, die W¨orter kompakt repr¨asentiert und deren lokale Ausrichtung genau wiedergibt. Alle Elemente eines Dokuments werden in Maschinen- schrift, Handschrift oder kein Text mit Hilfe von sogenannten Gradient Shape Features (Gsf) klassifiziert. Die Erkennung von kein Text erm¨oglicht es falsch binarisierte Ele- mente zu verwerfen um auf diese Weise gute Ergebnisse in verrauschten Dokumenten zu erzielen. Nach der Klassifikation und Lokalisierung von Text werden diese Elemente zu hierarchisch h¨oheren Strukturen zusammengefasst. Dabei wird ein bottom-up Verfahren verwendet welches auch auf zerrissenen Dokumenten angewendet werden kann. Die Methodik wurde empirisch auf ¨offentlich verfugbaren¨ Datens¨atzen evaluiert und mit bestehenden Dokumentanalysesystemen verglichen. Die Textklassifikation und Loka- lisierung konnte dabei bisherige Ergebnisse auf einem Datensatz mit modernen gedruck- ten Layouts und einem Handschriftendatensatz verbessern. Die Layout Analyse wurde auf den letzten drei Page Segmentation Contest Datens¨atzen evaluiert. Dort wurden im Vergleich zu State-of-the-Art Methoden ¨ahnliche Ergebnisse erzielt, wobei sich heraus- stellte, dass besonders Bangla eine Schwierigkeit fur¨ die entwickelte Methode darstellt. ix Contents 1 Introduction 1 1.1 Motivation . 2 1.2 Main Contribution . 7 1.3 Definition of Terms . 9 1.4 Results . 11 2 Related Work 15 2.1 Ruling Analysis . 17 2.2 Features for Text Classification . 18 2.3 Machine Learning . 27 2.4 Text Classification . 30 2.5 Document Layout Analysis & Page Segmentation . 41 2.6 Text Line Segmentation . 49 3 Ruling Analysis 57 3.1 Methodology . 57 3.2 Evaluation . 65 4 Text Classification 75 4.1 Pre Processing . 76 4.2 Text Localization . 80 4.3 Gradient Shape Features . 83 4.4 Classification . 88 4.5 Evaluation . 91 5 Layout Analysis 113 5.1 Text Line Clustering . 114 5.2 Text Line Localization . 118 5.3 Evaluation . 121 6 Conclusion 131 Bibliography 141 xi CHAPTER 1 Introduction Document analysis in the context of computer vision aims at automatically extracting