Graph-Based Models for the Interpretation of Document Images
Total Page:16
File Type:pdf, Size:1020Kb
ADVERTIMENT. Lʼaccés als continguts dʼaquesta tesi queda condicionat a lʼacceptació de les condicions dʼús establertes per la següent llicència Creative Commons: http://cat.creativecommons.org/?page_id=184 ADVERTENCIA. El acceso a los contenidos de esta tesis queda condicionado a la aceptación de las condiciones de uso establecidas por la siguiente licencia Creative Commons: http://es.creativecommons.org/blog/licencias/ WARNING. The access to the contents of this doctoral thesis it is limited to the acceptance of the use conditions set by the following Creative Commons license: https://creativecommons.org/licenses/?lang=en Distilling Structure from Imagery: Graph-based Models for the Interpretation of Document Images A dissertation submitted by Pau Riba Fiérrez at Universitat Autònoma de Barcelona to fulfil the degree of Doctor of Philosophy. Bellaterra, June 20, 2020 Directors Dr. Josep Lladós Universitat Autònoma de Barcelona Dep. Ciències de la Computació & Centre de Visió per Computador Dra. Alicia Fornés Universitat Autònoma de Barcelona Dep. Ciències de la Computació & Centre de Visió per Computador Thesis Dr. Francesc Serratosa Committee Universitat Rovira i Virgili Tarragona, Catalunya Dr. Dimosthenis Karatzas Universitat Autònoma de Barcelona Dep. Ciències de la Computació & Centre de Visió per Computador Dr. Kaspar Riesen University of Applied Sciences and Arts Northwestern Switzerland Brugg, Switzerland International Dr. Andreas Fischer Evaluators Université de Fribourg Fribourg, Switzerland Dr. Muhammad Muzzamil Luqman La Rochelle Université La Rochelle, France This document was typeset by the author using LATEX 2". The research described in this book was carried out at the Computer Vision Center, Universitat Autònoma de Barcelona. This work is liscensed under Creative Commons Attribution-ShareAlike 4.0 Inter- national (CC BY-SA 4.0) cba 2020 by Pau Riba Fiérrez. You are free to copy and redistribute the material in any medium or format as long as you attribute its author. If you alter, transform or build upon this work, you may distribute the resulting work only under the same, similar or compatible liscense. ISBN ISBN “Pending” Printed by Ediciones Gráficas Rey, S.L. Hi ha un escola perduda allà al mig del Montseny on només hi estudien els nens... On només hi estudien els nens que somien en truites. – Albert Pla Yo he preferido hablar de cosas imposibles porque de lo posible se sabe demasiado. – Silvio Rodríguez Real stupidity beats artificial intelligence every time. – Terry Prachett A tots els que han sofert aquest llarg camí... Agraïments It is good to have an end to journey toward; but it is the journey that matters, in the end. – Ursula K. Le Guin Finalment, un dijous de Corpus, és a dir de Patum, em trobo escrivint aquestes línies. Potser les més difícils d’aquesta tesi per la gran quantitat de gent que he d’agrair i no vull oblidar. Realitzar una tesi no ha estat només un camí de formació en la recerca, sinó també de formació en la vida mateixa. Aquests anys m’han brindat la possibilitat de conèixer molta gent, tant d’aquí com de fora. Ara que arribo al final, i dono un cop d’ull a tot el que he deixat endarrere, m’adono de tota l’ajuda, coneixement i comprensió de les quals he gaudit. Voldria començar amb un agraïment sincer a totes les persones que s’han creuat amb mi al llarg d’aquest camí. Sou moltes, i espero que la majoria us trobeu interpel·lades en els següents paràgrafs però, si no és així, no és per mala fe, sinó que es fa difícil encabir a tothom en aquestes poques línies. A tots vosaltres, moltes gràcies! Aquesta tesi no existiria si no fos pel Josep i l’Alícia. No només per ser els directors d’aquesta, sinó per haver-me mostrat, ja fa uns quants anys, que és realment el món de la visió per computador. En aquell temps, mentre encara era estudiant de la carrera, em van donar l’oportunitat d’entrar com a becari al CVC. Crec que aquest va ser el punt d’inflexió que em va fer decidir a fer el salt per realitzar el meu doctorat. Vull agrair al Josep, que hagi sigut capaç de treure temps d’on no en tenia per poder-se reunir, corregir el que escrivia i donar-me idees noves per poder seguir endavant. A l’Alícia, vull agrair-li haver tingut sempre la porta oberta per discutir com enfocar els diferents problemes que m’anaven sorgint. En definitiva, moltes gràcies als dos, sense vosaltres aquest document no hauria vist mai la llum. Així doncs, aquesta tesi, també és vostra. I take the chance to sincerely acknowledge Andreas Fischer, Joan Bruna and Daniele Panozzo for welcome me at their respective research groups in the Uni- versité de Fribourg and the New York University. You made me feel at home at both Fribourg (Switzerland) and New York (USA). I would like to extend my i more sincere appreciation to all the friends, collegues and people I shared some time in these places. Specially, Michele Alberti, Vinaychandran Pondenkandath, Teseo Schneider, Francis Williams, Francisca Gil, Davi Colli, Zachary Ferguson and Bolun Wang. In addition I would like to thanks the colleagues from omni:us who shared a boundless number of videocalls during these years. Specially to Lutz Goldmann. M’agradaria fer una menció especial a tots els membres del CVC. A les diferents persones de l’administració i servei d’informàtica, especialment a la Claire, l’Ana María, l’Alexandra, la Txell, la Montse, al Marc i al Joan. Als companys de dinars del divendres, en Jordi Font i la Katerine Diaz. En especial al Marçal Rossinyol i al Juan Ignacio Toledo que, a més a més, també han estat companys de grup. A la resta de companys de grup, especialment, al Dimosthenis Karatzas, a l’Ernest Valveny, l’Oriol Ramos i Joan Mas. I, finalment, a tots els amics i companys del CVC: Pau Rodríguez, Arnau Baró, Edgar Riba, Albert Berenguel, Lei Kang, Sounak Dey, Pep Gonfaus, Anjan Dutta, Asma Bensalah, Xavier Soria, Manuel Carbonell i Sanket Biswas, entre molts d’altres. Amb tots vosaltres he compartit gran part d’aquest camí, entre xerrades, cafès i cervesetes. Heu estat font de suport i inspiració durant tota aquesta recerca! No voldria acabar sense tenir un record pels amics. En especial al Pep, el Víctor i el Joan per haver-hi estat i ser-hi, sempre. També a l’Imma, que em va obrir la porta al món dels grafs. A l’Anna vull agrair-li haver aparegut a la meva vida amb un gran somriure i en el moment adequat. En aquests darrers mesos, sempre has sabut donar-me forces en els moments que més ho necessitava. Sense tu, això no hauria estat possible. T’estimo. A la meva família, als meus avis, l’Alfonso, la María de los Ángeles, l’Albert i l’Elvira. També als meus tiets i cosins. A la Pilar, que ha estat al meu costat durant tot aquest temps. I, per últim, als meus pares, l’Àngels i el Joan. Heu estat el meu suport incondicional i la meva font d’inspiració per arribar fins aquí. Gràcies per animar- me a seguir endavant i a animar-me a fer el que em feia feliç. Berga, 20 de juny de 2020 ii Abstract From its early stages, the community of Pattern Recognition and Computer Vision has considered the importance on leveraging the structural information when un- derstanding images. Usually, graphs have been selected as the adequate framework to represent this kind of information due to their flexibility and representational power able to codify both, the components, objects or entities and their pairwise relationship. Even though graphs have been successfully applied to a huge variety of tasks, as a result of their symbolic and relational nature, graphs have always suffered from some limitations compared to statistical approaches. Indeed, some trivial mathematical operations do not have an equivalence in the graph domain. For instance, in the core of many pattern recognition application, there is the need to compare two objects. This operation, which is trivial when considering feature vectors defined in Rn, is not properly defined for graphs. Along this dissertation the main application domain has been on the topic of Document Image Analysis and Recognition. It is a subfield of Computer Vision aiming at understanding images of documents. In this context, the structure and in particular graph representations, provides a complementary dimension to the raw image contents. In computer vision, the first challenge we face is how to build a meaningful graph representation that is able to encode the relevant characteristics of a given image. This representation should find a trade off between the simplicity of the representation and its flexibility to represent the deformations appearing on each application domain. We applied our proposal to the word spotting application where strokes are divided into graphemes which are the smaller units of a hand- written alphabet. We have investigated different approaches to speed-up the graph comparison in order that word spotting, or more generally, a retrieval application is able to han- dle large collections of documents. On the one hand, a graph indexing framework combined with a votation scheme at node level is able to quickly prune unlikely results. On the other hand, making use of graph hierarchical representations, we are able to perform a coarse-to-fine matching scheme which performs most of the comparisons in a reduced graph representation. Besides, the hierarchical graph iii representation demonstrated to be drivers of a more robust scheme than the origi- nal graph. This new information is able to deal with noise and deformations in an elegant fashion. Therefore, we propose to exploit this information in a hierarchical graph embedding which allows the use of classical statistical techniques.