Information Retrieval of Text, Structure and Sequential Data in Heterogeneous XML Document Collections Eugen Popovici
Total Page:16
File Type:pdf, Size:1020Kb
Information Retrieval of Text, Structure and Sequential Data in Heterogeneous XML Document Collections Eugen Popovici To cite this version: Eugen Popovici. Information Retrieval of Text, Structure and Sequential Data in Heterogeneous XML Document Collections. Computer Science [cs]. Université de Bretagne Sud; Université Européenne de Bretagne, 2008. English. tel-00511981 HAL Id: tel-00511981 https://tel.archives-ouvertes.fr/tel-00511981 Submitted on 26 Aug 2010 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. THÈSE SOUTENUE DEVANT L’UNIVERSITÉ EUROPÉENNE DE BRETAGNE pour obtenir le grade de DOCTEUR DE L’UNIVERSITÉ EUROPÉENNE DE BRETAGNE Mention : SCIENCES ET TECHNOLOGIES DE L’INFORMATION ET DE LA COMMUNICATION par EUGEN-COSTIN POPOVICI Information Retrieval of Text, Structure and Sequential Data in Heterogeneous XML Document Collections Recherche et filtrage d’information multimédia (texte, structure et séquence) dans des collections de documents XML hétérogènes Présentée le 10 janvier 2008 devant la commission d’examen composée de : M. BOUGHANEM Professeur, Université Paul Sabatier, Toulouse III Rapporteur P. GROS Directeur de Recherche, INRIA, Rennes Examinateur M. LALMAS Professeur, Queen Mary University of London Rapporteur P.-F. MARTEAU Professeur, Université de Bretagne-Sud Directeur G. MÉNIER Maître de Conférences, Université de Bretagne-Sud Co-directeur Abstract Nowadays digital documents represent a complex and heterogeneous mixture of text, structure, meta-data and multimedia information. The XML description language is now the standard used to represent such documents in digital libraries, product catalogs, scientific data repositories and across the Web. The management of semi structured data requires the development of appropriate indexing, filtering, searching and browsing methods and tools. In particular, the filtering and searching functions of the retrieval systems should be able to answer queries having an incomplete, im- precise or even erroneous knowledge about both the structure and the content of the XML documents. Moreover, these functions should maintain an algorithmic complex- ity compatible with the complexity of the data while maintaining the scalability of the system. In this thesis, we explore methods for managing and searching collections of het- erogeneous multimedia XML documents. We focus on the flexible searching of struc- ture, text, and sequential data embedded in heterogeneous XML document databases. Based on the structural part of the XML documents, we propose a flexible model for the representation, indexing and retrieval of heterogeneous types of sequential data. The matching mechanism simultaneously exploits the structural organization of the sequential/textual data as well as the relevance and the characteristics of the unstruc- tured content of the indexed documents. We also design and evaluate methods both for the approximate matching of structural constraints in an XML Information Re- trieval (IR) framework and for the detection of best entry points to locate given topics in XML Documents. Finally, we explore the use of dedicated hardware architecture to accelerate the most expensive processing steps of our XML IR application. iii Résumé Les documents numériques sont aujourd’hui des données complexes qui intègrent d’une manière hétérogène des informations textuelles, structurelles, multimédia ainsi que des méta-données. Le langage de balisage générique XML s’est progressivement imposé comme support privilégié non seulement pour l’échange des données mais aussi pour leur stockage. La gestion des documents stockés sous les formats XML nécessite le développement de méthodes et d’outils spécifiques pour l’indexation, la recherche, le filtrage et la fouille des données. En particulier, les fonctions de recherche et de filtrage doivent prendre en compte des requêtes disposant de connaissances in- complètes, imprécises, parfois même erronées sur la structure ou le contenu des doc- uments XML. Ces fonctions doivent par ailleurs maintenir une complexité algorith- mique compatible avec la complexité des données et surtout avec leur volume toujours en forte croissance, ceci pour assurer le passage à l’échelle des solutions informatiques. Dans cette thèse, nous étudions des méthodes et développons des outils pour in- dexer et rechercher des informations multimédia hétérogènes stockées dans des ban- ques de documents XML. Plus précisément, nous abordons la question de la recherche par similarité sur des données composites décrites par des éléments structurels, textuels et séquentiels. En s’appuyant sur la partie structurelle des documents XML, nous avons défini un modèle de représentation, d’indexation et d’interrogation flexible pour des types hétérogènes de données séquentielles. Les principes que nous développons mettent en oeuvre des mécanismes de recherche qui exploitent simultanément les éléments des structures documentaires indexées et les contenus documentaires non structurés. Nous évaluons également l’impact sur la pertinence des résultats re- tournés par l’introduction de mécanismes d’alignement approximatif des éléments structurels. Nous proposons des algorithmes capables de détecter et de suggérer les « meilleurs points d’entrée » pour accéder directement à l’information recherchée dans un document XML. Finalement, nous étudions l’exploitation d’une architecture matérielle dédiée pour accélérer les traitements les plus coûteux du point de vue de la complexité de notre application de recherche d’information structurée. v Acknowledgments Many people have accompanied my long journey to this dissertation. To all of them I give my deepest thanks. I am especially grateful to my thesis committee members: Prof. Mounia Lalmas, Prof. Mohand Boughanem and Senior Researcher Patrick Gros, for accepting to be on my committee and for the feedback they gave on the manuscript. I owe gratitude to my PhD supervisors, Prof. Pierre-François Marteau and Assist. Prof. Gildas Ménier, for their continuous guidance, support, critical, yet constructive remarks, infinite understanding, and belief in my work. This thesis would not have been written without their constant encouragement. I would like to thank all the members of the VALORIA laboratory for assuring an enjoyable and fruitful working atmosphere. I am also grateful to the whole INEX community, for creating the test collection for the evaluation of XML IR which is extensively used in this work. Last but not the least, I want to thank, Didier Hoareau and Chouki Tibermacine, my work office colleagues for four long years, Alla Silkina, Xiaoqun Zhang and all the other PhD students, for interesting discussions and their friendship. Finally, I want to thank all my friends and family, for their patience and under- standing, and especially my parents and my brother Emil, for his example. This research was partially supported by the ACIMD – ReMIX (Reconfigurable Memory for Indexing Mass of Data) French grant. vii Contents I Introduction 1 1 Introduction 3 1.1 Context and Motivation . 3 1.2 Thesis Contribution . 4 1.3 Thesis Outline . 4 II XML Information Retrieval 7 2 XML Information Retrieval 9 2.1 Introduction . 10 2.1.1 Document and Collection of Documents . 11 2.1.2 Unstructured, Structured and Semi-Structured Documents . 11 2.1.3 Documents Markup . 11 2.1.4 A Brief History of Markup Languages . 13 2.1.5 eXtensible Markup Language (XML) . 14 2.1.6 Data-Centric vs. Document-Centric XML Data . 14 2.2 Conceptual Model for XML IR . 15 2.3 Precursors of XML IR . 17 2.3.1 Passage Retrieval . 17 2.3.2 Web Information Retrieval . 19 2.4 XML IR Challenges . 21 2.4.1 Term and element statistics . 21 2.4.2 Structure Statistics . 21 2.4.3 Relationships Statistics . 22 2.4.4 Relevance Propagation . 23 2.4.5 Overlapping Elements – Removing Nested Redundant Information 24 2.4.6 Structure Constraints . 25 2.4.7 XML IR Interfaces . 25 2.5 Indexing XML Documents . 26 2.5.1 Indexing Process . 26 2.5.2 Index Layers . 27 2.5.3 Indexing Term Weights . 27 2.5.4 Index Structures . 28 2.5.5 Indexing Unit . 28 2.5.6 Indexing the Structural Information . 30 2.6 XML Retrieval Models . 33 2.6.1 Vector Space Model . 33 ix x CONTENTS 2.6.2 Language Model . 34 2.6.3 Probabilistic Model . 36 2.6.4 Machine Learning . 36 2.7 XML IR Evaluation . 37 2.8 Conclusion . 38 3 SIRIUS XML IR System 39 3.1 Introduction . 40 3.1.1 Document Structure and IR . 40 3.1.2 Strict and Vague Interpretation of XML-Retrieval Queries . 40 3.1.3 Approximate Structure Matching . 41 3.2 Document Model . 43 3.2.1 XML Context . 43 3.3 The Index Model . 43 3.4 The Retrieval Scheme . 47 3.4.1 Approximate Path Search . 47 3.4.2 Textual Content Ranking Scheme . 50 3.4.3 Computing Element RSV . 50 3.4.4 Lexical Semantic Enrichment . 51 3.5 The SIRIUS Query Language . 52 3.5.1 Path Constraints . 52 3.5.2 Attributes Constraints . 53 3.5.3 Complex Requests . 55 3.6 Prototype Implementation . 57 3.6.1 System General Architecture . 57 3.6.2 GUI . 57 3.7 Conclusions . 58 4 Experimental Evaluation Framework 61 4.1 Introduction . 61 4.2 INEX Evaluation Campaigns . 62 4.2.1 Document Collections . 63 4.2.2 Topics . 63 4.2.3 Pertinence Judgments . 69 4.2.4 Retrieval Tasks . 69 4.2.5 Evaluation Measures . 70 4.3 SIRIUS @ INEX . 72 4.3.1 Indexing the INEX 2005 and INEX 2006 Collections . 72 4.3.2 Structural Weighting Scheme for INEX . 74 4.3.3 Translating NEXI to SIRIUS Query Language . 75 4.3.4 Processing NEXI Requests . 75 4.4 Conclusion .