Streaming Tree Automata and Xpath Olivier Gauwin

Streaming Tree Automata and XPath Olivier Gauwin To cite this version: Olivier Gauwin. Streaming Tree Automata and XPath. Software Engineering [cs.SE]. Université des Sciences et Technologie de Lille - Lille I, 2009. English. tel-00421911v3 HAL Id: tel-00421911 https://tel.archives-ouvertes.fr/tel-00421911v3 Submitted on 23 Jun 2010 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Universite´ Lille 1 – Sciences et Technologies Laboratoire d’Informatique Fondamentale de Lille Institut National de Recherche en Informatique et en Automatique THESE` present´ ee´ en premiere` version en vue d’obtenir le grade de Docteur, specialit´ e´ Informatique par Olivier Gauwin FLUX XML, REQUETESˆ XPATH ET AUTOMATES ( Streaming Tree Automata and XPath ) These` soutenue le 28 septembre 2009 devant le jury composede:´ MICHAEL BENEDIKT Oxford University Rapporteur HELMUT SEIDL Technische Universität München Rapporteur HUBERT COMON-LUNDH ENS Cachan Examinateur ARNAUD DURAND UniversitéDenis Diderot – Paris 7 Examinateur SEBASTIAN MANETH University of New South Wales Examinateur JOACHIM NIEHREN INRIA Directeur SOPHIE TISON Universitéde Lille 1 Co-Directrice Flux XML, Requetesˆ XPath et Automates Copyright c 2009, certains droits réservés (voir l’appendice A). Olivier Gauwin Version: June 23, 2010 Remerciements Cette thèse n’est pas uniquement le fruit de mon travail, c’est également la conséquence de collaborations fécondes et de volontés bienveillantes. En premier lieu je remercie mes directeurs de thèse, Joachim Niehren et So- phie Tison. Ils m’ont accordéleur confiance dès le premier jour, alors que nous ne nous connaissions pas. Tous deux sont àl’origine de nombre d’idées et de conseils, dont cette thèse est le reflet, et dont leur complémentaritéest souvent la source. J’ai appréciéde pouvoir travailler àleur côté durant ces trois ans. Cette thèse doit également son existence àPierre Marquis. Par ses enseigne- ments et la supervision de mon stage de DEA avec Sébastien Konieczny, il a su m’initier avec enthousiasme àla science informatique. Je le remercie grandement pour son soutien dans ma recherche d’une thèse. Anne-Cécile Caron et Yves Roos ont travailléavec nous sur la partie automates. D’autres travaux ont étéinitiés avec Arnaud Durand et Marco Kuhlmann. De nombreuses discussions ont également influencénos travaux, notamment avec Sebastian Maneth et Michael Benedikt. J’ai ététrès heureux de travailler avec chacun d’entre eux, j’ai beaucoup appris grâce àeux. Je remercie Michael Benedikt, Helmut Seidl, Hubert Comon-Lundh, Arnaud Durand et Sebastian Maneth d’avoir acceptéde faire partie du jury. Je suis reconnaissant envers l’équipe Mostrare, pour l’état d’esprit stimulant qui y règne. Merci àRémi Gilleron pour l’accueil et les conseils prodigués. Je salue également les doctorants et post-docs Mostrare. Au-delàde notre amitié, je remercie en particulier Emmanuel Filiot et Sławek Staworko pour avoir répondu àmes nombreuses questions ! Benoˆıt Papegay a commencél’implémentation de certains algorithmes, je l’en remercie. Je remercie l’INRIA pour avoir financé cette thèse, ainsi que le LIFL et l’universitéLille 1 pour les moyens accordés. Je ne peux bien sûr pas énumérer tout ce qui a éveillémon intérêt pour la science et l’informatique. J’y inclus mes professeurs de science, que je remercie. Un merci tout particulier àmes parents, pour m’avoir accordébeaucoup de liberté, et plus généralement pour m’avoir fait confiance, soutenu et encouragé. Enfin merci àLaurence pour son soutien, même quand le travail a pris le dessus ! Resum´ e´ en Français Ces dernières années, XML est devenu le format standard pour l’échange de données. Les documents XML sont généralement pro- duits àpartir de bases de données, durant le traitement de documents, ou au sein d’applications Web. L’échange de données en flux est fréquemment utilisélors de l’envoi de données conséquentes par le réseau. Ainsi le transfert par flux est adéquat pour de nombreux traitements XML. Dans cette thèse, nous étudions des algorithmes d’évaluation de requêtes sur des flux XML. Notre objectif est de gérer efficacement la mémoire, afin de pouvoir évaluer des requêtes sur des données volumineuses, tout en utilisant peu de mémoire. Cette tâche s’avère complexe, et nécessite des restrictions importantes sur les langages de requêtes. Nous étudions donc les requêtes définies par des automates déterministes ou par des fragments du standard W3C XPath, plutôt que par des langages plus puissants comme les standards W3C XQuery et XSLT. Nous définissons tout d’abord les streaming tree automata (STAs), qui opèrent sur les arbres d’ariténon bornée dans l’ordre du document. Nous prouvons qu’ils sont équivalents aux nested word automata et aux pushdown forest automata. Nous élaborons ensuite un algorithme d’évaluation au plus tôt, pour les requêtes définies par des STAs déterministes. Bien qu’il ne stocke que les candidats nécessaires, cet algorithme est en temps polynomiala ` chaque événement du flux, et pour chaque candidat. Par conséquent, nous obtenons des résultats posi- tifs pour l’évaluation en flux des requêtes définies par des STAs déterministes. Nous mesurons une telle adéquation d’un langage de requêtes àune évaluation en flux via un nouveau modèle de machines, appelées streaming random access machines (SRAMs), et via une mesure du nombre de candidats simultanément vivants, appelé concurrence. Nous montrons également qu’il peut être décidéen temps polynomial si la concurrence d’une requête définie par un STA déterministe est bornée. Notre preuve est basée sur une réduction au problème de la valuation bornée des relations reconnaissables d’arbres. Concernant le standard W3C XPath, nous montrons que même de petits fragments syntaxiques ne sont pas adaptés àune évaluation en flux, sauf si P=NP. Les difficultés proviennent du non-déterminisme de ce langage, ainsi que du nombre de conjonctions et de disjonctions. Nous définissons des fragments de For- ward XPath qui évitent ces problèmes, et prouvons, par compilation vers les STAs déterministes en temps polynomial, qu’ils sont adaptésa ` une évaluation en flux. Titre en Français Flux XML, Requêtes XPath et Automates Mots cles´ en Français Flux XML, requêtes, arbres, automates, XPath. Resum´ e´ en Anglais During the last years, XML has evolved into the quasi standard format for data exchange. Most typically, XML documents are produced from databases, during document processing, and for Web applications. Strea- ming is a natural exchange mode, that is frequently used when sending large amounts of data over networks, such as in database driven Web applications. Streaming is thus relevant for many XML processing tasks. In this thesis, we study streaming algorithms for XML query answering. Our main objective lies in efficient memory management, in order to be able to query huge data collections with low memory consumption. This turns out to be a sur- prisingly complex task, which requires serious restrictions on the query language. We therefore consider queries defined by deterministic automata or in fragments of the W3C standard language XPath, rather than studying more powerful languages such as the W3C standards XQuery or XSLT. We first propose streaming tree automata (STAs) that operate on unranked trees in streaming order, and prove them equivalent to nested word automata and to pushdown forest automata. We then contribute an earliest query answering algorithm for query defined by deterministic STAs. Even though it succeeds to store only alive answer candidates, it consumes only PTIME per event and can- didate. This yields positive streamability results for classes of queries defined by deterministic STAs. The precise streamability notion here relies on a new ma- chine model that we call streaming random access machines (SRAMs), and on the number of concurrently alive candidates of a query. We also show that bounded concurrency is decidable in PTIME for queries defined by deterministic STAs. Our proof is by reduction to bounded valuedness of recognizable tree relations. Concerning the W3C standard query language XPath, we first show that small syntactic fragments are not streamable except if P=NP. The problematic features are non-determinism in combination with nesting of and/or operators. We define fragments of Forward XPath with schema assumptions that avoid these aspects and prove them streamable by PTIME compilation to deterministic STAs. Titre en Anglais Streaming Tree Automata and XPath Mots cles´ en Anglais XML streams, queries, trees, automata, XPath. Contents 1 Introduction 1 1.1 Background............................. 1 1.2 Motivations ............................. 4 1.3 Contributions ............................ 8 1.4 StateoftheArt ........................... 10 1.5 Outline ............................... 19 1.6 Author’sPublications . 19 2 Schemas and Query Languages 23 2.1 UnrankedTreesandLogics. 23 2.1.1 TreesandBinaryEncodings . 24 2.1.2 FOandMSOLogics . .. .. .. .. .. 26 2.1.3 TreeAutomata ....................... 30 2.2 Schemas............................... 33 2.2.1 DocumentTypeDefinition . 33 2.2.2 ExtendedDocumentTypeDefinition.

Streaming Tree Automata and Xpath Olivier Gauwin

Data Streams and Applications in Computer Science

Efficient Semi-Streaming Algorithms for Local Triangle Counting In

Streaming Quantiles Algorithms with Small Space and Update Time

Turnstile Streaming Algorithms Might As Well Be Linear Sketches

Finding Graph Matchings in Data Streams

Lecture 1 1 Graph Streaming

Streaming Algorithms

A Complete Bibliography of Publications in the Journal of Computer and System Sciences

Anytime Algorithms for Stream Data Mining

Regular Path Query Evaluation on Streaming Graphs

Stochastic Streams: Sample Complexity Vs. Space Complexity

A Temporal Logic Approach to Information-Flow Control