Combined Complexity of Probabilistic Query Evaluation Mikaël Monet
Total Page:16
File Type:pdf, Size:1020Kb
Combined Complexity of Probabilistic Query Evaluation Mikaël Monet To cite this version: Mikaël Monet. Combined Complexity of Probabilistic Query Evaluation. Databases [cs.DB]. Univer- sité Paris-Saclay, 2018. English. tel-01963559 HAL Id: tel-01963559 https://hal.inria.fr/tel-01963559 Submitted on 21 Dec 2018 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Combined Complexity of Probabilistic Query BNNT : 2018SACLT003 Evaluation Thèse de doctorat de l’Université Paris-Saclay préparée à Télécom ParisTech École doctorale n◦ 580 STIC Spécialité de doctorat : informatique Thèse présentée et soutenue à Télécom ParisTech, le 12 octobre 2018, par Mikaël Monet Composition du jury : Antoine Amarilli Maître de Conférences, Télécom ParisTech Directeur de thèse Florent Capelli Maître de Conférences, Université de Lille Examinateur Georg Gottlob Professor, University of Oxford Rapporteur Benny Kimelfeld Associate Professor, Technion Rapporteur Dan Olteanu Professor, University of Oxford Examinateur Pierre Senellart Professeur, ENS, Université PSL Directeur de thèse Cristina Sirangelo Professeure, Université Paris-Diderot Présidente Emmanuel Waller Maître de Conférences, Université Paris Sud 11 Examinateur Thèse de doctorat Thèse Abstract Query evaluation over probabilistic databases (probabilistic query evaluation or PQE) is known to be intractable in many cases, even in data complexity, i.e., when the query is fixed. Although some restrictions of the queries and instances have been proposed to lower the complexity, these known tractable cases usually do not apply to combined complexity, i.e., when the query is not fixed. My thesis investigates the question of which queries and instances ensure the tractability of PQE in combined complexity. My first contribution is to study PQE of conjunctive queries on binary signatures, which we rephrase as a probabilistic graph homomorphism problem. We restrict the query and instance graphs to be trees and show the impact on the combined complexity of diverse features such as edge labels, branching, or connectedness. While the restrictions imposed in this setting are quite severe, my second contribution shows that, if we are ready to increase the complexity in the query, then we can evaluate a much more expressive language on more general instances. Specifically, we show that PQE for a particular class of Datalog queries on instances of bounded treewidth can be solved with linear complexity in the instance and doubly exponential complexity in the query. To prove this result, we use techniques from tree automata and knowledge compilation. The third contribution is to show the limits of some of these techniques by proving general lower bounds on knowledge compilation and tree automata formalisms. L’évaluation de requêtes sur des données probabilistes (probabilistic query evalua- tion ou PQE) est généralement très coûteuse en ressources et ce même à requête fixée. Bien que certaines restrictions sur les requêtes et les données aient été proposées pour en diminuer la complexité, les résultats existants ne s’appliquent pas à la complexité combinée, c’est-à-dire quand la requête n’est pas fixe. Ma thèse s’intéresse à la question de déterminer pour quelles requêtes et données l’évaluation probabiliste est faisable en complexité combinée. La première contribution de cette thèse est d’étudier PQE pour des requêtes conjonctives sur des schémas d’arité 2. Nous imposons que les requêtes et les données aient la forme d’arbres et montrons l’importance de diverses caractéristiques telles que la présence d’étiquettes sur les arêtes, les bifurcations ou la connectivité. Les restrictions imposées dans ce cadre sont assez sévères, mais la deuxième contribution de cette thèse montre que si l’on est prêts à augmenter la complexité en la requête, alors il devient possible d’évaluer un langage de requête plus expressif sur des données plus générales. Plus précisément, nous montrons que l’évaluation probabiliste d’un fragment particulier de Datalog sur des données de largeur d’arbre bornée peut s’effectuer en temps linéaire en les données et doublement exponentiel en la requête. Ce résultat est prouvé en utilisant des techniques d’automates d’arbres et de compilation de connaissances. La troisième contribution de ce travail est de montrer les limites de certaines de ces techniques, en prouvant des bornes inférieures générales sur la taille de formalismes de représentation utilisés en compilation de connaissances et en théorie des automates. iii Remerciements Je souhaite remercier tous ceux qui, de près ou de loin, ont contribué à faire de ma thèse une expérience intéressante et enrichissante. Commençons par les deux personnes que je tiens le plus pour responsables du succès de cette aventure : mes deux directeurs de thèse, Pierre et Antoine. Lorsque je commençais mon stage de Master avec Pierre il y a un peu plus de trois ans, je n’avais aucune idée d’où je mettais les pieds. La principale raison pour laquelle j’avais choisi ce stage était qu’il se déroulait en partie à Singapour. Le lieu m’avait l’air exotique et le sujet vaguement intriguant, mais surtout je n’avais toujours pas purgé les deux mois à l’étranger que mon cursus aux Mines requérait. À part ça, je ne connaissais essentiellement rien au monde de la recherche, et rien à la théorie des bases de données. Pierre et Antoine m’ont introduit au domaine et à la communauté, et de manière générale ont su m’encadrer à la perfection. Ils ont toujours été disponibles lorsque j’avais besoin de conseils, que ce soit sur des questions de recherche, d’enseignement, d’informatique pratique (Linux, LATEX...), d’administratif, d’anglais, de carrière, de cuisine, de tourisme... J’ai énormément appris à leur côté et ai beaucoup apprécié travailler avec eux. Je resterai toujours impressionné par leur efficacité visiblement sans limites, leur culture générale dense et variée, leur professionnalisme, et leur bienveillance ; Pierre, Antoine, vous êtes pour moi de véritables modèles. Je remercie également mes (autres) co-auteurs : Silviu Maniu, avec qui nous avons beaucoup discuté tentacules, Pierre Bourhis, qui m’a souvent donné de précieux avis sur la recherche, et Dan Olteanu, qui m’a invité faire un stage de trois mois avec lui à Oxford qui m’a beaucoup plu. Cette thèse n’aurait pas pu être soutenue sans l’accord des membres de mon jury, qui ont bénévolement accepté la responsabilité de juger ces trois ans de travail. Je les remercie tous pour leur temps, et (un peu) plus particulièrement mes deux rapporteurs, Benny et Georg, qui ont méticuleusement relu le manuscrit et m’ont donné l’occasion de l’améliorer. Je sais en effet à quel point relire et commenter un texte d’informatique théorique peut être long et laborieux. Quand ce n’était pas la science qui me poussait hors de mon lit pour aller à Télécom le matin, c’était souvent la perspective de discussions stimulantes et parfois improbables avec les membres de l’équipe. Je pense évidemment à Jean-Benoît (sans qui cette thèse serait sans doute trop grosse), Oana, Luis, Marie, Marc, Miyoung, Pierre-Alexandre, Julien, Fabian, Nicoleta, Jacob, Ziad, Atef, les deux Thomas, Mostafa, Katerina, Quentin, Maroua, Camille, Mauro, Jean-Louis, Jonathan, et à tous ceux qui sont passés plus brièvement à DBWeb. L’ambiance de cette équipe était exceptionnelle. Je remercie aussi mes (autres) amis, ceux que j’ai vu régulièrement pendant ma thèse tout comme ceux que je vois plus rarement. Yvon, Denis, Thibaut, Emmanuel, Adrien, Gaël, Julien, Damien, Éléonore, Antoine, Alexandre, Myriam, Maxence, Camille, Claire, Jean-Charles, Charles, Laurent, Mélanie, Nicolas, Pierre, Pablo et Solange (Oxford c’était cool en grande partie grâce à vous !), Quentin, Loïc, Benoît, Emmanuel, les deux Tom, Caroline, Maëlig, Pierre, Olivier, et Théo : il y aurait beaucoup à raconter et j’oublie certainement des noms, et même si cela n’a pas v forcément de rapport avec cette thèse je tiens à vous dire que suis content de vous avoir rencontrés et de côtoyer chacun de vous. Un peu moins personnellement, j’accorde une pensée à Télécom et Inria pour avoir financé ma thèse et les nombreux voyages que j’ai eu la chance de faire dans ce cadre : Singapour, San Francisco, Nice, Chicago, Oxford, Venise, Stockholm, Londres, Vienne, Cali, et Bucarest. Je suis reconnaissant envers toute ma famille pour leur soutient inébranlable depuis ma naissance. Je pense en particulier à mes parents, qui ont toujours fait en sorte que je ne manque de rien, qui m’ont donné des racines et des ailes, et qui m’ont aussi donné une merveilleuse petite sœur, Marlène. Contrairement aux amis, pas besoin de lister le reste de la famille ici, normalement ils savent qui ils sont :) Merci à vous d’être présents dans ma vie. Avoir eu l’occasion lors de ma soutenance de vous raconter un peu mieux ce que j’ai fait pendant ces trois ans m’a rempli de joie. Enfin, je m’adresserai à celle qui partage ma vie depuis maintenant quatre ans. Nelly, je suis heureux d’avoir traversé cette étape à tes côtés, et c’est en grande partie grâce à toi que j’en suis arrivé au bout en un seul morceau. Tous ces voyages ont plus de sens lorsque tu es avec moi, et j’attends avec impatience le début de notre nouvelle aventure au Chili ! Table of Contents Abstract iii Remerciementsv Table of Contents vii General Introduction1 Limits of Combined Tractability of PQE..................