Harvesting Commonsense and Hidden Knowledge from Web Services Julien Romero
Total Page:16
File Type:pdf, Size:1020Kb
Harvesting commonsense and hidden knowledge from web services Julien Romero To cite this version: Julien Romero. Harvesting commonsense and hidden knowledge from web services. Artificial Intelli- gence [cs.AI]. Institut Polytechnique de Paris, 2020. English. NNT : 2020IPPAT032. tel-02979523 HAL Id: tel-02979523 https://tel.archives-ouvertes.fr/tel-02979523 Submitted on 27 Oct 2020 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Harvesting Commonsense and Hidden Knowledge From Web Services Thèse de doctorat de l’Institut Polytechnique de Paris préparée à Télécom Paris École doctorale n◦626 École doctorale de l’Institut Polytechnique de Paris (ED IP Paris) NNT : 2020IPPAT032 Spécialité de doctorat: Computing, Data and Artificial Intelligence Thèse présentée et soutenue à Palaiseau, le 5 Octobre 2020, par Julien Romero Composition du Jury : Pierre Senellart Professor, École Normale Supérieure Président Tova Milo Professor, Tel Aviv University Rapporteur Katja Hose Professor, Aalborg University Rapporteur Michael Benedikt Professor, University of Oxford Examinateur Andrea Calì Professor, University of London, Birkbeck College Examinateur Meghyn Bienvenu Full-Time CNRS Researcher, University of Bordeaux (LaBRI) Examinateur Fabian Suchanek Professor, Télécom Paris Directeur de thèse Nicoleta Preda Associate Professor, University of Versailles Co-directeur de thèse Antoine Amarilli Associate Professor, Télécom Paris Invité 626 ii Harvesting Commonsense and Hidden Knowledge From Web Services Julien Romero 5 Octobre 2020 À mon grand-père Abstract In this thesis, we harvest knowledge of two different types from online resources. The first one is commonsense knowledge, i.e. intuitive knowledge shared by most people like “the sky is blue”. We extract salient statements from query logs and question-answering sites by carefully designing question patterns. Next, we validate our statements by querying other web sources such as Wikipedia, Google Books, or image tags from Flickr. We aggregate these signals to create a final score for each statement. We obtain a knowledge base, Quasimodo, which, compared to its competitors, has better precision and captures more salient facts. The other kind of knowledge we investigate is hidden knowledge, i.e. knowledge not directly given by a data provider. More concretely, some Web services allow accessing the data only through predefined access functions. To answer a user query, we have to combine different such access functions, i.e. we have to rewrite the query in terms of the functions. We study two different scenarios: In the first scenario, the access functions have the shape of a path, the knowledge base respects constraints called “Unary Inclusion Dependencies”, and the query is atomic. We show that the problem is decidable in polynomial time, and we provide an algorithm with theoretical evidence. In the second scenario, we remove the constraints and create a new class of relevant plans called “smart plans”. We show that it is decidable to find these plans, and we provide an algorithm. iii iv Remerciements On ne prend jamais assez de temps pour remercier les gens qui nous sont chers et qui nous aident à aller de l’avant. Un simple merci me paraît trop ordinaire, mais nul autre mot ne semble assez fort. Toutes ces personnes donnent un sens à nos actions et à nos choix: elles mériteraient autant que moi de figurer sur la première page de cette thèse. Bien sûr, il me serait impossible de ne pas parler de mes deux directeurs de thèse, Nicoleta et Fabian, sans qui aucun mot figurant ici n’aurait été possible. Venir faire ma thèse avec eux a complètement changé ma vie de bien des manières. Ils m’ont permis de m’épanouir librement et je sens qu’avec eux, je suis allé bien plus loin qu’un simple doctorat. Je remercie chaleureusement les rapporteuses Tova Milo et Katja Hose, ainsi que tous les membres du jury, Pierre Senellart, Michael Benedikt, Andrea Calì et Meghyn Bienvenu. Un été de ma thèse s’est déroulé au Max Planck Institute for Informatics à Saarbrucken, et je remercie Gehard Weikum de m’avoir accueilli dans son équipe, ainsi que Simon Razniewski et Koninika Pal qui m’ont grandement aidé dans mes travaux de recherche. Sans ma famille, jamais je ne serais arrivé jusqu’à la thèse. Ma mère, Catherine, a tout sacrifié pour moi, malgré les problèmes que nous avons rencontrés. Tout ce que je sais, c’est grâce à elle. Elle m’a fait découvrir la musique et les arts, elle a passé d’innombrables heures à m’accompagner dans mon éducation, elle a supporté mes études, ... Jamais je ne pourrais assez la remercier. Mon arrière-grand-mère a aussi beaucoup fait pour moi. Aujourd’hui encore, je me souviens que c’est elle qui m’a appris à lire. J’ai passé de nombreuses heures devant sa bibliothèque à éplucher chaque livre et devant sa télé à regarder C’est pas sorcier et les gendarmes de Saint-Tropez. J’ai beaucoup passé de temps avec mes grands-parents, Firmin et Monique, surtout durant les étés au bord de la mer. Ils m’ont toujours aidé dans tout ce que j’ai entrepris et j’espère que de là où il est, mon grand-père est fier de moi. Il y a aussi Thomas et Mélanie, mon frère et ma sœur qui ont traversé avec moi les tourments de l’enfance, mon beau-père, Jacques, qui s’est montré très aimant envers ma famille et enfin, je n’oublie pas ma tante Laurence et mon oncle Yann qui ont toujours cherché à aiguiser ma curiosité. Finalement, en même temps que j’ai commencé cette thèse, j’ai agrandi ma famille un peu plus. La plus grande de mes découvertes s’appelle Oana, et j’espère bien passer le reste de ma vie avec elle. Elle a toujours été à mes côtés au cours de ces trois dernières années, et m’a aidé à surmonter toutes les difficultés. Je sens v qu’à ses côtés rien ne peut m’arriver. Je pense aussi à tous les proches amis que j’ai pu avoir et avec qui j’ai passé de très bons moments. Je ne pourrai tous les nommer ici, mais je citerai Didier et tous les projets un peu fous de nous avons pu avoir, Jérémie et Daniel, qui ont partagé ma chambre en prépa et Victor, qui ne m’a pas quitté depuis la maternelle. La recherche ne se fait pas tout seul dans une chambre. DIG m’a accueilli pendant toute ma thèse, et je tiens à remercier tous ses membres: Albert, Armand, Arnaud, Camille, Etienne, Favia, Jacob, Jean-Benoît, Jean-Louis, Jonathan, Julien, Lihu, Louis, Marc (merci de m’avoir aidé dans tant de projets), Marie, Maroua, Mauro, Mikaël, Miy-oung, Mostafa, Nathan, Ned, Nicolas, Pierre-Alexandre, Quentin, Quentin, Samed, Talel, Thomas (le chef), Thomas (le grand frère doctorant), Thomas (le frère jumeau doctorant, qui a répondu à bien nombre de mes ques- tions) et Ziad. Je remercie particulièrement Antoine pour son aide précieuse sur bien des sujets. Merci aussi à tous les enseignants de Télécom et à tous mes élèves qui m’ont fait aimer transmettre mes connaissances. vi Contents 1 Introduction1 1.1 Motivation . .1 1.1.1 Information Jungle . .1 1.1.2 Knowledge Bases Structure Information . .2 1.1.3 A Brief History of Knowledge Bases . .3 1.1.4 Applications . .5 1.1.5 Accessing Knowledge Bases Through Web Services . .7 1.2 Contributions . .7 1.2.1 Harvesting Commonsense Knowledge Automatically . .7 1.2.2 Decidable, Polynomial and Equivalent Query Rewriting . .8 2 Preliminaries 11 2.1 Knowledge Bases . 11 2.1.1 Knowledge Representation . 11 2.1.2 Reasoning Over Knowledge Bases . 17 2.1.3 Defining Knowledge Bases . 18 2.2 Web Services . 18 2.2.1 Motivation and Definition . 18 2.2.2 Web Service Architectures . 19 3 Quasimodo: A Commonsense Knowledge Base 21 3.1 Introduction . 21 3.1.1 Motivation and Goal . 21 3.1.2 State of the Art and Limitations . 22 3.1.3 Approach and Challenges . 23 3.1.4 Contributions . 24 3.2 Related Work . 25 3.2.1 Commonsense Knowledge Bases (CSKB’s) . 25 3.2.2 Use Cases of CSK . 26 3.2.3 Information Extraction from Query Logs . 26 3.3 System Overview . 26 3.3.1 Candidate Gathering . 27 3.3.2 Corroboration . 27 3.3.3 Ranking . 27 3.3.4 Grouping . 27 3.4 Candidate Gathering . 28 vii CONTENTS 3.4.1 Data Sources . 28 3.4.2 Question Patterns . 29 3.4.3 From Questions to Assertions . 30 3.4.4 Output Normalisation . 30 3.4.5 Generation of New Subjects . 31 3.5 Corroboration . 32 3.5.1 Wikipedia and Simple Wikipedia . 32 3.5.2 Answer Snippets From Search Engine . 32 3.5.3 Google Books . 32 3.5.4 Image Tags From OpenImages and Flickr . 32 3.5.5 Captions From Google’s Conceptual Captions Dataset . 33 3.5.6 What Questions . 33 3.5.7 Classifier Training and Application . 33 3.6 Ranking . 35 3.6.1 The Plausibility-Typicality-Saliency Approach . 35 3.6.2 The Smoothed Plausibility-Typicality-Saliency Approach . 36 3.7 Grouping . 37 3.7.1 Soft Co-Clustering . 37 3.7.2 Tri-Factorisation of SO-P Matrix .