A Pattern Model and Algebra for Representing and Querying Relative Information Completeness

Sorbonne Université Laboratoire Informatique Paris 6 THÈSE DE DOCTORAT DISCIPLINE: INFORMATIQUE A Pattern Model and Algebra for Representing and Querying Relative Information Completeness par Fatma-Zohra HANNOU Rapporteurs: Nicole BIDOIT-TOLLU Professeur, Université Paris-Sud Dimitris KOTZINOS Professeur, Université Cergy Pontoise Examinateurs: Ladjel BELLATRECHE Professeur, ENSMA, Poitiers Laure BERTI-EQUILLE Professeur, Université Aix-Marseille Christophe MARSALA Professeur, Sorbonne Université Directeur de thèse: Bernd AMANN Professeur, Sorbonne Université Encadrant de thèse: Mohamed-Amine BAAZIZI MdC, Sorbonne Université ”Have no fear of perfection, you will never reach it.” Marie Skłodowska-Curie Nobel Prizes in Physics and Chemistry Abstract Information incompleteness is a major data quality issue which is amplified by the increasing amount of data collected from unreliable sources. Assessing the completeness of data is crucial for determining the quality of the data itself, but also for verifying the validity of query answers over incomplete data. While there exists an important amount of work on modeling data completeness, deriving this completeness information has not received much attention. In this work, we tackle the issue of extracting and reasoning about complete and missing information under relative information completeness setting. Under this setting, the completeness of a dataset is assessed with respect to a complete reference dataset. Few works have been dedicated to representing data completeness under this setting, and we advance the field by proposing two contributions: a pattern model for providing minimal covers summarizing the extent of complete and missing data partitions and a pattern algebra for deriving minimal pattern covers for query answers to analyze their validity. The completeness pattern framework presents an intriguing opportunity to achieve many applications, particularly those aiming at improving the quality of tasks impacted by missing data. In our work, we address the problem of repairing query results obtained from incomplete data. Data imputation is a well-known technique for repairing missing data values but can incur a prohibitive cost when applied to large data sets. Query-driven imputation offers a better alternative as it allows for fixing only the data that is relevant for a query. We adopt a rule-based query rewriting technique for imputing the answers of analytic queries that are missing or suffer from incorrectness due to data incompleteness. We present a novel query rewriting mechanism that is guided by the completeness pattern model and algebra. Our solution strives to infer the broadest possible set of missing answers while improving the precision of incorrect ones. In the last contribution, we investigate the generalization of our pattern model for summarizing any data fragments. The generalized pattern model can be used to produce pattern summaries of data fragments over any subset of attributes and these summaries can be queried to analyze and compare data fragments in a synthetic and flexible way. Keywords: Relative Information, Completeness Assessment, Pattern model, Pattern Algebra, Imputation, Summarization v Résumé L’incomplétude des données est un problème majeur de qualité qui s’amplifie par la quantité croissante de données collectées par des sources peu fiables. L’évaluation de l’exhaustivité des données est cruciale pour déterminer leur qualité mais aussi la validité des réponses de requêtes qui en découlent. Dans le contexte de l’information relative, la complétude d’une base de données est évaluée en comparaison à une base référence. Nous apportons deux principales contributions à ce domaine: un modèle de motifs produisant des couvertures minimales résumant l’étendue des partitions de données complètes et manquantes, ainsi qu’une algèbre de motifs permettant de dériver des couvertures minimales pour l’analyse de la validité des réponses des requêtes. Ce modèle de motifs offre une opportunité intéressante pour réaliser de nombreuses applications, en particulier celles visant à améliorer la qualité des tâches affectées par les données manquantes. Nous adoptons une technique de réécriture de requêtes à base de règles pour imputer les réponses des requêtes d’agrégation manquantes ou présentant des valeurs incorrectes. Nous étudions également la généralisation de notre modèle de motifs pour effectuer la synthèse des fragments de données. Les résumés peuvent être interrogés pour analyser et comparer les fragments de données de manière synthétique et flexible. Mots Clés: Information Relative, Complétude de données, Modèle de motifs, Algèbre de motifs, Imputation, Synthétisation vii Dédicaces À Nour-Filastine, Pour toutes les fois où je lisais en te berçant, Où je réfléchissais en te nourrissant, Où j’écrivais en te parlant, Pour toutes les fois où cette thèse a partagé nos petits moments, Pour toutes les fois où je t’ai demandé de m’aider sans que tu comprennes, Où sur ce document tu as tenté d’écrire sans que tu y parviennes. Après dieu, qui remercier si ce n’est toi, tu m’as appris le sens de la force, l’espoir, la détermination, l’amour... Peu de gens peuvent comprendre, mais tu m’as fait sourire lors de mes échecs, et pleurer de bonheur avec ton seul sourire... Les matins parisiens glacials, le son de ta poussette, tes larmes la nuit, la fièvre, les dents, tes pas, tes mots... Je pourrais écrire un livre juste pour te dire merci, pour tout ce que tu m’as apporté, mais peu de mots ressembleront à ce que je ressens. Ma chère fille, Depuis que tu es née, chaque jour, c’est pour toi que je m’interdisais de lâcher, Pour toi que je refusais d’abandonner, C’est pour toi ma chérie que maman a continuée, Pour qu’un jour tu saches que dans la vie, on ne laisse jamais tomber, Dans la vie il faut sans cesse repousser ses limites, Aujourd’hui, toutes les deux, nous l’avons fait.... Comme pour mes jours et mes nuits... je te dédie cette thèse Maman ix Remerciements J’exprime mon profond respect et ma parfaite gratitude envers mon directeur de thèse, Bernd Amann. D’abord, pour la qualité de ses conseils et directives scientifiques, ainsi que sa disponibilité malgré toutes ses responsabilités. Bernd n’a jamais économisé son temps pour me prodiguer ses précieux conseils, et débattre de mes idées. Au-delà de son expertise, je reste impressionnée par sa qualité d’écoute et sa capacité à mettre ses étudiants en confiance pour défendre leurs propositions. Je le remercie pour ses encouragements et sa confiance en moi, pendant toutes les périodes parfois difficiles de ma thèse. Bernd a toujours su me motiver, me pousser au-delà de mes limites, me rassurer quand la science se compliquait, et partager ma joie quand elle me souriait. Qu’il trouve ici l’expression de ma profonde reconnaissance. Je remercie également mon encadrant de thèse, Mohamed-Amine Baazizi, pour ses conseils scientifiques, ses relectures soignées, et sa participation aux travaux de recherche. Je remercie les professeurs Nicole Bidoit-Tollu et Dimitris-Kotzinos d’avoir accepté d’être les rapporteurs de mon manuscrit, et pour la qualité de leurs remarques malgré des délais serrés. Je remercie également tous les membres du Jury, pour m’avoir fait l’honneur d’assister à ma soutenance afin d’évaluer mon travail et me faire profiter de leur grande expertise. Je remercie l’équipe du projet Ebita, qui a permis de financer cette thèse, et ses membres qui ont participé à l’amorce de cette thèse, à enrichir le débat sur les problématiques scientifiques que j’ai traité. J’ai eu la chance d’avoir passé mes années de thèses au sein de l’équipe Base de Données du laboratoire LIP6, dans un environnement propice à l’apprentissage. J’ai beaucoup appris en côtoyant les talentueux chercheurs de mon équipe que je remercie pour leur accueil et convivialité. Je garderai de ma thèse les agréables souvenirs de nos riches discussions sur la science et parfois la vie, avec ou sans caféine... Merci à Anne, Camélia, Hubert, Li Ke et Stéphane. xi Quoi que j’ai pu accomplir dans ma modeste vie, j’ai trouvé à mes côtés une famille aimante et supportrice qui m’a toujours donné l’envie de persévérer. Je salue d’abord la mémoire de ma grande-mère qui m’a inculqué les plus belles valeurs, et donné les plus beaux exemples de courage. J’aurai aimé te dire que j’ai franchis une nouvelle étape, que dieu t’accueille dans son vaste paradis. Papa À mon héros, à celui qui m’a appris ce qu’aucune école ne m’a apprise, ni aucun livre ne m’a transmis, Merci pour tes sacrifices, ton amour, ta sagesse et ton soutien, Merci parce que tu m’as appris depuis mes premiers pas, comment grimper les plus hautes mon- tagnes et viser toujours plus loin que le ciel... Maman À ma fidèle supportrice et ma meilleure amie, merci pour ton amour inconditionnel et ton soutien indéfectible. Je sens tes prières avec chaque pas je mets en avant et tu me rassures plus que tout le monde dans mes moments de doutes. Je resterai à jamais ta fille qui ne grandira qu’aux yeux des autres... Ilhem, Meriem, Hadjer, Mouloud, Yasmine Même séparés de centaines de kilomètres, votre joie de vivre, votre énergie débordante et votre amour m’éclairent tous les jours, C’est vous que j’appelle toujours avant mes épreuves, et vous que j’appelle d’abord pour partager mes réussites, Peu importe où la vie nous mènent, je porterai nos promesses enfantines comme une étoile au cou, Ma fierté est sans égale... Mohammed Merci d’être mon pilier et mon repère, Pour tout ce qu’on a partagé ensemble, et ce qu’il nous reste à bâtir, Pour ton soutien, ta confiance, ton enthousiasme à l’égard de mes travaux, Merci pour la fierté sincère qui brille dans ton regard, Ensemble on ira aussi loin que nos rêves les plus fous..

Load more