Privacy-Preserving Linked Data Integration Rémy Delanaux

Privacy-Preserving Linked Data Integration Rémy Delanaux To cite this version: Rémy Delanaux. Privacy-Preserving Linked Data Integration. Databases [cs.DB]. Université de Lyon, 2019. English. NNT : 2019LYSE1303. tel-02519804v2 HAL Id: tel-02519804 https://tel.archives-ouvertes.fr/tel-02519804v2 Submitted on 31 Mar 2020 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Numéro d’ordre NNT : 2019LYSE1303 THÈSE de DOCTORAT DE L’UNIVERSITÉ DE LYON Opérée au sein de l’Université Claude Bernard Lyon 1 Ecole Doctorale 512 École Doctorale en Informatique et Mathématiques de Lyon Spécialité de doctorat : Informatique Soutenue publiquement le 13 décembre 2019, par : Rémy DELANAUX Intégration de données liées respectueuse de la confidentialité Privacy-Preserving Linked Data Integration Devant le jury composé de : M. Hamamache KHEDDOUCI Président de Jury - Examinateur Professeur, Université Claude Benard Lyon 1 M. Nicolas ANCIAUX Examinateur Directeur de Recherche, INRIA Saclay Île-de-France M. Benjamin NGUYEN Rapporteur Professeur, INSA Centre-Val de Loire Mme. Nathalie PERNELLE Examinatrice Maîtresse de conférence HDR, Université Paris-Sud Mme. Hala SKAF-MOLLI Rapporteure Maîtresse de conférence HDR, Université de Nantes Mme. Angela BONIFATI Directrice de thèse Professeure, Université Claude Bernard Lyon 1 Mme. Marie-Christine ROUSSET Co-Directrice de thèse Professeure, Université Grenoble-Alpes M. Romuald THION Co-Directeur de thèse Maître de conférences, Université Claude Bernard Lyon 1 Université Claude Bernard – LYON 1 Président de l’Université M. Frédéric FLEURY Président du Conseil Académique M. Hamda BEN HADID Vice-Président du Conseil d’Administration M. Didier REVEL Vice-Président du Conseil des Etudes et de la Vie Universitaire M. Philippe CHEVALLIER Vice-Président de la Commission de Recherche M. Jean-François MORNEX Directeur Général des Services M. Damien VERHAEGHE COMPOSANTES SANTE Faculté de Médecine Lyon-Est – Claude Bernard Doyen : M. Gilles RODE Faculté de Médecine et Maïeutique Lyon Sud Charles. Mérieux Doyenne : Mme Carole BURILLON UFR d’Odontologie Doyenne : Mme Dominique SEUX Institut des Sciences Pharmaceutiques et Biologiques Directrice : Mme Christine VINCIGUERRA Institut des Sciences et Techniques de la Réadaptation Directeur : M. Xavier PERROT Département de Formation et Centre de Recherche en Biologie Humaine Directrice : Mme Anne-Marie SCHOTT COMPOSANTES & DEPARTEMENTS DE SCIENCES & TECHNOLOGIE UFR Biosciences Directrice : Mme Kathrin GIESELER Département Génie Electrique et des Procédés (GEP) Directrice : Mme Rosaria FERRIGNO Département Informatique Directeur : M. Behzad SHARIAT Département Mécanique Directeur M. Marc BUFFAT UFR - Faculté des Sciences Administrateur provisoire : M. Bruno ANDRIOLETTI UFR (STAPS) Directeur : M. Yannick VANPOULLE Observatoire de Lyon Directrice : Mme Isabelle DANIEL Ecole Polytechnique Universitaire Lyon 1 Directeur : Emmanuel PERRIN Ecole Supérieure de Chimie, Physique, Electronique (CPE Lyon) Directeur : Gérard PIGNAULT Institut Universitaire de Technologie de Lyon 1 Directeur : M. Christophe VITON Institut de Science Financière et d’Assurances Directeur : M. Nicolas LEBOISNE ESPE Administrateur Provisoire : M. Pierre CHAREYRON Foreword Acknowledgements First and foremost, I would like to deeply thank Hala Skaf-Molli and Benjamin Nguyen for accepting to review my thesis. And I would also like to thank Nathalie Pernelle, Nicolas Anciaux, and Hamamache Kheddouci for being part of my Ph.D. committee. Then, I would obviously like to thank my three advisors for this Ph.D. thesis: An- gela Bonifati and Romuald Thion at the LIRIS in Lyon, and Marie-Christine Rousset at the LIG in Grenoble. Their mentorship and their insight allowed me to present this manuscript today, and encouraged me until the end. Their patience, their trust, and their collaboration in my work have always been a huge helping hand, and I cannot be grateful enough. I would also like to thank every member of the BD team at the LIRIS, whose daily support was very much appreciated. I also want to thank many other members and staff from the lab, notably Catherine Lombardi for her help in any administrative in- quiry, and Pierre-Antoine Champin for his support regarding my teaching activities. More pragmatically, I would also like to thank the Région Rhône-Alpes for providing the funding for this Ph.D. in 2016. A Ph.D. would not be a good experience without other Ph.D candidates. As such, I would like to warmly thank the many doctoral students with whom I shared those 3 years, sometimes even sharing offices, and who were always welcoming, support- ive, and kind. In particular, I would like to thank those colleagues-turned-friends: Arthur, Maxime, Valentin, Alexis, Marc, Charles, Antoine W., Antoine D., Thibault, Julia, Matthieu, Jocelyn, Agathe, Alice, Samuel, Thomas, and all the others. It is unusual, but I would also like to thank my closest online friends. While they were not often physically there to support me, their daily support and relief was so beneficial that I have to mention them. Louis, Kevin, Maxime, Gaétan, Arqa, Victor, Ammar, and everybody I forgot, thank you so much for enduring my rants and remarks on various social networks and for being available even in the middle of night to discuss just about anything. Finally, I am obviously indebted with gratitude towards my parents and my brother for their support through thick and thin. ii Résumé étendu en français Sujet et motivations Cette thèse porte sur la rencontre entre deux secteurs clés de la gestion de données sur Internet : la confidentialité et protection de données sensibles, et le Linked Open Data (ou « LOD », en français « web des données ouvertes » ou encore « données liées ouvertes »). Le but est alors de concevoir, théoriser et développer des solutions d’anonymisation de données dans ce contexte précis du LOD avec son contexte et ses standards techniques. Ces données liées sont structurées sous forme de graphes RDF (pour Resource De- scription Framework) structurant l’information en triplets (sujet / propriété / objet), à la différence de données relationnelles par exemple. S’il existe déjà de nombreuses techniques d’assainissement de jeux de données contenant des informations sensibles, elles ne s’appliquent pas ou difficilement aux graphes RDF du LOD et tiennent pas compte de politiques de confidentialités associés à cette structure. Il convient ainsi d’avancer l’état de l’art à cette rencontre de domaines, pour le moment assez maigre [Grau16, Heitmann17]. Ceci doit être fait proposant de nouvelles méthodes pour as- surer l’anonymité et la sécurité d’ensembles de données, en garantissant le maximum d’utilité pour les données anonymisées, le tout dans un format structuré, standardisé et beaucoup utilisé notamment au niveau institutionnel. Elle s’inscrit dans un contexte où la confidentialité des données est devenu un aspect crucial dans le monde des donées (publiques comme privées), comme démontré par les réglements internationaux mis en place à ce sujet tel le Règlement Général sur la Protection des Données (RGPD) eu- ropéen. Cette thèse est soutenue par le financement ARC 6 (« T.I.C. et Usages Informatiques Innovants ») de la région Auvergne-Rhône-Alpes. Formalisation de concepts pour la confidentialité de graphes du LOD En premier lieu, il convient de définir la confidentialité de données dans un tel contexte, à la fois sur la formalisation de garanties de confidentialité et d’utilité, mais aussi d’opérateurs applicables pour pouvoir les garantir. Traditionnellement, on considère des champs de données appelés identifiants qui identifient directement une personne ou une information, sans information externe et des quasi-identifiants, pouvant agir comme identifiants quand ils sont recoupés avec des informations tierces. Ces deux types d’attributs sont les éléments visés au sein de processus d’anonymisation comme la k-anonimity et ses dérivés [Sweeney02b, Machanavajjhala07, Li07] dont le but est de rendre indistinguable une entrée de k − 1 autres, possédant les mêmes valeurs pour leurs quasi-identifiants. Avec une structuration en triplets RDF, cette décomposition ne se fait pas naturellement et implique beaucoup de pertes : de nombreuses requêtes ne iii retourneront plus les résultats escomptés sur les graphes anonymisés. Ces méthodes ne permettent donc pas de bénéficier pas d’une bonne utilité des données. Une autre famille de méthodes concerne la confidentialité différentielle (differential privacy), dont le but est de préserver l’intégrité statistique globale d’un ensemble de données, en intro- duisant du bruit modifiant des entrées individuelles. Toutefois, pour des requêtes non- statistiques, ces méthodes ne fournissent qu’une utilité moindre. En effet, si les résul- tats de fonctions mathématques peuvent être facilement préservés (somme, moyennes, espérance...), ce n’est pas le cas pour des requêtes ayant pour but de récupérer des informations précises (ce qui est souvent le cas dans le Web Sémantique qui porte avant tout un aspect institutionnel et culturel

Load more