Efficient and Privacy-Preserving Compressive Learning

Eﬀicient and privacy-preserving compressive learning Antoine Chatalic To cite this version: Antoine Chatalic. Eﬀicient and privacy-preserving compressive learning. Machine Learning [cs.LG]. Université Rennes 1, 2020. English. NNT : 2020REN1S030. tel-03023287v2 HAL Id: tel-03023287 https://tel.archives-ouvertes.fr/tel-03023287v2 Submitted on 8 Jan 2021 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Thèse de doctorat de L’UNIVERSITÉ DE RENNES 1 École Doctorale n° 601 Mathématiques et Sciences et Technologies de l’Information et de la Communication Spécialité: Signal, Image, Vision Par Antoine CHATALIC Efficient and Privacy-Preserving Compressive Learning Thèse présentée et soutenue à Rennes, le 19 novembre 2020 Unité de recherche: IRISA Rapporteurs avant soutenance: Francis Bach Directeur de recherche − Inria Paris Lorenzo Rosasco Professeur − Université de Gênes Composition du Jury: Présidente: Magalie Fromont Renoir Professeure − Université de Rennes 2 Examinateurs: Francis Bach Directeur de recherche − Inria Paris Lorenzo Rosasco Professeur − Université de Gênes Jamal Atif Professeur − Université Paris-Dauphine Mike Davies Professeur − Université d’Édimbourg Marc Tommasi Professeur − Université de Lille Directeur de thèse: Rémi Gribonval Directeur de recherche − Inria Remerciements her lecteur, c’est peut-être de la haine que tu veux que j’invoque dans le commencement de cet ouvrage!». Que nenni, préci- «C sons d’emblée qu’une thèse peut se dérouler dans d’excellentes conditions. C’est pourquoi quelques remerciements s’imposent avant d’entrer dans le vif du sujet. En premier lieu, j’adresse tout naturellement mais néanmoins sin- cèrement mes remerciements à Rémi Gribonval pour la qualité de son encadrement tout au long de la thèse et sa disponibilité. Ses com- mentaires avisés ainsi que ses relectures détaillées furent d’une aide précieuse, cela est certain; j’ai toutefois également été impressionné par sa patience et son optimisme indéfectible; j’ai par ailleurs appré- cié sa capacité à prendre rapidement du recul là où j’en manquais cruellement − ce qui a certainement permis d’éviter quelques écueils. Je souhaite remercier tous les membres du jury de m’avoir fait l’hon- neur d’accepter d’évaluer mon travail, et en particulier Francis Bach et Lorenzo Rosasco qui, en tant que rapporteurs, ont dû lire avec une attention particulière ce manuscrit. Que Patrick Pérez et Frédéric Bimbot soient également remerciés pour avoir, au sein du comité de suivi individuel doctoral, partagé leur avis sur l’avancement des travaux et apporté un regard critique complémentaire et bienvenu. La partie III de ce manuscrit est le résultat d’une collaboration avec Phil Schniter et Evan Byrne (Ohio State University); je les remercie tous les deux de m’avoir accueilli pour quelques mois à Columbus, et d’avoir pris le temps de répondre à toutes mes questions. Cette mobilité a par ailleurs été possible grâce au soutien financier de l’OSU et du GdR MIA. La partie IV est, elle aussi, le fruit d’une collaboration. J’adresse par conséquent également des remerciements à Vincent Schellekens, avec qui la discussion fut initiée à Peyresq, ainsi qu’à Florimond Houssiau et Laurent Jacques avec qui ces travaux ont été réalisés. Ce fut un plaisir d’avancer sur ce sujet en votre compagnie! À Rennes, j’ai une pensée pour tous les panaméens qui ont su en- tretenir la vie d’équipe, que ce soit d’un point de vue scientifique ou simplement en contribuant à la bonne humeur générale. À cet égard, nos voisins situés un peu plus loin dans le couloir ne sauraient être oubliés! C’est sans aucun doute à la cafétéria que la science se diffuse le plus, et il convient donc de souligner l’importance des sempiternelles discussions sur la nature du chocolat, les tenseurs de lapins, la beauté 4 des monades et la redynamisation de l’eau par ondes cosmiques. Un merci également à tous ceux qui ont donné du temps et de l’énergie pour organiser la journée science et musique, car il y avait dans cette initiative, il me semble, également beaucoup de bonne volonté et de bonne humeur. Bien entendu, je n’oublie aucunement toutes les personnes avec qui j’ai partagé de très bons moments hors du labo pendant toutes ces années, que ce soit en soirée à Rennes, à l’escalade, autour de jeux de société, lors de concerts et de festivals en tous genres, ou encore d’esca- pades improvisées aux confins de la Bretagne et au delà. Je n’égrènerai pas vos noms ici, mais ne vous fourvoyez pas à croire que je vous oublie car il n’en est rien, bien au contraire! Je remercie ma famille pour le soutien constant qu’elle m’a apporté, et pour avoir toujours mis toutes les chances de mon côté pour que je puisse parvenir jusque là; il semblerait que cela n’ait pas si mal fonctionné. Enfin, j’adresse un remerciement teinté de tendresse et d’admiration à Katharina, avec qui j’ai partagé de nombreux moments ces dernières années, et qui m’a soutenu patiemment lors du confinement tandis que je reformulais un nombre exagéré de fois les phrases des chapitres à venir. Résumé des travaux en français e domaine de l’apprentissage automatique, qui s’intéresse aux techniques permettant d’apprendre un modèle mathématique à Note: This part contains a sum- mary in french of the manuscript. L partir d’une collection de données, a connu des avancées ful- The rest of the document is written gurantes ces dernières décennies. Parmi les multiples facteurs ayant in english, and the introduction can be found in Chapter 1. concouru au développement de ces méthodes, l’augmentation dras- tique des volumes de données produites, collectées et utilisées à des fins d’apprentissage figure en bonne position. L’invention du micropro- cesseur au début de la décennie 1970 et le processus de miniaturisation qui s’en est suivi ont en effet permis une augmentation exponentielle de la puissance de calcul disponible, mais également du nombre de 1 1 capteurs permettant d’enregistrer des données et des capacités de sto- Au sens large : instruments industriels ckage. Le développement d’internet et de la toile en particulier ont, à et scientifiques comme le LHC, ou encore terminaux mobiles multifonctions l’évidence, également contribué à accroître les volumes de données dis- et appareils photos numériques, dont la ponibles, et donc la pertinence statistique des modèles mathématiques démocratisation a aidé à perfectionner les techniques de vision par ordinateur. qui en sont issus. 2 2 Toutefois, et en dépit des progrès matériels , l’apprentissage à par- Augmentation des capacités de calcul à tir de vastes volumes de données reste une opération coûteuse en coût énergétique ou monétaire constant. temps comme en énergie, et qui requiert des investissements impor- tants. Ce manuscrit s’intéresse à l’apprentissage compressif, une tech- 3 3 nique introduite il y a quelques années qui consiste à compresser L’obtention de garanties d’apprentis- l’ensemble des données avant apprentissage. Plus précisément, le jeu sage est récente, bien que des techniques plus anciennes telles que la méthode des de données utilisé, que nous représentons ici comme une matrice moments généralisés [1] continssent déjà 푑×푛 des idées semblables. 퐗 = [퐱1, …, 퐱푛] ∊ R dont les colonnes correspondent à 푛 obser- vations numériques en dimension 푑, est compressé en une unique empreinte de la forme 푛 1 퐬̃ = ∑ Φ(퐱푖), (1) 푛 푖=1 où la fonction Φ est adaptée à la tâche d’apprentissage considérée, mais typiquement non linéaire et aléatoire. Un intérêt particulier est porté aux fonctions de la forme Φ ∶ 퐱 ↦ 휌(훀푇퐱) ∊ R푚 ou C푚, où 훀 ∊ R푑×푚 4 4 est une matrice aléatoire , et la fonction 휌 est scalaire, déterministe La matrice 훀 est tirée aléatoirement, et appliquée point à point. Le vecteur 퐬̃ peut alors être vu comme mais une unique fois et avant compres- sion, de sorte à ce que tous les échan- une collection de moments généralisés et aléatoires des données. Un √ tillons 퐱푖 soient compressés de la même exemple important consiste à choisir 휌 = exp(휄·) (où 휄 = −1), auquel manière. cas l’empreinte correspond à des échantillons aléatoires de la fonction 5 5 caractéristique empirique des données . Et donc de la transformée de Fourier En apprentissage statistique, une tâche d’apprentissage est repré- (inverse) de la densité de probabilité, lorsque celle-ci existe. sentée par une fonction de risque R(ℎ, 휋), qui mesure l’inadéquation du modèle mathématique ℎ vis-à-vis de la distribution de probabi- 6 lité 휋 pour la tâche en question. Résoudre le problème d’apprentissage revient donc à trouver un minimiseur du risque, le plus sou- vent au sein d’une famille de modèles H, i.e. on cherche à trouver ∗ ℎ ∊ arg minℎ∊H R(ℎ, 휋). La distribution sous-jacente 휋 des données est en général inconnue, mais il est en revanche possible d’utiliser la distribution empirique 휋 = 1 ∑푛 훿 associée aux données mesu- 퐗 푛 푖=1 퐱푖 rées, c’est à dire d’essayer de résoudre le problème d’optimisation minℎ∊H R(ℎ, 휋퐗); on parle alors de minimisation du risque empirique. Toutefois, évaluer R(ℎ, 휋퐗), même pour un unique modèle ℎ ∊ H, nécessite de parcourir les données dans leur intégralité, ce qui est coûteux et limite fortement l’utilité de cette méthode en pratique.

Load more