Bayesian Statistical Inference for Intractable Likelihood Models Louis Raynal
Total Page:16
File Type:pdf, Size:1020Kb
Bayesian statistical inference for intractable likelihood models Louis Raynal To cite this version: Louis Raynal. Bayesian statistical inference for intractable likelihood models. Statistics [math.ST]. Université Montpellier, 2019. English. NNT : 2019MONTS035. tel-02445937 HAL Id: tel-02445937 https://tel.archives-ouvertes.fr/tel-02445937 Submitted on 20 Jan 2020 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. THÈSE POUR OBTENIR LE GRADE DE DOCTEUR DE L’UNIVERSITÉ DE MONTPELLIER En Biostatistique École doctorale I2S - Information, Structures, Systèmes Unité de recherche UMR 5149 - IMAG - Institut Montpelliérain Alexander Grothendieck Inférence statistique bayésienne pour les modélisations donnant lieu à un calcul de vraisemblance impossible Présentée par Louis RAYNAL Le 10 septembre 2019 Sous la direction de Jean-Michel MARIN Devant le jury composé de Mark BEAUMONT Professeur University of Bristol Rapporteur Michael BLUM Directeur de recherche Université de Grenoble Alpes Rapporteur Alice CLEYNEN Chargée de recherche Université de Montpellier Examinatrice Raphael LEBLOIS Chargé de recherche CBGP - INRA Montpellier Examinateur Jean-Michel MARIN Professeur Université de Montpellier Directeur de thèse Anne PHILIPPE Professeure Université de Nantes Présidente du jury Remerciements Je remercie mon directeur de thèse, Jean-Michel, pour son encadrement lors de ces trois années, mais également pour les nombreux moments de rire et de travail ! Un grand merci pour avoir réussi à me garder motivé même quand rien n’allait ! C’est un plaisir d’avoir travaillé avec vous ! Merci à Mark Beaumont et Michael Blum pour avoir accepté de rapporter ce manuscrit, ainsi qu’à Anne Philippe, Alice Cleynen et Raphael Leblois pour avoir accepté de faire partie du jury. Merci à mes nombreux collaborateurs : Arnaud qui a attisé mon intérêt pour la génétique des populations, ainsi que Marie-Pierre. J’ai beaucoup apprécié nos nombreux échanges qui ont été très bénéfiques. Erwan et Gérard pour les nombreuses tentatives sur les forêts locales. Mathieu, Christian et surtout Pierre, sans qui je n’aurai jamais commencé cette thèse si tu ne m’avais pas proposé ce fameux stage un été, portant sur l’ABC. Finalement, à nouveau Alice, merci pour ton soutien constant mais aussi et surtout lors de la dernière ligne droite ! Un merci aux nombreux doctorants et post-doctorants qui ont contribué à la bonne ambiance du laboratoire, sans prise de tête : Matthieu, Amina, Robert, Pas- cal... pour n’en citer que quelques uns, mais aussi aux nombreux chercheurs/ingénieurs, notamment Jean-Noël et Sophie lors des comités de suivi individuel, ainsi que François-David avec qui j’ai beaucoup aimé échanger et Elodie pour cette très bonne expérience d’enseignement. Merci à Nathalie, Sophie, Laurence, Carmela, Eric et Bernadette pour leur travail administratif. Mention spéciale à Natalie, bien que tu ne sois pas là depuis très longtemps j’ai beaucoup aimé discuter avec toi. Ismaël, depuis le temps qu’on se connaît, tu as toujours eu pleinement confiance en moi ! Merci beaucoup ! Merci aussi à Alexia, pour les nombreuses soirées et mo- ments de fun, bonne continuation à toi ! Merci à Matthieu, Lily et Florent pour ces années de master et d’avoir maintenu le contact ensuite, ces nombreux moments de retrouvailles et de rires. Je vous souhaite le meilleur pour la suite ! Merci à Diana, Laure et Elena de l’atelier des pelotes, pour tous ces ateliers et activités qui m’ont changés les idées, ainsi qu’à Marie-Carmen, Christine, Françoise et Kaori avec qui j’ai bien ri en faisant du crochet et en dégustant des smoothies. Évidement, un immense merci à ma famille, pour votre soutien constant, maman et papa, Adèle, Léon, Jules, Pauline, Delphine, Bernard, Brigitte, Martine, Géralde et Jaqueline. Une pensée pour Solange et Kenneth. Vous avez tous toujours été à 5 mes côtés (même si ce que je fais doit vous paraître un peu obscur haha), merci encore ! Finalement, merci aux co-bureaux (source très importante de motivation). Mario pour sa bonne humeur et son humour décalé, Benjamin pour son accompagnement lors de toutes ces conf’ sans qui elles auraient été bien moins drôles ! Un immense merci à Jocelyn, tu m’as accompagné pendant plus de trois ans, nous avons bien ri, tu m’as remonté le moral dans les pires moments et, dans les hauts comme dans les bas, ta présence a été essentielle au bon déroulement de la rédaction et de la thèse tout simplement ! 6 Résumé long de la thèse Les méthodes d’inférence statistique les plus courantes se basent bien souvent sur le calcul de la fonction de vraisemblance associée aux données observées. C’est par exemple le cas du maximum de vraisemblance ou encore de stratégies bayésiennes. Cependant, la complexité grandissante des modèles statistiques peut donner lieu à une vraisemblance incalculable. En effet, pour de nombreux domaines d’application, la modélisation de structures de données complexes nécessite l’utilisation de modèles pour lesquels l’expression de la vraisemblance n’est pas forcément disponible sous forme analytique, ou bien son évaluation n’est pas faisable en un temps raisonnable. Les méthodes classiques sont alors inutilisables. Étant donné un modèle paramétré par un vecteur θ, il y a deux situations no- tables pour lesquelles la vraisemblance f(y j θ) est non disponible. La première survient lorsque le modèle contient des données non-observées, il s’agit de variables latentes u. Il est alors nécessaire d’intégrer sur toutes ses valeurs pos- sibles pour obtenir f(y j θ), ce qui peut être infaisable lorsque u est de grande dimension. Ce cas arrive par exemple pour des problèmes de génétique des popula- tions, sous le modèle de coalescence de Kingman (1982a), où les données génétiques au temps présent dépendent de l’histoire non-observée des individus échantillonnés. La deuxième situation que l’on peut évoquer est lorsque la vraisemblance f(y j θ) nécessite le calcul d’une constante de normalisation qui est incalculable. En effet, la grande dimension de y peut rendre son calcul difficile car il est nécessaire d’in- tégrer/sommer sur toutes ses valeurs possibles. Cela arrive par exemple lorsque des données de réseaux sont modélisées par un modèle de graphe aléatoire exponentiel, ou encore pour les champs aléatoires de Markov. Durant cette thèse, nous nous concentrons sur le premier cas de figure, avec des applications à la génétique des populations. De nombreuses stratégies ont été développées en réponse au problème de vraisem- blance incalculable. On retrouve par exemple l’algorithme Espérance-Maximisation (EM, Dempster et al., 1977), les méthodes de vraisemblances composites (Lindsay, 1988 ; Varin et al., 2011), d’inférence indirectes (Gourieroux et al., 1993 ; Smith, 1993) ou encore les approches de Calcul Bayésien Approché (ABC, Beaumont, Zhang et al., 2002 ; Marin, Pudlo, Robert et al., 2012 ; Sisson, Fan et Beaumont, 2018). Cette thèse s’intéresse à cette dernière solution qui est très flexible car elle contourne le calcul de la vraisemblance en utilisant uniquement des simulations selon le modèle considéré. En effet, bien que l’expression de f(y j θ) soit non calculable 7 ou difficile à approximer, il est souvent plus aisé de générer des données selon le modèle, conditionnellement à des valeurs de paramètres fixées. Pour cette raison, un tel modèle est aussi mentionné sous le terme “génératif”. C’est à travers les travaux de Tavaré et al. (1997), Weiss et von Haeseler (1998), Pritchard et al. (1999) et Beaumont, Zhang et al. (2002) que l’ABC est apparu. Ini- tialement développé pour des problèmes de génétique des populations, il est mainte- nant utilisé dans de nombreux autres domaines tels que l’épidémiologie (Rodrigues, Francis et al., 2018), l’écologie (Fasiolo et Wood, 2018), la médecine (Fan et al., 2018). L’ABC se base sur la comparaison entre données simulées et observées. Dans un premier temps, un paramètre θ0 est simulé selon une loi a priori. Conditionnel- lement à θ0, une pseudo-donnée x est générée selon le modèle génératif, et compa- rée à l’observation y. Si la distance entre x et y est assez faible, le paramètre θ0 est conservé. Ce processus de simulation-comparaison est répété un grand nombre de fois. Alors que l’objectif de nombreuses stratégies bayésiennes est d’obtenir un échantillon selon la loi a posteriori π(θ j y), l’ABC génère un échantillon selon une approximation de celle-ci, et ce pour deux raisons. Tout d’abord, pour faciliter leurs comparaisons, les données sont projetées dans un espace de plus faible dimension au travers d’un ensemble de résumés statistiques, qui ne sont pas forcément exhaustifs. Ensuite, un seuil de tolérance est utilisé pour spécifier si oui ou non la distance entre les résumés simulés et observés est suffisamment faible. Ainsi, la majorité des méthodes ABC dépend du choix judicieux d’une distance, d’un seuil de similarité et d’un ensemble de résumés statistiques. Une grande partie de la littérature s’intéresse à ces choix, en particulier concer- nant les résumés statistiques qui doivent être peu nombreux tout en étant suffi- samment informatifs, dans le but d’éviter le fléau de la dimension. De nombreux efforts ont été fournis face à cette difficulté (voir par exemple Blum, Nunes et al., 2013 ; Prangle, 2018). De plus, des approches ABC ont été développées dans le but de pallier ces problèmes de réglage.