ÉCOLE NATIONALE VÉTÉRINAIRE D’ALFORT

Année 2016

L'APPORT DE L'ANIMAL A L'ÉTUDE DE LA PRÉDISPOSITION GÉNÉTIQUE A LA LÈPRE CHEZ L'HOMME : UNE APPROCHE PAR GÉNOMIQUE COMPARATIVE

THÈSE

Pour le

DOCTORAT VÉTÉRINAIRE

Présentée et soutenue publiquement devant

LA FACULTÉ DE MÉDECINE DE CRÉTEIL

Le 26 janvier 2016

par Judith, Catherine, Marthe VERMANDEL Née le 20 septembre 1987 à Tours (Indre-et-Loire)

JURY

Président : Pr. Professeur à la Faculté de Médecine de CRÉTEIL

Membres Directeur : M. PANTHIER Jean-Jacques Professeur à l’ENVA Assesseur : M. TIRET Laurent Professeur à l’ENVA

Mai 2015 LISTE DES MEMBRES DU CORPS ENSEIGNANT Directeur : M. le Professeur GOGNY Marc Directeurs honoraires : MM. les Professeurs : COTARD Jean-Pierre, MIALOT Jean-Paul, MORAILLON Robert, PARODI André-Laurent, PILET Charles, TOMA Bernard. Professeurs honoraires : Mme et MM. : BENET Jean-Jacques, BRUGERE Henri, BRUGERE-PICOUX Jeanne, BUSSIERAS Jean, CERF Olivier, CHERMETTE René, CLERC Bernard, CRESPEAU François, M. COURREAU Jean-François, DEPUTTE Bertrand, MOUTHON Gilbert, MILHAUD Guy, POUCHELON Jean-Louis, ROZIER Jacques.

DEPARTEMENT D’ELEVAGE ET DE PATHOLOGIE DES EQUIDES ET DES CARNIVORES (DEPEC) Chef du département : M. GRANDJEAN Dominique, Professeur - Adjoint : M. BLOT Stéphane, Professeur

UNITE DE CARDIOLOGIE DISCIPLINE : NUTRITION-ALIMENTATION - Mme CHETBOUL Valérie, Professeur * - M. PARAGON Bernard, Professeur - Mme GKOUNI Vassiliki, Praticien hospitalier DISCIPLINE : OPHTALMOLOGIE - Mme SECHI-TREHIOU Emilie, Praticien hospitalier - Mme CHAHORY Sabine, Maître de conférences UNITE DE CLINIQUE EQUINE - M. AUDIGIE Fabrice, Professeur UNITE DE PARASITOLOGIE ET MALADIES PARASITAIRES - Mme BERTONI Lélia, Maître de conférences contractuel - M. BLAGA Radu Gheorghe, Maître de conférences (rattaché au DPASP) - Mme BOURZAC Céline, Maître de conférences contractuel - Mme COCHET-FAIVRE Noëlle, Praticien hospitalier - M. DENOIX Jean-Marie, Professeur - M. GUILLOT Jacques, Professeur * - Mme GIRAUDET Aude, Praticien hospitalier * - Mme MARIGNAC Geneviève, Maître de conférences - Mme MESPOULHES-RIVIERE Céline, Praticien hospitalier - M. POLACK Bruno, Maître de conférences - Mme TRACHSEL Dagmar, Praticien hospitalier - Mme RISCO CASTILLO Véronica, Maître de conférences (rattachée au DSBP)

UNITE D’IMAGERIE MEDICALE UNITE DE PATHOLOGIE CHIRURGICALE - Mme PEY Pascaline, Maître de conférences contractuel - M. FAYOLLE Pascal, Professeur - Mme STAMBOULI Fouzia, Praticien hospitalier - M. MAILHAC Jean-Marie, Maître de conférences - M. MANASSERO Mathieu, Maître de conférences UNITE DE MEDECINE - M. MOISSONNIER Pierre, Professeur - M. AGUILAR Pablo, Praticien hospitalier - Mme VIATEAU-DUVAL Véronique, Professeur * - Mme BENCHEKROUN Ghita, Maître de conférences - M. ZILBERSTEIN Luca, Maître de conférences - M. BLOT Stéphane, Professeur* - M. CAMPOS Miguel, Maître de conférences associé DISCIPLINE : URGENCE SOINS INTENSIFS - Mme FREICHE-LEGROS Valérie, Praticien hospitalier - Mme STEBLAJ Barbara, Praticien Hospitalier - Mme MAUREY-GUENEC Christelle, Maître de conférences DISCIPLINE : NOUVEAUX ANIMAUX DE COMPAGNIE UNITE DE MEDECINE DE L’ELEVAGE ET DU SPORT - M. PIGNON Charly, Praticien hospitalier - Mme CLERO Delphine, Maître de conférences contractuel - M. FONTBONNE Alain, Maître de conférences - M. GRANDJEAN Dominique, Professeur * - Mme MAENHOUDT Cindy, Praticien hospitalier - M. NUDELMANN Nicolas, Maître de conférences

DEPARTEMENT DES PRODUCTIONS ANIMALES ET DE LA SANTE PUBLIQUE (DPASP) Chef du département : M. MILLEMANN Yves, Professeur - Adjoint : Mme DUFOUR Barbara, Professeur

UNITE D’HYGIENE QUALITE ET SECURITE DES ALIMENTS UNITE DE REPRODUCTION ANIMALE - M. AUGUSTIN Jean-Christophe, Professeur - Mme CONSTANT Fabienne, Maître de conférences* - M. BOLNOT François, Maître de conférences * - M. DESBOIS Christophe, Maître de conférences (rattaché au DEPEC) - M. CARLIER Vincent, Professeur - Mme MASSE-MOREL Gaëlle, Maître de conférences contractuel - M. MAUFFRE Vincent, Assistant d’enseignement et de recherche contractuel UNITE DES MALADIES CONTAGIEUSES - Mme EL BAY Sarah, Praticien hospitalier - Mme DUFOUR Barbara, Professeur* - Mme HADDAD/HOANG-XUAN Nadia, Professeur UNITE DE ZOOTECHNIE, ECONOMIE RURALE - Mme PRAUD Anne, Maître de conférences - M. ARNE Pascal, Maître de conférences - Mme RIVIERE Julie, Maître de conférences contractuel - M. BOSSE Philippe, Professeur* - Mme DE PAULA REIS Alline, Maître de conférences contractuel UNITE DE PATHOLOGIE DES ANIMAUX DE PRODUCTION - Mme GRIMARD-BALLIF Bénédicte, Professeur - M. ADJOU Karim, Maître de conférences * - Mme LEROY-BARASSIN Isabelle, Maître de conférences - M. BELBIS Guillaume, Assistant d’enseignement et de recherche contractuel - M. PONTER Andrew, Professeur - M. MILLEMANN Yves, Professeur - Mme WOLGUST Valérie, Praticien hospitalier - Mme RAVARY-PLUMIOEN Bérangère, Maître de conférences - Mme ROUANNE Sophie, Praticien hospitalier

DEPARTEMENT DES SCIENCES BIOLOGIQUES ET PHARMACEUTIQUES (DSBP) Chef du département : M. CHATEAU Henry, Professeur - Adjoint : Mme PILOT-STORCK Fanny, Maître de conférences

UNITE D’ANATOMIE DES ANIMAUX DOMESTIQUES UNITE D’HISTOLOGIE, ANATOMIE PATHOLOGIQUE - M. CHATEAU Henry, Professeur* - Mme CORDONNIER-LEFORT Nathalie, Maître de conférences* - Mme CREVIER-DENOIX Nathalie, Professeur - M. FONTAINE Jean-Jacques, Professeur - M. DEGUEURCE Christophe, Professeur - Mme LALOY Eve, Maître de conférences contractuel - Mme ROBERT Céline, Maître de conférences - M. REYES GOMEZ Edouard, Maître de conférences

UNITE DE BACTERIOGOLIE, IMMUNOLOGIE, VIROLOGIE UNITE DE MANAGEMENT, COMMUNICATION, OUTILS SCIENTIFIQUES - M. BOULOUIS Henri-Jean, Professeur* - Mme CONAN Muriel, Professeur certifié (Anglais) - Mme LE PODER Sophie, Maître de conférences - M. DESQUILBET Loïc, Maître de conférences (Biostatistiques, épidémiologie)* - Mme LE ROUX Delphine, Maître de conférences - Mme FOURNEL Christelle, Maître de conférences contractuel (Gestion et - Mme QUINTIN-COLONNA Françoise, Professeur management)

UNITE DE BIOCHIMIE UNITE DE PHARMACIE ET TOXICOLOGIE - M. BELLIER Sylvain, Maître de conférences* - Mme ENRIQUEZ Brigitte, Professeur - Mme LAGRANGE Isabelle, Praticien hospitalier - M. PERROT Sébastien, Maître de conférences - M. MICHAUX Jean-Michel, Maître de conférences - M. TISSIER Renaud, Professeur*

DISCIPLINE : EDUCATION PHYSIQUE ET SPORTIVE UNITE DE PHYSIOLOGIE ET THERAPEUTIQUE - M. PHILIPS Pascal, Professeur certifié - Mme COMBRISSON Hélène, Professeur - Mme PILOT-STORCK Fanny, Maître de conférences DISCIPLINE : ETHOLOGIE - M. TIRET Laurent, Professeur * - Mme GILBERT Caroline, Maître de conférences

UNITE DE GENETIQUE MEDICALE ET MOLECULAIRE - Mme ABITBOL Marie, Maître de conférences - M. PANTHIER Jean-Jacques, Professeur*

* responsable d’unité

Remerciements

Au Professeur de la Faculté de Médecine de Créteil, qui nous fait l’honneur d’accepter la présidence de notre jury de thèse, je vous adresse mes hommages respectueux.

À Monsieur Jean-Jacques Panthier, Professeur à l’École Nationale Vétérinaire d’Alfort qui m’a fait l’honneur d’accepter de diriger cette thèse. Je vous remercie pour votre gentillesse, votre disponibilité, votre aide et vos conseils tout au long de cette thèse.

À Monsieur Laurent Tiret, Professeur à l’École Nationale Vétérinaire d’Alfort qui a accepté de relire ce travail. En vous remerciant de votre aide et de votre disponibilité.

À Messieurs Laurent Abel et Alexandre Alcaïs, Docteurs en Médecine, chercheurs à l’INSERM, « Human genetics of infectious diseases : Complex predisposition » de l’Institut Imagine (U1163), qui m’ont accueilli dans leur laboratoire, et qui m’ont permis de réaliser la partie expérimentale de cette thèse. Je vous remercie pour tout ce que vous m’avez appris en épidémiologie génétique et pour votre accueil chaleureux.

À ma famille et mes amis

Table des matières

Table des figures4

Liste des tableaux5

Liste des abréviations utilisées7

Introduction9

1 La lèpre : de l’Homme aux animaux 11 1.1 La lèpre humaine 11 1.1.1 Une maladie infectieuse négligée 11 1.1.1.1 Historique 11 1.1.1.2 Histoire moderne et données épidémiologiques actuelles 12 1.1.1.3 Agent causal 13 1.1.1.4 Formes cliniques et éléments d’immunopathologie 16 1.1.1.5 La lèpre humaine, une maladie “héréditaire” ? 20 1.1.2 La prédisposition génétique à la lèpre : données et méthodes d’études en épidémiologie génétique 24 1.1.2.1 Approches “gène candidat” 25 1.1.2.2 Approches pangénomiques 29 1.1.2.3 Limites des approches actuelles 29 1.2 La lèpre chez l’animal 30 1.2.1 À la recherche de modèles expérimentaux 31 1.2.1.1 Les premières expérimentations 31 1.2.1.2 Les modèles murins et leurs limites 32 1.2.1.3 Les primates non humains 35 1.2.2 Le cas particulier du tatou : du rôle de modèle expérimental à celui de réservoir naturel 38 1.2.2.1 Généralités sur le tatou à neuf bandes 38 1.2.2.2 Éléments d’épidémiologie concernant la lèpre chez le tatou 40 1.2.2.3 La lèpre naturelle du tatou : une zoonose ? 41 1.2.2.4 Données cliniques et histologiques sur la lèpre chez le tatou 42 1.2.2.5 Des arguments en faveur d’une prédisposition génétique à l’infection 45 1.2.3 Lèpre et faune sauvage 46 1.2.3.1 Des cas spontanés anecdotiques ? 46 1.2.3.2 Notions d’espèces “sensibles” et “résistantes” 49 1.3 “La lèpre : des animaux vers l’Homme” ou l’apport de la génomique compa- rative à l’étude de la sensibilité à la lèpre chez l’Homme 50

1 2 La lèpre : des animaux vers l’Homme. Une application expérimentale pour l’étude de la prédisposition à la lèpre chez l’Homme 53 2.1 Génération de gènes candidats par génomique comparative 53 2.1.1 Concepts et terminologie 53 2.1.2 Matériels et méthodes 56 2.1.2.1 Espèces et génomes étudiés 56 2.1.2.2 Programmes et bases de données utilisés 57 2.1.2.3 Choix des paramètres d’alignement et des seuils “d’homo- logie” 58 2.1.2.4 Résumé du protocole d’analyse 59 2.1.3 Gènes candidats obtenus 60 2.2 Étude d’association 61 2.2.1 Matériels et méthodes 61 2.2.1.1 Échantillon familial 61 2.2.1.2 Marqueurs génétiques 62 2.2.1.3 Méthode statistique 63 2.2.2 Contrôle qualité des données de génotypage 65 2.3 Résultats d’association 69 2.4 Discussion 75 2.4.1 Limites immédiates de l’étude 75 2.4.2 Perspectives 77

Conclusion 79

Annexe 80

Bibliographie 82

2 Table des figures

1.1 Diversité des formes cliniques de lèpre 17 1.2 Spectre immunoclinique de la lèpre 17 1.3 Spectre histologique de la lèpre 18 1.4 Mécanismes suspectés des lésions nerveuses 19 1.5 Influence de l’hôte et du pathogène sur le cours de la maladie 21 1.6 Prédisposition génétiques (en rouge : résistance, en vert : sensibilité) aux maladies infectieuses et modèles associés en fonction du nombre de gènes impliqués, de la pénétrance des allèles et du nombre de pathogènes 23 1.7 Modèle à deux niveaux de la prédisposition génétique à la lèpre 24 1.8 Carte des zones de liaison et des gènes au sein desquels des variants ont été identifiés comme associés à la sensibilité à la lèpre 26 1.9 Photographie du visage d’un mangabey infecté expérimentalement par M. leprae 36 1.10 Photographie du nerf fibulaire commun d’un mangabey infecté expérimen- talement par M. leprae (jambe droite) 37 1.11 Positionnement au sein des Placentalia des superordres Euarchontoglires et Xenarthra auxquels appartiennent respectivement l’Homme et le tatou 39 1.12 Photographies d’un tatou à neuf bandes 39 1.13 Distances génétiques entre les différentes souches de M. leprae prélevées chez 50 patients américains et 33 tatous sauvages atteints de lèpre et les 10 souches de référence 42 1.14 Comparaison de lésions plantaires (ulcères) présentées par un homme et un tatou atteints de lèpre 43 1.15 Inflammation, infiltration par M. leprae et démyélinisation du nerf tibial postérieur (TP) chez un tatou atteint de lèpre 44 1.16 Potentiels d’action composites (PAC) illustrant le déficit progressif de conduction nerveuse chez le tatou atteint de lèpre 44 1.17 Spectre histologique de réponse au test de Mistuda chez le tatou à neuf bandes 45 1.18 Cas spontané de lèpre chez le chimpanzé Haruna 48 1.19 Lèpre chez des écureuils roux 49

2.1 Relations entre les concepts manipulés 54 2.2 Concepts d’orthologie et de paralogie 55 2.3 Effet des paramètres d’alignement en fonction de l’e-value 59 2.4 Protocole global d’obtention des gènes candidats 60 2.5 Répartition des gènes candidats par autosome 60 2.6 Diagrammes quantile-quantile (qqplot) des p-value obtenues après un contrôle qualité standard 66 2.7 Diagrammes quantile-quantile des p-value en modèle additif, obtenus après la modification de filtre indiquée, les autres filtres restant inchangés 68

3 2.8 Effets marginaux des filtres sur le top signal et degré d’inclusion des SNP selon les filtres 68 2.9 Synthèse des protocoles de contrôle qualité testés (composants et effets en terme de marqueurs testés, de top signal et de qqplot) 70 2.10 Manhattan-plots des résultats d’association 71 2.11 Distribution des fondateurs de l’échantillon par origine ethnique selon la première et la deuxième composante principale d’analyse en incluant les populations de Hapmap les plus proches génétiquement 72 2.12 Cartes de déséquilibre de liaison (exprimé en valeur de r2 (%)) 73

4 Liste des tableaux

1.1 Concordance phénotypique entre individus d’une même portée suite à l’infection expérimentale par M. leprae 46 1.2 Polymorphismes d’un seul nucléotide au sein des gènes TLR 1, 2 et 4 chez l’Homme et le tatou à neuf bandes 46

2.1 Caractéristiques des séquences utilisées 57 2.2 Résumé de l’analyse d’enrichissement effectuée sur les 485 gènes candidats 61 2.3 Caractéristiques de l’échantillon 62 2.4 Caractéristiques de la puce Illumina Human 660W-Quad d’après les données du fabricant 63 2.5 Tableau de contingence du TDT 63 2.6 Codage des génotypes X des enfants atteints en fonction du modèle géné- tique utilisé 64 2.7 Espérance sous H0 du génotype X d’un enfant, notée E(Xk) selon la combinaison k des génotypes parentaux et le modèle génétique choisi 64 2.8 Résultats de l’étude cas/témoins de réplication 74

5 6 Liste des abréviations utilisées

ADN : acide désoxyribonucléique ARN : acide ribonucléique BB : borderline borderline BL : borderline lépromateuse BLAST : Basic Local Alignment Search Tool BT : borderline tuberculoïde CAMTA1 : Calmodulin Binding Transcription Activator 1 CMH : complexe majeur d’histocompatibilité CRID : Call rate individu CRSNP : Call rate SNP CTU2 : cytosolic thiouridylase subunit 2 FBAT : Family Based Association Tests PGL-1 : phenolic glycolipid-1 GWAS : genome-wide association study HRH1 : histamine receptor H1 HW : écart à l’équilibre de Hardy-Weinberg ID : individu IgG : immunoglobuline M IgM : immunoglobuline G KO : knock-out LL : lépromateuse lépromateuse MAF : minor allele frequency MEGF11 : Multiple EGF-like-domains 11 MEND : erreurs mendéliennes MFGE8 : milk fat globule-epidermal growth factor 8 NCBI : National Center for Biotechnology Information OMS (WHO) : Organisation mondiale de la Santé (World Health Organization) PAC : potentiels d’action composites PCR : polymerase chain reaction PCT : polychimiothérapie RNF165 : Ring Finger Protein 165 SIDA : syndrome immunodéficience acquise SIV : simian immunodeficiency virus SNP : single nucleotide polymorphism TDT : test du déséquilibre de transmission TT : tuberculoïde tuberculoïde VIH : virus de l’immunodéficience humaine

7 8 Introduction

La lèpre est une maladie bactérienne qui a longtemps “fait peur”. Ainsi, les infirmités sévères et impressionnantes qu’elle peut engendrer ont entraîné au cours des siècles une forte stigmatisation des malades et leur mise à l’écart dans des léproseries. Bien que des traitements efficaces existent aujourd’hui, la lèpre est toujours un problème de santé publique, en particulier dans les pays en développement. Contrairement à ce que pourraient laisser penser les mesures d’exclusion systématiques dont ont été victimes les lépreux au cours des siècles, seule une minorité des individus en contact avec l’agent pathogène développe la maladie. Il est aujourd’hui établi que cette différence de sensibilité s’explique en partie par des facteurs génétiques de l’hôte humain. La recherche de ces facteurs a motivé de nombreuses études d’épidémiologie génétique. Ces dernières ont mené à l’identification de plusieurs dizaines de gènes associés à la sensibilité à la lèpre chez l’Homme. Cependant, aucune de ces analyses n’a encore tiré parti de l’existence d’animaux naturellement sensibles à la maladie. La lèpre provoquée expérimentalement chez l’animal contribue depuis plus de 40 ans à l’amélioration de nos connaissances sur la physiopathologie de la maladie. En effet, après un siècle de recherches infructueuses, les scientifiques ont découvert dans le tatou à neuf bandes (Dasypus novemcinctus) un modèle expérimental de choix, reproduisant l’ensemble du spectre immunohistologique de la lèpre humaine ainsi que sa symptomatologie. Plus encore, l’existence d’une enzootie de lèpre au sein des populations sauvages de tatous, souligne que cet animal est, tout comme l’Homme, un hôte naturellement sensible à la maladie. Enfin, le fait que certains tatous développent une infection alors que d’autres sont résistants, même à de fortes doses infectieuses, évoque la présence d’une prédisposition génétique individuelle à la lèpre chez cet animal. Ce parallélisme frappant entre lèpre animale et humaine suggère donc la possibilité d’un apport plus large de l’animal à notre compréhension de la maladie et plus particulièrement de sa composante génétique. Dans ce contexte, l’objectif de cette thèse est double. Il s’agira, en premier lieu, de déterminer dans quelle mesure la comparaison de génomes animaux et humains peut fournir des informations nouvelles sur la prédisposition génétique à la lèpre chez l’Homme. De façon plus précise, nous chercherons à identifier quels sont les animaux à considérer et selon quelle méthode d’analyse. Cette recherche fera l’objet du premier chapitre de cette thèse. Elle prendra la forme d’une revue bibliographique concernant la lèpre humaine et animale ainsi que les méthodes d’épidémiologie génétique permettant l’étude de sa composante génétique. Ce préalable permettra d’aboutir aux hypothèses de travail ayant guidé la partie expérimentale de notre travail, ces dernières seront exposées en fin du premier chapitre. Ainsi, le deuxième objectif de cette thèse est de proposer une application concrète de notre approche, elle fera l’objet du second chapitre de ce manuscrit. Ce travail expérimental a été réalisé au cours d’un stage de 6 mois dans le laboratoire Human genetics of infectious diseases : Complex predisposition de l’Institut Imagine et se divise en deux parties. Tout d’abord, une comparaison du génome récemment séquencé du tatou à celui de l’Homme et d’autres animaux a permis de générer des gènes candidats chez l’Homme. Enfin, une étude d’association a été conduite entre la sensibilité à la lèpre et les polymorphismes présents au sein des gènes candidats dans un échantillon de 2 235 Vietnamiens.

9 10 Chapitre 1

La lèpre : de l’Homme aux animaux

1.1 La lèpre humaine

1.1.1 Une maladie infectieuse négligée

1.1.1.1 Historique

Dans l’imaginaire collectif occidental, la lèpre a la réputation d’une maladie crainte, justifiant une mise à l’écart des malades dès les “temps bibliques”. Bien que cette image repose sur une erreur : l’utilisation impropre du mot lèpre dans le Lévitique [Mark, 2002], cela ne doit pas éclipser l’existence d’arguments en faveur de l’ancienneté de la maladie. Ces derniers, brièvement résumés ci-dessous, relèvent aussi bien de l’étude de textes antiques, que de la paléopathologie et de la phylogéographie. En ce qui concerne les témoignages écrits, des mentions de maladies dermatologiques dans des textes chinois (Nei Ching vers 500–200 av. J.C. [Skinsnes et Chang, 1985]) et égyptiens (papyrus Ebers vers 1550 av. J.C. [Ebbel, 1935]) ont pu être interprétées comme faisant référence à la lèpre, mais cela est aujourd’hui remis en question [Mark, 2002], [Browne, 1975]. De ce fait, la description clinique fiable la plus ancienne à ce jour est retrouvée en Inde vers 600 av. J.C.. Ainsi, le Sushruta Samhita différencie au moins trois types de lèpre et en fournit une description détaillée, citant notamment l’anesthésie, la paresthésie, les ulcères et les déformations et pertes des extrémités chez les malades [Mark, 2002]. C’est, d’ailleurs, ces importantes séquelles, particulièrement les lésions osseuses, qui permettent d’établir de façon fiable la présence de la maladie dans des aires temporelles et géographiques précises. Ainsi, l’observation sur des squelettes de l’atrophie et l’absence de doigts et orteils associée à des déformations ou des pertes osseuses dans la zone rhino- maxillaire permet un diagnostic sans ambiguïté de la lèpre [Donoghue et al., 2015]. Bien qu’ils ne présentent pas l’ensemble de ces critères, des restes humains suggèrent la présence de malades en Inde dès 2500 à 2000 av. J.C. [Robbins et al., 2009]. Dans les pays du pourtour méditerranéen tels l’Italie ou l’Égypte, les squelettes les plus anciens présentant des lésions attribuées à la maladie ont été datés entre le IIe siècle av. J.C. et le IVe siècle ap. J.C. Les premiers restes de malades apparaissent dans le nord de l’Europe à cette date, puis se multiplient jusqu’au IXe–Xe siècle ap. J.C. [Donoghue et al., 2015]. La distribution temporelle et géographique de ces restes permet aux historiens de proposer un scénario de dissémination de la maladie. La lèpre aurait été introduite depuis l’Asie jusqu’en Méditerranée autour du IVe siècle av. J.C. par les troupes d’Alexandre le Grand ou via des échanges commerciaux [Mark, 2002]. L’expansion de l’Empire romain aurait ensuite contribué à son apparition en France, en Allemagne et dans la péninsule ibérique,

11 les invasions barbares disséminant ensuite la maladie jusqu’en Angleterre et en Scandinavie [Cole et Singh, 2012]. Ces restes sont ensuite relativement abondants en Europe où la maladie sera endémique jusqu’au XIIIe siècle. Le génotypage d’une première souche de Mycobacterium leprae réalisé par Cole et al. [2001] suivi par celui de plusieurs centaines d’échantillons par Monot et al. [2005, 2009] a apporté de nouveaux éléments pour la compréhension de l’histoire du bacille et de la maladie. Ainsi, Monot et al. [2009] ont comparé les séquences de 400 échantillons de Mycobacterium leprae prélevés sur des malades et des restes anciens, provenant de 28 pays. Les polymorphismes identifiés (des SNP ou polymorphisme d’un seul nucléotide) leur ont permis de classer les échantillons en 4 types et 16 sous–types avant de déterminer les génotypes ancestraux les plus probables. Chaque génotype présentant une forte corrélation avec l’origine géographique de l’échantillon, Monot et al. [2009] ont donc pu proposer une hypothèse phylogéographique concernant le patron de dissémination du bacille. Ainsi, le premier type de bacille (désigné type 2) serait apparu en Afrique de l’Est avant de donner lieu, d’une part, au type 1 se répandant en Asie, et d’autre part, au type 3 atteignant l’Europe et le Moyen-Orient. Le type 4 présent en Amérique et en Afrique de l’Ouest proviendrait du type 3 “européen”. Ce scénario alternatif à celui communément admis par les historiens (celui d’une origine indienne de l’infection, cf. Supra) présente l’avantage de se “superposer” aisément à ce que l’on connait des grandes migrations humaines : sorties d’Afrique vers l’Asie et l’Europe, colonisation européenne des Amériques, commerce triangulaire. De ce fait, il sous-entend une origine beaucoup plus ancienne de l’interaction Homme-pathogène, estimée à 100 000 ans par les auteurs. En Europe, l’histoire plus récente de la lèpre est marquée par une forte diminution du nombre de malades à partir des XVIIe et XVIIIe siècles. Les raisons de ce déclin, survenant avant la découverte d’un traitement efficace, restent inconnues. Les hypothèses avancées pour l’expliquer reposent en partie sur la simultanéité de cet événement avec les grandes épidémies de tuberculose (qui aurait résulté en le développement d’une immunité croisée avec Mycobacterium tuberculosis) et sur l’amélioration des conditions sanitaires [Ranque- François, 2007], [Lietman et al., 1997]. L’un des derniers pays européens à éradiquer la maladie est la Norvège au début du XXe siècle, c’est d’ailleurs là que Gehrard Hansen écrit la première page de l’étude moderne de la lèpre en identifiant son agent pathogène en 1873.

1.1.1.2 Histoire moderne et données épidémiologiques actuelles

Si la lèpre a été éradiquée au début du XXe siècle en Europe, ce n’est qu’avec l’avènement de traitements antibiotiques puis de leur démocratisation qu’un réel recul de la maladie a pu être observé au niveau mondial. Ainsi, le premier antibiotique utilisé avec succès contre l’infection est la dapsone au cours des années 1940. Le développement de résistances dès 1960, amène ensuite à l’utilisation de la rifampicine et de la clofazimine. Enfin, en 1981 l’Organisation mondiale de la Santé (OMS) promeut la combinaison de ces trois molécules au sein d’une polychimiothérapie (PCT). À partir de 1995, sous l’impulsion de l’OMS qui lance une campagne visant à l’élimination de la maladie, la PCT est mise à disposition des malades gratuitement. Ces avancées ont permis de faire chuter la prévalence de la maladie de façon importante au cours des 30 dernières années : elle est aujourd’hui de 175 554 cas contre 805 000 en 1995 et 5,2 millions en 1985. L’objectif de l’élimination au niveau global – c’est-à-dire un taux de prévalence mondial inférieur à un cas pour 10 000 – a été atteint en 2000. Cependant, si, d’après l’OMS, « la lèpre a été éliminée dans 119 des 122 pays où, en 1985,

12 elle était considérée comme un problème de santé publique » ∗, cette “élimination” n’est en aucun cas synonyme de disparition de la maladie que ce soit à l’échelle mondiale ou nationale. Ainsi, en 2014, 121 pays ont déclaré des cas de lèpre. Si la vitesse de diminution de la prévalence entre 1985 et 1995 aurait pu laisser présager une éradication de la maladie, ces 10 dernières années ont été témoin d’un infléchissement dans la diminution de la prévalence mondiale de la maladie. Plus encore, ce phénomène est particulièrement marqué concernant l’incidence qui est de 213 800 en 2014 contre 299 036 en 2005. Enfin, la très grande majorité des nouveaux cas recensés en 2014 (94 %) l’ont été dans 13 pays déclarant une incidence supérieure à 1 000 †, soulignant le fait qu’il existe encore des foyers où la lèpre est endémique à l’échelle régionale ou même nationale. En particulier, le Brésil, l’Inde et l’Indonésie, ont notifié plus de 10 000 nouveaux malades en 2014, ils totalisent ainsi 81 % des nouveaux cas de lèpre apparus dans le monde [WHO, 2015]. La prévalence et l’incidence ne traduisent cependant pas la comorbidité importante associée à la lèpre, en particulier les séquelles invalidantes que peut entraîner la maladie. Ainsi, malgré l’existence et la disponibilité d’un traitement permettant de guérir de l’infection, le nombre de nouveaux patients présentant une incapacité de grade 2 (définie par une déformation visible, ou une acuité visuelle < 1/10) reste stable depuis 10 ans autour de 14 000 cas (soit un patient sur 15). Preuve de l’aspect préoccupant de cette réalité, en 2010 l’OMS avait fixé comme objectif la réduction de 35 % du nombre de nouveaux patients ayant une incapacité de grade 2 d’ici 2015. Au vu des chiffres publiés en septembre dernier cet objectif ne pourra pas être atteint, ainsi 14 110 nouveaux patients ont été concernés par cette incapacité en 2014 [WHO, 2015]. Bien que la lèpre soit considérée comme éliminée à l’échelle mondiale depuis 15 ans, l’éradication de la maladie est toujours loin d’être une réalité. Le ralentissement des résultats obtenus en terme de prévalence et d’incidence, l’existence d’une dizaine de pays encore endémiques ainsi que le pourcentage de malades souffrant de séquelles invalidantes font encore aujourd’hui de la lèpre un enjeu de santé publique.

1.1.1.3 Agent causal

Mycobacterium leprae est un bacille acido-alcoolo-résistant intracellulaire, non mobile, micro-aérophile, long de 1 à 8 µm et large de 0,3 µm [Draper, 1983]. Il est pléiomorphe mais apparaît le plus souvent sous forme d’un bâtonnet, teinté en rouge avec la coloration de Ziehl-Neelsen. M. leprae est considéré comme non cultivable in vitro [Dhople et al., 1988] mais peut être multiplié dans des coussinets de souris [Shepard, 1960] ; sa température optimale de croissance s’y situe entre 27 et 30 °C[Shepard, 1965] et son temps de doublement est de 11 à 12 jours [Levy, 1976]. Il appartient à la famille des mycobacteries, sa spécificité d’espèce lui est conférée par un glycolipide phénolique de surface (PGL-1 )[Hunter et Brennan, 1981] contre lequel peut se développer une réponse humorale [Brett et al., 1983]. Ce glycolipide semble d’ailleurs être le support bactérien du tropisme cutané et nerveux présenté par M. leprae. Ainsi, PGL-1 se fixe sur la laminine 2, un composant de la lame basale des cellules de Schwann du système nerveux périphérique [Ng et al., 2000], [Rambukkana et al., 1997]. PGL-1 est également impliqué dans la phagocytose par les macrophages dermiques, second type cellulaire infecté par le bacille [Schlesinger et Horwitz, 1991].

∗. Site de l’OMS. †. Il s’agit du Bangladesh, du Brésil, de la République Démocratique du Congo, de l’Éthiopie, de l’Inde, de l’Indonésie, de Madagascar, de la Birmanie, du Népal, du Nigeria, des Philippines, du Sri Lanka et de la Tanzanie.

13 Malgré un tropisme limité à ces deux types cellulaires, les modes de transmission supposés du bacille semblent plus divers. Ainsi, sont considérées comme porte d’entrée possibles les lésions cutanées et les muqueuses buccales et nasales [Job, 1990], [Morgado de Abreu et al., 2014]. Se basant sur la bactériémie et l’excrétion du bacille dans le lait observées chez certains patients [Ganapati et Chulawala, 1976], [Girdhar et al., 1981], des transmissions par voie sanguine [Goulart et al., 2015], via l’allaitement, in utero ou même par piqûres d’insectes ont été évoquées [Lastória et de Abreu, 2014]. Cependant, la voie aérienne reste considérée comme le mode de transmission principal. Malgré l’absence d’une démonstration de la primauté de ce mode de transmission par rapport à d’autres [Job et al., 2008], l’implication des voies respiratoires est appuyée par diverses études. Ainsi, Silva et al. [2013] ont démontré in vitro que l’entrée et la survie de M. leprae sont possibles dans les cellules épithéliales nasales et alvéolaires. De plus, Suneetha et al. [1998] ont observé des modifications de la muqueuse nasale chez 39 patients dans des phases précoces de la maladie, suggérant que les voies respiratoires supérieures pourraient être le site premier de l’infection. De même, la recherche par PCR de M. leprae dans les sécrétions et biopsies nasales d’individus vivant en régions endémiques [Klatser et al., 1993], [Patrocínio et al., 2005] montre que certains individus pourraient héberger le bacille dans leurs cavités nasales sans présenter de signe clinique. Ces résultats, qui suggérent l’existence de porteurs sains ou, tout du moins, d’infections subcliniques, doivent cependant être nuancés. En effet, l’utilisation de la PCR reste sujette à des faux positifs, et cela plus particulièrement dans le domaine de l’identification des espèces bactériennes [Truman et Fine, 2010]. Au vu des modes de transmission suspectés, les individus infectés sont considérés comme le principal réservoir de M. leprae. Cependant, la persistance d’une incidence élevée dans des régions où le traitement est pourtant accessible soulève la question de l’existence de réservoirs environnementaux. Concernant la faune sauvage, il est maintenant reconnu depuis une dizaine d’années que la lèpre est présente au sein de populations sauvages de tatous à neuf bandes [Truman, 2005] et que certains primates non humains contractent la maladie. Toutefois, l’importance épidémiologique de ce réservoir animal est probablement négligeable (cf. 1.2.2 et 1.2.3). L’hypothèse d’un réservoir inerte a, en revanche, été proposée dès 1910 [Blake et al., 1987] et reste encore débattue aujourd’hui [Truman et Fine, 2010]. Si les premières études cherchant à identifier M. leprae dans le milieu naturel étaient basées sur des techniques de mise en évidence pour le moins indirectes (identification de bacilles non cultivables, coloration de Ziehl-Neelsen), le développement de la PCR a donné lieu à plusieurs campagnes d’analyses du sol et de l’eau dans des régions endémiques en Inde et Indonésie. Ainsi, Wahyuni et al. [2010] ont obtenu des résultats de PCR positifs concernant 25 % des 90 puits échantillonnés à Java. Sur cette même île, Matsuoka et al. [1998] ont dénombré 21 points d’eau sur 44 qui contiendraient l’ADN du bacille et ont observé une différence significative de prévalence de la maladie entre les groupes d’individus utilisant les puits “PCR positifs” et ceux utilisant les puits “PCR négatifs”. Lavania et al. [2008] ont obtenu des résultats similaires avec des échantillons de terre prélevés en Inde. Ainsi, 50 % des 40 échantillons collectés dans des zones où habitaient des malades présentaient une amplification de l’ARN du bacille contre un pourcentage significativement inférieur dans les échantillons (15 % de 40) provenant de zones sans malades recensés. Cependant, comme le souligne Truman et Fine[2010], la seule utilisation de la PCR, en particulier lorsque la cible de l’amplification est un unique segment du génome, est discutable pour rechercher M. leprae. Ainsi, ces auteurs considèrent qu’outre les problèmes de contamination, l’amplification d’une seule portion d’ADN bactérien ne permet pas de conclure à l’identification d’une espèce sans un risque important de faux positifs, dans la mesure où une grande partie de la diversité, notamment génétique, du monde bactérien

14 nous est encore inconnue. Même en s’affranchissant intellectuellement de cette limite méthodologique, ces études soulèvent d’autres questions. Ainsi, il faut souligner que la présence dans le milieu de l’ADN du bacille ne signifie pas que ce dernier soit vivant, infectieux ou encore capable de s’y multiplier. De plus, les différences significatives observées entre les échantillons supposés “en contact” et “sans contact” avec les malades peuvent refléter une contamination humaine de l’environnement plutôt que l’inverse. Concernant la survie du bacille dans l’environnement, Desikan et Sreevatsa[1995] ont rapporté que M. leprae reste capable de se multiplier dans des coussinets de souris après avoir passé jusqu’à 46 jours dans de la terre humide. Des expériences ont également été menées pour tester la possibilité d’une association du bacille avec le protozoaire Acanthamoeba castellani montrant que des bacilles hébergés par ce dernier pendant 72 heures se multiplient ensuite dans des coussinets de souris [Lahiri et Krahenbuhl, 2008]. Finalement, à notre connaissance, aucune étude ne fait état d’une multiplication de M. leprae dans le milieu extérieur, élément indispensable à l’établissement d’un réservoir pérenne et véritable du point de vue épidémiologique. L’idée d’une multiplication du bacille dans un milieu extracellulaire semble d’ailleurs de plus en plus improbable au vu de l’analyse du génome de M. leprae. Le génome de M. leprae a été entièrement séquencé en 2001 par Cole et al. [2001]. Une comparaison des génomes et protéomes de M. leprae et de Mycobacterium tuberculosis a permis de déterminer que le génome du bacille de la lèpre a subi une importante réduction évolutive. En effet, il ne présente que 49,5 % de gènes potentiellement codants contre 90,8 % pour M. tuberculosis et un grand nombre de pseudogènes (1293 pseudogènes par rapport aux 6 pseudogènes estimés pour le bacille de la tuberculose [Gómez-Valero et al., 2007]). Une analyse des fonctions des gènes concernés souligne que ce phénomène pourrait se traduire par la perte de voies métaboliques entières (catabolisme des acides gras, respiration anaérobie, synthèse de l’enveloppe bactérienne). Bien que l’hypothèse de ces pertes de fonction repose sur l’idée, somme toute assez contestable, que la pseudogénisation d’un gène conduit forcément à la disparition de la fonction associée à l’échelle de l’organisme, elle pourrait expliquer certaines caractéristiques de M. leprae telles son caractère intracellulaire et sa croissance lente. Le séquençage d’échantillons supplémentaires provenant d’Inde, de Thaïlande, d’Amérique du Nord et du Brésil a permis de déterminer que la diversité génétique du bacille semble très faible puisque les échantillons partagent une identité de séquence de 99,995 % [Monot et al., 2009]. Cette quasi-clonalité du bacille a d’ailleurs contribué à identifier, par contraste, une nouvelle espèce de mycobactérie qui pourrait être impliquée dans certaines formes de la maladie. Ainsi, Han et al. [2008] ont décrit en 2008 une mycobactérie, qu’ils ont nommée My- cobacterium lepromatosis, chez deux patients mexicains atteints de lèpre de Lucio, une forme particulière de la maladie. La qualification d’espèce distincte a été motivée par la découverte que son ARN ribosomal 16S diverge de celui de M. leprae de 2 %. Un séquençage complet du génome de M. lepromatosis suivi d’une comparaison avec celui de M. leprae a récemment confirmé que les deux entités bactériennes peuvent être qualifiées d’espèces distinctes du point de vue génétique [Singh et al., 2015]. En effet, les gènes codant des protéines partagent en moyenne 93 % d’identité de séquence et les pseudogènes 82 %. Les auteurs ont également pu estimer que la divergence entre les deux espèces remonterait à 13,9 millions d’années et aurait été suivie d’événements de pseudogénisation spécifiques à chacune des bactéries. Concernant la pathogénie de cette nouvelle espèce, Han et al. ont tout d’abord soutenu qu’elle était spécifiquement responsable de la lèpre de Lucio, une forme sévère de lèpre retrouvée majoritairement au Mexique et aux Caraïbes. Les premières descriptions de M. lepromatosis étaient effectivement retrouvées exclusivement chez des patients de cette zone géographique et présentant cette forme particulière de la maladie. Or,

15 depuis 2012, M. lepromatosis a été également identifiée au Canada [Jessamine et al., 2012], à Singapour [Han et al., 2012a], et en Birmanie [Han et al., 2014], notamment chez des patients atteints d’autres formes de la maladie, laissant penser que son implication pourrait être plus large que ce qui était envisagé initialement. Cependant, aucune démonstration ne vient étayer le lien de cause à effet entre la présence de M. lepromatosis chez les patients et le développement de la maladie. Celle-ci semble d’autant plus nécessaire que le bacille a été retrouvé conjointement avec M. leprae dans les prélèvements de certains malades (16 % de 87 biopsies considérées par Han et al. [2012b]). Ainsi, à notre connaissance, aucune inoculation expérimentale n’a été publiée depuis 2008. En particulier, comme cela est suggéré par Gillis et al. [2011], chercher à savoir si M. lepromatosis peut se multiplier dans les coussinets de souris et déterminer si son inoculation à des tatous à neuf bandes provoque, tout comme celle de M. leprae, la maladie procurerait des arguments supplémentaires pour attribuer à cette nouvelle bactérie une pathogénie similaire ou différente de celle de M. leprae.

1.1.1.4 Formes cliniques et éléments d’immunopathologie

Le tropisme de M. leprae, limité aux cellules de Schwann du système nerveux périphérique et aux macrophages du derme, explique que les signes cliniques de la maladie soient d’ordre nerveux et dermatologique. La dénomination “lèpre” ou “lèpre per se” regroupe, en fait, une variété de manifestations cliniques formant un spectre continu entre deux formes extrêmes nommées “lèpre tuberculoïde” et “lèpre lépromateuse” (cf. Figure 1.1). Quelle que soit la forme de la lèpre, la maladie se déclare après une période d’incubation longue, allant de 2 à 12 ans [Rodrigues et Lockwood, 2011]. La forme tuberculoïde est caractérisée par un petit nombre de lésions cutanées (inférieur à dix), de grande taille (supérieure à 3 cm de diamètre), bien délimitées, érythémateuses ou hypopigmentées, maculeuses ou infiltrées. Elles sont toujours hypo ou anesthésiques. La charge bacillaire au sein des lésions est faible, d’où l’appellation de lèpre “paucibacillaire”. Des lésions nerveuses périphériques sont rapidement présentes dans l’évolution de la maladie. Il peut s’agir d’une hypertrophie du nerf périphérique (cf. Figure 1.1), mais le déficit moteur peut entraîner au niveau des mains et des pieds des déformations qualifiées de déformations en griffe. Des ulcérations, perforations et destructions osseuses distales peuvent compléter le tableau clinique. À l’inverse, la forme lépromateuse présente de nombreuses lésions cutanées, maculeuses ou infiltrées, de petite taille (inférieure à 2 cm de diamètre). Les lésions cutanées peuvent se présenter sous la forme de nodules appelés lépromes (cf. Figure 1.1) ou, lorsque ces derniers confluent, de placards. La forme lépromateuse est également qualifiée de multibacillaire en référence à la charge bacillaire élevée. Contrairement à ce qui est observé dans la forme paucibacillaire, l’atteinte des nerfs périphériques n’est pas une constante et progresse moins rapidement, lorsqu’elle existe. En outre, les manifestations extracutanées sont nombreuses. Ainsi, la rhinite lépreuse conduit à l’ulcération de la cloison nasale et à l’effondrement du nez. Une grande variété d’organes internes peuvent être atteints : le foie, les ganglions, la rate, les reins, les poumons et les glandes endocrines. Parmi ces atteintes, celles de l’œil (kératite, uvéite) sont fréquentes et peuvent aboutir à une cécité. Les formes cliniques comprises entre ces deux extrêmes sont diverses et qualifiées de borderline. Ridley et Jopling ont proposé en 1963 une classification des formes de lèpre basée sur des critères cliniques, bactériologiques, histologiques et immunologiques [Ridley et Jopling, 1962] : les formes à l’extrémité tuberculoïde du spectre clinique sont qualifiées de Tuberculoïde Tuberculoïde (TT), celles à l’extrémité lépromateuse de Lépromateuse Lépromateuse (LL) et les formes intermédiaires de “borderline”. Elles sont au nombre

16 de trois et sont nommées Borderline Tuberculoïde (BT), Borderline Borderline (BB) et Borderline Lépromateuse (BL) en fonction de leur degré de similitude avec les formes polaires. Figure 1.1 – Diversité des formes cliniques de lèpre. De gauche à droite : lésion hy- popigmentée, hypertrophie nerveuse, faciès léonin et lépromes cutanés. Tiré de Gaschignard [2014]

La forme clinique exprimée par un patient dépend, en fait, du type de réaction im- munitaire adaptative que ce dernier développe vis-à-vis de M. leprae. En effet, l’étendue du spectre clinique de la lèpre reflète, en partie, les différents équilibres possibles entre immunité cellulaire et humorale (cf. Figure 1.2). Figure 1.2 – Spectre immunoclinique de la lèpre. Adapté de Britton et Lockwood[2004]

Ainsi, dans les formes cliniques situées au pôle tuberculoïde de la lèpre (TT), l’immunité cellulaire, exacerbée, limite l’expression de la maladie à quelques troncs nerveux et lésions cutanées [Lastória et de Abreu, 2014]. Ces dernières se présentent sous la forme de granulomes bien délimités, formés de cellules épithélioïdes et géantes multinucléaires (cf. Figure 1.3). Elles sont quasi-exemptes de bactéries [Britton et Lockwood, 2004]. Le profil des lymphocytes T infiltrant les lésions est majoritairement CD4+, sécrétant interféron γ et interleukine 2. La prééminence de l’immunité cellulaire dans ces formes est confirmée aussi bien in vitro qu’in vivo. Ainsi, la stimulation in vitro par des antigènes de M.leprae est suivie par une prolifération des cellules T et une production de cytokines [Britton et Lockwood, 2004]. In vivo, alors que les patients tuberculoïdes ne présentent que très peu, voire une absence, d’anticorps anti-M. leprae, ils répondent, au contraire, positivement au test de Mistuda ∗. ∗. Ce test évalue la capacité du patient à produire une réaction immunitaire cellulaire granulomateuse contre la lépromine, une suspension de M. leprae tués, injectée de façon intradermique [Scollard et al., 2006].

17 Figure 1.3 – Spectre histologique de la lèpre. Panneaux supérieurs : coupes de dermes prélevés chez des patients TT à LL, colorées à l’hématoxyline et à l’éosine (grossissement x63). Panneaux inférieurs : détails en coloration Fite-Faraco où les bacilles sont pourpres (grossissement x1000). 50 champs ont été nécessaires pour trouver les deux organismes visualisés dans le nerf cutané du champ TT, le nombre d’organismes augmente à mesure qu’on s’approche du champ LL. Tiré de Scollard et al. [2006]

À l’inverse, les formes lépromateuses extrêmes (LL) sont caractérisées par une absence d’immunité cellulaire spécifique à M. leprae. Cela se traduit, non seulement, par la multiplication du bacille, retrouvé en quantité importante dans les lésions (cf. Figure 1.3) mais, également, par l’étendue de l’atteinte (cutanée, viscérale). Du point de vue histologique, les lésions ne sont donc pas formées de granulomes, mais infiltrées d’histiocytes spumeux contenant de nombreuses bactéries. Il y a, en outre, peu de lymphocytes CD4+ ou CD8+. Le profil cytokinique est également différent de ce qui est observé au pôle

18 tuberculoïde (cf. Figure 1.2). Ainsi, Yamamura et al. [1992] ont retrouvé des ARNm des interleukines 4 et 10 dans les lésions de patients LL. Chez ces patients, la polarisation de la réaction immunitaire adaptative vers une réponse humorale est confirmée par les titres élevés en anticorps anti-M. leprae et par un test de Mitsuda négatif. Entre ces deux extrêmes, les formes cliniques intermédiaires (BT, BB et BL) résultent de la transition continue d’une réponse immunitaire cellulaire dominante vers une réponse seulement humorale, l’intensité de la première diminuant progressivement tandis que la seconde augmente (cf. Figure 1.2). L’étude histologique des lésions provenant des différentes formes de lèpre témoigne de cette transition. Ainsi, les granulomes bien délimités au pôle TT perdent progressivement leur organisation jusqu’à laisser place à un amas non organisé d’histiocytes spumeux au pôle LL (cf. Figure 1.3). Cette transition peut d’ailleurs se réaliser, de façon partielle, chez certains individus. En effet, les formes borderlines peuvent être instables et évoluer vers le pôle tuberculoïde de façon progressive ou, plus brutalement, sous la forme d’une poussée inflammatoire appelée réaction de réversion [Misch et al., 2010]. Les raisons et les mécanismes de cette polarisation de la réponse immunitaire adaptative restent mal compris. Jusqu’à maintenant, c’est surtout l’absence de réponse des lymphocytes T chez les patients LL qui a été l’objet d’investigations. Établir une synthèse des résultats obtenus dans ce domaine n’est pas le sujet de ce manuscrit, nous rappellerons seulement que les pistes de recherche comprennent une déviation de la réponse des lymphocytes CD4+, une suppression des lymphocytes T réactifs à M. leprae et la présence de lymphocytes T régulateurs ou suppresseurs [Britton et Lockwood, 2004]. L’implication de la réaction immunitaire à M. leprae est également partiellement sus- pectée dans la genèse des lésions nerveuses. Ainsi, les mécanismes lésionnels envisagés sont l’ischémie des fibres nerveuses, la démyélinisation et l’apoptose des cellules de Schwann (cf. Figure 1.4). L’afflux de cellules immunitaires et l’inflammation subséquente pourraient provoquer un œdème des cellules de Schwann et une ischémie par compression mécanique de la fibre nerveuse [Scollard, 2008]. Cette hypothèse n’a cependant pas encore été explorée, à l’inverse des deux autres. Ainsi, une apoptose des cellules de Schwann peut être induite in vitro par une lipoprotéine de M. leprae [Oliveira et al., 2003]. Enfin, M. leprae active in vitro le récepteur à activité tyrosine kinase ErbB2. La voie de signalisation alors induite peut mener à une démyélisation des cellules de Schwann [Scollard et al., 2015].

Figure 1.4 – Mécanismes suspectés des lésions nerveuses. Adapté de Misch et al. [2010]

19 1.1.1.5 La lèpre humaine, une maladie “héréditaire” ?

“I want to say that, if I formerly may have doubted the theory about the heredity of the disease, I have now no longer any doubts about it.” “Si j’ai pu, par le passé, douter de la théorie selon laquelle la maladie est héréditaire, je n’ai maintenant plus aucun doute sur le sujet. ” Carl Wilhelm Boeck (1808–1875), d’après Marmor[2002]

“...your opinions about leprosy are completely wrong. You believe that the disease is hereditary but not infectious. The truth is that it is infectious but not hereditary.” “...vos convictions à propos de la lèpre sont totalement erronées. Vous croyez que la maladie est héréditaire et non infectieuse. La vérité est qu’elle est infectieuse et non pas héréditaire.” Gerhard Henrik Armauer Hansen (1841–1912), d’après Pandya[1998]

Ces deux citations pourraient résumer le débat qui a animé la communauté des “léprolo- gistes” sur l’origine de la maladie au cours du XIXe siècle. En effet, jusqu’à la deuxième moitié du XIXe siècle, l’idée que la lèpre est une maladie héréditaire est fortement ancrée dans les esprits. Loin d’être seulement une croyance populaire associée au stigma social qu’entraîne la maladie, cette opinion est partagée et défendue par la communauté médicale. Ainsi, Danielssen et Boeck publient en 1847 le résultat d’une étude portant sur 213 patients et leurs liens de parenté, sous le nom Om Spedalskhed [De la lèpre]. Le texte, qui affirme que la lèpre est une affection sanguine héréditaire, est alors considéré comme un ouvrage de référence par la communauté scientifique [Marmor, 2002]. Dans ce contexte, la mise en évidence du bacille de la lèpre par Gehrard Hansen en 1873 ravive un ancien débat entre partisans de l’hérédité et ceux d’une contagiosité de la maladie [Pandya, 1998]. Nourri par les échecs répétés des expériences de Hansen pour mettre en évidence la contagiosité de la maladie, le débat perdure au cours des deux décennies suivantes [Abraham, 1886], [Kirkpatrick, 1889] et ne prend fin qu’avec le premier congrès international de léprologie qui eu lieu à Berlin en 1897. Malgré l’absence de preuves expérimentales et, en particulier, le fait que M. leprae ne satisfaisaient pas les postulats de Koch ∗, les congressistes concluent : “The Leprosy Bacillus is the Real Cause of the Disease. Leprosy is infectious but not hereditary”[“Le bacille de la lèpre est la cause réelle de la maladie. La lèpre est de nature infectieuse et non héréditaire”] [Pandya, 1998]. L’étiologie microbienne de la maladie étant reconnue, la lèpre est considérée pendant la première moitié du XXe siècle comme un exemple de maladie purement environnementale. Finalement, face à la grande diversité des formes cliniques, l’idée d’une prédisposition génétique au développement de la maladie resurgit peu à peu à partir de 1950. En effet, si pour les scientifiques du XIXe siècle les idées de maladie infectieuse et d’hérédité semblaient incompatibles, il est aujourd’hui reconnu qu’un certain nombre de facteurs de l’hôte et de l’agent pathogène, en particulier des facteurs génétiques, sont impliqués dans le passage de la simple exposition au développement d’une infection puis, de signes cliniques (cf. Figure 1.5)[Alcaïs et al., 2009]. La variabilité de réponse suite à l’exposition à un agent pathogène

∗. L’impossibilité de cultiver in vitro le bacille de Hansen fait qu’il ne répond pas, même à l’heure actuelle, au deuxième postulat de Koch. En outre, les 3e et 4e postulats n’ont pu être satisfaits expérimentalement avant 1960 et la découverte par Shepard de la multiplication du bacille dans les coussinets de souris après inoculation.

20 résulte donc de la variabilité de quatre types de facteurs : les facteurs non génétiques (état nutritionnel, comorbidités, immunosuppression par exemple) et génétiques inhérents à l’hôte, les facteurs d’exposition et les facteurs microbiens. Dans le cas particulier de la lèpre, ces facteurs pourraient expliquer que, comme le montrent les études de cohortes vaccinales, 95 % des individus en contact avec M. leprae ne développent pas de forme clinique [Convit et al., 1992]. Figure 1.5 – Influence de l’hôte et du pathogène sur le cours de la maladie. Tiré de Gaschignard[2014]

La variabilité des facteurs microbiens est considérée comme négligeable au vu de la quasi-clonalité des souches de M. leprae à l’échelle du globe (cf. 1.1.1.3). Néanmoins, la découverte récente de M. lepromatosis pourrait nuancer cette position à condition non seulement que des arguments supplémentaires viennent étayer son implication dans la maladie, mais plus particulièrement que cette espèce soit effectivement associée à une forme particulière de lèpre. Concernant les facteurs d’exposition, il a été observé que le risque de transmission après contact avec un patient atteint est plus élevé lorsque le patient index présente une forme multibacillaire, cela s’explique sûrement par le fait que ces patients sont porteurs de lésions riches en bacilles (cf. 1.1.1.4). De façon surprenante, les facteurs non génétiques relatifs à l’hôte semblent n’avoir été que peu explorés. Ainsi, Richardus et al. [2004] ont réalisé une méta-analyse concernant les facteurs de risque de développement de la lèpre per se ∗. Pour ce faire, ils ont rassemblé tous les articles publiés entre 1940 et 2003 traitant des facteurs de risque de la lèpre. Or sur les 253 publications trouvées, seules deux s’intéressent aux facteurs socio-économiques et à l’état nutritionnel et, de plus, présentent des résultats contradictoires. De même, la recherche de facteurs de risque qui pourraient être constitués par des comorbités n’est pas relevée par les auteurs. À l’inverse, le rôle de l’immunosuppression relative constituée par le SIDA dans le déclenchement de la tuberculose a motivé plus d’une dizaine d’études (revues par Ustianowski et al. [2006]) cherchant à établir les interactions entre l’infection par le VIH et la lèpre. Malheureusement, comme l’expliquent les auteurs, la longueur de la période d’incubation et la faible incidence de la lèpre n’a pas permis de mener des études prospectives sur l’incidence de la maladie chez des patients VIH-positifs versus des individus VIH-négatifs, ni même, des études de prévalence. Toutes les études publiées

∗. C’est-à-dire la lèpre considérée indépendamment de la forme clinique développée.

21 s’intéressent donc plutôt à la lèpre comme facteur de risque de développement du SIDA que l’inverse. Bien que la part d’implication des facteurs non génétiques ne soit pas réellement établie, la composante génétique humaine est considérée comme le facteur principal pouvant expliquer la variabilité interindividuelle de la réponse à M. leprae. Certains auteurs n’hésitent d’ailleurs pas à écrire que “la lèpre est peut-être la maladie infectieuse commune où la contribution génétique de l’hôte est la plus forte” [Gaschignard, 2014]. Deux types d’études ont permis, en premier lieu, de suspecter une implication de cette composante génétique : il s’agit de l’observation de l’agrégation familiale des cas de lèpre et des études de jumeaux [Misch et al., 2010], [Sauer et al., 2015]. La nature familiale de la lèpre a été remarquée par de nombreux auteurs et même par Hansen qui cite cette observation, souvent utilisée par les partisans de la lèpre héréditaire, comme, au contraire, un argument de la contagiosité de l’infection [Hansen, 1875]. Il considère, en effet et à juste titre, que l’exposition au bacille est plus importante dans l’entourage familial d’un malade excréteur. Cependant, l’observation d’une agrégation familiale ne correspond pas seulement à l’observation d’une prévalence de la maladie significativement plus élevée chez des apparentés à un cas que chez le reste de la population mais elle suppose plutôt que le reste de la population est tout aussi exposée au pathogène que les membres de la famille du patient index. L’étude menée par Shields et al. [1987] en Papouasie-Nouvelle-Guinée fournit un exemple de mise en évidence d’une agrégation familiale de cas de lèpre. Ainsi, l’organisation sociale particulière de la tribu étudiée, basée non pas sur une unité familiale mais sur une unité communautaire (maris et femmes n’habitent pas ensemble, par exemple), permet, pour des individus apparentés, de découpler les risques liés à l’hérédité et ceux liés à l’exposition. Or, le patron de répartition de la maladie observé par les auteurs reste familial. En outre, l’étude des 269 familles a montré que le risque de développer la maladie diminue de façon significative avec le nombre d’ascendants malades. Un argument fort de la présence d’une prédisposition génétique à l’infection est donné par les études de jumeaux. Le principe de ces études réside dans la comparaison des taux de concordance (taux de paires de jumeaux où les deux individus présentent le même phénotype) entre jumeaux monozygotes et dizygotes. En effet, les jumeaux mono- zygotes possédant quasiment la même information génétique (mutations somatiques et modifications épigénétiques mises à part), ils doivent présenter des taux de concordance significativement plus élevés que des jumeaux dizygotes pour des phénotypes ayant une composante génétique forte. Au contraire, les taux de concordances de phénotypes envi- ronnementaux sont sensés être équivalents. Concernant la lèpre, Mohamed et Ramanujan [1966] ont étudié les phénotypes constitués, d’une part, par la lèpre per se et, d’autre part, par la forme clinique de lèpre chez 35 paires de jumeaux. Dix-neuf des 23 paires de jumeaux monozygotes étaient atteintes de lèpre (soit un taux de concordance de 82,6 %) contre 2 des 12 paires de jumeaux dizygotes (correspondant à un taux de concordance de 16,7 %). Le test exact de Fisher que nous avons réalisé sur ces données indique que le taux de concordance présenté par les monozygotes est significativement supérieur à celui des dizygotes (p = 0,0002), suggérant la présence d’une composante génétique dans le développement de la lèpre per se. De même, concernant la forme clinique développée, 17 des 19 paires de monozygotes malades souffraient du même type de lèpre (taux de concordance de 89,5 %) contre 0 des 2 paires de dizygotes lépreux. Les pourcentages sont également significativement différents (p = 0,028). Ces résultats ont été partiellement confirmés par Chakravartti et Vogel[1973] (dans [Alter et al., 2010]) avec des effectifs plus importants. Ainsi, en comparant 62 paires de monozygotes et 40 paires de dizygotes, les auteurs ont observé respectivement 37 et 8 paires concordantes pour la lèpre per se soit des

22 taux de concordance de 59,7 % et 20 %, taux significativement différents selon le test du χ2 que nous avons réalisé (p = 8 × 10-5). Concernant le type de lèpre développé 32 des 37 paires monozygotes (86,5 %) et 6 des 8 paires dizygotes (75 %) étaient concordantes, soit des pourcentages non significativement différents d’après le test exact de Fisher que nous avons utilisé (p = 0,59). Ainsi, ces études apportent des arguments en faveur de l’existence d’une prédisposition génétique, non seulement, dans le développement de la lèpre per se, mais également, dans le fait de présenter telle ou telle forme clinique de la maladie. Afin de déterminer le mode de transmission et de préciser le modèle génétique associé à la prédisposition à la lèpre et à ses différentes formes cliniques, des études de ségrégation familiales ont été menées depuis les années 80 [Abel et Demenais, 1988; Haile et al., 1985; Lázaro et al., 2010]. Leur principe est de modéliser mathématiquement le risque d’être atteint en fonction de l’effet d’un ou plusieurs gènes majeurs, de corrélations familiales et de facteurs environnementaux en testant plusieurs modèles de transmission. Bien qu’elles n’aient pas permis d’aboutir à un consensus concernant le mode de transmission, les auteurs concluent tous à l’existence d’une composante génétique portée par un ou plusieurs gènes à effet majeur. Par rapport au modèle mendélien strict, les gènes à effet majeur présentent une pé- nétrance plus faible, le phénotype étant alors le résultat de l’expression d’autres gènes, de facteurs environnementaux et de leurs interactions [Alcaïs et al., 2009]. Ainsi, dans le spectre des prédispositions aux maladies infectieuses, la sensibilité à la lèpre constitue un exemple de modèle complexe avec un nombre réduit de gènes à effet majeur, à mi-chemin entre les modèles mendéliens monogéniques à pénétrance complète (comme la résistance à la malaria causée par Plasmodium vivax) et les modèles complexes polygéniques (telles les infections associées à des polymorphismes au sein du complexe majeur d’histocompatibilité) (cf. Figure 1.6). Figure 1.6 – Prédisposition génétiques (en rouge : résistance, en vert : sensibilité) aux maladies infectieuses et modèles associés en fonction du nombre de gènes im- pliqués, de la pénétrance des allèles et du nombre de pathogènes. Adapté de Alcaïs et al. [2009]. SIDCS : syndrome d’immunodéficience combinée sévère ; HSE : encéphalite herpétique ; CMH : complexe majeur d’histocompatibilité . Pénétrance allélique

Infections associées Infections associées au SIDCS au CMH

Nombre de pathogènes Nombre HSE Malaria sévère à P. falciparum Malaria Lèpre à P. vivax

Nombre de gènes humains

Le fait que les auteurs se soient intéressés à plusieurs phénotypes différents (être atteint de lèpre sans distinction de la forme clinique appelée lèpre per se, de lèpre multibacillaire ou paucibacillaire) a permis de réaliser que certains gènes conférent une sensibilité à l’infection ou au développement de la lèpre per se indépendamment du sous-type clinique et que d’autres, au contraire, déterminent la polarisation de la maladie, c’est-à-dire la forme

23 clinique de lèpre. Un modèle génétique à deux niveaux a donc été proposé, différenciant deux groupes de gènes (cf. Figure 1.7). Dans la suite de ce manuscrit, nous nous intéresserons exclusivement aux gènes du groupe 1, à savoir ceux impliqués dans la sensibilité ∗ à la lèpre per se. Figure 1.7 – Modèle à deux niveaux de la prédisposition génétique à la lèpre. Adapté de Alter et al. [2010]

Formes multibacillaires

Lèpre 5-10% per se

Exposition à Formes M. leprae paucibacillaires

Absence d’infection 90-95% ou Infection sub-clinique Gènes du groupe 1 Gènes du groupe 2 (ex PARK2) (ex HLA-DRB1)

Dès lors que la prédisposition génétique à la lèpre est complexe et non mendélienne, il ne s’agit plus de montrer un lien de causalité à l’échelle cellulaire entre un polymorphisme et un phénotype mais bien de prendre en compte plusieurs polymorphismes, leurs interactions avec l’agent pathogène et les effets environnementaux qui participent tous à l’expression de la maladie. Cette évaluation se réalise à l’échelle d’une population. Les outils nécessaires, ceux de l’épidémiologie génétique, sont donc statistiques.

1.1.2 La prédisposition génétique à la lèpre : données et mé- thodes d’études en épidémiologie génétique

La prédisposition génétique à la lèpre a été analysée par le biais de deux types d’études (analyses de liaison ou d’association) et à l’aide de deux stratégies de sélection des marqueurs génétiques (gènes candidats ou pangénomique). En premier lieu, les analyses de liaison ont pour objectif d’identifier des régions d’intérêt (contenant un ou plusieurs gènes de sensibilité). Il s’agit de déterminer, parmi les marqueurs qui balisent les différentes portions du génome, ceux qui coségrègent avec la maladie. En pratique, il est testé pour chaque marqueur si deux frères/sœurs malades partagent plus de 50 % d’allèles hérités en commun de leurs parents. Les analyses de liaison ont ainsi permis d’identifier huit régions d’intérêt pour la lèpre, situées sur les 2, 6, 10, 17, 20 et 21 (cf. Figure 1.8). Les études d’association ont, quant à elles, pour but d’identifier, non plus des portions du génome, mais des variants causaux. Elles peuvent s’effectuer sur des échantillons d’individus non apparentés certains étant atteints (constituant les “cas”) et d’autres étant non atteints (les “contrôles”). Le principe est alors de comparer les distributions des génotypes pour des

∗. Le terme “sensibilité” est ici entendu au sens large, c’est-à-dire englobant les notions de prédisposition mais, également, de protection vis-à-vis du développement de la lèpre.

24 marqueurs donnés (ou les fréquences alléliques) entre les cas et les contrôles. Un deuxième type d’échantillons peut être utilisé pour les études d’association, il s’agit de familles comprenant des enfants atteints. Il est alors possible de tester s’il existe chez les parents hétérozygotes pour les marqueurs choisis une sur/sous-transmission d’un de leurs allèles aux enfants atteints. Quel que soit le type d’étude, plusieurs approches sont possibles concernant le choix des marqueurs génétiques. Dans la stratégie dite gène candidat (correspondant à une région candidate pour les études de liaison), des gènes susceptibles a priori de jouer un rôle dans la sensibilité à la lèpre sont sélectionnés et seuls les variants correspondants sont alors testés. Contrairement à l’approche gène candidat, les études d’association pangénomique (ou GWAS pour Genome Wide Association Study) permettent de se libérer de l’étape de la génération d’hypothèses et d’explorer des gènes qui n’auraient pas été sélectionnés sur la base d’a priori biologiques. En effet, ce ne sont plus quelques variants qui sont testés mais plusieurs centaines de milliers de SNP, le plus souvent correspondant à une puce de génotypage. Ces tagging-SNP sont choisis pour couvrir la totalité du génome, c’est-à-dire pour capter l’information portée par les SNP non génotypés par la puce. En effet, du fait du déséquilibre de liaison (cf. Infra), le génotype de certains SNP peut être inféré de la connaissance du génotype d’un seul SNP ‘ciblant la région considérée. L’utilisation des approches gènes candidats et pangénomique est illustrée dans les deux parties suivantes par des études d’association. Ces parties n’ont pas pour objectif de proposer une revue exhaustive des gènes associées à la sensibilité à la lèpre mais seulement de fournir des exemples, d’une part, des types de gènes impliqués dans cette sensibilité et, d’autre part, de souligner que les types de gènes identifiés par ces deux approches peuvent différer. L’ensemble des exemples cités est tiré de trois revues sur le sujet [Alter et al., 2010; Misch et al., 2010; Sauer et al., 2015] dont les résultats sont résumés dans la Figure 1.8.

1.1.2.1 Approches “gène candidat”

Comme cela a été indiqué précédemment, les études d’association de type gène candidat ont essentiellement porté sur des gènes susceptibles a priori de jouer un rôle dans la sensibilité à la lèpre. Au vu des éléments de physiopathologie (cf. 1.1.1.4), il est aisément compréhensible que la part belle ait été faite aux gènes ayant un rôle dans le système immunitaire ou l’inflammation : complexe majeur d’histocompatibilité (CMH), gènes des récepteurs et effecteurs de l’immunité innée. Seules les deux premières catégories, les plus étudiées, feront l’objet d’un bref développement. Gènes du complexe majeur d’histocompatibilité (CMH) Le complexe majeur d’histocompatibilité est un groupe de gènes hautement polymorphes situé dans un intervalle réduit (3,6 mégabases) du 6. La plupart de ces gènes codent des protéines impliquées dans la présentation des antigènes au cours de la réponse immunitaire (classe I et II) ou certaines cytokines (classe III), ce qui explique qu’ils aient été le sujet d’un grand nombre d’études gènes candidats. D’après Sauer et al. [2015], les polymorphismes ayant été le plus souvent associés à la sensibilité à la lèpre per se pour le CMH de classe II concernent les gènes HLA-DR2 et HLA-DR3. Le fait que ces associations aient été retrouvées dans différentes populations et par des équipes différentes souligne la solidité de ces résultats. Concernant le CMH de classe I, des allèles sont associés aux cas de lèpre aussi bien pour les gènes HLA-A, HLA-B que HLA-C dans des échantillons turcs, indiens et vietnamiens.

25 Figure 1.8 – Carte des zones de liaison et des gènes au sein desquels des variants ont été identifiés comme associés à la sensibilité à la lèpre. Les noms de régions sont à droite et ceux des gènes à gauche des chromosomes concernés. Les gènes et régions marqués en gras ont soit été identifiés par GWAS, soit par plusieurs études. Tiré de Gaschignard[2014] 26 Cependant, aucun des allèles trouvés dans l’échantillon turc (9 allèles associés à la sensibilité, 3 à la résistance à la maladie) n’est commun avec les polymorphismes indiens (4 allèles de sensibilité, 3 de résistance) ou vietnamiens [Alter et al., 2010]. Bien qu’il soit tout à fait possible que certains polymorphismes soient restreints à une population donnée, l’implication de tous ces allèles en tant que polymorphismes causaux reste discutable. Parmi les gènes du CMH de classe III, TNFA et LTA, qui codent des cytokines proin- flammatoires, sont identifiés par plusieurs études. Concernant TNFA, le même SNP dans son promoteur est retrouvé dans plusieurs études portant sur différentes populations. Cependant, ce polymorphisme est associé à des phénotypes différents en fonction de la population considérée par l’étude. Ainsi, tandis que ce SNP est associé au risque de développer la lèpre per se dans certains échantillons, il est surreprésenté seulement chez les patients lépromateux dans un échantillon indien et, au contraire, associé aux formes tuberculoïdes dans une étude portant sur des Brésiliens [Misch et al., 2010]. Au-delà des contradictions entre les publications, les résultats d’association concernant les polymorphismes de gènes du CMH sont d’autant plus délicats à interpréter que la région physique du complexe majeur d’histocompatibilité est dense. Du fait de la très faible distance physique entre les locus considérés, les allèles étudiés sont donc sujets à un fort déséquilibre de liaison. Ce phénomène, qui est d’autant plus fort que la distance entre deux loci est faible, correspond au fait que certains allèles à différents loci coségrégent dans la population et sont donc associés statistiquement entre eux ∗. En d’autres termes, lorsque 2 allèles (ou SNP) présentent un très fort déséquilibre de liaison l’information portée par l’un (son génotype) prédit celle portée par l’autre. Ainsi, les associations statistiques retrouvées dans les études précédentes peuvent être dues au déséquilibre de liaison entre le polymorphisme considéré et la mutation causale. Ce phénomène est un facteur de confusion d’autant plus grand que le déséquilibre de liaison peut bien entendu affecter des allèles de gènes différents. Ainsi, dans le cas cité ci-dessus, il est tout à fait possible que la mutation causale et le polymorphisme étudié se situent dans des gènes différents. Récepteurs de l’immunité innée Après les gènes du CMH, les gènes codant les récepteurs impliqués dans l’immunité innée ont été les plus étudiés. Ainsi, Misch et al. [2010] recensent six gènes ayant fait l’objet d’investigations : TLR1, TLR2, TLR4, NOD2, MRC1 et VDR. Nous verrons que si pour certains les arguments concernant leur implication dans la prédisposition à la lèpre semblent solides, d’autres sont l’objet de résultats contradictoires. L’intérêt pour le récepteur à la vitamine D (codé par le gène VDR) se justifie par le large spectre de modulations que présente la vitamine D sur le système immunitaire : elle peut présenter des actions inhibitrices ou au contraire stimulatrices en fonction du type de cellule impliquée. Au moins trois études indépendantes ont recherché des associations entre les polymorphismes de VDR et le fait, d’une part, de développer une lèpre per se puis, d’autre part, de présenter une forme clinique particulière de la maladie. Si des associations ont été mises en évidence avec la polarisation, aucun résultat significatif n’a été trouvé concernant la sensibilité à la lèpre per se. La famille des récepteurs Nod-like regroupe des récepteurs cytosoliques qui se lient à certains éléments de la paroi bactérienne. Dans cette famille, le récepteur NOD2 semble particulièrement intéressant à explorer puisqu’il a été impliqué dans la sensibilité à la tuberculose, dont l’agent pathogène Mycobacterium tuberculosis partage des caractéristiques

∗. De façon plus formelle, en considérant deux loci dialléliques : A et a sont les allèles du premier locus, pA et qa, étant leurs fréquences alléliques ; B et b les allèles du deuxième locus, et pB et qb leur fréquences alléliques. Si pAB est la fréquence des gamètes porteurs des allèles A et B, on définit le déséquilibre de liaison D par la relation : D = pAB − pA × pB.

27 avec M. leprae. Ainsi, la délétion du gène Nod2 a été associée dans les modèles murins, in vivo et in vitro, à une altération globale de la réponse immunitaire à M. tuberculosis. De plus, des mutations du gène humain NOD2 ont été associées à une sensibilité accrue ou à une protection vis-à-vis de la tuberculose chez des Afros-Américains. Une étude “gène candidat” a identifié 8 SNP dans les régions flanquantes de ce gène, chacun de ces polymorphismes est associé à une sensibilité augmentée à la lèpre per se. Cette étude est unique, cependant, l’implication de NOD2 semble confirmée par les études pangénomiques (cf. Infra). Le gène MRC1, codant pour un récepteur au mannose, nous fournit l’exemple rare d’un cas où des résultats d’épidémiologie génétique ont fait l’objet d’une tentative de validation fonctionnelle. Le choix de MRC1 a été motivé par son implication dans la phagocytose, en effet le récepteur au mannose a la propriété de se lier à certaines lipoprotéines bactériennes et, ainsi, d’induire la phagocytose. Une étude sur un échantillon vietnamien a permis d’identifier un unique SNP, nommé G396S, associé à la résistance à la lèpre. Ce résultat a été répliqué par la même équipe dans un échantillon brésilien. La phagocytose a été évaluée dans des cellules HEK portant le SNP G396S mais aucune différence n’a été observée entre les phénotypes associés aux allèles sauvages et G396S. Cet exemple souligne que la validation fonctionnelle des résultats d’épidémiologie génétique est délicate et constitue le plus souvent une étape limitante. Trois représentants de la famille des récepteurs Toll-like ont été étudiés. Parmi eux, TLR4 code un récepteur présent à la surface des macrophages, monocytes et cellules dendritiques qui se lie au LPS des bactéries Gram-négative. TLR4 semble d’ailleurs impliqué dans la reconnaissance de M. tuberculosis. Concernant la sensibilité à la lèpre per se, TLR4 a été l’objet de deux études, l’une réalisée sur un échantillon constitué d’individus éthiopiens et l’autre venant du Malawi. La première a mis en évidence une association entre deux SNP, déjà identifiés dans la sensibilité à d’autres infections à bactéries Gram-négative telles la légionellose, et une protection vis-à-vis de la lèpre. Cependant, ces résultats n’ont pas été répliqués. L’implication de TLR4 dans la prédisposition à la lèpre reste donc à démontrer. Les récepteurs TLR1 et TLR2 sont d’un intérêt particulier dans l’étude de la sensibilité à la lèpre puisqu’ils forment un hétérodimère qui semble être impliqué dans la reconnaissance de M. leprae. Aucune des études portant sur TLR2 et la sensibilité à la lèpre per se n’a fourni de résultats significatifs alors, qu’au contraire, l’implication du gène TLR1 est considérée comme l’une des plus solide [Misch et al., 2010]. Ainsi, le SNP 1805G (guanosine en position 1805) a été identifié comme protecteur vis-à-vis de la lèpre per se dans une étude en Turquie. Le fait que cette association n’ait pas été retrouvée au Népal et au Bangladesh dans deux études ultérieures n’est pas, dans ce cas particulier, interprété comme une remise en question des résultats précédents. En effet, la fréquence de l’allèle 1805G est variable selon la population considérée. De plus, il a été montré que ce polymorphisme est sous sélection positive dans certaines populations seulement. Ces résultats suggèrent que TLR1 pourrait avoir des impacts différents sur la sensibilité à la lèpre per se selon la population considérée. Enfin, plusieurs études fonctionnelles ont mis en évidence l’importance de ce polymorphisme dans l’expression du récepteur TLR1 et dans la voie de signalisation NF-κB. Outre les gènes des deux catégories précédentes, les études gènes candidats ont également porté sur des gènes codant des cytokines ne faisant pas partie du CMH de classe III (dont IL10 et IFNG), des molécules de transport (NRAMP1 ) ou des protéines sériques (MBL2 ).

28 1.1.2.2 Approches pangénomiques

La première étude d’association pangénomique (ou GWAS) sur la sensibilité à la lèpre per se a été réalisée par Zhang et al. [2009]. Elle comprenait 706 cas et 1225 individus contrôles originaires de l’Est de la Chine. Parmi les 491 883 SNP testés, 93 SNP étaient associés au phénotype lèpre per se de façon significative (p < 10-5). Ces 93 SNP ont ensuite été testés dans trois autres échantillons indépendants ∗ totalisant 3 254 malades et 5 955 contrôles. Après cette étape de réplication, 15 des 93 SNP testés étaient toujours significativement associés à la sensibilité à la lèpre per se. Ces 15 SNP sont situés dans 6 gènes : CCDC122, LACC1, NOD2, TNFSF15, RIPK2 et HLA-DR-DQ. Ce premier GWAS a permis de confirmer l’implication de NOD2 qui avait été suggérée par une étude gène candidat effectuée au Népal (cf. Supra). Les résultats concernant 4 des 5 autres gènes ont ensuite été répliqués dans des études indépendantes. Les associations avec CCDC122 et LACC1 ont été retrouvées dans deux GWAS ultérieurs réalisés dans des populations indiennes et africaines mais également dans une étude indépendante au cours de laquelle les 15 SNP de l’étude chinoise ont été testés dans un échantillon vietnamien. Cette étude a également reproduit les associations avec RIPK2 et HLA-DR-DQ. Enfin, HLA-DR-DQ a également été retrouvé associé à la lèpre dans le GWAS indien. Les résultats de ce premier GWAS sont donc considérés comme robustes Cette étude est d’autant plus intéressante qu’elle a fourni des résultats d’association qui étaient essentiellement inédits. Ainsi, l’approche pangénomique a permis non seulement d’identifier l’implication de gènes dont le rôle dans l’immunité est connu (TNFSF15, RIPK2, HLA-DR-DQ) et qui n’avaient pas été sélectionné pour une approche gène candidat, mais surtout des gènes de fonctions inconnues (CCDC122, LACC1 ) qui n’auraient pas été pris en compte dans une approche gène candidat. À l’heure actuelle, plusieurs autres études pangénomiques sur la sensibilité à la lèpre ont été publiées. Elles ont suggéré l’implication de nouveaux gènes tels IL23R et RAB23 mais, contrairement à ce premier GWAS, aucune de ces études n’a fourni de résultats qui ont été répliqués lors d’études indépendantes. Les approches gènes candidats et pangénomiques permettent ainsi d’atteindre des catégories différentes de gènes et pourraient donc être pensées comme complémentaires. Cependant, l’étude de leurs limites met en évidence qu’elles ne peuvent explorer que certains groupes de gènes particuliers.

1.1.2.3 Limites des approches actuelles

Les deux types d’études actuellement mises en oeuvres (dites GWAS et gènes candidats) présentent des limitations. Ainsi, les études d’association pangénomique ou GWAS, en testant l’association entre le phénotype étudié et le génotype de plusieurs centaines de milliers de SNP, soulèvent la question des tests multiples. Plus ces derniers sont nombreux et plus le risque du nombre de faux positifs augmente, nécessitant une correction du seuil de significativité d’autant plus stringente [Rice et al., 2008]. Cependant, dans le contexte des maladies multifactorielles dites complexes peu de SNP présentent un effet assez important pour atteindre les seuils de significativité corrigés. En l’absence de SNP montrant une association significative, les signaux évocateurs doivent nécessairement être validés par une réplication dans un échantillon indépendant afin d’exclure les faux positifs.

∗. Il s’agit d’une procédure de réplication interne visant à exclure les fausses associations. En effet, le jeu de données étant différent, il est probable que les facteurs de confusion responsables de faux positifs dans l’association primaire soient également différents et que ces derniers ne soient pas retrouvés significatifs.

29 Cette étape est limitante puisqu’à l’heure actuelle peu de résultats concernant la lèpre ont pu être répliqués avec succès [Sauer et al., 2015]. Le problème des tests multiples pénalise dans une moindre mesure les résultats des études gènes candidats car le nombre de variants pris en compte est plus faible. Cependant, cette approche présente d’autres limitations qui lui sont spécifiques notamment concernant la génération des candidats à tester. En effet, à l’heure actuelle, dans toutes les études de ce type les gènes candidats sont sélectionnés sur leurs rôles supposés dans la physiopathologie de la lèpre ou à partir d’analogies avec des mycobactérioses notamment la tuberculose. Cette méthode de sélection est donc limitée par la connaissance incomplète que nous avons du génome humain et de la maladie. Ainsi, les études gènes candidats basées sur des a priori fonctionnels ne permettent pas d’explorer des séquences de fonctions inconnues (codant des protéines de fonctions inconnues ou des séquences non codantes intervenant dans la régulation de l’expression ou de l’épissage), des séquences codant des protéines pléiotropes dont une partie des fonctions sont inconnues mais interviennent justement dans les mécanismes physiopathologiques ou encore des gènes dont la fonction est connue mais dont on ne soupçonne pas qu’elle puisse être impliquée dans la maladie. Ce dernier point peut se révéler particulièrement vrai dans le cas de la lèpre où une partie des réactions immunologiques et des mécanismes menant aux lésions nerveuses n’est pas élucidée [Misch et al., 2010]. Ainsi, l’approche GWAS semble limitée à l’identification de polymorphismes ayant un effet fort alors que ces derniers sont supposés peu nombreux dans le cas de la lèpre. Concernant l’approche gènes candidats, les connaissances mobilisées lors du choix des gènes cibles limite les catégories de gènes explorés. Or, dans le cas de la sensibilité à la lèpre, cette connaissance relève quasi exclusivement de ce que nous savons de la physiopathologie de la maladie, limitant ainsi les gènes explorés à ceux de l’immunité et de l’inflammation. Afin d’identifier de nouveaux gènes candidats, il pourrait être judicieux de prendre en compte d’autres types de données. La partie suivante, en faisant brièvement l’état des lieux des connaissances sur la lèpre chez l’animal, tentera de prouver que ces données peuvent provenir de la comparaison entre le génome humain et ceux de certains animaux.

1.2 La lèpre chez l’animal

Cette section consiste en une revue orientée de l’état des connaissances sur la lèpre chez l’animal. “Orientée” car l’objectif sous-jacent de cette section est d’identifier des espèces, et plus particulièrement des génomes, susceptibles de nous apporter des informations sur la prédisposition à la lèpre chez l’Homme. Nous considérerons, en premier lieu, les modèles expérimentaux ayant déjà contribué à faire avancer les connaissances sur la lèpre humaine. Une partie entière sera ensuite consacrée au tatou à neuf bandes (Dasypus novemcinctus), un modèle expérimental et un hôte naturel de M. leprae. Enfin, nous nous questionnerons sur l’existence d’autres espèces naturellement atteintes par la lèpre. La maladie animale nommée lèpre murine ne sera pas abordée. En effet, il s’agit d’une mycobactériose strictement animale (touchant les rats, les souris et les chats) due à Mycobacterium lepraemurium. L’aboutissement de cette revue sera la définition, dans la section suivante, du cadre général de notre travail expérimental.

30 1.2.1 À la recherche de modèles expérimentaux

Cette partie sera l’occasion d’évoquer la recherche de modèles expérimentaux animaux puis de présenter les modèles murins et primates non humains. Le tatou à neuf bandes, en raison de son intérêt particulier pour notre étude, fera l’objet d’une partie spécifique (cf. 1.2.2). La recherche de modèles animaux a été motivée essentiellement par le besoin de produire le bacille, non cultivable in vitro, et dans un second temps de modéliser la physiopathologie de la lèpre. L’optique adoptée par la présente étude est quelque peu différente dans la mesure où il s’agit d’établir quels modèles peuvent nous apporter des informations sur la prédisposition génétique à la lèpre. La pertinence des modèles animaux existants sera donc discutée en fonction de leur capacité à mimer la pathologie et en fonction l’existence chez ces espèces d’une prédisposition génétique à l’infection par M. leprae.

1.2.1.1 Les premières expérimentations

Devant la difficulté de cultiver in vitro le bacille de la lèpre, les scientifiques de la fin du XIXe et début du XXe siècle se sont rapidement mis à la recherche de modèles in vivo. Ainsi, de nombreux animaux domestiques ou de laboratoire ont été l’objet d’inoculations expérimentales infructueuses. Dans une revue sur la question, Bayon[1912] rapporte que Neisser a tenté, dès 1881, d’inoculer le bacille de la lèpre à des lapins sans succès, mais qu’il a observé des lésions chez des chiens après une injection d’une préparation obtenue à partir de nodules de malades humains. Le fait est que, si la majorité des publications rapportent que les animaux testés sont résistants, une part non négligeable d’auteurs affirment observer après l’inoculation de M. leprae à certains animaux une multiplication du bacille, des lésions voire même des signes cliniques qu’ils jugent caractéristiques de la lèpre. Ainsi, Bayon[1912] comptabilise, entre 1881 et 1911, 16 études ayant donné des résultats positifs sur des chiens, des souris, des lapins et divers singes. Les résultats positifs concernant la multiplication du bacille reposent sur l’observation de nodules apparus au point d’inoculation, la multiplication étant actée si ces nodules contiennent des bacilles alcoolo-acido-résistants. Concernant les lésions observées, il s’agit le plus souvent de nodules disséminés sur les organes abdominaux et visibles à l’autopsie. Ainsi, Duval[1910] décrit des nodules blancs sur le péritoine de souris qu’il qualifie de lésions lépreuses. Duval et Couret[1912] rapportent également le cas d’un macaque rhésus ayant subi des injections répétées de bacilles et qui aurait, 13 mois plus tard, développé le tableau clinique de la lèpre tuberculoïde. Les signes cliniques rapportés comprennent une réaction érythémateuse sur le visage et surtout la formation d’abcès contenant du pus, visibles sur la peau puis au niveau du foie à l’examen nécropsique. Si la réaction érythémateuse peut faire partie du tableau clinique de la lèpre tuberculoïde, elle n’en constitue en aucun cas un signe pathognomonique. Concernant les abcès, ils ne font tout simplement pas partie des symptômes recensés, même dans une large mesure, chez l’humain. De façon plus générale, Rees[1973] rapporte, dans une revue sur le sujet, qu’aucun des tableaux cliniques évoqués à l’époque ne comprend une implication nerveuse. Plusieurs éléments peuvent expliquer que les auteurs de l’époque aient tiré de ces expériences des conclusions erronées. Tout d’abord, la plupart des études manquent d’inoculations contrôles appropriées. À ce titre, les expériences menées par de Souza-Araujo[1931] sur des rongeurs et des singes sont plus pertinentes. Elles nous permettent d’affirmer que les nodules considérés par de nombreux auteurs comme des signes de lèpre n’étaient pas liés à une sensibilité au pathogène. Ainsi, outre les injections de bacilles, de Souza-Araujo[1931] a réalisé des

31 injections de matériel jugé non virulent (bacilles traités par la chaleur et cire d’abeille notamment). Or, les lésions présentées par les animaux contrôles étaient similaires aux nodules décrits par Duval. L’origine et le traitement du matériel injecté sont également à mettre en cause. Ainsi, les suspensions de bacilles étaient obtenues à partir de nodules cutanés de patients lépreux, il est donc tout à fait probable que les échantillons cutanés aient été l’objet de contamination notamment par des mycobactéries saprophytes [Rees, 1973]. La suspicion de contamination est d’autant plus forte dans le cas d’inoculation faisant suite à une phase de culture du bacille, où de toute évidence ce sont d’autres bactéries que M. leprae qui sont obtenues. C’est le cas, par exemple, de l’étude de Duval et Couret sur le macaque rhésus, les abcès disséminés de ce dernier pourraient être le fait de bactéries pyogènes. Enfin, les délais entre les injections et le sacrifice des animaux sont très variables selon les études. Si certaines attendent plusieurs mois, d’autres tirent des conclusions après une dizaine de jours. Ainsi, Couret[1911] a exploré la sensibilité à l’infection de certains animaux poïkilothermes (tortues, poissons, serpents, têtards et grenouilles) sur la base des modifications macroscopiques observées après un délai inférieur au temps de doublement du bacille. Dans ce contexte, il peut être difficile de juger de la valeur des résultats mêmes négatifs obtenus à l’époque. Or bon nombre des espèces testées entre 1880 et 1930 sont jugées non-sensibles à M. leprae sans qu’ait été fait, à notre connaissance, d’autres expériences. Il ne s’agit pas ici de remettre en cause la résistance communément admise de ces espèces mais seulement de commencer à souligner la difficulté qu’il y a à déclarer des espèces comme non sensibles à la lèpre. Le nombre des espèces dont la sensibilité à la maladie a été explorée entre 1880 et 1930 est difficile à établir avec certitude. Cette liste comprend au moins : les lapins, les cobayes, les rats et les souris pour les animaux de laboratoire, un certain nombre de primates non humains tels les macaques et orang-outan et des animaux moins conventionnels du point de vue expérimental notamment des chèvres, des porcs, des chiens, des chats, des pigeons, des chauve-souris ainsi que les poïkilothermes cités précédemment. Les expériences conduites entre 1930 et 1960, bien qu’infructueuses, présentaient moins de limitations, en particulier les auteurs ont adopté des protocoles se basant sur des mesures comparatives et quantitatives pour évaluer la multiplication du bacille. Les études se sont concentrées alors quasi exclusivement sur les modèles murins et des primates non humains, en explorant, en particulier, la sensibilité d’individus immunodéprimés [Rees, 1973]. Ce choix préfigure en partie les espèces qui peuvent aujourd’hui être considérées comme sensibles expérimentalement à l’infection ou du moins chez lesquelles le bacille peut se multiplier.

1.2.1.2 Les modèles murins et leurs limites

Il faut attendre 1960 pour que Charles Shepard démontre la possibilité de multiplier Mycobacterium leprae dans les coussinets plantaires de souris [Shepard, 1960]. Le choix de ce site d’injection est motivé par la démonstration, alors récente, que Mycobacterium marinum et Mycobacterium ulcerans se multiplient dans les coussinets de souris bien que leurs températures optimales de multiplication soient inférieures à 37 °C[Levy et Ji, 2006]. Or, au vu de la localisation des lésions chez l’humain (majoritairement restreintes à des zones superficielles tels la peau et les nerfs périphériques), les scientifiques suspectaient déjà que M. leprae devait présenter une température de multiplication aussi faible que ces mycobactéries. La seconde innovation de Shepard concerne le matériel infectieux utilisé : le bacille n’était plus obtenu à partir de nodules cutanés, mais d’excrétions nasales de malades assurant sûrement un taux plus important de microorganismes viables.

32 Shepard a ainsi inoculé de l’ordre de 104 bacilles dans les coussinets de 20 souris non consanguines Swiss Webster (CFW) immunocompétentes avant d’effectuer jusqu’à cinq passages d’une souris à une autre. Les résultats décrivent une multiplication d’un facteur 50 à 1000 à chacun de ces passages. Il a ensuite été montré sur des souris consanguines BALB/c immunocompétentes que la multiplication bacillaire atteignait un plateau après 150 jours (Levy[1970] rapporté par Levy et Ji[2006]). Suite à cette phase stationnaire, il semble que les bacilles soient tués par la réponse immunitaire de la souris. Welch et al. [1980] ont estimé que les microorganismes viables disparaissaient avec une demi-vie de 25 jours. Du point de vue macroscopique, Shepard décrit des lésions inconstantes consistant en des indurations localisées aux coussinets, et rapporte la formation de petits granulomes et la présence de macrophages et lymphocytes à l’examen histologique. Ces résultats ont été par la suite confirmés et reproduits, dans une moindre mesure, chez d’autres rongeurs (le rat, la gerbille, le hamster) toujours au niveau des coussinets ou des oreilles [Binford, 1968]. Cependant, cette multiplication ne s’accompagne en aucun cas d’une dissémination de M. leprae. La souris immunocompétente est donc considérée comme non sensible à la lèpre et neconstitue pas un modèle pour les études physiopathologiques et/ou génétiques de la maladie. Au cours de la décennie suivante, des modèles murins immunodéprimés ont été développés notamment dans le but de pouvoir multiplier le bacille et d’en obtenir des quantités plus importantes. Trois types de modèles ont été utilisés : des souris adultes CBA thymectomisées puis irradiées (T 900 R), des souris nude et des souris thymectomisées à la naissance [Gaugas, 1968]. Elles permettent effectivement de récolter une quantité plus élevée de bacilles (entre 107 à 109 bacilles par coussinets). Contrairement aux souris immunocompétentes, ces souris développent une infection disséminée qui se manifeste, 6 mois après l’inoculation, par une tuméfaction des zones distales (coussinets des autres pattes, oreilles, nez, queue) [Rees, 1988]. Du point de vue histologique, les lésions ne sont pas constituées de granulomes organisés ; elles sont infiltrées de macrophages chargés en bacilles comme observé chez des patients LL [Hagge et al., 2004]. Ces modèles ont d’ailleurs contribué à découvrir le rôle pivot des lymphocytes T dans le spectre immunohistologique de la lèpre. Ainsi, Gaugas et al. [1970] ont montré que l’infection développée par les souris thymectomisées puis irradiée – et ne présentant donc plus de lymphocytes T – peut être stoppée par une greffe de thymus. L’étude histologique des lésions 7 mois après la greffe montre la formation de granulomes plus ou moins organisés similaires selon les auteurs à ce qui est observé chez des patients borderlines. Cependant, pour autant que la symptomatologie clinique mimique celle de l’Homme, les souris immunodéprimées constituent un modèle par défaut permettant, à l’époque, essentiellement une culture in vivo du bacille. Le développement des outils permettant l’invalidation de certains gènes chez la souris a élargi l’intérêt du modèle murin. En effet, les techniques de knock-out ont permis d’explorer si des souris génétiquement modifiées pour des gènes d’intérêt identifiés chez l’Homme présentaient des différences quant à la multiplication ou même la dissémination du bacille. Ainsi, Adams et al. [2012] et Hagge et al. [2009] ont testé les différences de réponse à M. leprae entre six souris mutantes et des contrôles, chaque mutant portant une inactivation d’un gène d’intérêt donné. Les critères pour juger d’une différence de réponse étaient la charge bacillaire, la surface d’induration des coussinets, leurs aspects histologiques, le profil des populations cellulaires infiltrant les lésions, et les niveaux de production in situ de certaines cytokines et chemokines. souris KO p40 p40 (aussi appelée IL12b, ou IL23 sous-unité p40) est une sous-unité commune aux interleukines 12 et 23 (IL12 et 1L23), les souris p40-/- ne produisent ni IL12, ni IL23 fonctionnelles. Adams et al. [2012] ont observé que les souris p40-/- présentaient, après

33 inoculation, une charge bacillaire et une induration significativement plus importante que les souris p40+/+. Les lésions étaient caractérisées chez les souris KO par l’absence de granulome et par une infiltration d’histiocytes. Le pourcentage de lymphocytes CD8+ était également significativement plus élevé chez les souris p40-/- alors, qu’au contraire, elles présentaient moins d’ARNm codant les cytokines INFγ et TNF nécessaires à l’élaboration d’une réaction immunitaire cellulaire. Ces résultats suggèrent que l’IL12 et l’IL23 sont impliquées dans le contrôle de la multiplication de M. leprae via l’élaboration d’une réaction granulomateuse chez la souris. souris KO IFNγ Adams et al. [2012] se sont également intéressés aux souris IFNγ-/-. Ces dernières présentaient une charge bacillaire plus importante que les contrôles. Neuf mois après l’inoculation, les coussinets des souris IFNγ-/- étaient significativement élargis indiquant que l’infiltration cellulaire se poursuivait même après que la phase de plateau marquant la fin de la multiplication du bacille soit atteinte. Contrairement aux souris contrôles, les individus IFNγ-/- présentaient un infiltrat diffus de mononucléaires et peu de lymphocytes, ce que les auteurs considèrent comme caractéristique des lésions des patients borderlines. souris KO LTα En 2007, Alcaïs et al. ont décrit un SNP localisé dans le promoteur du gène LTA codant la lymphotoxine α, associé à la sensibilité à la lèpre per se chez l’Homme dans trois populations distinctes (vietnamienne, brésilienne et indienne). Bien que l’implication de la lymphotoxine α dans la réponse immunitaire cellulaire et l’inflammation chronique soit connue, aucune étude ne s’était alors penchée sur son rôle lors d’une l’infection par M. leprae. Hagge et al. [2009] ont montré que les souris LTα-/- présentaient une charge bacillaire significativement plus élevée que les souris contrôles dans la phase tardive de l’infection. Le développement de l’induration chez ces individus était moins rapide et cette dernière ne se maintenait pas. Hagge et al. ont également comparé la distribution différentielle des lymphocytes T dans les lésions et les noeuds lymphatiques des souris KO et des contrôles. Les souris déficientes en lymphotoxine α présentaient peu de lymphocytes T au niveau des lésions mais significativement plus de lymphocytes dans le noeud lymphatique poplité que les souris contrôles. Ces résultats suggèrent que la lymphotoxine α est nécessaire au maintien de la réaction granulomateuse et est impliquée dans les flux de cellules immunitaires chez la souris. souris KO TNF La même équipe a évalué l’effet d’un knock-out du gène TNF codant le facteur de nécrose tumorale et du gène du récepteur correspondant (TNFR1 ). La charge bacillaire était augmentée d’un facteur 10 chez les souris KO pour l’un ou l’autre de ces gènes. Histologiquement, les lésions de ces souris étaient caractérisées par un infiltrat lymphocy- taire diffus constitué majoritairement de lymphocytes CD4+. L’expression des cytokines inflammatoires était également significativement plus élevée que chez les souris contrôles TNF+/+ ou TNFR1+/+. Ainsi, chez la souris, le TNF semble nécessaire au développement d’un granulome capable de juguler la multiplication de M. leprae. souris KO IL10 Adams et al. [2012] relatent également des données non publiées concernant des souris IL10-/-. Malgré une tendance à l’augmentation du nombre de macrophages et de cellules épithélioïde, aucune différence significative que ce soit en terme de charge bacillaire ou de profil lymphocytaire n’est rapportée entre les souris IL10-/- et IL10+/+. souris KO PARK2 La dernière catégorie de souris KO étudiée par Adams et al. [2012] est constituée d’individus PARK2-/- déficients en parkine 2. Après inoculation de M. leprae, la charge

34 bacillaire a été observée tous les 30 jours pendant 12 mois sans qu’aucune différence significative n’ait été relevée entre les souris PARK2-/- et PARK2+/+. Seuls le degré d’induration et les taux d’ARNm TNF, IFNγ, IL12 et IL23 étaient significativement supérieurs chez les souris PARK2-/-. Ces différences ne concernaient, pour les cytokines, que le 4e mois post-infection, correspondant au pic de multiplication du bacille. Enfin, quels que soient les marqueurs utilisés en cytométrie de flux, les populations lymphocytaires des lésions et des noeuds lymphatiques étaient identiques chez les souris des deux génotypes. Ces résultats suggèrent que PARK2 ne pourrait avoir qu’un effet très subtil sur la sensibilité à la lèpre chez la souris, contrairement aux cytokines testées précédemment. Les différents modèles murins développés présentent des limitations aussi bien concernant l’étude de la maladie que de la prédisposition génétique à l’infection. Ainsi, les souris immunocompétentes, bien qu’elles permettent une multiplication transitoire de M. leprae, ne peuvent pas être considérées comme sensibles. Les modèles immunodéprimés présentent une multiplication et une dissémination du bacille. Cependant, si les lésions développées sont histologiquement similaires à celles des patients LL, la symptomatologie qu’elles présentent, à savoir une tuméfaction des extrémités, n’est pas représentative des signes cliniques observés chez l’Homme. Les souris knock-out contribuent à une meilleure connaissance des aspects immunogénétiques de la maladie. Dans le cadre de l’étude de la prédisposition génétique à la lèpre, elles peuvent fournir des arguments supplémentaires en faveur de l’implication d’un gène lorsque ce dernier n’a été identifié que dans une seule étude d’épidémiologie génétique ou est l’objet de résultats contradictoire (c’est, par exemple, le cas du gène IFNG humain). Les souris KO permettent également d’explorer le rôle de certains gènes lors de l’infection par M. leprae lorsque les fonctions de leurs produits ne sont pas ou peu connues (c’était le cas des gènes humains LTA et PARK2 ). Cependant, les techniques de knock-out, lorsqu’elles invalident complètement un gène en créant un allèle nul, ne permettent pas d’explorer les répercussions de variants nucléotidiques singuliers, correspondant à des allèles hypomorphes, hypermorphes, ou dominant-négatifs. Les souris KO ne constituent pas forcément un outil de validation fonctionnelle à l’échelle du variant. Les modèles murins ne permettent pas de modéliser la maladie humaine et encore moins la prédisposition génétique à la lèpre puisque le phénotype naturel de la souris est une résistance à l’infection.

1.2.1.3 Les primates non humains

Outre aux animaux de laboratoire ou domestiques, les scientifiques travaillant sur la lèpre se sont intéressés assez rapidement aux primates. Ainsi la première inoculation expérimentale de M. leprae daterait de 1882, quand Kobner injecta par voie sous-cutanée le bacille à un macaque crabier [Meyers et al., 1991]. Les expériences sur les primates restèrent décevantes jusqu’en 1958, date de la démonstration par Gunders de l’infection d’un chimpanzé [Gunders, 1958]. À l’heure actuelle, au moins quatre autres espèces de primates ont été identifiées comme présentant une sensibilité plus ou moins importante à une infection expérimentale et à la maladie. Les mangabeys couronnés (Cercocebus atys) sont pour la plupart d’entre eux sensibles à une infection par la voie intraveineuse ou intradermique, et présentent une clinique similaire à la lèpre humaine. Ainsi, Meyers et al. [1991] rapportent le développement d’une lèpre multibacillaire chez 24 de 36 animaux inoculés, avec des signes cliniques, histologiques et immunologiques semblables à ceux de l’Homme. Des résultats comparables sont rapportés par Gormus et al. [1995] qui ont suivi le développement de diverses formes de lèpre (borderline à multibacillaire) chez 31 mangabeys pendant 4 à 12 ans. Wolf et al. [1985] rapportent en détail les modifications cliniques et histologiques

35 observées sur 11 mangabeys dans les mois suivant des inoculations de M. leprae par la voie intraveineuse ou intradermique. Ainsi, 9 singes ont présenté des lésions aux sites d’injection 4 à 6 mois après inoculation. À partir de 10 mois, des lésions sont apparues au niveau du scrotum, région n’ayant pas fait l’objet d’inoculation, puis se sont étendues au visage, aux oreilles et aux extrémités 29 mois après injection. Ces lésions consistaient en des épaississements de la peau, diffus ou sous forme de nodules, souvent ulcérés (cf. Figure 1.9). Histologiquement, les lésions étaient infiltrées d’histiocytes spumeux et présentaient peu de lymphocytes, ce qui est similaire aux lésions présentées par les patients LL. Les auteurs ont également relevé la présence de bacilles alcoolo-acido-résistants dans les sécrétions nasales des 11 singes inoculés. Figure 1.9 – Photographie du visage d’un mangabey infecté expérimentalement par M. leprae. Des épaississements diffus de la peau, des nodules et des ulcères sont visibles. Tiré de Baskin et al. [1985]

Baskin et al. [1985] ont publié les résultats de l’autopsie d’un de ces mangabeys réalisée 46 mois après l’inoculation. Outre les lésions décrites précédemment, les auteurs ont observé des déformations des orteils similaires aux “déformations en griffe” décrites chez les patients tuberculoïdes ainsi qu’une hypertrophie du nerf fibulaire commun (cf. Figure 1.10). L’implication nerveuse a été confirmée à l’examen histologique, le nerf fibulaire était largement infiltré par des histiocytes chargés de bacilles alcoolo-acido-résistants. Des observations similaires ont été faites concernant le nerf ulnaire et certains nerfs dermiques. Des infiltrats de même nature ont également été observés au niveau des muqueuses nasales et des tuniques externes des testicules. Ces observations sont similaires à celles rapportées dans les cas d’autopsies de patients lépreux en particulier lors d’atteintes lépromateuses ; cependant, contrairement à ce qui est souvent rapporté chez les patients LL, le mangabey ne présentait pas d’atteinte viscérale. De même que pour le modèle mangabey, la majorité des singes verts (Cercopithecus aethiops) testés développent également une clinique (15 sur 19 [Meyers et al., 1991]) et des lésions histologiques de lèpre multibacillaire [Baskin et al., 1987].

36 Figure 1.10 – Photographie du nerf fibulaire commun d’un mangabey infecté expé- rimentalement par M. leprae (jambe droite). La section hypertrophiée du nerf (flèche) atteint un diamètre 3 fois supérieur au diamètre du reste du fibulaire. Tiré de Baskin et al. [1985]

Cependant, la sensibilité à l’infection et à la maladie semble plus faible, voire même contestable, chez d’autres espèces de primates. Ainsi, Meyers et al. [1991] rapportent que sur 34 macaques rhésus (Macaca mulatta) testés seuls 7 présentaient des symptômes et des signes histologiques jugés similaires à ceux de patients tuberculoïdes. Enfin, Walsh et al. [2012] ont étudié 24 macaques crabiers (Macaca fascicularis) pendant une moyenne de 6 ans après inoculation du bacille. Les auteurs concluent à une “sensibilité limitée à la lèpre” : seuls 4 des 24 singes montraient des signes histologiques jugés suggestifs des formes BL et LL et des bacilles alcoolo-acido-résistants dans leurs écouvillons nasaux. Les auteurs interprètent ces résultats comme le signe d’infections subcliniques chez ces quatre individus. En effet, aucun singe n’a montré de signes cliniques si ce n’est l’apparition de nodules aux points d’injection dans les 1 à 3 mois après inoculation, se résorbant spontanément dans les 12 mois suivants. Cependant, les signes histologiques considérés comme suggestifs d’une lèpre subclinique et d’une dissémination du bacille se résumaient pour 3 des 4 singes à la présence de bacilles alcoolo-acido-résistants, morts pour certains, dans des zones proches des sites d’inoculation (le lobe de l’oreille, le septum nasal, le nerf ulnaire alors que les injections intradermiques ont été réalisées au niveau de l’hélix de l’oreille, de la pointe du nez et de la face latérale du bras). De même, la présence de bacilles alcoolo-acido-résistants dans des écouvillons nasaux est habituellement interprétée comme un argument en faveur de la dissémination de M. leprae après inoculation ; mais, dans ce cas précis, il est difficile de juger d’une véritable dissémination puisque les inoculations ont justement été réalisées au niveau de la pointe du nez. Finalement, seul un individu présentait de véritables signes d’une dissémination à distance du bacille, la présence de bacilles alcoolo-acido-résistants étant relevée au niveau du scrotum et des paupières. De

37 plus, l’utilisation de huit protocoles d’inoculation ∗ différents et non comparables fragmente l’effectif en groupes de trois individus, il est donc délicat de considérer les résultats obtenus comme autre chose que des observations à l’échelle individuelle. L’étude de cette publication souligne que la notion de sensibilité expérimentale à la lèpre varie selon les auteurs, certains se contentant de signes histologiques pour déclarer que les animaux développent la maladie. Dans ce manuscrit, nous considérerons que la sensibilité à l’infection par M. leprae sous-entend une multiplication et une dissémination du bacille et que la présence de symptômes est nécessaire pour évoquer une sensibilité à la lèpre, en tant que maladie clinique. Selon ces critères, seules trois espèces (mangabeys couronnés, singes verts et macaques rhésus) peuvent être considérées comme sensibles à la lèpre expérimentale. Au vu de la grande similarité en termes de symptomatologie et d’histologie entre les cas décrits et la lèpre humaine, ces espèces, phylogénétiquement proches de l’Homme, pourraient constituer de bons candidats pour notre étude. Cependant, pour que ces modèles puissent nous apporter des informations sur la prédisposition génétique à la lèpre, il est nécessaire que leur sensibilité à la maladie comprenne une composante génétique. Le fait qu’au sein de chacune de ces trois espèces certains individus ne développent ni infection ni maladie suite aux inoculations plaide en faveur de l’existence d’une telle composante génétique. Cependant, il n’existe, à notre connaissance, aucun autre type d’observation allant dans le même sens.

1.2.2 Le cas particulier du tatou : du rôle de modèle expérimen- tal à celui de réservoir naturel

La découverte de la sensibilité du tatou à neuf bandes (Dasypus novemcinctus) à l’infection expérimentale par Kirchheimer et Storrs[1971] a constitué un tournant dans l’étude de la maladie. En effet, l’importante multiplication du bacille au sein de cet animal a motivé l’installation de plusieurs élevages et grandement facilité la production du bacille à des fins expérimentales ([Balamayooran et al., 2015]). Au cours de la décennie suivante, il s’est avéré que le tatou à neuf bandes constitue également un hôte naturellement sensible à l’infection par M. leprae [Walsh et al., 1986]. Si la découverte de cas naturels a tout d’abord soulevé la question d’une transmission du bacille à la faune sauvage par des animaux d’expérimentation, cette hypothèse a aujourd’hui été balayée. Ainsi, Truman [2005] a montré que la lèpre est enzootique chez les tatous de Louisiane depuis au moins 1961, c’est-à-dire 10 ans avant la découverte de leur sensibilité par Kircheimer et, de fait, leur utilisation expérimentale.

1.2.2.1 Généralités sur le tatou à neuf bandes

Tout comme l’humain, le tatou fait partie de l’infraclasse des Placentalia (mammifères placentaires) mais appartient au superordre des Xenarthra comprenant également le paresseux et le fourmilier (cf. Figure 1.11).

∗. Inoculations parfois répétées, voies d’injection multiples, sources différentes de bacille dont certaines provenant de mangabeys SIV positifs et ayant provoqué une immunodépression chez certains macaques de l’étude.

38 Figure 1.11 – Positionnement au sein des Placentalia des superordres Euarchonto- glires et Xenarthra auxquels appartiennent respectivement l’Homme et le tatou. En rouge est figuré leur dernier ancêtre commun. Adapté de Morgan et al. [2013]

Placentalia

Il existe au moins 21 espèces de tatou, mais le tatou à neuf bandes concentre la majorité des connaissances établies sur ce groupe [Superina et al., 2014]. Son aire de distribution était initialement restreinte à l’Amérique centrale et à l’Amérique du Sud mais s’est étendue vers le nord à partir de la fin du XIXe siècle. Contrairement aux autres espèces de tatou, il est aujourd’hui présent dans tous les états du Sud-Est des États-Unis. Ses préférences écologiques (présence d’eau et d’insectes en quantité suffisante pour lui fournir son régime omnivore) font que les densités les plus élevées d’individus sont retrouvées en plaine. Cet animal fouisseur n’hiberne pas et bien qu’il change régulièrement de terrier, il ne migre pas. Les individus adultes ne semblent pas former de groupes sociaux particuliers et les juvéniles quittent le nid entre l’âge de 6 mois et 1 an [McDonough, 2000]. La durée de vie du tatou à neuf bandes est d’en moyenne 15 ans [Vizcaíno et Loughry, 2008]. Du point de vue morphologique, le tatou à neuf bandes mesure entre 36 et 57 cm pour un poids variant entre 3 et 8 kg. Il présente une longue queue, un long museau et des membres courts portant à chaque doigt de longues griffes. La majorité de son corps est recouverte d’une carapace formée de plaques osseuses articulées ou ostéodermes [Vickaryous et Hall, 2006] lui permettant de se mettre en boule à l’approche de prédateurs (cf. Figure 1.12). Figure 1.12 – Photographies d’un tatou à neuf bandes. (a) tiré de Balamayooran et al. [2015] ; (b) tiré de Sharma et al. [2013]

(a) (b)

Le tatou à neuf bandes présente également des particularités physiologiques d’intérêt pour les scientifiques. Ainsi, son cycle reproductif est caractérisé à la fois par une diapause embryonnaire (les embryons, formés suite à la période de reproduction en été, arrêtent leur développement pendant 4 à 5 mois et ne s’implantent pas avant la fin de l’automne) et par

39 la production systématique de quadruplés monozygotes [Truman, 2005]. Il est également intéressant de noter que sa température corporelle est régulée autour de 33-35 °C. C’est d’ailleurs cette particularité qui a motivé les premières inoculations expérimentales de tatou par M. leprae en 1968 [Truman, 2005]. La découverte de la sensibilité du tatou à neuf bandes a tout d’abord mené les scientifiques à remettre en question son immunocompétence. Les nécropsies d’individus âgés de 2 jours à 4 ans ont confirmé que la distribution des cellules lymphoïdes dans le thymus, la rate, les noeuds lymphatiques et le sang est typique des mammifères et que les organes lymphoïdes ne présentent aucune anomalie morphologique ou histologique [Purtilo et al., 1975]. La caractérisation de certains effecteurs de l’immunité ou de leurs activités suggère que le fonctionnement du système immunitaire du tatou à neuf bandes est comparable à celui des autres mammifères dont l’Homme. Ainsi, Ulrich et al. [1976] ont montré l’efficacité du système du complément chez une espèce proche de Dasypus novemcinctus – le tatou à long museau du Nord ou Dasypus sabanicola) – en terme d’hémolyse, d’activité bactéricide et d’immobilisation des protozoaires. Diverses études ont identifié chez le tatou à neuf bandes la présence d’immunoglobulines de type G et M [Santos-Argumedo et al., 1995], de cellules de Langerhans [Quesada-Pascual et al., 2008], de neutrophiles [López-Hurtado et al., 2005] et d’éosinophiles [López-Hurtado et al., 2009]. López-Hurtado et al. ont montré que les neutrophiles du tatou présentent une forte activité bactéricide et de phagocytose et que les éosinophiles assurent une action antiparasitaire normale. Enfin, Guerra-Infante et al. [2001] ont également détecté dans des cultures de lymphocytes de tatou à neuf bandes une activité cytotoxique similaire à celle du facteur de nécrose tumoral, TNFα.

1.2.2.2 Éléments d’épidémiologie concernant la lèpre chez le tatou

Contrairement à ce qui est observé chez l’humain, la grande majorité des tatous à neuf bandes est sensible à une infection (Balamayooran et al. [2015] rapportent que 15 à 20 % d’individus sont résistants dans des conditions expérimentales). Suite aux inoculations en laboratoire, la plupart des animaux montrent les signes d’une dissémination du bacille à partir de 6 à 12 mois et ceux d’une infection sévère dès 18 à 24 mois. Cependant, tout comme chez l’Homme, la durée de la période d’incubation est variable selon les individus et peut atteindre jusqu’à 4 ans [Vizcaíno et Loughry, 2008]. Bien que le tatou puisse présenter les caractéristiques histologiques des différentes formes de lèpre, la majorité des individus développe une forme multibacillaire (70 % dans l’étude de Adams et al. [2012] par exemple). L’infection naturelle du tatou à neuf bandes par M. leprae semblait tout d’abord limitée aux zones de plaine du Texas et de Louisiane épargnant les états voisins tels la Floride et l’Oklahoma. Ainsi, Truman[2005] y rapportait un taux moyen de prévalence variant entre 3,8 % et 16 % selon les critères de diagnostic utilisés (respectivement histologiques et sérologiques) et se maintenant depuis les années 60. Les études épidémiologiques conduites ces 10 dernières années ont finalement montré que la maladie est présente dans presque toute l’aire de répartition du tatou à neuf bandes, du nord de la Louisiane au nord de l’Argentine [Balamayooran et al., 2015]. Bien que l’intérêt scientifique se focalise majoritairement autour du tatou à neuf bandes, il semble que d’autres espèces constituent des hôtes naturels du bacille comme le tatou à six bandes (Euphractus sexcinctus) au Brésil [Frota et al., 2012]. L’importance du réservoir constitué par cet animal est telle que l’on soupçonne aujour- d’hui l’existence d’une circulation zoonotique de la maladie du tatou vers l’Homme.

40 1.2.2.3 La lèpre naturelle du tatou : une zoonose ?

Le rapport entre la lèpre humaine et le réservoir constitué par le tatou a tout d’abord été étudié au Brésil. En effet, la lèpre y est actuellement encore endémique, la population de tatous est importante et les occasions de contacts avec l’animal via la chasse, la préparation ou encore la consommation de sa viande sont nombreuses [Kerr et al., 2015]. Deps et al. [2008] ont ainsi mené une étude épidémiologique portant sur 506 cas de patients lépreux et 594 contrôles vivants au sud du Brésil. Chaque individu a fait l’objet d’un questionnaire concernant d’éventuels contacts directs (chasse, consommation, manipulation) ou indirects (le fait de résider à proximité de terriers) avec des tatous. Les facteurs confondants pris en compte au moyen d’un ajustement comptaient l’âge, le sexe, le lieu de naissance et de résidence. Le pourcentage d’exposition directe était significativement plus élevé chez les cas que les contrôles (68 % des cas contre 48 % des contrôles, p < 0,001 avec un odd ratio de 2) ce qui suggère que le contact direct avec un tatou peut être un facteur de risque pour la lèpre dans cette région. Contrairement à ce qui est observé au Brésil, les cas de lèpre sont rares aux États-Unis (l’incidence y est de l’ordre de 150). La majorité des patients ont vécu à l’étranger, dans des zones endémiques où ils ont pu être en contact avec M. leprae. Cependant, un tiers des patients américains déclare n’avoir jamais séjourné en région endémique ou eu de contact avec des malades. Dans ce contexte, Truman et al. [2011] ont cherché à déterminer si les populations infectées de tatou présentes dans les états du Sud-Est pourraient être une source d’infection pour les habitants de ces régions. Pour ce faire, les auteurs ont génotypé les souches de M. leprae prélevées chez 39 patients sans lien entre eux et ayant vécu dans des zones où les populations de tatous sont infectées, et chez 33 tatous sauvages capturés en Arkansas, Alabama, Louisiane, Mississippi et Texas. Chaque souche prélevée a été classée parmi 16 sous-types à l’aide de 84 SNP définis par Monot et al. [2009] et évoqués en 1.1.1.1. Le génotype a ensuite été précisé à l’aide de 40 marqueurs supplémentaires. Dix souches de référence on également été incluses dans l’analyse : deux souches provenant de patients brésiliens (43926 et Br4923), une souche d’un patient indien (TN), une souche d’un patient thaïlandais (Thai53), une souche d’un patient philippin (LWM26), quatre souches de patients texans (NHDP-10, 98, 55 et 63), et une souche de tatou sauvage (I30). Les distances génétiques entre les souches ont été évaluées à partir du nombre de locus différents entre les génotypes (cf. Figure 1.13). Vingt-huit des 33 souches prélevées chez les tatous sauvages présentaient le même génotype (soit 85 %). De même, 25 des 39 patients humains (soit 64 %) (dont 22 des 29 patients n’ayant pas séjourné à l’étranger) hébergeaient des souches du même génotype que les tatous sauvages. Enfin, la distance génétique entre cette souche, nommée 3I-2-v1, et les souches de références étrangères, suggérait que la souche 3I-2-v1est restreinte aux États-Unis. Le fait qu’un pourcentage élevé de cas indépendants de lèpre dans les états du Sud-Est soit dû à une unique souche retrouvée chez les tatous sauvages suggère une circulation zoonotique du bacille. Concernant le sens de cette transmission, les auteurs interprètent la très faible diversité des souches présentes chez les tatous sauvages comme le signe d’une circulation efficace intra-espèce (la souche 3I-2-v1 est retrouvée dans cinq états différents) mais sans apport extra-espèce. Dans cette hypothèse, l’origine des souches 3I-2-v1 infectant l’Homme pourrait être le tatou.

41 Figure 1.13 – Distances génétiques entre les différentes souches de M. leprae pré- levées chez 50 patients américains et 33 tatous sauvages atteints de lèpre et les 10 souches de référence. Chaque cercle représente un génotype bactérien retrouvé chez l’Homme (ou le tatou si indiqué comme tel). Le diamètre du cercle est proportionnel au nombre de souches possédant le génotype en question. Le génotype de chaque souche a été déterminé en fonction du système de typage par SNP de Monot et al. [2009] (chaque sous-type est indiqué par une couleur, cf. Encart) puis a été précisé avec l’aide de 40 marqueurs supplémentaires spécifiques à l’étude. Les chiffres indiqués entre chaque cercle donnent le nombre de locus qui diffèrent entre les génotypes correspondants aux cercles. Les astérisques indiquent les patients ayant séjourné à l’étranger. Tiré de Truman et al. [2011]

1.2.2.4 Données cliniques et histologiques sur la lèpre chez le tatou

Les signes cliniques présentés par les animaux restent frustes et il est difficile de différencier, dans leur milieu naturel, les individus atteints des individus sains notamment à cause de la carapace qui recouvre leur corps. Ainsi, les principaux signes visibles sont des abrasions autour des yeux, sur le nez et les pattes [Vizcaíno et Loughry, 2008], des déformations et des avulsions des griffes peuvent également être présentes [Balamayooran et al., 2015]. Au laboratoire, les phases avancées de la maladie sont caractérisées par des ulcérations plantaires sûrement dues à une perte de la sensibilité au niveau des extrémités [Sharma et al., 2013]. Ces lésions sont tout à fait similaires à celles présentées par certains malades humains (cf. Figure 1.14).

42 Figure 1.14 – Comparaison de lésions plantaires (ulcères) présentées par un homme et un tatou atteints de lèpre. Tiré de Sharma et al. [2013]

De même, si les animaux atteints ne présentent pas les hypertrophies nerveuses carac- téristiques des formes multibacillaires chez l’humain, la neuropathie développée par les tatous et ses conséquences fonctionnelles constituent un modèle très proche de ce qui est observé chez l’Homme. Ainsi, le bacille se multiplie, tout comme chez l’humain, dans les cellules de Schwann. Il y provoque une inflammation et une démyélisation (cf. Figure 1.15) se manifestant par un déficit de la conduction nerveuse. L’évaluation de la conduction nerveuse est possible chez le tatou au niveau du nerf tibial postérieur qui a un trajet superficiel entre le genou et la cheville, zone qui n’est pas recouverte par la carapace. Cette mesure se réalise en enregistrant le potentiel d’action moteur composite (PAC) c’est-à-dire la somme des activités électriques produites par les unités motrices innervées par un même nerf suite à sa stimulation (cf. Figure 1.16). Ainsi, une diminution de l’amplitude du potentiel d’action composite est visible chez les tatous dès la phase précoce de l’infection (3 à 7 mois). Ce déficit de conduction est développé par 75 % des tatous testés [Balamayooran et al., 2015]. Dans les stades tardifs de la maladie, le potentiel d’action composite peut même devenir nul, signe d’une perte extensive des axones. La disparition de l’innervation résulte alors en une atrophie significative des muscles innervés par le nerf tibial postérieur. Du point de vue histopathologique, le tatou à neuf bandes peut montrer, tout comme l’Homme, l’ensemble des réponses du spectre décrit par Ridley et Jopling (cf. 1.1.1.4). Cette réponse peut être observée 28 jours après l’injection de lépromine (cf. Figure 1.17). La Figure 1.17 ne présente que les trois catégories (multibacillaire, borderline et tuberculoïde) initialement décrites par Job et al. [1983] avant que l’étude d’un nombre plus important d’individus ne le conduise à considérer les cinq catégories connues chez l’Homme [Job et al., 1987]. Sur la Figure 1.17, la réponse tuberculoïde est caractérisée par un large granulome entourant une zone de collagène nécrosé (indiquée par la flèche) et dont les bords sont formés de cellules épithélioïdes, de lymphocytes. Quelques cellules géantes sont également présentes. La réaction borderline correspond également à la formation d’un granulome, de moindre taille, formé de cellules épithélioïdes et de nombreux lymphocytes. La réaction lépromateuse est comme chez l’Homme constituée d’amas cellulaires non organisés comprenant exclusivement des macrophages.

43 Figure 1.15 – Inflammation, infiltration par M. leprae et démyélinisation du nerf tibial postérieur (TP) chez un tatou atteint de lèpre. (A) Section longitudinale du TP vue au microscope optique montrant une grande quantité de bacilles alcoolo-acido-résistants (flèche) au niveau de l’endonèvre (EN). (B) Coupe transversale du TP vue au microscope optique. La cellule de Schwann (SC) produisant la gaine de myéline (MY) autour de l’axone (AX) est infectée par M. leprae (flèche). (C) Coupe transversale du TP vue au microscope optique montrant l’infiltration de M. leprae au niveau de l’endonèvre (EN) et du périnèvre (PN). (D) Idem B. La gaine de myéline est absente. Tiré de Sharma et al. [2013]

Figure 1.16 – Potentiels d’action composites (PAC) illustrant le déficit progressif de conduction nerveuse chez le tatou atteint de lèpre. Le potentiel d’action composite enregistre en un point (ici la cheville ou le genou) la somme des activités électriques produites par toutes les unités motrices activée de façon synchrone (ici par stimulation du nerf tibial postérieur). Tiré de Sharma et al. [2013]

44 Figure 1.17 – Spectre histologique de réponse au test de Mistuda chez le tatou à neuf bandes. Panneaux supérieurs : coupes de dermes prélevés au site d’inoculation chez des tatous 28 jours après injection de 1,6.107 bacilles, colorées à l’hématoxyline et à l’éosine (grossissement x75 à l’exception du panneau de gauche : x40). Panneaux inférieurs : détails des panneaux supérieurs (grossissement x300). Adapté de Job et al. [1983]

Le tatou à neuf bandes atteint de lèpre, naturellement ou expérimentalement, présente ainsi des signes cliniques, une neuropathie et des séquelles fonctionnelles similaires à celles de patients lépreux. Qui plus est, cet animal est capable de présenter les différentes réponses histologiques correspondantes au spectre de la lèpre humaine. La lèpre du tatou est donc considérée comme un modèle particulièrement pertinent de la maladie humaine.

1.2.2.5 Des arguments en faveur d’une prédisposition génétique à l’infection

Le tatou à neuf bandes présente non seulement une lèpre dont les caractéristiques anato- mopathologiques et cliniques sont similaires à la maladie humaine, mais il existe chez cet animal, tout comme chez l’Homme, des arguments en faveur d’une prédisposition génétique individuelle à la sensibilité et/ou la résistance à la maladie. Comme cela a été mentionné précédemment, le tatou à neuf bandes donne systématiquement naissance à des quadruplés monozygotes, particularité qui en fait un modèles de choix pour étudier l’héritabilité d’un caractère. D’après Adams et al. [2012], les individus d’une même portée ont tendance à montrer une concordance phénotypique tout comme les jumeaux monozygotes chez l’Homme. Ainsi, au sein de 7 des 8 portés testées, les petits montrent la même sensibilité

45 et une charge bacillaire comparable suite à une inoculation de M. leprae (cf. Tableau 1.1). Tableau 1.1 – Concordance phénotypique entre individus d’une même portée suite à l’infection expérimentale par M. leprae. Adapté de Adams et al. [2012]

Portée A A A B B B C C D D E Nombre de Élevé ------1,1.109 1,0.109 - - - bacilles par Faible 1.107 2,4.105 1,1.108 ------gramme de foie Individu euthanasié - - - x x x - - x x x

Portée E E E F F F G G G H H Nombre de Élevé ------5,3.109 1,7.1010 7,8.109 7,9.109 - bacilles par Faible 1,4.106 2,4.108 - - 3,6.106 - - - - - 3,9.107 gramme de foie Individu euthanasié - - x x - x - - - - -

Adams et al. [2012] ont également étudié les polymorphismes présentés par certains tatous au sein de gènes associés chez l’Homme à la sensibilité ou la résistance à la lèpre (TLR 1, 2 et 4 ) (cf. Tableau 1.2). Ils ont ainsi identifié 3 SNP à des positions légèrement différentes de celles rapportées chez l’humain au sein de TLR 1 et 2. Malgré les faibles effectifs à leur disposition, ils ont pu mettre en évidence une association significative entre la résistance à la lèpre chez les tatous considérés et le polymorphisme A1879G (p=0.0004) de même qu’il existe, chez l’Homme, une association entre le polymorphisme T1805G et le phénotype résistant [Misch et al., 2010]. Ces résultats renforcent non seulement l’hypothèse de l’existence d’une composante génétique à la sensibilité à la lèpre chez le tatou mais mettent surtout en lumière le fait que les mêmes gènes peuvent être impliqués dans les deux espèces. Tableau 1.2 – Polymorphismes d’un seul nucléotide au sein des gènes TLR 1, 2 et 4 chez l’Homme et le tatou à neuf bandes. Adapté de Adams et al. [2012]

Hôte/récepteur TLR1 TLR2 TLR4 Humain A743G T1805G C597- C2029T A896G Tatou A750G A1879G C570T Non trouvé Non trouvé SNP AA/AG GG AA/AG GG Ca/CC TT CC/CT TT GG/AG AA Dissémination élevée 26 5 31 0 13 0 13 0 13 0 de l’infection faible 19 5 21 0 21 1 13 0 13 0 Résistant 8 2 6 4 8 2 10 0 10 0 a : délétion

La lèpre du tatou constitue bien un modèle de la maladie humaine que ce soit du point de vue histopathologique ou clinique. De plus, l’existence d’arguments en faveur d’un support génétique à la sensibilité du tatou et le fait que les mêmes gènes aient été retrouvés impliqués chez l’animal et l’Homme permettent d’envisager également le tatou comme un potentiel modèle pour la prédisposition génétique.

1.2.3 Lèpre et faune sauvage

1.2.3.1 Des cas spontanés anecdotiques ?

Il est aujourd’hui tout à fait établi que le tatou à neuf bandes est un hôte naturel et sensible de M. leprae, il est ainsi tentant d’affirmer, comme le font certains auteurs, qu’excepté l’Homme, «le tatou à neuf bandes est le seul autre hôte naturel naturel de M. leprae»[Sharma et al., 2013]. Cependant, une revue attentive de la littérature révèle que des cas spontanés de lèpre ont été décrits chez au moins trois espèces de primates et une espèce d’écureuil. Ainsi, Donham et Leininger[1977] ont été les premiers à découvrir un cas de lèpre de forme lépromateuse chez un chimpanzé (Pan troglodytes) de 6 ans, vivant en captivité

46 aux États-Unis mais capturé à l’état sauvage en Sierra Leone. Le cas ne présentait pas d’historique de contact avec le bacille de la lèpre, faisant suspecter que son infection ait eu lieu en milieu naturel. En 1989, deux autres chimpanzés capturés en Afrique et utilisés dans deux centres de recherche indépendants au Texas présentèrent spontanément des signes cliniques de lèpre après 25 ans de captivité. Gormus et al. [1991] ont pu déterminer de façon rétrospective leurs taux d’anticorps (IgG et IgM) anti-PGL-1 (un antigène de surface spécifique de M. leprae cf. 1.1.1.3) et étudier leur évolution sur une période de 6 et 5 ans. L’un des deux singes, Kevin, présentait un profil d’anticorps suggérant une infection chronique en cours 10 ans après sa capture. Ces résultats, éclairés par ses conditions de captivité pendant ces 10 années (cage individuelle sans contact avec des congénères) et surtout l’analyse rétrospective de prélèvements cutanés compatibles avec la lèpre, suggèrent que la contamination de Kevin pourrait dater d’avant sa capture. Dernièrement, une femelle chimpanzé, nommée Haruna, capturée en Sierra Leone à l’âge de 2 ans et vivant depuis au Japon, a été diagnostiquée comme atteinte de lèpre lépromateuse [Suzuki et al., 2010]. Elle a développé à l’âge de 31 ans de multiples nodules autour des yeux, au niveau des lèvres, de l’abdomen et des avant-bras (cf. Figure 1.18), dont l’aspect et la distribution étaient similaires à ce qui est rapporté dans les cas d’infection expérimentale de mangabeys (cf. 1.2.1.3). L’analyse histologique des lésions montrait un infiltrat d’histiocytes spumeux chargés en bacilles alcoolo-acido-résistants. De même, les prélèvements nasaux et cutanés étaient positifs pour la présence de bacilles alcoolo-acido- résistants. L’implication de M. leprae a ensuite été confirmée par PCR. Haruna a été traité avec succès à l’aide de la polychimiothérapie conseillée par l’OMS. L’étude du génome de la souche de M. leprae par Suzuki et al. [2010] a permis d’établir qu’elle présentait un génotype caractéristique de l’Afrique de l’Ouest, inexistant en Asie. Les auteurs ont ainsi pu démontrer que l’infection avait eu lieu à l’état sauvage en Sierra Leone, suggérant une période d’incubation d’au moins une trentaine d’années. Outre les cas de chimpanzé, deux cas de lèpre spontanée chez des mangabeys couronnés capturés au Nigeria et gardés ensemble en captivité aux États-Unis ont été rapportés dans les années 80. [Meyers et al., 1985][Gormus et al., 1988] Le premier a développé des signes d’une forme lépromateuse 3 ans après son transfert aux États-Unis. Le second qui était resté pendant ces 3 ans en contact avec le premier mangabey n’a développé des signes cliniques que 7 ans après. Les auteurs jugent probable que le premier mangabey ait contracté l’infection au Nigeria puis ait contaminé le second singe. Cependant, l’absence d’historique concernant ces animaux au Nigeria ne permet pas de conclure quant au contexte de la transmission (ayant eu lieu en milieu naturel ou via des contacts avec des patients nigériens). Enfin, un cas spontané de lèpre borderline chez un macaque crabier originaire des Philippines a été décrit par Valverde et al. [1998] en Californie. L’animal a été diagnostiqué 4 ans après avoir été importé aux États-Unis. Tout comme dans l’étude de Gormus et al. des échantillons de sérum prélevés au cours des 4 années précédentes étaient disponibles pour une sérologie a posteriori. Le profil d’évolution des taux anticorps anti-PGL-1 suggérait une infection subclinique active présente dès le premier prélèvement effectué à l’arrivée de l’animal en Amérique. Il semble logique que ce macaque ait été contaminé aux Philippines sans que l’on puisse déterminer l’origine humaine ou simiesque de la contamination.

47 Figure 1.18 – Cas spontané de lèpre chez le chimpanzé Haruna. (A) Nodules cutanés. (B) Le même chimpanzé, sans lésions visibles, un an auparavant. (C) Prélèvement nasal coloré selon la méthode de Ziehl-Neelsen montrant de nombreux bacilles alcoolo-acido-résistants pourpres (grossissement x1000). (D) Prélèvement cutané, idem C. (E) Coupe d’un nodule cutané colorée à l’hématoxyline et à l’éosine (grossissement x400). (F) Idem E, coloration Fite-Faraco. Tiré de Suzuki et al. [2010]

Jusqu’en 2008, date de la découverte de M. lepromatosis et de son rôle potentiel dans la lèpre humaine (cf. 1.1.1.3), les cas spontanés de lèpre rapportés chez les primates non humains étaient exclusivement attribués à M. leprae sur la base de PCR ou de caractéris- tiques microbiologiques. La disponibilité croissante des séquences de M. lepromatosis [Han et al., 2014][Singh et al., 2015] permet aujourd’hui d’explorer par PCR l’implication de cette mycobactérie dans les cas de lèpre animale. Meredith et al. [2014] ont identifié M. lepromatosis chez trois écureuils roux (Sciurus vulgaris) en Écosse. Les auteurs rapportent avoir observé six cas d’une même dermatite depuis 2006 : tous les écureuils présentaient des zones d’alopécie œdématiées au niveau du museau, des paupières, des oreilles et des extrémités des pattes (cf. Figure 1.19a). Trois des animaux ont fait l’objet de prélèvements pour des analyses histologiques et PCR.À l’examen histologique, l’aspect des lésions, infiltrées de macrophages épithélioïdes contenant des bacilles alcoolo-acido-résistants, évoquait une forme lépromatoïde de lèpre (cf. Figure 1.19b). Chez les trois écureuils, le séquençage des produits de l’amplification du gène bactérien hsp65 a montré une homologie de 99 % avec la séquence du gène correspondant chez M. lepromatosis. Au vu de la divergence entre les séquences de hsp65 chez M. leprae et M. lepromatosis (estimée à 7 % par Han et al. [2008]), il semble que M. lepromatosis était présent chez les trois écureuils alors que M. leprae était absent. Cette toute première identification de cas de lèpre chez des écureuils et de M. lepromatosis chez des animaux a été suivi par une seconde publication rapportant quatre cas de lèpre chez

48 des écureuils roux des îles de Wight et de Brownsea [Simpson et al., 2015]. La présentation clinique de ces 4 cas différait de celle des écureuils écossais bien que la localisation des lésions fut identique. Les lésions consistaient en des épaississements kératinisés et des verrues associées à des déformations des griffes. L’examen histologique révélait une infiltration du derme par des cellules inflammatoires associée à une hyperplasie de l’épiderme. Malgré ces différences la PCR a révélé la présence de M. lepromatosis. Figure 1.19 – Lèpre chez des écureuils roux. Tiré de Meredith et al. [2014]

(a) Photographie d’un écureuil roux montrant une (b) Coupe histologique de l’oreille, colorée avec la alopécie et un œdème du museau, des oreilles et des méthode Ziehl-Neelsen (grossissement x40). pieds.

Les cas spontanés de lèpre soulignent que certaines espèces autres que le tatou pourraient être sensibles à la maladie. Cependant, il est délicat de conclure quant à la signification épidémiologique de ces observations. Concernant les primates non humains, il s’agit toujours d’animaux en captivité. Même dans les cas où la contamination est très probablement antérieure au départ du pays d’origine, la transmission n’a pas forcément eu lieu en milieu naturel ni via un congénère – conditions pour qualifier, à notre sens, ces cas de “naturels”. Ainsi, l’existence de cas spontanés ne signifie pas forcément que le bacille circule dans les populations sauvages. La situation décrite chez les écureuils roux est quelque peu différente. En effet, tous les animaux atteints ont été diagnostiqués alors qu’ils évoluaient au sein de populations naturelles. De plus, la présence de plusieurs cas dans une zone restreinte (trois sur l’île de Wight) suggère une source de contamination commune (l’existence de réservoirs environnementaux inertes est cependant jugée de plus en plus improbable cf. 1.1.1.3) ou une circulation de M. lepromatosis chez les écureuils.

1.2.3.2 Notions d’espèces “sensibles” et “résistantes”

Bien que le nombre de cas rapportés dans chaque espèce soit faible (respectivement quatre, deux et un cas de chimpanzés, mangabeys et macaque crabier et neuf cas d’écureuils), ces études soulignent que d’autres animaux sont susceptibles de constituer des hôtes sensibles voire naturels. De plus, il s’agit ici de cas décrits fortuitement sur des animaux en captivité ou des populations dont l’état de santé fait l’objet d’une surveillance mais pas d’un dépistage systématique de la maladie. Il est donc possible qu’il existe d’autres cas au sein de ces espèces, en particulier concernant les espèces vivant en région endémique mais ne faisant pas l’objet d’une surveillance particulière. Au contraire, qualifier une espèce de “résistante à la lèpre” (au sens de “non-sensible” : ne développant pas de signes cliniques) semble plus délicat. En effet, même si les inoculations expérimentales des modèles de laboratoire conventionnels tels les rats, les souris ou les cobayes sont restées des échecs et n’ont jamais mené, même dans le cas de souris

49 immunodéprimées, à une véritable expression clinique ; il faut souligner que tous ces animaux possèdent une durée de vie relativement courte. La période d’incubation de la lèpre, que ce soit chez l’Homme, le tatou ou les primates sensibles étant d’au moins 18 à 24 mois, il peut sembler inapproprié de qualifier de résistant des animaux qui ne vivent pas assez longtemps pour déclarer la maladie. Ceci dit, il semble plus correct de formuler une hypothèse de résistance ∗ à l’encontre d’espèces vivant en région endémique, ayant une longévité compatible avec la période d’incubation de la maladie et pour lesquelles il n’y a pas de cas de lèpre rapportés malgré l’existence d’une surveillance (notamment épidémiologique) des populations sauvages. Nous expliquerons ultérieurement comment ces critères ont permis de sélectionner deux espèces que nous considérerons comme résistantes à la lèpre dans la partie expérimentale de cette thèse (cf. 2.1.2). Or, l’existence, aussi bien, d’espèces dont on peut supposer la résistance à la maladie que d’un modèle animal qui semble partager des déterminismes génétiques avec l’Homme, nous permet d’aborder la prédisposition à la lèpre per se chez l’Homme de façon inédite tout en s’affranchissant de certaines difficultés précédemment évoquées en 1.1.2.3.

1.3 “La lèpre : des animaux vers l’Homme” ou l’ap- port de la génomique comparative à l’étude de la sensibilité à la lèpre chez l’Homme

La première partie de ce chapitre nous a permis de constater que l’étude de la prédispo- sition génétique à la lèpre chez l’Homme n’explore que certaines catégories de gènes ayant un effet fort ou des fonctions évocatrices. L’existence de cas de lèpre animale, revue dans la seconde partie de ce chapitre, nous a menés à la certitude que ce domaine de recherche pourrait bénéficier de l’apport de données issues des génomes animaux. L’idée sous-jacente à notre travail expérimental est donc de générer des gènes candidats non pas en se basant sur des a priori fonctionnels mais en utilisant des données de génomique comparative. Ainsi, il s’agit, dans un premier temps, de comparer les génomes de l’Homme, du tatou et d’espèces considérées comme résistantes à la lèpre afin d’identifier des gènes candidats chez l’Homme. Puis, dans un second temps, de tester l’association entre le génotype des variants correspondants à ces gènes et le phénotype “être atteint de lèpre per se” chez l’Homme. Comme cela a été souligné en 1.2.2, le tatou présente la même maladie que l’Homme tant au niveau clinique qu’au niveau histopathologique. Dans la mesure où les mêmes gènes ont été retrouvés impliqués chez l’Homme et le tatou, on peut supposer l’existence de mécanismes communs de résistance et de sensibilité dans ces deux espèces. Ajoutée à ces arguments, l’existence d’espèces considérées comme résistantes à la lèpre nous permet de formuler l’hypothèse de travail suivante : « Il existe des variants associés à la sensibilité individuelle à la lèpre per se chez l’Homme au sein de gènes ayant des fonctions communes chez l’Homme et le tatou mais pas chez certains animaux supposés résistants à la maladie ». Cette hypothèse peut être subdivisée en plusieurs sous-hypothèses qui ont guidé le déroulement de la partie expérimentale de ce projet et qui correspondent aux différentes parties du chapitre suivant.

∗. Que ce soit au sens de “non-sensibilité” (ne développant pas de signes cliniques) ou de “non-réceptivité” (ne développant pas d’infection).

50 « Dans un premier temps, il existe des gènes possédant des fonctions communes chez l’Homme et le tatou mais pas chez certains animaux (supposés résistants à la maladie), parmi ces gènes, certains ont un rôle dans la sensibilité à la lèpre per se de ces espèces. » « Dans un second temps, il existe donc, au sein de ces gènes, des variants associés à la sensibilité individuelle à la lèpre per se chez l’Homme. » Cette hypothèse de travail présente un avantage double. Tout d’abord, elle permet de sélectionner des gènes sans a priori sur leur fonction puisque le filtre de sélection ne concerne plus la nature de la fonction mais seulement une communauté de fonction entre deux espèces. Elle devrait, ainsi, permettre de prendre en considération des gènes jusqu’alors non sélectionnés lors d’études gène candidat. De plus, elle conserve l’avantage de l’approche gène candidat qui réside dans le fait de tester un nombre suffisamment restreint de variants pour détecter l’association entre le phénotype et des SNP dont l’effet aurait été trop faible pour être significatifs lors d’un GWAS. Enfin, jusqu’à maintenant, l’apport de la génomique comparative à l’étude de la sensibilité aux infections s’est essentiellement fait à travers la recherche de signes de sélection positive ou négative [Sironi et al., 2015]. Dans ce contexte, l’approche proposée dans le chapitre suivant est tout à fait inédite.

51 52 Chapitre 2

La lèpre : des animaux vers l’Homme. Une application expérimentale pour l’étude de la prédisposition à la lèpre chez l’Homme

2.1 Génération de gènes candidats par génomique comparative

2.1.1 Concepts et terminologie

L’objet exact de cette première partie est d’identifier des « gènes possédant des fonctions communes chez l’Homme et le tatou mais pas chez certains animaux (supposés résistants à la maladie) ». Il est tout d’abord utile de rappeler dans quelles catégories ces gènes peuvent être classés (cf. Figure 2.1). Du point de vue phylogénétique, des gènes ayant une fonction similaire dans différentes espèces peuvent être inclus au sein des séquences qualifiées d’homologues, c’est-à-dire dérivant directement d’une même séquence ancestrale. Divers processus peuvent mener à la formation d’homologues dans des espèces différentes : la spéciation à partir du l’ancêtre commun le plus récent (il s’agit alors d’orthologues), la duplication (formant des paralogues) et le transfert horizontal de gène c’est-à-dire l’échange de matériel génétique entre espèces sans liens de descendance (aboutissant à des xénologues) [Kuzniar et al., 2008]. Enfin, des gènes peuvent présenter des fonctions similaires par convergence évolutive sans dériver d’un même gène ancestral. Dans ce dernier cas, la convergence fonctionnelle peut s’expliquer par une convergence de la séquence nucléotidique (les gènes peuvent être qualifiés de convergents), de la séquence d’acides aminés (sans qu’il y ait forcément une convergence nucléotidique associée, les produits protéiques sont alors convergents mais pas les gènes), de la structure tridimensionnelle des protéines (sans là encore qu’il y ait forcément convergence de la séquence protéique ; ni les protéines ni les gènes ne sont convergents) ou seulement du site actif de la protéine. La convergence fonctionnelle peut également concerner des molécules tout à fait différentes (ne présentant pas la même séquence nucléotidique, protéique, la même structure tridimensionnelle ni le même site actif)[McGhee, 2011]. Il est important d’appréhender ces différences dans la mesure où les outils (aussi bien ceux disponibles que ceux mis en œuvre dans ce rapport) ne peuvent pas détecter tous les cas de figure précédemment décrits. Ainsi, il est admis que des séquences homologues présentent

53 une relative identité de séquence dont le degré est variable selon le type d’homologie (un rapport d’homologie est inféré quand deux séquences présentent plus de similarité qu’elles ne le devraient par effet seul du hasard d’après Pearson[2002] et ce degré de similarité est d’au moins 30 à 35 % pour des séquences protéiques d’après Kuzniar et al. [2008]). En effet, des séquences orthologues a et b de deux espèces A et B auront divergé depuis moins longtemps que des séquences paralogues α et b, l’événement de spéciation étant alors plus récent que la duplication (cf. Figure 2.3(a)), des séquences orthologues sont donc sensées présenter une similarité de séquence plus importante que des séquences paralogues. Concernant la convergence évolutive, les différentes situations décrites ci-dessus soulignent bien que certains cas de convergence vont résulter en une identité de séquence protéique totale (gènes et protéines convergentes), partielle (site actif ou structure tridimensionnelle convergents) ou quasi nulle (cf. Figure 2.1). Figure 2.1 – Relations entre les concepts manipulés.

Ainsi, il n’y a pas d’équivalence parfaite entre l’isofonctionnalité, l’homologie et le degré de similarité de deux séquences (cf. Figure 2.1). Ces limites étant posées, détecter des similarités de séquences protéiques doit cependant nous permettre d’approcher une partie des gènes ayant une fonction similaire au sein d’espèces différentes. De plus, il est possible d’enrichir nos résultats en séquences isofonctionnelles en utilisant des méthodes de détection d’orthologues. En effet, bien que la notion d’orthologie n’implique pas une isofonctionnalité (et inversement), des séquences orthologues tendent à présenter des fonctions plus similaires que des paralogues [Gabaldón et Koonin, 2013]. Il existe différentes méthodes de détection de séquences orthologues selon la définition considérée. Les méthodes basées sur les arbres considèrent la définition originelle et phylogé- nétique de l’orthologie. Pour ce faire, elles construisent tout d’abord des arbres de séquences à partir d’alignement multiple de protéines. Les relations entre les séquences d’espèces différentes peuvent être alors analysées au regard des relations phylogénétiques entre les espèces (en utilisant l’arbre des espèces pour la majorité des programmes disponibles). Les différences de topologie entre les arbres permettent d’identifier deux situations créant des faux positifs dans la détection d’orthologues : le transfert horizontal de gène (cf. supra) qui peut mener à déclarer comme orthologues des xénologues et la perte sélective d’orthologues au sein d’une lignée. Lorsque deux espèces sont considérées, il s’agit d’une situation où, suite à la perte d’un des orthologues au sein d’une des deux espèces (cf. 2.3(b)), deux séquences paralogues peuvent alors être considérées à tort comme orthologues. Cependant, cette approche nécessite des arbres phylogénétiques fiables et correctement racinés aussi bien concernant les espèces que les gènes considérés. De plus, le coût en ressource calcul des alignements multiples de protéines ne permet pas d’utiliser ces méthodes pour des génomes entiers [Kuzniar et al., 2008].

54 Figure 2.2 – Concepts d’orthologie et de paralogie.

Ancêtre commun Ancêtre commun le plus récent le plus récent

Duplication Duplication

Spéciation Spéciation

Espèce A Espèce B Espèce A Espèce B

Gène : α a β b Gène : α β b (a) α et β sont orthologues alors qu’α et b (b) Perte sélective d’orthologue au sein de sont paralogues. l’espèce A : suite à la perte de a, α et b peuvent apparaître comme orthologues.

Une approche alternative est proposée par les méthodes basées sur les graphes. Contrai- rement aux méthodes basées sur les arbres, elles comparent via des alignements deux à deux toutes les séquences protéiques considérées et ne réalisent donc pas de comparaison multiple. Les relations entretenues entre les séquences s’analysent donc au niveau de paires de séquences et une définition opérationnelle de l’orthologie est utilisée pour identifier les paires constituées d’orthologues. L’une des plus couramment utilisées est le bidirectional best hit qui désigne la paire de séquences montrant la plus grande similarité lors d’une comparaison réciproque ∗ de toutes les séquences [Gabaldón et Koonin, 2013]. Les ortho- logues sont ensuite rassemblés en "groupes" à l’aide de règles qui peuvent être propres à chaque méthode. Cette approche, en évitant l’étape d’alignements multiples, présente l’avantage d’autoriser des comparaisons de génomes entiers. Cependant, son extension à plus de deux espèces conduit souvent à regrouper des orthologues et des paralogues [Kuzniar et al., 2008]. Enfin, il existe des méthodes dites hybrides utilisant les approches graphes et arbres à différentes étapes, elles présentent l’avantage de pouvoir être appliquée à l’échelle de génomes entiers tout en étant robustes vis-à-vis des faux positifs. Le principe de la méthode hybride EnsemblCompara GeneTrees [Vilella et al., 2009] dont les résultats sont disponibles sur la base de données www.ensembl.org et qui a été utilisée pour ce projet sera détaillé dans la partie 2.1.2. Toutes ces méthodes ont comme point de départ de déterminer la similarité des sé- quences étudiées que ce soit de façon globale ou en considérant les séquences deux à deux. Cette recherche de similarité est réalisée en alignant les séquences protéiques d’intérêt, c’est-à-dire en superposant les régions présentant des acides aminés plus ou moins substi- tuables dans un ordre plus ou moins proche. Le caractère substituable des acides aminés dépend de la matrice de substitution choisie. Les matrices considérées dans ce projet sont des matrices déterminées a posteriori, c’est-à-dire résultantes de l’analyse d’un pool de protéines connues comme étant homologues. Ces dernières donnent pour chaque couple d’acides aminés un score reflétant la fréquence à laquelle cette substitution se produit dans le pool de protéines considérées. Chaque alignement est caractérisé par un score S comptabilisant les appariements d’acides aminés, leurs mésappariements ainsi que la présence et l’étendue des trous (ou gap) introduits lors de l’alignement en leur affectant ∗. Réciproque au sens de : la séquence A est alignée sur la séquence B puis la séquence B est alignée sur la séquence A.

55 des coefficients paramétrables. Chaque alignement est également accompagné d’un indice statistique reflétant la significativité de son score S. Pour l’aligneur local BLAST [Altschul et al., 1990], utilisé pour ce projet et par l’outil EnsemblCompara GeneTrees, il s’agit de l’expected value ou e-value qui décrit, dans le contexte d’une recherche de similarité entre une séquence et une banque de séquence, le nombre d’alignements atteignant le même score S, attendus par le seul effet du hasard. La e-value est donc d’autant plus faible que le score S est significatif. La stratégie mise en jeu dans ce projet est donc d’approcher les gènes isofonctionnels chez l’Homme et le tatou via l’identification des gènes homologues (définis par leur degré de similarité) et, parmi ces séquences, de retenir les orthologues comme étant les plus susceptibles de présenter la même fonction.

2.1.2 Matériels et méthodes

2.1.2.1 Espèces et génomes étudiés

Comme cela a été évoqué dans la partie 1.2.3, l’hypothèse que certaines espèces ne sont pas sensibles ou réceptives à M. leprae est raisonnable. Il semble alors intéressant d’utiliser certaines de ces espèces pour préciser notre liste de gènes candidats, c’est-à-dire de ne considérer que les gènes humains ayant un orthologue chez le tatou mais pas d’orthologue chez des espèces de Placentalia considérées comme résistantes. Au vu de l’arbre des espèces (cf. Figure 1.11), cette stratégie sous-entend une hypothèse forte. En effet, le dernier ancêtre commun de l’Homme et du tatou étant celui de tous les Placentalia, supposer l’existence même d’orthologues présents chez l’Homme et le tatou mais pas chez certaines espèces implique que ces séquences ont été perdues spécifiquement au sein des lignées résistantes. Malgré sa restrictivité, l’utilisation de cette hypothèse nous permet d’obtenir une liste de gènes candidats à tester non seulement plus restreinte (ce qui présente un avantage par rapport à la problématique des tests multiples) mais également plus pertinente. Ainsi, si considérer les orthologues de l’Homme et du tatou au sens large revient à considérer tous les gènes partagés par l’ensemble des mammifères placentaires, il n’y n’a pas plus d’intérêt à utiliser le génome du tatou que celui d’un autre animal sans exclure d’autres espèces considérées comme résistantes. En nous basant sur les critères établis en 1.2.3.2, nous posons l’hypothèse que le bonobo (Pan paniscus) et le paresseux d’Hoffmann (Choloepus Hoffmanni) ne sont pas sensibles ou réceptifs au bacille de la lèpre. En effet, les bonobos sont des primates dont l’aire de répartition est restreinte aux forêts pluviales de la République Démocratique du Congo l’un des pays où la lèpre est encore endémique (cf. 1.1.1.2), ils sont présents en particulier dans la réserve naturelle du Sankuru et bénéficient d’une surveillance scientifique qui devraient permettre une détection de cas de lèpre. Malgré leur longévité (de 40 à 60 ans) compatible avec les durées d’incubation observées chez d’autres primates, aucun cas n’est rapporté dans la littérature à ce jour. Le paresseux d’Hoffmann est, quant à lui, un membre des Xenarthra retrouvé en Amérique du Sud, dans des pays endémiques tels le Brésil. Ils y constituent un réservoir de la leishmaniose cutanée et sont à ce titre l’objet de campagnes d’études et de prélèvements cutanés depuis une trentaine d’années [Herrer et Christensen, 1980][González et al., 2015]. Ils possèdent également une durée de vie de plusieurs dizaines d’années compatible avec l’incubation de la maladie. Le génome des espèces et les assemblages utilisés sont décrits succinctement dans le Tableau 2.1. Les séquences considérées sont exclusivement des séquences codantes puisque les méthodes de détection d’orthologues se basent sur l’alignement des séquences protéiques. La base de données Ensembl permet d’accéder aux listes de gènes possédant des orthologues

56 (ou n’en possédant pas) dans de nombreuses espèces notamment l’Homme, le tatou et le paresseux d’Hoffmann (cf. Infra), cependant elle n’inclut pas le bonobo. Les séquences orthologues de l’Homme et du bonobo n’étant disponibles dans aucune autre base de données ∗, il a été tout d’abord envisagé d’identifier de novo les séquences orthologues dans ces deux espèces afin de les exclure de l’analyse. Cependant, l’approche hybride utilisée par EnsemblCompara GeneTrees n’est pas disponible en tant qu’outil standalone et n’est pas équivalente aux outils standalone disponibles. Il a donc été jugé préférable de ne pas utiliser une autre méthode de détection d’orthologues mais plutôt de se restreindre à la détection des homologues via l’alignement par BLAST, procédure comparable à la première étape de la pipeline d’EnsemblCompara GeneTrees. Pour ce faire, les séquences protéiques correspondant au bonobo ont été téléchargées à partir du site du National Center for Biology Information (NCBI ). Tableau 2.1 – Caractéristiques des séquences utilisées. Assemblage Nombre de séquences Nombre de séquences Couverture nucléiques codantes protéiques considérées correspondantes Homme* GRCh38.p2 20 300 – – Tatou* Dasnov3.0 22 711 – 6x Paresseux* ChoHof1.0 12 393 – 2,05x Bonobo† Panpan1 29 451 47 191 26x *Données Ensembl79 ; †Données NCBI

2.1.2.2 Programmes et bases de données utilisés

Deux bases de données ont été utilisées pour générer les gènes candidats lors de ce projet : tout d’abord Ensembl version 79 pour le téléchargement des listes d’orthologues et des séquences protéiques humaines et NCBI pour celles du bonobo. Les orthologues disponibles sur Ensembl sont identifiés à l’aide du programme interne EnsemblCompara GeneTrees. De plus, le programme BLAST a été utilisé localement sur le serveur de calcul du laboratoire pour aligner les séquences protéiques de l’Homme et du bonobo. EnsemblCompara GeneTrees est une méthode dite hybride de détection des orthologues. Pour toutes les espèces comprises dans Ensembl (69 espèces pour Ensembl79) et pour tous les gènes répertoriés, le pipeline considère le transcript protéique le plus long et réalise, à l’aide de BLAST, des alignements deux à deux de toutes les protéines contre celles de toutes les espèces. En se basant sur le bidirectional best hit (cf. supra) ou un ratio des scores d’alignement, des paires de séquences reliées sont définies. Des clusters de séquences reliées sont alors extraits. Suite à l’utilisation de cette méthode graphique, les relations entre les séquences d’un même cluster sont résolues à l’aide d’une approche basée sur les arbres. Ainsi, pour chaque cluster, un arbre de protéines et un arbre de gènes sont construits à partir des alignements multiples de séquences protéiques d’une part et de séquences nucléiques rétrotraduites d’autre part. Après avoir réconcilié ces arbres avec l’arbre des espèces via TreeBeST, EnsemblCompara GeneTrees infère les relations d’orthologie et de paralogie entre les séquences. Pour chaque espèce, il est possible de télécharger via BioMart les gènes possédant ou ne possédant pas d’orthologues dans une seconde espèce tout en soumettant ces gènes à certains filtres. Il a été ainsi choisi de se restreindre au génome nucléaire (chromosomes 1 à 22, X et Y) sans prendre en compte les séquences mitochondriales. Les séquences alternatives proposées par Ensembl pour certaines régions chromosomiques ont également été exclues de l’analyse, il s’agit d’haplotypes différant de l’assemblage du génome humain de référence du fait de la variabilité interindividuelle. ∗. OMA browser, OrthoDB, Homologene, TreeFarm, EnsemblPre

57 BLAST (Basic Local Alignment Search Tool [Altschul et al., 1990]) est un outil basé sur la recherche de zones de similarité locale. Ces dernières sont ensuite étendues en amont et en aval tant que leurs scores d’alignement ne diminuent pas plus d’une certaine fraction par rapport au score maximal. Cette approche permet d’optimiser des recherches de similarité entre des séquences dites queries et des banques de séquences à grande échelle dans un laps de temps relativement court, ce qui a motivé son choix pour ce projet. La version 2.2.30 du programme BLASTP (alignement de séquences protéiques contre d’autres séquences protéiques) a été utilisée pour comparer les séquences protéiques correspondant aux gènes humains présentant des orthologues chez le tatou mais pas chez le paresseux (constituant les séquences queries) avec l’ensemble des séquences protéiques du bonobo proposées sur NCBI (constituant la banque). BLASTP permet à l’utilisateur de déterminer un certain nombre de paramètres notamment les points à décompter du score d’alignement à l’ouverture et l’extension d’un gap (appelés pénalités de gap) ainsi que la matrice de substitution à utiliser.

2.1.2.3 Choix des paramètres d’alignement et des seuils “d’homologie”

Les matrices de substitution peuvent être qualifiées de plus ou moins profondes selon qu’elles visent à aligner des séquences présentant un degré d’identité plus ou moins élevé. En considérant que plus des espèces ont divergé récemment plus il est probable que leurs séquences présentent un degré d’identité élevé, il est ainsi préférable d’utiliser des matrices superficielles pour rechercher des homologies entre les séquences de bonobo et d’homme [Pearson, 2013]. Parmi celles proposées par BLAST, PAM30 et BLOSUM90 constituent les matrices les moins profondes. En se basant sur un raisonnement analogue et sur le fait que la fréquence attendue des insertions/délétions est plus faible à courte distance évolutive, des pénalités de gap élevées devraient être utilisées avec des matrices superficielles [Reese et Pearson, 2002]. Reese et Pearson ont, ainsi, proposé en 2002 une détermination empirique des pénalités de gap optimales pour des distances évolutives allant de 20 à 200 PAMs. C’est pourquoi il a été choisi de tester la matrice PAM30 avec des pénalités de 15 pour l’ouverture d’un gap et de 3 pour son extension. Se pose ensuite la question des critères à utiliser pour inférer l’homologie entre deux séquences suite à leur alignement. Comme cela a été indiqué en 2.1.1, BLAST fourni pour chaque alignement une e-value. D’après Pearson[2002], en ce qui concerne des alignements protéiques, une e-value de 10-3 permet d’inférer de façon robuste une relation d’homologie. Un autre paramètre intéressant à prendre en considération est le bit-score, une expression normalisée du score d’alignement S, formulée afin d’être indépendante de la taille de l’espace de recherche. D’après Pearson[2002], pour des séquences protéiques de taille moyenne, un bit-score de 50 est “presque toujours significatif”. Nous avons donc retenu comme seuil pour déclarer une homologie un bit-score de 50 et avons testé 6 seuils d’e-value compris entre 10-3 et 10-8. L’effet du choix d’une matrice moins profonde et de l’augmentation des pénalités de gap a également été évalué en terme de nombre de gènes candidats obtenus c’est-à-dire de gènes pour lesquels aucune des séquences protéiques correspondantes ne donnait lieu à un alignement avec une e-value et un bit-score significatif (cf. Figure 2.3). L’utilisation d’une matrice moins profonde et l’augmentation des pénalités de gap permet, comme attendu, de déclarer plus d’homologues (et donc moins de gènes candidats) même si l’effet des pénalités de gap est surtout sensible pour des e-value relativement faibles (à partir de 10-6). Pour un même seuil d’e-value, il n’y a pas d’inclusion complète entre les gènes candidats déclarés par les trois protocoles. Concernant l’utilisation de matrices différentes, il semble compréhensible qu’une même séquence présente des scores

58 différents puisque les alignements ne sont pas générés dans les mêmes régions ni étendus sur les mêmes longueurs. Les différences induites par l’augmentation des pénalités de gap restent faibles puisqu’elles mènent à une déclaration différentielle de seulement 1 à 4 % des gènes candidats. Cependant, au vu de leur effet restreint pour une e-value de 10-3, il est concevable que le degré d’inclusion soit moindre pour des e-value plus basses. Figure 2.3 – Effet des paramètres d’alignement en fonction de l’e-value. Les effets sont évalués en terme de nombre de gènes candidats, de pourcentage de gènes testés déclarés sans homologues et de degré d’inclusion des résultats (cf. Encart). E-value 10-3 E-value 10-5 E-value 10-7 E-value 10-4 E-value 10-6 E-value 10-8 900 14 pam30 avec pénalités 800 de gap augmentées blosum62 12 700 1 5 60 600 10

500 8 480 400 6 300 16 4 16 200 Nombre de gènes (N) 3 2 100 Pourcentage de gènes (%) pam30 -3 0 0 E-value 10 blosum62 pam30 pam30 avec pénalités de gap augmentées Matrices et pénalités de gap utilisées

D’après la Figure 2.3, il est possible de générer un nombre convenable de gènes candidats (de 500 à 700 soit 8 à 11 % des gènes testés) en utilisant une matrice et des pénalités plus pertinentes vis-à-vis de la recherche d’homologie à courte distance évolutive. C’est donc la matrice PAM30 avec des pénalités de gap augmentées qui a été conservée pour la génération des gènes candidats. Afin de limiter le nombre de variants à tester en association et en accord avec les données de la littérature [Pearson, 2002], une valeur d’e-value à 10-3 ainsi qu’un bit-score de 50 ont finalement été retenus comme seuils de significativité.

2.1.2.4 Résumé du protocole d’analyse

Une représentation globale du protocole utilisé pour la génération des gènes candidats est donnée dans la Figure 2.4. Biomart ne permettant pas de filtrer les gènes sur les relations d’orthologie dans plus de deux espèces à la fois, deux sets de gènes ont donc dû être téléchargés. Le but étant de générer des gènes candidats chez l’Homme, les gènes téléchargés ont été, d’une part, des gènes humains possédant des orthologues chez le tatou et, d’autre part, des gènes humains ne possédant pas d’orthologues chez le paresseux. Une simple intersection des deux sets a permis de déterminer les gènes possédant des orthologues chez le tatou mais pas chez le paresseux. Les séquences protéiques correspondantes ont pu être téléchargées via Biomart puis alignées sur les séquences protéiques de bonobo selon le protocole décrit en 2.1.2.3. L’étape d’alignement a été réalisée après les filtres relatifs aux orthologues afin qu’elle soit menée sur un nombre restreint de séquences et, ainsi, réduire le temps et les ressources de calcul nécessaires. Enfin, un script en langage Perl que nous avons écrit a permis d’identifier, parmi les 24 108 séquences protéiques humaines, lesquelles ne présentaient pas d’homologues selon les critères décrits précédemment et de remonter à la liste de gènes correspondants.

59 Figure 2.4 – Protocole global d’obtention des gènes candidats. Tatou 22 711 gènes (Biomart) Bonobo Filtre (Biomart) 17 088 gènes 47 190 protéines Gènes de H qui ont (NCBI) 19 783 gènes un orthogue chez T (Biomart) Protéines BLAST Intersection Homme corresponantes Alignement (script) 6 203 gènes ATG TTT TCG TGT TGA 24 108 prot LSVTVYATDATLNTRNLD M F S C – ASVTA––––––––TRHLD (Biomart) Filtre (Biomart) Gènes de H qui n’ont 8 205 gènes Filtre (script) 19 783 gènes pas d’orthogue chez P protéines qui ont n’ont (Biomart) pas d’homologue chez B 12 393 gènes (Biomart) 669 protéines Paresseux Gènes correspondants

ATG TTT TCG TGT TGA M F S C –

502 gènes candidats

2.1.3 Gènes candidats obtenus

Le protocole choisi a permis d’identifier 502 gènes. Cependant, le traitement des chro- mosomes sexuels nécessitant une méthode statistique différente de celle retenue pour ce projet, il a été décidé de ne considérer que les autosomes soit 485 gènes. Ce protocole de génomique comparative ayant été utilisé comme un outil au service de l’épidémiologie génétique, il ne sera pas présenté ici de résultats de génomique comparative à proprement parler. Il est cependant intéressant de fournir quelques caractéristiques concernant cette liste de gènes candidats. La Figure 2.5 présente des données quantitatives sur les gènes candidats obtenus. Tous les autosomes sont représentés à des degrés divers aussi bien en terme de nombre de gènes candidats qu’en terme de proportion de séquences codantes propres à chaque chromosome. Figure 2.5 – Répartition des gènes candidats par autosome. Le pourcentage de séquences codantes représenté par les gènes candidats au sein de chaque chromosome est également indiqué.

70 4.6% 5.4% 60 6.8%

50

40 2.9% 1.7% 2.3% 30 2.3% 20 2.7% 1.7% 3.7% 1.5% 2.3% 1.4% 1.2% 1.6% Nombre de gènes candidats Nombre 1.5% 1.4% 2.0% 10 1.0% 3.4% 0.3% 0.4% 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Chromosome

60 Afin d’avoir éventuellement une idée des fonctions impliquées, une analyse d’enrichis- sement des termes d’annotation à été réalisée sur le site DAVID [Huang et al., 2008]. Le principe est de déterminer quelles sont les annotations fonctionnelles associées à ces gènes et si certaines de ces annotations sont surreprésentées dans la liste par rapport à l’ensemble des gènes humains. Concernant l’annotation seule, les termes les plus représentés concernent l’épissage alternatif, les phosphoprotéines, la membrane plasmique et les voies de signalisation. Du point de vue des groupes de termes enrichis, un résumé simplifié concernant les 7 groupes présentant l’enrichissement le plus significatif (évalué par le score d’enrichissement) est donné dans le Tableau 2.2. Seul le premier groupe relatif à la fonction de polymérase de l’ARN reste significativement enrichi après une correction pour les tests multiples mais il ne concerne qu’une très faible part des gènes candidats (1,6 %). Quel que soit le degré de significativité considéré, les tendances d’enrichissement concernent des termes d’annotations larges qu’il est difficile de relier à la lèpre et ne comportent qu’une part faible des gènes candidats. Dans la mesure où il s’agit d’analyses basées sur des annotations (dépendantes de fonctions connues), il ne s’agit que d’indications à relativiser et non de conclusions. Tableau 2.2 – Résumé de l’analyse d’enrichissement effectuée sur les 485 gènes candidats. Score Nombre Degré Annotation d’enrichissement de gènes d’enrichissement 2,58 polymèrase ARN 8 1 à 9 1,53 phosphorylation 34 1,4 à 1,5 1,5 complexe protéique 25 1,5 à 1,7 1,37 détection des stimulations 6 2,2 à 3,9 1,33 transcription 13 1,9 à 2,0

2.2 Étude d’association

2.2.1 Matériels et méthodes

L’échantillon familial ainsi que les génotypes utilisés pour ce projet ont été générés pour une étude antérieure, la thèse universitaire de Jean Gaschinard, portant sur l’identification, au niveau du génome entier, des variants influençant la polarisation entre les formes multibacillaires et paucibacillaires de la lèpre [Gaschignard, 2014]. Les données brutes utilisées pour notre projet sont donc les données d’une puce de génotypage dont a été extrait le sous-ensemble correspondant aux gènes candidats identifiés. Afin de pouvoir inclure dans l’analyse les polymorphismes d’éventuelles régions régulatrices correspondantes aux gènes candidats, les marqueurs présents 10kb en amont et en aval de chaque gène ont également été inclus dans l’analyse.

2.2.1.1 Échantillon familial

L’échantillon utilisé pour ce projet est constitué de familles vietnamiennes présentant au moins un enfant atteint de lèpre, les parents et le reste de la fratrie étant soit malades soit sains. Les individus ont tous été recrutés à l’Hôpital de Dermato-Vénérologie de Ho Chi Minh entre 1991 et 2008. Pendant cette période de près de 20 ans, la situation épidémiologique du Vietnam vis-à-vis de la lèpre a évolué. La prévalence était de 6,78 pour 10 000 habitants au cours des années 80 puis a diminué jusqu’à ce que le pays atteigne l’objectif de l’élimination en 1995 (telle que définie par l’OMS par une prévalence inférieure

61 à 1/10 000). À la fin de la période de recrutement, la prévalence était de 0,1/10 000 pour un taux d’incidence de 0,75/100 000. Cet échantillon comporte 2 235 individus appartenant à 680 “familles” (ce terme regroupe aussi bien des individus isolés, des familles nucléaires ou trios que des familles multiplex comportant plusieurs couples de parents, éventuellement sur plusieurs générations). Parmi ces individus, sont distingués les “enfants” (n = 997) des “fondateurs” (n = 1 238). Les fondateurs sont les individus dont aucun parent n’a été génotypé, les autres étant désignés “enfants”, quel que soit leur âge. Les caractéristiques de l’échantillon sont résumées dans le Tableau 2.3. Conformément au mode de recrutement, la majorité des “enfants” sont atteints de lèpre (69 %), cependant une proportion non négligeable de fondateurs (près de 20 %) présente aussi la maladie. Cette observation est en accord avec l’existence d’une prédisposition génétique à la lèpre per se et l’agrégation familiale qui en découle (cf. 1.1.1.5). Tableau 2.3 – Caractéristiques de l’échantillon. Fondateurs Enfants Total N (%) N (%) N (%) Total 1 238 (100) 997 (100) 2 235 (100) Hommes 634 (51) 651 (65) 1 285 (57) Femmes 604 (49) 346 (35) 950 (43) Cas de lèpre 247 (20) 692 (69) 939 (42) Âge moyen au diagnostic 37,3 18,3 23,3 Répartition par groupe d’âge 4-9 ans 3 (1) 57 (8) 60 (6) 10-19 ans 21 (8) 367 (53) 388 (42) 20-59 ans 191 (77) 266 (39) 457 (50) ≥ 60 ans 17 (4) 0 (0) 17 (2)

2.2.1.2 Marqueurs génétiques

Les données de génotypage disponibles ont été obtenues en utilisant la puce Illumina Human 660W-Quad dont certaines caractéristiques sont présentées dans le Tableau 2.4. Elle comporte 657 366 SNP, dont 640 663 sur les chromosomes autosomes (n’incluant pas les chromosomes sexuels ni l’ADN mitochondrial). Cette puce a été conçue pour optimiser la couverture des variations du génome chez les Caucasiens. Cependant, même si nous ne disposons pas de données de couverture pour une population vietnamienne, elle est a priori élevée [Gaschignard, 2014]. La médiane d’espacement entre 2 SNP consécutifs sur la puce est de 2,3 kilobases (kb). Compte tenu du fort taux de recombinaison dans la région du complexe majeur d’histocompatibilité (CMH), la densité en SNP de la puce y est plus élevée : 3 177 SNP couvrent les 4 Mb de la région, soit une distance moyenne de 1,3 kb entre 2 SNP. La puce comporte par ailleurs un grand nombre de Copy Number Variants (CNV ), polymorphismes non bi-alléliques qui n’ont pas été inclus dans les analyses. Les SNP correspondants aux gènes candidats et à leurs régions flanquantes ont été extraits à partir de ces données après une phase de contrôle qualité réalisée sur l’ensemble des SNP de la puce (cf. 2.2.2).

62 Tableau 2.4 – Caractéristiques de la puce Illumina Human 660W-Quad d’après les données du fabricant. Illumina Human660W-Quad SNPs (N) 657 366 Couverture génomique (CHN-JAP) 86 %r2>0.8 Distance médiane entre 2 SNPs 2,3 kb 90ème percentile du plus grand espace entre 2 SNPs 10,6 kb SNPs non-synonymes (N) 10 051 SNPs du CMH //Insertions-délétions (N) 3 177/8 440

2.2.1.3 Méthode statistique

Le test utilisé principalement dans ce projet est le test d’association en famille ou Family- Based-Association-Test (FBAT), s’agissant d’une généralisation du test du déséquilibre de transmission (TDT), il est tout d’abord nécessaire d’en expliquer le principe.

Test du déséquilibre de transmission (TDT) Le TDT est un test d’association qui s’effectue à partir d’un échantillon constitué exclusivement de trios (deux parents et un enfant atteint, tous génotypés) [Spielman et al., 1993]. Sous l’hypothèse nulle H0 d’absence de liaison ou d’association entre un marqueur et le locus responsable de la maladie, les parents hétérozygotes à ce marqueur transmettent, avec la même probabilité (0,5), l’un ou l’autre de leurs allèles à l’enfant atteint. De façon contraire, sous l’hypothèse alternative H1 de liaison et d’association, la probabilité de transmission de l’un des allèles est différente de 0,5. Le principe du test est d’utiliser les allèles parentaux non transmis aux enfants malades comme témoins des allèles transmis. Il présente l’avantage de ne pas être sensible à la stratification de population. En effet, cette situation qui résulte d’une différence de fonds génétique entre cas et témoins représente un facteur de confusion majeur dans les études cas/témoins, menant à de fausses associations statistiques. En pratique, les allèles parentaux transmis et non transmis sont comptabilisés dans un tableau de contingence à quatre cases, correspondant aux quatre possibilités de transmission (cf. Tableau 2.5). PA étant la probabilité pour un parent Aa de transmettre A à son enfant malade, PA = n21/(n21 + n12). De même, Pa étant la probabilité pour un parent Aa de transmettre a à son enfant malade, Pa = n12/(n21 + n12). H0 s’écrit alors PA = Pa et H1, PA =6 Pa. La statistique T du test s’écrit alors :

(n − n )2 T = 12 21 (2.1) n12 + n21

2 T suit une loi de χ à 1 degré de liberté sous H0.

Tableau 2.5 – Tableau de contingence du TDT. n12 correspond au nombre de fois où un parent a transmis un allèle A et n’a pas transmis un allèle a. allèles transmis A a allèles A n n non 11 12 transmis a n21 n22

63 Test d’association en famille ou Family-Based-Association-Test (FBAT) Le test FBAT est une généralisation du TDT qui permet de traiter des échantillons contenant des familles multiplex, des parents non génotypés et de spécifier différents modèles génétiques (additif, dominant, récessif) [Laird et al., 2000]. La statistique U du test est une combinaison linéaire des génotypes des enfants et de leur phénotype :

U = S − E(S) (2.2)

P avec : S = ij TijXij, où Tij est une fonction du phénotype et Xij est une fonction du génotype de l’enfant j appartenant à la famille i. Dans le cas d’un phénotype binaire (malade/non malade) comme c’est le cas dans cette étude, Tij est codé 1 pour un enfant malade et 0 pour un enfant sain. Le codage de Xij dépend lui du modèle génétique considéré (cf. Tableau 2.6). Tableau 2.6 – Codage des génotypes X des enfants atteints en fonction du modèle génétique utilisé. A est l’allèle de référence pour le modèle génétique. Génotype X brut Additif Dominant Récessif AA 2 1 1 Aa 1 1 0 aa 0 0 0

E(S) est l’espérance de S sous l’hypothèse nulle H0 d’absence de liaison ou d’association entre le locus maladie et le marqueur considéré, conditionnellement aux génotypes des parents. Si l’espérance du génotype d’un enfant dont les parents ont une combinaison de génotype k ∈ {1,2,3,4,5,6} est notée E(Xk), les E(Xk) sont calculées avec la formule P suivante : E(Xk) = g P (Xk = g)g. Xk qui est le génotype de l’enfant est recodé en une valeur g selon le modèle génétique considéré et la combinaison des génotypes parentaux (d’où l’espérance conditionnelle) (cf. Tableau 2.7).

Tableau 2.7 – Espérance sous H0 du génotype X d’un enfant, notée E(Xk) selon la combinaison k des génotypes parentaux et le modèle génétique choisi. A est l’allèle de référence pour le modèle génétique.

Génotypes parentaux E(Xk) k Génotypes bruts Additif Dominant Récessif 1 AA AA 2 1 1 2 AA Aa 1,5 1 0,5 3 AA aa 1 1 0 4 Aa Aa 1 0,75 0,25 5 Aa aa 0,5 0,5 0 6 aa aa 0 0 0

Exemple : Prenons le cas d’un enfant de deux parents hétérozygotes Aa (soit k = 4) en modèle dominant. Le génotype de l’enfant prend les valeurs g = 1 ou g = 0. La probabilité que X4 = 1 équivaut donc sous H0 à ce que l’enfant ait un génotype AA ou Aa sachant que les parents sont tous deux Aa, c’est-à-dire P (X4 = 1) = P (AA|k = 4) + P (Aa|k = 4) ou P (X4 = 1) = 0,25 + 0,5 =0 ,75. L’espérance sous H0 du génotype de cet enfant est P donc E(X4) = g P (X4 = g)g = P (X4 = 1) × 1 + P (X4 = 0) × 0 = 0,75 × 1 + 0 = 0,75.

La variance V de U peut être calculée à partir de la distribution attendue des génotypes Xij des enfants sous H0, c’est-à-dire en considérant que les Xij sont distribués de façon

64 aléatoire conditionnellement au génotype des parents et que les phénotypes Tij sont fixés. Dans le cas où les données parentales sont incomplètes, la distribution de la statistique s’obtient en conditionnant également sur les configurations génotypiques observées chez les enfants. La statistique du test est finalement : U Z = √ (2.3) V

Pour un échantillon suffisamment grand (en pratique au moins 10 transmissions), la statistique de test Z suit une loi normale centrée réduite. Le test FBAT fourni une statistique de test Z par allèle et par modèle génétique testé, accompagnée d’une p-value. Pour un marqueur et un test bi-allèlique (ce qui correspond au cas présenté dans la suite de ce rapport), une famille informative concernant l’allèle de référence A sous un modèle dominant le sera également concernant l’allèle a sous un modèle récessif et inversement (cf. Tableau 2.6). La statistique du test Z correspondante à l’allèle A en modèle dominant sera −Z pour l’allèle a en modèle récessif et les p-value seront identiques. C’est pourquoi il sera présenté, dans ce rapport, seulement les résultats correspondants aux modèles additif et dominant.

2.2.2 Contrôle qualité des données de génotypage

Éviter au mieux les fausses associations est un enjeu crucial dans les études d’associations génétiques. Outre la stratégie d’échantillonnage, le contrôle qualité des génotypes obtenus permet de réduire les faux positifs et les faux négatifs ∗ [Anderson et al., 2010]. En effet, les données de génotypage peuvent être erronées ou manquantes au niveau d’un marqueur ou d’un individu (les erreurs peuvent alors concerner la majorité des marqueurs analysés chez cet individu). Ainsi, il est conseillé d’exclure de l’analyse les individus dont le pourcentage de SNP génotypés (indice appelé call rate) est inférieur à un certain seuil. Dans le cas de données familiales, il est possible de déterminer le nombre d’erreurs mendéliennes par “enfant”, c’est-à-dire le nombre d’allèles qu’il ne peut avoir reçu de ses parents en prenant en compte leurs génotypes et l’hérédité mendélienne. Ce paramètre permet, quand sa valeur est élevée, d’identifier des individus dont le génotype est probablement erroné. Concernant les SNP, un call rate par marqueur peut être défini (il s’agit alors de la proportion de génotypes sans données manquantes pour ce SNP), permettant d’exclure certains SNP de l’analyse. Trois autres paramètres permettent de suspecter des erreurs de génotypage systématique au niveau d’un marqueur. Il s’agit du nombre d’erreurs mendéliennes non plus par individu mais par SNP, de la déviation à l’équilibre de Hardy- Weinberg † et de la fréquence de l’allèle le moins commun (ou MAF pour Minor Allele Frequency). Ainsi, un marqueur montrant un écart significatif à l’équilibre de Hardy- Weinberg chez les individus non atteints est considéré comme indicateur d’une erreur de génotypage. Enfin, les variants rares (définis par une MAF faible) sont habituellement

∗. Respectivement, l’association statistique d’un variant non causal avec la maladie et, au contraire, la non-association d’un variant causal avec la maladie. †. Le modèle de Hardy et Weinberg est un modèle de référence en génétique des populations. Il stipule que dans une population pangamique (où la rencontre des gamètes est aléatoire) les proportions des génotypes aa, Aa et AA à un locus bi-allélique peuvent s’exprimer à partir des fréquences alléliques au sein 2 2 des gamètes. Ainsi, si p est la fréquence allélique de a et q celle de A, Paa = p , PAA = q et PaA = 2pq. Dans les conditions où il n’y a pas de sélection sur le locus, pas de mutation, pas de migration et que la taille de la population est infinie, ces proportions sont stables d’une génération à l’autre et le locus est dit “à l’équilibre de Hardy-Weinberg”.

65 écartés. En effet, il semblerait que le nombre réduit d’hétérozygotes et d’homozygotes pour ces variants ne permette pas aux algorithmes convertissant les données d’intensité en génotype de les traiter correctement. D’un point de vue méthodologique, il est conseillé d’effectuer le contrôle qualité d’abord sur les individus puis sur les SNP afin de ne pas exclure des marqueurs qui n’auraient pas été appelés chez certains individus de mauvaise qualité seulement. En effet, chaque marqueur écarté constitue un éventuel faux négatif. Le contrôle qualité a donc été effectué selon cet ordre à l’aide du logiciel PLINK version 1.07 [Purcell et al., 2007]. Afin de calculer les paramètres sur un nombre suffisant de marqueurs, le contrôle qualité a été réalisé sur l’ensemble des SNP de la puce Illumina. Les variants correspondants aux gènes candidats ont ensuite été extraits au sein des SNP ayant passé les filtres qualité. Il est possible de juger indirectement de l’effet d’un protocole de contrôle qualité en observant le diagramme quantile-quantile (ou qqplot) des p-value obtenues avec FBAT. En effet, il compare les quantiles de la distribution théorique sous H0 aux quantiles de la distribution observée des p-value et donne ainsi un aperçu de l’erreur de type I ∗ du test.

Un premier contrôle qualité “standard” a été réalisé en excluant les individus puis les SNP n’atteignant pas les seuils suivants : — Call rate individus > 95 % — Call rate SNP > 99 % — Pas d’écart à l’équilibre de Hardy-Weinberg (jugé significatif pour une p-value < 10-5) — MAF > 1 % — Nombre d’erreurs mendéliennes par SNP < 10 †

Ce contrôle qualité a sélectionné 2 230 individus et 472 261 SNP, l’extraction des poly- morphismes correspondants aux gènes candidats a fourni 4 682 SNP répartis dans 440 des 485 gènes candidats. Les qqplots obtenus pour les différents modèles génétiques testés sont représentés sur la Figure 2.6. Figure 2.6 – Diagrammes quantile-quantile (qqplot) des p-value obtenues après un contrôle qualité standard.

(a) Modèle additif (b) Modèle dominant/récessif

∗. Correspondant aux faux positifs. †. Valeur déterminée en étudiant la distribution du nombre d’erreurs mendéliennes par SNP.

66 Bien que, d’après Anderson et al. [2010], les valeurs de filtres utilisés soient dans la moyenne de ceux rapportés pour des études génome entier, les p-value observées sont supérieures aux p-value attendues pour plus de 10 % des SNP testés. Cette situation peut résulter d’un réel enrichissement des marqueurs testés en SNP causaux du fait de la sélection de gènes candidats pertinents (les p-value correspondraient alors à des vrais positifs). Cependant, il reste tout à fait possible qu’il s’agisse de faux positifs résultant notamment d’un contrôle qualité insuffisant. Cette hypothèse est privilégiée dans la mesure où le qqplot correspondant au génome entier (réalisé en considérant les 472 261 SNP) montre également une légère déviation. Il a donc été décidé d’utiliser des seuils plus stringents et d’ajouter un filtre sur le nombre d’erreurs mendéliennes par individus. PLINK attribuant certains types d’erreurs mendéliennes à l’enfant et aux parents et d’autres seulement aux enfants, deux filtres différents ont été testés : l’exclusion de tous les individus présentant un nombre d’erreurs supérieur au seuil et l’exclusion des enfants seulement. Les valeurs considérées pour les filtres sont : call rate individus > 97 %, call rate individus > 99 %, nombre d’erreurs mendéliennes par individu < 1000 ∗, nombre d’erreurs mendéliennes par enfant < 1000, call rate SNP > 99,5 %, pas d’écart à l’équilibre de Hardy-Weinberg (jugé significatif pour une p-value < 10-3) et MAF > 5 %. L’effet marginal de chaque filtre a tout d’abord été testé en modèle additif puisque c’est le modèle pour lequel la déviation est la plus évidente (cf. Figure 2.7). Concernant les filtres SNP, en terme de diminution de nombre de marqueurs et de gènes testés, l’effet marginal de la modification de la p-value est négligeable (seuls 6 SNP supplémentaires sont écartés) alors que l’augmentation de la MAF et du call rate diminuent respectivement de 8 et 13 % le nombre de SNP considérés. Cependant, quel que soit le filtre SNP, l’augmentation des seuils modifie les qqplot de façon quasi imperceptible (cf. Figures 2.7e, 2.7f et 2.7g). Pour ce qui est des filtres individus, les nouveaux seuils permettent d’augmenter de quelques pourcents le nombre de marqueurs testés. Cela se comprend dans la mesure où un grand nombre d’individus de mauvaise qualité peut diminuer les indices qualité de marqueurs dont le génotypage n’est pas systématiquement erroné chez les individus de bonne qualité et, ainsi, mener à l’exclusion de ces marqueurs. Cependant, seuls le call rate à 99 % et les erreurs mendéliennes pour tous les individus améliorent sensiblement les qqplots. Ce résultat qui peut sembler surprenant, surtout au vu des nombres de SNP testés parfois très proches (il y a seulement 2 SNP d’écart entre les Figures 2.7c et 2.7d), souligne le fait que ces filtres n’ajoutent ou n’excluent pas les mêmes marqueurs. L’aspect des qqplots et le nombre de marqueurs testés ne présentent donc qu’une information partielle sur l’effet marginal des filtres et il serait ainsi inapproprié de choisir quels seuils conserver sur la seule base de ces informations. En outre, il est intéressant de savoir quels sont les effets marginaux de ces filtres sur le top signal c’est-à-dire les SNP présentant les p-values les plus basses. Il a donc été choisi de s’intéresser à l’effet des seuils testés sur le nombre de SNP présentant une p-value inférieure à 5.10-3 (cf. Figure 2.8). Cette valeur ne correspond en aucun cas à un seuil de significativité, puisqu’à titre indicatif la correction de Bonferroni exigerait une valeur nominale de significativité de l’ordre de 10-5, il s’agirait plutôt d’un seuil permettant de déterminer quels SNP choisir pour une réplication (cf. 1.1.2.3).

∗. Valeur déterminée en étudiant la distribution du nombre d’erreurs mendéliennes par individu.

67 Figure 2.7 – Diagrammes quantile-quantile des p-value en modèle additif, obtenus après la modification de filtre indiquée, les autres filtres restant inchangés.

(a) Call rate individu > 97 % (b) Call rate individus > 99 % (c) Erreurs mendéliennes par in- dividu < 1000

(d) Erreurs mendéliennes par en- (e) Call rate SNP > 99,5 % (f) P-value < 10-3 pour l’écart à fant < 1000 l’équilibre de Hardy-Weinberg

(g) MAF > 5 % Figure 2.8 – Effets marginaux des filtres sur le top signal et degré d’inclusion des SNP selon les filtres. Les chiffres soulignés se rapportent aux SNP correspondant au contrôle qualité standard. HW : écart à l’équilibre de Hardy-Weinberg, CRSNP : call rate SNP, MEND : erreurs mendéliennes, CRID : call rate individus. -3 MAF 5% 50

<5.10 5 erreurs mendéliennes enfants 40

Call rate SNP 99,5% 0 0 1 1 p-value 1 30 10 1 10 6 7 0 5 0

20 9 0 8 1 0 0 3 0

10 0 5 0 0 0 0 1 7 0 -3 Qc base MAF 5% HW 10 CRSNP MEND MEND CRID 17

nombre de snp avec de snp avec nombre 99,5% enfants 99% erreurs mendéliennes individus Call rate individus 99% commun avec le contrôle qualité filtres de base ou standard non commun

68 La Figure 2.8 montre une nette différence entre l’effet des filtres SNP et individus sur la composition du top signal lorsqu’elle est comparée à la composition du top signal de base. En effet, les filtres SNP ne font que dégrader le top signal standard en particulier en ce qui concerne le call rate. La MAF à 5 % est équivalente à un SNP près au contrôle qualité standard et l’écart à l’équilibre de Hardy-Weinberg avec une p-value à 10-3 lui est totalement équivalent. Les filtres individus, eux, modifient tous la composition du top signal et il est intéressant de constater que chaque filtre apporte des top SNP qui lui sont spécifiques. Ainsi, en se basant à la fois sur les qqplots et le top signal, il semble intéressant d’augmenter le call rate individu à 99 % et d’utiliser un filtre sur les erreurs mendéliennes. Même si seul le filtre appliqué à l’ensemble des individus permet d’améliorer le qqplot, il est intéressant de conserver le filtre appliqué aux enfants puisque ce dernier enrichi de manière spécifique le top signal. De plus, il est difficile de prévoir l’effet combiné des filtres à partir des seuls effets marginaux, 4 combinaisons de ces filtres ont donc été testées (cf. Figure 2.9). Au sein de chacun des protocoles, la valeur du seuil de la MAF a finalement été augmentée à 5 %. Ce choix n’a pas été motivé par l’examen de l’effet marginal des filtres mais par la pertinence biologique du seuil. Les qqplots correspondant aux protocoles B, C et D ne montrent pas de déviation contrairement au diagramme obtenu avec le protocole A. Ce n’est pas un résultat surprenant dans la mesure où ce dernier ne comporte que des valeurs de filtres ne permettant pas de diminuer la déviation du qqplot standard. Ainsi, bien que le protocole A permette d’augmenter le nombre de SNP appartenant au top signal, il est probable au vu du diagramme qu’il l’enrichisse en faux positifs ; il est ainsi préférable de l’écarter. Il ne faut cependant pas perdre de vue qu’augmenter la stringence d’un protocole de contrôle qualité permet certes de diminuer l’erreur de type I mais que cela peut également conduire à exclure des SNP causaux. Si les qqplots constituent une façon d’approcher l’effet des protocoles sur la diminution des faux positifs, il est difficile d’évaluer leurs effets sur l’exclusion de marqueurs causaux et donc d’évaluer à quel degré leur stringence peut dégrader les résultats. Ainsi, plutôt que de choisir parmi les 3 protocoles restants, il a été jugé préférable de privilégier une certaine diversité méthodologique dans le contrôle qualité permettant de prendre peut être en compte plus de SNP causaux. En effet, les filtres enrichissant de façon spécifique le top signal, il est probable que les protocoles B, C et D mènent à des top SNP différents et de même excluent des marqueurs causaux de façon différentielle. La partie suivante présentera donc les résultats obtenus avec les protocoles B, C et D.

2.3 Résultats d’association

La Figure 2.10 représente les Manhattan-plots en modèles additif et dominant. Ils figurent les résultats du test d’association selon la position du marqueur sur le génome (en abscisse) et −log10(p-value) (en ordonnée) et permettent de faire ressortir visuellement les SNP pour lesquels l’association est la plus significative. La composition du top signal (SNP pour lesquels la p-value est inférieure à 5.10-3) est fournie en annexe. Quel que soit le modèle génétique ou le protocole de contrôle qualité utilisé, aucun SNP n’atteint la valeur nominale de significativité obtenue après correction de Bonferroni. Au- delà de cette constatation importante qui sera développée dans quelques lignes, l’analyse de ces graphiques est l’occasion de formuler quelques remarques intéressantes concernant les modèles génétiques et les protocoles utilisés.

69 Figure 2.9 – Synthèse des protocoles de contrôle qualité testés (composants et effets en terme de marqueurs testés, de top signal et de qqplot).

2 335 individus 2 335 individus

CRID 95% 99%

2 230 individus 1 898 individus

MEND ID enfants tous enfants tous S = 1000

2 106 individus 1 909 individus 1 844 individus 1 723 individus

640 663 SNP 640 663 SNP 640 663 SNP 640 663 SNP

CRSNP 99% 99% 99% 99%

MAF 5% 5% 5% 5%

HW 10-5 10-5 10-5 10-5

MEND S = 10 S = 10 S = 10 S = 10

433 704 SNP 433 250 SNP 446 437 SNP 445 770 SNP

Extraction SNP candidats

4 343 SNP 4 345 SNP 4 440 SNP 4 436 SNP

436 gènes 437 gènes 439 gènes 438 gènes

-3 -3 -3 -3 Top SNP p < 5.10 p < 5.10 p < 5.10 p < 5.10 addifif 47 36 36 34 dom/réc 73 60 73 64

qqplot addifif

A B C D

70 Ainsi, il semble que le modèle dominant permet d’obtenir, non seulement, plus de top SNP (de l’ordre de 2 fois plus cf. Figure 2.9) mais également des valeurs de p-value plus basses dont certaines se rapprochent du seuil de significativité. À titre d’exemple, le nom des marqueurs dont la p-value est inférieure à 10-4 (pour le modèle dominant) et 5 × 10-4 (pour le modèle additif) sont indiqués sur les graphiques. Il est ainsi visible que les deux modèles génétiques fournissent des p-values différentes pour les mêmes SNP et permettent l’identification de marqueurs différents. Concernant les protocoles B (points bleus), C (verts) et D (rouges), il semble que les protocoles basés sur un call rate individus à 99 % (protocoles C et D) fournissent des p-values plus faibles. Les SNP pour lesquels l’association est la plus significative sont quasiment les mêmes mais leurs rangs et les écarts entre leurs p-values varient selon le protocole considéré, par exemple rs2672890 et rs3764481 présentent des p-values proches avec le protocole D contrairement à ce qui est observé pour le protocole C. Figure 2.10 – Manhattan-plots des résultats d’association. Les résultats obtenus avec les protocoles B(bleu), C(vert) et D(rouge) sont représentés. La droite rouge figure la valeur nominale de significativité après la correction de Bonferroni et la droite bleue la valeur seuil pour une éventuelle réplication.

(a) Modèle additif (b) Modèle dominant/récessif

L’absence de p-values significatives n’est pas totalement surprenante au regard du seuil pris en compte. En effet, la correction de Bonferroni (qui est obtenue en divisant 0.05 par le nombre de tests effectués) est une correction simple à mettre en oeuvre mais elle suppose que les tests considérés sont indépendants. Or, compte tenu du déséquilibre de liaison entre les SNP, les tests effectués ne sont pas tous indépendants. Il s’agit donc d’un seuil indicatif mais reconnu comme trop conservateur pour les études d’association génétiques. Plusieurs méthodes permettent d’adopter d’autres seuils de significativité ou tout simplement d’autres mesures du degré de significativité ∗ [Rice et al., 2008]. Cependant, de par l’existence d’une cohorte de cas/contrôles directement disponible (constituée des “fondateurs” de notre échantillon d’étude), il leur a été préféré la mise en place d’une stratégie de “pseudo”-réplication des résultats. Le principe est de tester les SNP les plus significatifs dans un échantillon indépendant du premier afin d’en exclure les faux positifs. En effet, le jeu de données étant différent, il est probable que les facteurs de confusion responsables de faux positifs dans l’association primaire sont également différents et que ces derniers ne sont pas retrouvés significatifs. Les SNP sélectionnés pour cette réplication sont ceux pour lesquels la p-value est

∗. Leurs intérêts dans le cadre de ce projet seront discutés dans la partie suivante.

71 inférieure à 5 × 10-3, seuil permettant de tester un nombre raisonnable de marqueurs (148 SNP) (cf. Annexe). La cohorte de réplication est constituée des “fondateurs” de l’échantillon familial dont 20 % sont atteints de lèpre. Comme cela a été évoqué en 2.2.1.3, les études de type cas/témoin sont sensibles aux biais de confusion créés par la stratification de la population. Il est ainsi conseillé d’exclure les individus présentant un fonds génétique différent du reste de la cohorte lorsqu’ils sont distribués différentiellement entre les cas et les témoins. L’un des moyens d’identifier ces individus isolés (i.e. outlier) est l’analyse en composante principale [Anderson et al., 2010]. Jean Gaschinard en a réalisé une dans le cadre de sa thèse (cf. Figure 2.11). Elle permet de constater que les “fondateurs” de l’ethnie Raglay forment un groupe éloigné du reste de la cohorte. Ces derniers comportant des cas et des témoins en proportion différentes, ils ont été retirés de l’échantillon. Afin de ne pas exclure trop d’individus (le nombre de cas initial n’étant que de 247), le seuil de call rate à atteindre a été fixé à 95 % et un seuil de 1 000 erreurs mendéliennes a été utilisé pour tous les individus. L’échantillon final était alors constitué de 1 006 individus comprenant 178 cas et 828 témoins. Figure 2.11 – Distribution des fondateurs de l’échantillon par origine ethnique selon la première et la deuxième composante principale d’analyse en incluant les popula- tions de Hapmap les plus proches génétiquement. CHB = Chinois Han de Beijing, CHD = Chinois de Denver – États-Unis, JPT = Japonais. Tiré de Gaschignard[2014]

Quatre types de tests statistiques ont été menés à l’aide de PLINK : — χ2 à un degré de liberté testant la différence de distribution des allèles entre cas et témoins (allèle A versus a) — χ2 à deux degrés de liberté testant la différence de distribution des génotypes (AA versus Aa versus aa) — χ2 à un degré de liberté testant la différence de distribution des génotypes en formulant une hypothèse sur le modèle génétique (dominant ou récessif)(respectivement AA, Aa versus aa et AA versus Aa,aa) — Cochran-Armitage trend test qui impose une relation de dosage entre les trois génotypes possibles (AA, Aa et aa) Le Tableau 2.8 fournit les résultats de ces analyses censurés pour une p-value inférieure à 5 %. Quinze SNP sont trouvés significatifs dans 6 gènes différents, 8 sur le chromosome 1, 1 sur le chromosome 3, 4 sur le chromosome 15, 1 sur le et 1 sur le chromosome 18. Nous retrouvons donc des SNP répliqués sur 3 chromosomes et 6

72 gènes n’ayant pas été impliqués lors d’études d’association avec la lèpre. Ces marqueurs présentent des positions parfois très proches et peuvent constituer un seul et même signal du fait du déséquilibre de liaison à courte ou longue distance. Ainsi, des calculs de r2 ∗ ont été effectués pour tous les marqueurs appartenant au même chromosome afin d’évaluer leur redondance (cf. Figure 2.12). Parmi les 8 SNP du chromosome 1, deux paires de SNP forment des bins (définis par une valeur de r2 supérieure à 0,8) et représentent donc le même signal. Il semble qu’il y ait 6 signaux non redondants au sein du chromosome 1. De même, trois des quatre SNP du chromosome 15 appartiennent au même bin. Le nombre de signaux répliqués serait donc de 11. Figure 2.12 – Cartes de déséquilibre de liaison (exprimé en valeur de r2 (%)). Les blocks (définis par un D’ supérieur à 0,8) sont également représentés.

(a) SNP répliqués appartenant au chromosome 1. (b) SNP répliqués appartenant au chromosome 15.

Les signaux les plus significatifs sont obtenus avec le test Cochran-Armitage trend en modèle récessif à chaque fois pour des marqueurs se trouvant dans la région codante du gène CAMTA1 (Calmodulin Binding Transcription Activator 1 ). Il s’agit d’un facteur de transcription activé par le calcium qui semble être impliqué dans la croissance et la différenciation neuronale [Henrich et al., 2011]. Des polymorphismes dans sa séquence codante ont été associés à des troubles cognitifs, au développement de neuroblastome ou encore à l’ataxie congénitale [Huentelman et al., 2007]. La spécificité de tissu de son expression semble sujette à controverse. Certains auteurs rapportent une expression spécifique dans cerveau alors que d’autres décrivent un patron beaucoup plus large incluant la peau, les phanères et certaines glandes digestives [Yusıflı et Kösemehmetoğlu, 2014]. De façon intéressante, deux autres gènes contenant des SNP répliqués présentent des fonctions relatives au système nerveux du moins chez des espèces modèles. Ainsi, le gène MEGF11 (Multiple EGF-like-domains 11 ) est impliquée dans les interactions entre neurones de la rétine chez la souris [Kay et al., 2012]. Toujours chez la souris, RNF165 (Ring Finger Protein 165 ) est nécessaire à la croissance des axones de neurones moteurs [Kelly et al.,

∗. L’expression formelle du déséquilibre de liaison que nous avons évoqué en 1.1.2.1 était D = pAB − pA × pB en considérant pA et qa, les fréquences alléliques au premier locus, pB et qb celles au deuxième locus et pAB est la fréquence des gamètes porteurs des allèles A et B. Cependant la dépendance entre D et les fréquences alléliques (qui varient entre les populations) empêche les comparaisons de D entre populations. En pratique, il lui est donc préféré deux mesures normalisées du déséquilibre de liaison : 2 0 r = D/(pB × qb × pA × qa) et D = D/Dmax

73 Tableau 2.8 – Résultats de l’étude cas/témoins de réplication. Seuls les marqueurs présentant une p-value inférieure à 5 % sont représentés. Chr Marqueur Position Gène MAF A1 A2 Test Cas Témoin Chi2 p-value Protocole contrôle qualité REC 38/139 110/716 7.701 0.00552 TREND 161/193 623/1029 7.554 0.00599 1 rs7554752 7014444 CAMTA1 40 % C T C et D ALLELIC 161/193 623/1029 7.39 0.00656 GENO 38/85/54 110/403/313 8.755 0.01256 REC 12/166 16/809 12.44 0.00041 GENO 12/52/114 16/242/567 12.57 0.00187 1 rs884736 7015105 CAMTA1 18 % T C C et D TREND 76/280 274/1376 4.654 0.03099 ALLELIC 76/280 274/1376 4.572 0.03250 REC 22/156 51/777 8.368 0.00382 TREND 121/235 442/1214 7.971 0.00475 1 rs7539029 7016109 CAMTA1 28 % C T ALLELIC 121/235 442/1214 7.744 0.00539 commun à B,C et D GENO 22/77/79 51/340/437 9.945 0.00693 DOM 99/79 391/437 4.134 0.04204 1 rs12033659 7029814 CAMTA1 37 % C T REC 31/146 92/733 5.479 0.01925 commun ALLELIC 139/217 538/1116 5.571 0.01826

74 1 rs6698901 7041175 CAMTA1 34 % G A 538/1116 5.474 0.01930 CTREND139/217 DOM 112/66 447/380 4.669 0.03071 1 rs6681529 7052566 CAMTA1 35 % A G ALLELIC 139/217 555/1097 3.845 0.04988 C REC 9/169 105/720 8.552 0.00345 TREND 99/257 578/1072 6.837 0.00893 1 rs9434824 7137637 CAMTA1 34 % T C commun à B,C et D ALLELIC 99/257 578/1072 6.829 0.00897 GENO 9/81/88 105/368/352 9.137 0.01037 REC 9/169 100/727 7.498 0.00618 ALLELIC 97/259 564/1090 6.232 0.01255 1 rs9434459 7144591 CAMTA1 33 % T C B et C TREND 97/259 564/1090 6.223 0.01261 GENO 9/79/90 100/364/363 8.135 0.01712 TREND 28/328 190/1466 4.024 0.04487 3 rs6774369 11161663 HRH1 11 % C T commun à B,C et D ALLELIC 28/328 190/1466 3.949 0.04691 15 rs3743171 65916527 MEGF11 27 % A T DOM 68/110 383/437 4.271 0.03876 B 15 rs12917564 65923746 MEGF11 27 % C G DOM 68/110 386/439 4.356 0.03688 B 15 rs8028238 65980007 MEGF11 27 % G A DOM 69/109 388/440 3.873 0.04906 B 15 rs1899416 88897349 MFGE8 35 % T C REC 14/161 110/710 3.876 0.04898 commun à B,C et D ALLELIC 40/316 267/1387 5.45 0.01957 16 rs3794624 88717074 CTU2 15 % T C C et D TREND 40/316 267/1387 5.427 0.01983 TREND 13/337 107/1541 4.139 0.04191 18 rs1316826 46348156 RNF165 6 % C T B ALLELIC 13/337 107/1541 3.948 0.04694 2013]. Bien que ces fonctions restent spécialisées dans la croissance des neurones ou soient réalisées dans des territoires restreints du système nerveux central, elles font écho même de façon ténue au tropisme nerveux de la lèpre. Ainsi, l’un des deux seuls types cellulaires infectés par M. leprae est constitué par les cellules de Schwann qui s’agrègent justement autour des axones pour former les gaines de myéline. De même, il est décrit des cas de lèpre oculaire où le bacille de Hansen a été retrouvé dans la rétine [Oréfice et al., 1998]. Si le rapprochement entre CAMTA1, MEGF11, RNF165 et la lèpre ne peut se baser que sur les tissus impliqués à défaut des fonctions, deux autres gènes sont impliqués dans la réaction inflammatoire, mécanisme suspecté comme étant responsable des lésions nerveuses engendrées par la maladie [Misch et al., 2010]. Ainsi, la protéine MFGE8 (milk fat globule- epidermal growth factor 8 ) est un facteur anti-inflammatoire qui déclenche la phagocytose des cellules endothéliales en apoptose en reprogrammant les macrophages [Brissette et al., 2012]. HRH1 (Histamine Receptor H1 ) est l’un des quatre récepteurs à l’histamine, impliquée notamment dans la vasodilation et l’œdème accompagnant l’inflammation. Seul CTU2 (cytosolic thiouridylase subunit 2 ) reste difficile à relier à la physiopathologie de la lèpre dans l’état des connaissances actuelles. En effet, il s’agit d’une séquence identifiée comme homologue de celle de la levure Schizosaccharomyces pombe dont la fonction est la thiolation (remplacement des atomes d’oxygène par des atomes de soufre) des ARN de transfert. Malgré l’identification de signaux dans certains gènes semblant faire sens avec le phéno- type étudié, ces résultats doivent être nuancés. Il est ainsi nécessaire de prendre en compte les limites s’appliquant, à différents niveaux, à ce projet.

2.4 Discussion

2.4.1 Limites immédiates de l’étude

Cette étude présente plusieurs limites aussi bien du point de vue méthodologique qu’au niveau de la construction de la démarche expérimentale. Cette partie sera l’occasion de les discuter et nous proposerons dans la partie suivante des perspectives immédiates permettant, pour certaines, de les dépasser. Ainsi, la réplication mise en oeuvre est discutable sur plusieurs points. Tout d’abord, le critère d’indépendance entre nos deux échantillons d’étude n’est pas forcément vérifié dans la mesure où le second est un sous-ensemble du premier. Le phénotype des parents n’est certes pas pris en compte par les tests d’association en famille. On peut donc considérer que les individus testés sont différents. Cependant, certains biais comme ceux relatifs à la sélection des sujets (biais d’échantillonnage) ou à leur phénotypage (biais de mesure) sont communs à ces deux échantillons puisqu’ils proviennent de la même cohorte. Les faux positifs générés par ces biais ne peuvent donc pas être écartés par une réplication au sein de cet échantillon. Outre le fait que cet échantillon de réplication n’est pas indépendant du premier, il peut également poser un problème en terme de phénotype testé. En effet, il a été évoqué en 1.1.1.4 qu’il existe plusieurs formes de lèpres qui constituent un phénotype secondaire. Si une forme est majoritaire parmi les cas, il devient alors difficile de déterminer si l’association observée concerne la lèpre per se ou la forme clinique. Or, si les proportions de paucibacillaire/multibacillaire sont à peu près équivalentes chez les “enfants” de l’échantillon, ce n’est pas le cas chez les “fondateurs” où il y entre 55 et 75 % de formes multibacillaires selon le système de classification choisi [Gaschignard, 2014]. Au-delà de cet aspect méthodologique, les résultats présentés restent à compléter. En effet, les signaux répliqués peuvent être constitués de SNP en déséquilibre de liaison avec

75 d’autres marqueurs à plus ou moins longue distance. Ainsi, les SNP présentés dans le Tableau 2.8 ne peuvent pas être qualifiés de causaux sans une étude exhaustive des patrons de déséquilibre de liaison. En poursuivant le même raisonnement, les SNP identifiés peuvent également porter l’information de SNP causaux situés dans des gènes différents. Même sous réserve que les signaux obtenus soient de vrais positifs, les 6 gènes présentés ci-dessus (CAMTA1, MEGF11, RNF165, MFGE8, HRH1 et CTU2 ) pourraient donc ne pas être impliqués. Il est notamment nécessaire de vérifier si les SNP présents sur les chromosomes 1 et 16 ne sont pas en déséquilibre de liaison avec des SNP déjà associés à la lèpre per se. En amont de l’étude d’association, l’étape de contrôle qualité des données implique forcément des limites. Comme cela a été souligné, il est difficile de déterminer quel degré de stringence appliquer afin de ne pas exclure de faux positifs. Le choix des filtres aurait pu être guidé par l’utilisation du False Non-discovery Rate [Sarkar, 2006] afin de trouver un meilleur équilibre entre l’erreur de type I et de type II (qui n’a donc pu être évaluée). Enfin le protocole de génération des gènes candidats est discutable sur plusieurs aspects. Du point de vue méthodologique, une première limite est constituée par le choix des espèces à exclure. Il existe bien des arguments en faveur d’une résistance du paresseux et du bonobo à la lèpre mais ils ne sont qu’indirects. En effet, ces animaux ne font pas l’objet de dépistage spécifique de l’agent pathogène et semblent n’avoir jamais subi d’inoculations expérimentales (du moins rapportées dans la littérature). Il faut donc bien souligner que leur statut vis-à-vis de la lèpre n’est pas sûr et qu’il s’agit d’une hypothèse sur laquelle repose néanmoins notre protocole. Même dans le cas où elle serait exacte, il n’est pas assuré que le support de leur résistance soit génétique plutôt que circonstanciel. Par exemple, l’isolement des bonobos au sein de réserves naturelles (cf. 2.1.2.1) leur permet peut être de ne pas être en contact étroit avec le bacille. Quoi qu’il en soit, la démarche utilisée qui consiste à considérer des gènes sur le critère qu’ils ne présentent pas d’orthologues (ou d’homologues) est sensible aux faux négatifs. Or, si éviter le plus de faux positifs est un objectif clair des méthodes de détection d’orthologues, leurs performances en terme de sensibilité ne sont pas clairement rapportées ni mises en avant. Certains outils favorisent d’ailleurs de façon explicite la spécificité par rapport à la sensibilité (c’est par exemple le cas de OMA [Schneider et al., 2007]). Il est donc probable qu’il y a, parmi les gènes candidats, des séquences ayant des orthologues chez le paresseux. La conséquence est une augmentation des variants testés et donc des tests effectués de façon inutile, rendant la valeur nominale de significativité difficile à atteindre. Nous avons, en effet, été confrontés à cette problématique. Cependant, ces problèmes de faux négatifs ne remettent pas en question les fondements de la démarche. Sur ce point, les hypothèses et raccourcis utilisés entre les différents concepts d’isofonctionnalité, d’orthologie, d’homologie et d’identité de séquence sont plus limitants. Comme cela a été souligné (notamment par une tentative d’illustration dans la Figure 2.1), il n’y a pas d’équivalence entre l’isofonctionnalité, l’orthologie, l’homologie et le degré de similarité de deux séquences. En approchant l’isofonctionnalité par l’orthologie nous ignorons sûrement une grande part des séquences isofonctionnelles. Au contraire nous prenons en considération peut être de façon non négligeable des séquences n’ayant pas la même fonction. Ce raisonnement s’applique également à l’utilisation du concept d’homologie dans notre protocole. Para- doxalement, nous pourrions arguer que certaines méthodes de détection des orthologues basées sur la similarité de séquence (typiquement les méthodes basées sur les graphes) capturent potentiellement d’autres types d’isofonctionnalité (comme celle découlant de la convergence fonctionnelle où l’identité de séquence est dans certains cas très élevée). De même nous pourrions avancer que les méthodes de réconciliation phylogénétiques ne peuvent exclure tous les cas de paralogie, de xénologie ou de convergence fonctionnelle et

76 que notre protocole n’est peut être pas si restrictif. Quoi qu’il en soit, ce dernier ne répond que partiellement à l’objectif fixé initialement qui était d’identifier des « gènes possédant des fonctions communes chez l’Homme et le tatou mais pas chez certains animaux (supposés résistants à la maladie) ». Il ne s’agit finalement que d’une façon parmi d’autres de générer des gènes candidats en exploitant des données de génomique comparative. La partie qui suit sera l’occasion de discuter, entre autres, des stratégies alternatives qui auraient pu être mises en oeuvre.

2.4.2 Perspectives

Les perspectives immédiates de ce projet concernent la mise en place d’une véritable réplication des résultats d’association en famille. Ainsi, il est possible d’utiliser les données d’un GWAS réalisé à partir de 706 cas de lèpre et 1 225 témoins de l’ethnie chinoise Han [Zhang et al., 2009], elles sont en effet disponibles sur le site dbGaP après une demande d’autorisation. Cet échantillon permettrait de répliquer de façon indépendante les top SNP ayant également été génotypés lors de cette étude. Dans le cas contraire, il est envisageable d’imputer leur génotype, c’est-à-dire de déterminer de façon statistique leur génotype le plus probable [Marchini et Howie, 2010]. Dans tous les cas, il serait judicieux de réaliser une étude des patrons de déséquilibre de liaison sur l’ensemble des marqueurs situés dans les gènes impliqués dans le top signal ainsi que les gènes adjacents afin de répliquer également des SNP ne faisant pas partie du top signal mais étant en déséquilibre de liaison avec certains top SNP. Il est également possible d’effectuer d’autres analyses avec notre échantillon familial. Ainsi, une analyse haplotypique testant l’association entre la lèpre et les haplotypes impliquants les top SNP est envisageable. Il s’agirait de se baser sur les mesures de D’ au sein des gènes impliqués dans le top signal pour définir les blocks comprenant des top SNP (définis par les marqueurs partageant un D’ supérieur à 0,8). Ces analyses sont implémentées dans le logiciel FBAT sous l’option hbat [Horvath et al., 2004]. Sans réaliser d’analyses supplémentaires, un regard différent sur les résultats pourrait être porté en utilisant d’autres méthodes de gestion des tests multiples. L’une des solutions est de calculer la distribution empirique des p-value par permutations. le programme FBAT propose ainsi d’effectuer un nombre choisi de permutations sur un sous-ensemble des données, tiré au hasard (permutations de Monte Carlo). Cependant, il s’agit d’une solution très gourmande en temps et en ressources calcul, elle n’est donc pas forcément la plus adaptée pour tester plus de 4 000 variants. Il est, par contre, tout à fait imaginable d’utiliser une approche estimant le taux attendu de résultats qui sont des faux positifs (via un calcul de FDR pour False Discovery Rate). Au-delà de ces perspectives immédiates, il est intéressant de discuter des autres stratégies qui auraient pu être mises en place, en particulier pour la génération de gènes candidats. Nous avons déjà évoqué le fait que l’apport de la génomique comparative à l’étude des maladies infectieuses s’effectue actuellement via l’identification de traces de sélection, une revue sur la question a d’ailleurs été publiée très récemment dans Nature Reviews Genetics [Sironi et al., 2015]. Ainsi, en faisant l’hypothèse d’un scénario de type “Reine Rouge” ∗, il aurait pu être imaginé d’identifier les sites montrant des traces de sélection positive dans

∗. Le scénario de la “Reine Rouge” est une hypothèse de biologie évolutive décrivant l’adaptation permanente des espèces en situation de co-évolution. Elle fait référence au personnage de Lewis Carroll déclarant à Alice “Ici, vois-tu, on est obligé de courir tant qu’on peut pour rester au même endroit”. Dans le contexte des interactions hôte-pathogène, ce scénario concerne les pressions de sélection s’appliquant, d’une part, à l’hôte pour échapper au pathogène, souvent en favorisant l’évolution de novo, et d’autre part, au pathogène pour augmenter la force de l’interaction avec l’hôte.

77 les deux espèces puis de s’intéresser aux variants humains correspondants. Cependant, dans le cas précis du tatou et de la lèpre, la validité de cette approche est discutable sur plusieurs points. Tout d’abord, même en présence d’une forte pression de sélection (telle une infection létale), de nombreuses générations sont nécessaires avant de pouvoir en percevoir une signature moléculaire. Or la lèpre est chez le tatou, contrairement à l’Homme, une maladie qu’on pourrait qualifier de récente puisqu’il semble que l’animal et l’agent pathogène n’aient été en contact que depuis 300 ans [Balamayooran et al., 2015]. À cela s’ajoute le fait que la lèpre ne semble justement pas occasionner de désavantage sélectif majeur chez le tatou [Truman, 2005]. Enfin, les méthodes de détection des sites et gènes sélectionnés positivement semblent particulièrement sensibles aux erreurs de séquençage dues à la faible couverture de certains génomes [Sironi et al., 2015]. Or, la couverture du génome du tatou est relativement basse (6× cf. Tableau 2.1). Il n’y a, à ce jour, qu’un seul tatou séquencé. Cependant, le séquençage d’individus supplémentaires permettrait d’envisager d’autres approches. En particulier, l’établissement d’une liste des variants génétiques de cette espèce permettrait une comparaison des variants portés par les tatous sensibles et ceux résistants afin de générer des SNP candidats à tester chez l’Homme. Nous pourrions également imaginer utiliser la démarche développée pour la génération de gènes candidats à l’échelle des variants du tatou, de l’Homme, du bonobo et du paresseux.

78 Conclusion

La revue bibliographique réalisée nous a permis de souligner la grande similarité entre la lèpre de l’Homme et du Tatou à neuf bandes. Au-delà d’une simple ressemblance entre les symptomatologies, la lèpre du Tatou partage avec la maladie humaine des mécanismes physiopathologiques et un déterminisme génétique susceptibles de faire intervenir les mêmes gènes. Dans un contexte où l’étude de ce déterminisme génétique est limitée par une connaissance très incomplète de la physiopathologie de la maladie, il paraît d’autant plus intéressant d’exploiter la similarité de la maladie chez l’Homme et le Tatou. Ajoutée à cela, l’existence d’autres espèces considérées comme résistantes à la maladie nous a permis d’envisager la comparaison des génomes de l’Homme, du tatou et de ces autres espèces comme une nouvelle façon d’identifier des gènes possiblement impliqués dans la prédisposition à la lèpre. Nous avons abouti, à la fin du premier chapitre de cette thèse à deux hypothèses de travail traduisant cette approche. Selon la première hypothèse, il existe des gènes possédant des fonctions communes chez l’Homme et le tatou mais pas chez certains animaux (supposés résistants à la maladie), parmi ces gènes, certains ont un rôle dans la sensibilité à la lèpre per se de ces espèces. Selon la seconde hypothèse, il existe parmi ces gènes, des variants associés à la sensibilité individuelle à la lèpre per se chez l’Homme. Les limites soulevées dans le paragraphe 2.4.1 nous empêchent de juger de la véracité de la première hypothèse. Cependant, quel que soit le degré d’isofonctionnalité réel entre les gènes candidats que nous avons générés et ceux du tatou, leur étude pourrait avoir permis d’identifier des variants associés à la lèpre chez l’Homme dans six nouveaux gènes (CAMTA1, MEGF11, RNF165, MFGE8, HRH1 et CTU2 ). Une réplication plus complète et rigoureuse que celle que nous avons mise en place devrait éclaircir ce point. Malgré ses limites, cette étude plaide en faveur de l’apport au sein de l’épidémiologie génétique de données de génomique comparative.

79 Annexe

Caractéristiques des SNP composant le top signal et p-value correspondantes à chaque protocole et modèle génétique. En gris clair sont indiquées les p-value les plus basses pour chaque protocole et en gris foncé la p-value la plus faible tous protocoles et modèles confondus.

Protocole B Protocole C Protocole D modèle additif modèle dominant modèle additif modèle dominant modèle additif modèle dominant

nb familles nb familles nb familles nb familles nb familles nb familles Marqueur Gène Chr MAF1 p-value p-value p-value p-value p-value p-value informatives informatives informatives informatives informatives informatives

rs2672890 ENSG00000055483 17 0.3325 NA NA 0.0009 116 0.001538 247 0.000016 101 0.002968 229 0.000071 95 rs2195204 ENSG00000249992 3 0.1882 NA NA 0.000091 44 NA NA 0.000053 48 NA NA 0.000023 41 rs3764481 ENSG00000141622 18 0.2816 NA NA 0.0002 91 0.004125 228 0.000038 84 NA NA 0.000073 77 rs16981057 ENSG00000105443 19 0.2858 NA NA NA NA 0.003595 232 0.000075 76 NA NA 0.001692 70 rs12033659 ENSG00000171735 1 0.3636 0.000933 294 NA NA 0.000095 247 0.000218 208 0.000147 232 0.000694 191 rs7121851 ENSG00000177103 11 0.1168 NA NA 0.000104 20 NA NA 0.00319 14 NA NA NA NA rs1620498 ENSG00000169035 19 0.1432 NA NA 0.000109 37 NA NA NA NA NA NA NA NA rs7539029 ENSG00000171735 1 0.2824 0.004907 262 NA NA 0.000122 225 0.000301 206 0.000128 209 0.000727 189 rs750195 ENSG00000261667 8 0.2872 NA NA 0.000159 96 NA NA NA NA NA NA 0.000709 70 rs233955 ENSG00000217930 16 0.2147 0.001367 231 0.000479 60 NA NA NA NA 0.003685 180 0.000165 46 rs204993 ENSG00000204314 6 0.3666 0.001693 300 0.000207 241 NA NA 0.001363 206 NA NA 0.000792 194 rs2081248 ENSG00000140859 16 0.2927 NA NA NA NA 0.000533 213 0.004063 194 0.00021 198 0.00158 180 rs9434824 ENSG00000171735 1 0.3380 0.003986 280 0.000259 124 0.003338 236 0.00044 110 0.004379 219 0.000902 103 rs11634367 ENSG00000157890 15 0.0548 0.000865 83 0.000282 82 NA NA NA NA NA NA NA NA rs224534 ENSG00000141255 17 0.2002 NA NA NA NA 0.000445 186 0.000302 179 0.001624 171 0.000503 161 rs408359 ENSG00000204314 6 0.2216 0.001405 230 0.000334 68 NA NA NA NA NA NA 0.004011 50 rs6098293 ENSG00000182463 20 0.4648 NA NA 0.002934 184 NA NA 0.00457 163 NA NA 0.000357 148 rs12896466 ENSG00000232070 14 0.0884 NA NA 0.000378 13 NA NA NA NA NA NA 0.001311 12 rs4908602 ENSG00000171735 1 0.4797 NA NA 0.000385 220 NA NA 0.002847 188 NA NA 0.002035 174 rs3827256 ENSG00000183570 21 0.3219 NA NA NA NA NA NA 0.000387 81 NA NA 0.000385 74 rs8058401 ENSG00000140859 16 0.0944 0.001567 128 0.000444 128 NA NA 0.000879 103 NA NA 0.002882 95 rs6064116 ENSG00000182463 20 0.4958 NA NA 0.000506 202 NA NA NA NA NA NA 0.001529 162 rs17030127 ENSG00000171735 1 0.1364 0.001758 166 0.004341 157 0.000524 143 0.000658 135 0.00099 138 0.00171 130 rs6091984 ENSG00000182463 20 0.4187 NA NA 0.00172 220 NA NA 0.001685 199 NA NA 0.000549 182 rs7554752 ENSG00000171735 1 0.3969 NA NA NA NA 0.00055 246 0.002409 191 0.001432 228 0.003755 174 rs2070600 ENSG00000204314 6 0.1746 0.001706 206 0.000562 198 0.001863 179 0.000615 172 NA NA 0.001495 160 rs10793250 ENSG00000162105 11 0.3358 NA NA 0.003411 253 NA NA 0.000578 206 NA NA 0.001999 191 rs7940843 ENSG00000162105 11 0.3462 0.002858 291 0.000824 240 0.004765 233 0.000608 193 NA NA 0.002105 180 rs7253057 ENSG00000105443 19 0.4979 NA NA NA NA 0.001026 256 0.000615 178 NA NA NA NA rs1865755 ENSG00000104081 15 0.1741 NA NA NA NA NA NA 0.002497 35 NA NA 0.000617 31 rs6068995 ENSG00000182463 20 0.4056 NA NA 0.001213 238 NA NA 0.001388 209 NA NA 0.000668 194 rs41268928 ENSG00000204314 6 0.1733 0.002041 205 0.000696 197 0.003441 178 0.001293 171 NA NA 0.002515 160 rs233948 ENSG00000217930 16 0.1675 NA NA NA NA NA NA NA NA NA NA 0.000751 33 rs14640 ENSG00000167281 17 0.2374 0.000797 239 0.003517 221 0.001635 201 0.00418 187 0.003862 186 NA NA rs10864251 ENSG00000171735 1 0.3671 NA NA NA NA 0.000797 244 NA NA 0.003709 225 NA NA ENSG00000217930 rs17136962 16 0.0628 0.00371 95 0.000834 94 0.00188 79 0.001273 78 0.002031 72 0.001321 71 ENSG00000262246 rs7278004 ENSG00000183570 21 0.2105 NA NA NA NA 0.000887 190 0.00259 41 0.001576 173 0.004793 34 rs3785284 ENSG00000103197 16 0.4038 0.000896 307 0.004866 165 0.001406 254 0.002662 139 NA NA NA NA rs10852778 ENSG00000172782 17 0.4934 NA NA 0.000918 213 NA NA NA NA NA NA 0.004852 161 rs7941869 ENSG00000162105 11 0.4647 0.003626 332 NA NA 0.002345 274 0.003491 191 0.000953 252 0.001413 174 rs16948889 ENSG00000157890 15 0.0749 0.0019 107 0.000963 107 NA NA NA NA NA NA NA NA rs7207104 ENSG00000070444 17 0.1969 NA NA NA NA 0.000997 187 NA NA 0.004177 172 NA NA rs4789846 ENSG00000181523 17 0.2543 0.003894 265 NA NA 0.00354 228 NA NA 0.001605 206 0.001013 68 rs12401875 ENSG00000143507 1 0.1084 NA NA NA NA 0.001026 127 NA NA NA NA NA NA rs150908 ENSG00000141255 17 0.1828 NA NA NA NA 0.001039 165 0.001253 162 0.004001 151 0.001932 146 rs2042911 ENSG00000105443 19 0.4830 NA NA NA NA NA NA 0.001049 182 NA NA NA NA rs2070571 ENSG00000183570 21 0.3954 NA NA 0.004459 145 NA NA 0.001828 121 NA NA 0.00115 111 rs169496 ENSG00000168477 6 0.1676 0.001177 183 0.003763 40 NA NA NA NA NA NA NA NA rs740903 ENSG00000168273 3 0.2500 NA NA NA NA NA NA 0.001423 57 NA NA 0.002858 53 rs1899416 ENSG00000140545 15 0.3539 0.002039 293 NA NA 0.001468 248 NA NA 0.001435 232 NA NA rs7527268 ENSG00000171735 1 0.2661 0.001563 263 NA NA 0.001447 221 NA NA 0.003157 206 NA NA rs3803414 ENSG00000157890 15 0.0508 0.003082 76 0.001449 75 NA NA 0.004046 60 NA NA 0.004476 56 rs2149313 ENSG00000092295 14 0.1880 0.00147 215 NA NA NA NA NA NA NA NA NA NA rs904927 ENSG00000142798 1 0.1190 NA NA NA NA NA NA NA NA NA NA 0.001527 21 rs1559404 ENSG00000140859 16 0.0922 NA NA 0.003264 128 NA NA 0.001553 100 NA NA NA NA rs3129054 ENSG00000204655 6 0.2362 NA NA NA NA NA NA 0.001594 49 NA NA NA NA rs2589118 ENSG00000055483 17 0.4682 NA NA NA NA NA NA 0.004606 185 NA NA 0.001606 167 rs7180542 ENSG00000157890 15 0.2587 0.004407 256 0.00164 239 NA NA NA NA NA NA NA NA rs8028238 ENSG00000157890 15 0.2651 NA NA 0.001658 240 NA NA NA NA NA NA NA NA rs1193227 ENSG00000171735 1 0.3020 NA NA 0.001709 238 NA NA NA NA NA NA NA NA rs13048314 ENSG00000183570 21 0.4855 NA NA NA NA NA NA 0.001719 161 NA NA 0.00477 150 rs1512057 ENSG00000182463 20 0.4153 NA NA NA NA NA NA NA NA NA NA 0.001762 192 rs204899 ENSG00000168477 6 0.1602 0.001792 179 0.003422 32 NA NA NA NA NA NA NA NA rs7279626 ENSG00000183570 21 0.2161 NA NA NA NA 0.001802 191 NA NA NA NA NA NA rs12608932 ENSG00000130475 19 0.3821 NA NA NA NA NA NA 0.001864 121 NA NA 0.004235 114 rs471931 ENSG00000162105 11 0.3503 NA NA 0.00283 244 NA NA 0.001864 197 NA NA NA NA rs879380 ENSG00000162105 11 0.4611 NA NA 0.002035 211 NA NA NA NA NA NA 0.001884 162 rs3794624 ENSG00000174177 16 0.1482 NA NA NA NA 0.001958 152 0.002001 145 0.004624 142 0.00448 135 rs17105180 ENSG00000100593 14 0.3256 NA NA 0.002023 253 NA NA NA NA NA NA 0.004584 198 rs1823718 ENSG00000167178 15 0.0558 NA NA NA NA NA NA NA NA 0.002124 63 0.003819 63 rs2282765 ENSG00000063978 4 0.3264 NA NA NA NA NA NA 0.002255 76 NA NA NA NA rs12917564 ENSG00000157890 15 0.2641 NA NA 0.002282 239 NA NA NA NA NA NA NA NA rs884736 ENSG00000171735 1 0.1823 NA NA NA NA 0.003174 171 0.002357 164 0.004313 157 0.00293 148 rs11071848 ENSG00000157890 15 0.2629 NA NA 0.002451 239 NA NA NA NA NA NA NA NA rs2834060 ENSG00000205670 21 0.4896 NA NA 0.002461 203 0.004677 269 0.003715 172 NA NA NA NA rs1271297 ENSG00000232070 14 0.1584 NA NA NA NA NA NA 0.002497 34 NA NA NA NA

80 Protocole B Protocole C Protocole D modèle additif modèle dominant modèle additif modèle dominant modèle additif modèle dominant

nb familles nb familles nb familles nb familles nb familles nb familles Marqueur Gène Chr MAF1 p-value p-value p-value p-value p-value p-value informatives informatives informatives informatives informatives informatives rs2572209 ENSG00000157890 15 0.2641 NA NA 0.002526 240 NA NA NA NA NA NA NA NA rs2460002 ENSG00000067606 1 0.0674 NA NA 0.002536 86 NA NA NA NA NA NA NA NA rs238242 ENSG00000141503 17 0.3709 NA NA NA NA NA NA NA NA 0.002572 224 0.003505 189 rs7310409 ENSG00000089094 12 0.3106 NA NA NA NA NA NA 0.003282 198 NA NA 0.002579 182 rs5996675 ENSG00000100031 22 0.2325 0.002593 242 NA NA NA NA NA NA NA NA NA NA rs12596630 ENSG00000103197 16 0.3524 0.002626 297 NA NA NA NA NA NA NA NA NA NA rs34185555 ENSG00000187017 1 0.1053 NA NA NA NA NA NA 0.002649 110 NA NA NA NA rs918449 ENSG00000105220 19 0.4636 NA NA NA NA NA NA NA NA 0.002699 248 NA NA rs6774369 ENSG00000196639 3 0.1111 NA NA 0.002702 20 NA NA 0.003759 20 NA NA 0.003873 18 rs7625056 ENSG00000196639 3 0.1098 NA NA 0.002702 20 NA NA 0.003759 20 NA NA 0.003873 18 rs9690101 ENSG00000157927 7 0.3823 NA NA NA NA NA NA NA NA NA NA 0.002707 192 rs6069008 ENSG00000182463 20 0.4119 NA NA NA NA NA NA NA NA NA NA 0.002856 192 rs7212109 ENSG00000167281 17 0.3234 NA NA NA NA NA NA 0.004968 206 NA NA 0.002872 189 rs1017205 ENSG00000105220 19 0.4691 NA NA NA NA NA NA NA NA 0.002915 243 NA NA rs2722687 ENSG00000130208 19 0.4129 NA NA 0.003016 225 NA NA NA NA NA NA NA NA rs1865884 ENSG00000131389 3 0.2597 NA NA NA NA 0.003034 184 NA NA 0.00381 165 NA NA rs2727102 ENSG00000157890 15 0.2622 NA NA 0.003055 238 NA NA NA NA NA NA NA NA rs8057913 ENSG00000103197 16 0.3647 0.003101 299 NA NA NA NA NA NA NA NA NA NA rs6681529 ENSG00000171735 1 0.3486 NA NA NA NA NA NA 0.003113 194 NA NA NA NA rs3925492 ENSG00000130208 19 0.1294 NA NA 0.003183 165 NA NA NA NA NA NA NA NA rs500335 ENSG00000162105 11 0.3107 NA NA 0.003255 245 NA NA 0.004887 197 NA NA NA NA rs1901571 ENSG00000167178 15 0.0570 NA NA NA NA NA NA NA NA 0.00333 64 NA NA rs1193221 ENSG00000171735 1 0.3151 NA NA 0.00333 248 NA NA NA NA NA NA NA NA rs16825415 ENSG00000142798 1 0.1056 NA NA NA NA 0.004455 121 NA NA 0.00334 116 NA NA rs2834061 ENSG00000205670 21 0.4988 NA NA NA NA 0.004755 266 0.003351 183 NA NA 0.003356 171 rs11120954 ENSG00000171735 1 0.4781 NA NA 0.003366 209 NA NA NA NA NA NA NA NA rs704352 ENSG00000063978 4 0.3757 NA NA NA NA NA NA 0.003397 200 NA NA NA NA rs10799702 ENSG00000142798 1 0.1982 NA NA NA NA NA NA NA NA NA NA 0.003402 41 rs2277675 ENSG00000141255 17 0.1855 NA NA NA NA NA NA 0.003524 158 NA NA 0.004235 142 rs7532024 ENSG00000171735 1 0.4557 NA NA 0.003528 225 NA NA NA NA NA NA NA NA rs3782281 ENSG00000150990 12 0.0753 0.003533 100 NA NA NA NA NA NA NA NA NA NA rs992157 ENSG00000213901 2 0.3511 NA NA 0.00357 130 NA NA NA NA NA NA NA NA rs6698901 ENSG00000171735 1 0.3395 NA NA NA NA NA NA 0.003638 195 NA NA NA NA rs731053 ENSG00000162105 11 0.2989 NA NA NA NA NA NA NA NA 0.003759 217 NA NA rs10792477 ENSG00000162105 11 0.3938 NA NA NA NA NA NA NA NA NA NA 0.003777 129 rs2440885 ENSG00000162105 11 0.3496 NA NA NA NA NA NA 0.003793 206 NA NA NA NA rs3743171 ENSG00000157890 15 0.2633 NA NA 0.003795 238 NA NA NA NA NA NA NA NA rs2032809 ENSG00000024422 19 0.4602 0.003814 306 NA NA NA NA NA NA NA NA NA NA rs6574349 ENSG00000100593 14 0.4305 NA NA NA NA NA NA 0.003819 206 NA NA NA NA rs9434459 ENSG00000171735 1 0.3296 NA NA 0.003884 117 NA NA 0.003837 102 NA NA NA NA rs7157305 ENSG00000100593 14 0.4315 NA NA NA NA NA NA 0.003862 207 NA NA NA NA rs510629 ENSG00000172782 17 0.0720 0.003931 118 NA NA NA NA NA NA NA NA NA NA rs11237691 ENSG00000162105 11 0.2993 NA NA NA NA NA NA NA NA NA NA 0.003949 81 rs2302951 ENSG00000087088 19 0.1586 NA NA NA NA NA NA 0.003977 33 NA NA NA NA rs1559405 ENSG00000140859 16 0.0619 NA NA NA NA NA NA 0.00398 71 NA NA NA NA rs1316826 ENSG00000141622 18 0.0582 NA NA 0.004023 88 NA NA NA NA NA NA NA NA rs4817514 ENSG00000205670 21 0.4789 0.004609 320 NA NA 0.004226 267 0.004038 174 NA NA NA NA rs2329817 ENSG00000183570 21 0.4312 NA NA NA NA NA NA 0.004064 142 NA NA 0.004826 132 rs4074758 ENSG00000204839 8 0.2705 NA NA NA NA NA NA 0.004134 77 NA NA NA NA rs3809608 ENSG00000140859 16 0.1563 NA NA NA NA NA NA 0.004137 151 NA NA NA NA rs7222517 ENSG00000073350 17 0.4541 NA NA NA NA NA NA 0.004193 187 NA NA NA NA rs2112507 ENSG00000105220 19 0.4670 0.004227 309 NA NA NA NA NA NA NA NA NA NA rs4467099 ENSG00000189067 16 0.4072 NA NA NA NA NA NA NA NA 0.004252 242 NA NA rs1317017 ENSG00000171735 1 0.1947 NA NA NA NA NA NA 0.004261 169 NA NA NA NA rs746405 ENSG00000055483 17 0.4631 NA NA NA NA NA NA NA NA NA NA 0.004332 157 rs2292182 ENSG00000167281 17 0.1819 NA NA NA NA NA NA NA NA 0.004364 151 NA NA rs1147289 ENSG00000150990 12 0.2136 NA NA NA NA NA NA NA NA 0.004455 164 NA NA rs7247921 ENSG00000105220 19 0.4418 NA NA NA NA 0.004866 259 NA NA 0.00455 240 NA NA rs4939813 ENSG00000141622 18 0.2463 NA NA 0.004557 76 NA NA NA NA NA NA NA NA rs9627789 ENSG00000196576 22 0.1497 0.004578 183 NA NA NA NA NA NA NA NA NA NA rs925944 ENSG00000143507 1 0.4979 NA NA NA NA NA NA NA NA 0.004597 255 NA NA rs4500123 ENSG00000205133 8 0.1183 NA NA NA NA NA NA NA NA NA NA 0.004652 13 rs12139143 ENSG00000132781 1 0.2737 0.004706 273 NA NA NA NA NA NA NA NA NA NA rs8063141 ENSG00000188897 16 0.3078 NA NA 0.004725 107 NA NA NA NA NA NA NA NA rs6009339 ENSG00000196576 22 0.0505 NA NA NA NA NA NA 0.004743 65 NA NA NA NA rs9922089 ENSG00000188897 16 0.3930 0.004779 305 NA NA NA NA NA NA NA NA NA NA rs2838572 ENSG00000183570 21 0.4744 NA NA NA NA NA NA 0.004869 177 NA NA NA NA rs10850631 ENSG00000135116 12 0.2326 NA NA NA NA NA NA 0.004919 61 NA NA NA NA rs1659505 ENSG00000153443 16 0.1299 NA NA 0.004923 164 NA NA NA NA NA NA NA NA rs2412322 ENSG00000120093 17 0.1760 NA NA NA NA 0.004953 169 NA NA NA NA NA NA rs1004520 ENSG00000232070 14 0.2529 NA NA NA NA NA NA NA NA NA NA 0.004973 181 rs2288249 ENSG00000149091 11 0.0863 NA NA NA NA NA NA 0.004991 107 NA NA NA NA

81 82 Bibliographie

Abel, L., Demenais, F. (1988). Detection of major for susceptibility to leprosy and its subtypes in a Caribbean island : Desirade island. American journal of human genetics, 42, 256.

Abraham, P.S. (1886). II. On the Contagiousness of Leprosy. Annals of Surgery, 4, 324–328.

Adams, L.B., Pena, M.T., Sharma, R., Hagge, D.A., Schurr, E., Truman, R.W. (2012). Insights from animal models on the immunogenetics of leprosy : a review. Memórias do Instituto Oswaldo Cruz, 107, 197–208.

Alcaïs, A., Abel, L., Casanova, J.L. (2009). Human genetics of infectious diseases : between proof of principle and paradigm. The Journal of Clinical Investigation, 119, 2506–2514.

Alter, A., Grant, A., Abel, L., Alcaïs, A., Schurr, E. (2010). Leprosy as a genetic disease. Mammalian Genome, 22, 19–31.

Altschul, S.F., Gish, W., Miller, W., Myers, E.W., Lipman, D.J. (1990). Basic local alignment search tool. Journal of Molecular Biology, 215, 403–410.

Anderson, C.A., Pettersson, F.H., Clarke, G.M., Cardon, L.R., Morris, A.P., Zondervan, K.T. (2010). Data quality control in genetic case-control association studies. Nature Protocols, 5, 1564–1573.

Balamayooran, G., Pena, M., Sharma, R., Truman, R.W. (2015). The armadillo as an animal model and reservoir host for Mycobacterium leprae. Clinics in Dermatology, 33, 108–115.

Baskin, G.B., Gormus, B.J., Martin, L.N., Wolf, R.H., Blanchard, J.L., Malaty, R. et al. (1987). Experimental Leprosy in African Green Monkeys (Cercopithecus Aethiops) : A Model for Polyneuritic Leprosy. The American Journal of Tropical Medicine and Hygiene, 37, 385–391.

Baskin, G.B., Wolf, R.H., Gormus, B.J., Martin, L.N., Walsh, G.P., Binford, C.H. et al. (1985). Experimental leprosy in the mangabey (Cercocebus atys) : necropsy findings. International journal of leprosy and other mycobacterial diseases : official organ of the International Leprosy Association, 53, 269–277.

Bayon, H. (1912). On the transmission of leprosy to animals by direct inoculation. British Medical Journal, 1, 424–426.

Binford, C.H. (1968). The transmission of M. leprae to animals to find an experimental model. Int J Lepr, 36, 599.

Blake, L.A., West, B.C., Lary, C.H., Todd, J.R. (1987). Environmental Nonhuman Sources of Leprosy. Review of Infectious Diseases, 9, 562–577.

Brett, S.J., Draper, P., Payne, S.N., Rees, R.J. (1983). Serological activity of a characteristic phenolic glycolipid from Mycobacterium leprae in sera from patients with leprosy and tuberculosis. Clinical and Experimental Immunology, 52, 271–279.

Brissette, M.J., Lepage, S., Lamonde, A.S., Sirois, I., Groleau, J., Laurin, L.P. et al. (2012). MFG-E8 Released by Apoptotic Endothelial Cells Triggers Anti-Inflammatory Macrophage Reprogram- ming. PLoS ONE, 7, e36368.

Britton, W.J., Lockwood, D.N. (2004). Leprosy. The Lancet, 363, 1209–1219.

83 Browne, S.G. (1975). Some aspects of the history of leprosy : the leprosie of yesterday. Proceedings of the Royal Society of Medicine, 68, 485–493.

Chakravartti, M.R., Vogel, F. (1973). A twin study on leprosy. Stuttgart, G. Thieme.

Cole, S.T., Eiglmeier, K., Parkhill, J., James, K.D., Thomson, N.R., Wheeler, P.R. et al. (2001). Massive decay in the leprosy bacillus. Nature, 409, 1007–1011.

Cole, S.T., Singh, P. (2012). History and Phylogeography of Leprosy. In : Nunzi, E., Massone, C. (editors). Leprosy. Milan, Springer, 3–13.

Convit, J., Sampson, C., Zuniga, M., Plata, J., Silva, J., Molina, J. et al. (1992). Immunopro- phylactic trial with combined Mycobacterium leprae/BCG vaccine against leprosy : preliminary results. The Lancet, 339, 446–450.

Couret, M. (1911). The Behavior of Bacillus Lepræ in Cold-Blooded Animals. The Journal of Experimental Medicine, 13, 576–589. de Souza-Araujo, H.C. (1931). Experimental leprosy. Transactions of the Royal Society of Tropical Medicine and Hygiene, 24, 577–598.

Deps, P., Alves, B., Gripp, C., Aragao, R., Guedes, B., Filho, J. et al. (2008). Contact with armadillos increases the risk of leprosy in Brazil : A case control study. Indian Journal of Dermatology, Venereology and Leprology, 74, 338.

Desikan, K., Sreevatsa (1995). Extended studies on the viability of Mycobacterium leprae outside the human body. Leprosy review, 66, 287–295.

Dhople, A.M., Green, K.J., Osborne, L.J. (1988). Limited in vitro multiplication of Mycobacterium leprae. Annales de l’Institut Pasteur / Microbiologie, 139, 213–223.

Donham, K.J., Leininger, J.R. (1977). Spontaneous Leprosy-Like Disease in a Chimpanzee. Journal of Infectious Diseases, 136, 132–136.

Donoghue, H.D., Michael Taylor, G., Marcsik, A., Molnár, E., Pálfi, G., Pap, I. et al. (2015). A migration-driven model for the historical spread of leprosy in medieval Eastern and Central Europe. Infection, Genetics and Evolution, 31, 250–256.

Draper, P. (1983). The bacteriology of Mycobacterium leprae. Tubercle, 64, 43–56.

Duval, C.W. (1910). The Cultivation of the Leprosy Bacillus and the Experimental Production of Leprosy in the Japanese Dancing Mouse. The Journal of Experimental Medicine, 12, 649–665.

Duval, C.W., Couret, M. (1912). A Further Note Upon the Experimental Production of Leprosy in the Monkey (macacus Rhesus), with a Critical Study of the Culture Employed. The Journal of Experimental Medicine, 15, 292–306.

Ebbel, B. (1935). A contribution to the earliest history of leprosy. Int J Lepr, 3, 257.

Frota, C.C., Lima, L.N.C., da Silva Rocha, A., Suffys, P.N., Rolim, B.N., Rodrigues, L.C. et al. (2012). Mycobacterium leprae in six-banded (Euphractus sexcinctus) and nine-banded armadillos (Dasypus novemcinctus) in Northeast Brazil. Memórias do Instituto Oswaldo Cruz, 107, 209–213.

Gabaldón, T., Koonin, E.V. (2013). Functional and evolutionary implications of gene orthology. Nature Reviews Genetics, 14, 360–366.

Ganapati, R., Chulawala, R.G. (1976). Bacteremia in leprosy and its relation to distribution of M. leprae in skin. Leprosy in India, 48, 42–47.

Gaschignard, J. (2014). Génétique humaine de l’infection par Mycobacterium leprae. PhD thesis, Paris 5.

Gaugas, J., Rees, R., Weddell, A., Palmer, E. (1970). Reversal effect of thymus grafts on lepromatous leprosy in thymectomized-irradiated mice. International journal of leprosy and other mycobacterial diseases : official organ of the International Leprosy Association, 39, 388–395.

84 Gaugas, J.M. (1968). Enhancing effect of antilymphocytic globulin on human leprosy infection in thymectomized mice. Nature, 220, 1246–1248.

Gillis, T.P., Scollard, D.M., Lockwood, D.N. (2011). What is the evidence that the putative Mycobacterium lepromatosis species causes diffuse lepromatous leprosy. Lepr Rev, 82, 205–209.

Girdhar, A., Girdhar, B.K., Ramu, G., Desikan, K.V. (1981). Discharge of M. leprae in milk of leprosy patients. Leprosy in India, 53, 390–394.

González, K., Calzada, J.E., Saldaña, A., Rigg, C.A., Alvarado, G., Rodríguez-Herrera, B. et al. (2015). Survey of Wild Mammal Hosts of Cutaneous Leishmaniasis Parasites in Panamá and Costa Rica. Tropical Medicine and Health, 43, 75–78.

Gormus, B., Xu, K., Lee, D., Hubbard, G., Eichberg, J., Meyers, W. (1991). A serologic study of naturally acquired leprosy in chimpanzees. International journal of leprosy and other mycobacterial diseases : official organ of the International Leprosy Association, 59, 450–457.

Gormus, B.J., Wolf, R.H., Baskin, G.B., Ohkawa, S., Gerone, P.J., Walsh, G.P. et al. (1988). A second sooty mangabey monkey with naturally acquired leprosy : first reported possible monkey-to-monkey transmission. International journal of leprosy and other mycobacterial diseases, 56, 61–65.

Gormus, B.J., Xu, K., Baskin, G.B., Martin, L.N., Bohm, R.P., Blanchard, J.L. et al. (1995). Experimental leprosy in monkeys. I. Sooty mangabey monkeys : transmission, susceptibility, clinical and pathological findings. Leprosy Review, 66, 96–104.

Goulart, I.M.B., Araujo, S., Filho, A.B., de Paiva, P.H.R., Goulart, L.R. (2015). Asymptomatic Leprosy Infection among Blood Donors May Predict Disease Development and Suggests a Potential Mode of Transmission. Journal of Clinical Microbiology, 53, 3345–3348.

Guerra-Infante, F.M., Lopez-Hurtado, M., Flores-Medina, S., Zamora-Ruiz, A., de Jesus de Haro-Cruz, M. (2001). Detection of a tumor necrosis factor-like activity in culture supernatants of armadillo leukocytes. International Journal of Leprosy and Other Mycobacterial Diseases, 69, 354–357.

Gunders, A.E. (1958). Progressive experimental infection with Mycobacterium leprae in a chimpanzee ; a preliminary report. The Journal of Tropical Medicine and Hygiene, 61, 228–230.

Gómez-Valero, L., Rocha, E.P.C., Latorre, A., Silva, F.J. (2007). Reconstructing the ancestor of Mycobacterium leprae : The dynamics of gene loss and genome reduction. Genome Research, 17, 1178–1185.

Hagge, D.A., Ray, N.A., Krahenbuhl, J.L., Adams, L.B. (2004). An In Vitro Model for the Lepromatous Leprosy Granuloma : Fate of Mycobacterium leprae from Target Macrophages after Interaction with Normal and Activated Effector Macrophages. The Journal of Immunology, 172, 7771–7779.

Hagge, D.A., Saunders, B.M., Ebenezer, G.J., Ray, N.A., Marks, V.T., Britton, W.J. et al. (2009). Lymphotoxin-α and TNF have essential but independent roles in the evolution of the granulomatous response in experimental leprosy. The American journal of pathology, 174, 1379–1389.

Haile, R., Iselius, L., Fine, P., Morton, N. (1985). Segregation and Linkage Analyses of 72 Leprosy Pedigrees. Human Heredity, 35, 43–52.

Han, X.Y., Aung, F.M., Choon, S.E., Werner, B. (2014). Analysis of the leprosy agents Myco- bacterium leprae and Mycobacterium lepromatosis in four countries. American Journal of Clinical Pathology, 142, 524–532.

Han, X.Y., Seo, Y.H., Sizer, K.C., Schoberle, T., May, G.S., Spencer, J.S. et al. (2008). A New Mycobacterium Species Causing Diffuse Lepromatous Leprosy. American Journal of Clinical Pathology, 130, 856–864.

Han, X.Y., Sizer, K.C., Tan, H.H. (2012a). Identification of the leprosy agent Mycobacterium lepromatosis in Singapore. Journal of drugs in dermatology : JDD, 11, 168–172.

85 Han, X.Y., Sizer, K.C., Velarde-Félix, J.S., Frias-Castro, L.O., Vargas-Ocampo, F. (2012b). The leprosy agents Mycobacterium lepromatosis and Mycobacterium leprae in Mexico. International Journal of Dermatology, 51, 952–959.

Hansen, G.A. (1875). On the etiology of leprosy. Londres, J. & A. Churchill.

Henrich, K.O., Bauer, T., Schulte, J., Ehemann, V., Deubzer, H., Gogolin, S. et al. (2011). CAMTA1, a 1p36 Tumor Suppressor Candidate, Inhibits Growth and Activates Differentiation Programs in Neuroblastoma Cells. Cancer Research, 71, 3142–3151.

Herrer, A., Christensen, H. (1980). Leishmania braziliensis in the Panamanian two-toed sloth, Choloepus hoffmanni. The American journal of tropical medicine and hygiene, 29, 1196–1200.

Horvath, S., Xu, X., Lake, S.L., Silverman, E.K., Weiss, S.T., Laird, N.M. (2004). Family-based tests for associating haplotypes with general phenotype data : Application to asthma genetics. Genetic Epidemiology, 26, 61–69.

Huang, D.W., Sherman, B.T., Lempicki, R.A. (2008). Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature protocols, 4, 44–57.

Huentelman, M.J., Papassotiropoulos, A., Craig, D.W., Hoerndli, F.J., Pearson, J.V., Huynh, K.D. et al. (2007). Calmodulin-binding transcription activator 1 (CAMTA1) alleles predispose human episodic memory performance. Human Molecular Genetics, 16, 1469–1477.

Hunter, S.W., Brennan, P.J. (1981). A novel phenolic glycolipid from Mycobacterium leprae possibly involved in immunogenicity and pathogenicity. Journal of Bacteriology, 147, 728–735.

Jessamine, P.G., Desjardins, M., Gillis, T., Scollard, D.M., Jamieson, F., Broukhanski, G. et al. (2012). Leprosy-like illness in a patient with Mycobacterium lepromatosis from Ontario, Canada. Journal of drugs in dermatology : JDD, 11, 229–233.

Job, C.K. (1990). Nasal mucosa and abraded skin are the two routes of entry of M. leprae. Star, 49, 1.

Job, C.K., Jayakumar, J., Kearney, M., Gillis, T.P. (2008). Transmission of Leprosy : A Study of Skin and Nasal Secretions of Household Contacts of Leprosy Patients Using PCR. The American Journal of Tropical Medicine and Hygiene, 78, 518–521.

Job, C.K., Kirchheimer, W.F., Sanchez, R.M. (1983). Variable lepromin response to Mycobacterium leprae in resistant armadillos. Int. J. Lepr, 51, 347–353.

Job, C.K., Sanchez, R.M., Hunt, R., Hasting, R.C. (1987). Prevalence and significance of positive Mitsuda reaction in the nine-banded armadillo(Dasypus novemcinctus). International journal of leprosy and other mycobacterial diseases, 55, 685–688.

Kay, J.N., Chu, M.W., Sanes, J.R. (2012). MEGF10 and MEGF11 mediate homotypic interactions required for mosaic spacing of retinal neurons. Nature, 483, 465–469.

Kelly, C.E., Thymiakou, E., Dixon, J.E., Tanaka, S., Godwin, J., Episkopou, V. (2013). Rnf165/Ark2C Enhances BMP-Smad Signaling to Mediate Motor Axon Extension. PLoS Biol, 11, e1001538.

Kerr, L., Kendall, C., Sousa, C.A.B.d., Frota, C.C., Graham, J., Rodrigues, L. et al. (2015). Human–armadillo interaction in Ceará, Brazil : Potential for transmission of Mycobacterium leprae. Acta Tropica, 152, 74–79.

Kirchheimer, W.F., Storrs, E.E. (1971). Attempts to establish the armadillo (Dasypus novemcinctus Linn.) as a model for the study of leprosy. I. Report of lepromatoid leprosy in an experimentally infected armadillo. International Journal of Leprosy and Other Mycobacterial Diseases : Official Organ of the International Leprosy Association, 39, 693–702.

Kirkpatrick, J. (1889). Etiology of Leprosy. British Medical Journal, 1, 1491–1492.

Klatser, P.R., Beers, S.v., Madjid, B., Day, R., Wit, M.Y.d. (1993). Detection of Mycobacterium leprae nasal carriers in populations for which leprosy is endemic. Journal of Clinical Microbiology, 31, 2947–2951.

86 Kuzniar, A., van Ham, R.C.H.J., Pongor, S., Leunissen, J.A.M. (2008). The quest for orthologs : finding the corresponding gene across genomes. Trends in Genetics, 24, 539–551.

Lahiri, R., Krahenbuhl, J.L. (2008). The role of free-living pathogenic amoeba in the transmission of leprosy : a proof of principle. Leprosy review, 79, 401.

Laird, N.M., Horvath, S., Xu, X. (2000). Implementing a unified approach to family-based tests of association. Genetic Epidemiology, 19, S36–S42.

Lastória, J.C., de Abreu, M.A. (2014). Leprosy of the epidemiological, clinical, and etiopathogenic aspects - Part 1. Anais Brasileiros de Dermatologia, 89, 205–218.

Lavania, M., Katoch, K., Katoch, V.M., Gupta, A.K., Chauhan, D.S., Sharma, R. et al. (2008). Detection of viable Mycobacterium leprae in soil samples : Insights into possible sources of transmission of leprosy. Infection, Genetics and Evolution, 8, 627–631.

Levy, L. (1970). Death of Mycobacterium leprae in mice, and the additional effect of dapsone adminis- tration. Experimental Biology and Medicine, 135, 745–749.

Levy, L. (1976). Studies of the mouse foot pad technique for cultivation of Mycobacterium leprae. 3. Doubling time during logarithmic multiplication. Leprosy Review, 47, 103–106.

Levy, L., Ji, B. (2006). The mouse foot-pad technique for cultivation of Mycobacterium leprae. Leprosy Review, 77, 5–24.

Lietman, T., Porco, T., Blower, S. (1997). Leprosy and tuberculosis : the epidemiological conse- quences of cross-immunity. American Journal of Public Health, 87, 1923–1927.

Lázaro, F.P., Werneck, R.I., Mackert, C.C.O., Cobat, A., Prevedello, F.C., Pimentel, R.P. et al. (2010). A Major Gene Controls Leprosy Susceptibility in a Hyperendemic Isolated Population from North of Brazil. Journal of Infectious Diseases, 201, 1598–1605.

López-Hurtado, M., Arteaga-Troncoso, G., Escobedo-Guerra, M.R., Guerra-Infante, F.M. (2009). Evaluation of endocytic capacity and NADPH-oxidase activity from armadillo (Dasypus novemcinctus) eosinophils infected with microfilariae. Veterinary Immunology and Immunopathology, 127, 181–185.

López-Hurtado, M., Flores-Medina, S., Díaz-García, F.J., Guerra-Infante, F.M. (2005). Partial characterization of phagocytic activity in neutrophils of the nine-banded armadillo Dasypus novemcinctus. Veterinary Immunology and Immunopathology, 106, 269–275.

Marchini, J., Howie, B. (2010). Genotype imputation for genome-wide association studies. Nature Reviews Genetics, 11, 499–511.

Mark, S. (2002). Alexander the Great, Seafaring, and the Spread of Leprosy. Journal of the History of Medicine and Allied Sciences, 57, 285–311.

Marmor, M.F. (2002). The Ophthalmic Trials of G. H. A. Hansen. Survey of Ophthalmology, 47, 275–287.

Matsuoka, M., Izumi, S., Budiawan, T., Nakata, N., Saeki, K. (1998). Mycobacterium leprae DNA in daily using water as a possible source of leprosy infection. Indian journal of leprosy, 71, 61–67.

McDonough, C.M. (2000). Social Organization of Nine-Banded Armadillos (Dasypus Novemcinctus) in a Riparian Habitat. American Midland Naturalist, 144, 139–151.

McGhee, G.R. (2011). Convergent Evolution : Limited Forms Most Beautiful. Cambridge, MIT Press.

Meredith, A., Pozo, J.D., Smith, S., Milne, E., Stevenson, K., McLuckie, J. (2014). Leprosy in red squirrels in Scotland. Veterinary Record, 175, 285–286.

Meyers, W.M., Gormus, B.J., Walsh, G.P., Baskin, G.B., Hubbard, G.B. (1991). Naturally acquired and experimental leprosy in nonhuman primates. The American Journal of Tropical Medicine and Hygiene, 44, 24–27.

87 Meyers, W.M., Walsh, G.P., Brown, H.L., Binford, C.H., Imes Jr, G.D., Hadfield, T.L. et al. (1985). Leprosy in a mangabey monkey–naturally acquired infection. International journal of leprosy and other mycobacterial diseases : official organ of the International Leprosy Association, 53, 1–14.

Misch, E.A., Berrington, W.R., Vary, J.C., Hawn, T.R. (2010). Leprosy and the . Microbiology and Molecular Biology Reviews, 74, 589–620.

Mohamed, P.A., Ramanujan, K. (1966). Leprosy in twins. International Journal of Leprosy, 34, 405–7.

Monot, M., Honoré, N., Garnier, T., Araoz, R., Coppée, J.Y., Lacroix, C. et al. (2005). On the Origin of Leprosy. Science, 308, 1040–1042.

Monot, M., Honoré, N., Garnier, T., Zidane, N., Sherafi, D., Paniz-Mondolfi, A. et al. (2009). Comparative genomic and phylogeographic analysis of Mycobacterium leprae. Nature Genetics, 41, 1282–1289.

Morgado de Abreu, M.a.M., Roselino, A.M., Enokihara, M., Nonogaki, S., Prestes- Carneiro, L.E., Weckx, L.L.M. et al. (2014). Mycobacterium leprae is identified in the oral mucosa from paucibacillary and multibacillary leprosy patients. Clinical Microbiology and Infection, 20, 59–64.

Morgan, C.C., Foster, P.G., Webb, A.E., Pisani, D., McInerney, J.O., O’Connell, M.J. (2013). Heterogeneous Models Place the Root of the Placental Mammal Phylogeny. Molecular Biology and Evolution, 30, 2145–2156.

Ng, V., Zanazzi, G., Timpl, R., Talts, J.F., Salzer, J.L., Brennan, P.J. et al. (2000). Role of the Cell Wall Phenolic Glycolipid-1 in the Peripheral Nerve Predilection of Mycobacterium leprae. Cell, 103, 511–524.

Oliveira, R.B., Ochoa, M.T., Sieling, P.A., Rea, T.H., Rambukkana, A., Sarno, E.N. et al. (2003). Expression of Toll-Like Receptor 2 on Human Schwann Cells : a Mechanism of Nerve Damage in Leprosy. Infection and Immunity, 71, 1427–1433.

Oréfice, F., Miranda, D., Boratto, L.M. (1998). Presence of M. leprae in the conjunctiva, vitreous body and retina of a patient having lepromatous leprosy. Indian Journal of Leprosy, 70, 97–102.

Pandya, S.S. (1998). Anti-contagionism in leprosy, 1844-1897. International Journal of Leprosy and other Mycobacterial Diseases, 66, 374–384.

Patrocínio, L.G., Goulart, I.M.B., Goulart, L.R., Patrocínio, J.A., Ferreira, F.R., Fleury, R.N. (2005). Detection of Mycobacterium leprae in nasal mucosa biopsies by the polymerase chain reaction. FEMS Immunology & Medical Microbiology, 44, 311–316.

Pearson, W.R. (2002). An Introduction to Sequence Similarity (“Homology”) Searching. . In : Current Protocols in Bioinformatics. Hoboken, John Wiley & Sons, Inc.,.

Pearson, W.R. (2013). Selecting the Right Similarity-Scoring Matrix. . In : Current Protocols in Bioinformatics. Hoboken, John Wiley & Sons, Inc., 3.5.1–3.5.9.

Purcell, S., Neale, B., Todd-Brown, K., Thomas, L., Ferreira, M.A.R., Bender, D. et al. (2007). PLINK A Tool Set for Whole-Genome Association and Population-Based Linkage Analyses. The American Journal of Human Genetics, 81, 559–575.

Purtilo, D.T., Walsh, G.P., Storrs, E.E., Gannon, C. (1975). The immune system of the nine-banded armadillo (dasypus novemcinctus, linn). The Anatomical Record, 181, 725–733.

Quesada-Pascual, F., Jimenez-Flores, R., Flores-Langarica, A., Silva-Sanchez, A., Calderon-Amador, J., Mendez-Cruz, R. et al. (2008). Characterization of langerhans cells in epidermal sheets along the body of Armadillo (Dasypus novemcinctus). Veterinary Immunology and Immunopathology, 124, 220–229.

Rambukkana, A., Salzer, J.L., Yurchenco, P.D., Tuomanen, E.I. (1997). Neural Targeting of Mycobacterium leprae Mediated by the G Domain of the Laminin-α2 Chain. Cell, 88, 811–821.

88 Ranque-François, B. (2007). Recherche de facteurs génétiques influençant deux phénotypes liés à la lèpre : la réaction granulomateuse de Mitsuda et les réactions de réversion. PhD thesis, Paris 11.

Rees, R.J. (1973). A century of progress in experimental leprosy. Int. J. Lepr. Other Mycobact. Dis, 41, 320–328.

Rees, R.J.W. (1988). Animal models in leprosy. British Medical Bulletin, 44, 650–664.

Reese, J.T., Pearson, W.R. (2002). Empirical determination of effective gap penalties for sequence comparison. Bioinformatics, 18, 1500–1507.

Rice, T.K., Schork, N.J., Rao, D.C. (2008). Methods for Handling Multiple Testing. In : Gu, D.C.R.a.C.C. (editor). Advances in Genetics vol. 60, of Genetic Dissection of Complex Traits,. Academic Press, 293–308.

Richardus, J., Moet, F., Meima, A., Oksam, L. (2004). Risk factors for the development of clinical leprosy among contacts, and their relevance for targeted interventions. Lepr rev, 75, 310–326.

Ridley, d., Jopling, w. (1962). A classification of leprosy for research purposes. Leprosy review, 33, 119–128.

Robbins, G., Tripathy, V.M., Misra, V.N., Mohanty, R.K., Shinde, V.S., Gray, K.M. et al. (2009). Ancient Skeletal Evidence for Leprosy in India (2000 B.C.). PLoS ONE, 4, e5669.

Rodrigues, L.C., Lockwood, D.N. (2011). Leprosy now : epidemiology, progress, challenges, and research gaps. The Lancet Infectious Diseases, 11, 464–470.

Santos-Argumedo, L., Guerra-Infante, F., Quesada-Pascual, F., Estrada-Parra, S. (1995). Identification and purification of armadillo (Dasypus novemcinctus) immunoglobulins : preparation of specific antisera to evaluate the immune response in these animals. International journal of leprosy and other mycobacterial diseases, 63, 56–56.

Sarkar, S.K. (2006). False Discovery and False Nondiscovery Rates in Single-Step Multiple Testing Procedures. The Annals of Statistics, 34, 394–415.

Sauer, M.E.D., Salomão, H., Ramos, G.B., D‘Espindula, H.R.S., Rodrigues, R.S.A., Macedo, W.C. et al. (2015). Genetics of leprosy : Expected and unexpected developments and perspectives. Clinics in Dermatology, 33, 99–107.

Schlesinger, L.S., Horwitz, M.A. (1991). Phenolic glycolipid-1 of Mycobacterium leprae binds complement component C3 in serum and mediates phagocytosis by human monocytes. The Journal of experimental medicine, 174, 1031–1038.

Schneider, A., Dessimoz, C., Gonnet, G.H. (2007). OMA Browser—Exploring orthologous relations across 352 complete genomes. Bioinformatics, 23, 2180–2182.

Scollard, D.M. (2008). The biology of nerve injury in leprosy. Lepr Rev, 79, 242–53.

Scollard, D.M., Adams, L.B., Gillis, T.P., Krahenbuhl, J.L., Truman, R.W., Williams, D.L. (2006). The Continuing Challenges of Leprosy. Clinical Microbiology Reviews, 19, 338–381.

Scollard, D.M., Truman, R.W., Ebenezer, G.J. (2015). Mechanisms of nerve injury in leprosy. Clinics in Dermatology, 33, 46–54.

Sharma, R., Lahiri, R., Scollard, D.M., Pena, M., Williams, D.L., Adams, L.B. et al. (2013). The armadillo a model for the neuropathy of leprosy and potentially other neurodegenerative diseases. Disease Models & Mechanisms, 6, 19–24.

Shepard, C.C. (1960). The experimental disease that follows the injection of human leprosy bacilli into foot-pads of mice. The Journal of experimental medicine, 112, 445–454.

Shepard, C.C. (1965). Temperature Optimum of Mycobacterium leprae in Mice. Journal of Bacteriology, 90, 1271–1275.

89 Shields, E.D., Russell, D.A., Pericak-Vance, M.A. (1987). Genetic epidemiology of the susceptibility to leprosy. Journal of Clinical Investigation, 79, 1139.

Silva, C.A.M., Danelishvili, L., McNamara, M., Berredo-Pinho, M., Bildfell, R., Biet, F. et al. (2013). Interaction of Mycobacterium leprae with Human Airway Epithelial Cells : Adherence, Entry, Survival, and Identification of Potential Adhesins by Surface Proteome Analysis. Infection and Immunity, 81, 2645–2659.

Simpson, V., Hargreaves, J., Butler, H., Blackett, T., Stevenson, K., McLuckie, J. (2015). Leprosy in red squirrels on the Isle of Wight and Brownsea Island. Veterinary Record, 177, 206–207.

Singh, P., Benjak, A., Schuenemann, V.J., Herbig, A., Avanzi, C., Busso, P. et al. (2015). Insight into the evolution and origin of leprosy bacilli from the genome sequence of Mycobacterium lepromatosis. Proceedings of the National Academy of Sciences, 112, 4459–4464.

Sironi, M., Cagliani, R., Forni, D., Clerici, M. (2015). Evolutionary insights into host-pathogen interactions from mammalian sequence data. Nature Reviews Genetics, 16, 224–236.

Skinsnes, O.K., Chang, P.H. (1985). Understanding of leprosy in ancient China. International Journal of Leprosy and Other Mycobacterial Diseases : Official Organ of the International Leprosy Association, 53, 289–307.

Spielman, R.S., McGinnis, R.E., Ewens, W.J. (1993). Transmission test for linkage disequilibrium : the insulin gene region and insulin-dependent diabetes mellitus (IDDM). American Journal of Human Genetics, 52, 506–516.

Suneetha, S., Arunthathi, S., Date, A., Kurian, N., Chacko, C. (1998). Histological studies in primary neuritic leprosy : changes in the nasal mucosa. Leprosy review, 69, 358–366.

Superina, M., Pagnutti, N., Abba, A.M. (2014). What do we know about armadillos ? An analysis of four centuries of knowledge about a group of South American mammals, with emphasis on their conservation. Mammal Review, 44, 69–80.

Suzuki, K., Udono, T., Fujisawa, M., Tanigawa, K., Idani, G., Ishii, N. (2010). Infection during Infancy and Long Incubation Period of Leprosy Suggested in a Case of a Chimpanzee Used for Medical Research. Journal of Clinical Microbiology, 48, 3432–3434.

Truman, R. (2005). Leprosy in wild armadillos. Leprosy Review, 76, 198–208.

Truman, R., Fine, P.E. (2010). Environmental’sources of Mycobacterium leprae : issues and evidence. Lepr Rev, 81, 89–95.

Truman, R.W., Singh, P., Sharma, R., Busso, P., Rougemont, J., Paniz-Mondolfi, A. et al. (2011). Probable Zoonotic Leprosy in the Southern United States. New England Journal of Medicine, 364, 1626–1633.

Ulrich, M., Convit, J., Centeno, M., Rapetti, M. (1976). Immunological characteristics of the armadillo, Dasypus sabanicola. Clinical and Experimental Immunology, 25, 170–176.

Ustianowski, A.P., Lawn, S.D., Lockwood, D.N. (2006). Interactions between HIV infection and leprosy : a paradox. The Lancet Infectious Diseases, 6, 350–360.

Valverde, C.R., Canfield, D., Tarara, R., Esteves, M.I., Gormus, B.J. (1998). Spontaneous leprosy in a wild-caught cynomolgus macaque. International journal of leprosy and other mycobacterial diseases, 66, 140–148.

Vickaryous, M.K., Hall, B.K. (2006). Osteoderm morphology and development in the nine-banded armadillo, Dasypus novemcinctus (Mammalia, Xenarthra, Cingulata). Journal of Morphology, 267, 1273–1283.

Vilella, A.J., Severin, J., Ureta-Vidal, A., Heng, L., Durbin, R., Birney, E. (2009). Ensembl- Compara GeneTrees : Complete, duplication-aware phylogenetic trees in vertebrates. Genome Research, 19, 327–335.

90 Vizcaíno, S.F., Loughry, W.J. (2008). The biology of the Xenarthra. Gainesville, University Press of Florida.

Wahyuni, R., Adriaty, D., Iswahyudi, I., Prakoeswa, C.R.S. (2010). Mycobacterium leprae in daily water resources of inhabitants who live in leprosy endemic area of East Java. Indonesian Journal of Tropical and Infectious Disease, 1, 65–68.

Walsh, G.P., Dela Cruz, E.C., Abalos, R.M., Tan, E.V., Fajardo, T.T., Villahermosa, L.G. et al. (2012). Limited Susceptibility of Cynomolgus Monkeys (Macaca fascicularis) to Leprosy after Experimental Administration of Mycobacterium leprae. The American Journal of Tropical Medicine and Hygiene, 87, 327–336.

Walsh, G.P., Meyers, W.M., Binford, C.H. (1986). Naturally acquired leprosy in the nine-banded armadillo : a decade of experience 1975-1985. Journal of Leukocyte Biology, 40, 645–656.

Welch, T.M., Gelber, R.H., Murray, L.P., Ng, H., O’Neill, S.M., Levy, L. (1980). Viability of Mycobacterium leprae after multiplication in mice. Infection and Immunity, 30, 325–328.

WHO (2015). Global leprosy update, 2014 : need for early case detection. Weekly epidemiological record, 90, 461–476.

Wolf, R.H., Gormus, B.J., Martin, L.N., Baskin, G.B., Walsh, G.P., Meyers, W.M. et al. (1985). Experimental leprosy in three species of monkeys. Science, 227, 529–531.

Yamamura, M., Wang, X.H., Ohmen, J.D., Uyemura, K., Rea, T.H., Bloom, B.R. et al. (1992). Cytokine patterns of immunologically mediated tissue damage. The Journal of Immunology, 149, 1470–1475.

Yusıflı, Z., Kösemehmetoğlu, K. (2014). CAMTA1 immunostaining is not useful in differentiating epithelioid hemangioendothelioma from its potential mimickers. Türk Patoloji Dergisi, 30, 159–165.

Zhang, F.R., Huang, W., Chen, S.M., Sun, L.D., Liu, H., Li, Y. et al. (2009). Genomewide association study of leprosy. The New England Journal of Medicine, 361, 2609–2618.

91 92 L’APPORT DE L’ANIMAL À L’ÉTUDE DE LA PRÉDISPOSITION GÉNÉTIQUE À LA LÈPRE CHEZ L’HOMME : UNE APPROCHE PAR GÉNOMIQUE COMPARATIVE

NOM et Prénom : VERMANDEL Judith

Résumé : La lèpre atteint plus de 200 000 personnes dans le monde. Cette maladie est due à une mycobactérie Mycobacterium leprae. Chez l’Homme, environ 5 % des individus exposés à cet agent infectieux développent des signes cliniques. Il est établi que la différence de sensibilité à la lèpre s’explique en partie par des facteurs génétiques de l’hôte. De nombreuses études ont été réalisées, qui visent à identifier des gènes et des variants associés à une prédisposition à la lèpre chez l’Homme. Aucune n’a tiré parti de l'existence d'animaux naturellement sensibles à la maladie. L’objectif de ce travail était de déterminer dans quelle mesure la comparaison de génomes humain et animaux peut fournir des informations nouvelles sur la prédisposition génétique à la lèpre chez l'Homme. Dans une première partie, une revue bibliographique sur la lèpre chez l’Homme et les animaux et l’étude de la prédisposition génétique à la maladie montre l’intérêt du tatou à neuf bandes (Dasypus novemcinctus) comme modèle de la maladie et de sa composante génétique. À l’issue de cette revue, nous formulons l’hypothèse selon laquelle les gènes ayant une fonction commune chez l’Homme et le tatou, mais pas chez des animaux résistants à la lèpre, constituent des gènes candidats intéressants pour une recherche de variants associés à la sensibilité à la maladie chez l’Homme. La seconde partie de cette thèse expose le travail expérimental que j’ai réalisé dans l’équipe Génétique humaine des maladies infectieuses : prédisposition complexe de l'Institut Imagine à l’Hôpital Necker-Enfants malades (Paris, France). Une recherche des gènes humains ayant des orthologues chez le tatou à neuf bandes, mais n’ayant pas d’orthologues chez le bonobo (Pan paniscus) et le paresseux d’Hoffmann (Choloepus hoffmanni), a permis d’identifier 485 gènes candidats. Une étude d’association a été réalisée entre les 4 440 polymorphismes d’un seul nucléotide (SNP) présents dans ces 485 gènes et le phénotype « lépreux/non lépreux » dans une cohorte de 2 235 Vietnamiens. Onze SNP sont associés au phénotype « lépreux » dans cette population. Ces SNP sont répartis dans six gènes (CAMTA1, MEGF11, RNF165, MFGE8, HRH1 et CTU2) qui n’avaient pas été impliqués dans la vulnérabilité à la lèpre lors d’études antérieures.

Mots-clés : ÉPIDÉMIOLOGIE GÉNÉTIQUE / GÉNOMIQUE COMPARATIVE / GÉNOME / ÉVOLUTION / MODÈLE ANIMAL / PRÉDISPOSITION GÉNÉTIQUE / LÈPRE / MALADIE INFECTIEUSE / TATOU

Jury : Président : Pr. Directeur : Pr. PANTHIER Jean-Jacques Assesseur : Pr. TIRET Laurent

CONTRIBUTION OF THE ANIMAL TO THE STUDY OF GENETIC SUSCEPTIBILITY TO HUMAN LEPROSY: A COMPARATIVE GENOMIC APPROACH

SURNAME and Given name: VERMANDEL Judith

Summary: Leprosy affects more than 200,000 people worldwide. This infectious disease is caused by Mycobacterium leprae. However, only 5% of individuals exposed to this mycobacterium develop clinical signs. It is now accepted that host genetic factors explain in part the phenotypic diversity observed in the susceptibility to Mycobacterium leprae. None of the numerous genetics studies aimed at identifying disease-associated genes or polymorphisms has considered naturally leprosy-susceptible animals as a source of information. The aim of this study was to compare human and animal genomes to provide new perspectives on the genetic susceptibility to human-leprosy through an experimental application. In the first part, we review human leprosy, animal leprosy, and the genetic susceptibility to the disease. The nine-banded armadillo (Dasypus novemcinctus) is identified as a model for leprosy, both, clinically and genetically. We hypothezise that candidate genes to leprosy susceptibility can be extracted from a list of isofunctional genes shared by humans and armadillos, and not by animals resistant to leprosy. The second part presents the experimental work conducted in the laboratory Human genetics of infectious diseases: Complex predisposition from Imagine institute at Necker Enfants malades Hospital (Paris, France). Four hundred eighty-five candidate genes were identified in the human genome that have orthologs in the nine-banded armadillo genome but no orthologs in the bonobo (Pan paniscus) and Hoffmann’s two-toed sloth (Choloepus hoffmanni) genomes. An association study was performed between 4,440 single nucleotide polymorphisms (SNPs) in these 485 genes and the phenotypes “leper/no leper” in a sample of 2,235 Vietnamese. Eleven SNPs are associated with the “leper” phenotype in this population. These SNPs are located in six genes, namely CAMTA1, MEGF11, RNF165, MFGE8, HRH1 and CTU2. None of these have been involved in susceptibility to leprosy in previous studies.

Keywords: GENETIC EPIDEMIOLOGY / COMPARATIVE GENOMIC / GENOME / EVOLUTION / ANIMAL MODEL / GENETIC SUSCEPTIBILITY / LEPROSY / INFECTIOUS DISEASE / ARMADILLO

Jury: President: Pr. Director: Pr. PANTHIER Jean-Jacques Assessor: Pr. TIRET Laurent