Thèse De Doctorat De L'université Paris-Saclay Préparée À L'ecole
Total Page:16
File Type:pdf, Size:1020Kb
1 NNT : 2017SACLX031 Thèse de doctorat de l’Université Paris-Saclay préparée à l’Ecole Polytechnique Ecole doctorale n◦573 Interfaces : approches interdisciplinaires / fondements, applications et innovation Spécialité de doctorat : Informatique par Mme. Alice Héliou Analyse des séquences génomiques : Identification des ARNs circulaires et calcul de l’information négative Thèse présentée et soutenue à l’Ecole Polytechnique, le 10 juillet 2017. Composition du Jury : M. Alain Denise Professeur (Président du jury) Université Paris-Sud Mme. Christine Gaspin Professeur (Rapporteur) INRA Toulouse M. Gabriele Fici Professeur associé (Rapporteur) Université de Palerme (Italie) M Thierry Lecroq Professeur (Examinateur) Université de Rouen Mme. Claire Toffano-Nioche Chargé de recherche (Examinatrice) Université Paris Sud M. Mikael Salson Maitre de conférences (Examinateur) Université Lille 1 Mme. Mireille Régnier Professeur (Directrice de thèse) Ecole Polytechnique M. Hubert Becker Maitre de conférences (Co-directeur de thèse) UPMC À mes grands parents, Pour m’avoir ouvert les yeux sur la chance que sont les études. À mes parents, Pour m’avoir toujours soutenue et donné confiance en moi, Merci. Remerciements Je tiens dans un premier temps à remercier mes directeurs de thèse, Mireille Régnier et Hubert Becker sans qui rien de tout cela n’aurait été possible. Christine Gaspin et Gabriele Fici ont accepté d’être rapporteurs de cette thèse, je les remercie sincèrement d’avoir pris le temps de lire attentivement le manuscrit. Je souhaite également remercier Alain Denise, Thierry Lecroq, Claire Toffano- Nioche et Mikael Salson d’avoir accepté de faire partie de mon jury pour la soute- nance. La première personne qu’il m’est important de remercier est Laurent Mouchard. Il m’a encadré durant mon stage de M2 à Londres, et m’a fait découvrir les structures de compression et d’indexation qui m’ont passionnée. C’est ce qui m’a donné envie de continuer la recherche par une thèse sur l’analyse des séquences génomiques. Il m’a ensuite apporté son aide, sa bienveillance et son soutien tout au long de ma thèse, je lui en suis extrêmement reconnaissante. Je dois également beaucoup à Solon Pissis avec qui j’ai travaillé dès mon stage de M2. Il n’a eu de cesse de me proposer de nouveaux problèmes pour pousser toujours plus loin nos travaux sur les mots absents minimaux. Inventif et réactif, c’est un plaisir de travailler avec lui. Laurent et Solon m’ont donné l’occasion de participer à des workshops et des conférences, grâce à eux j’ai fait des rencontres très enrichissantes. En plus d’être très formateur cela m’a permis de constituer mon jury. Je tiens également à remercier Yann Ponty, pour avoir apporté beaucoup de dynamisme à l’équipe AMIB. Toujours prêt à discuter, surtout s’il y a du café et du chocolat, il m’a permis de mieux comprendre le fonctionnement du laboratoire. Nos discussions m’ont souvent poussée à l’introspection, merci pour ton temps et pour m’avoir apporté deux co-bureaux. Je remercie Hannu Myllykallio et Hubert Becker pour m’avoir permis de participer aux manipulations de biologie. Hubert, Roxane Lestini et Yoann Collien m’ont beaucoup aidée pour apprivoiser ce nouvel environnement, merci pour votre aide et votre patience. Durant ces 3 années j’ai pu donner des TDs, c’était très important pour moi qui me destinais à l’enseignement. Ces expériences ont été très enrichissantes, merci à ceux qui m’ont accordé le monitorat. Je remercie également ceux qui avec qui j’ai donné ces TDs, Philippe Chassignet, David Savourey, Jean-Baptiste Bordes, Pierre-Yves Strub et tout particulièrement Steve Oudot pour m’avoir fait confiance et laissé donner un cours en plus des TDs. Ensuite, je remercie mes co-bureaux qui ont su rendre les journées de travail et notamment celles de rédaction plus agréables, Afaf et Juraj, mais aussi Amélie et Eliott du LIX. Ainsi que Margaux, Thi-Thuy, Yoann, Minh-Son et tous les autres doctorants du LOB, où il règne une ambiance très sympathique. Mes co-joggeurs du midi ont énormément contribué à structurer mes semaines autour de sorties hebdomadaires. Je remercie donc Mathieu et Steve, qui m’ont fait découvrir la partie Nord du Plateau, ainsi que Elisabeth, Elise, Roxane et Guillaume pour m’avoir permis de m’aérer l’esprit régulièrement. Enfin, je remercie celles et ceux qui me sont chers pour leur soutien inconditionnel. Ma mère, toujours là pour me prêter une oreille attentive ; Amélie, ma soeur, pour sa bienveillance et notre complicité inébranlable. Mon véritable regret de cette thèse sera de ne pas avoir trouvé de sujet commun pour un papier A.Héliou & A.Héliou. Pour finir, je remercie Arnaud, mon âme soeur, qui a toujours su me réconforter quand j’en ai eu besoin. Il m’a permis de garder confiance en moi dans les moments difficiles et de rester fidèle à celle que je suis. Résumé substantiel Depuis 1977, la classification conventionnelle des êtres du vivant est celle proposée par Carl Woese, basée sur la comparaison des séquences des ARNr 16S, pour les procaryotes et 18S pour les eucaryotes. Cette classification divise le monde du vivant en trois principaux domaines, les Eucaryotes qui possèdent un noyau, les Bactéries et les Archées. Ces deux derniers domaines correspondent à des organismes souvent unicellulaires, qui ne possèdent pas de noyau. Ils sont donc d’apparence proches et, pendant longtemps ils n’ont pas été distingués. Cependant ils ont des caractéristiques bien différentes, les Archées étant proches des Eucaryotes sur certains points, tels que les protéines impliquées dans les mécanismes de transcription et de traduction. L’ADN est universellement utilisé pour stocker l’information génétique. Il est transcrit en ARNs, qui, lorsqu’ils sont codants, sont eux-mêmes traduits en protéines. Ainsi l’étude des séquences d’ADN et d’ARN est un outil clef dans la comparaison des espèces et la compréhension des fonctions des différentes macromolécules. Le séquençage de l’ADN et de l’ARN a été inventé dans les années 1970, mais ce n’est que dans les années 2000 que des méthodes à haut débit et peu coûteuses ont été développées, les Next-Generation Sequencing (NGS). Leur développement a permis d’importantes avancées en biologie et en santé. Dans la première partie de cette thèse, nous nous sommes intéressés aux ARNs qui ont la particularité d’être circulaires. C’est-à-dire que leurs deux extrémités sont liées l’une à l’autre par une liaison covalente. Les ARNs circulaires ont été observés dans les trois domaines du vivant depuis plus de vingt ans (Cocquerelle et al. 1993). Cependant ils étaient d’abord vus comme un bruit de transcription. Ce n’est que récemment avec le développement des technologies de séquençage à haut débit que leur importante présence a été révélée (Salzman et al. 2012). Etant circulaires ils sont dégradés plus lentement dans la cellule, ils représentent une partie conséquente des ARNs non codants. Cependant il a également été montré que certains d’entre eux sont traduits en protéine chez la mouche (Pamudurti et al. 2017). Bien qu’étant de plus en plus étudiés, la fonction et le mécanisme de circularisation de la plupart de ces ARNs circulaires restent inconnus. L’équipe d’Hannu Myllykallio a précédemment mis en évidence l’implication de la ligase Pab1020 dans la circularisation in vivo de trois ARNs, l’ARNr 5S et deux ARNs à boites C/D, le SR4 et SR9, chez l’archée Pyroccocus Abyssi. Le sujet principal de cette thèse est de confirmer le rôle de cette ligase, et d’identifier les ARNs circulaires chez cette Archée. Pour cela quatre expériences de RNA-seq ont été réalisées : • A1) Immunoprécipitation de l’ARN avec la ligase puis séquençage : cette méthode permet de sélectionner les ARNs qui interagissent avec la ligase. • A2) Réplication de la première expérience. • B) Immunoprécipitation de l’ARN avec la ligase suivi d’un traitement RNase R puis séquençage : le traitement RNase R permet de dégrader les ARNs linéaires. • C) ARNs totaux traités avec la RNase R puis séquençés. L’identification des ARNs circulaires à partir des données de séquençage n’est en théorie pas très compliquée puisque les lectures qui couvrent la jonction circulaire ne s’alignent pas normalement sur le génome. En effet, au lieu de s’aligner linéairement en un seul match, elles vont s’aligner partiellement en deux fois, et ces matchs sont inversés sur génome (voir Figure 3.10 pour une illustration). Cependant les ARNs circulaires ne représentent qu’une faible proportion des ARNs d’une cellule, de plus, pour les identifier nous ne pouvons compter que sur les lectures qui couvrent leur jonction circulaire. Ces lectures ne représentent en moyenne que 1 à 3% des lectures dans des séquençages d’ARN totaux. Ainsi, même un faible taux d’erreurs de séquençage peut nuire à la détection des ARNs circulaires en créant des faux positifs qu’il sera difficile de distinguer des vrais ARNs. De nombreux algorithmes ont été développés pour identifier les ARNs circulaires, ils reposent tous sur le repérage des deux alignements partiels et inversés d’une lecture. Cependant ils n’utilisent pas les même algorithmes d’alignement ni les même critères d’identification d’une jonction. En 2016, Hansen et al. a comparé cinq de ces algorithmes sur des données de séquençage humain. Les résultats sont très divergents (voir Figure 3.2), parmi les 5075 ARN identifiés comme circulaires par au moins un algorithme, seuls 854 (16,8%) sont identifiés par les cinq algorithmes. Finalement les auteurs recommandent d’utiliser deux algorithmes circRNA_finder (Westholm et al. 2014) et find_circ (Memczak et al. 2013), pour augmenter la fiabilité des résultats.