BMC Genomics) Ainsi Que La Ressource Web Développée Et La Description Des Étapes Suivies Pour Traiter Les Données
Total Page:16
File Type:pdf, Size:1020Kb
N° d’ordre: 00000 Université d’Evry-Val d’Essonne THÈSE Présentée pour obtenir le grade de Docteur en Informatique Spécialité : Bio-Informatique par Ana Carolina Elisa FIERRO GUTIERREZ École Doctorale : Des Génomes aux Organismes Exploitation de données de séquences et de puces à ADN pour l’étude du transcriptome À soutenir le 20 novembre 2007, devant le jury composé de : Tijl De Bie Rapporteur Philippe Dessen Rapporteur Pascal Barbry Examinateur Kathleen Marchal Examinatrice Maurice Wegnez Examinateur Gilles Bernot Co-directeur de thèse Nicolas Pollet Co-directeur de thèse Remerciements 2 Introduction Le génome d’une espèce est un « invariant fondamental » qui véhicule une information transmise de génération en génération, assurant la production des macromolécules biologiques nécessaires à la physiologie des organismes. D’un point de vue moléculaire, l’expression du génome passe par la transcription de l’ADN en ARNs, intermédiaires obligatoires permettant la synthèse des macromolécules biologiques. Par conséquent, mesurer le nombre et le type de molécules d’ARN révèle des indices sur la fonction des gènes correspondants. Au cours des deux dernières décades, différentes techniques ont été développées pour réaliser de telles mesures à l’échelle du génome, car l’approche transcriptomique est plus simple que l’étude directe de l’expression de gènes à travers la quantification de protéines. Cependant, le transcriptome possède un niveau de complexité qui était sous-évalué à l’initiation de ce type d’études. Des expériences de séquençage massif d’ADNc et d’études du transcriptome à haut débit ont mis en évidence ce niveau de complexité qui comprend l’épissage alternatif, les ARN non-codants, les microARNs, entre autres. Par ailleurs, les puces à ADN ont contribué substantiellement à la génomique fonctionnelle car elles ont permis d’acquérir de nombreuses mesures qui donnent des indices sur l’expression des gènes. Elles constituent de nos jours l’un des moyens préférés pour des études « high-throughput ». L’objectif de ce travail a été d’analyser le transcriptome dans le contexte biologique de la métamorphose de Xenopus tropicalis, afin de remplir les absences d’information existantes en utilisant de façon optimale les ressources disponibles. Ainsi cette thèse est une illustration bio-informatique appliquée et montre plusieurs aspects des méthodologies contemporaines. Xenopus tropicalis est devenu un organisme modèle pour la génomique chez les amphibiens, car il a un génome plus simple que le modèle classique Xenopus laevis. Au début de cette thèse les ressources étaient encore très limitées, mais pendant ces dernières années plus d’un million de séquences d’ESTs ont été mises à disponibilité et le génome de cet organisme est en cours de séquençage. Cependant, le système nerveux ainsi que la métamorphose restent encore à explorer, raison pour laquelle deux techniques servant à analyser ce transcriptome ont été utilisées : le séquençage partiel d’ADNc (ESTs) qui se base sur des séquences et les puces à ADN qui est une méthode basée sur des hybridations. Le premier chapitre introduit les techniques les plus utilisées pour l’étude du transcriptome à grande échelle. Le séquençage d’ADNc et les puces à ADN sont décrites plus en détail avec pour objectif de présenter le mode d’obtention des données expérimentales. Le but de ce chapitre est de décrire les concepts nécessaires pour comprendre les analyses décrites par la suite. Le deuxième chapitre présente l’utilité des séquences d’ADNc pour l’analyse du transcriptome de Xenopus tropicalis. Plus particulièrement, le système nerveux pendant l’embryogenèse et la métamorphose est exploré afin de produire une ressource pour la génomique fonctionnelle de cet organisme. Ce chapitre décrit l’analyse biologique (article publié dans BMC Genomics) ainsi que la ressource web développée et la description des étapes suivies pour traiter les données. Le troisième chapitre montre l’usage des puces à ADN pour étudier l’expression des gènes au cours de la métamorphose du X. tropicalis. Nous décrivons les défis bio-informatiques trouvés au cours de cette étude ainsi que la problématique biologique. 3 Le quatrième chapitre porte sur l’utilisation des différentes stratégies expérimentales de puces à ADN et la reconstruction des profils d’expression. Les avantages potentiels d’utiliser des stratégies alternatives dépendent largement du succès de la reconstruction du profil. Il est donc nécessaire d’évaluer les méthodes d’analyse des puces à ADN, afin de déterminer laquelle des approches est la meilleure. L’étude menée pour comparer les méthodes de reconstruction des profils d’expression à partir de plans d’expériences complexes est présentée (article soumis dans BMC Bioinformatics). Le dernier chapitre offre une revue concernant les ESTs, les puces à ADN et l’état de l’art sur l’intégration des données provenant de ces techniques. Les bases de données publiques ouvrent la voie à l’intégration, afin d’exploiter de façon optimale les ressources transcriptionnelles qu’un laboratoire de recherche peut obtenir. Le chapitre décrit trois voies d’intégration: l’intégration de données produites par plusieurs laboratoires ou groupes de recherche, l’intégration des données entre multiples organismes, et l’intégration avec une multiplicité d’autres sources, comme des données ChIP-on-chip, des études d’interactions de protéines, des recherches de motifs, etc. Formée comme ingénieur civil spécialisé en informatique diplômée de l’Universidad de Chile (Chili), je suis venue étudier en France dans le cadre du DEA « Applications des Mathématiques et de l'Informatique à la Biologie » (Génopole). A l’issue de cette formation, j’ai choisi de continuer mes études et d’entreprendre une thèse de Doctorat. Ce travail a été conçu d’une façon pluridisciplinaire, avec un co-encadrement informatique et biologique pour aborder le sujet. Le travail a été effectué dans le laboratoire du Programme d’Epigénomique à Evry (G. Bernot) pour la partie informatique et le laboratoire Développement et Evolution à Orsay (N. Pollet) où j’ai acquis les connaissances biologiques et j’ai appris les besoins informatiques du côté biologiste. Ce laboratoire a aussi apporté les données analysées dans cette thèse. Finalement, un stage dans l’équipe bioinformatique de Kathleen Marchal, au Department of Microbial and Molecular Sciences, à la Katholieke Universiteit Leuven (Belgique), m’a permis d’approfondir mes connaissances sur les méthodes d’analyse de puces à ADN et mener l’étude comparative présentée dans cette thèse. 4 Table des matières CHAPTER 1: LARGE-SCALE TECHNIQUES TO EXPLORE THE TRANSCRIPTOME ..................................................................................7 1.1 Large-scale techniques .................................................................................................... 8 1.2 Partial cDNA sequencing : Expressed Sequence Tags (ESTs).. 9 1.3 Microarray technology..................................................................................................... 12 1.3.1 Two-channel arrays.............................................................................................. 12 1.3.2 Single-channel arrays ........................................................................................... 13 1.3.3 Experimental design............................................................................................. 14 1.3.4 Microarray analysis.............................................................................................. 16 CHAPTER 2: EXPLORING THE TRANSCRIPTOMES USING ESTS ..21 2.1 Exploring the nervous system transcriptomes during embryogenesis and metamorphosis in Xenopus tropicalis using EST analysis ............................................................................................................................................ 22 2.2 XTScope: Xenopus tropicalis EST, a web resource for the nervous system .................................................................................................................................... 36 Database content and data production.................................................................................. 36 Implementation and Architecture......................................................................................... 39 Web interface ....................................................................................................................... 40 Extensions ............................................................................................................................ 43 Conclusion............................................................................................................................ 43 CHAPTER 3: MICROARRAYS TO STUDY THE TRANSCRIPTOME ..45 3.1 Bioinformatic issues ......................................................................................................... 46 Experimental design............................................................................................................. 46 Analysis steps for the microarray experiment...................................................................... 47 3.2 Xenopus tropicalis metamorphosis transcriptomes analysis using microarrays .............................................................................................................................. 51 CHAPTER 4: EVALUATION OF TIME PROFILE RECONSTRUCTION FROM COMPLEX TWO-COLOR MICROARRAY DESIGNS................83 CHAPTER 5 : FROM GENE EXPRESSION PROFILES TOWARDS