Université De Montréal Méthodes Et Algorithmes Pour L'amélioration De L
Total Page:16
File Type:pdf, Size:1020Kb
Université de Montréal Méthodes et algorithmes pour l’amélioration de l’inférence de l’histoire évolutive des génomes par Finagnon Marc-Rolland Emmanuel Noutahi Département de Biochimie et Médecine moléculaire Faculté de Médecine Thèse présentée à la Faculté des études supérieures en vue de l’obtention du grade de Philosophiæ Doctor (Ph.D.) en Bio-informatique 26 juillet 2018 © Finagnon Marc-Rolland Emmanuel Noutahi, 2018 RÉSUMÉ Les phylogénies de gènes offrent un cadre idéal pour l’étude comparative des génomes. Non seulement elles incorporent l’évolution des espèces par spéciation, mais permettent aussi de capturer l’expansion et la contraction des familles de gènes par gains et pertes de gènes. La détermination de l’ordre et de la nature de ces événements équivaut à inférer l’histoire évolutive des familles de gènes, et constitue un prérequis à plusieurs analyses en génomique comparative. En effet, elle est requise pour déterminer efficacement les relations d’orthologies entre gènes, importantes pour la prédiction des structures et fonctions de protéines et les analyses phylogénétiques, pour ne citer que ces applications. Les méthodes d’inférence d’histoires évolutives de familles de gènes supposent que les phylogénies considérées sont dénuées d’erreurs. Ces phylogénies de gènes, souvent recons- truites à partir des séquences d’acides aminés ou de nucléotides, ne représentent cependant qu’une estimation du vrai arbre de gènes et sont sujettes à des erreurs provenant de sources variées, mais bien documentées. Pour garantir l’exactitude des histoires inférées, il faut donc s’assurer de l’absence d’erreurs au sein des arbres de gènes. Dans cette thèse, nous étudions cette problématique sous deux aspects. Le premier volet de cette thèse concerne l’identification des déviations du code génétique, l’une des causes d’erreurs d’annotations se propageant ensuite dans les phylogénies. Nous développons à cet effet, une méthodologie pour l’inférence de déviations du code génétique standard par l’analyse des séquences codantes et des ARNt. Cette méthodologie est cen- trée autour d’un algorithme de prédiction de réaffectations de codons, appelé CoreTracker. Nous montrons tout d’abord l’efficacité de notre méthode, puis l’utilisons pour démontrer l’évolution du code génétique dans les génomes mitochondriaux des algues vertes. Le second volet de la thèse concerne le développement de méthodes efficaces pour la correction et la construction d’arbres phylogénétiques de gènes. Nous présentons deux méthodes exploitant l’information sur l’évolution des espèces. La première, ProfileNJ , est déterministe et très rapide. Elle corrige les arbres de gènes en ciblant exclusivement les sous-arbres présentant un support statistique faible. Son application sur les familles ii de gènes d’Ensembl Compara montre une amélioration nette de la qualité des arbres, par comparaison à ceux proposés par la base de données. La seconde, GATC, utilise un algorithme génétique et traite le problème comme celui de l’optimisation multi-objectif de la topologie des arbres de gènes, étant données des contraintes relatives à l’évolution des familles de gènes par mutation de séquences et par gain/perte de gènes. Nous montrons qu’une telle approche est non seulement efficace, mais appropriée pour la construction d’ensemble d’arbres de référence. Mots-clés : arbres de gènes ; histoire évolutive ; phylogénie ; réconciliation ; or- thologie ; code génétique ; réassignation de codon ; évolution iii ABSTRACT Gene trees offer a proper framework for comparative genomics. Not only do they provide information about species evolution through speciation events, but they also capture gene family expansion and contraction by gene gains and losses. They are thus used to infer the evolutionary history of gene families and accurately predict the orthologous relationship between genes, on which several biological analyses rely. Methods for inferring gene family evolution explicitly assume that gene trees are known without errors. However, standard phylogenetic methods for tree construction based on se- quence data are well documented as error-prone. Gene trees constructed using these methods will usually introduce biases during the inference of gene family histories. In this thesis, we present new methods aiming to improve the quality of phylogenetic gene trees and thereby the accuracy of underlying evolutionary histories of their corresponding gene families. We start by providing a framework to study genetic code deviations, one possible reason of annotation errors that could then spread to the phylogeny reconstruction. Our framework is based on analysing coding sequences and tRNAs to predict codon reassignments. We first show its efficiency, then apply it to green plant mitochondrial genomes. The second part of this thesis focuses on the development of efficient species tree aware methods for gene tree construction. We present ProfileNJ , a fast and deterministic correction method that targets weakly supported branches of a gene tree. When applied to the gene families of the Ensembl Compara database, ProfileNJ produces an arguably better set of gene trees compared to the ones available in Ensembl Compara. We later use a different strategy, based on a genetic algorithm, allowing both construction and correction of gene trees. This second method called GATC, treats the problem as a multi-objective optimisation problem in which we are looking for the set of gene trees optimal for both sequence data and information of gene family evolution through gene gain and loss. We show that this approach yields accurate trees and is suitable for the construction of reference datasets to benchmark other methods. iv Keywords: gene tree; evolutionary history; phylogeny; reconciliation; orthology; genetic code; codon reassignment; evolution v Table des matières Résumé ................................................... ............ ii Abstract ................................................... ........... iv Liste des tableaux................................................... .. xiii Table des figures ................................................... ... xiv Liste des sigles et des abréviations .................................... xvii Dédicaces ................................................... .......... xviii Remerciements ................................................... .... xix Chapitre 1. Introduction............................................. 1 Chapitres 2 et 3 : Mise en contexte ........................................... 6 Chapitres 4 et 5 : Évolution du code génétique ............................... 7 Chapitres 6 et 7 : Correction et construction d’arbres de gènes................ 8 Chapitre 2. Information génétique ................................... 10 2.1. Espèce, génome et expression de l’information génétique . 10 2.1.1. Évolution des génomes................................................ 13 2.1.2. Spéciation : formation de nouvelles espèces ........................... 15 2.1.3. Famille de gènes ................................................... 16 2.2. Le code génétique et son évolution ....................................... 17 2.2.1. Propriétés du code génétique ......................................... 18 2.2.2. Évolution du code génétique .......................................... 20 2.2.2.1. Origine du code génétique ........................................ 21 2.2.2.2. Déviations connues du code génétique ............................ 22 2.2.2.3. Mécanismes d’évolution du code .................................. 25 vi 2.2.2.4. Prédiction des altérations du code génétique ...................... 30 Chapitre 3. Inférence de l’histoire évolutive des familles de gènes .... 33 3.1. Arbres................................................... 33 3.1.1. Notation et définitions ................................................ 34 3.1.2. Comparaison de topologies d’arbres................................... 37 3.1.3. Arbres phylogénétiques d’espèces et de gènes ......................... 39 3.1.4. Des séquences aux arbres d’espèces ................................... 41 3.1.4.1. Construction des familles de gènes ................................ 43 3.1.4.2. Alignements multiples de séquences............................... 45 3.1.4.3. Inférence d’arbres d’espèces....................................... 45 3.2. Méthodes phylogénétiques classiques de construction d’arbres . 46 3.2.1. Méthodes basées sur la distance ...................................... 47 3.2.2. Méthodes basées sur la parcimonie.................................... 48 3.2.3. Modèle d’évolution de séquences ...................................... 48 3.2.4. Méthodes probabilistes ............................................... 49 3.2.5. Erreurs au sein des arbres de gènes ................................... 52 3.2.6. Support statistique sur les arbres ..................................... 54 3.2.6.1. Support sur les branches.......................................... 54 3.2.6.2. Tests statistiques pour la comparaison d’arbres phylogénétiques. 55 3.3. Inférence de l’histoire évolutive des familles de gènes par réconciliation . 55 3.3.1. Réconciliation la plus parcimonieuse entre arbres binaires de gènes et d’espèces ................................................... 56 3.3.1.1. Réconciliation DL ................................................ 59 3.3.1.2. Réconciliation DTL .............................................. 60 3.3.1.3. Au-delà des modèles DL et DTL.................................. 63 3.3.2. Incertitudes au sein des arbres phylogénétiques