Proquest Dissertations
Total Page:16
File Type:pdf, Size:1020Kb
Universite de Montreal Chimeres, donnees manquantes et congruence: validation de differentes methodes par simulations et application a la phylogenie des mammiferes par Veronique Campbell Departement de sciences biologiques Faculte des arts et sciences These presentee a la Faculte des etudes superieures en vue de I'obtention du grade de Philosophiae doctor (Ph. D.) en sciences biologiques Aout, 2009 © Veronique Campbell, 200 Library and Archives Bibliotheque et 1*1 Canada Archives Canada Published Heritage Direction du Branch Patrimoine de I'edition 395 Wellington Street 395, rue Wellington Ottawa ON K1A 0N4 OttawaONK1A0N4 Canada Canada Your file Votre reference ISBN: 978-0-494-60679-7 Our file Notre reference ISBN: 978-0-494-60679-7 NOTICE: AVIS: The author has granted a non L'auteur a accorde une licence non exclusive exclusive license allowing Library and permettant a la Bibliotheque et Archives Archives Canada to reproduce, Canada de reproduire, publier, archiver, publish, archive, preserve, conserve, sauvegarder, conserver, transmettre au public communicate to the public by par telecommunication ou par I'lnternet, prefer, telecommunication or on the Internet, distribuer et vendre des theses partout dans le loan, distribute and sell theses monde, a des fins commerciales ou autres, sur worldwide, for commercial or non support microforme, papier, electronique et/ou commercial purposes, in microform, autres formats. paper, electronic and/or any other formats. The author retains copyright L'auteur conserve la propriete du droit d'auteur ownership and moral rights in this et des droits moraux qui protege cette these. Ni thesis. Neither the thesis nor la these ni des extraits substantiels de celle-ci substantial extracts from it may be ne doivent etre imprimes ou autrement printed or otherwise reproduced reproduits sans son autorisation. without the author's permission. In compliance with the Canadian Conformement a la loi canadienne sur la Privacy Act some supporting forms protection de la vie privee, quelques may have been removed from this formulaires secondaires ont ete enleves de thesis. cette these. While these forms may be included Bien que ces formulaires aient inclus dans in the document page count, their la pagination, il n'y aura aucun contenu removal does not represent any loss manquant. of content from the thesis. 1*1 Canada Universite de Montreal Faculte des etudes superieures Cette these intitulee Chimeres, donnees manquantes et congruence: validation de differentes methodes par simulations et application a la phylogenie des mammiferes presentee par: Veronique Campbell a ete evaluee par un jury compose des personnes suivantes M. Mohamed Hijri, president-rapporteur M. Frangois-Joseph Lapointe, directeur de recherche Mme. Anne Bruneau, membre du jury M. Pierre Darlu, examinateur externe Mme. Ariane Burke, representante du doyen de la FESP Ill RESUME Avec Pessor de la phylogenomique, le defi n'est plus de generer suffisamment de donnees moleculaires necessaires a I'inference phylogenetique, mais plutot de developper des moyens adaptes au traitement de ces donnees. Entre autres, de nouvelles methodes phylogenetiques qui permettent de reduire le temps de calcul doivent etre developpees et validees. De plus, de nouveaux outils sont indispensables pour determiner statistiquement la meilleure fagon de combiner les donnees tout en reduisant les donnees manquantes propres a certains taxons. Dans cette perspective, ma these a pour but d'explorer des alternatives qui pourraient se reveler efficaces pour faciliter les analyses phylogenomiques. En premier lieu, il est imperatif de determiner si toutes les donnees peuvent etre combinees dans une analyse unique. Dans I'eventualite ou les jeux de donnees soutiennent des phytogenies significativement similaires (c.-a-d. la congruence des donnees), il peut etre preferable de les reunir dans une seule analyse, pour permettre d'augmenter le signal phylogenetique global. Dans le cas contraire, c'est-a-dire face a des donnees incongruentes, il est plus judicieux d'analyser les jeux de donnees separement pour eviter d'inclure des signaux phylogenetiques contradictoires. Dans le cadre du premier volet de ma these, des simulations ont ete realisees afm de tester la validite du test de Congruence Entre Matrices de Distance. Ce test mesure le degre de congruence entre des matrices qui peuvent provenir de nombreuses sources. Les resultats montrent que le test a une erreur de type I adequate et une bonne puissance lorsqu'il est applique a des matrices de distance ultrametrique et additive. Lorsqu'il est recommande de combiner differents jeux de donnees dans une seule analyse, I'utilisation de taxons chimeres peut etre une option interessante. Cette approche reduit le nombre de donnees manquantes en combinant les sequences d'ADN de differentes especes qui appartiennent a un meme groupe taxonomique pour ne former qu'un seul taxon representatif. Le deuxieme volet de ma these evalue la validite de cette methode a I'aide de simulations et de donnees empiriques moleculaires provenant d'especes de mammiferes. La comparaison de Pexactitude phylogenetique revele une performance egale des deux approches et, meme, une superiorite pour les taxons chimeres, dans certaines conditions. Etant donne la reduction non negligeable IV en temps de calcul et en puissance informatique liee a Putilisation de taxons chimeres, cette derniere methode s'avere etre ideale pour les analyses phylogenomiques. Dans certains cas, il peut sembler plus approprie d'analyser differents jeux de donnees separement au lieu de les inclure dans une mSme analyse. Pour faciliter une vue d'ensemble, les arbres phylogenetiques obtenus peuvent etre combines en utilisant une methode de consensus ou encore une methode de super-arbre. La congruence globale soutient que la concordance des resultats obtenus suite a des analyses separees et combinees permet d'augmenter la fiabilite des inferences phylogenetiques. Le troisieme volet compare done differentes methodes de reconstruction phylogenetique de types consensus et super-arbre avec I'approche de super-matrice lorsque applique a des sequences mitogenomiques echantillonnees parmi 93 especes de mammiferes. Les super-arbres obtenus etaient congruents a I'arbre infere a partir de la supermatrice. S'ouvrant sur des pistes de recherche future, mon etude constitue un apport au domaine de la phylogenomique en validant certaines approches qui se sont reveles etre des outils efficaces dans un contexte de meta-analyses. Mots-cles: CEMD, consensus, erreur de type I, incongruence, exactitude, mitogenomique, phylogenomique, puissance, super-arbre, super-matrice V ABSTRACT With the rise of phylogenomics, the challenge is no longer to generate sufficient molecular data for phylogenetic inference, but rather to develop appropriate means to process the enormous amount of data produced. New phylogenetic algorithms with better computation time and complexity have to be developed and validated. In addition, new tools are needed to statistically determine the best approach to combine datasets while reducing the amount of missing data. Some aspects of these problems motivated my thesis, which explore alternatives that could facilitate phylogenomic analyses, while contributing to improving knowledge about evolutionary relationships among mammal families. It is imperative to determine if all data can be combined in a single analysis. In the event that different datasets support significantly similar phytogenies (i.e., congruent phylogenetic trees), it may be preferable to include all datasets in a single analysis, in order to increase the overall phylogenetic signal. However, when faced with incongruent datasets, it is generally recommended to analyze each dataset separately to avoid conflicting signals. In the first part of my thesis, simulations were conducted to verify the validity of the Congruence Among Distance Matrices (CADM) test. This test measures the degree of congruence among distance matrices from different sources. The results showed that the test has an adequate Type I error and good power when applied to ultrametric and additive distance matrices. When it is appropriate to combine different datasets in a single analysis, the use of composite taxa may represent a valuable option. This approach reduces the number of missing entries in a supermatrix by combining the DNA sequences of different species belonging to the same taxonomic group. Therefore, a single composite sequence is defined by more than one species (or taxon). Following criticisms about the use of composite taxa, the second part of my thesis assessed the validity of the composite approach through simulations and empirical data from mammal species. Comparisons of phylogenetic accuracy of trees inferred from incomplete and composite matrices revealed an equal performance of both approaches, and even superiority of composite taxa under certain conditions. Given high phylogenetic accuracy and significant VI reduction in computing time when analyzing composite matrices (due to reduced taxon number), this approach will probably be increasingly used in phylogenomic analyses. In some cases, it may seem more appropriate to analyze datasets separately rather than in a single analysis (separate vs. combined analysis). The phylogenetic trees inferred from each dataset can then be combined using a consensus or supertree method. A global congruence framework suggests that increased phylogenetic accuracy can be obtained if the results from the separate