The Anâtaxis Phylogenetic Reconstruction Algorithm

The Anâtaxis Phylogenetic Reconstruction Algorithm

U´ G` F´ Departement´ d’informatique Professeur Bastien Chopard Institut Suisse de Bioinformatique Dr Gabriel Bittar The Anataxisˆ phylogenetic reconstruction algorithm THESE` present´ ee´ a` la Faculte´ des sciences de l’Universite´ de Geneve` pour obtenir le grade de Docteur es` sciences, mention bioinformatique par Bernhard Pascal Sonderegger de Heiden (AR) These` No 3863 Geneve` Atelier d’impression de la Section de Physique 2007 FACULTE´ DES SCIENCES Doctorat es` Sciences mention bioinformatique These` de Monsieur Bernhard SONDEREGGER Intitulee:´ The Anataxisˆ phylogenetic reconstruction algorithm La faculte´ des sciences, sur le preavis´ de Messieurs B. CHOPARD, professeur ad- joint et directeur de these` (Departement´ d’ informatique), G. Bittar, Docteur et co- directeur de these` (Institut Suisse de Bioinformatique, Geneve,` Suisse), A. BAIROCH, professeur adjoint (Faculte´ de medecine,´ Section de medecine´ fon- dementale, Departement´ de biologie structurale et bioinformatique) et N. SALAMIN, docteur (Universite´ de Lausanne, Faculte´ de biologie et de mede- cine Departement´ d’ecologie´ et evolution,´ Lausanne, Suisse), autorise l’impression de la presente´ these,` sans exprimer d’opinion sur les propositions qui y sont enonc´ ees.´ Geneve,` le 26.06.2007 Th`ese-3863- Le Doyen, Pierre SPIERER Contents Contents i Remerciements 1 Preface 1 R´esum´een franc¸ais 5 Introduction a` la phylogen´ etique´ ....................... 5 L’algorithme Anataxisˆ ............................. 8 Calcul de dissimilitudes ............................ 11 Validation numerique´ .............................. 11 Implementation´ ................................. 12 Exemple biologique ............................... 13 Conclusion .................................... 14 1 An introduction to phylogenetics 17 1.1 Homology and homoplasy ........................ 18 1.1.1 Characters and their states .................... 18 1.1.2 Homology is a phylogenetic hypothesis ............ 20 1.1.3 Homoplasy, a pitfall in phylogenetics ............. 21 1.2 Molecular phylogenetics ......................... 23 1.2.1 Speciation / duplication , orthologs / paralogs ........ 24 1.2.2 Sequence alignment as a homology hypothesis ........ 26 1.2.3 Evolutionary time ........................ 27 1.3 Tree reconstitution ............................ 28 1.3.1 Numerical Taxonomic Phenetics (NTP) ............ 29 1.3.2 Cladistic Maximum Parsimony (CMP) methods ....... 30 1.3.3 Probabilistic Methods ...................... 32 i Anataxisˆ Bernhard P. Sonderegger 1.3.4 Searching for the optimal tree .................. 33 1.3.5 Estimating tree robustness .................... 36 1.4 Uses of phylogenetics in molecular biology .............. 38 1.4.1 Prediction of gene function ................... 38 1.4.2 New directions in phylogenetics ................ 39 1.4.3 Very large trees .......................... 40 2 The Anˆataxisalgorithm 41 2.1 Overview .................................. 41 2.2 Normalisation ............................... 42 2.3 Ingroup division ............................. 43 2.4 Combined effects of homoplasy and heterogeneous rates of evolution 47 2.4.1 Homoplasy within the ingroup ................. 47 2.4.2 Homoplasy between the outgroup and the ingroup ..... 48 3 Dissimilarity calculation 51 3.1 Background ................................ 51 3.2 Methods used with Anataxisˆ ...................... 53 3.2.1 Universal dissimilarity calculation methods ......... 54 3.2.2 Dissimilarity calculation methods for nucleotide sequences 54 3.2.3 External dissimilarity calculation methods .......... 55 3.3 Dissimilarity values containing uncertainty .............. 58 3.3.1 Types of uncertainty ....................... 58 3.3.2 Comparison of uncertain dissimilarities ............ 59 4 Numerical validation 63 4.1 Validation of the normalisation step .................. 63 4.1.1 Normalisation with comparable branches ........... 63 4.1.2 Normalisation with long branches ............... 67 4.2 Validation of the ingroup division step ................. 80 5 Implementation 83 5.1 Complete application with graphical user interface ......... 83 5.1.1 Loading sequence alignments .................. 83 5.1.2 Calculating the dissimilarity matrix .............. 83 5.1.3 Ingroup and outgroup selection ................ 85 ii CONTENTS 5.1.4 Running Anataxisˆ ........................ 86 5.2 Command-line version .......................... 87 5.3 Execution times .............................. 87 5.4 Parallelisation ............................... 89 5.4.1 Using MPI in an object-oriented environment ........ 90 5.4.2 Implementation details ..................... 91 5.4.3 Speed-up obtained ........................ 94 5.4.4 Conclusion ............................ 94 6 Evaluating the performance of Anˆataxisusing a biological example 97 6.1 Phylogenetic tree evaluation ....................... 97 6.1.1 Automatic species-tree annotation and comparison ..... 99 6.1.2 Implementation .......................... 100 6.2 Biological examples ............................ 101 6.2.1 Sequence alignment ....................... 101 6.2.2 The rps4 dataset .......................... 102 Conclusion 106 Appendices 108 A Details of the Neighbor-Joining algorithm 109 A.1 Principle .................................. 109 A.2 Algorithm ................................. 110 A.3 Mathematical proof ............................ 111 B Pseudocode 115 B.1 Recursion .................................. 115 B.2 Normalisation ............................... 116 B.3 Graph creation ............................... 117 C Usage details for the command-line version of Anˆataxis 119 D NEWT-tree extraction and automatic tree annotation tools 121 D.1 newt.rb ................................... 121 D.2 simple tree.rb ............................... 122 D.3 make newt tree.rb ............................ 122 iii Anataxisˆ Bernhard P. Sonderegger D.4 annotate tree.rb .............................. 123 E Obj-MPI: an example 125 Bibliography 129 List of Figures 136 List of Tables 139 Index 140 iv Contents Remerciements Je tiens a` remercier Bastien Chopard pour l’acceuil dans son groupe de recherche et pour son aide durant toutes ces annees.´ Je remercie Gabriel Bittar qui a pris le temps de m’encadrer depuis l’Australie et qui m’a apporte´ son soutient scienti- fique, technique et philosophique. Il a toujours fait son possible pour m’aider sans avoir peur de se ‘salir les mains’ avec des taches penibles´ comme l’alignement manuel des sequences.´ Mes collegues de bureau ont rendu la routine de tous les jours tellement plus vi- vable. Plus particulierement, j’aimerais nommer Jonas pour de multiples sessions de ‘debugging’ C++ et son sens d’humour. Jean-Luc pour de nombreuses discu- tions sur des sujets aussi varies´ que la cuisine medievale´ ou les details´ techniques des denieres` distributions de linux. Davide pour ses acrobaties linguistiques et son bon humeur contagieux. Rafik, le seul musulmane que je ne connaisse qui defend la notion de “intelligent design”, pour des debats´ amusants. Je remercie egalement´ mes parents qui m’ont toujours encourages´ a` poursuivre mes buts et qui m’ont motives´ a suivre mon interet pour la science depuis mon plus jeun age. Il est clair que le plus grand remerciement est du a` ma femme Lina qui m’a motive´ quand j’en avait marre, qui m’a pousse´ quand je trainait les pieds et qui a toujours et´ e´ la` pour moi. Sachant ce qui implique une thse` de doctorat, elle a non seulement consenti d’epouser´ un thesard,´ mais lui a aussi donnee´ une superbe fille. Merci ma petite Genevieve` d’avoir et´ e´ un petit rayon de soleil, toujours capable de me faire rire ou sourire, memeˆ pendant les periodes´ difficiles de redaction´ de ce document. 1 Anataxisˆ Bernhard P. Sonderegger 2 Preface Phylogenetics, the science of evolutionary relationships, is a dynamic field. In the century since Darwin proposed his theory of evolution and in the thirty years since the advent of efficient DNA sequencing, tremendous advances have been made in phylogenetic methodology. New methods of phylogenetic tree reconstruction are regularly proposed and phylogenetics is applied in ever more diverse fields of molecular and computational biology. Nevertheless, two facets of phylogenetic reconstruction remain limiting: Certain properties inherent in the data make reconstruction a non-trivial • task. These properties can be summarised as a) similarities which are not due to a common ancestor, and b) rates of evolution which differ between lineages and between sites. Phylogenetic reconstruction is an NP-hard problem. Computation time and • memory quickly become limiting as larger problems are approached. This thesis proposes a new phylogenetic reconstruction algorithm developed by Dr. Gabriel Bittar and Bernhard Sonderegger. The algorithm uses some truly novel ideas and does not easily fit into existing categories of reconstruction methods. One of its principal aims is to be able to deal with very large datasets (thousands of taxons). 3 Anataxisˆ Bernhard P. Sonderegger 4 R´esum´een franc¸ais Introduction `ala phylog´en´etique La phylogen´ etique,´ du grec phylon (‘race, tribu, clan’) et genˆetikos (‘relatif a` la naissance, la gen´ eration,´ la gen´ ese’),` est l’etude´ des relations entre objets evoluant´ dans le temps. C’est bien evidemment´ le cas des objets vivants, qui depuis pres` de 4 milliards d’annees´ sur cette planete` montrent dans l’ensemble une tendance a` la diversification (cladogen´ ese,` du grec klados, ‘arbre’ : le nombre d’especes` vivantes

View Full Text

Details

  • File Type
    pdf
  • Upload Time
    -
  • Content Languages
    English
  • Upload User
    Anonymous/Not logged-in
  • File Pages
    146 Page
  • File Size
    -

Download

Channel Download Status
Express Download Enable

Copyright

We respect the copyrights and intellectual property rights of all users. All uploaded documents are either original works of the uploader or authorized works of the rightful owners.

  • Not to be reproduced or distributed without explicit permission.
  • Not used for commercial purposes outside of approved use cases.
  • Not used to infringe on the rights of the original creators.
  • If you believe any content infringes your copyright, please contact us immediately.

Support

For help with questions, suggestions, or problems, please contact us