Dissfernando.Pdf
Total Page:16
File Type:pdf, Size:1020Kb
��������� ������������� ����������� ��� ��������� ��� ������������ ������ ����� ������� ��� ����������������������� ��� ��� �������� ��� ���������� ��� ���������� ��������� ��� ����������� ����� ���������� ������������ ��� �������� ������������������ ���������� ������� ��� ��� ���������� �������� ���������� ������ ���������� ����� ��� ��������������������� ������� ���������� ����� ��� ����� ��� �������� ����������������������������������� �������������������������������������������������������� ������������������������������������������������������������������������������������������� ������������������������������������������� ������������������������������������������������������������������������������������������������� ��������� ����������������������������������������������������������������������������� ������������������������������������� Zusammenfassung Phylogenetische B¨aume stellen evolution¨aren Beziehungen zwischen verschie- denen Organismen (Arten) dar, die vermutlich gemeinsame Vorfahren haben Au!ere¨ Knoten eines #hylogenetischen Baumes (taxa) bezeichnen lebendi- ge Arten, fur¨ die molekulare Daten verfugbar¨ sind oder sequenziert werden %¨onnen Innere Knoten bezeichnen hypothetische ausgestorbene Arten, fur¨ die in der Regel %eine Daten'uelle zur Verfugung¨ steht In den letzten Jahren hat sich das +eld durch die ,infuhrung¨ von sogen- nanten -./ (Next-Generation-/equencing) Methoden dramatisch ge¨andert &iese 0ethoden, die sich rasch etablierten, erlauben einen erh¨ohten Durch- satz. Aus diesem .rund wachsen aktuelle molekulare &atenban%en schneller als vom mooreschen Gesetz vorhergesagt &adurch entsteht die Herausforde- rung, solche große molekulare &atenmengen effizient zu analysieren &ie 0aximum-Likelihood Baumrekonstru%tion versucht, den Baum mit dem h¨ochsten 3i%elihood score fur¨ ein bestimmtes /equenzalignment (in#ut) zu 4nden Von /eiten der Informati% besteht die Herausforderung darin, die Phylogenetic 3i%elihood +unction (P3F) zum Bewerten alternativer 5o#olo- gien effizient zu berechnen In dieser Arbeit besch¨aftigen wir uns mit der Untersuchung und Entwic%- lung von Methoden, die diese Aufgabe, im Zusammenhang mit groß angeleg- ten &atens¨atzen, erleichtern %¨onnen Wir #r¨asentieren drei unterschiedliche Ans¨atze hierfur9¨ den /#eicherbedarf der PL+ +unktion zu verringern, 3auf- zeiten zu reduzieren und die Automatisierung #hylogenetischer Analysen Verringerung des Speicherbedarfs der PLF Funktion 8ir entwic%el- ten drei 0ethoden, die den /#eicherbedarf fur¨ Zwischenergebnisse ver- ringern %ann &ie (i) out-of-core und die (ii) recomputation haben miteinander gemeinsam, dass nur ein 5eil der Zwischenergebnisse im Hau#tspeicher gespeichert werden muss &ie restlichen 7wischenergeb- nisse werden entweder auf der +est#latte (out-of-core) gespeichert oder erneut berechnet (recomputation trade-off) Unsere Auswertungen deuten darauf hin, dass der recomputation An- satz (trade-off) deutlich effizienter ist, da er fur¨ ty#ische Datens¨atze den i /#eicherbedarf halbiert zu 3asten einer um ;<= erh¨ohten 3aufzeit &ie dritte Methode wird /EV (/ubtree ,'uality Vectors) genannt und reduziert den /#eicherbedarf nahezu #ro#ortional zum Anteil fehlen- der Daten im Datensatz ohne die 3aufzeit zu erh¨ohen Im allgemeinen %¨onnen diese Methoden gleichzeitig eingesetzt werden Reduzierung von Laufzeiten Wir #ortierten die PL+ Im#lementierung auf GPUs mit O#en>3 &abei #assten wir das /#eicherlayout an, um eine o#timale .PU 3eistung zu erreichen Unsere Auswertungen zeigen, dass fur¨ ausreichend lange &atens¨atze, die Verlagerung von Berech- nungen auf die .PU bis zu zweimal schneller als der am effizientesten vektorisierte CPU-Code sein %ann Aus einer algorithmischen Perspektive haben wir den sogenannten Back- bone Algorithm, der den /uchraum aller m¨oglichen B¨aume beschr¨ankten %ann, entwic%elt &ie Anwendung dieser Methode %ann die 3aufzeit bis zu ?<= verringern und liefert dabei B¨aume, die statistisch vergleichbar sind mit denen, die ohne /uchraumbeschr¨ankungen gefunden werden Automatisierung phylogenetischer Analysen Der letzte 5eil dieser Ar- beit besch¨aftigt sich mit dem Problem, dass vorhandene #hylogeneti- sche B¨aume nach kurzer Zeit nicht mehr die aktuellsten &aten aus den schnell wachsenden &atenban%en widers#iegeln 8ir entwic%elten ein +ramewor% namens PUmPER (Phylogenies 6#dated P,)#ertual- ly) Mit PUmPER% ¨onnen Pi#elines erstellt werden, die iterativ neue /equenzalignments assemblieren und B¨aume aus vorherigen Iteratio- nen erg¨anzen &as +ramewor% %ann entweder als stand-alone #i#eline %on4guriert werden oder rechenintensive Aufgaben auf einem Cluster ausfuhren¨ Obwohl die in dieser Arbeit beschriebene Methoden als #roof-of-concept innerhalb der RAx03 codebase im#lementiert wurden, sind diese Metho- den nichtsdestotrotz relativ einfach in anderen state-of-the-art 3i%elihood- basierten Codes im#lementierbar Im allgemeinen erwarten wir, dass diese Methoden hilfreich sind, um aktuelle #hylogenetische Anwendungen besser zu skalieren und dadurch auch #hylogenetische Analysen erm¨oglichen, die auf %om#letten .enomen basieren ii Acknowledgements This research #roject would not have been #ossible without the su##ort of many #eople. ( wish to e$#ress my gratitude to my su#ervisor, Prof. &r Alexandros /tamatakis who was abundantly hel#ful and offered invaluable assistance, su##ort and dedicated guidance. Deepest gratitude also to Prof &r Arndt von Haeseler without whose knowledge and assistance this study would not have been successful ( addition ( would like to ex#ress my sin- cere gratitude to Casey Dunn, /tephen A. /mith, and John Cazes for %indly hosting me at their lab during my research stay at Brown University /#ecial thanks also to all my collaborators and fellow grou# members; Ni%os Alachi- otis, /imon Berger, Andre Aberer, Pavlos Pavlidis, /olon P Pissis, 5omas Flouri, &ilrini de /ilva, Paschalia Kapli, Kassian Kobert, Jiajie Zhang and Alexey Kozlov for being an always-collaborative and helpful grou# ( would li%e to than% my #arents, brothers and family for their uncondi- tional su##ort, as well as my friends from Valladolid and &eggendorf, who have always stood by me during my time in Heidelberg. 3ast but not least, my dearest thanks to Beifei for being an endless source of encouragement and inspiration This wor% was funded via the .erman /cience +oundation (&+G) grants /5A BC<DE and /5A BC<DF Part of this wor% used resources #rovided by the iPlant Collaborative (funded by -/+ grant GDBI-0HF?;I1) iii ontents Zusammenfassung i Acknowledgements iii ! "ntroduction ! ; ; Motivation ; ; E /cienti4c Contribution E ; F /tructure of this thesis J # Computational Molecular Phylogenetics % E ; /tatistical 0odels of Evolution ? E E /equence Alignment H E E ; Pairwise /equence Alignment B E E E 0ulti#le /equence Alignment I E F Phylogenetic 5rees ;; E J 5ree )econstruction Methods ;E E ? Com#uting the 3i%elihood of a 5ree ;? E ? ; Accounting for rate heterogeneity ;I E C Maximum 3i%elihood 5ree /earch E; E H Phylogenetic 3ikelihood 3ibrary EJ E B RAx03-family im#lementation concepts E? E B ; Node records E? E B E Internal tree nodes E? E B F &ata structure for 5rees EC E B J Com#uting the li%elihood on a 5ree EH E B ? O#timizing branch lengths EI & Memory-Saving (echniques &! F ; Memory requirements for the PL+ FE F E Out-of-Core FF F E ; )elated 8or% FJ iv F E E Com#uting the PL+ Out-of-Core FJ F E F ,$#erimental /etu# K Results FI F F Recom#utation of Ancestral Vectors JJ F F ; )ecom#utation of Ancestral Probability Vectors J? F F E ,$#erimental /etu# and )esults ?J F F F ,valuation of traversal overhead ?C F J /ubtree ,'uality Vectors ?B F J ; .ap#y /ubtree ,'uality Vectors ?B F J E .eneration of Biological 5est &atasets C; F J F /EV Performance CE F ? /ummary CF * The +ackbone Algorithm ,% J ; Constraining tree search to a bac%bone tree C? J E Algorithm CC J E ; /tarting tree CH J E E Ti# Clustering CB J E F Bac%bone construction H; J E J Bac%bone-constrained 5ree /earch HF J F Evaluation and )esults HJ J F ; Performance HJ J F E /imulated &atasets (Accuracy) HB J J /ummary HB % "ntroduction to -PU Programming /0 ? ; Overview HI ? E >6&A B< ? E ; >6&A Hardware and Architecture B< ? E E >6&A Programming Model BE ? E F Performance Considerations BE ? F O#en>3 BJ ? F ; O#en>3 #erformance #ortability B? , GP. implementation of Phylogenetic 1ernels 2, C ; Related wor% BH C E Generic Vectorization BB C F GP6 Im#lementation I; C F ; Kernel Im#lementation IE C F E .PU 0emory Organization IJ C F F O#en>3 Im#lementation I? C J ,$#erimental setu# and results IC v C ? /ummary ;<< / Perpetual Phylogenies with PUmPER !4! H ; Related 8or% ;<E H E +ramewor% Overview ;<F H E ; 0/A ConstructionD,$tension with P13A8& ;<? H E E Phylogenetic Inference ;<H H E F 0anual and automatic tree u#dates ;<B H F /oftware and Availability ;<B H F ; /tandalone im#lementation ;;< H F E &istributed im#lementation ;;< H F F Custom iPlant setu# ;;; H J Evaluation and )esults ;;F H J ; Biological exam#les ;;F H J E /imulated &ata ;;I H ? Discussion ;E; H C /ummary ;E; 2 Conclusion And 5utlook !## B ; Conclusion ;EE B E +uture 8or% ;EF B E ; .PUs ;EF B E E PUmPER ;EJ B F Outloo% ;EJ List of Figures !#, List of (ables !#2 List of Acronyms !#0 +ibliography !&4 vi hapter ! "ntroduction !6! Motivation The landscape of genomics and #hylogenetics has changed dramatically since the irru#tion of Next-.eneration /equencing (-./) technologies LH?M As a consequence of the through#ut increases, the amount of data accumu- lated in molecular databases %eeps growing