Network Modeling of Lateral Inheritance in Genome and Language Evolution
Total Page:16
File Type:pdf, Size:1020Kb
Network Modeling of Lateral Inheritance in Genome and Language Evolution Inaugural-Dissertation For the attainment of the title of Doctor in the Faculty of Mathematics and Natural Sciences at the Heinrich Heine University Düsseldorf presented by Shijulal Nelson-Sathi from Thiruvananthapuram, India Düsseldorf, June 2013 From the Institute of Molecular Evolution at the Heinrich Heine University Düsseldorf Published by permission of the Faculty of Mathematics and Natural Sciences at Heinrich Heine University Düsseldorf Supervisor: Prof. Dr. William F. Martin Co-supervisor: Prof. Dr. Tal Dagan Date of the oral examination: 05.07.2013 Statement of authorship I hereby certify that this dissertation is the result of my own work. No other person’s work has been used without due acknowledgement. This dissertation has not been submitted in the same or similar form to other institutions. I have not previously failed a doctoral examination procedure. Shijulal Nelson-Sathi i To my Amma ii "The formation of different languages and of distinct species and the proofs that both have been developed through a gradual process, are curiously parallel" - Charles Darwin, "The Descent Of Man, 1871, Chapter 3, pp 79" iii Summary Recent advances in genomics and linguistics have generated vast data that provide a useful benchmark to study micro- and macro- evolutionary processes. Several evolutionary process such as recombination, hybridization, genome fusions and lateral gene transfer/horizontal gene transfer (LGT or HGT) in genome evolution are fundamentally non-treelike in nature. Analogies for all major evolutionary processes in genome evolution are also recognized in language evolution. Consequently, networks, in addition to bifurcating trees, become an essential tool for modeling conflicting signals and evolutionary complexity in genomic and linguistic research. Studying genome and language evolution using phylogenetic networks traces both vertical as well as lateral component during their evolution. Because similar evolutionary processes shaped both genome and language evolution into contemporary forms, it is also possible to use methods that are developed to study genome evolution to study language evolution. In the course of this thesis the frequency and impact of lateral transfers during the evolution of genomes (Haloarchaea) and languages (Indo- European and Polynesian) were investigated. Phylogenomic networks were reconstructed using genomes or languages as nodes and their evolutionary relationships as edges. The evolution of ten halorarchaeal genomes using a phylogenomic network approach with respect to 1,143 eubacterial reference genomes identified extensive inter domain LGT during haloarchaeal genome evolution. The results exemplify the role of LGT in transforming a strictly anaerobic, chemolithoautotropic methanogen into a heterotrophic, oxygen- respiring and bacteriorhodopsin-photosythetic organism. In the second and third studies presented here, the evolutionary history of 84 Indo-European and 33 Polynesian languages were examined. In both cases reconstructed phylogenomic networks identified a higher frequency of lexical borrowings than previously thought. Modeling genome and language evolution using phylogenomic networks opens up new insights and provides more precise quantitative inferences about both vertical and lateral components during evolution. iv Zusammenfassung Jungstë Fortschritte in der Genomik und den Sprachwissenschaften haben eine Flut an Daten generiert welche eine gute Grundlage bieten, um kleinere und größere evolutionäre Prozesse zu studieren. Viele dieser Prozesse, wie Rekombination, Hybridisierung, Genomfusionen und horizontaler Gentransfer, lassen sich aufgrund ihrer Natur nicht durch bifurkierende Bäume darstellen. Fur̈ alle wichtigen evolutionären Prozesse innerhalb der Genomik wurden auch analoge Prozesse in der Evolution der Sprachen gefunden. Dementsprechend sind Netzwerke, nach bifurkierenden Bäumen, essentielle Werkzeuge, um widerspruchlichë Signale und evolutionäre Komplexität in den beiden Wissenschaften darzustellen. Bei der Untersuchung der Evolution von Genomen und der Geschichte von Sprachen sichert der Gebrauch von phylogenetischen Netzwerken, dass nicht nur die vertikale sondern auch die horizontale Komponente der evolutionären Prozesse erfasst wird. Aufgrund ihrer Ähnlichkeiten ist es möglich, Methoden, die zur Untersuchung der Genomevolution entwickelt wurden, auch zu verwenden, um die Geschichte von Sprachen zu untersuchen. Im Verlauf dieser Arbeit wurde die Häufigkeit und der Einfluss lateralen Transfers auf die Evolution mehrerer bakterieller Genome (Halobakterien) und mehrerer Sprachen (indogermanische und polynesische Sprachen) untersucht. Fur̈ diesen Zweck wurden phylogenetische Netzwerke erstellt, deren Knoten Genome bzw. Sprachen repräsentieren, und deren Kanten die evolutionäre Beziehung zwischen Genomen bzw. Sprachen darstellen. Zuerst wurde die Evolution von zehn halobakteriellen Genomen studiert. Durch einen Vergleich mit 1.143 eubakteriellen Genomen wurde eine hohe Häufigkeit an lateralen Gentransferprozessen zwischen den beiden Domänen gefunden. Anhand der Ergebnisse wird beispielhaft die Rolle lateralen Gentransfers erklärt, welcher ein strikt anaerobes, chemolithoautotrophes und methanogenes Archaeum, in einen heterotrophen, Sauerstoff atmenden und bacteriorhodopsin-photosynthetischen Organismus transformiert. In zwei weiteren Studien, welche hier präsentiert werden, wurde der evolutionäre Hintergrund von 84 Indoeuropäischen und 33 v Polynesischen Sprachen untersucht. In beiden Fällen wiesen phylogenetische Netzwerke auf einen viel höheren Grad an lexikalischer Entlehnung hin, als bisher angenommen wurde. Die Darstellung von Genomevolution und Sprachgeschichte mit Hilfe von phylogenetischen Netzwerken gewährt neue und quantitative Einblicke in die Bedeutung der vertikalen sowie der horizontalen Komponente evolutionärer Prozesse. vi Publications included in this thesis Nelson-Sathi S, Dagan T, Landan G, Janssen A, Steel M, McInerney JO, Deppenmeier U, Martin WF (2012) Acquisition of 1,000 eubacterial genes physiologically transformed a methanogen at the origin of Haloarchaea. Proc Natl Acad Sci U S A 109:20537-20542. Nelson-Sathi S, List JM, Geisler H, Fangerau H, Gray RD, Martin W, Dagan T (2011) Networks uncover hidden lexical borrowing in Indo-European language evolution. Proc Roy Soc Lond B 278:1794-1803. Nelson-Sathi S, List JM, Greenhill S, Geisler H, Cohen O, Pupko T, Landan G, Martin WF, Dagan T, Gray RD (2013) Polynesian language networks reveal complex history of contacts during the Pacific settlement (submitted). Additional publications Sousa FL , Thiergart T, Landan G, Nelson-Sathi S, Pereira IAC, Allen, JF, Lane N, Martin WF (2013) Early bioenergetic evolution. Phil Trans Roy Soc Lond B 368:20130088. List J-M, Nelson-Sathi S, Martin WF, Geissler H (2013) Using phylogenetic networks to model Chinese dialect history (Submitted). Shijulal Nelson-Sathi, Ovidiu Popa, Johann-Mattis List, Hans Geisler, William F. Martin, and Tal Dagan (2013) in Classification and Evolution in Biology, Linguistics and the History of Science. Concepts – Methods – Visualization, eds Fangerau H, Geisler H, Halling T, Martin W (Steiner, Stuttgart) (Book Chapter, In Press). vii Table of Contents 1. Introduction .............................................................................................................. 1 1.1 Similarities between genome and language evolution ................................ 2 1.2 Lateral component of genome and language evolution .............................. 2 1.2.1 Lateral gene transfers (LGTs) in microbial genome evolution ............. 4 1.2.2 Borrowings in language evolution ........................................................... 6 1.3 Networks to study lateral transfers in genome and language evolution .. 8 2. Aim of the thesis .................................................................................................... 10 3. Publications ............................................................................................................ 11 3.1 Acquisition of 1,000 eubacterial genes physiologically transformed a methanogen at the origin of Haloarchaea ..................................................... 11 3.2 Networks uncover hidden lexical borrowing in Indo-European language evolution .......................................................................................... 18 3.3. Polynesian language networks reveal complex history of contacts during the Pacific settlement ........................................................................... 29 4. Summary of the results ......................................................................................... 38 5. Discussion ............................................................................................................... 40 6. References ............................................................................................................... 41 7. Appendix ................................................................................................................ 46 7.1 Abbreviations ................................................................................................... 46 7.2 Supplementary material ................................................................................. 47 7.3 Conferences and Workshops ......................................................................... 77 7.4 Acknowledgements ........................................................................................