Reducing the Complexity of OMICS Data Analysis
Total Page:16
File Type:pdf, Size:1020Kb
Julius-Maximilians-Universität Würzburg Reducing the complexity of OMICS data analysis Dissertation zur Erlangung des naturwissenschaftlichen Doktorgrades der Julius-Maximilians-Universität Würzburg Vorgelegt von Beat Wolf aus Fribourg, CH, 2017 Eingereicht am: 5 April 2017 bei der Fakultät für Mathematik und Informatik 1. Gutachter: Prof. Dr. Thomas Dandekar 2. Gutachter: Prof. Dr. Pierre Kuonen Tag der mündlichen Prüfung: 31 August 2017 Summary The field of genetics faces a lot of challenges and opportunities in both research and diag- nostics due to the rise of next generation sequencing (NGS), a technology that allows to sequence DNA increasingly fast and cheap. NGS is not only used to analyze DNA, but also RNA, which is a very similar molecule also present in the cell, in both cases producing large amounts of data. The big amount of data raises both infrastructure and usability problems, as powerful computing infrastructures are required and there are many manual steps in the data analysis which are complicated to execute. Both of those problems limit the use of NGS in the clinic and research, by producing a bottleneck both computationally and in terms of manpower, as for many analyses geneticists lack the required computing skills. Over the course of this thesis we investigated how computer science can help to improve this situation to reduce the complexity of this type of analysis. We looked at how to make the analysis more accessible to increase the number of people that can perform OMICS data analysis (OMICS groups various genomics data-sources). To approach this problem, we developed a graphical NGS data analysis pipeline aimed at a diagnostics environment while still being useful in research in close collaboration with the Human Genetics Depart- ment at the University of Würzburg. The pipeline has been used in various research papers on covering subjects, including works with direct author participation in genomics, tran- scriptomics as well as epigenomics. To further validate the graphical pipeline, a user survey was carried out which confirmed that it lowers the complexity of OMICS data analysis. We also studied how the data analysis can be improved in terms of computing infrastruc- ture by improving the performance of certain analysis steps. We did this both in terms of speed improvements on a single computer (with notably variant calling being faster by up to 18 times), as well as with distributed computing to better use an existing infrastructure. The improvements were integrated into the previously described graphical pipeline, which itself also was focused on low resource usage. As a major contribution and to help with future development of parallel and distributed applications, for the usage in genetics or otherwise, we also looked at how to make it easier to develop such applications. Based on the parallel object programming model (POP), we created a Java language extension called POP-Java, which allows for easy and transpar- ent distribution of objects. Through this development, we brought the POP model to the cloud, Hadoop clusters and present a new collaborative distributed computing model called FriendComputing. The advances made in the different domains of this thesis have been published in various works specified in this document. i Zusammenfassung Das Gebiet der Genetik steht vor vielen Herausforderungen, sowohl in der Forschung als auch Diagnostik, aufgrund des "next generation sequencing" (NGS), eine Technologie die DNA immer schneller und billiger sequenziert. NGS wird nicht nur verwendet um DNA zu analysieren sondern auch RNA, ein der DNA sehr ähnliches Molekül, wobei in beiden Fällen große Datenmengen zu erzeugt werden. Durch die große Menge an Daten entstehen Infrastruktur und Benutzbarkeitsprobleme, da leistungsstarke Computerinfrastrukturen er- forderlich sind, und es viele manuelle Schritte in der Datenanalyse gibt die kompliziert auszuführen sind. Diese beiden Probleme begrenzen die Verwendung von NGS in der Klinik und Forschung, da es einen Engpass sowohl im Bereich der Rechnerleistung als auch beim Personal gibt, da für viele Analysen Genetikern die erforderlichen Computerkenntnisse fehlen. In dieser Arbeit haben wir untersucht wie die Informatik helfen kann diese Situation zu verbessern indem die Komplexität dieser Art von Analyse reduziert wird. Wir haben angeschaut, wie die Analyse zugänglicher gemacht werden kann um die Anzahl Personen zu erhöhen, die OMICS (OMICS gruppiert verschiedene Genetische Datenquellen) Daten- analysen durchführen können. In enger Zusammenarbeit mit dem Institut für Humangenetik der Universität Würzburg wurde eine graphische NGS Datenanalysen Pipeline erstellt um diese Frage zu erläutern. Die graphische Pipeline wurde für den Diagnostikbereich entwickelt ohne aber die Forschung aus dem Auge zu lassen. Darum warum die Pipeline in verschiede- nen Forschungsgebieten verwendet, darunter mit direkter Autorenteilname Publikationen in der Genomik, Transkriptomik und Epigenomik, Die Pipeline wurde auch durch eine Be- nutzerumfrage validiert, welche bestätigt, dass unsere graphische Pipeline die Komplexität der OMICS Datenanalyse reduziert. Wir haben auch untersucht wie die Leistung der Datenanalyse verbessert werden kann, damit die nötige Infrastruktur zugänglicher wird. Das wurde sowohl durch das optimieren der verfügbaren Methoden (wo z.B. die Variantenanalyse bis zu 18 mal schneller wurde) als auch mit verteiltem Rechnen angegangen, um eine bestehende Infrastruktur besser zu verwenden. Die Verbesserungen wurden in der zuvor beschriebenen graphischen Pipeline integriert, wobei generell die geringe Ressourcenverbrauch ein Fokus war. Um die künftige Entwicklung von parallelen und verteilten Anwendung zu unterstützen, ob in der Genetik oder anderswo, haben wir geschaut, wie man es einfacher machen könnte solche Applikationen zu entwickeln. Dies führte zu einem wichtigen informatischen Result, in dem wir, basierend auf dem Model von „parallel object programming“ (POP), eine Erweiterung der Java-Sprache na- mens POP-Java entwickelt haben, die eine einfache und transparente Verteilung von Ob- jekten ermöglicht. Durch diese Entwicklung brachten wir das POP-Modell in die Cloud, Hadoop-Cluster und präsentieren ein neues Model für ein verteiltes kollaboratives rechnen, FriendComputing genannt. Die verschiedenen veröffentlichten Teile dieser Dissertation werden speziel aufgelistet und diskutiert. ii Acknowledgment For this thesis to happen and finish I have to thank numerous people and institutions. First and foremost I would like to thank Prof. Pierre Kuonen for not only giving me the opportunity to make this dissertation, but encouraging me to do so and giving me the best environment possible. I would also like to thank Prof. Thomas Dandekar for supervising my thesis, giving me precious advice and guidance in the field of bioinformatics. A big thanks goes also to Dr. David Atlan, that gave me the opportunity to perform this thesis with a very practical oriented approach, making it possible for much of my work being used in real laboratories across Europe. Having my work being used on a daily basis in a diagnostics environment was a major motivational force throughout the thesis. I would also like to thank Prof. Clemens Müller Reible and Prof. Simone Rost of the Institute of Human Genetics in Würzburg, for following my thesis with so much interest, giving me advice and most importantly for their trust in my work, introducing it in their laboratory to be used for the regular data analysis. I would like to thank the co-authors with which I had the opportunity to write various papers, through which I could learn a lot and get familiarized with many topics. Without them, much of my work would be theoretical with no practical implications. Having me supported me throughout the thesis, I also want to thank especially my girlfriend Gaëlle Kolly. A special thanks also goes to my parents, which made it possible to follow a research career. Last but not least I would also like to thank the University of Würzburg and the Univer- sity of Applied Sciences and Arts Western Switzerland for accepting me for my PhD. I’m grateful for having had the opportunity to make my PhD through a collaboration of two Universities, one more focused on the academic side and the other on the practical side. iii Contents 1. Introduction1 1.1. Motivation and scope . .1 1.2. Contributions . .3 1.3. Thesis outline . .4 I. Foundations5 2. Genetics6 2.1. Introduction . .6 2.1.1. Genetic code . .9 2.1.2. Next generation sequencing . 12 2.2. Summary . 16 3. OMICs data analysis 18 3.1. Genomics . 18 3.1.1. State of the art . 21 3.2. Transcriptomics . 27 3.2.1. State of the art . 29 3.3. Epigenomics . 31 3.3.1. State of the art . 33 3.4. File-formats . 35 3.5. Summary . 37 4. Diagnostics 39 4.1. Introduction . 39 4.2. Genetic disorders . 41 4.3. Software requirements . 43 4.4. Summary . 45 5. Parallel & distributed computing 46 5.1. Introduction . 46 5.2. History . 47 5.3. State of the art . 50 5.3.1. CPU . 50 5.3.2. GPGPU . 51 5.3.3. Distributed computing . 52 5.4. Summary . 53 iv Contents CONTENTS II. Methods 54 6. Graphical pipeline 55 6.1. Introduction . 55 6.2. Prototype . 56 6.3. Methods . 57 6.4. User interface . 58 6.5. Project management . 59 6.6. Annotations . 60 6.7. Data analysis . 62 6.7.1. Quality control . 62 6.7.2. Sequence alignment . 62 6.7.3. Coverage analysis . 64 6.7.4. Variant analysis . 65 6.7.5. Variant comparator . 68 6.7.6. Copy number variations . 70 6.7.7. Distribution . 71 6.8. Discussion . 72 7. Data analysis 73 7.1. Sequence alignment . 73 7.1.1. Introduction . 73 7.1.2. State of the art . 74 7.1.3. Methods . 75 7.1.4. Results . 80 7.1.5. Summary . 85 7.2. Meta-Alignment . 86 7.2.1. Introduction . 86 7.2.2. Method . 87 7.2.3. Results . 89 7.2.4. Summary . 92 7.3. Variant calling . 94 7.3.1. Introduction . 94 7.3.2.