Entwicklung Einer Software Zur Identifizierung Neuartiger Und
Total Page:16
File Type:pdf, Size:1020Kb
Entwicklung einer Software zur Identifizierung neuartiger und bekannter Infektionserreger in klinischen Proben Dissertation zur Erlangung des Doktorgrades an der Fakult¨at fur¨ Mathematik, Informatik und Naturwissenschaften Fachbereich Biologie der Universit¨at Hamburg vorgelegt von Malik Alawi Hamburg, 2020 Vorsitzender der Prufungskommission¨ Dr. PD Andreas Pommerening-R¨oser Gutachter Professor Dr. Adam Grundhoff Professor Dr. Stefan Kurtz Datum der Disputation 30. April 2021 Abstract Sequencing of diagnostic samples is widely considered a key technology that may fun- damentally improve infectious disease diagnostics. The approach can not only identify pathogens already known to cause a specific disease, but may also detect pathogens that have not been previously attributed to this disease, as well as completely new, previously unknown pathogens. Therefore, it may significantly increase the level of preparedness for future outbreaks of emerging pathogens. This study describes the development and application of methods for the identification of pathogenic agents in diagnostic samples. The methods have been successfully applied multiple times under clinical conditions. The corresponding results have been published within the scope of this thesis. Finally, the methods were made available to the scientific community as an open source bioinformatics tool. The novel software was validated by conventional diagnostic methods and it was compared to established analysis pipelines using authentic clinical samples. It is able to identify pathogens from different diagnostic entities and often classifies viral agents down to strain level. Furthermore, the method is capable of assembling complete viral genomes, even from samples containing multiple closely related viral strains of the same viral family. In addition to an improved method for taxonomic classification, the software offers functionality which is not present in established analysis pipelines. It is, for example, able to annotate protein domains and it performs the classification of sequences based on these annotations. The conserved, functional domains provide an additional level of evidence for the presence of putatively pathogenic agents and they may aid especially the detection of novel pathogens. Asides from the analysis of individual samples, the software can perform cohort-based analyses. In this mode cross-sample comparisons are carried out to identify sequence signatures which are overrepresented in a group of samples in comparison to a control group. This approach neither requires previous taxonomic classification nor sequence homology searches in external databases and thus enables the detection of truly novel pathogenic agents. Zusammenfassung Die Sequenzierung von diagnostischen Proben gilt als eine Schlusseltechnologie,¨ welche die Diagnostik von Infektionskrankheiten grundlegend verbessern kann. Mit diesem Ansatz k¨onnen nicht nur Infektionserreger identifiziert werden, von denen bereits bekannt ist, dass sie mit einer bestimmten Krankheit assoziiert sind, sondern auch solche, welche bisher nicht mit dieser Krankheit in Verbindung gebracht wurden. Zudem ist der Ansatz geeignet vollst¨andig unbekannte Infektionserreger zu identifizieren. Er kann daher dazu beitragen, zukunftigen¨ Ausbruchen¨ neuartiger Infektionserreger besser vorbereitet zu begegnen. Diese Studie beschreibt die Entwicklung und Anwendung von Methoden fur¨ die Identifi- zierung von Infektionserregern in diagnostischen Proben. Die Methoden wurden mehrfach erfolgreich unter klinischen Bedingungen eingesetzt und die entsprechenden Ergebnisse wurden im Rahmen dieser Doktorarbeit publiziert. Die entwickelten Methoden stehen der wissenschaftlichen Gemeinschaft in Form einer quelloffenen Software zur Verfugung.¨ Unter Verwendung klinischer Proben wurde die neue Software mit Methoden konven- tioneller Diagnostik validiert und mit etablierten bioinformatischen Analyse-Pipelines verglichen. Sie detektiert Infektionserreger aus verschiedenen diagnostischen Entit¨aten zuverl¨assig und klassifiziert virale Erreger oft bis zur Ebene des Stammes. Daruber¨ hinaus ist die Software in der Lage virale Genome vollst¨andig zu rekonstruieren. Dies gelingt sogar in Proben, welche mit mehreren nah verwandten St¨ammen infiziert sind. Zus¨atzlich zu einer verbesserten Methode der taxonomische Klassifikation, bietet die neue Software auch Funktionen, welche in etablierten Analyse-Pipelines nicht vorhanden sind. Sie ist beispielsweise in der Lage, Proteindom¨anen zu annotieren und sie kann Sequen- zen anhand dieser Annotationen klassifizieren. Als konservierte, funktionale Einheiten, k¨onnen Proteindom¨anen zus¨atzliche Evidenz fur¨ das Vorhandensein m¨oglicher Infekti- onserreger bieten. Sie k¨onnen insbesondere dabei helfen, neuartige Infektionserreger zu identifizieren. Neben der Auswertung einzelner Proben kann die Software auch kohortenbasierte Analy- sen durchfuhren.¨ In diesem Modus werden probenubergreifende¨ Vergleiche durchgefuhrt,¨ um Sequenzsignaturen zu identifizieren welche in einer Gruppe von Proben im Ver- gleich zu einer Kontrollgruppe uberrepr¨ ¨asentiert sind. Dieser Ansatz erfordert weder eine vorangegangene taxonomische Zuordnung, noch Homologie zu bereits beschriebenen Sequenzen. Er erm¨oglicht somit den Nachweis g¨anzlich neuartiger Infektionserreger. Inhaltsverzeichnis 1 Einleitung1 1.1 Molekularbiologische Methoden zum Nachweis von Infektionserregern in klinischen Proben . .1 1.2 Amplikon-basierte Sequenzanalysen . .2 1.2.1 Nachweis und Quantifizierung prokaryotischer und eukaryotischer Infektionserreger mittels ribosomaler RNA . .2 Detektion viraler Infektionserreger mittels Multiplex-PCR . .5 1.3 Metagenom und Metatranskriptom Analysen . .6 1.3.1 Taxonomischen Klassifikation kurzer Sequenzen . .6 Alignment-basierte Analysen . .6 Alignment-freie Analysen . .8 Taxonomische Klassifikation von Contigs und Scaffolds . 10 Zielsetzung . 12 2 Im Rahmen der Promotion entstandene Publikationen 15 3 Diskussion 21 3.1 Auswertung klinischer Proben mit DAMIAN . 22 3.1.1 Module der Auswertung . 23 Verifikation der Eingabedaten . 23 Qualit¨atsprufung¨ und -kontrolle . 23 Digitale Subtraktion und approximative Quantifizierung . 25 Assemblierung und Erfassung der Eigenschaften von Contigs . 26 Funktionelle Annotation und Ranking von Contigs . 26 Taxonomische Zuordnung . 26 Erstellung von Ergebnisberichten . 27 Kohortenanalyse . 28 3.1.2 Integrierte Funktionalit¨at zum Verteilten Rechnen . 30 Inhaltsverzeichnis 3.2 Ausblick . 31 3.2.1 Integrierte Software . 31 3.2.2 Gesonderte Prozessierung von l¨angeren Reads . 32 3.2.3 Benutzungsschnittstelle und Ergebnisberichte . 33 3.2.4 Klassifikation anhand von 16S-, ITS- oder anderen Marker-Genen 33 3.3 Auswertung eines COVID-19 Datensatzes . 34 Literatur 39 4 Appendix 45 1 Einleitung Ziel der vorliegenden Arbeit ist die Entwicklung von Methoden zur Detektion von In- fektionserregern in klinischen Proben. Die entwickelten Methoden wurden implementiert und der Offentlichkeit¨ als quelloffene Software zur freien Nutzung und Weiterentwicklung zur Verfugung¨ gestellt [1]. Im Folgenden werden zun¨achst etablierte Methoden zur Detektion von Infektionserregern betrachtet. Der Fokus wird dabei auf Methoden gelegt, welche auf der Sequenzierung von Nukleins¨auren beruhen, denn zu ihnen z¨ahlen auch die in dieser Arbeit entwickelten Methoden. Am Ende der Einleitung wird die Zielsetzung dieser Arbeit im Kontext der be- stehenden Ans¨atze erl¨autert und es wird beschrieben, welche zus¨atzlichen Anforderungen eine Software erfullen¨ muss. 1.1 Molekularbiologische Methoden zum Nachweis von Infektionserregern in klinischen Proben In der klinischen Diagnostik von Infektionskrankheiten wurden kulturbasierte Nachweis- verfahren weitgehend von molekularbiologischen Methoden abgel¨ost [2]. Insbesondere auf Nukleins¨auren basierte molekularbiologische Methoden haben in der mi- krobiologischen Diagnostik einen hohen Stellenwert eingenommen, da sie sensitiv, schnell und kostengunstig¨ sind. Meist basieren sie auf der gezielte Amplifikation bestimmter Molekule¨ und sie setzen keine Anzucht der Infektionserregers voraus. Dies ist ein erheb- licher Vorteil gegenuber¨ anderen, ebenfalls sensitiven, diagnostischen Verfahren, zumal sich nicht alle Erreger anzuchten¨ lassen. Wie auch mit klassische diagnostische Methoden, l¨asst sich mit auf Nukleins¨auren basier- ten molekularbiologischen Methoden sensitiv und spezifisch prufen,¨ ob ein bestimmter Infektionserreger in einer Probe vorhanden ist oder nicht. Es ist also vorab zu entschei- den, auf welche Infektionserreger eine Probe zu untersuchen ist. Daher bleiben diese 1 1 Einleitung Methoden auf solche F¨alle beschr¨ankt, bei denen aus der Klinik eines Patienten eindeu- tige Ruckschl¨ usse¨ auf die m¨ogliche Anwesenheit bestimmter Infektionserreger abgeleitet werden k¨onnen. Hinzu kommt, dass bei h¨aufig vorkommende Syndromen, wie Pneumo- nie, Sepsis und Enzephalitis, verschiedene Pathogene kaum unterscheidbare Symptome verursachen [3]. Diesem Umstand kann dadurch Rechnung getragen werden, dass gr¨oßere diagnostische Arrays fur¨ h¨aufig auftretende Pathogene verwendet werden. Der inh¨arente Bias der molekularbiologischen Methode bleibt dabei aber grunds¨atzlich weiter bestehen. Sollte im ersten Untersuchungsschritt kein Infektionserreger detektiert werden, so k¨onnen zus¨atzlich aufw¨andige Nachuntersuchungen notwendig werden. 1.2 Amplikon-basierte Sequenzanalysen Zusammen mit den molekularbiologischen Methoden werden zunehmend auch bioinfor- matische Methoden eingesetzt. Hierzu