Anna Katharina Dehof Novel Approaches for Bond Order Assignment and NMR Shift Prediction

Anna Katharina Dehof Novel Approaches for Bond Order Assignment and NMR Shift Prediction Novel Approaches for Bond Order Assignment and NMR Shift Prediction Dissertation zur Erlangung des Grades eines Doktors der Naturwissenschaften (Dr. rer. nat.) der Naturwissenschaftlich–Technischen Fakultät I – Mathematik und Informatik – der Universität des Saarlandes vorgelegt von Anna Katharina Dehof, M.Sc. Saarbrücken 2011 c 2011 Anna Katharina Dehof Covergestaltung und Titelbild: c 2011 Anna Katharina Dehof, BALL developer team, http://www.ball-project.org Herstellung und Verlag: Books on Demand GmbH, Norderstedt ISBN 978-3-8482-0773-2 Bibliografische Informationen der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliographie; detaillierte bibliografische Daten sind im Internetuber ¨ http://dnb.d-ndb.de abrufbar. Tag des Kolloquiums 15.03.2012 Dekan Prof. Dr. Holger Hermanns Berichterstatter Prof. Dr. Hans-Peter Lenhof Prof. Dr. Sebastian Böcker Vorsitz Prof. Dr. Philipp Slusallek Akad. Mitarbeiter Dr. Oliver Müller Eidesstattliche Versicherung Hiermit versichere ich an Eides statt, dass ich die vorliegende Arbeit selbstständig und ohne Benutzung anderer als der angegebenen Hilfsmittel angefertigt habe. Die aus anderen Quellen oder indirekt ubernommenen¨ Daten und Konzepte sind unter Angabe der Quelle gekennzeichnet. Die Arbeit wurde bisher weder im In- noch im Ausland in gleicher oder ähnlicher Form in einem Verfahren zur Erlangung eines akademischen Grades vorgelegt. Saarbrücken, den 17. November 2011 (Anna Katharina Dehof) Abstract Molecular modelling is one of the cornerstones of modern biological and pharmaceutical research. Accurate modelling approaches easily become computationally overwhelming and thus, different levels of approximations are typically employed. In this work, we develop such approximation approaches for problems arising in structural bioinformatics. A fundamental approximation of molecular physics is the classification of chemical bonds, usually in the form of integer bond orders. Many input data sets lack this information, but several problems render an automated bond order assignment highly challenging. For this task, we develop the BOA Constructor method which accounts for the non-uniqueness of solutions and allows simple extensibility. Testing our method on large evaluation sets, we demonstrate how it improves on the state of the art. Besides traditional applications, bond orders yield valuable input for the approximation of molecular quantities by statistical means. One such problem is the prediction of NMR chemical shifts of protein atoms. We present our pipeline NightShift for automated model generation, use it to create a new prediction model called Spinster, and demonstrate that it outperforms established manually developed approaches. Combining Spinster and BOA Constructor, we create the Liops-model that for the first time allows to efficiently include the influence of non- protein atoms. Finally, we describe our work on manual modelling techniques, including molecular visualization and novel input paradigms. German Abstract Molecular Modelling-Methoden gehören zu den Grundpfeilern moderner biologischer und pharmazeu- tischer Forschung. Akkurate Modelling-Methoden erfordern jedoch enormen Rechenaufwand, weshalb ublicherweise¨ verschiedene Näherungsverfahren eingesetzt werden. In dieser Arbeit entwerfen wir solche Näherungen fur¨ verschiedene Probleme aus der strukturbasierten Bioinformatik. Eine fundamentale Näherung der molekularen Physik ist die Einteilung chemischer Bindungen in wenige Klassen, meist in der Form ganzzahliger Bindungsordnungen. In vielen Datensätzen ist diese Information nicht enthalten und eine automatische Zuweisung ist hochgradig schwierig. Fur¨ diese Problemstellung entwickeln wir die BOA Constructor-Methode, die sowohl mit uneindeutigen Lösungen umgehen kann als auch vom Benutzer leicht erweitert werden kann. In umfangreichen Tests zeigen wir, dass unsere Methode dem bisherigen Stand der Forschung uberlegen¨ ist. Neben klassischen Anwendungen liefern Bindungsord- nungen wertvolle Informationen fur¨ die statistische Vorhersage molekularer Eigenschaften wie z.B. der chemischen Verschiebung von Proteinatomen. Mit der NightShift-Pipeline stellen wir ein Verfahren zur automatischen Generierung von Vorhersagemodellen vor, generieren damit das neuartige Spinster- Modell und zeigen, dass es bisherigen manuell entwickelten Verfahren uberlegen¨ ist. Die Kombination mit BOA Constructor fuhrt¨ zum sogenannten Liops-Modell, welches als erstes Modell die effiziente Berucksichtigung¨ des Einflusses von nicht-Proteinatomen erlaubt. Abschließend stellen wir unsere Ar- beiten zu manuellen Modelling-Methoden vor, welche z.B. die molekularen Visualisierung oder neue Eingabemethoden beinhalten. v German Summary Methoden des Molecular Modelling“ gehören heute zu den wichtigsten Grundpfeilern der moder- ” nen biologischen und pharmazeutischen Forschung. Dabei haben diese Techniken auch weit uber¨ die Lebenswissenschaften hinaus wichtige Anwendungsfelder, die z.B. die physikalische Chemie oder die Materialwissenschaften umfassen. Grundlage der Modelling-Methoden ist eine Betrachtung der zu untersuchenden Systeme auf molekularer, meist sogar auf atomarer Ebene. Dies erfordert im Allgemeinen eine möglichst genaue Vorhersage molekularer und atomarer Wechselwirkungen, die als Basis zur Berechnung vieler weiterer Eigenschaf- ten dienen können. Die genauesten Methoden zur Vorhersage solcher Wechselwirkungen basieren auf der Quantenmechanik und sind damit physikalisch fundiert. In der Praxis jedoch sind sie fur¨ viele biolo- gische Anwendungen erheblich zu aufwändig: Die akkurate Simulation quantenmechanischer Systeme gehört zu den größten Herausforderungen des wissenschaftlichen Rechnens. Erheblich erschwert wird die Situation durch die enorme Größe typischer biomolekularer Systeme, die oft mehrere Tausend bis mehrere Millionen Freiheitsgrade aufweisen. Da schließlich in vielen An- wendungen in der Praxis wiederum mehrere Tausend bis mehrere Millionen Auswertungen benötigt werden, mussen¨ meist Näherungsverfahren bemuht¨ werden. Dabei wird die ab-initio Simulation atomarer und molekularer Eigenschaften aus quantenmechanischen Gesetzmäßigkeiten durch approximative Modelle ersetzt, die entweder auf vereinfachten physikalischen Gesetzen, auf statistischen Inferenz- methoden oder auf einer hybriden Kombination beider beruhen. In dieser Arbeit werden wir solche Näherungsverfahren fur¨ verschiedene Probleme der strukturbasierten Bioinformatik entwickeln. Zu den grundlegendsten Näherungen an die Molekulphysik¨ gehört sicherlich die Klassifikation chemischer Bindungen in eine kleine Menge verschiedener Bindungstypen wie z.B. den Einfach-, Doppel-, Dreifach- oder Vierfach- sowie den delokalisierten oder aromatischen Bindungen. Obwohl diese Klas- sifikation die tatsächlichen Verhältnisse nicht perfekt beschreibt und viele Fälle nicht eindeutig in eine der Klassen eingeteilt werden können, hat sie sich in der Praxis hervorragend bewährt und ist in der gesamten Chemie weit verbreitet. Beim Molecular Modelling wird diese Menge von Bindungstypen jedoch typischerweise weiter redu- ziert, so dass nur noch Einfach-, Doppel-, Dreifach- und manchmal noch Vierfachbindungen betrachtet werden. In diesem Fall wird jede Bindung durch eine naturliche¨ Zahl beschrieben, die als Bindungsord- nung bezeichnet wird und Werte zwischen eins und vier annehmen kann. Diese Bindungsordnungen liegen allen Kraftfeldmethoden zugrunde, die in vielerlei Hinsicht das Ruckgrat¨ des Molecular Mo- delling bilden. In der Praxis beschreiben Bindungsordnung eine Vielzahl an Phänomenen sehr gut, doch fuhren¨ sie auch zu einer Reihe von Problemen. Das vielleicht schwerwiegendste dieser Proble- me ist die Uneindeutigkeit der Zuordnung von Bindungsordnungen zu einem gegebenen Molekul.¨ Da Bindungsordnungen nur eine recht grobe Approximation der tatsächlichen molekularen Eigenschaften darstellen, können verschiedene Effekte, wie z.B. delokalisierte oder aromatische Elektronen, nur durch Kombinationen verschiedener Bindungsordnungszuweisungen beschrieben werden. Hinzu kommt, dass die Vorhersage der Bindungsordnungen fur¨ ein gegebenes Molekul¨ ein schwieriges Problem darstellt und im allgemeinen nur uber¨ komplexe Regelsysteme, die von chemischen Experten entworfen werden, gelöst werden kann. Durch diese Probleme bleibt die automatische Zuweisung von Bindungsordnun- gen eine hochgradig schwierige Herausforderung. Andererseits enthalten viele wichtige Eingabedaten fur¨ das Molecular Modelling keine, unvollständige oder falsche Bindungsordnungen, so dass deren automatische Bestimmung eine wichtige Komponente aller Modelling-Systeme darstellt. In dieser Arbeit entwickeln wir neue Ansätze zur automatischen Zuweisung von Bindungsordnungen, diesogenauwiemöglich sind, gleichzeitig aber mit der inhärenten Uneindeutigkeit umzugehen wissen. Um sich den veränderlichen Anforderungen der Anwender und persönlichen Präferenzen anpassen zu können, erlaubt unser System die einfache Modifikation des zugrundeliegenden Regelsatzes, wenn gewunscht¨ sogar zur Laufzeit. Die Grundlage unseres Zugangs ist dabei ein Ansatz, der ursprunglich¨ fur¨ das Generalized Amber Force Field (GAFF)“ entwickelt wurde. Dieser Ansatz wurde von uns ” stark erweitert und in Form eines exakt lösbaren diskreten Optimierungsproblems neu gefasst. In dieser vi Dissertation werden wir sowohl

Load more