Anna Katharina Dehof Novel Approaches for Bond Order Assignment and NMR Shift Prediction
Total Page:16
File Type:pdf, Size:1020Kb
Anna Katharina Dehof Novel Approaches for Bond Order Assignment and NMR Shift Prediction Novel Approaches for Bond Order Assignment and NMR Shift Prediction Dissertation zur Erlangung des Grades eines Doktors der Naturwissenschaften (Dr. rer. nat.) der Naturwissenschaftlich–Technischen Fakult¨at I – Mathematik und Informatik – der Universit¨at des Saarlandes vorgelegt von Anna Katharina Dehof, M.Sc. Saarbr¨ucken 2011 c 2011 Anna Katharina Dehof Covergestaltung und Titelbild: c 2011 Anna Katharina Dehof, BALL developer team, http://www.ball-project.org Herstellung und Verlag: Books on Demand GmbH, Norderstedt ISBN 978-3-8482-0773-2 Bibliografische Informationen der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliographie; detaillierte bibliografische Daten sind im Internetuber ¨ http://dnb.d-ndb.de abrufbar. Tag des Kolloquiums 15.03.2012 Dekan Prof. Dr. Holger Hermanns Berichterstatter Prof. Dr. Hans-Peter Lenhof Prof. Dr. Sebastian B¨ocker Vorsitz Prof. Dr. Philipp Slusallek Akad. Mitarbeiter Dr. Oliver M¨uller Eidesstattliche Versicherung Hiermit versichere ich an Eides statt, dass ich die vorliegende Arbeit selbstst¨andig und ohne Benutzung anderer als der angegebenen Hilfsmittel angefertigt habe. Die aus anderen Quellen oder indirekt ubernommenen¨ Daten und Konzepte sind unter Angabe der Quelle gekennzeichnet. Die Arbeit wurde bisher weder im In- noch im Ausland in gleicher oder ¨ahnlicher Form in einem Verfahren zur Erlangung eines akademischen Grades vorgelegt. Saarbr¨ucken, den 17. November 2011 (Anna Katharina Dehof) Abstract Molecular modelling is one of the cornerstones of modern biological and pharmaceutical research. Accurate modelling approaches easily become computationally overwhelming and thus, different levels of approximations are typically employed. In this work, we develop such approximation approaches for problems arising in structural bioinformatics. A fundamental approximation of molecular physics is the classification of chemical bonds, usually in the form of integer bond orders. Many input data sets lack this information, but several problems render an automated bond order assignment highly challenging. For this task, we develop the BOA Constructor method which accounts for the non-uniqueness of solutions and allows simple extensibility. Testing our method on large evaluation sets, we demonstrate how it improves on the state of the art. Besides traditional applications, bond orders yield valuable input for the approximation of molecular quantities by statistical means. One such problem is the pre- diction of NMR chemical shifts of protein atoms. We present our pipeline NightShift for automated model generation, use it to create a new prediction model called Spinster, and demonstrate that it outperforms established manually developed approaches. Combining Spinster and BOA Constructor, we create the Liops-model that for the first time allows to efficiently include the influence of non- protein atoms. Finally, we describe our work on manual modelling techniques, including molecular visualization and novel input paradigms. German Abstract Molecular Modelling-Methoden geh¨oren zu den Grundpfeilern moderner biologischer und pharmazeu- tischer Forschung. Akkurate Modelling-Methoden erfordern jedoch enormen Rechenaufwand, weshalb ublicherweise¨ verschiedene N¨aherungsverfahren eingesetzt werden. In dieser Arbeit entwerfen wir sol- che N¨aherungen fur¨ verschiedene Probleme aus der strukturbasierten Bioinformatik. Eine fundamentale N¨aherung der molekularen Physik ist die Einteilung chemischer Bindungen in wenige Klassen, meist in der Form ganzzahliger Bindungsordnungen. In vielen Datens¨atzen ist diese Information nicht enthalten und eine automatische Zuweisung ist hochgradig schwierig. Fur¨ diese Problemstellung entwickeln wir die BOA Constructor-Methode, die sowohl mit uneindeutigen L¨osungen umgehen kann als auch vom Benutzer leicht erweitert werden kann. In umfangreichen Tests zeigen wir, dass unsere Methode dem bisherigen Stand der Forschung uberlegen¨ ist. Neben klassischen Anwendungen liefern Bindungsord- nungen wertvolle Informationen fur¨ die statistische Vorhersage molekularer Eigenschaften wie z.B. der chemischen Verschiebung von Proteinatomen. Mit der NightShift-Pipeline stellen wir ein Verfahren zur automatischen Generierung von Vorhersagemodellen vor, generieren damit das neuartige Spinster- Modell und zeigen, dass es bisherigen manuell entwickelten Verfahren uberlegen¨ ist. Die Kombination mit BOA Constructor fuhrt¨ zum sogenannten Liops-Modell, welches als erstes Modell die effiziente Berucksichtigung¨ des Einflusses von nicht-Proteinatomen erlaubt. Abschließend stellen wir unsere Ar- beiten zu manuellen Modelling-Methoden vor, welche z.B. die molekularen Visualisierung oder neue Eingabemethoden beinhalten. v German Summary Methoden des Molecular Modelling“ geh¨oren heute zu den wichtigsten Grundpfeilern der moder- ” nen biologischen und pharmazeutischen Forschung. Dabei haben diese Techniken auch weit uber¨ die Lebenswissenschaften hinaus wichtige Anwendungsfelder, die z.B. die physikalische Chemie oder die Materialwissenschaften umfassen. Grundlage der Modelling-Methoden ist eine Betrachtung der zu untersuchenden Systeme auf moleku- larer, meist sogar auf atomarer Ebene. Dies erfordert im Allgemeinen eine m¨oglichst genaue Vorhersage molekularer und atomarer Wechselwirkungen, die als Basis zur Berechnung vieler weiterer Eigenschaf- ten dienen k¨onnen. Die genauesten Methoden zur Vorhersage solcher Wechselwirkungen basieren auf der Quantenmechanik und sind damit physikalisch fundiert. In der Praxis jedoch sind sie fur¨ viele biolo- gische Anwendungen erheblich zu aufw¨andig: Die akkurate Simulation quantenmechanischer Systeme geh¨ort zu den gr¨oßten Herausforderungen des wissenschaftlichen Rechnens. Erheblich erschwert wird die Situation durch die enorme Gr¨oße typischer biomolekularer Systeme, die oft mehrere Tausend bis mehrere Millionen Freiheitsgrade aufweisen. Da schließlich in vielen An- wendungen in der Praxis wiederum mehrere Tausend bis mehrere Millionen Auswertungen ben¨otigt werden, mussen¨ meist N¨aherungsverfahren bemuht¨ werden. Dabei wird die ab-initio Simulation atoma- rer und molekularer Eigenschaften aus quantenmechanischen Gesetzm¨aßigkeiten durch approximative Modelle ersetzt, die entweder auf vereinfachten physikalischen Gesetzen, auf statistischen Inferenz- methoden oder auf einer hybriden Kombination beider beruhen. In dieser Arbeit werden wir solche N¨aherungsverfahren fur¨ verschiedene Probleme der strukturbasierten Bioinformatik entwickeln. Zu den grundlegendsten N¨aherungen an die Molekulphysik¨ geh¨ort sicherlich die Klassifikation chemi- scher Bindungen in eine kleine Menge verschiedener Bindungstypen wie z.B. den Einfach-, Doppel-, Dreifach- oder Vierfach- sowie den delokalisierten oder aromatischen Bindungen. Obwohl diese Klas- sifikation die tats¨achlichen Verh¨altnisse nicht perfekt beschreibt und viele F¨alle nicht eindeutig in eine der Klassen eingeteilt werden k¨onnen, hat sie sich in der Praxis hervorragend bew¨ahrt und ist in der gesamten Chemie weit verbreitet. Beim Molecular Modelling wird diese Menge von Bindungstypen jedoch typischerweise weiter redu- ziert, so dass nur noch Einfach-, Doppel-, Dreifach- und manchmal noch Vierfachbindungen betrachtet werden. In diesem Fall wird jede Bindung durch eine naturliche¨ Zahl beschrieben, die als Bindungsord- nung bezeichnet wird und Werte zwischen eins und vier annehmen kann. Diese Bindungsordnungen liegen allen Kraftfeldmethoden zugrunde, die in vielerlei Hinsicht das Ruckgrat¨ des Molecular Mo- delling bilden. In der Praxis beschreiben Bindungsordnung eine Vielzahl an Ph¨anomenen sehr gut, doch fuhren¨ sie auch zu einer Reihe von Problemen. Das vielleicht schwerwiegendste dieser Proble- me ist die Uneindeutigkeit der Zuordnung von Bindungsordnungen zu einem gegebenen Molekul.¨ Da Bindungsordnungen nur eine recht grobe Approximation der tats¨achlichen molekularen Eigenschaften darstellen, k¨onnen verschiedene Effekte, wie z.B. delokalisierte oder aromatische Elektronen, nur durch Kombinationen verschiedener Bindungsordnungszuweisungen beschrieben werden. Hinzu kommt, dass die Vorhersage der Bindungsordnungen fur¨ ein gegebenes Molekul¨ ein schwieriges Problem darstellt und im allgemeinen nur uber¨ komplexe Regelsysteme, die von chemischen Experten entworfen werden, gel¨ost werden kann. Durch diese Probleme bleibt die automatische Zuweisung von Bindungsordnun- gen eine hochgradig schwierige Herausforderung. Andererseits enthalten viele wichtige Eingabedaten fur¨ das Molecular Modelling keine, unvollst¨andige oder falsche Bindungsordnungen, so dass deren automatische Bestimmung eine wichtige Komponente aller Modelling-Systeme darstellt. In dieser Arbeit entwickeln wir neue Ans¨atze zur automatischen Zuweisung von Bindungsordnungen, diesogenauwiem¨oglich sind, gleichzeitig aber mit der inh¨arenten Uneindeutigkeit umzugehen wissen. Um sich den ver¨anderlichen Anforderungen der Anwender und pers¨onlichen Pr¨aferenzen anpassen zu k¨onnen, erlaubt unser System die einfache Modifikation des zugrundeliegenden Regelsatzes, wenn gewunscht¨ sogar zur Laufzeit. Die Grundlage unseres Zugangs ist dabei ein Ansatz, der ursprunglich¨ fur¨ das Generalized Amber Force Field (GAFF)“ entwickelt wurde. Dieser Ansatz wurde von uns ” stark erweitert und in Form eines exakt l¨osbaren diskreten Optimierungsproblems neu gefasst. In dieser vi Dissertation werden wir sowohl