Development of Novel Classical and Quantum Information Theory Based Methods for the Detection of Compensatory Mutations in Msas
Total Page:16
File Type:pdf, Size:1020Kb
Development of novel Classical and Quantum Information Theory Based Methods for the Detection of Compensatory Mutations in MSAs Dissertation zur Erlangung des mathematisch-naturwissenschaftlichen Doktorgrades ”Doctor rerum naturalium” der Georg-August-Universität Göttingen im Promotionsprogramm PCS der Georg-August University School of Science (GAUSS) vorgelegt von Mehmet Gültas aus Kirikkale-Türkei Göttingen, 2013 Betreuungsausschuss Professor Dr. Stephan Waack, Institut für Informatik, Georg-August-Universität Göttingen. Professor Dr. Carsten Damm, Institut für Informatik, Georg-August-Universität Göttingen. Professor Dr. Edgar Wingender, Institut für Bioinformatik, Universitätsmedizin, Georg-August-Universität Göttingen. Mitglieder der Prüfungskommission Referent: Prof. Dr. Stephan Waack, Institut für Informatik, Georg-August-Universität Göttingen. Korreferent: Prof. Dr. Carsten Damm, Institut für Informatik, Georg-August-Universität Göttingen. Korreferent: Prof. Dr. Mario Stanke, Institut für Mathematik und Informatik, Ernst Moritz Arndt Universität Greifswald Weitere Mitglieder der Prüfungskommission Prof. Dr. Edgar Wingender, Institut für Bioinformatik, Universitätsmedizin, Georg-August-Universität Göttingen. Prof. Dr. Burkhard Morgenstern, Institut für Mikrobiologie und Genetik, Abteilung für Bioinformatik, Georg-August- Universität Göttingen. Prof. Dr. Dieter Hogrefe, Institut für Informatik, Georg-August-Universität Göttingen. Prof. Dr. Wolfgang May, Institut für Informatik, Georg-August-Universität Göttingen. Tag der mündlichen Prüfung: 18. September 2013 Abstract Multiple sequence alignments (MSAs) of homologous proteins are useful tools to charac- terize compensatory mutations between non-conserved residue sites. The identification of these residue sites in MSAs is an important challenge for understanding the structural basis and molecular mechanism of protein functions. Despite the rich literature on compensatory mutations as well as sequence conservation analysis for the identification of those impor- tant residue sites, previous methods often do not take into account biochemical constraints of amino acids which are likely to be crucial for the detection of compensatory mutation sig- nals. However, compensatory mutation signals in MSAs are often masked by noise. Thus, another challenging problem in bioinformatics is the separation of significant signals from the phylogenetic noise and unrelated pair signals. The goal of this thesis is to develop such methods that incorporate biochemical constraints like similarities or dissimilarities of amino acids in identifying compensatory mutations and deal with the noise. Hence, we develop different methods based on classical and quantum information theory and multiple testing procedures. Our first method is based on classical information theory. It mainly focuses on BLOSUM62- dissimilar amino acid pairs as a model of compensatory mutations and incorporates them in the prediction of functionally and/or structurally important sites using a doubly stochastic matrix. To complement this method, we develop our second method applying principles of quantum information theory. The new method differs from the first one by simultaneously modeling similar and dissimilar amino acid pair signals in the compensatory mutation anal- ysis. Moreover, to separate method-based significant compensatory mutation signals from background noise, we develop an MSA-specific statistical model devised for multiple test- ing problems. By applying this model, we are capable of determining significant signals in MSAs as well as quantifying the error made in terms of the false discovery rate. To demonstrate the effectiveness of our methods, we evaluate those analyzing important sites of two human proteins, namely epidermal growth factor receptor (EGFR) and glucok- inase (GCK). Our results suggest that the MSA-specific statistical model is able to separate significant compensatory mutation signals from the phylogenetic noise and unrelated pair signals. Only considering the dissimilarities of amino acids, the first method successfully deals with disease-associated important sites of both proteins. In contrast, simultaneously focusing on similar and dissimilar amino acid signals, the second method is more sensible to catalytic, allosteric and binding sites. The results further show that overlaps between both methods are quite low, indicating that considerably different sets of residue sites are detected by both methods as functionally and structurally important. As a result of this, we can say that our second method complements the first method when it comes to predicting important sites, rather than replacing it. Zusammenfassung Multiple Sequenzalignments (MSAs) von homologen Proteinen sind nützliche Werkzeuge, um kompensatorische Mutationen zwischen nicht-konservierten Residuen zu charakter- isieren. Die Identifizierung dieser Residuen in MSAs ist eine wichtige Aufgabe um die strukturellen Grundlagen und molekularen Mechanismen von Proteinfunktionen besser zu verstehen. Trotz der vielen Anzahl an Literatur über kompensatorische Mutationen sowie über die Sequenzkonservierungsanalyse für die Erkennung von wichtigen Residuen, haben vorherige Methoden meistens die biochemischen Eigenschaften von Aminosäuren nicht mit in Betracht gezogen, welche allerdings entscheidend für die Erkennung von kompen- satorischen Mutationssignalen sein können. Jedoch werden kompensatorische Mutation- ssignale in MSAs oft durch das Rauschen verfälscht. Aus diesem Grund besteht ein weit- eres Problem der Bioinformatik in der Trennung signifikanter Signale vom phylogenetis- chen Rauschen und beziehungslosen Paarsignalen. Das Ziel dieser Arbeit besteht darin Methoden zu entwickeln, welche biochemische Eigen- schaften wie Ähnlichkeiten und Unähnlichkeiten von Aminosäuren in der Identifizierung von kompensatorischen Mutationen integriert und sich mit dem Rauschen auseinandersetzt. Deshalb entwickeln wir unterschiedliche Methoden basierend auf klassischer- und quantum Informationstheorie sowie multiple Testverfahren. Unsere erste Methode basiert auf der klassischen Informationstheorie. Diese Methode betrachtet hauptsächlich BLOSUM62-unähnliche Paare von Aminosäuren als ein Modell von kompensatorischen Mutationen und integriert sie in die Identifizierung von wichtigen Residuen. Um diese Methode zu ergänzen, entwickeln wir unsere zweite Methode unter Verwendung der Grundlagen von quantum Informationstheorie. Diese neue Methode un- terscheidet sich von der ersten Methode durch gleichzeitige Modellierung ähnlicher und unähnlicher Signale in der kompensatorischen Mutationsanalyse. Des Weiteren, um sig- nifikante Signale vom Rauschen zu trennen, entwickeln wir ein MSA-spezifisch statistis- ches Modell in Bezug auf multiple Testverfahren. Wir wenden unsere Methode für zwei menschliche Proteine an, nämlich epidermal growth factor receptor (EGFR) und glucokinase (GCK). Die Ergebnisse zeigen, dass das MSA- spezifisch statistische Modell die signifikanten Signale vom phylogenetischen Rauschen und von beziehungslosen Paarsignalen trennen kann. Nur unter Berücksichtigung BLO- SUM62-unähnlicher Paare von Aminosäuren identifiziert die erste Methode erfolgreich die krankheits-assoziierten wichtigen Residuen der beiden Proteine. Im Gegensatz dazu, durch die gleichzeitige Modellierung ähnlicher und unähnlicher Signale von Aminosäurepaare ist die zweite Methode sensibler für die Identifizierung von katalytischen und allosterischen Residuen. Acknowledgements I am indebted to many people for their support and encouragement which was very crucial for the successful completion of my PhD study. In the following lines I would like to use this opportunity to acknowledge and thank all. First of all, I would like to thank my advisor Prof. Dr. Stephan Waack for giving me the opportunity to join his research group and for his excellent guidance through my study. Without his patient teaching and continuous trust, this work would not have been successful. My sincere thanks go to my co-advisor Prof. Dr. Carsten Damm patiently guiding me through my work by sharing his experiences with me and for countless hours of fruitful discussions. Without his valuable comments and suggestions, this thesis would not have been possible. I would also like to thank Prof. Dr. Mario Stanke for being in my thesis committee and for sharing valuable ideas. I would like to thank all my colleagues and friends for their enjoyable and scientifically inspiring environment and for our wonderful friendship: Lennart Obermann, Steffen Her- bold, Martin Haubrock, Keyu Wang, Gunnar Krull, Patrick Harms, Thomas Rings, Heike Jachinke, Annette Kadziora, Cansu Topal, Nesrin Tüysüz and Pinar Öz. I would also like to thank the remaining members of my defense committee: Prof. Dr. Edgar Wingender, Prof. Dr. Burkhard Morgenstern, Prof. Dr. Wolfgang May, and Prof. Dr. Dieter Hogrefe. I want to thank my parents: Elif and Arap Gültas, and my siblings: Dilek Aydogdu, Erdem Gültas and Bayram Gültas for all the love and support over the years. Especially, I would like to thank my girl friend Susann Michanski who always believes in me and supports me in my research and my daily life. I wouldn’t have made it without her. Contents List of Figures xi List of Tables xiv 1 Introduction 2 1.1 Structure of the Thesis . .3 1.2 Impact . .4 2 Biological Background 7 2.1 Amino Acids . .7 2.2 Proteins . .9 2.3 Multiple Sequence Alignments . 10 2.4 Mutations in Protein . 12 2.5 Bioinformatics Databases and Tools . 13 2.5.1 Protein Data Bank . 14