Bioinformatics Analyses of Alternative Splicing Non-EST Based Prediction, Inﬂuence of Secondary Structures and Tandem Splice Sites

Bioinformatics Analyses of Alternative Splicing Non-EST based Prediction, Influence of Secondary Structures and Tandem Splice Sites Dissertation zur Erlangung des akademischen Grades doctor rerum naturalium (Dr. rer. nat.) vorgelegt dem Rat der Fakultät für Angewandte Wissenschaften der Albert-Ludwigs-Universität Freiburg von Diplom-Informatiker (Univ.) Michael Hiller Gutachter Prof. Dr. Rolf Backofen Prof. Dr. Peter Stadler Tag der Disputation: 4. Dezember 2006 iii Abstract After realizing its frequency in the last decade, alternative splicing has attracted consid- erable attention. Although several biological phenomena can be explained by alternative splicing today, research has just started to uncover all of its aspects. This thesis investigates three aspects of alternative splicing, mostly by means of computational large-scale analyses. In the first part, we introduce a new approach to predict alternative splicing without using expressed sequence information. Given that our knowledge about the human transcriptome is still incomplete, ab initio prediction of alternative splicing is a rather recent but important research area. In contrast to existing methods, our approach is independent of orthologous sequences, thus it is applicable to a single genome. By introducing an efficient dynamic programming algorithm, we reduce the computational complexity during the search for new splice events compared to a naive algorithm. The use of this algorithm is demonstrated in a genome-wide application, where we predict and verify novel human splice events. In the second part, we investigate the influence of mRNA secondary structures on the regulation of the splicing process. We show that experimentally verified binding sites of splicing regulatory proteins have a higher single-strandedness. As alternative and constitutive splicing often depends on several such binding sites, this indicates a general importance of mRNA secondary structures for splicing. Then, we develop a new motif finding method that benefits from using an informative prior probability distribution, which takes the single-strandedness of putative motif occurrences into account. We perform extensive tests with artificial and biological data sets and demonstrate that the additional information about secondary structures help to discriminate real binding sites from spurious ones. In the third part, we analyze a group of splice events that have mostly escaped attention in the past. These splice events occur at tandem acceptor splice sites and result in minor changes of the mRNA and the protein. Genome-wide analyses provide evidence for a non-random distribution of these splice events at the genome and protein level, for tissue-specific regulation, and for evolutionary conservation. Moreover, we find that SNPs affecting such acceptors have a highly predictive effect on splicing. Extending our studies to tandem donors, we investigate differences between alternatively and not alternatively spliced tandem donors. We conclude that these donor and acceptor splice events represent one major mechanism to increase the proteome diversity and that some of them have consequences for protein function and human disease. Finally, we develop a relational database, which stores extensive information about tandem splice sites. In summary, in this thesis, we introduce a new approach for ab initio splice event prediction, uncover another detail about the regulation of splicing, develop a new de novo motif finding method, perform the first detailed genome-wide analysis of tandem splice sites, and develop a specific database of tandem donors and acceptors. iv Zusammenfassung Nachdem die Häufigkeit von alternativ gespleißten Genen im letzten Jahrzehnt erkannt wurde, hat das alternative Spleißen in der Wissenschaft große Aufmerksamkeit erfahren. Mehrere biologische Phänomene können heute durch alternatives Spleißen erklärt werden. Trotzdem hat die Forschung gerade erst begonnen alle Aspekte aufzudecken. Diese Dissertation untersucht drei verschiedene Aspekte des alternativen Spleißens, hauptsächlich durch Anwendung von computerbasierten Analysen. Im ersten Teil wird eine neue Methode fur¨ die Vorhersage von alternativen Spleißformen ohne Verwendung von exprimierten Sequenzen vorgestellt. Wenn man bedenkt, dass unser Wissen uber¨ das humane Transkriptom noch unvollständig ist, stellt die ab initio Vorhersage von Spleißformen ein neues, aber wichtiges Forschungsgebiet dar. Im Gegensatz zu anderen Methoden ist unser Ansatz unabhängig von Informationen uber¨ orthologe Sequenzen und daher auf einzelne Genome anwendbar. Die Komplexität der Suche nach neuen Spleiß- formen kann durch die Entwicklung eines effizienten Algorithmus, der auf dem Prinzip der dynamischen Programmierung basiert, deutlich reduziert werden. Wir zeigen den Nutzen dieser Methode durch eine Anwendung auf das humane Genom, bei der wir neue Spleißvarianten vorhersagen und nachweisen. Der zweite Teil der Arbeit untersucht den Einfluss von mRNA Sekundärstrukturen auf die Regulation des Spleißprozesses. Dabei zeigen wir, dass experimentell bestätigte Bin- dungsstellen von regulatorischen Spleißfaktoren eine signifikant höhere Einzelsträngigkeit aufweisen. Da alternatives und auch konstitutives Spleißen von mehreren solcher Bin- dungsstellen abhängt, deutet dieses Ergebnis auf einen generellen Einfluss von mRNA Sekundärstrukturen auf den Spleißprozess hin. Wir nutzen dieses Prinzip bei der Entwick- lung eines neuen Algorithmus fur¨ die Erkennung von Motiven in biologischen Sequenzen. Dieser Algorithmus berucksichtigt¨ die Einzelsträngigkeit möglicher Bindungsstellen, was durch eine sequenzspezifische a priori Wahrscheinlichkeitsverteilung modelliert wird. Um- fassende Tests mit kunstlichen¨ und biologischen Datensätzen zeigen, dass diese zusätzliche Information hilfreich ist, um zwischen echten und falsch-positiven Bindungsstellen zu un- terscheiden, was genauere Motivbeschreibungen erlaubt. Im dritten Teil analysieren wir eine Gruppe von alternativen Spleißereignissen, die bisher wenig Beachtung gefunden haben. Diese Ereignisse geschehen an Tandemakzeptor- Spleißstellen und fuhren¨ zu subtilen Veränderungen der mRNA und des entsprechen- den Proteins. In genomweiten Untersuchungen fanden wir Hinweise, dass diese Splei- ßereignisse nicht zufällig im Genom und im Proteom verteilt sind; dass sie gewebespe- zifisch reguliert werden können; und dass eine Teilmenge evolutionär konserviert ist. Weiterhin konnten wir zeigen, dass SNPs in solchen Spleißstellen einen vorhersagbaren Effekt auf Veränderungen im Spleißmuster haben. Wir erweitern die Untersuchungen auf Tandemdonor-Spleißstellen und analysieren Unterschiede zwischen alternativen und konstitutiven Tandemdonoren. Wir kommen zu dem Schluss, dass Tandem-Spleißstellen v einen wichtigen Mechanismus zur Vergrößerung der Proteom Vielfalt darstellen. Außer- dem haben einige dieser Spleißstellen Auswirkungen auf die Proteinfunktionalität sowie auf menschliche Erkrankungen. Um weitere Forschungen zu erleichtern, erstellen wir eine spezifische Datenbank, die umfassende Informationen uber¨ Tandem-Spleißstellen öffentlich zugänglich macht. Zusammengefasst lässt sich sagen, wir entwickeln in dieser Dissertation einen neuen Ansatz fur¨ die ab initio Spleißformvorhersage; beschreiben ein weiteres Detail der Regulation des Spleißprozesses; stellen einen neuen Algorithmus fur¨ die Erkennung von unbekannten Sequenzmotiven vor; fuhren¨ die erste umfassende Analyse von Tandem- Spleißereignissen durch und erstellen eine spezifische Datenbank uber¨ Tandemdonoren und -akzeptoren. vi Danksagung Zuerst möchte ich mich bei meinem Doktorvater Rolf Backofen ganz herzlich bedanken für die Betreuung dieser Arbeit, für die gute und erfolgreiche Zusammenarbeit, aus der mehrere gemeinsame Publikationen entstanden sind, für viele wertvolle Ideen und Anre- gungen, und für all das, was ich von ihm lernen konnte. Ihm verdanke ich mein Interesse für diverse Bioinformatik Probleme algorithmischer und biologischer Natur. Bei Peter Stadler möchte ich mich für das Interesse an dieser Arbeit bedanken und für die Bereitschaft diese zu begutachten. Weiterhin bedanke ich mich bei meinen Kollegen Anke Busch, Martin Mann, Rainer Pudimat, Sven Siebert, Sebastian Will für interessante und lustige Diskussionen und für gemeinsame Freizeitaktivitäten. Ganz herzlich bedanken möchte ich mich bei meiner Zimmergenossin Anke Busch für das Aushalten meiner Person in ’kommunikativen’ und ’unkommunikativen’ Phasen, sowie für das Tolerieren der teilweise lauten Tastaturbear- beitung und der Zimmertemperaturen, welche auf offene Fenster und Klimaanlagen zurückzuführen waren. Bedanken möchte ich mich auch bei der Jenaer Genome Analyse Gruppe (Matthias Platzer, Klaus Huse, Karol Szafranski, Stefanie Schindler, Swetlana Nikolajewa, Rileen Sinha) für die zahlreichen, endlosen und interessanten Diskussionen und ’Autoren Bi- wacks’ sowie die produktive Zusammenarbeit, in der ich viel gelernt habe und die ich sehr genossen habe (und auch weiterhin genießen werde). Ein ganz besonderer Dank geht dabei an Klaus Huse für das Prägen des Begriffes ’Buchstabenrechner’, an Matthias Platzer für das ständige Perfektionieren von allen Tabellen, Bildern und Begriffen sowie an Karol Szafranski, der auch in der hektischsten Diskussion stets einen kühlen Kopf behielt. Weiterhin bedanke ich mich bei Stefan Stamm und Zhaiyi Zhang für die ebenfalls erfolgreiche und interessante Kooperation, welche hoffentlich in Zukunft so weiterläuft. Für

Load more