Bioinformatics Analyses of Alternative Splicing Non-EST Based Prediction, Influence of Secondary Structures and Tandem Splice Sites

Bioinformatics Analyses of Alternative Splicing Non-EST Based Prediction, Influence of Secondary Structures and Tandem Splice Sites

Bioinformatics Analyses of Alternative Splicing Non-EST based Prediction, Influence of Secondary Structures and Tandem Splice Sites Dissertation zur Erlangung des akademischen Grades doctor rerum naturalium (Dr. rer. nat.) vorgelegt dem Rat der Fakult¨at f¨ur Angewandte Wissenschaften der Albert-Ludwigs-Universit¨at Freiburg von Diplom-Informatiker (Univ.) Michael Hiller Gutachter Prof. Dr. Rolf Backofen Prof. Dr. Peter Stadler Tag der Disputation: 4. Dezember 2006 iii Abstract After realizing its frequency in the last decade, alternative splicing has attracted consid- erable attention. Although several biological phenomena can be explained by alternative splicing today, research has just started to uncover all of its aspects. This thesis investigates three aspects of alternative splicing, mostly by means of computational large-scale analyses. In the first part, we introduce a new approach to predict alternative splicing without using expressed sequence information. Given that our knowledge about the human transcriptome is still incomplete, ab initio prediction of alternative splicing is a rather recent but important research area. In contrast to existing methods, our approach is independent of orthologous sequences, thus it is applicable to a single genome. By introducing an efficient dynamic programming algorithm, we reduce the computational complexity during the search for new splice events compared to a naive algorithm. The use of this algorithm is demonstrated in a genome-wide application, where we predict and verify novel human splice events. In the second part, we investigate the influence of mRNA secondary structures on the regulation of the splicing process. We show that experimentally verified binding sites of splicing regulatory proteins have a higher single-strandedness. As alternative and constitutive splicing often depends on several such binding sites, this indicates a general importance of mRNA secondary structures for splicing. Then, we develop a new motif finding method that benefits from using an informative prior probability distribution, which takes the single-strandedness of putative motif occurrences into account. We per- form extensive tests with artificial and biological data sets and demonstrate that the additional information about secondary structures help to discriminate real binding sites from spurious ones. In the third part, we analyze a group of splice events that have mostly escaped attention in the past. These splice events occur at tandem acceptor splice sites and result in minor changes of the mRNA and the protein. Genome-wide analyses provide evidence for a non-random distribution of these splice events at the genome and protein level, for tissue-specific regulation, and for evolutionary conservation. Moreover, we find that SNPs affecting such acceptors have a highly predictive effect on splicing. Extending our studies to tandem donors, we investigate differences between alternatively and not alternatively spliced tandem donors. We conclude that these donor and acceptor splice events represent one major mechanism to increase the proteome diversity and that some of them have consequences for protein function and human disease. Finally, we develop a relational database, which stores extensive information about tandem splice sites. In summary, in this thesis, we introduce a new approach for ab initio splice event prediction, uncover another detail about the regulation of splicing, develop a new de novo motif finding method, perform the first detailed genome-wide analysis of tandem splice sites, and develop a specific database of tandem donors and acceptors. iv Zusammenfassung Nachdem die H¨aufigkeit von alternativ gespleißten Genen im letzten Jahrzehnt erkannt wurde, hat das alternative Spleißen in der Wissenschaft große Aufmerksamkeit erfahren. Mehrere biologische Ph¨anomene k¨onnen heute durch alternatives Spleißen erkl¨art werden. Trotzdem hat die Forschung gerade erst begonnen alle Aspekte aufzudecken. Diese Dissertation untersucht drei verschiedene Aspekte des alternativen Spleißens, haupts¨achlich durch Anwendung von computerbasierten Analysen. Im ersten Teil wird eine neue Methode fur¨ die Vorhersage von alternativen Spleißformen ohne Verwendung von exprimierten Sequenzen vorgestellt. Wenn man bedenkt, dass unser Wissen uber¨ das humane Transkriptom noch unvollst¨andig ist, stellt die ab initio Vorhersage von Spleißformen ein neues, aber wichtiges Forschungsgebiet dar. Im Gegensatz zu anderen Methoden ist unser Ansatz unabh¨angig von Informationen uber¨ orthologe Sequenzen und daher auf einzelne Genome anwendbar. Die Komplexit¨at der Suche nach neuen Spleiß- formen kann durch die Entwicklung eines effizienten Algorithmus, der auf dem Prinzip der dynamischen Programmierung basiert, deutlich reduziert werden. Wir zeigen den Nutzen dieser Methode durch eine Anwendung auf das humane Genom, bei der wir neue Spleißvarianten vorhersagen und nachweisen. Der zweite Teil der Arbeit untersucht den Einfluss von mRNA Sekund¨arstrukturen auf die Regulation des Spleißprozesses. Dabei zeigen wir, dass experimentell best¨atigte Bin- dungsstellen von regulatorischen Spleißfaktoren eine signifikant h¨ohere Einzelstr¨angigkeit aufweisen. Da alternatives und auch konstitutives Spleißen von mehreren solcher Bin- dungsstellen abh¨angt, deutet dieses Ergebnis auf einen generellen Einfluss von mRNA Sekund¨arstrukturen auf den Spleißprozess hin. Wir nutzen dieses Prinzip bei der Entwick- lung eines neuen Algorithmus fur¨ die Erkennung von Motiven in biologischen Sequenzen. Dieser Algorithmus berucksichtigt¨ die Einzelstr¨angigkeit m¨oglicher Bindungsstellen, was durch eine sequenzspezifische a priori Wahrscheinlichkeitsverteilung modelliert wird. Um- fassende Tests mit kunstlichen¨ und biologischen Datens¨atzen zeigen, dass diese zus¨atzliche Information hilfreich ist, um zwischen echten und falsch-positiven Bindungsstellen zu un- terscheiden, was genauere Motivbeschreibungen erlaubt. Im dritten Teil analysieren wir eine Gruppe von alternativen Spleißereignissen, die bisher wenig Beachtung gefunden haben. Diese Ereignisse geschehen an Tandemakzeptor- Spleißstellen und fuhren¨ zu subtilen Ver¨anderungen der mRNA und des entsprechen- den Proteins. In genomweiten Untersuchungen fanden wir Hinweise, dass diese Splei- ßereignisse nicht zuf¨allig im Genom und im Proteom verteilt sind; dass sie gewebespe- zifisch reguliert werden k¨onnen; und dass eine Teilmenge evolution¨ar konserviert ist. Weiterhin konnten wir zeigen, dass SNPs in solchen Spleißstellen einen vorhersagbaren Effekt auf Ver¨anderungen im Spleißmuster haben. Wir erweitern die Untersuchungen auf Tandemdonor-Spleißstellen und analysieren Unterschiede zwischen alternativen und konstitutiven Tandemdonoren. Wir kommen zu dem Schluss, dass Tandem-Spleißstellen v einen wichtigen Mechanismus zur Vergr¨oßerung der Proteom Vielfalt darstellen. Außer- dem haben einige dieser Spleißstellen Auswirkungen auf die Proteinfunktionalit¨at so- wie auf menschliche Erkrankungen. Um weitere Forschungen zu erleichtern, erstellen wir eine spezifische Datenbank, die umfassende Informationen uber¨ Tandem-Spleißstellen ¨offentlich zug¨anglich macht. Zusammengefasst l¨asst sich sagen, wir entwickeln in dieser Dissertation einen neu- en Ansatz fur¨ die ab initio Spleißformvorhersage; beschreiben ein weiteres Detail der Regulation des Spleißprozesses; stellen einen neuen Algorithmus fur¨ die Erkennung von unbekannten Sequenzmotiven vor; fuhren¨ die erste umfassende Analyse von Tandem- Spleißereignissen durch und erstellen eine spezifische Datenbank uber¨ Tandemdonoren und -akzeptoren. vi Danksagung Zuerst m¨ochte ich mich bei meinem Doktorvater Rolf Backofen ganz herzlich bedanken f¨ur die Betreuung dieser Arbeit, f¨ur die gute und erfolgreiche Zusammenarbeit, aus der mehrere gemeinsame Publikationen entstanden sind, f¨ur viele wertvolle Ideen und Anre- gungen, und f¨ur all das, was ich von ihm lernen konnte. Ihm verdanke ich mein Interesse f¨ur diverse Bioinformatik Probleme algorithmischer und biologischer Natur. Bei Peter Stadler m¨ochte ich mich f¨ur das Interesse an dieser Arbeit bedanken und f¨ur die Bereitschaft diese zu begutachten. Weiterhin bedanke ich mich bei meinen Kollegen Anke Busch, Martin Mann, Rainer Pudimat, Sven Siebert, Sebastian Will f¨ur interessante und lustige Diskussionen und f¨ur gemeinsame Freizeitaktivit¨aten. Ganz herzlich bedanken m¨ochte ich mich bei meiner Zimmergenossin Anke Busch f¨ur das Aushalten meiner Person in ’kommunikativen’ und ’unkommunikativen’ Phasen, sowie f¨ur das Tolerieren der teilweise lauten Tastaturbear- beitung und der Zimmertemperaturen, welche auf offene Fenster und Klimaanlagen zur¨uckzuf¨uhren waren. Bedanken m¨ochte ich mich auch bei der Jenaer Genome Analyse Gruppe (Matthias Platzer, Klaus Huse, Karol Szafranski, Stefanie Schindler, Swetlana Nikolajewa, Rileen Sinha) f¨ur die zahlreichen, endlosen und interessanten Diskussionen und ’Autoren Bi- wacks’ sowie die produktive Zusammenarbeit, in der ich viel gelernt habe und die ich sehr genossen habe (und auch weiterhin genießen werde). Ein ganz besonderer Dank geht dabei an Klaus Huse f¨ur das Pr¨agen des Begriffes ’Buchstabenrechner’, an Matthias Platzer f¨ur das st¨andige Perfektionieren von allen Tabellen, Bildern und Begriffen sowie an Karol Szafranski, der auch in der hektischsten Diskussion stets einen k¨uhlen Kopf behielt. Weiterhin bedanke ich mich bei Stefan Stamm und Zhaiyi Zhang f¨ur die ebenfalls erfolgreiche und interessante Kooperation, welche hoffentlich in Zukunft so weiterl¨auft. F¨ur

View Full Text

Details

  • File Type
    pdf
  • Upload Time
    -
  • Content Languages
    English
  • Upload User
    Anonymous/Not logged-in
  • File Pages
    148 Page
  • File Size
    -

Download

Channel Download Status
Express Download Enable

Copyright

We respect the copyrights and intellectual property rights of all users. All uploaded documents are either original works of the uploader or authorized works of the rightful owners.

  • Not to be reproduced or distributed without explicit permission.
  • Not used for commercial purposes outside of approved use cases.
  • Not used to infringe on the rights of the original creators.
  • If you believe any content infringes your copyright, please contact us immediately.

Support

For help with questions, suggestions, or problems, please contact us