INAUGURAL - DISSERTATION Zur Erlangung Der Doktorw¨Urde Der Naturwissenschaftlich-Mathematischen Gesamtfakult¨At Der Ruprecht - Karls - Universit¨At Heidelberg
Total Page:16
File Type:pdf, Size:1020Kb
INAUGURAL - DISSERTATION zur Erlangung der Doktorw¨urde der Naturwissenschaftlich-Mathematischen Gesamtfakult¨at der Ruprecht - Karls - Universit¨at Heidelberg vorgelegt von Diplom-Biologe Nicolas Delhomme aus Villeneuve sur Lot, Frankreich Tag der m¨undlichen Pr¨ufung: Thema Integrative and Comparative Analysis of Retinoblastoma and Osteosarcoma P.D. Dr. Karsten Rippe Gutachter: Prof. Dr. Peter Lichter Die vorliegende Arbeit wurde am Deutschen Krebsforschungszentrum in der Abteilung von Prof. Dr. Lichter in der Zeit von 01.04.2004 bis 30.11.2008 unter der wissenchaftlichen Anleitung von Prof. Dr. Peter Lichter aus- gef¨uhrt. Eidesstattliche Versicherung Ich erkl¨arehiermit, dass ich diese vorgelegte Dissertation selbst verfasst und mich dabei keiner eanderen als den von mir ausdr¨ucklich bezeichneten Quellen und Hilfen bedient habe. Diese Dissertation wurde in dieser or andere Form weder bereits als Pr¨ufubgsarbeit verwendet, noch einer an- deren Fakult¨atals Dissertation vorgelegt. An keiner anderen Stelle ist ein Pr¨ufungsverfahren beantragt. Heidelberg, den 1. Januar 2013 Nicolas Delhomme Acknowledgments • For the data used in this work, published or not, I want to thank Prof. Dr. Dietmar Lohmann, Dr. Sandrine Gratias, Dr. Boris Zielinski, and Dr. Stephan Wolf. • For offering me the chance to do my PhD and waiting all these years for it to complete, I'm definitely grateful to Prof. Dr. Peter Lichter. • For the nice working atmosphere, the Chistmas parties, the pre-retreat and the retreat, the whole of the B060 division. Thanks for all the memories. • For every day work - and more - Fr´ed´ericBlond, Dr. Grischa T¨odtand of course Dr. Natalia Becker. Natalia, I'm glad you made it in that crowded geek's office! The last member of the SOG, which one can't forget - he will recognize himself - made these days in the office never boring for better or worse. Thanks for that Felix. A special thank to Margit MacLeod and Michael Hain for helping out with the printouts and corrections. Finally, a big thanks to Dr. Felix Kokocinski, who introduced me to the B060s and got me my first publication! • For the submission process, the deanery and the Helmholtz Interna- tional Graduate School for Cancer Research, in particular Heidi Costas and Dr. Lindsay Murrells for their help. I would not have achieved this and be were I'm without an innumerable number of persons, among which I want to thank a few in particular. • Prof. Ladel who transmitted me his passion for both biological and computational science; you started it all! • Prof. Antoine de Daruvar who entrusted me his tool although I was just fresh from school. His continuous mentoring helped me through all these years. Merci Antoine. • Bertrand Fabre for his accessibility when I was still a student and for all the advices he gave me. • A number of other ex-LIONs, Christian Marcazzo, Jean-St´ephane Morin, Niels Bojunga, Bernhard Sultzer, who made me trust my work. • Emilie Fritsch et Sophie Adjaley for their uninterrupted availability to help, even from miles (swedish ones) away. • Michael Knop for the long collaboration on an exciting project and especially for accepting to chair my defense committee. • Charles Girardot and Julien Gagneur for our long Heidelberg common history. We're now dispersed, but I really appreciated working with you. It kept me wanting to get better to reach out to your spheres. Let's the future tells us if I managed. • Hermann Rupp who offered me shelter for a long time. I suppose I was your longest \guest". • My family for everything they did for me. • My other family for their interest, their constant support and their kindness. • And Verena, my half. I cannot be thankful enough for all the efforts she conceded, the patience she showed and the support she gave me while I was working on this thesis. Literally, without her, this document would not be in your hands. This thesis is dedicated to her and to long time friends that probably never believed this chapter of my life will be closing one day. Verena, Marc, Xavier, Martin, this is for you. Zusammenfassung In den letzten eineinhalb Jahrzehnten hat die breite Nutzung der Hochdurch- satzmethoden in der Molekularbiologie zu großen Mengen von Datens¨atzen gefuhrt,¨ die eine unerwartete Komplexit¨at der Zellregulation zeigen. Die kurzlich¨ ver¨offentlichten Ergebnisse des ENCODEProjekts (ENCODE Pro- ject Consortium et al., 2012) haben das Ausmaß dieser Mechanismen im menschlichen Genom gezeigt und sicherlich werden in der Zukunft noch weitere entdeckt. Diese Komplexit¨at innerhalb einer einzelnen Zelle, ganz zu schweigen von Zell-Zell-Wechselwirkungen oder dem Einfluss der Mi- kroumgebung, ist schwer zu erfassen. Dieses Verst¨andnis ist allerdings der Schlussel¨ zur Entwicklung von individuell angepassten Behandlungen gene- tischer Krankheiten oder St¨orungen, darunter auch Krebs. In der Mathematik geht man solche komplexen Probleme mit Methoden an, die die Komplexit¨at reduzieren, so dass man sie in aufl¨osbarer Weise mo- dellieren kann. In der Biologie haben Forscher diese Methode angewandt, um das Systembiologiekonzept zu entwickeln, welches das Verst¨andnis der Zell- regulationsmechanismen vereinfacht. Die meisten ver¨offentlichten Studien, in denen Hochdurchsatz-Technologien verwendet wurden, waren jedoch nur auf eine einzige Art der Zellregulation ausgerichtet und k¨onnen daher nicht als solche verwendet werden, um die Regulationswechselwirkungen zu un- tersuchen. Außerdem ist bei solchen Studien die Unterscheidung zwischen ausl¨osenden Faktoren und St¨orfaktoren schwierig. Diese beiden Punkte waren meine ursprungliche¨ Motivation fur¨ die Ent- wicklung statistischer Methoden, die die integrative und vergleichende Ana- lyse von verschiedenen Arten von Datens¨atzen erm¨oglichen. Es wurden drei verschiedene Softwares entwickelt, um dieses Ziel zu erreichen. Erstens, \cus- tomCDF": dies ist eine Methode, um die Custom Definition File (CDF) des Affymetrix GeneChip R s neu zu definieren; dies dient im Wesentlichen dazu, die st¨andige Aktualisierung der Sequenz des menschlichen Genoms und dessen Annotationen zu erfassen. Zweitens, \aSim": eine Methode, um Microarray-Daten zu simulieren; dies erstellt die notwendigen Daten um die entwickelten Algorithmen auszuwerten. Drittens, eine Reihe von kombinier- ten statistischen Methoden, die integrative Analysen erm¨oglichen und die schließlich durch gezielte Modifikationen auch vergleichende Analysen er- lauben. \CustomCDF" und \aSim" wurden auf unabh¨angigen Datens¨atzen validiert, w¨ahren die entwickelten analytischen Methoden auf \aSim" simu- lierten Dateien und ¨offentlich verfugbaren¨ Datens¨atzen validiert wurden. Die oben beschriebenen Methoden wurden angewandt, um zwei biologi- sche Fragen zu beantworten. Zun¨achst wurden zwei Retinoblastom-Daten- s¨atze benutzt, um die Auswirkung von Genom-Aberrationen auf die Gen- Expressionen zu untersuchen. Dann, motiviert durch die Tatsache, dass Retinoblastom-Patienten im sp¨ateren Leben ein h¨oheres Risiko haben ein Osteosarkom zu entwickeln als der Durchschnitt der Bev¨olkerung, wurden Datens¨atze von beiden Tumoren vergleichend analysiert, um Ahnlichkeiten¨ und Unterschiede zu identifizieren. Trotz der eher begrenzten Anzahl von Datens¨atzen waren beide Ans¨atze dank ihrer hohen Pr¨azision und niedrigen Fehlerrate erfolgreich und haben so die Basis fur¨ gr¨oßere Analysen gebildet. In der Tat hat die hier angewandte integrative Analyse des Retino- blastoms gezeigt, dass dem Zugewinn des Chromosoms 6 eine wichtige Be- deutung in der Progression der Krankheit zukommt, was wiederum darauf hinweist, dass viele Gene auf diesem Chromosom eine Krebsentwicklung f¨ordern. Im Vergleich zu Microarray-Standardanalysen war diese Analyse daruber¨ hinaus in der Lage, die Interaktion von Regulierungsmechanismen zu entdecken: Beispiele von positivem und negativem Ausgleich der Gen- expression in Regionen mit DNA-Zugewinn beziehungsweise -Verlust, sowie Beispiele von Antisense-Transkription, Pseudogen- und snRNA-Regulation wurden in diesem Datensatz identifiziert. Durch die vergleichende Analyse hingegen konnte gezeigt werden, dass Retinoblastome und Osteosarkome große Ahnlichkeit¨ aufweisen und daruber¨ hinaus, dass beide Vorteil aus ihren jeweiligen Mikroumgebungen ziehen und damit verschiedene Signalwege, PKC/Calmodulin in Retinoblastom und GPCR/RAS in Osteosarkom, zu nutzen scheinen. In dieser Arbeit konnte die Bedeutung und der Nutzen der entwickel- ten Softwares und statistischen Methoden demonstriert werden: durch sie konnten pr¨azise Antworten auf die zwei gestellten biologischen Fragen ge- funden werden. Desweiteren konnte dadurch eine Reihe interessanter Hy- pothesen aufgestellt werden, die weitere Untersuchungen erfordern. Diese Softwares sind nicht auf Microarray-Analysen begrenzt, sondern k¨onnen auf alle Hochdurchsatz-Daten appliziert werden: mittels der hier entwickelten Methoden kann das Konzept der Systembiologie auf die Erforschung der Karzinogenese angewandt werden. Abstract In the last one and a half decades, the generalization of high throughput methods in molecular biology has led to the generation of vast amounts of datasets that unraveled the unfathomed complexity of the cell regulatory mechanisms. The recently published results of the ENCODE project (EN- CODE Project Consortium et al., 2012) demonstrated the extend of these in the human genome and certainly more regulation mechanisms will be dis- covered in the future. Already, this complexity within a single cell - without taking into account cell-cell interaction or micro-environment