דוקטור לפילוסופיה Doctor of Philosophy
Total Page:16
File Type:pdf, Size:1020Kb
חבור לשם קבלת התואר Thesis for the degree דוקטור לפילוסופיה Doctor of Philosophy מאת By טל שי Tal Shay ממספר עותקי דנא לביטוי גנים: שינויים מקומיים, טריזומיות ומונוזומיות From DNA Copy Number to Gene Expression: Local aberrations, Trisomies and Monosomies Regular Format מנחה Advisor איתן דומאני Eytan Domany אלול תשס"ח September 2008 מוגש למועצה המדעית של Submitted to the Scientific Council of the מכון ויצמן למדע Weizmann Institute of Science רחובות, ישראל Rehovot, Israel תקציר מטרת מחקרי הייתה חקר השפעת שינוי במספר עותקי הדנא על ביטוי גנים. שינוי במספר עותקי הדנא יכול להיות מקומי ולכלול גנים ספורים, או להיות ברמת הכרומוזום השלם, כמו טריזומיה ומונוזומיה. בסיס הנתונים העיקרי שלמדתי במסגרת שיתוף פעולה היה של גליובלסטומה. בנוסף, השתמשתי בבסיסי נתונים ציבוריים של סרטנים נוספים ותסמונת דאון. הבסיס המולקולרי לשינויי ביטוי בגליובלסטומה גליובלסטומה היא גידול המח הנפוץ והאלים ביותר במבוגרים. בשיתוף פעולה עם פרופסור הגי (CHUV, שוויץ ,) נתחנו בסיס נתונים עשיר של גליובלסטומה, שכלל נתונים קליניים, מספר עותקי הדנא (נמדד על ידי שבב היברידיזציה גנומית השוואתית ), ופרופיל ביטוי גנים. חקרנו את ההתאמה בין מספר עותקי הדנא וביטוי הגנים ברמת זרועות כרומוזומליות ושינויים גנומיים מקומיים. זיהינו הכפלות ידועות וביטוי ביתר של אונקוגנים, ומחיקות ידועות וביטוי בחסר של גנים מדכאי סרטן. מידע זה שימש אותנו למיפוי שינויים במסלולי בקרה המופרעים בגליובלסטומה, ולאפיון קבוצות של גידולים שאין להם שינוי מדיד במסלולים הללו. זיהוי שינויים מקומיים משמעותיים ביולוגית סוגים רבים של גידולים מאבדים ומכפילים כרומוזומים ואזורים גנטיים קצרים יותר. סביר להניח שאזור גנטי שמשתנה בהרבה גידולים, או שהשינוי במספר העותקים שלו גדול, הוא בעל חשיבות קלינית, ולא תוצר לוואי של חוסר יציבות גנטית. פתחנו שיטה חדשה המגדירה ומדרגת שינויים גנומיים מקומיים במספר העותקים על ידי חישוב פורמלי של תובנות אלו. השיטה מחשבת ניקוד לכל שינוי על ידי אחוז החולים הנושאים שינוי זה, אורך השינוי ועוצמת השינוי. מובהקות הניקוד נקבעת על ידי התפלגות שנוצרה על ידי תמורות. שיטה זו מגלה מיקומים גנומיים שמספר העותקים שלהם שונה באופן מובהק, ויוצרת פרופיל גנטי של שינויים מקומיים לכל גידול. פרופיל זה בשילוב מצב זרועות הכרומוזום (עודף\חסר) יוצר חתימה גנומית תמציתית לכל גידול. קיבוץ לא מבוקר של הגידולים במרחב הנפרש על ידי החתימות מאפשר גילוי תת סוגים חדשים של סרטן. ישמנו שיטה זו על שלושה סוגים של גידולי מח: גליובלסטומה, מדולובלסטומה ונוירובלסטומה, וגילינו תת סוג חדש של מדולובלסטומה, המאופיין על ידי שינויים כרומוזומליים רבים. הבנת השפעת טריזומיה ומונוזומיה על ביטוי גנים טריזומיה ומונוזומיה של כרומוזום צפויות להשפיע על ביטוי הגנים הממוקמים על כרומוזום זה. ניתוח של נתונים ממספר סרטנים הראה כי לא כל הגנים על הכרומוזום שמספר עותקיו השתנה מושפעים מהשינוי במספר העותקים. הגנים המושפעים מציגים טווח רחב של שינוי ברמת הביטוי, ובחדירות משתנה. בייחוד, (1) השפעת טריזומיה שמורה יותר מהשפעת מונוזומיה בין יחידים ו )2( יש מתאם חיובי בין רמת הביטוי של גן כשיש שני עותקים שלו ובין רמת השינוי בביטוי של אותו גן כשיש רק עותק אחד שלו או שלושה עותקים. - 4 - Abstract The goal of my PhD research was to study the effect of DNA copy number changes on gene expression. DNA copy number aberrations may be local, encompassing several genes, or on the level of an entire chromosome, such as trisomy and monosomy. The main dataset I studied was of Glioblastoma, obtained in the framework of a collaboration, but I worked also with public datasets of cancer and Down’s Syndrome. The molecular basis of expression changes in Glioblastoma Glioblastoma is the most common and aggressive type of primary brain tumors in adults. In collaboration with Prof. Hegi (CHUV, Switzerland), we analyzed a rich Glioblastoma dataset including clinical information, DNA copy number (array CGH) and expression profiles. We explored the correlation between DNA copy number and gene expression at the level of chromosomal arms and local genomic aberrations. We detected known amplification and over expression of oncogenes, as well as deletion and down-regulation of tumor suppressor genes. We exploited that information to map alterations of pathways that are known to be disrupted in Glioblastoma, and tried to characterize samples that have no known alteration in any of the studied pathways. Identifying local DNA aberrations of biological significance Many types of tumors exhibit chromosomal losses or gains and local amplifications and deletions. A region that is aberrant in many tumors, or whose copy number change is stronger, is more likely to be clinically relevant, and not just a by-product of genetic instability. We developed a novel method that defines and prioritizes aberrations by formalizing these intuitions. The method scores each aberration by the fraction of patients harboring it, its length and its amplitude, and assesses the significance of the score by comparing it to a null distribution obtained by permutations. This approach detects genetic locations that are significantly aberrant, generating a ‘genomic aberration profile’ for each sample. The ‘genomic aberration profile’ is then combined with chromosomal arm status (gain/loss) to define a succinct genomic signature for each tumor. Unsupervised clustering of the samples based on these genomic signatures can reveal novel tumor subtypes. This approach was applied to datasets from three types of brain tumors: Glioblastoma, Medulloblastoma and Neuroblastoma, and identified a new subtype in Medulloblastoma, characterized by many chromosomal aberrations. - 5 - Elucidating the transcriptional effect of monosomy and trisomy Trisomy and monosomy are expected to impact the expression of genes that are located on the affected chromosome. Analysis of several cancer datasets revealed that not all the genes on the aberrant chromosome are affected by the change of copy number. Affected genes exhibit a wide range of expression changes with varying penetrance. Specifically, (1) The effect of trisomy is much more conserved among individuals than the effect of monosomy and (2) the expression level of a gene in the diploid is significantly correlated with the level of change between the diploid and the trisomy or monosomy. - 6 - 1 INTRODUCTION 10 1.1 High throughput measurement of DNA copy number 10 1.2 High throughput measurement of gene expression 11 1.3 Gene expression analysis 12 1.4 Cancer 13 1.5 Aneuploidy in cancer 13 1.6 Relationships between DNA copy number and gene expression 14 1.7 Thesis structure 15 1.7.1 The molecular basis of expression changes in Glioblastoma 16 1.7.2 Development of a method for identifying local DNA aberrations of biological significance 16 1.7.3 Characterization and understanding of the transcriptional effects of monosomy and trisomy 17 1.7.4 Deciphering transcriptional responses in temporal processes 18 2 THE MOLECULAR BASIS OF EXPRESSION CHANGES IN GLIOBLASTOMA 20 2.1 Background 20 2.1.1 Glioblastoma Multiforme 20 2.1.2 The TP53 pathway 21 2.1.3 The RB pathway 22 2.1.4 The EGFR pathway 23 2.1.5 Pathways interactions 25 2.1.6 Genetic abnormalities and expression patterns as predictors of prognosis 26 2.1.7 Clinical trial 26 2.2 Data 27 2.3 Data analysis 28 2.3.1 Two ways clustering analysis 28 2.3.2 Survival analysis 29 2.3.3 Chromosomal status 29 2.3.4 Correlation between expression and copy number 30 2.3.5 Detecting chromosomal instabilities 30 - 7 - 2.3.6 Effect of the aberrations on expression 31 2.3.7 Amplifications 32 2.3.8 Deletions 32 2.3.9 Pathway analysis 33 2.4 Conclusion 36 3 IDENTIFYING LOCAL DNA ABERRATIONS OF BIOLOGICAL SIGNIFICANCE 41 3.1 Abstract 41 3.2 Background 42 3.2.1 Cancer is characterized by DNA copy number aberrations 42 3.2.2 Array CGH as a tool to measure DNA copy number aberrations 42 3.2.3 Existing methods for analyzing array CGH data 43 3.3 Results 44 3.3.1 Algorithm 44 3.3.2 Parameters space 48 3.3.3 Applications 48 3.4 Discussion 51 3.5 Conclusion 55 3.6 Methods 55 3.6.1 Datasets 55 3.6.2 Aberrations’ annotation 55 3.6.3 Recognizing possible inaccurate genomic locations 56 3.6.4 FDR 56 4 ELUCIDATING THE TRANSCRIPTIONAL EFFECT OF MONOSOMY AND TRISOMY 59 4.1 Aim 59 4.2 Introduction 59 4.2.1 Aneuploidy in cancer 59 4.2.2 Meiotic aneuploidy 59 4.2.3 Mechanisms causing aneuploidy 60 4.2.4 Aneuploidy and gene expression 60 - 8 - 4.2.5 Factors that may affect the response of gene expression to copy number 60 4.3 Methods 64 4.3.1 Data 64 4.3.2 Genes’ information sources 64 4.3.3 Stepwise linear regression 65 4.4 Results 66 4.4.1 Whole chromosome gain and loss are evident in expression 66 4.4.2 The effect of trisomy on expression is similar in different patients 66 4.4.3 The effect of monosomy on expression is different in different patients 67 4.4.4 Understanding trisomy and monosomy expression signatures 67 4.5 Discussion 69 5 DISCUSSION 72 6 LIST OF PUBLICATIONS 74 7 REFERENCES 75 - 9 - 1 Introduction Chromatin is the complex of DNA and proteins in which the genetic material is packaged inside the cells of organisms with nuclei. Chromatin structure is dynamic and exerts profound control over gene expression and other fundamental cellular processes. Changes in its structure can be passed on to the next generation, independent of the DNA sequence itself [1]. Chromatin consists of repeating subunits called nucleosomes, each comprising 147 bp of DNA wrapped in 1.7 super helical turns around a histone. Nucleosomes are further compacted into a 30-nm diameter fiber, which, in turn, are further compacted into structures not yet fully understood [2 and references therein]. Changes in chromatin structure are essential for the access of RNA polymerase to initiate transcription. Thus, the structure of chromatin in the cell affects the transcriptome of the cell.