Note to Users
Total Page:16
File Type:pdf, Size:1020Kb
NOTE TO USERS This reproduction is the best copy available. ® UMI Identifying Mouse Genes Putatively Transcriptionally Regulated by the Glucocorticoid Receptor By Zuojian Tang School of Computer Science McGiII University, Montreal January 2005 A thesis submitted to McGiII University in partial fulfillment of the requirements of the degree of Master of Science ©Zuojian Tang 2005 Library and Bibliothèque et 1+1 Archives Canada Archives Canada Published Heritage Direction du Branch Patrimoine de l'édition 395 Wellington Street 395, rue Wellington Ottawa ON K1A ON4 Ottawa ON K1A ON4 Canada Canada Your file Votre référence ISBN: 0-494-12552-7 Our file Notre référence ISBN: 0-494-12552-7 NOTICE: AVIS: The author has granted a non L'auteur a accordé une licence non exclusive exclusive license allowing Library permettant à la Bibliothèque et Archives and Archives Canada to reproduce, Canada de reproduire, publier, archiver, publish, archive, preserve, conserve, sauvegarder, conserver, transmettre au public communicate to the public by par télécommunication ou par l'Internet, prêter, telecommunication or on the Internet, distribuer et vendre des thèses partout dans loan, distribute and sell th es es le monde, à des fins commerciales ou autres, worldwide, for commercial or non sur support microforme, papier, électronique commercial purposes, in microform, et/ou autres formats. paper, electronic and/or any other formats. The author retains copyright L'auteur conserve la propriété du droit d'auteur ownership and moral rights in et des droits moraux qui protège cette thèse. this thesis. Neither the thesis Ni la thèse ni des extraits substantiels de nor substantial extracts from it celle-ci ne doivent être imprimés ou autrement may be printed or otherwise reproduits sans son autorisation. reproduced without the author's permission. ln compliance with the Canadian Conformément à la loi canadienne Privacy Act some supporting sur la protection de la vie privée, forms may have been removed quelques formulaires secondaires from this thesis. ont été enlevés de cette thèse. While these forms may be included Bien que ces formulaires in the document page count, aient inclus dans la pagination, their removal does not represent il n'y aura aucun contenu manquant. any loss of content from the thesis. ••• Canada Abstract The Glucocorticoid receptor (GR) is one of many steroid hormone receptors. It controls broad physiological gene networks, confers pathological effects in a range of disease states, and offers an excellent target for therapeutic intervention. Therefore, it is necessary to betler understand the mechanisms of GR regulation. In particular, we are interested in betler understanding the protein nucleotide interactions (transcription factors interacting with transcription factor binding sites). Upon glucocorticoids-hormone binding, the GR forms a protein nucleotide interaction with a specific transcription factor binding site known as a glucocorticoid response element (GRE). This research has employed three different but complementary bioinformatics approaches to identify Mouse genes putatively transcriptionally regulated by GR. Firstly, we focus on the problem of searching for putative GREs in the complete Mouse genome using a position weight matrix. This produced a large number of putative GREs. Most of these are likely false positive predictions. Secondly, two different strategies are used to improve the accuracy of our framework: combinatorial analysis of multiple TFs/modules of TFBSs and phylogenetic footprinting (PF). The number of putative GREs can be reduced by 97.9% using the module of TFBSs analysis, 97.7% using the PF analysis, and 99.9% using both module and PF analyses. In each step, a statistical test has been used to measure the significance of the results. Résumé Le récepteur aux glucocorticoïdes (GR) fait partie de la grande famille des récepteurs aux stéroïdes. "est impliqué dans le contrôle de l'expression d'un bon nombre de gènes formant un réseau de régulation physiologique large et étendu. "a un rôle important dans plusieurs pathologies et offre donc une excellente cible thérapeutique. "est donc essentiel de mieux comprendre les mécanismes d'action du GR. Nous nous sommes intéressé particulièrement à la régulation génique par le GR selon le mode d'interaction protéine-ADN tel un facteur de transcription liant spécifiquement un site de liaison à l'ADN. En effet, suite à la liaison de son ligand glucocorticoïde, le GR lie sous forme d'homodimère un site de liaison à l'ADN qui lui est spécifique : l'élément de réponse aux glucocorticoïdes (GRE). Dans la présente recherche, nous avons employé trios différentes approches bio-informatiques complémentaires afin d'identifier des gènes dont la transcription est potentiellement régulée directement par le GR chez la souris. Premièrement, nous nous sommes penché sur le problème de la recherche de GRE potentiels sur le génome complet de la souris en utilisant une matrice de poids des positions. Cette méthode nous a donné un très grand nombre de GRE potentiels parmi lesquels on retrouve essentiellement de fausses prédictions. Deuxièmement, deux différentes stratégies ont été employées pour augmenter la précision de notre outil de prédiction. D'une part, nous avons utilisé l'analyse combinatoire de modules de régulation de transcription formés d'au moins un GRE et de sites de liaisons à l'ADN pour d'autres facteurs de transcription. D'autre part, nous avons procédé à l'analyse d'empreintes phylogénétiques (PF) des GRE potentiels. Le nombre de GRE potentiels peut être réduit de 97.9% en utilisant l'analyse de modules et de 97.7% avec l'analyse d'empreintes phylogénétiques. La combinaison des deux stratégies a permis quant à lui de réduire ce nombre de 99.9%. Pour chaque étape, un test statistique a été utilisé pour évaluer le degré de signification des résultats. Acknowledgements First of ail, 1would like to express my deep gratitude to my supervisor, Professor Michael Hallett. His profound insights have enlightened and guided me immensely. 1would like to thank Dr. Sebastien Provencher for his advice and guidance in my entire research work, especially, on aspects of biological knowledge. 1 would like to thank Mr. Alexandre Marcil for his cooperation, information and experimental data providing in this research. 1owe special thanks for Mr. François Pepin for helping me with the BIAS system. Finally, 1 deeply appreciate my husband for his support, understanding, and patience. Table of contents: 1. Introduction ...................................................................................................................... 1 2. Biological Background .................................................................................................... 5 2.1. Promoter .................................................................................................................... 5 2.1.1. The Basic Structure of a Promoter and The Initiation of Transcription ............ 5 2.1.2. Modules .............................................................................................................. 7 2.2. Transcriptional Regulation by Glucocorticoid Receptor (GR) ................................. 9 3. Background for Computer Science and Bioinformatics Concepts ................................ 12 3.1. BIAS: Bioinformatics Integrated Application Software ......................................... 12 3.1.1 Modules in BIAS .............................................................................................. 14 3.1.2. InternaI Data Sources - Object-Relational Model ........................................... 15 3.1.3. External Data Sources ...................................................................................... 15 3.1.3.1 Java API of Ensembl (Ensj) ....................................................................... 16 3.1.3.2 Java API of BIAS ....................................................................................... 16 3.2. Background of Bioinformatics Approaches ............................................................ 17 3.2.1. Module for TFBS ............................................................................................. 17 3.2.1.1. A Markov chain (MC) [118] ..................................................................... 18 3.2.1.2. Position Weight Matrix (PWM) ................................................................ 20 3.2.1.3. Regions in Mouse Genome ....................................................................... 22 3.2.1.4. Search for putative TFBSs using PWM .................................................... 22 3.2.1.5. Statistical Significant Test ofputative TFBSs .......................................... 23 3.2.1.6. TRANSFAC .............................................................................................. 28 3.2.2. Background for the Genome Wide Search ofTFBSs ...................................... 29 3.2.3. Modules ............................................................................................................ 31 3.2.4. Phylogenetic Footprinting (PF) ........................................................................ 32 4. Methods And Implementation ....................................................................................... 37 4.1. External Data Sources Preparation in BIAS ........................................................... 37 4.2. Genome Wide Search For Transcription Factor Binding Site ................................ 39 4.3. Module ...................................................................................................................