Entschlüsselung Der Genomsequenz Von Escherichia Blattae Und Komparative Bioinformatik Mikrobieller Genome
Total Page:16
File Type:pdf, Size:1020Kb
Dissertation zur Erlangung des Doktorgrades der Mathematisch-Naturwissenschaftlichen Fakultäten der Georg-August-Universität zu Göttingen Entschlüsselung der Genomsequenz von Escherichia blattae und komparative Bioinformatik mikrobieller Genome vorgelegt von Arnim Wiezer aus Göttingen Göttingen 2004 D 7 Referent: Prof. Dr. G. Gottschalk Korreferent: PD Dr. R. Daniel Tag der mündlichen Prüfung: 1.7.2004 Inhaltsverzeichnis 1. Einleitung 1 2. Materialien und Methoden 4 2.1. Organismen und Plasmide ........................ 4 2.2. Nährmedien ................................ 4 2.3. Zellanzucht und Stammhaltung ..................... 6 2.3.1. Zellanzucht ............................ 6 2.3.2. Stammhaltung .......................... 6 2.4. Techniken für die Arbeit mit Nukleinsäuren .............. 6 2.4.1. Geräte und Lösungen ....................... 6 2.4.2. Isolierung chromosomaler DNA ................. 7 2.4.3. Isolierung von Plasmid DNA ................... 7 2.4.4. Isolierung von Cosmid DNA ................... 7 2.4.5. Aufreinigung von PCR-Produkten ................ 8 2.4.6. Isolation von DNA-Fragmenten aus Agarosegelen ....... 8 2.4.7. Scheren von DNA ......................... 8 2.4.8. DNA Konzentrationsbestimmung und Reinheitskontrolle ... 9 2.4.9. Dialyse von Nukleinsäuren .................... 10 2.4.10. Saccharose-Dichtegradientenzentrifugation ........... 10 2.4.11. Agarose Gelelektrophorese .................... 11 2.5. Modifikaton von Nukleinsäuren ..................... 11 2.5.1. Restriktion ............................ 11 2.5.2. Dephosphorylierung ........................ 12 2.5.3. Herstellung von „blunt ends“ ................... 12 2.5.4. Herstellung von Insert-DNA mit A-Überhang ......... 13 2.5.5. Ligation .............................. 13 2.5.6. „TOPO“-Klonierung ....................... 14 I Inhaltsverzeichnis 2.5.7. Transformation von E. coli TOP10-Zellen ............ 14 2.5.8. Transformation von E. coli DH5α-Zellen ............ 14 2.5.9. Blau-Weiß Screening (X-Gal-Test) ................ 15 2.6. Polymerasekettenreaktion (PCR) .................... 16 2.7. Genbanken ................................. 18 2.7.1. Plasmidbanken .......................... 18 2.7.2. Cosmidbanken ........................... 18 2.7.3. Cosmid-Subklonierungen ..................... 19 2.8. Sequenzierung ............................... 19 2.8.1. Sequenzierung mit MegaBace .................. 20 2.8.2. Sequenzierung mit ABI377 .................... 21 2.8.3. Sequenzabbrüche ......................... 22 2.9. Sequenzierungs-Software ......................... 25 2.10. Lückenschluss - gap closure ....................... 25 2.10.1. „Plasmid walking“ ......................... 25 2.10.2. Cosmid-Brücken zum Schließen von Lücken .......... 26 2.10.3. ERGO zum Schließen von Lücken ................ 27 2.10.4. Lückenschluss mit BLAST .................... 29 2.10.5. Multiplex-PCR .......................... 30 2.11. BLAST .................................. 31 2.11.1. Bi-direktionales BLAST ..................... 31 2.12. Annotation ................................ 32 2.12.1. ORF Vorhersage ......................... 33 2.12.2. ERGO ............................... 33 3. Ergebnisse 35 3.1. Genomprojekt Escherichia blattae .................... 35 3.1.1. Der Organismus .......................... 35 3.1.2. Sequenzierung ........................... 36 3.1.3. Rohsequenzierung ......................... 36 3.1.4. Lückenschluss ........................... 38 3.1.5. Qualitätsverbesserung ...................... 40 3.1.6. Annotation ............................ 40 3.1.7. Horizontaler Gentransfer in Escherichia blattae ........ 45 3.1.8. Vergleich mit anderen Enterobakterien ............. 47 II Inhaltsverzeichnis 3.2. Untersuchung des Methanosarcina mazei Gö1 Genoms ........ 49 3.2.1. Lokalisation des Replikationsursprungs ............. 50 3.2.2. Vergleich mit Methanosarcina acetivorans C2A ......... 56 3.2.3. Horizontaler Gentransfer in Ms. mazei - „first hit“-Methode .. 64 3.2.4. Horizontaler Gentransfer II - Vorhersagen mit SIGI ...... 65 3.3. Untersuchung des Thermus thermophilus HB27 Genoms ....... 66 3.3.1. Bestimmung des Replikationsursprungs ............. 67 3.3.2. Vergleich mit Deinococcus radiodurans R1 ........... 68 3.3.3. Horizontaler Gentransfer in Thermus thermophilus ...... 76 3.4. Programme ................................ 79 3.4.1. Quann ............................... 79 3.4.2. Cogger ............................... 81 3.4.3. secureBLAST ........................... 83 4. Diskussion 85 4.1. Genomsequenzierungsprojekt Escherichia blattae ............ 85 4.1.1. Sequenzierung ........................... 86 4.1.2. Annotation ............................ 86 4.1.3. Horizontaler Gentransfer in Escherichia blattae ........ 87 4.1.4. Vergleich mit anderen Enterobakterien ............. 88 4.2. Untersuchung des Methanosarcina mazei Gö1-Genoms ........ 89 4.2.1. Der Replikationsursprung .................... 90 4.2.2. Vergleich mit Ms. acetivorans .................. 92 4.2.3. Horizontaler Gentransfer in Ms. mazei ............. 95 4.3. Untersuchung des Thermus thermophilus HB27-Genoms ....... 98 4.3.1. Lokalisation des Replikationsursprungs ............. 98 4.3.2. Vergleich mit Deinococcus radiodurans R1 ........... 99 4.3.3. Horizontaler Gentransfer in Thermus thermophilus ...... 103 4.4. Programme ................................ 105 4.4.1. Quann ............................... 105 4.4.2. Cogger ............................... 106 4.5. Ausblick .................................. 108 5. Zusammenfassung 110 5.1. Genomprojekt Escherichia blattae .................... 110 III Inhaltsverzeichnis 5.2. Das Methanosarcina mazei Gö1-Genom ................. 110 5.3. Das Thermus thermophilus HB27-Genom ................ 111 5.4. Programmentwicklungen ......................... 111 Literaturverzeichnis 113 A. Anhang 124 A.1. bi-direktionales BLAST ......................... 124 A.2. Ms. mazei-spezifische Proteine ...................... 127 A.3. Ms. acetivorans-spezifische Proteine ................... 131 A.3.1. COG Gruppen .......................... 143 A.4. Bakterielle Gene nach der first-hit Methode in Ms. mazei ....... 143 A.5. Fremdgene in Ms. mazei SIGI-Vorhersage ................ 149 A.6. T. thermophilus Proteine ohne Homolog in D. radiodurans ....... 153 A.7. Fremdgene in T. thermophilus ...................... 162 A.8. T. thermophilus-spezifische Proteine (COG-Gruppe C) ........ 163 A.9. Gecoggte D. radiodurans-spezifische Proteine .............. 164 A.10.D. radiodurans-spezifische Proteine (COG-Gruppe K) ......... 171 A.11.D. radiodurans-spezifische Proteine (COG-Gruppe V) ......... 172 A.12.Gecoggte T. thermophilus-spezifische Proteine ............. 172 A.13.Fremdgene in E. blattae .......................... 176 A.14.E. blattae-spezifische Proteine ...................... 180 A.15.E. blattae-spezifische Proteine (Fremdgene) ............... 187 A.16.E. blattae-spezifische Proteine (Vergleich Enterobakterien) ...... 189 IV Abkürzungen A Adenin aa Aminosäuren (engl.: amino acids) Amp Ampicillin B. Buchnera (bi)dest. (zweifach) destilliert bp Basenpaare C Cytosin oC Grad Celsius ca. circa DMSO Dimethylsulfoxid DNA Desoxyribonukleinsäure E. Escherichia E-cup Eppendorf-Reaktionsgefäß EDTA Ethylendiamintetracetat et al. et alii (und andere) EtOH Ethanol Fa. Firma G Guanin g Gramm h Stunde IPTG Isopropyl-β-d-thiogalactopyranosid KAc Kalium-Acetat kbp Kilobasen Kan Kanamycin Konz. Konzentration l Liter LB Luria-Bertani V Abkürzungen M molar Mbp Mega Basenpaare MCS multiple cloning site mg Milligramm µg Mikrogramm min Minuten ml Milliliter mM millimolar µm Mikrometer NCBI National Center for Biotechnology Information OD optische Dichte ORF offener Leserahmen (engl.: open reading frame) PCR Polymerasekettenreaktion (engl.: Polymerase Chain Reaction) r Resistenz PEG Polyethylenglycol rpm Umdrehungen pro Minute (engl.: rounds per minute) RT Raumtemperatur S. Salmonella Sek Sekunde Sh. Shigella T Thymin Tab. Tabelle TEMED N, N, N, N’, N’-Tetramethylethylendiamid Tris Tris(hydroxymethyl)-aminoethan U Unit (Einheit für Enzymaktivität) Vol. Volumen v/v Volumeneinheit pro Volumeneinheit w/v Masseneinheit pro Volumeneinheit X-Gal 5-Brom-4-chlor-3-indolyl-β-D-galactopyranosid Y. Yersinia VI 1. Einleitung Stellen Sie sich vor, Sie müssten an einem Projekt mitarbeiten, das wie folgt be- schrieben wird: Es geht darum, den Inhalt einer Datei von 3,2 Gigabyte zu verstehen, die im Massenspeicher eines Computers mit unbekannter Konstruktion abgelegt ist. Das Verständniss dieser Datei ist gleichbedeutend mit dem reverse engineering des Computersystems bis hin zur vollständigen Be- schreibung und seiner Wartung. Das reverse engineering der Datei wird dadurch erschwert, dass die Datei „ein Haufen von Bytes“ in der Reihenfolge ist, in der sie in das Gerät ein- gegeben wurden. Außerdem ist bekannt, dass die Dateien fragmentiert vorliegen und manche Teile des Geräts enthalten auch gelöschte Dateien und anderen „Müll“. Nachdem man den Abfall identifiziert und verwor- fen hat, und nachdem dann die fragmentierten Dateien zusammengefügt wurden, kann man mit dem reverse engineering des Codes beginnen. Dabei verfügt man nur über unvollständige und manchmal auch falsche Erkenntnisse über die CPU (Zentrale Recheneinheit), auf der der Code läuft. Die Aufklärung von Aufbau und Funktion der CPU ist ebenfalls ein Teil des Projekts, denn manche Teile der 3,2 Gigabyte sind binäre Anweisungen für den computergestützten Produktionsprozeß, durch den die CPU hergestellt wird. Darüber hinaus gilt es zu berücksichtigen, dass zu dem riesigen Datenbestand