Losungen zu den Obungen

Ubung 1.1

Es gibt eine ganze Reihe von Online-Diensten und Internet-Ser­ vice-Providern. Entscheiden Sie sich fur einen Anbieter und laden Sie dessen Zugangsprogramm an einem Rechner, der bereits mit dem Internet verbunden ist, herunter. Speichern Sie dieses Programm auf Diskette oder CD und ftihren Sie das Pro­ gramm nach Anleitung auf Ihrem Rechner aus. Eine physikali­ sche Internet-Anbindungsrnoglichkeit (Modem, ISDN, DSL, etc.) muss dazu bereits bestehen. Bevor Sie das Programm auf Ihrem Rechner ausfuhren, sollten Sie einen Virus-Scan durch­ ftihren, urn sicherzugehen, dass das Programm keine Viren enthalt. Alternativ konnen Sie auch eine Zugangs-CD des jeweiligen Anbieters benutzen. Zugangs-CDs sind oft kostenlos erhaltlich und werden auf Anfrage von den Anbietern auch per Post zugesandt.

Ubung 1.2

Gehen Sie zu zwei verschiedenen WWW-Servern, die eine kos­ tenlose Email-Adresse anbieten. Ein Verzeichnis verschiedener Anbieter ist aufjedem Web-Katalog (z.B. http.z/www.yahoo.de/, http://www.web.del) zu finden. Melden Sie sich tiber die Anmeldeseite an. Die Anmeldung ist meist unkompliziert, es mussen lediglich eine Benutzerkennung und ein Kennwort gewahlt sowie einige Angaben zur Person gemacht werden. 190 Losungen zu den Ubungen

Nach Abschluss der Anmeldung konnen bereits Emails versen­ det werden. Einige Anbieter (z. B. web.de) kontrollieren die Identitat neuer Nutzer auf postalischem Weg und schalten den vollen Umfang an Funktionalitat erst nach dieser Kontrolle frei. Dieses Vorgehen soll den Missbrauch kostenloser Email­ Systeme eindarnmen.

Obung 1.3

Loggen Sie sich in einen der beiden Email-Accounts ein und folgen Sie dem Hyperlink zum Erstellen neuer Emails. Tragen Sie im Email-Formular die Adresse Ihres zweiten Accounts im Feld Empfiinger bzw. To und einen aussagekraftigen Betreff im Feld Betreff bzw. Subject ein. AnschlieBend konnen Sie den eigentlichen Text in das Texteingabefeld eintippen und die Email durch einen Mausklick auf die entsprechende Schaltfla­ che absenden. Da die Formulare der verschiedenen Anbieter unterschiedlich aufgebaut sind) kann hier nur eine prinzipielle Anleitung angegeben werden. Zumeist sind die Formulare jedoch selbsterklarend bzw. mit einer einfach zu verstehenden Anleitung versehen. Loggen Sie sich nach dem Absenden der Email in einem zweiten Browser-Fenster in Ihren zweiten Email-Account ein und priifen Sie, ob die Email bereits angekommen ist. Eventu­ ell kann es einige Minuten dauern, bis die Email ausgeliefert wird. Ist die Email angekornmen, offnen Sie sie und senden Sie eine Antwort iiber Antworten bzw. Reply zuruck, Im ersten Email-Account sollte nach einigen Minuten die Antwort ausge­ liefert werden. Haben Sie den Antwort/Reply Mechanismus benutzt, tragt die zweite Email die gleiche Subject-Zeile wie die erste Email) erganzt um die Information (z.B. RE:, AW:)) die erkennen lasst, dass es sich urn eine Antwort auf eine versen­ dete Email handelt. Sind beide Emails angekornmen, konnen beide Email-Accounts fur die Ubungen in den folgenden Kapi­ teln benutzt werden. L6sungen zu den Obungen 191

Obung 1.4

Sie benotigen fur diese und die folgenden Ubungen zum Umgang mit Unix einen Unix-Account. Viele Universitaten bie­ ten einen Computer-Pool an, der auch Linux- bzw. Unix-Rech­ ner umfasst. Wenden Sie sich fur eine Zugangsberechtigung an den Betreiber des Rechner-Pools, im Allgemeinen das Univer­ sitatsrechenzentrum, Man wird Ihnen dort auch gerne bei den ersten Schritten in der Unix-Umgebung behilflich sein. Loggen Sie sich in Ihren Account ein, indem Sie die Benut­ zerkennung und das Kennwort an der entsprechenden Abfrage eingeben. Der Login kann entweder tiber eine graphische Benutzerschnittstelle, eine Kommandozeile oder einen Telnet­ Zugang erfolgen. Wenn Sie eine graphische Benutzerschnitt­ stelle benutzen, dann starten Sie nach dem erfolgreichen Login eine shell. Wie eine shell gestartet wird, unterscheidet sich zwi­ schen den verschiedenen Unix-Systemen und den verschiede­ nen graphischen Benutzerschnittstellen. Wenden Sie sich bei Schwierigkeiten an Ihren Pool-Betreiber (Rechenzentrum). Wenn Sie eine Telnet-Verbindung zu einem Unix-Rechner von einem Windows-PC aus benutzen, dann konnen Sie die Telnet­ Verbindung von einem DOS-Fenster bzw. einem Command­ Window mit dem folgenden Befehl initiieren: t.eLnet. . Pur setzen Sie den Namen des entsprechenden Unix-Rechners ein, beispiels­ weise t.eLrie t, unixl. urz. uni-must.erhausen. de

Obung 1.S

Nach dem erfolgreichen Login sind Sie automatisch in Ihrem Stammverzeichnis (home directory). Den Inhalt des Stammver­ zeichnisses konnen Sie daher mit den folgenden Befehlen anzeigen: is Kurzform is -1 Langform is SHOME Anzeige des Stammverzeichnisses tiber die Umgebungsvariable $HOME, die automatisch beim Login gesetzt wird. 192 Losungen zu den Ubungen

Obung 1.6

Der pfad des aktuelIen Verzeichnisses wird mit dem folgenden Befehl ausgegeben: pwd

Obung 1.7

Der Kopierbefehl unter Unix heiBt cp. Folgende Befehle kopie­ ren daher die Datei fetclmotd in Ihr Stammverzeichnis: cp /etc/motd . cp /etc/motd SHaME Der Punkt (.) bezeichnet immer das aktuelIe Verzeichnis, d.h. der erste Befehl kopiert die entsprechende Datei also nur dann in Ihr Stammverzeichnis, wenn Sie sich aktuelI in diesem Ver­ zeichnis befinden. Der zweite Befehl benutzt die Umgebungs­ variable $HOME; diese Variable wird fur jeden Benutzer beim Login gesetzt und zeigt immer auf das Stammverzeichnis. Der Inhalt dieser Variablen kann mit dem Befehl echo SHOME auf dem Bildschirm ausgegeben werden.

Obung 1.8

Informationen zu Optionen von Unix-Befehlen erhalten Sie aus der Manual-Seite des jeweiligen Befehls. Die Manual-Seite des Kopierbefehls zeigen Sie mit dem Befehl man cp an. Die Option -i verhindert, dass bereits vorhandene Dateien gleichen Namens uberschrieben werden. SolI eine solche Datei kopiert werden, erfolgt eine automatische Nachfrage, ob die Datei uberschrieben werden solI.

Obung 1.9

Der Befehl mv verschiebt Dateien zwischen Verzeichnissen, bzw. benennt Dateien innerhalb eines Verzeichnisses urn. Dementsprechend lautet der Befehl: mv motd aktuell Losungen zu den Ubungen 193

Obung 1.10

Verzeichnisse werden mit dem Befehl mkdir angelegt: mkdirmessage_of_Loday

Obung 1.11

In dieser Ubung wird der Befehl mv zum Verschieben einer Datei benutzt. mv akt.ueLl, message_of_Loday Der Unterschied zwischen den beiden Befehlen zum Verschie­ ben und dem Umbenennen einer Datei liegt lediglich darin, dass im ersten Fall bereits ein existierendes Verzeichnis als Ziel angegeben wird. Im zweiten Fall wird ein Name, der im aktuel­ len Verzeichnis noch nicht vergeben wurde, angegeben.

Obung 1.12

Wechseln Sie mit dem Befehl cd message_of_Loday in das in Ubung 1.10 angelegte Verzeichnis. Zur Ausgabe des Dateiinhaltes konnen die folgenden Befehle benutzt werden: more akt.ueI l, Gibt den Dateiinhalt seitenweise aus. cat, akt.uel l, Gibt den Dateiinhalt vollstandig aus.

Obung 1.13

Wechseln Sie zuerst mit einem der folgenden Befehle in Ihr Stammverzeichnis: cd .. Sie befinden Sich nach Ubung 1.12 im Verzeich­ nis message-oj-today, d.h. ein Verzeichnis unter Ihrem Stammverzeichnis. Zwei Punkte (..) bezeichnen das Verzeichnis eine Stufe iiber dem aktuellen Verzeichnis, d.h. der Befehl cd .. wech­ selt in das dariiberliegende Verzeichnis. cd Der Befehl cd ohne weitere Optionen bzw. Ziel­ verzeichnisse wechselt von jedem Verzeichnis in das Stammverzeichnis des Benutzers. 194 Losungen zu den Ubungen

cd $HOME Der Befehl cd $HOME nutzt die Umgebungsvari­ able $HOME als Zielverzeichnis und wechselt damit ebenfalls in Ihr Stammverzeichnis. Nach dem Wechsel in Ihr Stammverzeichnis konnen Sie das neue Verzeichnis analog zu Ubung 1.10 mit dem Befehl mkdir ftp_download anlegen. Alternativ konnen Sie ein Verzeichnis auch durch die Angabe des kompletten pfades von jedem aktuellen Verzeichnis aus anlegen: mkdir$HOME/ftp_download Wechse1n Sie anschlieBend in das neue Verzeichnis mit einem der folgenden Befehle: cd ftp_download Wenn Ihr aktuelles Verzeich­ nis Ihr Stammverzeichnis ist. cd$HOME/ftp_download Wechselt von jedem aktuel­ len Verzeichnis in das Ver­ zeichnis ftp-download in Ihrem Stammverzeichnis.

Obung 1.14

Bevor Sie mit dem Downloadder Dateien beginnen, sollten Sie sich vergewissern, dass der Download von Dateien auf den Rechner, an dem Sie arbeiten, erlaubt ist. Initiieren Sie die FTP-Verbindung mit dem Befehl ftp ftp. ebi . ac. uk. Geben Sie am Login-Prompt den Benut­ zernamen ftp oder anonymous ein. Als Kennwort geben Sie Ihre vollstandige Email-Adresse an. Wechseln Sie mit dem Befehl cd /pub/databanks/embl/release in das EMBL-Datenbank-Verzeichnis auf dem FTP-Server. Zeigen Sie mit dem Befehl 1 s clas Verzeichnis auf dem Server an. Schal­ ten Sie den Server mit dem Befehl ascii in den ASCII-Uber­ tragungsmodus und laden Sie drei beliebige Dateien mit der Endung .dat herunter. Die Dateien auf dem EMBL-Server sind komprimiert und tragen daher die Endung .dat.gz. Lassen Sie die Endung .gz im Befehl zum Download weg, so dass die Dateien automatisch entpackt werden. Losungen zu den Ubungen 195 get. . dat, Setzen Sie fur den Stammna­ men, d.h. den Teil des Dateinamens vor der Endung .dat ein und ftihren Sie diesen Befehl dreimal mit verschie­ denen Dateien aus. Beenden Sie die FTP-Session durch die Eingabe eines der Befehle bye oder quit.

Obung 1.15

Zur Ausgabe der ersten Zeilen einer Datei wird der Befehl head benutzt. Der entsprechende Befehl zur Ausgabe der ersten 35 Zeilen lautet also folgendermaBen: head -35 . dat,

Obung 1.16

Mit dem Befehl grep kann nach einer Zeichenfolge in einer Datei gesucht werden. Die Standardausgabe des grep-Befehls umfasst die Zeilen der Datei, welche die gesuchte Zeichenfolge enthalten: grep eont.ig *. dat, r.dat bezieht sich auf alle Dateien des aktueIlen Verzeichnisses mit der Endung .dat. grep -i eont.ig *. dat, Die Option -i schaltet die Unter­ scheidung von GroB-/Klein­ schreibung aus.

Obung 1.17

Geben Sie zuerst die Anzahl der Zeilen aIler Dateien mit dem Befehl we -1 *. dat, aus. Die Ausgabe enthalt die Anzahl der Zeilen jeder der drei Dateien sowie die Summe der Zeilen. Urn festzustellen, wie viele Zeilen den Begriff Sequence enthalten, muss ein grep- Befehl mit einem wc-Befehl kombiniert werden. Die Kombination erfolgt uber das Pipe-Symbol (I). Das Pipe- 196 Losungen zu den Ubungen

Symbolleitet die Ausgabe des Befehls links der Pipe in die Ein­ gabe des Befehls auf der rechten Seite: grep Sequence *. dat Iwc -1

Obung 1.18

Der Befehl rmdir loscht leere Verzeichnisse. Wechseln Sie mit dem Befehl cd direkt in Ihr Stammverzeichnis und wenden Sie den Befehl rmdir ftp_down1oad an. Ohne zuvor alle Inhalte des Verzeichnisses geloscht zu haben, erhalten Sie eine Fehlermeldung. Daher miissen Sie zuerst im Verzeichnis ftp_download alle Inhalte mit dem Befehl rm *. dat loschen. AnschlieBend konnen Sie im Stammverzeichnis mit dem Befehl rmdir ftp_down1oad das Verzeichnis loschen.

Obung 2.1

DNA und RNA unterscheiden sich im Aufbau der Nukleotide. Wahrend in der DNA die Desoxyribose als Zuckerrest zu fin­ den ist, tritt in der RNA die Ribose als Zuckerrest auf. Dariiber hinaus ersetzt die Base Uracil die Base Thymin in der RNA. DNA liegt als komplernentarer Doppelstrang vor, wahrend RNA als Einzelstrang vorliegt.

Obung 2.2

In der DNA treten die beiden Basenpaarungen A-T und G-C auf. Ein Purinsystem ist jeweils mit einem Pyrimidinsystem gepaart. Zwischen der Basenpaarung A-T liegen zwei Wasser­ stoffbruckenbindungen, in der Basenpaarung G-C drei Wasser­ stoffbriickenbindungen vor.

Obung 2.3

Genom bezeichnet die Gesamtheit der genomischen DNA, Transkriptom die Gesamtheit der reifen mRNA. Proteom bezeichnet die Gesamtheit aller Proteine. Unter Metabolom Losungen zu den Ubungen 197 versteht man die Gesamtheit der reifen Proteine, die den Stoff­ wechsel eines Organismus bewerkstelligen.

Obung 2.4

Die Aminosiiurenabfolge der Proteine wird tiber den geneti­ schen Code festgelegt. Es existieren 20 naturlich vorkommende Arninosauren, jedoch nur vier Basen, die in der DNA fur die Proteine kodieren. Foiglich muss die Codierung tiber Basen­ multipletts erfolgen. Ein Basenduplett aus vier Basen errnog­ licht die Codierung von 42 = 16 Arninosauren und ist daher nicht ausreichend fur die Codierung von 20 Arninosauren. Ein Basentriplett hingegen errnoglicht 43 = 64 Kombinationen. Mehrere Tripletts kodieren dementsprechend fur die gleiche Aminosaure, Man bezeichnet den genetischen Code daher auch als degeneriert.

Obung 2.5

Der Name CRICKsteht fur die Aminosauren Cystein, Arginin, Isoleucin, Cystein und Lysin. Cystein wird durch die Basentri­ pletts UGU oder UGC codiert, Arginin durch die Basentripletts CGU, CGC, CGA oder CGG, Isoleucin durch AUU, AUC oder AUA, und Lysin wird durch die Basentripletts AAA oder AAG codiert. Ein moglicher genetischer Code fur eine Aminosau­ renabfolge, die in der Einbuchstaben-Schreibweise den Namen CRICK ergibt, konnte also folgendermaBen aussehen: UGU CGU AUU UGU AAA.

Obung 2.6

Das zentrale Dogma der Molekularbiologie wurde von Francis Crick aufgestellt und beschreibt die Beziehung zwischen DNA, RNA und Proteinen. Die Information der DNA wird im Vor­ gang der Transkription in RNA umgeschrieben, die in der anschlieBenden Translation in Proteine ubersetzr wird. In der Natur verlauft dieser Informationsfluss immer in dieser Rich- 198 Losungen zu den Ubungen

tung mit Ausnahme einiger RNA -Viren, die in der Lage sind, RNA zu replizieren sowie RNA in DNA umzuschreiben.

Obung 2.7

SpleiBen bezeichnet das Entfernen von Introns aus der noch unreifen mRNA. Der Vorgang des alternativen SpleiBens beschreibt alternative Moglichkeiten des Herausschneidens und Zusammenfugens von Introns und Exons. Dadurch kann ein Gen fur mehrere Proteine kodieren, was eine Erklarung fur die Diskrepanz zwischen der groBen Zahl von Proteinen gegenuber der relativ kleinen Zahl von Genen im menschli­ chen Genom sein konnte.

Obung 2.8

Das Venn-Diagramm (Abb. 2.5) zeigt die Eigenschaften der Aminosauren. Die Eigenschaften hydrophob, polar und klein weisen die Arninosauren Threonin und Cystein auf. Hydro­ phob und aliphatisch sind die Aminosauren Isoleucin, Leucin und Valin.

Obung 2.9

Die Primarstruktur der Proteine wird definitionsgemafs vom N-Terminus zum C-Terminus gelesen.

Obung 2.10

In der Sekundarstruktur der Proteine werden drei Struktur­ bausteine unterschieden: Die Helix, das Faltblatt und nicht­ repetitive Strukturen, Loops oder Schleifen, weIche die beiden erstgenannten Strukturelemente miteinander verknupfen, Losungen zu den Dbungen 199

Obung 3.1

Gehen Sie zur Startseite des NCBI (http://www.ncbi.nlm.nih. gOY/). Wahlen Sie im Pulldown-Menii Search links oben den Begriff aus. Geben Sie anschlieBend die Suchbe­ griffe in der entsprechenden Kombination in das Texteingabe­ feld rechts neben dem Pulldown-Menii ein und driicken Sie die Schaltflache Go, rechts neben dem Texteingabefeld, urn die Datenbankabfrage durchzufuhren. [e nach Kombination der Suchbegriffe erhalten Sie verschiedene Ergebnisse. Beispiels­ weise erhalten Sie mit der Kombination hydrolysis AND non-reducing AND arabinofuranoside AND bacillus AND subtilis drei Datenbankeintrage (Stand April 2003), die a-L-Arabinofuranosidasen 1 und 2 aus Bacillus subtilis sowie die a-L-Arabinofuranosidase aus Bacillus halo­ durans. Letzterer Eintrag enthalt im Zitat des Originalartikels auch die Worte Bacillus subtilis. Da eine reine Textsuche durch­ gefiihrt wurde, zeigt das Ergebnis auch diesen Eintrag an. Schranken Sie jedoch die Begriffe Bacillus subtilis auf das Organismen-Datenbankfeld ein, so werden nur die beiden Ein­ trage der a-L-Arabinofuranosidasen 1 und 2 aus Bacillus subti­ lis gefunden. Die Abfrage lautet in diesem Fall Bacillus subtilis[ORGN] AND terminal AND non-redu­ cing AND arabinofuranoside.

Obung 3.2

Urn die Nukleotidsequenz des entsprechenden Gens fur ABF2_BACSU zu finden, miissen Sie auf der Startseite des NCBI (http://www.ncbi.nlm.nih.gov/) im Pulldown-Menii Search den Begriff Nucleotide auswahlen, Wenn Sie die gleichen Suchbegriffe wie in Ubung 3.1 benutzen, finden Sie keinen Eintrag. Sie konnen jedoch im Datenbankeintrag des (s. Ubung 3.1) den Namen des zugehorigen Gens fin­ den. Der Genname findet sich im Abschnitt Features. Dieser Abschnitt ist wiederum in Unterabschnitte eingeteilt. In den Unterabschnitten und Protein ist jeweils neben dem 200 Losungen zu den Ubungen

Schliisselwort /gene= der Name des entsprechenden Gens (XSA) aufgefiihrt. Geben Sie diesen Gennamen XSA nun in das Texteingabe­ feld auf der NCBI-Startseite ein. Uberprufen Sie, dass im Pull­ down-Menii der BegriffNucleot.ide ausgewahlt ist. Kombi­ nieren Sie diesen Begriff zusatzlich noch mit dem Begriff Bacillus subt.ilis und schranken Sie diesen Suchbe­ griff auf das Organismen-Datenbankfeld ein. Die Eingabe im Textfeld sollte dementsprechend folgendermaBen aussehen: XSA AND Bacillus subt.ilis [ORGN] . Sie konnen die AND Operatoren auch weglassen. Mehrere Begriffe werden automatisch iiber AND verkniipft, sofern kein anderer Opera­ tor angegeben wird. Es werden mehrere Datenbankeintrage des Bakteriums gefunden, darunter auch das komplette Genom von B. subtilis. Wenn Sie dem entsprechenden Hyperlink folgen, wird das gesamte Genom des Bakteriums geladen. Die Informationen zum entsprechenden Gen finden Sie wiederum im Abschnitt Features. Setzen Sie dazu am besten die Textsuchfunktion Ihres Browsers ein und suchen Sie nach dem Gennamen XSA. Uber dem Gennamen finden Sie direkt rechts der beiden Schliissel­ w6rter fur den Unterabschnitt (gene bzw. CDS) die Nummer der ersten und der letzten Base der im Datenbankeintrag ent­ haltenen Nukleotidsequenz. 1st neben den Nummern der Start- und Endbase zusatzlich das Schliisselwort complement vorhanden, bedeutet dies, dass das Gen auf dem kornplementa­ ren Strang der DNA lokalisiert ist.

Ubung 3.3

Entrez ist das Datenbankabfragesystem des NCBI. Gehen Sie also zur Startseite des NCBI (http://www.ncbi.nlm.nih.gov). Die Abfrage des Systems erfolgt analog zu Ubung 3.1. Geben Sie in das Texteingabefeld die Accession Number P94552 ein und driicken Sie anschlieBend die Schaltflache Go. Achten Sie darauf, dass im Pulldown-Menii Search der Begriff Prot.ein ausgewahlt ist. Alternativ konnen Sie von der Startseite des Losungen zu den Ubungen 201

NCBI auch zuerst dem Hyperlink Ent.rez (dunkelblau hinter­ legte Leiste iiber dem Texteingabefeld) zum -System fol­ gen. Sie gelangen damit zu einer Auswahlseite, von der aus Sie durch Anklicken des Hyperlinks Prot.ein zur entsprechen­ den Anfrageseite kommen. Geben Sie auch in dieses Texteinga­ befeld die Accession Number P94552 ein und driicken Sie die Schaltflache Go. In beiden Fallen wird der Eintrag des Proteins ABF2_BACSU angezeigt.

Ubung 3.4

Gehen Sie zur Startseite des EBI (http://www.ebi.ac.uk) und geben Sie die AN P 94 552 in das Texteingabefeld Search Data­ base for ein. Stellen Sie anschliefsend im Pulldown-Menii den Begriff Prot.ein sequences ein und driicken Sie die Schaltflache Go. Es wird wiederum der Datenbankeintrag des Proteins ABF2_BACSU gefunden. Sie konnen sich den Daten­ bankeintrag ansehen, indem Sie dem Hyperlink links in der Tabelle folgen. Auf den ersten Blick unterscheidet sich der Ein­ trag sehr stark von dem entsprechenden Eintrag des NCBI. Der EBI-WWW-Server bietet als Standardansicht fur die Swis­ sprot-Datenbank, aus welcher der Datenbankeintrag stammt, eine graphisch aufbereitete Ansicht an, wie in Kap. 3 bereits erwahnt, Den originalen Datenbankeintrag sehen Sie, wenn Sie dem Hyperlink Text Entry im tiirkisfarbenen Balken oben auf der Seite folgen.

Obung 3.5

Gehen Sie von der Ergebnisseite (Ubung 3.4) auf die Hauptseite des SRS-Servers, indem Sie auf den Reiter (tab) Top Page (graue Rechtecke neben dem SRS@EMBL-EBI Logo oben auf der Seite) klicken. Wahlen Sie die Datenbank SWALL (SPTR) aus. Sie finden die Datenbank im dritten Abschnitt (Protein sequence databases). Markieren Sie die Datenbank durch einen Mausklick in die Auswahlbox links neben der Datenbank. Geben Sie dann den Suchbegriff ABF2_BACSU in das Text- 202 Losungen zu den Ubungen

eingabefeld oben (grau hinterlegter Balken) ein und driicken Sie anschlieflend die Schaltflache Quick Search. Es wird wiederum der gleiche Datenbankeintrag wie in der vorherge­ henden Ubung gefunden. Sowohl die Accession-Number P94552 als auch der Identifier ABF2_BACSU sind jeweils eindeutige Identifizierungen dieses Eintrages. Die Quick Search Suche fiihrt eine einfache Volltextsuche in den Datenbankeintragen durch. Dadurch kann es vorkommen, dass trotz der Verwen­ dung einer eindeutigen Identifizierung mehrere Datenbankein­ trage gefunden werden. Dies ist dann der Fall) wenn Datenban ­ keintrage im Text Verweise auf diesen Eintrag enthalten.

Obung 3.6

In der SwissEntry-Ansicht) der graphisch aufbereiteten Ansicht, ist der Datenbankeintrag in acht Abschnitte aufgeteilt. 1m ersten Abschnitt General Information sind die beiden ein­ deutigen Identifizierungen Identifier und Accession Number verzeichnet. Zusatzlich sind in diesem Abschnitt das Datum des Ersteintrages sowie die Daten der letzten Anderungen an der Sequenz- bzw. Annotationsinformation aufgefiihrt. 1m zweiten Abschnitt Description and origin of the Protein ist eine kurze Punktionsbeschreibung, der Name des zugehorigen Gens) der Organismus, aus dem das Protein stammt, sowie die taxonomische Einordnung des Organismus mit einem Hyper­ link zur Taxonomy-Datenbank des NCBI zu finden. Abschnitt 3 References verzeichnet die Zitate der zugehori­ gen Originalartikel mit den entsprechenden Hyperlinks zur Medline- und Pubmed-Datenbank. Abschnitt 4 Comments ent­ halt Kommentare zur Funktion des Proteins sowie der Zugeho­ rigkeit zu einer Proteinfamilie. Der folgende Abschnitt Copy­ rightenthalt Copyright-Informationen zum Datenbankeintrag. In Abschnitt 6 Database Cross-references sind Hyperlinks zu anderen Datenbanken, die Eintrage zu diesem Protein beinhal­ ten) verzeichnet. Durch Mausklick auf einen dieser Hyperlinks wird direkt eine entsprechende Datenbankabfrage durchge­ fiihrt und der zugehorige Datenbankeintrag angezeigt. Losungen zu den Ubungen 203

Abschnitt 7 Keywords listet eine Reihe von Schliisselwortern, die im Datenbankeintrag vorkornmen, auf. Diese Schlusselwor­ ter konnen in einer Datenbankrecherche zur Suche von Daten­ bankeintragen benutzt werden. Der letzte Abschnitt Sequence Information gibt schliefslich die eigentliche Sequenzinforma­ tion wieder.

Obung 3.7

Gehen Sie zur SwissEntry-Ansicht des Datenbankeintrages aus Ubung 3.6 und folgen Sie einem der beiden Hyperlinks (Med­ line oder Pubmed) der Referenz 1. Der Hyperlink liefert eine Bibliographie sowie eine Zusammenfassung der entsprechen­ den Veroffentlichung. Das SRS-System des EBI spiegelt die Pubmed-Datenbank des NCBI und kann daher bei Uberlas­ tung oder bei schlechter Erreichbarkeit des NCBI als Alterna­ tive genutzt werden.

Obung 3.8

Gesucht sind zwei Gene arf1 und arf2 einer unbekannten Spe­ zies, die zur a-L-Arabinofuranosidase 1 bzw. 2 aus Bacillus subtilis homolog sind. Zur Losung dieser Frage solI eine kurze Literaturrecherche durchgefuhrt werden. Gehen Sie dazu nochmals zur Startseite des NCBI und fuhren Sie eine Recher­ che in der Pubmed-Datenbank durch. Stellen Sie dazu im Pull­ down-MenU Search den Begriff Pubmed ein und geben Sie die Suchbegriffe in das Texteingabefeld ein. Mit der Kombination der Begriffe bacillus subt.ilis AND arabinofura­ nosidase werden eine Reihe von VerOffentlichungen gefun­ den. Die Losung ist verborgen in der VerOffentlichung von Kim et al. (Kim KS, Lilburn TG, Renner MJ, Breznak JA 1998. arfI and arfll, two encoding alpha-L-arabinofuranosidases in Cytophaga xylanolytica. Appl Environ Microbiol 64, 1919­ 1923). Arfl und arf2 stammen aus Cytophaga xylanolytica. Weitere Spezies, die homologe Proteine besitzen, sind Bacteroi­ des ovatus und Clostridium stercorarium. 204 Losungen zu den Ubungen

Obung 3.9

Sie konnen die Suche nach einer Veroffentlichung eines Autors auf verschiedene Art und Weise durchfuhren. Die einfachste Form ist wiederum, auf der NCBI Startseite den Nachnamen des Autors in das Texteingabefeld einzutippen und anschlie­ Bend die Schaltflache Go zu drucken, Bei dieser Art der Suche werden die meisten Eintrage gefunden, da eine Volltextsuche durchgefuhrt wird und dadurch auch alle Veroffentlichungen angezeigt werden, die diesen Namen im Text selbst enthalten. Urn die Suche nur auf Autoren zu beschranken, muss nach dem Namen das Datenbankfeld, in dem gesucht werden soll, spezi­ fiert werden. Geben Sie dazu den Identifier des entsprechenden Datenbankfeldes in eckigen Klammern direkt ohne Leerzei­ chen nach dem Suchbegriff ein. In diesem Fall also Blo­ bel [auI. Mit diesem Suchbegriff werden nur Veroffentli­ chungen gefunden, deren Autorenliste den Namen Blobel ent­ halt. Allerdings gibt es neben Gunther Blobel eine ganze Reihe von Autoren mit dem Nachnamen Blobel. Urn die Suche also noch weiter einzuschranken und nur VerOffentlichungen von Gunther Blobel zu suchen, kann als Suchbegriff Blobel G eingegeben werden. Bei dieser Schreibweise erkennt das Ent­ rez-System selbststandig, dass nach einem Autorennamen gesucht wird und schrankt die Suche automatisch ein. Mochte man mehrere Vornamen berucksichtigen, so mtissen die Anfangsbuchstaben direkt ohne Leerzeichen hintereinander geschrieben werden (z.B. Edison TA fur Thomas Alva Edison). Urn die Suche nur auf das Autorenfeld einzuschranken, kann auch hier wieder der Zusatz [au I angegeben werden. Im Tutorial zur Pubmed-Datenbank (http://www.nlm.nih.gov/bsd/ pubmed-tutorial/mlOOl.html) finden Sie weitere nutzliche Informationen zur Einschrankung von Suchergebnissen.

Obung 3.10

Gehen Sie zur Prosite-WWW-Seite (http://www.expasy.orgl prositel) und geben Sie die Sequenz in Raw- oder FASTA-For- Losungen zu den Ubungen 205 mat per cut&paste in das Texteingabefeld im Abschnitt Tools for PROSITE ein. Alternativ konnen Sie auch die Swissprot­ Accession-Number P94552 oder die Swissprot-ID ABF2_BACSU eingeben. Durch einen Mausklick auf die Schaltflache Quick Scan wird die Suche gestartet. Sofern Sie die Auswahlbox Exclude Patterns with a high probability of occurrence nicht angewahlt haben, werden 30 Hits aus den folgenden funf Motiven gefunden: N-glycosylation site, Tyrosine sulfation site, Protein kinase C phosphorylation site, Casein kinaseIIphosphorylation site und N-myristoylation site (Stand April 2003). Alle ftmf Motive tragen die Warnung pattern with a high probability of occurrence. Diese Warnung sagt aus, dass diese Motive haufig in Sequenzen auftreten und daher moglicherweise zu einer falschen Funktionsableitung fuhren konnten, Neben jedem Motiv finden sich zwei Hyper­ links zu den zugehorigen Eintragen in den beiden Dateien der Prosite-Datenbank. Informationen zur biologischen Bedeu­ tung und Funktion des jeweiligen Motivs befinden sich in der Beschreibungsdatei, die tiber die entsprechenden Accession­ Number-Links (PDOC) erreicht werden kann.

Obung 3.11

Gehen Sie zur Startseite des Prints-WWW-Servers (http://bioinf.man.ac.uk/dbbrowser/PRINTSI) und folgen Sie dem Hyperlink F ingerPRINTScan im Abschnitt PRINTS search. Wahlen Sie auf der folgenden Seite den Hyperlink FPScan und geben sie die Sequenz des Eintrages ABF2_BACSU per cut&paste in das Texteingabefeld als Raw­ Sequence, d.h. nur die Sequenzinformation ohne die FASTA­ Kopfzeile ein. Durch Drticken der Schaltflache Send Query starten Sie die Suche. Die Ergebnisseite zeigt keine signifikan­ ten Treffer fur die gewahlte Sequenz. Fiihren Sie die gleiche Abfrage nochmals mit der Sequenz AlAB_HUMAN der Swiss­ prot-Datenbank durch. Laden Sie dazu den entsprechenden Datenbankeintrag aus der Swissprot-Datenbank und geben Sie die Sequenz in Raw-Format per cut&paste in das Formular ein. 206 Losungen zu den Obungen

Die Ergebnisseite zeigt im ersten Abschnitt drei highest scoring fingerprints. Die beiden folgenden Abschnitte listen die zehn besten fingerprints auf. [eder der drei highest scoring finger­ prints weist drei Hyperlinks auf, die zur eigentlichen Prints­ Datenbank, zu Informationen zur Proteinfamilie sowie zu einer graphischen Darstellung der Motivverteilung auf der Sequenz fiihren. Die untersuchte Sequenz gehort zu einem humanen adrenergenen G-Protein-gekoppelten Rezeptor, was durch die drei Fingerprints bestatigt wird.

Obung 3.12

Gehen Sie zur Startseite des Blocks-WWW-Servers und folgen Sie dem Hyperlink Blocks Searcher. P35368 ist die Accession Number der Sequenz A1AB_HUMAN aus Ubung 3.11. Haben Sie das entsprechende Browser-Fenster bereits geschlossen, laden Sie die Sequenz nochmals aus der Swissprot-Datenbank herunter und geben Sie die Sequenz per cut&paste in das ent­ sprechende Texteingabefeld des Blocks Searcher Formulars ein. Geben Sie auBerdem Ihre Email-Adresse in das entsprechende Feld ein, damit Sie das Suchergebnis per Email erhalten. Sen­ den Sie die Abfrage anschlieBend ab, indem Sie die Schaltfla­ che Perform Search anklicken. Nach einigen Minuten erhalten Sie das Ergebnis als Email im HTML-Format. Kann Ihr Email-Programm dies nicht darstellen, konnen Sie gegebe­ nenfalls die Email speichern und mit einem Browser offnen. Unter einer kurzen Erklarung zum Autbau der Ergebnisseite steht das eigentliche Ergebnis der Suche. Der erste Abschnitt enthalt eine Zusammenfassung der Suche gefolgt von einer Auflistung der moglichen Hits. Pur A1AB_HUMAN werden acht mogliche Hits gefunden, wobei nur der erste Hit (Rhodop­ sin-like GPCR superfamily) signifikant ist. Die restlichen sieben Hits haben nur in einem Teil der zugehorigen Motive Treffer und produzieren dementsprechend schlechte E- Values. Der E­ Value ist ein MaB daftir, mit einer zufalligen Aminosaurenab­ folge einen Treffer der gleichen Giite zu produzieren und sollte entsprechend seiner mathematischen Definition moglichst LOsungenzu den Ubungen 207 klein sein (s. auch Kap. 4). Der zweite Abschnitt enthalt detail­ lierte Informationen zu jedem der moglichen Hits.

Obung 3.13

Gehen Sie zur Startseite des Pfam-WWW-Servers (http://www. sanger.ac.uk/Software/Pfaml) und klicken Sie auf den Tab Pro­ tein Search. Geben Sie entweder die Accession Number (P35368) bzw. ID (AIAB_HUMAN) des Proteins in das ent­ sprechende Texteingabefeld zur Abfrage der bereits vorberech­ neten Ergebnisse oder geben Sie die Sequenz per cut&paste im FASTA-Format in das zugehorige Texteingabefeld ein. Starten Sie die Abfrage durch einen Mausklick auf die zur gewahlten Methode gehorige Schaltflache. Nach einigen Sekunden wird das Ergebnis der Abfrage ange­ zeigt. Der wahrscheinlichste Treffer wird von der Pfam-Protein­ familie Ztm.L erzeugt. 7tm_l steht fur die Rhodopsin-Pamilie G-Protein-gekoppelter Rezeptoren mit sieben Transmembran­ helices. Beide Ergebnisseiten (vorberechnet und neu berechnet) enthalten Hyperlinks zu Annotationen der Proteinfamilie.

Obung 3.14

Gehen Sie zur Startseite des Interpro-WWW-Servers und fol­ gen Sie dem Hyperlink Sequence Search im linken Teil der Seite (grau hinterlegter Bereich). Geben Sie die Sequenz im FASTA­ Format per cut&paste in das Textfeld ein oder laden Sie die Sequenz aus einer Datei (upload). Wahlen Sie im folgenden Abschnitt aus, ob Sie eine interaktive Session durchfuhren mochten oder ob Sie per Email benachrichtigt werden moch­ ten, sobald die Suche beendet ist. Geben Sie abschliefiend Ihre Email-Adresse in das entsprechende Textfeld ein und starten Sie die Suche durch Driicken der Schaltflache Subrnit, Job. Die Angabe der Email-Adresse ist auch in einer interaktiven Session notwendig. Die Ergebnisseite zeigt eine graphische Aufbereitung der einzelnen Treffer aus den verschiedenen Member-databases in 208 LOsungen zu den Ubungen

der Interpro-Datenbank. Folgt man dem Accession Number Hyperlink der Abfrage-Sequenz (Spalte InterPro Scan), gelangt man zur tabellarischen Darstellung der Treffer. Das Ergebnis reproduziert die Befunde aus den vorangehenden Ubungen, d. h. die Abfrage der Interpro-Datenbank kann haufig die Abfrage der einzelnen Datenbanken ersetzen.

Obung 4.1

Gehen Sie zur NCBI-Seite (http://www.ncbi.nlm.nih.gov) und wahlen Sie die Proteindatenbank aus, indem Sie im Pulldown­ Menii links oben (blau hinterlegter Balken) den Begriff Pro­ t.ei.n auswahlen, Geben Sie anschliefsend den Suchbegriff 5­ hydroxy"Lryp"Larnine 2A r ecept.or in das Textfeld rechts neben dem Pulldown-Menii ein und driicken Sie auf die Schaltflache Go rechts neben dem Textfeld. Urn die Suche wei­ ter einzuschranken, konnen Sie den Suchbegriffhorno sapi­ ens [orgn] mit AND kombinieren. Es werden mehrere Ein­ trage des humanen Serotonin-Rezeptors gefunden. Markieren Sie den Swissprot-Datenbankeintrag des humanen Serotonin­ Rezeptors (Swissprot-Accession-Number P28223, -ID: 5H2A_ HUMAN) durch einen Mausklick in die Auswahlbox links neben dem Eintrag. Wahlen Sie anschlieBend im Pulldown­ Menii iiber den Ergebnissen (grau hinterlegter Balken) das Datenformat FASTA aus und driicken Sie auf die Schaltflache Send t.o: dabei sollte im Pulldown-Menii rechts neben der Schaltflache F i 1 e ausgewahlt sein. Mit dieser Einstellung wird die Sequenzinformation des Datenbankeintrags direkt im FASTA-Format auf der Festplatte gespeichert. Gegebenenfalls offnet sich vor dem Abspeichern ein Dialogfenster Ihres Brow­ sers, in dem Sie entscheiden konnen, die Datei abzuspeichern oder mit einem anderen Programm direkt zu offnen, Spei­ chern Sie die Datei bitte unter einem deskriptiven Namen auf der Festplatte abo Sie konnen sich die Sequenz zuvor auch im Browser anse­ hen und eventuell durch cut&paste iibertragen, indem sie nach dem Umstellen auf FASTA-Format (Pulldown Menii FASTA) Losungen zu den Ubungen 209 auf die Schaltflache DISPLAY klicken. Probieren Sie gegebe­ nenfalls auch verschiedene andere Datenformate aus.

Obung 4.2

Gehen Sie zur NCBI-Blast-Seite (http://www.ncbi.nlm.nih.gov/ blast). Sie erreichen die Seite entweder durch den Hyperlink BLAST in der Linkzeile am Anfang der NCBI-Startseite oder durch die Eingabe der URL. Ihre Startsequenz ist eine Proteinsequenz und Sie mochten eine Suche gegen die nicht-redundante Proteindatenbank des NCBI durchfiihren. Sie miissen folglich das Programm blastp benutzen. Klicken Sie dazu auf den Hyperlink Standard pro­ tein-protein BLAST [biastp] im Abschnitt Protein BLAST. Geben Sie anschliefiend die Sequenz aus Ubung 4.1 mittels cut&paste in das Search- Textfeld ein. Statt der kompletten Sequenz kann auch nur die Accession-Number (P28223) bzw. der NCBI-Identifier (gi!S43727) verwendet werden. Dies ist allerdings eine Besonderheit des NCBI-BLAST-Servers und nicht bei allen im WWW verfiigbaren Servern moglich. Eine Erklarung zu diesem Textfeld sowie auch zu anderen Feldern und Auswahlmoglichkeiten finden Sie, wenn Sie dem jeweili­ gen Hyperlink neben dem Eingabefeld (z. B. Search) folgen. Klicken Sie anschliefsend auf die Schaltflache BLAST!. Die zusatzlichen Einstellungen errnoglichen es) die BLAST-Suche weiter zu verfeinern, sind aber fur diese Ubung nicht notwen­ dig. Nach dem Absenden des Auftrages erhalten Sie eine Besta­ tigung, die eine mehrstellige request-ID enthalt. Mit dieser ID konnen Sie das Ergebnis der Analyse auch eine gewisse Zeit spater noch abrufen. Sofern Sie auch Do a CD-Search aus­ gewahlt hatten, enthalt diese Seite schon ein Ergebnis einer Abfrage der Conserved Domain Database (CDD). Durch Drii­ cken der Schaltflache Format.! kommen Sie zur eigentlichen Ergebnisseite. Sollte die Analyse noch nicht abgeschlossen sein, Z. B. aufgrund starker Auslastung des Servers) wird eine selbst aktualisierende Statusseite angezeigt, bis die Analyse beendet ist. 210 Losungen zu den Ubungen

Derzeit werden ca. 150 Treffer in der Datenbank (Stand April 2003) gefunden; die Trefferanzahl kann in Ihrem Ergeb­ nis aufgrund der veranderten Datenlage abweichen. Die gra­ phische Ubersicht gibt Ihnen einen ersten Uberblick tiber die Lage und Lange der Treffer in Bezug auf die Abfragesequenz. Die Giite (Alignment Score) der Treffer ist farbkodiert darge­ stellt.

Obung 4.3

Das Programm blastn finden Sie unter dem Hyperlink Stan­ dard nucleotide-nucleotide BLAST [blastn] im Abschnitt Nucle­ otide BLAST, das Programm blastxunter dem Hyperlink Nucle­ otide query - Protein db [blastx] im Abschnitt Translated BLAST Searches. Fiihren Sie die beiden Suchen mit der glei­ chen Nukleotidsequenz (AB037513) durch. Sie konnen die Sequenz entweder vom Server herunterladen, wie unter Auf­ gabe 4.1 beschrieben, oder einfach die Accession Numberin das Search-Textfeld eingeben (s. Ubung 4.2). Derzeit (Stand April 2003) werden mit blastn 20 Datenban­ keintrage aus der Drosophila Genomdatenbank gefunden. Die Gtite der Treffer ist sehr niedrig. Mit blastx hingegen werden 65 Datenbankeintrage aus der entsprechenden Proteindaten ­ bank gefunden, teilweise mit hoher Giite. Der Unterschied beruht auf der Arbeitsweise der beiden Programme blastn und blastx sowie der unterschiedlichen Codon-Nutzung verschie­ dener Spezies. Wahrend blastn den Vergleich direkt auf Nukle­ otidebene durchfuhrt, arbeitet blastx auf Proteinebene, indem zuerst die Abfragesequenz in alle sechs Leserahmen ubersetzt und dann diese sechs theoretischen Proteine gegen eine Prote­ indatenbank abgeglichen werden. Da der genetische Code degeneriert ist, kann eine Aminosaure durch verschiedene Tri­ pletts kodiert werden. Die Codonnutzung zwischen den Spe­ zies Drosophila melanogaster und Homo sapiens unterscheidet sich so stark, dass keine gute Ubereinstimmung auf Nukleoti­ debene gefunden wurde. Losungen zu den Obungen 211

Obung 4.4

Gehen Sie zum blast2seq Programm des NCBI (http://www.ncbi.nlm.nih.gov/blast/bI2seq/bI2.html). Sie fin­ den das Programm auch unter dem Hyperlink BLAST 2 Sequences im Abschnitt Pairwise BLAST auf der NCBI-Blast­ Seite. Geben Sie die beiden Accession Numbers in die entspre­ chenden Textfelder im Abschnitt Sequence 1 und Sequence 2 ein. Vor dem Absenden der Analyse miissen Sie noch das ent­ sprechende Programm auswahlen. Da sie mit Proteinsequen­ zen arbeiten, miissen sie im Pulldown-Menii oben links das Programm blast.p auswahlen. Driicken Sie anschlieBend auf die Schaltflache Align. Das Ergebnis zeigt, dass in den beiden Sequenzen zwei Bereiche mit relativ hoher Identitat von iiber 40% vorhanden sind. Im humanen Serotonin-Rezeptor sind die beiden Berei­ che eng benachbart, wahrend sie in der Drosophila melanogas­ ter Sequenz durch mehr als 200 Arninosauren getrennt sind. Die raumliche Anordnung dieser Sequenzbereiche ist auch sehr gut in der graphischen Ubersicht zu erkennen. [edoch sollte die Ubersicht nicht iiberbewertet werden, da sie sehr wenig Information zur Giite des Alignments beinhaltet.

Obung 4.5

Das multiple alignment der drei Sequenzen zeigt eine relativ geringe Ubereinstimmung. Zwei der drei Sequenzen zeigen jeweils in weiten Bereichen identische Aminosauren, insbeson­ dere bei der Betrachtung von konservativen Austauschen. Identische Arninosauren in allen drei Sequenzen treten hinge­ gen relativ selten auf.

Obung 4.6

Das multiple Alignment verdeutlicht, dass sehr ahnliche Sequenzen vorliegen. Die Aminosauren sind in sehr weiten Bereichen identisch oder konservativ ausgetauscht. Sequenz 212 Losungen zu den Ubungen

gi121245114 besitzt eine Insertion von ca. 10 Aminosauren, Aufgrund der groBen Identitat kann davon ausgegangen wer­ den, dass homologe Sequenzen vorliegen. In der Tat handelt es sich urn Proteasen der Cathepsin-Familie verschiedener Spe­ zies. gil2499874 Cathepsin L precursor Sus scrofa (Schwein) gil1705638 Cathepsin L precursor Bos taurus (Rind) gil19424144 Cathepsin 3 precursor Mus musculus (Maus) gi121245114 Cathepsin QRattus norvegicus (Ratte) gil4503155 Cathepsin L preproprotein Homo sapiens (Mensch) gil15214962 similar to Cathepsin L Homo sapiens (Mensch) Der phylogenetische Baum verdeutlicht die Verwandschaft der sechs Sequenzen. So besteht eine enge verwandschaftliche Beziehung zwischen den beiden humanen Sequenzen, sowie zwischen den Sequenzen aus Maus und Ratte. Die Sequenzen aus Rind und Schwein hingegen sind scheinbar weiter vonei­ nander entfernt.

Obung 4.7

Kopieren Sie die Sequenz des eukaryotischen Cosmids per cut&paste in die Eingabemaske des Genscan-Servers (http://www.mit.edu/GENSCAN.html). Haben Sie die Sequenz auf Ihrer Festplatte im FASTA Format gespeichert, konnen Sie die Datei auch per File-upload an den Genscan-Server schi­ cken. Bevor Sie die Analyse starten, miissen Sie im Pulldown­ Menu Organism noch den Organismus, aus dem die Sequenz stammt, auswahlen. Sequenz AC012088 ist eine humane Sequenz. Somit muss an dieser Stelle Vertebrate ausge­ wahlt werden. AnschlieBend kann die Analyse gestartet wer­ den (Schaltflache Run GENSCAN). Optional konnen Sie einen Namen fur die Sequenz vergeben, der aber lediglich im Report als Identifizierung verwendet wird. [e nach Einstellung (Pull­ down-Menu Print options) werden im Report nur die in der Eingabesequenz vorhergesagten Proteine oder die vorherge­ sagten Proteine mit den entsprechenden kodierenden Nukleo- Losungen zu den Ubungen 213 tidsequenzen ausgegeben. Zusatzlich ist es moglich, eine Gra­ fik zu erstellen, we1che die Lage der vorhergesagten kodieren­ den Nukleotidsequenzen auf der Abfragesequenz zeigt. Im Falle des humanen Cosmids AC012088 werden zwei Proteine vorhergesagt, wobei eines der Proteine als single-exon gene vorliegt. Dieses Gen besteht also aus einem einzigen Exon und weist folglich keine Introns auf.

Obung 5.1

Verbinden Sie Ihren PC mit der Homepage des NCBI. Wahlen Sie unter Molecular Databases die Nukleotid-Datenbank dbEST aus. Klicken Sie unter Information on the currentrele­ ase auf Number of ESTs. In der dbEST sind tiber 15 Mio. ESTs gesammelt. tiber 8 Mio. stammen vom Menschen bzw. von der Maus. Insofern machen die ESTs dieser beiden Organismen tiber 50% aller Sequenzen aus (Stand April 2003).

Obung 5.2

Geben Sie auf der dbEST Startseite unter Search ESTfor den Namen Wuchereria bancroft.i ein. Die Abfrage ergibt 141 Hits. Dagegen ergibt die Abfrage Wuchereria ban­ croft.i [ORGANISM] bei der gleichen Datenbank 133 Hits (Stand April 2003). Der Unterschied zwischen beiden Abfragen ist der, dass in der ersten Abfrage alle Felder eines Datenban­ keintrages nach dem Begriff Wuchereria bancrofti durchsucht werden. Gibt es Z. B. einen Eintrag Gen A ahnlich zu Gen Bvon Wuchereria bancrofti, wurde dieser Eintrag bei der ersten Abfrage gefunden werden, auch wenn das Gen von einem anderen Organismus stammt. In der zweiten Abfrage wird nur das Feld Organismus eines Datenbankeintrages durchsucht. Bei dieser Abfrage werden nur Eintrage gefunden, die tatsach­ lich von Wuchereria bancrofti stammen. 214 Losungen zu den Obungen

Ubung 5.3

Wahlen Sie unter Display die Option FASTA aus und betati­ gen Sie den Display Button. Nun werden Ihnen samtliche Sequenzen der letzten Abfrage im FASTA-Format angezeigt. Speichern Sie diese Sequenzen auf Ihrer Pestplatte, indem Sie unter Send to die Option F i 1e auswahlen und klicken Sie auf den Send to Button. Geben Sie der Datei einen Namen Ihrer Wahl. Den Inhalt der Datei konnen Sie mit jedem Texteditor (z.B. Notepad oder Editor von Windows) betrachten. Notepad finden Sie in Windows unter Start ~ Programme ~ Zubehor,

Ubung 5.4

Verbinden Sie Ihren PC mit der CAP EST Assembler Software des IFOM Instituts. Laden Sie unter upload your sequences from a file die Datei mit den ESTs von Wuchereria bancrofti, indem Sie unter Browse den Dateinamen auswahlen. Alternativ konnen Sie die EST-Sequenzen unter Entersequences to assem­ ble below, in PASTA format durch Cut&Paste einlesen. Starten Sie das Programm unter Standardbedingungen durch die Beta­ tigung des Buttons Submit. Form. Insgesamt werden beim Sequence Assembly der 133 Wuchereria-bancrofti-Sequenzen 15 Contigs gebildet (Stand April 2003). Eines dieser Contigs setzt sich aus iiber 20 ESTs zusammen. Das zeigt, dass in den 133 Ausgangssequenzen viele redundante Sequenzen vorhanden waren. Dariiber hinaus findet man auch viele Singletons. Diese weisen keine Ahnlichkeiten zu anderen ESTs auf und werden daher keinem Contig zugeordnet.

Ubung 5.5

Markieren Sie die 15 Contigs und klicken Sie unter Blastsearch with selected contig at IPOM auf den Button GO. Wahlen Sie unter PROGRAM die Option BLASTX aus. Selektieren Sie unter Target Databases die Proteindatenbank Nonredun­ dant Protein DB, geben Sie Ihre Email Adresse ein und Losungen zu den Ubungen 215 starten Sie den BLAST, indem Sie den Button Execut.e Search betatigen. Alternativ konnen Sie naturlich auch die BLAST Homepage des NCBI verwenden. Einige Contigs zeigen groBe Ahnlichkeit zu bereits bekannten Genen bzw. Proteinen, z:B. das Heat Shock Protein HSP70. Allerdings zeigen nicht alle Contigs verlassliche Hits. Bei diesen Sequenzen handelt es sich urn neue, bisher unbekannte Gene. Uber die Funktion dieser Gene ist zur Zeit nichts bekannt.

Obung 5.6

Verbinden Sie Ihren PC mit dem Datenbanksuchsystem Entrez des NCBI. Wahlen Sie Search Nucleot.ide aus und geben Sie unter for AI5 9 037 1 ein. Lassen Sie sich die Sequenz im FASTA-Format anzeigen, indem Sie unter Display die Option FASTA auswahlen. Speichern Sie die Sequenz auf Ihrer Fest­ platte, indem Sie unter Send to die Option File auswahlen und klicken Sie auf den Send t.o Button. Den Inhalt der Datei konnen Sie mit einem beliebigen Texteditor betrachten.

Obung 5.7

Wechseln Sie zur BLAST-Homepage des NCBI und fuhren Sie unter Standard nucleotide-nucleotide BLAST einen blast.n durch. Geben Sie die oben gespeicherte FASTA-Sequenz des EST durch Cut&Paste in die Box Search ein. Wahlen Sie die Datenbank nr aus und klicken Sie auf den Button BLAST. Fur das EST findet man 9 Sequenzen in der nicht-redundanten Nukleotiddatenbank, die eindeutige Hits produzieren. Dabei handelt es sich urn 6 genomische Klone von Homo sapiens sowie urn 3 cDNA-Sequenzen (Stand April 2003).

Obung 5.8

Hinter den 3 cDNA-Sequenzen (z.B. HSM80505l) finden Sie jeweils einen Hyperlink zur NCBI-Datenbank UniGene (Buch­ stabe U in blauem Quadrat). Wenn Sie diesen Hyperlink betati- 216 Losungen zu den Obungen

gen, werden Sie mit dem UniGene Cluster Hs.199460 verbun­ den. Die Nukleotidsequenzen, die in diesem Cluster zusam­ mengefasst wurden, kodieren fur das Protein DPCRI (Diffuse panbronchiolitis critical region) . Damit Sie mehr iiber das Pro­ tein und dessen Funktion bei der Entstehung von Krankheiten erfahren, betatigen Sie den Hyperlink zur Datenbank OMIM (Online Mendelian Inheritance in Man). Das Protein DPCR1 ist in der Entstehung einer chronischen Atemwegserkrankung mit dem Namen diffuse Panbronchiolitis involviert, die ausschlieB­ lich in der ostasiatischen Bevolkerung vorkommt.

Obung 5.9

Insgesamt sind 27 EST-Sequenzen dem Cluster Hs.199460 zugeteilt (Stand April 2003). Aus den Informationen iiber die Herkunft der ESTs kann man schlieBen, dass das Protein im Magen (Stomach), im Dickdarm (Colon) sowie in der Bauch­ speicheldriise (Pancreas) exprimiert wird. Zudem findet man das Protein in verschiedenen Adenokarzinomen.

Obung 5.10

Wenn Sie den Hyperlink Prot.EST betatigen, werden Sie mit der ProtEST-Sektion von UniGene verbunden. Hier sind aUe Nukleotidsequenzen gespeichert, die Hits mit Proteinsequen­ zen aufweisen. Fiir das Cluster Hs.199460 findet man 8 Nukleo­ tidsequenzen, 3 cDNAs und 5 ESTs, die aUe mit dem humanen Protein DPCR1 iibereinstimmen. Wenn Sie auf die magenta­ gefarbten Balken klicken, sehen Sie die Alignments zwischen dem Protein und den translatierten Nukleotidsequenzen. Drei dieser 8 Sequenzen, namlich die cDNAs, zeigen ein Alignment iiber die komplette Lange des Proteins. Der Grund, warum nur 5 der 27 ESTs aus dem Cluster in der ProtEST eingetragen sind, liegt darin, dass die restlichen 22 ESTs nicht-kodierende ESTs darsteUen. Diese stammen aus den untranslatierten Bereichen der mRNA und kodieren daher nicht fur ein Protein. Losungen zu den Ubungen 217

Obung 5.11

Verbinden Sie Ihren PC mit dem Datenbanksuehsystem Entrez des NCBI. Wahlen Sie unter Search Prot.ein aus und geben Sie unter for PO1108 ein. Lassen Sie sieh die Sequenz im FASTA-Format anzeigen, indem Sie unter Display die Option FASTA auswahlen. Speiehern Sie die Sequenz auf Ihrer Fest­ platte, indem Sie unter Send to die Option File auswahlen und klieken Sie auf den Send t.o Button. Den Inhalt der Datei konnen Sie mit einem beliebigen Texteditor betraehten.

Obung 5.12

Weehseln Sie zur BLAST-Homepage des NCBI und ftihren Sie unter Translated BLAST Searches einen t.blast.n dureh. Geben Sie die oben gespeieherte FASTA-Sequenz des Proteins e-mye dureh Cut&Paste in die Box Search ein. Wahlen Sie die Datenbank est. mouse aus und klieken Sie auf den Button BLAST. Betraehten Sie die Verteilung der ESTs anhand der Grafik Distribution of Blast Hits on the Query Sequence. Mit dem tblastn-Algorithmus werden in der Datenbank est.mouse iiber 100 Maus-ESTs gefunden, die eine Ahnliehkeit zum Proto-Onkogen e-mye aufweisen. An der Verteilung der ESTs ist auffallig, dass die Mehrzahl der EST-Sequenzen hohe Iden­ titat entweder zum 5'- oder zum 3'-Ende der Sequenz aufwei­ sen. Es gibt nur wenige ESTs, die den mittleren Bereich der Sequenz abdeeken. Der Grund fur die Verteilung der ESTs liegt in der Teehnik der EST-Produktion. ESTs werden dureh die Sequenzierung der Endbereiehe von eDNA-Klonen generiert.

Obung 5.13

Wahrend die sehr guten Hits (Alignment Score > 200, rot gefarbte Balken) zum GroBteil eine 100-prozentige Uberein­ stimmung mit dem Mausprotein e-mye aufweisen, zeigen die ESTs, die Alignment Scores von 80-200 besitzen (magenta­ gefarbte Balken), nur eine Obereinstimmung von ca. 60-80%. 218 Losungen zu den Obungen

Dies weist daraufhin, dass diese ESTs fur ein zweites, sehr ahn­ liehes Protein kodieren. Dies kann iiberpruft werden, indem man diese ahnlichen ESTs mit Hilfe des blastx-Algorithmus mit der Proteindatenbank Swissprot vergleicht. Als besten Hit erhalten Sie das Protein b-rnyc, das eine groBe Ahnliehkeit zu c-mye aufweist. Damit haben Sie durch die Analyse von ESTs ein ahnliches Gen identifiziert.

Obung 5.14

Verbinden Sie Ihren PC mit der NCBI-Datenbank Genes and disease (http://www.nebi.nlm.nih.gov/diseasel). Hier finden Sie Informationen tiber eine Vielzahl genetisch bedingter Krank­ heiten. Unter Metabolism finden Sie einen Hyperlink Phenylke­ tonuria, der Sie zu einer Seite mit vielen detaillierten Informa­ tionen zur Phenylketonurie fiihrt. Hier finden Sie u.a. Infor­ mationen tiber die Lokalisation der humanen Phenylalanin­ Hydoxylase. Das Gen befindet sich aufChromosom 12. Klicken Sie auf den Hyperlink zur Datenbank LocusLink. LocusLink ist eine Datenbank, in der samtliche Informationen tiber Gene gesammelt sind. Hier findet man Hyperlinks zu allen verfugba­ ren Datenbanken. Insofern ist LocusLink ein interessanter Aus­ gangspunkt fur Datenbanksuehen.

Obung 5.15

Verbinden Sie Ihren PC mit der NCBI-Datenbank dbSNP. Suehen Sie unter Search by IDs naeh dem Reference Cluster mit der ID r s 334. Bei dem Single Nucleotide Polymorphism mit der ID-Nummer rs334 handelt es sieh urn ein SNP im humanen Genom. Unter LocusLink-Analysis finden Sie Informationen tiber die Eigenschaften der genetischen Variation. In der farbi­ gen Tabelle sind die Art und die Auswirkungen der Mutation beschrieben. Bei diesem SNP ist im Gen Haemoglobin beta das Nukleotid Adenin gegen ein Thymin ausgetauscht. Diese Muta­ tion bedingt einen Austausch der Aminosaure Glutamat gegen die Aminosaure Valin. Wenn Sie auf den Hyperlink HBB kli- Losungen zu den Ubungen 219 cken, kommen Sie zur Datenbank LocusLink. Dort finden Sie nahere Informationen tiber das Gen und die Krankheit. Von dieser Mutation betroffene Menschen leiden an der Sichelzell­ anamie, die gehauft in Epidemiegebieten der Malaria vor­ kommt.

Obung 6.1

Gehen Sie zur Homepage der PDB-Datenbank (http://www. rcsb.orgl). Die Anzahl der gelosten Strukturen ist im linken Teil der Seite (blau hinterlegter Balken) unter dem Stichwort Current Holdings verzeichnet. Derzeit sind 20622 geloste Strukturen in der Datenbank enthalten (Stand April 2003).

Obung 6.2

Folgen Sie dem Hyperlink Structural Genomics auf der Home­ page der PDB-Datenbank. Sie finden die Informationen zu den nationalen Initiativen im Abschnitt Worldwide Initiatives. Zur Zeit gehoren der Structural Genomics Initiative 22 nationale Initiativen in Nord-Amerika (14 USA) 1 Kanada), Europa (1 Deutschland) 2 England) 2 Frankreich) und Asien (2 Japan) an (Stand April 2003).

Obung 6.3

Gehen Sie zur Expasy-Seite (http://www.expasy.orgl) und fol­ gen Sie dem Hyperlink Swissprot and TrEMBL im Abschnitt Databases. Geben Sie anschlieBend die AN PO7 8 0 1 oder die ID CHER_SALTY in das Texteingabefeld links oben ein und drucken Sie die Schaltflache Quick Search. Der Datenban­ keintrag des Salmonella typhimurium Proteins CHER wird angezeigt. Informationen zur Tertiarstruktur dieses Proteins finden Sie, indem Sie den Hyperlinks zur PDB-Datenbank in Abschnitt Cross-references folgen. Sie konnen dazu einen Ser­ ver von Expasy nutzen oder direkt zur PDB-Datenbank des 220 Losungen zu den Obungen

Research Collaboratory for Structural Biology (RCSB) gehen, indem Sie dem entsprechenden Hyperlink (Expasy oder RCSB) rechts neben der entsprechenden ID folgen. Beide Ser­ ver bieten Ihnen die Moglichkeit, den Datenbankeintrag her­ unterzuladen und mit einem Visualisierungsprogramm selbst darzustellen (z.B. Rasmol, s. Ubung 6.10) bzw. vorbereitete Abbildungen der Struktur anzusehen. Die in der PDB-Daten­ bank abgelegten Strukturen geben nicht nur ein einziges Pro­ tein wieder, sondern zeigen oftmals ganze Szenarien wie gebundene Liganden, Dimere, Losungsmittelumgebungen etc. Daher kommt es oftmals vor, dass wie bei CHER mehrere Datenbankeintrage zu einem Gen in der PDB-Datenbank existieren.

Obung 6.4

Folgen Sie dem Hyperlink RCSB rechts neben der ID lAF? Sie gelangen zur sogenannten Summary Information des Daten­ bankeintrags lAF? in der RCSB PDB-Datenbank. Die Summary Information gibt Ihnen eine erste Ubersicht tiber den Daten­ bankeintrag. Sie finden neben der Beschreibung der abgelegten Struktur und des Originalzitates auch einige Informationen zur experimentellen Methode, mit der die Kristallstruktur bestimmt wurde (z.B. X-ray diffraction). Dariiber hinaus bietet die Summary Information einige Referenzen zu anderen Datenbanken (CATH, SCOP, PDBSum) an. Zur Anzeige der Struktur folgen Sie dem Hyperlink View Structure (links oben, blau hinterlegter Balken). Sie gelangen zur View-Structure­ Ansicht. Hier haben Sie die Moglichkeit, die Struktur in ver­ schiedenen Darstellungen anzusehen. Die meisten Darstellun­ gen erfordern die Installation entsprechender Programme und Plugins. Urneinen schnellen Uberblick zu erhalten, konnen Sie jedoch den QuickPDB-Viewer, ein relativ einfaches, Java­ basiertes Programm, benutzen. Klicken Sie dazu auf die Schalt­ flache QuickPDB rechts unten im Abschnitt Interactive 3D Display. Die Schaltflache ist nur vorhanden, sofern Ihr Browser Iava-fahig ist und [ava-aktiviert (enabled) ist. Mochten Sie Java Losungen zu den Ubungen 221 nicht aktivieren, konnen Sie eines der anderen Pluglns instal­ lieren und die Struktur damit ansehen. 1m QuickPDB-Viewer sehen Sie im oberen Fenster die Pri­ marsequenz des Proteins, im rechten Fenster darunter ist die dreidimensionale Anordnung der Ca-Atome dargestellt. Diese reduzierte Form der Strukturdarstellung reicht aus, urn die raumliche Anordnung des Proteinriickgrates zu erkennen. Es ist dariiber hinaus moglich, auch die Anordnung der Sekun­ darstrukturelernente anzuzeigen. Klicken Sie dazu im oberen Pulldown-Menii des Steuerfensters (links) auf Secondary St.ruct.ure. Sowohl in der Primarsequenz als auch in der dreidimensionalen Darstellung werden die Aminosauren bzw. ihre Ca-Atome entsprechend der Zugehorigkeit zu einem Sekundarstrukturelement eingefarbt, Helices sind dabei rot, Faltblatter blau und Loops gelb eingefarbt,

Ubung 6.5

Die verschiedenen Darstellungsmoglichkeiten des QuickPDB­ Viewers konnen im Steuerfenster (links) ausgewahlt werden. Zur Auswahl der Sekundarstrukturansicht klicken Sie im obe­ ren Pulldown-Menii auf Secondary St.ruct.ure. Wahlen Sie dann jeweils eine Aminosaure aus zwei benachbarten Falt­ battern aus, indem Sie im Strukturfenster (rechts) auf einem Ca-Atom doppelklicken. Sowohl im Strukturfenster als auch im Primarsequenzfenster werden die entsprechenden Aminosau­ ren cyan eingefarbt, Es ist klar zu erkennen, dass in der dreidi­ mensionalen Struktur eng benachbarte Aminosauren in der Primarsequenz nicht zwangslaufig auch benachbart sein mils­ sen. Der QuickPDB-Viewer bietet diverse weitere Moglichkeiten, die Aminosauren entsprechend bestimmter Eigenschaften ein­ zufarben. Dazu zahlen der b-Faktor (nur bei Strukturen, die mit Rontgenstrukturaufklarung untersucht wurden), die soge­ nannte Exposure nach Lee und Richards sowie die Aminosau­ reneigenschaften nach Taylor. Diese Moglichkeiten konnen jeweils in den beiden Pulldown-Meniis links eingestellt werden. 222 Losungen zu den Obungen

Das Pulldown-Menii Mouse erlaubt die Funktionen der Maus (Rotieren, Translatieren, Zoom) einzustellen. Mit der Auswahl der Farben im Pulldown-Menii Color ist es moglich, die Farbe der ausgewahlten Aminosauren im Primarsequenz­ und Strukturfenster zu andern. Wird die Option Stereo ausge­ wahlt, werden zwei stereographische Projektionen der Struk­ tur gezeichnet. Die Darstellung von Liganden sowie von DNA­ bzw. RNA-Strukturen ist im QuickPDB-Viewer nicht moglich.

Obung 6.6

Gehen Sie zur Swissprot-Datenbank des Expasy-Servers und suchen Sie den Datenbankeintrag des Proteins CHER_SALTY, wie in Obung 6.3 beschrieben. Gehen Sie dann zur Startseite des Expasy-Servers und folgen Sie dem Hyperlink Secondary and tertiary structure prediction im Abschnitt Tools and soft­ ware packages. Wahlen Sie aus der Liste von Servern, die eine Sekundarstrukturvorhersage (Abschnitt Secondary structure prediction) anbieten, einige aus und geben Sie die gespeicherte Sequenz von CHER_SALTY in die Eingabemaske des jeweili­ gen Servers ein. Die Eingabe erfolgt bei den meisten Servern analog zu den vorangehenden Obungen per cut&paste. Senden Sie die Analyse ab, nachdem Sie die Eingabemaske vollstandig erganzt haben. Einige Server liefern das Ergebnis der Analyse in Form einer Email zuriick. Achten Sie deshalb darauf, eine giiltige Email-Adresse anzugeben. Die vorhergesagten Sekundarstrukturen stimrnen, je nach verwendetem Vorhersageprogramm, mehr oder weniger gut mit der tatsachlichen Sekundarstruktur iiberein. Die tatsachli­ che Sekundarstruktur ist im Swissprot-Datenbankeintrag vor­ handen. Im Abschnitt Features finden Sie hinter den Schliissel­ wortern Helix, Strand und Turn jeweils die Nummern der Ami­ nosauren, die den Start und das Ende der Strukturelemente bilden. Die Arbeitsweise der verschiedenen Server beeinflusst wesentlich die Qualitat der Vorhersage. Man unterscheidet Losungen zu den Obungen 223 dabei zwischen Verfahren, die ein Alignment der zu untersu­ chenden Sequenz mit Sequenzen bekannter Sekundarstruktur durchfuhren und diese Informationen in die Vorhersage einbe­ ziehen und Verfahren, welche die Vorhersage ohne ein Alig­ nment durchfiihren. Kann mit der zu untersuchenden Sequenz ein entsprechendes Alignment durchgefiihrt werden, ist eine signifikant bessere Vorhersage zu erwarten als mit Algorith­ men, die kein Alignment durchfuhren.

Obung 6.7

CHER_SALTY ist eine Methyltransferase und ein Protein, das nicht sezerniert wird. Es ist folglich nicht zu vermuten, dass ein Signalpeptid vorliegt. Urn dies zu uberprufen, gehen Sie zum SignalP-Server und folgen Sie dem Hyperlink zur SignalP­ Version 2. Gehen Sie zum Ende der Seite und geben Sie die Sequenz per cut&paste oder per file-upload in die Eingabe­ maske ein. Wahlen Sie im Abschnitt Organism Group Gr am­ negative bacteria aus. Die restlichen Auswahlmoglich­ keiten konnen unverandert gelassen werden. Driicken Sie die Schaltflache Submit Sequence (s). Es wird eine kurze Statusseite angezeigt, auf der Sie Ihre Email-Adresse eintragen konnen, urn benachrichtigt zu werden, wenn die Analyse been­ det ist. Normalerweise sollte die Analyse jedoch in einigen Sekunden durchgefiihrt sein und die Statusseite sollte automa­ tisch durch die Ergebnisseite ersetzt werden. Haben Sie die sonstigen Einstellmoglichkeiten unverandert gelassen, zeigt die Ergebnisseite die Textausgabe der Analyse gemeinsam mit der graphischen Ausgabe der Analyse. Es ist klar zu erkennen, dass kein Signalpeptid vorliegt.

Obung 6.8

Geben Sie die Sequenz von ABPE_SALTY (AN P41780) in die Eingabemaske des SignalP-Servers wie unter Ubung 6.7 beschrieben ein. Auch ABPE_SALTY ist ein Salmonella typhi­ murium Protein. Wahlen Sie im Abschnitt Organism Group 224 Losungenzu den Ubungen

daher wiederum Gram-negat.ive bacteria aus und senden Sie die Analyse abo Beide Vorhcrsage-Algorithmen, neuronales Netzwerk und HMM, sagen das Vorliegen eines Signalpeptids voraus. Wahrend das neuronale Netzwerk die Cleavage-Site zwischen den Aminosauren 23 und 24 vorher­ sagt, ist die Wahrscheinlichkeit fur das Vorliegen einer Clea­ vage-Site beim HMM zwischen den Arninosauren 19 und 20 am grofsten. Die entsprechende Wahrscheinlichkeit fur die Cleavage-Site zwischen Position 23 und 24 ist jedoch nur unwesentlich kleiner.

Obung 6.9

Gehen Sie zur Serviceseite des Center for Biological Sequence Analysis und folgen Sie dem Hyperlink TMHMM. Geben Sie die gespeicherte Aminosauresequenz des Swissprot-Datenban­ keintrages Q99527 per cut&paste bzw. per file-upload in die Eingabemaske des TMHMM-Servers ein und drucken Sie anschlieBend die Schaltflache Submit. Vor dem Absenden konnen Sie zwischen mehreren Ausgabeformaten auswahlen, Fur die Obung sollten Sie das Format Extensive, with graphics auswahlen. Nach dem Einblenden einer Status­ seite wird das Ergebnis der Analyse angezeigt. Mit der gewahl­ ten Einstellung beinhaltet die Ergebnisseite sowohl eine Text­ ausgabe als auch eine graphische Darstellung der Ergebnisse. In den ersten Kopfzeilen der Textausgabe sind die Ergebnisse der Analyse zusammengefasst, darunter folgen einige Zeilen, die den einzelnen Segmenten des Proteins entsprechen. Die einzelnen Segmente werden dabei durch die Angabe der Num­ mer der ersten und letzten Aminosaure des Segments beschrieben. Daneben ist auch die Lokalisation der einzelnen Segmente verzeichnet. Die Schlusselworte inside, outside und Tmhelix bedeuten dabei, dass sich das entsprechende Segment innerhalb des Cytosols, in der extrazellularen Matrix bzw. als Transmembranhelix innerhalb der Lipiddoppelschicht befin­ det. Entsprechend ist dies auch in der graphischen Ubersicht der Ergebnisse dargestellt. LOsungen zu den Ubungen 225

Der TMHMM-Server identifiziert fur das untersuchte Pro­ tein CML2_HUMAN sieben Transmembranhelices. Die Zahl von sieben Transmembranhelices ist typisch fur G-Protein gekoppelte Rezeptoren. [e nach verwendetem Programm zur Sekundarstrukturvorhersage stimmen die sieben Transmem­ branhelices auch mit der vorhergesagten Sekundarstruktur tiberein,

Obung 6.10

Gehen Sie zur Startseite des Swiss-Model-Servers (http://www. expasy.org/swissmodl) und folgen Sie dem Hyperlink First Approach Mode im Abschnitt Modelling requests (linker Rah­ men). Die Eingabemaske fiir den First Approach Mode wird im rechten Rahmen angezeigt. Geben Sie im Feld Your Email address: unbedingt eine gultige Email-Adresse ein, da das Ergebnis der Modellierung ausschlieBlich per Email an Sie gesendet wird. 1m darunter liegenden Feld Your Name: konnen Sie Ihren Namen angeben, der dann in den Emails benutzt wird. 1m dritten Feld Request title: konnen Sie optional einen Titel ftir Ihre Analyse vergeben. Dieser Titel findet sich in der Subject Zeile der Ergebnis-Email wieder, was bei der Durch­ fuhrung mehrerer Analysen sehr hilfreich sein kann. 1m Tex­ teingabefeld Provide a sequence or a SWISS-PROT AC code geben Sie dann bitte die Sequenz per cut&paste ein. Alternativ konnen Sie auch einfach die Swissprot Accession Number P 29 6 19 eintragen. Drucken Sie anschliefiend die Schaltflache Send Request., urn die Analyse abzusenden. Innerhalb kurzer Zeit erhalten Sie eine Email, die den Ein­ gang Ihrer Anfrage zur Modellierung bestatigt. [e nach Auslas­ tung des Swiss-Model-Servers erhalten Sie nach einigen Minuten zwei weitere Emails: Zum einen das gebildete Modell selbst und zum anderen ein sogenanntes Tracefile, das beschreibt, welche Sequenzen als Homologe erkannt wurden und welche davon fur den Modelling- Prozess als Templates eingesetzt werden. Offnen Sie die Email, die das gebildete Modell enthalt (Sub­ ject: Swisstviodell-Modeli-c.) und speichern Sie die beiliegende 226 Losungen zu den Ubungen

Datei mit der Dateiendung .pdb auf der Festplatte. Offnen Sie anschlieBend den Deep View - Swiss PDB viewer. Der Deep View - Swiss PDB viewer wird kostenlos auf dem Expasy Server zum download angeboten. Sollte es nicht moglich sein, den Deep View - Swiss PDB viewerzu installieren, konnen Sie auch ein beliebiges anderes Programm zur Darstellung von Dateien im Brookhaven-Protein-Databank-Format (PDB-Format) ver­ wenden, z,B. Rasmol (http://www.umass.edu/microbio/ras­ moll). Verwenden Sie nicht den Deep View - Swiss PDB viewer, sollten Sie vor dem Absenden der Analyse auf der Eingabeseite das Ausgabeformat auf Normal Mode umstellen, da nicht alle Programme in der Lage sind, das modifizierte PDB-For­ mat, das als Standard gewahlt ist, zu lesen. Sie finden die Aus­ wahl des Ausgabeformats im Abschnitt Results options: am Ende der Eingabeseite. Verwenden Sie den Deep View - Swiss PDB viewer, konnen Sie die Strukturen tiber File - Open offnen. Eventuelle Mittei­ lungen tiber fehlende oder nicht korrekte Bindungsinformatio­ nen an Heteroatomen (HETATM) konnen Sie mit OK bestati­ gen. Es werden gleichzeitig sowohl das gebildete Modell als auch die zugrundeliegenden Templates im Graphikfenster angezeigt. Die Steuerung des Viewers erfolgt tiber das Haupt­ fenster sowie das sogenannte Control Panel. Eine Bedienungs­ anleitung und ein Tutorial finden Sie unter http://www.expasy. org/spdbv/text/main.htm. Ein weiteres Tutorial findet sich unter http://www.usm.maine.edu/- rhodes/SPVTut/index.html.

Obung 7.1

Das Gen CG15848 heiBt Scpl und kodiert fur eine Untereinheit eines calcium-bindenden Proteins von Drosophila melanogas­ ter. Auffallig ist, dass Scpl erst gegen Ende des Puppenstadi­ urns stark exprimiert wird und die Expression im Adultsta­ dium re1ativ schnell abnimmt. Dies ist sowohl bei mannlichen als auch weiblichen Fliegen der Fall. Losungen zu den Obungen 227

Obung 7.2

Urn die 10 Gene mit den ahnlichsten Expressionsprofilen zu CG15848 zu finden, geben Sie die Zahl lain das Feld Would you like to see genes with the highest correlation of expression to ... ein! Die 10 Gene, welche die engste Korrelation zu CG15848 aufweisen, sind: BcDNA:GH02431, CG7300, CG6069, BcDNA:GH02712, boss, inaF, Pdh, CGI0233 und CG1760. Ein Unterschied zwischen InaF und Scp1 ist in der Expression von adulten Fliegen zu sehen. Wahrend Scp1 in allen Adulten exprimiert ist, wird das Gen InaF nur in der mannlichen Fliege exprimiert.

Obung 7.3

Wahlen Sie unter Log2 Expression level die Option > aus und geben Sie in das Textfeld die Zahl 3 ein. Wahlen Sie weiterhin unter Stage die Option Embryo aus und unter Function die Option prot.ein kinase. AnschlieBend klicken Sie auf den Search Button. Die Gene zweier Proteinkinasen werden im Embryo sehr stark exprimiert: ial und cdc2. Wenn Sie den Hyperlink zur Flybase Annotation betatigen, stellen Sie fest, dass beide Gene fur Serin/Threonin-Kinasen kodieren.

Obung 7.4

Die Angaben iiber den verwendeten Normalisierungsfaktor finden Sie unter Normalization. Der Normalisierungsfaktor fur das Experiment mit der ID 11227 betragt 0,98.

Obung 7.S

GeneCluster 2.0 bietet sowohl Algorithmen fur supervised (z.B. k-nearest neighbors) als auch fur unsupervised learning (z,B. Self Organizing Maps) an. Unsupervised learning Algorithmen werden verwendet, wenn die Daten unbefangen, d.h. ohne Beriicksichtigung bereits bekannter Daten, ausgewertet wer- 228 Losungen zu den Ubungen

den sollen. Im Gegensatz dazu konnen bei der Verwendung von supervised learning Algorithmen schon veroffentlichte Informationen iiber die Koregulation von Genen in die Analyse mit einbezogen werden.

Obung 7.6

Das Gen 04 bildet unter Verwendung der Algorithmen Eucli­ dian distance, Euclidian distance squared, Average distance und Square root of Average distance keine Cluster aus. Die Schlussfolgerung ist, dass das Expressionsprofil von Gen 04 mit keinem anderen Gen korreliert. Dagegen errechnet der Manhattan distance-Algorithmus ein Cluster mit den Genen 04 und 05. Vergleicht man das Expressionsprofil der Gene 04 und 05, dann ist die Expression in den Experimenten I, 2 und 3 sehr ahnlich. Lediglich in Experiment 4 gibt es Unterschiede. Bei Verwendung des Algorithmus Number of attributes with opposite sign bildet das Gen 04 ein Cluster mit den Genen 09 und 05. An dieser Ubung erkennt man, dass die Wahl von ver­ schiedenen Algorithmen zu unterschiedlichen Ergebnissen fiihren kann. Dabei bleibt es dem Wissenschaftler iiberlassen, fur welchen Algorithmus er sich entscheidet. Leider gibt es kei­ nen Standard-Algorithmus, da aIle Algorithmen Vor- und Nachteile aufweisen.

Obung 7.7

Das 2D-Gel der HepG2-ZeIlen zeigt 5 Spots, die mit HSP60kor­ respondieren. AIle diese Spots weisen das gleiche Molekularge­ wicht auf (ca. 60 kDa), besitzen aber unterschiedliche pI­ Werte. Diese unterschiedlichen pI-Werte stammen wahr­ scheinlich von posttranslationalen Modifikationen wie Phos­ phorylierungen, die den pI-Wert beeinflussen. Die Phosphat­ gruppe verandert die Ladung des Proteins und damit auch den pI-Wert. HSP60 kann an mehreren Stellen gleichzeitig phos­ phoryliert werden, was erklart, warum man mehrere Spots fiir HSP60 findet. Losungen zu den Obungen 229

Obung 7.8

Das 2D-Gel der Leber zeigt im Gegensatz zu HepG2-Zellen nur drei Spots von HSP60. Hier scheinen weniger Modifikationen von HSP60 vorzuliegen als in HepG2-Zellen.

Obung 7.9

Im dem 2D-Ge1 mit den sezernierten Proteinen von HepG2­ Zellen findet man keine Spots fur HSP60. Das zeigt, dass das Protein nicht sezerniert wird.

Obung 7.10

Bei dem Protein handelt es sich urn das humane Protein S104. Dies ist eine Abkurzung von S100 calcium-binding protein A4. Zudem besitzt das Protein zwei alternative Bezeichnungen, CAPL und MTS1. Das Protein besitzt ein Molekulargewicht von 14)4 kDa.

Obung 7.11

Zur Identifizierung der Proteine wurden 3 Methoden verwen­ det: 1. Gel matching: Hier werden bereits existierende 2D-Gele zum Vergleich herangezogen. Findet man Spots mit gleichem Molekulargewicht beziehungsweise pI-Wert und kennt man diese Proteine aus fruheren Experimenten, wird davon ausge­ gangen) dass diese Proteine tatsachlich identisch sind. 2. Immunodetection: Zur Immundetektion werden spezifi­ sche Antikorper verwendet. Wird ein Protein von den Antikor­ pern erkannt, ist dieses eindeutig identifiziert. 3. Microsequencing: Bei dieser Methode werden die Spots aus dem Gel geschnitten. Die daraus eluierten Proteine werden in Fragmente geteilt und sequenziert. 230 Losungen zu den Ubungen

Obung 7.12

Die Arninosauresequenz des sequenzierten Teilbereichs des Proteins lautet LVKKQTYHI.

Obung 7.13

Geben Sie die Accession number P 129 3 1 in das Suchfeld ein, selektieren Sie das Enzym Trypsin und wahlen Sie 1000 unter Display the peptides with a mass bigger than aus. Nach dem Mausklick auf den Perform Button erhalten Sie insge­ samt 21 Peptide mit einer Masse> 1000 Dalton, die durch den tryptischen Verdau der humanen Proteinkinase src entstehen. Das groBte Peptid weist eine Masse von 5072 Dalton auf.

Obung 7.14

Wahlen Sie unter Database die Proteindatenbank Swis­ sprot. aus, geben Sie unter Mw 38a0 0 ein und wahlen Sie unter species to be searched Bos t.aurus (bovine) aus. AnschlieBend tippen Sie in das Suchfeld peptide masses die Massen der identifizierten Peptide ein (18 4 5 143 3 1 a8 8 103 0). Letztlich geben Sie unter Mass tolerance ± a. 5 Dalton ein und betatigen Sie den St.art. Pept.ldent. Button. Das Programm findet ein Rinderprotein in der Datenbank Swis­ sprot, das nach einem in-silico-Verdau vier Peptide mit identi­ scher Masse generiert. Es handelt sich urn das Protein Annexin II mit der Accession number P04272. Durch die Ubereinstim­ mung der vier Peptide sowie des Molekulargewichtes der Pro­ teine konnten Sie die Identitat des aus dem Polyacrylamidgel isolierten Proteins nachweisen.

Obung 7.15

Nachdem Sie den Button ent.er as guest. betatigt haben, klicken Sie auf den Hyperlink Browse all complexes ... Die YEAST protein complex database umfasst 232 Multipro- Losungen zu den Obungen 231 tein-Komplexe aus Saccharomyces cerevisiae (Stand April 2003). Der Komplex 116setzt sich aus 24 Proteinen zusammen. Die Funktion des Komplexes wird in die Kategorie Transkrip­ tion/DNA-Erhaltung/Chromatin-Struktur eingeteilt.

Obung 7.16

Das Protein NHP10 kommt nicht nur in Komplex 116,sondern zusatzlich auch in Komplex 137vor. Die Funktion des Komple­ xes 137 fallt ebenfaUs in die Kategorie Transkription/DNA­ Erhaltung/Chromatin-Struktur.

Obung 8.1

Gehen Sie zur GOLD-Homepage (http://wit.integratedgenomics. com/GOLD!). Die erste TabeUe verzeichnet derzeit (Stand April 2003) 711 Genomsequenzierungsprojekte, 132 Genome sind vollstandig sequenziert. Die Schaltflachen in den TabeUenfel­ dern fiihren zu Listen der entsprechenden Genomsequenzie­ rungsprojekte, die weitere Informationen zu den einzelnen Projekten enthalten. Ahnliche Statistiken und Listen konnen auch bei TIGR (http://www.tigr.org/tigr-scripts/CMR2/CMR HomePage.spl) und dem NCBI (http://www.ncbi.nlm.nih.gov/ PMGifs/Genomes/micr.html) gefunden werden.

Obung 8.2

Gehen Sie zur KEGG-Homepage (http://www.genome.ad.jp/ kegg!) und folgen Sie dem Hyperlink Open KEGG. Sie gelangen dam it zur eigentlichen Startseite zur Abfrage der KEGG­ Datenbanken, dem KEGG Table ofContents. Informationen zu Stoffwechselwegen sind in Abschnitt 1. Pathway Information zu finden. Der Hyperlink Metabolic pathways fuhrt zu einer Auflistung aUer vorhandenen Stoffwechselkarten. Der Glyko­ lyse/Gluconeogenese-Metabolismus gehort zum Kohlenhydrat­ stoffwechsel und die entsprechende Stoffwechselkarte ist daher im Abschnitt Carbohydrate Metabolism zu finden. Klicken Sie 232 Losungen zu den Ubungen

den Hyperlink Glycolysis/Gluconeogenesis an, urn die Stoff­ wechselkarte anzuzeigen. Alternativ konnen Sie auch dem Hyperlink Carbohydrate Metabolism folgen und den Glykolyse/ Gluconeogenese-Stoffwechsel tiber die graphische Ansicht der enthaltenen Stoffwechselkarten aufrufen. Klicken Sie zu die­ sem Zweck in die farbig unterlegte Plache des jeweiligen Stoff­ wechsels.

Obung 8.3

Der Eintrag Pyruvate befindet sich im unteren Drittel der Stoffwechselkarte, der Eintrag L-Lactate rechts daneben. Die beiden Eintrage sind mit einem Doppelpfeil verbunden. Es ist ein Enzym (EC 1.1.1.27) in diesem Pfeil verzeichnet, das die Umsetzung von L-Lactat zu Pyruvat katalysiert. Durch einen Mausklick auf die EC-Nummer gelangt man zum entsprechen­ den Eintrag des Enzyms. EC 1.1.1.27 ist eine Oxidoreductase (L-Lactatdehydrogenase). Gehen Sie anschlieBend zuriick zur Stoffwechselkarte, wah­ len Sie Homo sapiens aus der Auswahlliste Go to: aus und driicken Sie anschlieBend die Schaltflache Exec. In der neuen Darstellung der Stoffwechselkarte werden alle im Menschen vorkommenden Enzyme griin hinterlegt, EC 1.1.1.27 ist grun hinterlegt, d. h. der Mensch nutzt diesen Stoffwechselschritt aus. Gehen Sie zur spezifischen Stoffwechselkarte von Saccharo­ myces cerevisiae. Die L-Lactatdehydrogenase ist in diesem Stoffwechsel nicht mehr griin hinterlegt, d. h. die Hefe Saccha­ romyces cerevisiae besitzt kein Gen, das fur dieses Protein kodiert, und kann somit diesen Stoffwechselweg nicht ausnut­ zen.

Obung 8.4

Folgen Sie dem Hyperlink zu EC 1.1.1.27 in der Stoffwechsel­ karte aus Ubung 8.3 (Glykolyse/Gluconeogenese-Metabolismus des Menschen). Es werden die Eintrage LDHA, LDHB, LDHC Losungen zu den Ubungen 233 und LDHLaus der GENES-Datenbank angezeigt. Das bedeutet, in speziesspezifischen Stoffwechselkarten ftihren die Hyper­ links der Enzyme zu spezifischen Datenbankeintragen dieser Enzyme in der GENES-Datenbank. In der Referenz-Karte hin­ gegen fuhren die Hyperlinks der Enzyme zu Eintragen der LIGAND-Datenbank.

Obung 8.5

Gehen Sie zum KEGG Table of contents (http://www.genome. ad.jp/kegg/kegg2 .html) und folgen Sie dem Hyperlink Metabo­ licpathways. Wahlen Sie den Stoffwechselweg Glycolysis/Gluco­ negenesis. Zeigen Sie, entsprechend dem Vorgehen aus Obung 8.2 den speziesspezifischen Stoffwechselweg fur den Menschen an. Wiederholen Sie die Vorgehensweise in einem zweiten Fenster Ihres Browsers, lassen Sie sich diesmal jedoch den spe­ ziesspezifischen Stoffwechselweg fur Helicobacter pylori anzei­ gen. In der KEGG-Datenbank sind derzeit (Stand April 2003) zwei H. pylori-Stamme verzeichnet. Wahlen Sie den Stamm H. pylori 26695 aus. Der direkte Vergleich der beiden speziesspe­ zifischen Stoffwechselwege zeigt, dass H. pylori im Vergleich zum Menschen die Enzyme EC 2.7.1.11 und EC 2.7.1.40 inner­ halb des Glykolyse-Stoffwechsels fehlen. Anhand der EC-Num­ mer konnen Sie ablesen, dass es sich in beiden Fallen urn Kina­ sen, also Phosphatgruppen iibertragende Enzyme handelt. Informationen zur Aufgabe der beiden Enzyme erhalten Sie, indem Sie dem jeweiligen Hyperlink (EC-Nummer) zur LIGAND-Datenbank folgen. Die Phosphofruktokinase (EC 2.7.1.11) katalysiert in einer irreversiblen Reaktion die Umset­ zung von Fructose-6-phosphat zu Fructose-l,6-bisphosphat. Pyruvatkinase (EC 2.7.1.40) katalysiert in einer weiteren irre­ versiblen Reaktion den letzten Schritt der Glykolyse, die Umsetzung von Phosphoenolpyruvat zu Pyruvat. Aus dem direkten Vergleich der beiden Stoffwechselkarten ist zu schlie­ Ben, dass H. pylori zwei entscheidende Enzyme zur Glykolyse fehlen und H. pylori folglich keine komplette Glykolyse durch­ fiihrt. Betrachtet man das natiirliche Habitat des Bakteriums, 234 Losungen zu den Obungen

wird dies verstandlich. H. pylori siedelt sich im Magen von Sau­ getieren, d.h. einer stark sauren Umgebung, an. Die Produktion von Pyruvat wiirde eine weitere Saurelast bedeuten, weshalb das Bakterium diesen Stoffwechselschritt nicht ausnutzt.

Obung 8.6

Gehen Sie zur Homepage der NCBI Microbial-Genomes-Daten­ bank (http://www.ncbLnlm.nih.gov/PMGifs/Genomes/micr. html) und folgen Sie dem Hyperlink BLAST im linken Teil der Seite (blauer Balken). Sie gelangen zu einer speziellen BLAST­ Startseite, auf der Sie BLAST-Suchen gegen die Genome von Mikroorganismen durchfiihren konnen, Geben sie die Acces­ sion-Number Q9 ZK41 in das Texteingabefeld ein und wahlen Sie den Typ des Query und der Database. Da eine Suche mit dem Programm blastp durchgefiihrt werden soll, wahlen Sie fiir beides Prot.ein aus. Alternativ konnen Sie auch das Pro­ gramm blast.p im Auswahlfeld Blast-program auswahlen. Gehen Sie anschlieBend zur Organismenauswahl und wahlen Sie die gewiinschten Organismen aus. Am einfachsten driicken Sie zur Auswahl die Plus (+) Schaltflache neben der gewiinschten Kategorie, z.B. Bacteria / Firmicutes / Staphylo­ coccus. Dadurch werden automatisch nur die mit dem Buchsta­ ben P gekennzeichneten Organismen, d.h. Organismen, von denen Proteinsequenzen bekannt sind, ausgewahlt, Dieser Mechanismus setzt allerdings voraus, dass Sie bereits die Aus­ wahl des Query- und Database-Typs vorgenommen haben. Starten Sie anschlieflend die Analyse, indem Sie die Schaltfla­ che BLAST am Anfang oder am Ende der Seite driicken. Es werden drei relevante Datenbank-Hits gefunden. Offen­ sichtlich handelt es sich bei der Sequenz mit der Accession­ Number Q9ZK41 urn den Glucose/Galactose-Transporter von H. pylori, der durch das Gen gluP kodiert wird. Campylobacter jejuni besitzt ein homologes Protein, das in der Annotation als putative sugar transporter bezeichnet und durch das Gen Cj0486 kodiert ist. In den Gattungen Staphylococcus und Strep­ tococcus wurden keine homologen Sequenzen gefunden. Losungen zu den Obungen 235

Obung 8.7

Gehen Sie zur Startseite der Comprehensive Microbial Resource (http://www.tigr.org/tigr-scripts/CMR2/CMRHome­ Page.spl) und folgen Sie dem Hyperlink Genome vis Genome Protein Hits im Abschnitt Multi-Genome Analyses. Wahlen Sie in der Auswahlbox Select reference genome das Genom von H• pylori 26695 aus. AnschlieBend wahlen Sie im Auswahl­ feld Select genomes to compare against reference der Reihe nach jeweils eines der drei E. coli Genome aus. Driicken Sie nach jeder Auswahl die Schaltflache Add molecule rechts neben dem Auswahlfeld. Damit wird die Auswahl im rechten Textfeld eingetragen. Achten Sie darauf, dass die Auswahl Comparison logic dabei auf AND eingesteUt ist. Wenn Sie alle drei E. coli Genome entsprechend ausgewahlt haben, wahlen Sie unter dem Punkt Similarity cutofffor matches die Auswahl Above 9 0 % aus und senden anschlieBend die Analyse mit einem Mausklick auf die Schaltflache Generate Display abo Das Ergebnis der Analyse wird in einer Graphik visualisiert, welche die vier ausgewahlten Genome als konzentrische Ringe dar­ steUt. Der auBerste Ring entspricht dem Referenzgenom, die inneren Ringe den jeweiligen Vergleichsgenomen. Wenn Sie mit dem Mauszeiger iiber die Graphik fahren, wird rechts neben der Graphik der Name des zugehorigen Genoms hervor­ gehoben. Dariiber hinaus werden auf dem Referenzgenom nur homologe Sequenzen dargesteUt. E. coli K12 besitz kein Protein, das eine Ahnlichkeit von 90% oder mehr zu einem Protein aus H. pylori aufweist. Die beiden anderen E. coli Genome besitzen jedoch jeweils ein sol­ ches Protein. Urn Proteine mit einer Ahnlichkeit kleiner 40% auszuwahlen, steUen Sie in der Auswahl rechts oben neben der Graphik die Auswahl Below 40 % ein und klicken anschlie­ Bend auf die Schaltflache Update. Die Ergebnisseite zeigt keine Proteine aus E. coli, die eine Ahnlichkeit zu Proteinen aus H. pylori26695 aufweisen. Urn Proteine aus H. pylorizu identi­ fizieren, die keine Ahnlichkeit zu Proteinen aus E. coli haben, wahlen Sie in der Auswahl Above 4 0 % aus und driicken 236 Losungen zu den Ubungen

Updat.e, Die Ergebnisseite zeigt eine sehr groBe Anzahl von E.-coli-Proteinen, die eine Ahnlichkeit von tiber 40% zu H.­ pylori-Proteinen besitzen. Im Abschnitt Summary statistics for reference genome finden Sie die Statistik des Referenzgenoms, d.h. des H.-pylori-Genoms. 715 Proteine aus H. pylori erfullen die Bedingungen der Abfrage nicht, d. h. sie besitzen keine Ahnlichkeit von tiber 40% zu einem Protein aus E. coli. Ent­ sprechend des definierten Ahnlichkeitskriteriums (Ahnlichkeit kleiner als 40%) besitzt H. pylori 26695 also 715 Proteine, die keine Ahnlichkeit zu Proteinen aus E. coli aufweisen.

Obung 8.8

Gehen Sie zur Startseite der COG-Datenbank (http://www.ncbi. nlm.nih.gov/COG/) und folgen Sie dem Hyperlink Phylogenetic patterns search. Wahlen Sie aus der Organismenauswahl die Organismen entsprechend dem angegebenen phylogeneti­ schen Muster ---yqvdrblce-ghs-j - i t.w aus. [ede Position innerhalb des Musters steht fur einen Organismus, dessen Name mit einem Buchstaben abgekurzt wird. Die Rei­ henfolge der Organismen im Muster entspricht der Organis­ mentafel auf der Homepage der COG-Datenbank. Besitzt ein Organismus keine Proteine, die dem jeweils betrachteten COG zugeordnet werden konnen, wird anstelle des Einbuchstaben­ Codes fur den Organismus an dieser Stelle im phylogeneti­ schen Muster ein Strich (-) geschrieben. Daher kann das phy­ logenetische Muster direkt in die Auswahltabelle tibertragen werden. Wahlen Sie fur die nicht vertretenen Organismen (-) No, fur die vorhandenen Organismen Yes aus. Drucken Sie anschlieBend die Schaltflache Search links tiber der Orga­ nismenauswahl, urn die Abfrage zu starten. Es wird ein COG, 6-phosphofructokinase, gefunden, das diesem phylogeneti­ schen Muster entspricht. Werden deutlich mehr COGs gefun­ den, haben Sie moglicherweise fur nicht vertretene Organis­ men nicht No, sonden de (don't care) ausgewahlt, Dies bedeu­ tet, dass die Positionen vorhanden sein konnen, aber nicht vor­ handen sein mussen. Das phylogenetische Muster wird Losungen zu den Ubungen 237 dadurch weitaus flexibler und findet eine groBere Anzahl von COGs. Klicken Sie auf den Namen des angezeigten COGs (COG0205), urn Informationen iiber die im COG enthaltenen Sequenzen anzeigen zu lassen. Suchen Sie die Sequenzen der entsprechenden Organismengruppen (E, B, H) in der Tabelle. Gruppe E enthalt die Sequenzen pfkA, BU305 und ZpfkA. Gruppe B enthalt die Sequenzen BS-pfk und BH3164, Gruppe H enthalt die Sequenzen HI0982 und PM0069. Sehen Sie sich nun den phylogenetischen Baum im unteren Teil der angezeig­ ten Seite an. Die Sequenzen pfkA, ZpfkA, BU305, HI0982 und PM0069 sind innerhalb eines Clusters zu finden, wahrend die Sequenzen BS-pfk und BH3164 im benachbarten Cluster auf­ treten. Entsprechend dieser Analyse waren Haemophilus influ­ enzae und Pasteurella multocida also naher zu E. coli verwandt als Bacillus subtilis und Bacillus halodurans. Diese Aussage bezieht sich jedoch streng genommen nur auf die betrachteten Proteine und kann nicht in allen Fallen auf die gesamten Orga­ nismen iibertragen werden.

Obung 8.9

Gehen Sie zur Homepage der MBGD-Datenbank (http://mbgd. genome.ad.jpl) und folgen Sie dem Hyperlink Create/view Orthologous gene table. Benutzen Sie den taxonomy browser, urn die gewiinschten Organismen auszuwahlen. Folgen Sie dazu dem Hyperlink taxonomy browser unter dem Organisme­ nauswahlfeld. Driicken Sie zuerst die Schaltflache Clear, urn die Auswahl zuriickzusetzen. Wahlen Sie anschliefsend die gewiinschten Organismen aus, indem Sie jeweils die Schaltfla­ che On neben der entsprechenden Klasse von Organismen driicken. AIle zugehorigen Organismen werden dadurch aus­ gewahlt, Haben Sie alle gewiinschten Organismenklassen aus­ gewahlt, driicken Sie die Schaltflache Choose checked t.axa am Beginn oder am Ende der Seite. Driicken Sie anschliefsend auf der neu geladenen Seite die Schaltflache Creat.e Clust.er Table. Die Berechnung des Clusters 238 Losungen zu den Ubungen

kann einige Minuten in Anspruch nehmen. Wahrend die Ana­ lyse lauft, wird eine self-refreshing HTML-Seite angezeigt. 1st die Berechnung beendet, wird die Cluster table angezeigt.

Obung 8.10

In der Cluster Table der Obung 8.9 sind die phylogenetischen Profile fiir die ausgewahlten Organismen aufgetragen. Die Spalten entsprechen der Tabelle, die Zeilen den einzelnen Pro­ filen. Tragt ein Organismus Proteine zu einem Cluster bei, wird in der Tabelle an der Position des Organismus eine Markie­ rung (griiner Block) gesetzt. Das gesuchte phylogenetische Muster entspricht also einem durchgehenden griinen Balken, da alle ausgewahlten Organismen Proteine zum Cluster beitra­ gen. Diesem phylogenetischen Muster entsprechen 376 Cluster. Klicken Sie auf den Farbbalken rechts neben dem phylogeneti­ schen Muster, urn die einzelnen Cluster anzuzeigen. Welche Cluster direkt angezeigt werden, hangt davon ab, welchen Teil des Farbbalkens sie angeklickt haben. Die Farben entsprechen den funktionellen Kategorien. Urn das erste Cluster anzuzei­ gen, klicken Sie in den ersten Abschnitt des Farbbalkens (vio­ lett). Die violette Farbe zeigt an, dass dieses Cluster Proteine der funktionellen Kategorie Aminosaure-Biosynthese enthalt. Die Legende des Farbcodes finden Sie auf der Cluster Table Seite unter dem Hyperlink the function categories.

Obung 8.11

Gehen Sie zur Startseite der MBGD-Datenbank (http://mbgd. genome.ad.jpl). Sind in der Organismeniibersicht nicht die ausgewahlten Organismen markiert, driicken Sie gegebenen­ falls Reload/Refresh. Geben Sie anschlieBend den Suchbegriff fructokinase in das Texteingabefeld links neben der Organis­ meniibersicht ein und driicken Sie Exec. Es werden 19 Ein­ trage in der aktuellen Cluster table gefunden. Glossar

@ - Der Ingenieur Ray Tomlinson schrieb 1972 (Bolt Beranek and Newman, Inc.) das erste Emailprogramm. Er benotigte ein Zeichen, das den ersten Teil der Email-Adresse von der Host- bzw. Domainangabe trennt. Das erforderliche Zeichen durfte in keinem Namen vorkommen. Tomlinson entschied sich fur das @-Zeichen auf der Tastatur seines Fernschrei­ bers Modell 33. Dieses Zeichen wurde schon in Handschrif­ ten und auch Drucken des Barock (17. [h.) verwendet, wo es fur lateinisches ad eingesetzt wurde. Der "Klammeraffe" wird im heutigen Zusammenhang als at (englisch: bei, in, an, auf) gelesen und ist notwendiger Bestandteil jeder Email- Adresse Accession Number - Eindeutige Identifizierung von Datenban­ keintragen in einer Sequenzdatenbank. Accession Numbers sind statisch, d.h. sie behalten ihre Gultigkeit tiber Daten­ bankaktualisierungen (updates) hinaus Account - Konto. Zugangsberechtigung zu einem Computer­ system ADSL - Asynchronous Digital Subscriber Line. DSL-Technolo­ gie, bei der fur den Download aus dem Netz eine hohere Bandbreite zur VerfUgung steht als fur den Upload Affinitatschromatographie - Technik zur Aufreinigung von Proteinen, in der die Affinitat eines Proteins zu einer Sub­ stanz (z. B. von Antikorpern zu Antigenen) ausgenutzt wird Ahnlichkeit - Formverwandtschaft. Bewertung von Sequenzen hinsichtlich der Ahnlichkeit der Aminosaurenabfolge. Dies 240 Glossar

setzt die Definition von Ahnlichkeitsbeziehungen zwischen den 20 Aminosauren voraus Ahnlichkeitsmatrizen - Mathematische Formulierung von Ahnlichkeitsbeziehungen zwischen Aminosauren auf der Grundlage eines definierten Modells Algorithmus - Abgeleitet von Al-Khowarizmi (arabischer Mathematiker, 825 n. Chr.). Logische Abfolge von Schritten zur Losung eines meist mathematischen Problems Alias - Alias oder Alias-Namen sind Namen, die stellvertre­ tend fur einen anderen Namen stehen. Unter Unix-Betriebs­ systemen lassen sich etwa komplizierte Kommandozeilen tiber ein Alias einfacher aufrufen. Komplizierte User-Identi­ fikationen, Email-Adressen etc. sind fur Online-Nutzer durch die Verwendung von kurzen Alias-Namen leichter zu merken. Beispiel: der Befehl mount -t msdos/dev/fdO/floppy kann nach dem Eintrag alias diskmount mount -t msdos/dev/ fdO/floppy in einer Systemdatei dann lediglich durch Eingabe des Befehls diskmount ausgefiihrt werden. S. auch Mail-Alias Alignment - Anordnung von zwei (paarweises Alignment) oder mehreren (multiples Alignment) Sequenzen, bei der ahnliche oder identische Arninosauren bzw. Nukleotide direkt untereinander stehen Alpha (a)-Helix - Regulares Faltungsmuster der Sekundar­ struktur von Proteinen. Die a-Helix zeigt eine Ganghohe von 0,54 nm mit 3,6 Aminosaureresten pro Windung Alternatives Spleiflen - Herstellung von verschiedenen mRNA­ Transkripten aus einer Pra-RNA durch unterschiedliche Nutzung von SpleiBstellen Aminosauren - Bausteine der Proteine. Proteine werden aus den 20 natiirlich vorkommenden Aminosauren aufgebaut Analogie - Eine Eingruppierung nach wesentlich erscheinen­ den, ubereinstimmenden Merkmalen der Struktur und/oder der Funktion (z.B. Proteine, die ahnliche Faltungsmuster oder funktionelle Zentren besitzen, die jedoch nicht auf ein gemeinsames Vorlaufer-Protein zuruckzuftihren sind; Kopf und Mundwerkzeuge von Arthropoden wie Insekten im Ver­ gleich zu denen der Wirbeltiere sowie Extrernitaten und Flu- Glossar 241

gel beider Gruppen). S. auch Homologie, Merkrnal, Ver­ wandtschaft, Phylogenie Annotation - Vermerk moglicher Verwandtschaftsverhaltnisse und daraus abgeleitete mogliche biologische Funktionen Antigene - Stoffe, die den Korper zur Bildung von Antikorpern anregen. Ein Antigen ist beispielsweise ein Oberflachenpro­ tein eines Bakteriums Antikorper - Antikorper sind Proteine (auch als Immunglobu­ line bezeichnet), die an ein Antigen binden und dieses mar­ kieren, damit Zellen des Immunsystems das Antigen unschadlich machen konnen Applet - Kleines Cornputerprogramm, das per HTML von einem Server geladen und auf dem eigenen Computer aus­ gefiihrt wird. Applets sind meist in der Programmiersprache JAVA geschrieben Array - S. Microarray Arrayexpress - Datenbank am EBI, in der die Ergebnisse von Microarray-Experimenten gespeichert werden konnen und jederzeit abfragebereit vorliegen ASCII - American Standard Code for Information Interchange. Codetabelle zur Kodierung von 128 akzentfreien Zeichen (a­ z, A-Z, 0-9 sowie Sonder- und Steuerzeichen). ASCII­ Dateien werden oft als Plain-Text oder Flat-File bezeichnet Assembly - S. Sequence Assembly. Basen - Grundbausteine der DNA und RNA. Die Abfolge der Basen (Nukleotidsequenz) bildet die Bauanleitung fur das Genprodukt Basenpaar - Iede rnogliche Paarung zwischen zwei Basen der beiden gegeniiberliegenden Nukleotidstrange, Adenin paart in der DNA mit Thyrnin, in der RNA mit Uracil, Cytosin paart mit Guanin Beta (~)-Faltblatt - ~ sheet. Regulares Faltungsmuster der Sekundarstruktur von Proteinen. ~- Faltblatter werden von zwei Aminosaureketten aufgebaut. Die Peptidketten konnen gleich- oder gegenlaufig orientiert sein, was zu parallelen bzw. anti-parallelen Paltblattern fuhrt, Aufeinanderfolgende Aminosaurereste stehen auf entgegengesetzten Seiten der 242 Glossar

Blattebene mit einer Wiederholungseinheit von zwei Resten im Abstand von 0)7 nm Binardatei - Datei, die nicht-lesbaren Text enthalt, z.B. aus­ fiihrbare Programme, Video- und Sound-Dateien Biochip - S. Oligonukleotid-Array Bioinformatik (angewandte) - Anwendung informatischer und mathematischer Konzepte auf groBe Mengen biologi­ scher Daten zur Beschleunigung und Verbesserung biologi­ scher Forschung. Die angewandte Bioinformatik spielt dabei stark in die Bereiche Molekularbiologie, Biochemie, Medizin und Chemie hinein Bioinformatik (theoretische) - Die Entwicklung computerba­ sierter Datenbanken, Algorithmen und Programme zur Beschleunigung und Verbesserung biologischer Forschung. Die theoretische Bioinformatik spielt dabei stark in die Bereiche der Informatik hinein BLAST - Basic Local Alignment Search Tool. Heuristischer Algorithmus zur Sequenzsuche in Sequenzdatenbanken Breitbandantibiotikum - Antibiotisch wirksame Substanz, deren Wirkmechanismus (mode ofaction) auf einem ubiqui­ taren Zielprotein (Target) basiert und somit gegen eine Viel­ zahl verschiedener Bakterien gerichtet ist Broad spectrum antibiotic - S. Breitbandantibiotikum Browser - Computerprogramm zur Benutzung des WWWs (z.B. Netscape, Mozilla, Internet Explorer, Opera, etc.) CAP3 - Ein auf dem Smith-Waterman-Algorithmus basiertes Sequence Assembly Programm CATH - Strukturelle Proteindatenbank, die Proteindomanen hierachisch in vier Gruppen einteilt: Class (C), Architecture (A), Topology (T) und Homologous superfamily (H) cDNA - Complementary DNA. Eine DNA) die mit Hilfe des viralen Enzyms Reverse-Transkriptase mit einer mRNA als Matritze hergestellt wird. Eine cDNA besitzt wie die mRNA keine Introns eDNA-Array - DNA-Microarray, bei dem in vitro amplifizierte cDNAs als Spots auf dem 'Iragermaterial platziert sind Glossar 243 cDNA-Bibliothek - Eine cDNA-Bibliothek enthalt samtliche eDNA-Transkripte einer Zelle, eines Gewebes oder eines ganzen Organismus. Sie enthalt im Gegensatz zu einer geno­ mischen Genbank ausschlieBlich kodierende DNA CDS - S. Coding Sequence Central Dogma - S. zentrales Dogma der Molekularbiologie CERN - Conceil Europeen pour la Recherche Nucleaire oder Organisation Europeenne pour la Recherche Nucleaire. Europaische Organisation fur Kernforschung mit Sitz in Genf und Forschungsstation in Meyrin. Am CERN begann die Entwicklung des WWWs, urn damit Forschungsdaten so zu verwalten, dass Forscher in anderen Landern auf diese Daten zugreifen konnten CIB - Center for Information Biology. Iapanisches Bioinforma­ tik-Institut, das unter anderem die Nukleotiddatenbank DDBJ verwaltet Classical Proteomics - S. klassische Proteomics. Client - Computerprogramm, das mit einem Server kommuni­ ziert. Browser sind klassische Clients, die mit Web-Servern kommunizieren Cluster - Gruppe, in der ahnliche Objekte zusammengefasst sind. Beispiele sind EST-Sequenzen, die auf Grund von Sequenziibereinstimmungen in ein Cluster eingeteilt wer­ den, oder Gene, die anhand ahnlicher Expressionsprofile einem Cluster zugeteilt werden Clustering - Der Prozess der Gruppierung von Objekten, die anhand von Ubereinstimmungen in einzelne Cluster einge­ teilt werden Coding Sequence - Bereich der DNA, der wahrend der Tran­ skription in mRNA umgeschrieben und anschlieBend in ein Protein translatiert wird Codon - Drei unmittelbar aufeinanderfolgende Nukleotide (Basentriplett) der DNA bzw. RNA, die fur eine der 20 natiir­ lichen Aminosauren kodieren Codon Usage - Speziesspezifische Verwendung der verschiede­ nen moglichen Codons zur Kodierung der Arninosauren 244 Glossar

Command Line - Unterstes Level (textbasiert) zur Kommuni- kation zwischen Benutzer und Computer Communication Protocol - S. Kommunikations-Protokoll Comparative Genomics - S. vergleichende Genomanalyse Computer - Elektronischer Rechner, der eine Moglichkeit zur Eingabe von Daten besitzt, die Daten verarbeitet und die Ergebnisse als Information ausgibt Content Provider - S. Online-Dienste Contig - Zusammenhangendes (contiguous) Segment eines Genoms, das durch Zusammenfiigen uberlappender Sequen­ zen entstanden ist CORBA - Common Object Request Broker Architecture. Indust­ riestandard, der die Verbindung von verschiedenen Objek­ ten und Programmen ungeachtet der Programmiersprache, Maschinenarchitektur bzw. geographischen Position der Computer erlaubt Datenbank - Sammlung von Daten) die so organisiert ist, dass auf die Inhalte einfach zugegriffen werden kann dbEST - Offentlich zugangliche Datenbank, in der Expressed Sequence Tags (EST) gespeichert werden. Die dbEST ist am NCBI lokalisiert dbGSS - Datenbank am NCBI) in der Genome Survey Sequen­ ces (GSS) gespeichert werden dbSNP - NCBI-Datenbank) in der kurze genetische Variatio­ nen wie beispielsweise SNPs gespeichert werden DDBJ - DNA Data Bank of Japan. Bildet zusammen mit den Datenbanken EMBL und GenBank die International Nucleo­ tide Sequence Database Deletion - Mutation in einer Nukleotidsequenz, in der ein­ zelne Nukleotide oder ganze Bereiche im Vergleich zur Ori­ ginalsequenz fehlen DNA - Desoxyribonucleic acid. Die DNA ist Trager der Erbin­ formation. Sie besteht aus zwei gepaarten Nukleotidstran­ gen) die spiralartig umeinander gewunden sind) so dass eine Doppelhelix-Struktur entsteht. Die Paarung der beiden Nukleotidstrange erfolgt tiber Wasserstoffbrtickenbindun­ gen zwischen spezifischen Basenpaaren Glossar 245

DNA-Denaturierung - Umwandlung von doppelstrangigen Nukleotidsequenzen in einzelstrangige Sequenzen. Dabei werden die Wasserstoffbrilckenbindungen zwischen den Einzelstrangen beispielsweise durch starkes Erhitzen zer­ start. Die Bildung von einzelstrangigen Nukleotidsequenzen ist Voraussetzung dafur, dass diese mit den ebenfalls einzel­ strangigen Sequenzen z.B. eines DNA-Microarrays hybridi­ sieren konnen DNA-Microarray - Miniaturisierte Technik, die auf der Methode der Nukleinsaurehybridisierung basiert. Mit DNA­ Microarrays konnen beispielsweise Genexpressionsprofile von Zellen analysiert werden. Man unterscheidet Oligonu­ kleotid- und cDNA-Microarrays DNA-Sequenz - Abfolge der Basenpaare in einem DNA-Frag­ ment, einem Gen, einem Chromosom oder einem vollstan­ digen Genom DNA-Sequenzierung - Methode zur Bestimmung der Nukleo­ tidsequenz eines DNA-Molekills. Sehr verbreitet ist die Dideoxy-Chain-Termination-Methode, die 1977 von Frede­ rick Sanger publiziert wurde DNS - Desoxyribonukleinsaure, S. DNA. Docking - Computerbasiertes Einpassen eines Liganden in die Bindetasche eines Proteins Domain (biol.) - S. Dornane Domain (comp.) - Cornputer-Netzwerke sind in logische Teil­ bereiche (Domains) unterteilt. Diese Einteilung wird im full qualified domain name des Computers z.B. ftp.ncbi.nih.gov abgebildet. In dies em Fall ist die Top-level domain, d.h. die weitmaschigste logische Einheit die Domain .gov (Govern­ ment). Andere bekannte Domains im WWW sind .com (Pri­ vatunternehmen), .edu (Einrichtungen im Bildungsbereich), .net (administrative Netz-Organisationen), .de (geografische Domain fur Deutschland) usw. Domane - Abgegrenzter funktioneller Bereich eines Proteins, der eine eigene Faltung aufweist. Die Gesamtfunktion eines Proteins resultiert aus der Kombination verschiedener Domanen 246 Glossar

Download - Laden einer Datei von einem entfernten Server auf den lokalen Computer. Der Download kann zum Beispiel per PTP oder per HTTP tiber einen Browser aus dem WWW erfolgen DSL - Digital Subscriber Line. Digitale Technologie zur Uber­ tragung von Daten, die auf herkornmlichen Kupferleitungen Ubertragungsraten erlaubt, die bis zu IOO-mal schneller als ISDN sind Dynamische Verfahren - Aufteilung eines Problems in Teil­ probleme und Wiederverwendung von Losungen fur Teil­ probleme. Fur die Losung eines Problems der GroBe n wer­ den alle Teilprobleme der GroBe 1, 2, ..., n-1 gelost, Losun­ gen werden in eine Tabelle gespeichert und daraus die Losung fur n abgeleitet. Dynamische Verfahren sind meist sehr genau, konnen aber sehr langsam werden (z.B. der Smith-Watermann Algorithmus) EBI - European Bioinformatics Institute. Das europaische Bio­ informatik-Institut, das zum EMBL gehort und in Hinxton bei Cambridge, GB lokalisiert ist Edman-Abbau - Technik zur Sequenzbestimmung von Poly­ peptiden Email - Electronic Mail. Klassischer Service im Internet zum Austausch von Informationen zwischen Benutzern eines Computersystems bzw. entfernten Computersystemen im Internet EMBL - Das European Molecular Biology Laboratory wurde 1974 gegrundet und wird von 16 europaischen Staaten inklusive Israel gefordert, Der Hauptsitz ist in Heidelberg. Weitere Standorte sind in Hamburg (D), Grenoble (F), Hin­ xton (GB) und Monterotondo (I) ENTREZ - Allgemeines Abfragesystem zur Abfrage aller am NCBI verfugbaren Datenbanken Enzym - Ein Protein, das als Katalysator wirkt, d. h. das die Aktivierungsenergie der Reaktion herabsetzt und damit die Reaktionsgeschwindigkeit beeinflusst. Die Richtung einer Reaktion wird von Katalysatoren nicht verandert Glossar 247

Epitop - Der Bereich eines Proteins, an den ein Antikorper bindet. EST - Expressed Sequence Tag. Partielle Sequenz eines cDNA­ Klons Ethernet - Technologie zur Vernetzung von Computern Eukaryoten - Organismen, deren Zellen einen Zellkern und weitere subzellulare Kompartimente wie beispielsweise Mitochondrien besitzen. Zu den Eukaryoten gehoren alle Organismen mit Ausnahme der Viren, Bakterien, Cyano­ Bakterien und Archaebakterien Exon - Kodierender Bereich eines Gens von Eukaryoten. Exons konnen durch nicht-kodierende Introns voneinander ge­ trennt sein ExPASY - Expert Protein Analysis System. WWW-Server des Swiss Institute of Bioinformatics zur Analyse von Proteinse­ quenzen. Unter anderem ist die Swissprot-Datenbank auf dem Expasy-Server lokalisiert Expression Profiling - Die Bestimmung des Genexpressions­ musters einer Zelle oder eines Gewebes mit Hilfe von DNA­ Microarrays FAQ - Frequently Asked Questions. Zusammenstellung haufig gestellter Fragen und Antworten zu einem Thema. FAQs existieren haufig in Newsgroups oder auch auf Web-Servern und sind dafiir gedacht, neue Benutzer in die Thematik ein­ zufiihren FASTA - Heuristischer Algorithmus zur Sequenzsuche in Datenbanken FASTA-Format - Einfaches Datenbankformat zur Speicherung von Sequenzdaten. Das FASTA-Format besteht aus einer ein­ zelnen Kopfzeile, die mit dem Zeichen > beginnt. Dahinter folgt direkt, ohne ein Leerzeichen, ein sogenannter Identifier und optional, getrennt durch ein Leerzeichen, eine kurze Beschreibung. Die folgenden Zeilen enthalten die Sequenz­ information Fingerprint - Eine Reihe von Sequenzrnotiven, die aus multi­ plen Alignments abgeleitet wurden und eine charakteristi­ sche Signatur fur Mitglieder einer Proteinfamilie bilden 248 Glossar

Firewall - Bin Mechanismus zum Schutz von Computern gegen Angriffe aus dem Internet. Die Firewall erlaubt den Zugriff von Computern hinter der Firewall auf das Internet) blockiert jedoch umgekehrt Zugriffe aus dem Internet Flat-File - Bin Flat-File enthalt Daten) die in keiner strukturel­ len Beziehung zueinander stehen. Die meisten biologischen Datenbanken bestehen aus Flat-Files Frameshift - Eine Deletion oder Insertion in einer DNA­ Sequenz) die zur Verschiebung des Leserahmens fur aIle nachfolgenden Codons fuhrt. In der Natur konnen Frames­ hifts durch zufallige Mutationen entstehen. In DNA-Sequen­ zierungen sind haufig Frameshifts enthalten, die von Lese­ fehlern der Automaten herruhren FTP - File Transfer Protocol. Kommunikationsprotokoll zur Ubertragung (download/upload) von Dateien zwischen zwei Computern Functional Genomics - Parallele Analyse von Genen einer Spe­ zies, urn die Funktion der Genprodukte zu identifizieren. Methoden, die zur Aufklarung dieser Funktion eingesetzt werden, sind beispielsweise die DNA-Microarray-Technolo­ gie, Serial Analysis of Gene Expression und die Proteomics­ Technologie Funktionelle Proteomics - Functional Proteomics. Das Ziel der funktionellen Proteomics ist die Aufklarung der Funktionen von Proteinen. Bin wichtiger Bereich der funktionellen Pro­ teomics ist die Identifizierung von Protein-Protein-Interak­ tionen Fusionsprotein - Produkt eines Hybridgens. Haufig werden solche Hybridgene experimentell hergestellt, damit die ent­ stehenden Fusionsproteine aufgereinigt oder nachgewiesen werden konnen Gap - Lucke in einem Alignment) die durch Insertionen oder Deletionen in Sequenzen entsteht GCG - Genetics Computer Group. Eine Reihe von bioinforma­ tischen Programmen zur Analyse von DNA- und Proteinse­ quenzen. GCG wurde 1982 als ein Service der University of Wisconsin gegrundet und ist deshalb auch unter dem Glossar 249

Namen Wisconsin Package bekannt. GCG wurde 1990 zu einer kommerziellen Software und wird heute weltweit durch Accelrys, Inc. vertrieben Gen - DNA-Segment, das die Erbinformation tragt und fur Proteine kodiert. Ein Gen besteht aus mehreren Einheiten, wie Exons und Introns sowie flankierenden Bereichen, die hauptsachlich der Genregulation dienen. Gene werden hau­ fig auch als die funktionellen Einheiten des Genoms bezeichnet GenBank - Eine am NCBI lokalisierte Datenbank, in der Nukleotidsequenzen gespeichert sind Gene Indices - Nach Spezies getrennte Datenbanken am TIGR­ Institut, in der die verfUgbaren Nukleotidsequenzen eines Gens nicht-redundant dargestellt werden GeneChip - S. Oligonukleotid-Array Genetischer Code - Ubersetzungsschlussel zur Obertragung der Erbinformationen zum Aufbau der Proteine. [e drei Basen (Basentriplett) kodieren fur eine Aminosaure. Unter­ schiedliche Basentripletts konnen fur die gleiche Amino­ saure kodieren (degenerierter Code). Der genetische Code ist bis auf wenige Ausnahmen (z. B. in Mitochondrien oder Ciliaten) bei allen Lebewesen gleich Genexpression - Vorgang, bei dem die von einem Gen kodierte Information in funktionelle Strukturen tibersetzt wird. Als exprimierte Gene bezeichnet man sowohl Gene, die in RNA transkribiert und dann in Protein translatiert werden, als auch Gene, die nur in RNA transkribiert aber nicht transla­ tiert werden Genfamilie - Eine Gruppe von verwandten Genen, die zu ahn­ lichen Proteinprodukten ftihren Genom - Gesamtheit der Erbinformation eines Organismus. Das Genom reprasentiert die Summe aller Gene sowie alle diejenigen Teile der DNA, die das Ablesen der genetischen Information beeinflussen oder deren Funktion bisher unbe­ kannt ist Genomics - Fachgebiet, das sich mit der Analyse des gesamten Genoms eines Organismus beschaftigt 250 Glossar

Genomische Genbank - Genbank, die sich aus vielen Klonen mit genomischer DNA zusammensetzt. Im Gegensatz zu einer cDNA-Bibliothek enthalt eine genomische Genbank auch nicht-kodierende DNA wie beispielsweise die Introns der Gene, aber auch DNA-Regionen, in denen keine Gene vorkommen Genotyp - Gesamtheit aller genetisch festgelegten Merkmale eines Individuums. Genotyping - Experimentelle Bestimmung des Genotyps eines Individuums GEO - Gene Expression Omnibus. Datenbank am NCBI, in der Genexpressionsdaten aller Art gespeichert und abgefragt werden konnen. Dazu gehoren die Ergebnisse von DNA­ Microarray Experimenten oder auch von SAGE-Experimen­ ten Global Alignment - Alignment tiber die gesamte Lange von zwei Sequenzen Glykosylierung - Posttranslationale Modifizierung, bei der Proteine nach ihrer Translation mit Zuckerresten unter Abspaltung von Wasser verbunden werden. Auch andere organische Molekiile wie Lipide konnen glykosyliert werden Gopher - Internet-Service zum Informationsaustausch. Der Gopher-Service kann als Vorlaufer des WWW angesehen werden GSS - Genome Survey Sequences. Analog den EST-Sequenzen werden GSS-Sequenzen durch die einmalige Sequenzierung der Endbereiche von DNA-Klonen generiert. Im Unter­ schied zu ESTs werden fur die Herstellung von GSS-Sequen­ zen Klone aus genomischen Genbanken sequenziert. Des­ halb konnen GSS-Sequenzen auch Bereiche enthalten, die auBerhalb von Genen vorkommen GUI - Graphical User Interface. Graphische Oberflache zur Bedienung eines Computers (z.B. Windows, X-Window, usw.) Heuristische Verfahren - Vorgehensweise, die auf einer Ab­ folge von Naherungen basiert. Heuristische Verfahren versu­ chen, optimale oder wenigstens annahernd optimale Losun- Glossar 251

gen in einem exponentiell groBen Losungsraum durch pro­ blemspezifische Information zu finden. Heuristische Verfah­ ren sind sehr schnell, es ist jedoch moglich, dass nicht aIle moglichen Losungen gefunden werden (z.B. der BLAST Algorithmus) Hidden Markov Modelle - Das Hidden Markov Model (HMM) ist benannt nach dem russ ischen Mathematiker A. A. Mar­ kov (1856 - 1922). Stochastischer (mutmaBender, vom Zufall abhangiger) Prozess bei dem die GroBen, die den System­ gleichungen gehorchen, nicht direkt beobachtbar sind, son­ dern nur abgeleitete GroBen beobachtet werden konnen, HMMs bestehen aus Zustanden, moglichen Ubergangen zwischen diesen Zustanden und der Wahrscheinlichkeit des Eintreffens dieser Ubergange, In einem spezifischen Zustand kann ein Resultat generiert werden, indem aIle Wahrschein­ lichkeiten in Betracht gezogen werden. Nur das Resultat, nicht aber die Zustande, sind fur einen externen Betrachter sichtbar. Die Zustande sind nach auBen verborgen (hidden). HMMs werden beispielsweise zur Erstellung von Profilen aus multiplen Protein-Alignments benutzt, urn dadurch neue Proteine zu identifizieren Horne Page - Startseite eines WWW-Servers. Diese Seite wird automatisch bei der ersten Anfrage eines Browsers an einen Server angezeigt, sofern keine spezifische Anfrage fur eine bestimmte HTML-Seite erfolgt ist HomoloGene - NCBI-Datenbank, in der homologe Proteine aus verschiedenen Spezies gesammelt sind Homologie - Homology. Eine Eingruppierung nach der stam­ mesgeschichtlichen Herkunft von Strukturen. Homolog sind Merkmale, die unverandert oder verandert von gemeinsa­ men Vorfahren ihrer Trager iibernommen wurden (z.B. spe­ zifische Kinasen des Menschen und der Maus, Extremitaten von Mensch und Maus). S. auch Analogie, Merkmal, Ver­ wandtschaft, Phylogenie Homology Map - Homologiekarte. Tabellarische Ubersicht iiber synthenische Regionen der Chromosomen zweier Spe­ zies 252 Glossar

Homology Modelling - Entwicklung eines Computermodells (in silico) einer Proteinstruktur, basierend auf einer bereits experimentell ermittelten Rontgenstruktur eines ahnlichen Proteins, das als Matrize dient Host - Gastgeber. Netzwerkrechner, der Zugriffe ermoglicht und verschiedene Dienste oder Programme fur zugreifende Rechner zur Verfiigung stellt. Oder: Der Computer (oder Server), in den sich der User einwahlt, urn ins Internet zu gelangen. Oder: Ieder Computer im Internet, der iiber eine IP-Adresse angesprochen werden kann HTML - Hypertext Markup Language, Auszeichnungssprache. Syntax zur Formatierung von Dokumenten im WWW.SO dass sie von Browser-Anwendungen entsprechend des WWW-Standards dargestellt werden konnen HTTP - Hypertext Transport Protocol. Kommunikationsprot­ koll des WWW. Spezifikation der Kommunikation zwischen WWW-Servern und deren Anwender wie z.B. Browser. Mit Hilfe dieses Protokolls konnen Browser HTML-Dokumente erkennen und deren Inhalte darstellen HTTPS - Hypertext Transfer Protocol Security. Mit dem HTTPS werden im WWW verschliisselte Daten iibertragen, z.B. nut­ zen Banken dieses Protokoll Hybridisierung - Paarung zweier komplementarer DNA-Ein­ zelstrange zu einem doppelstrangigen Molekiil durch die Bildung von Wasserstoffbriickenbindungen zwischen kom­ plernentaren Basen. Die Technik der Hybridisierung wird verwendet, urn komplernentare Sequenzen bei verschiede­ nen DNA-Proben zu finden Hyperlink - Kreuzreferenz einer HTML-Seite, die ein Doku­ ment im WWW mit einem anderen Dokument verbindet Hypertext - Text, der eingebettete Kreuzreferenzen (Hyper­ links) enthalt Identitat - Zahl der identischen Sequenzpositionen in einem Alignment IMAGE Konsortium - Integrated Molecular Analysis of Geno­ mes and their Expression. Ein Konsortium akademischer Arbeitsgruppen, das qualitativ hochwertige cDNA-Biblio- Glossar 253

theken herstellt und diese anderen wissenschaftlichen Ar­ beitsgruppen zur Verfiigung stellt Immobilisierung - Kovalente Bindung von Nukleinsauren an Tragermaterialen. Beispielsweise kann DNA durch UV­ Bestrahlung an Nylonmembranen immobilisiert werden In Silico - In Silizium. Silizium ist das Material, aus dem Com­ puterchips bestehen. Am Computer simuliertes Experiment In Vitro - lat. im (Reagenz-) Glas, aufserhalb eines lebenden Organismus. Bezeichnet den Ort, an dem ein Experiment ausgefiihrt oder eine Substanz, z.B. ein Medikament, getes­ tet wird In Vivo -lat. im Lebewesen, im Korper, innerhalb eines leben­ den Organismus. Bezeichnet den Ort, an dem ein Experi­ ment ausgefiihrt oder eine Substanz, z.B. ein Medikament, getestet wird Indexierung - InhaltserschlieBung. Vorgang der inhaltlichen Beschreibung von Datenbanken mit Hilfe von Deskriptoren, aussagefahigen Stich- und Schlagwortern oder Textwortern, damit Dokumente innerhalb der Datenbank schnell und effizient abgefragt werden konnen Insertion - Einbau einzelner Nukleotide oder ganzer Nukleo­ tidbereiche in einen DNA-Strang Internet - Weltweite Vernetzung von lokalen Netzwerken durch standardisierte Datenprotokolle Internet Service Provider - Anbieter von reinen Internetzu­ gangen. 1m Gegensatz zu Online-Diensten bieten Internet Service Provider keine eigenen Inhalte an InterPro - Integrative Proteinmotivdatenbank am European Bioinformatics Institute, die sich aus mehreren Einzeldaten­ banken zusammensetzt. Intranet - Computernetzwerk, das durch eine Firewall vom Internet abgetrennt ist, aber fiir die lokalen Benutzer des Netzwerkes ahnliche Funktionen bereitstellt Intron - Nicht-kodierender Bereich eines Gens von Eukaryo­ ten. S. Exon IP-Adresse - Internet Protocol Address. Industriestandard fur die Kommunikation zwischen offenen Systemen. Hauptauf- 254 Glossar

gabe der IP-Adresse ist die netziibergreifende Adressierung. Das Protokoll arbeitet nicht leitungs-, sondern paketvermit­ telt. Sogenannte Datagramme suchen sich iiber die jeweils verfiigbaren Verbindungen ihren Weg zum Empfanger, Die IP-Adresse ist eine eindeutige 12-stellige Nummer zur Iden­ tifizierung einzelner Computer, die in vier dreistelligen BlO­ cken, die jeweils durch einen Punkt getrennt sind, notiert ist (z. B. 130.298.317.200) ISDN - Integrated Services Digital Network. Digitales Telekorn­ munikationsnetz zur Obermittlung von Sprache und Daten Isoelektrische Fokussierung - Elektrophorese-Verfahren, bei der Proteine anhand ihres pI-Wertes aufgetrennt werden JAVA - Objektorientierte, Hardware-unabhangige Program­ miersprache, die von Sun Microsystems entwickelt wurde. Java-Programme oder Applets sind theoretisch auf jedem Computer Iauffahig, der das Java run-time environment (IRE) unterstiitzt, unabhangig von der jeweiligen Rechnerar­ chitektur (PC, MAC, Unix usw.) Klassische Proteomics - Die klassische Proteomics beschaftigt sich mit der Identifizierung und Quantifizierung von Prote­ inen in Zellysaten Klon - Eine Population genetisch identischer Organismen, Zel­ len oder Bakterien, die einen gemeinsamen Ursprung besit­ zen. Beispielsweise setzt sich ein Bakterienklon einer cDNA­ Bank aus vielen tausend Bakterien zusammen, die alle das gleiche Plasmid einer klonierten DNA-Sequenz aufweisen. Eine weitere Bedeutung von Klon bezieht sich auf eine Gruppe rekombinanter DNA-Molekiile, die von einem Ursprungsmolekiil abstammen (DNA-Klon) Klonierung - Eine spezifische DNA-Sequenz wird in Plasmide eingebaut, die als Vektoren dienen, und durch Transforma­ tion in Bakterien vermehrt. Klonierungsvektor - S. Vektor Kommunikationsprotokoll - Eine Reihe festgelegter Regeln zur Kommunikation zwischen Computerprogrammen. Die Kommunikation von Computern im Internet beruht auf dem Glossar 255

Kommunikationsprotokoll TCPlIP (Transmission Control Protocol/Internet Protocol) Kompilierung - Aufbau einer neuen Gesamtdatenbank aus einer Reihe von Einzeldatenbanken Konsensussequenz - Eine einzelne DNA- oder Proteinsequenz, die aus einem multiplen Alignment als gemeinsame Sequenz abgeleitet wurde. Iede Position der Konsensussequenz repra­ sentiert das Nukleotid oder die Aminosaure, die an dieser Position in den Sequenzen des Alignments am haufigsten vorkommt Konservierte Sequenz - Bereich einer DNA- bzw. Proteinse­ quenz, der in der evolutiven Entwicklung unverandert erhal­ ten wurde LAN - Local Area Network. Computer-Netzwerk, das die Com­ puter in einem eng umgrenzten Bereich verbindet Leserahmen - Leseraster. Da in einem Gen jeweils drei Basen eine Aminosaure bzw. ein Start- oder Stopsignal definieren, entspricht das Leseraster bei der Proteinproduktion einer Abfolge aus unmittelbar aneinandergereihten "Wortern(( mit jeweils drei "Buchstaben((. Fiigt man nur ein einzelnes Nukleotid (Buchstabe) innerhalb eines Gens in den DNA­ Strang ein oder entfernt eines, verschiebt sich das Leseraster, so dass alle nachfolgenden Codeworter durch die Mutation verandert sind. Bei der Insertion oder Deletion von drei Nukleotiden bleibt das Leseraster dagegen erhalten, es wird lediglich eine Aminosaure zu viel oder zu wenig eingebaut Link - S. Hyperlink Local Alignment - Auf einzelne Bereiche eingeschranktes Alig­ nment von Sequenzen - Position eines genetischen Markers oder eines Gens auf dem Chromosom LocusLink - Eine am NCBI lokalisierte Datenbank, in der kurierte Sequenzdaten und beschreibende Informationen iiber genetische Loci zusammengetragen sind Low Complexity Region - Region einer DNA- oder Proteinse­ quenz, die aus einer oder sehr wenigen, sich wiederholen­ den Basen bzw. Aminosauren aufgebaut ist 256 Glossar

Mail-Alias - Beschreibender, leicht zu merkender Name eines Email-Accounts, der in der Email-Adresse anstatt des eigent­ lichen Account-Namens benutzt werden kann. S. auch Alias MALDI-TOF - Matrix-assisted Laser Desorption/Ionization ­ Time of Flight. Massenspektroskopische Technik, die haufig zur Identifizierung von Proteinen verwendet wird Massenspektroskopie - Spektroskopische Technik, mit der unter anderem anhand der Massen von Aminosauren die Zusammensetzung von Peptiden bestimmt werden kann Merkmal - [ede Eigenschaft (Motiv, Struktur, Punktion, Mor­ phologie, physiologischer Prozess usw.) eines Proteins oder einer Art, die es von anderen Proteinen oder Arten unter­ scheidet. Die phylogenetische Verwandtschaftsforschung hat es stets mit Merkmalspaaren oder mehrgliedrigen Merk­ rnalsreihen, die in Merkmalspaare zerlegt werden konnen, zu tun. Bei so1chen Merkmalspaaren kann zwischen relativ urspriinglichen (plesiomorphen) oder relativ abgeleiteten (apomorphen) Merkmalspartnern unterschieden werden. S. auch Analogie, Homologie, Verwandtschaft, Phylogenie Metabolom - Gesamtheit der reifen, am Stoffwechsel beteilig­ ten Proteine Microarray - S. DNA-Microarray Modell-Organismus - Organismus, der zur Untersuchung bio­ logischer Gegebenheiten in komplizierteren Organismen herangezogen wird. Die untersuchten funktionellen Einhei­ ten miissen jedoch in beiden Organismen iiberwiegend iibereinstimmen (z.B. D. melanogaster, C. elegans, M. mus­ culus, D. rerio, A. thaliana, S. cerevisiae, E. coli) Modell-System - S. Modell-Organismus Modem - Modulator/Demodulator. Gerat zur Obertragung digitaler Signale iiber analoge Telekommunikationstechnik. Motiv - Konservierte Region innerhalb einer Gruppe verwand­ ter Nukleotid- oder Proteinsequenzen mRNA - messenger RNA. RNA-Molekiile, die in der Transkrip­ tion synthetisiert werden und als Matrize fur die Protein­ synthese dienen Glossar 257

Multiples Alignment - Alignment aus mindestens drei Sequen­ zen. S. auch Alignment Mutation - Veranderungen im Genom aufgrund spontaner Ereignisse oder ausgelost durch Mutagene wie UV-Licht und Chemikalien. Permanenter Verlust oder Austausch von Basen in einer DNA-Sequenz Narrow Spectrum Antibiotic - S. Schmalspektrumantibioti­ kum NCBI - National Center for Biotechnology Information. Der amerikanische Zweig der International Database Collabora­ tion, der zusatzlich das EMBL sowie das cm angehoren, Das NCBI ist Zweig der U.S. National Library of Medicine, die dem U.S. National Institute of Health (NIH) angehort Needleman und Wunsch Algorithmus - Dynamischer Algo­ rithmus zur Ableitung eines globalen Alignments zweier Sequenzen Nematoden - Rund- oder Fadenwiirmer. Beispiel: Caenorhab­ ditis elegans Neuronales Netzwerk - Computertechnik zur Entscheidungs­ findung in komplexen Problemstellungen analog der Funkti­ onsweise des Gehirns. Eine wesentliche Eigenschaft neuro­ naler Netzwerke ist ihre Adaptionsfahigkeit, die Pahigkeit, sich in einer Art Lernvorgang so anzupassen, dass neu ein­ gegebene Informationen sehr differenziert erkannt werden News-Groups - Internet-Service zum Austausch von Informa­ tionen zwischen sehr vielen Benutzern. News-Groups funkti­ onieren ahnlich einem schwarzen Brett, d. h. Nachrichten werden in der Gruppe veroffentlicht und konnen von allen Benutzern gelesen werden Nicht-redundante Datenbank - Aus mehreren Einzeldatenban­ ken aufgebaute Gesamtdatenbank, bei der jeder Datenban­ keintrag nur einmal vorhanden ist, auch wenn jede der Ein­ zeldatenbanken den entsprechenden Eintrag besitzt NMR - Nuclear Magnetic Resonance. NMR ist eine spektrosko­ pische Technik zur Bestimmung von Proteinstrukturen Non Redundant Database - S. Nicht-redundante Datenbank 258 Glossar

Normalisierung - Berichtigung von experimentell erhobenen Daten) damit die Vergleichbarkeit von Experimenten gewahrleistet ist. Ein Beispiel ist die Normalisierung von Daten) die in Expression Profiling Experimenten ermittelt wurden Northern Blot - Der Northern Blotist eine Technik zum Nach­ weis von mRNA. Nach der elektrophoretischen Auftrennung in einem Agarosegel wird die RNA auf eine Nylon- oder Nitrocellulosemembran transferiert. Auf dieser Membran konnen anschlieBend einzelne mRNA-Transkripte durch die Hybridisierung mit markierten Nukleinsauren nachgewie­ sen werden Nucleic Acids Research - Molekularbiologische Fachzeitschrift der Oxford University Press) deren erstes Heft im Ianuar jeden Iahres das sogenannte Database Issue ist. In diesem Heft werden samtliche relevanten biologischen Datenbanken gelistet. 1m [uli 2003 ist zum ersten Mal auch ein Software Issue erschienen, das frei verfiigbare biologische Software listet und beschreibt Nukleotid - Grundbaustein der DNA und RNA. Nukleotide bestehen aus einer Base (C) A) T) G in der DNA bzw. C) A) U) G in der RNA)) einem Phosphorsaure- und einem Zucker­ rest (Desoxyribose in der DNA) Ribose in der RNA) Oligonukleotid-Array - DNA-Microarray) das sich aus vielen tausend einzelstrangigen Oligonukleotiden zusammensetzt. Oligonukleotid-Arrays werden auch als GeneChip oder Bio­ Chip bezeichnet Oligonukleotide Oligonukleotide sind kurze DNA- Abschnitte, die nur aus wenigen Nukleotiden bestehen. Diese konnen beispielsweise als Startpunkte fiir die PCR die­ nen oder werden bei DNA-Microarrays als Marker fiir ein Gen eingesetzt Online-Dienste - Anbieter von Netzwerkdiensten wie Email) Chat oder Bulletin-Boards. AIle diese Services laufen jedoch auf den Computern des Anbieters, d.h. sie sind nur Kunden dieses Anbieters zuganglich. Der Austausch von Emails mit Kunden anderer Anbieter ist nicht moglich. Viele Online- Glossar 259

Dienste bieten jedoch zusatzlich auch eine Anbindung an das Internet Open Reading Frame - ORF. Eine Region innerhalb einer DNA-Sequenz, die mit einem Start-Codon (ATG) beginnt und mit einem Stop-Codon (z.B. TAA) endet Orthologe Proteine - Homologe Proteine, die in verschiedenen Organismen die gleiche Funktion ausiiben. Beispiel: Eine Serinprotease aus dem Verdauungstrakt des Menschen sowie der Maus PAGE - Polyacrylamidgelelektrophorese. Analytische Technik zur Auftrennung von Proteinen in Polyacrylamidgelen, in denen die Proteine ladungsabhangig im elektrischen Feld eines geeigneten Puffers wandern Palindrom - Eine DNA-Sequenz die revers-komplernentar identisch ist, d.h. bei der auf komplementaren Positionen im Sense- und Antisense-Strang identische Basen vorkommen. Beispielsweise besitzt die DNA-Sequenz GAATTC die kom­ plementare Sequenz CTTAAG, die revers-kornplementar wiederum die Sequenz GAATTC ergibt. Solche Palindrome werden haufig von Restriktionsenzymen erkannt Paraloge Proteine - Homologe Proteine, die in einem Organis­ mus vorkommen und eine ahnliche jedoch nicht die gleiche Funktionen ausiiben. Beispiel: Zwei Serinproteasen der Maus Pathway - Stoffwechselweg. Funktionelles Netzwerk zwischen Proteinen Pathway Mapping - Technik zur Identifizierung von Multipro­ teinkomplexen. Die Proteine eines Komplexes gehoren einem gemeinsamen Pathway an. peR - S. Polymerase Chain Reaction PDB - Datenbank, in der die Daten von 3-D Strukturen von biologischen Makromolekiilen wie beispielsweise Proteine gespeichert und abgefragt werden konnen Pfam - Eine auf Hidden-Markov-Modellen basierte Protein­ motivdatenbank Phanotyp - Erscheinungsbild eines Organismus, das sowohl auf genetischer Veranlagung als auch auf Umwelteinfliissen 260 Glossar

basiert. Beispiele fur Phanotypen sind die Augenfarbe eines Menschen oder das Auftreten von Krankheiten Pharmacogenetics - Pharmacogenomics. Pachgebiet, das sich mit dem Zusammenhang von erblicher Veranlagung und den unterschiedlichen Reaktionen von Individuen auf die Einnahme von Medikamenten beschaftigt Phosphorylierung - Ein enzymatischer Prozess, bei dem eine Phosphatgruppe durch Proteinkinasen auf andere Proteine ubertragen wird Phrap - Weit verbreitetes Sequence-Assembly-Programm Phylogenetische Analyse - Untersuchung der stammesge­ schichtlichen Beziehungen zwischen verschiedenen Organis­ men und ihren Vorfahren. SoIche Untersuchungen konnen beispielsweise morphologische, physiologische oder geneti­ sche Merkmale nutzen. S. auch Analogie, Hornologie, Ver­ wandtschaft, Merkmal, Phylogenie Phylogenetischer Baum - Graphische Darstellung der stam­ mesgeschichtlichen Beziehungen zwischen verschiedenen Organismen. Phylogenetische Baume konnen unter ande­ rem aus multiplen Alignments von DNA- oder Proteinse­ quenzen abgeleitet werden Phylogenie - Stammesgeschichtliche Entwicklung der Lebewe­ sen und die Entstehung der Arten in der Erdgeschichte. S. auch Analogie, Hornologie, Verwandtschaft, Merkmal pI-Wert - Der pH-Wert, an dem sich die positiven und negati­ ven Ladungen eines Proteins aufheben und die Nettoladung Null betragt, Der pI-Wert wird auch als isoelektrischer Punkt eines Proteins bezeichnet Plasmid - Kleine, ringfOrmige DNA, die sich unabhangig von der restlichen DNA einer Zelle vermehren kann. Plasmide haben eine GroBe von etwa 5000 bis 40 000 Basenpaaren. Sie bieten darin Platz fur die Bauplane von Proteinen, z.B. der Antibiotika-Resistenz-Gene. Bakterien tauschen Plasmide untereinander aus. Da Plasmide sich schnell vervielfaltigen und leicht von einer Zelle zur anderen ubertragen werden, verwendet man sie in der Gentechnik als Vektoren, urn Glossar 261

fremde Gene in Bakterien oder Hefezellen einzuschleusen und dort zu vermehren Polymerase Chain Reaction - Polymerasen-Kettenreaktion, in der definierte DNA-Fragmente in vitro mit Hilfe von DNA­ Polymerasen exponentiell vervielfaltigt (amplifiziert) wer­ den. Die PCR wurde 1988 von Kary Mullis entwickelt, der dafur 1993 den Nobelpreis fur Chemie erhielt Polymorphismus - Eine genetische Variation in der DNA­ Sequenz von Individuen innerhalb einer Population Posttranslationale Modifizierung - Enzymatische Modifika­ tion eines Proteins nach Beendigung der Translation. Bei­ spiele sind die Phosphorylierung oder die Glykosylierung von Proteinen Primare Datenbank - Eine Datenbank, die biologische Sequenzdaten (DNA oder Protein) sowie zugehorige Anno­ tationsdaten enthalt Primarstruktur - Lineare Sequenzabfolge der Aminosauren in einer Proteinsequenz Profile - Positionsspezifische Bewertungstabelle zur Beschrei­ bung der Sequenzinformation in einem vollstandigen Alig­ nment. Profile beschreiben fur jede Position in der Sequenz die Moglichkeit des Auftretens bestimmter Aminosauren, von konservierten Positionen sowie Positionen, an denen Deletionen bzw. Insertionen auftreten konnen Prokaryoten - Organismen, die keinen definierten Zellkern sowie keine weiteren Kompartimentierungen wie beispiels­ weise Mitochondrien aufweisen. Bakterien gehoren zu den Prokaryoten Promoter - Eine dem Gen vorgeschaltete Nukleotidsequenz, von der abhangt, ob das Gen abgelesen und in welcher Menge es hergestellt wird. Das Enzym RNA -Polymerase erkennt und bindet an den Promotor und startet auf diese Weise die Transkription des Gens Protease - Enzym, dessen zellulare Funktion der Abbau ande­ rer Proteine ist Protein-Array - Miniaturisierte Technik, in der viele tausend Proteine an ein Tragermaterial gekoppelt sind und gleichzei- 262 Glossar

tig funktionell analysiert werden konnen (z.B. auf Protein­ Protein Wechselwirkungen) Protein Profiling - Experimentelle Technik, mit der anhand der exprimierten Proteine ein Profil einer Zelle erstellt wird Protein Turnover - Englische Bezeichnung fur die Umsatzrate eines Proteins, d.h. der Zeitabschnitt zwischen der Synthese und dem Abbau eines Proteins Proteine - Proteine bestehen aus einer oder mehreren Amino­ saureketten (Polypeptide). Die Abfolge der Aminosaure­ bausteine, die untereinander iiber Peptidbindungen verbun­ den sind, ist iiber die Basenabfolge im zugehorigen Gen fest­ gelegt. Proteine iibernehmen in der Zelle vielfaltige Aufga­ ben (Enzyme, Antikorper, Hormone usw.). Proteinfamilien - Die meisten Proteine konnen auf der Basis von Sequenzahnlichkeiten in eine Proteinfamilie eingrup­ piert werden. Proteine bzw. Proteindomanen, die zu einer Proteinfamilie gehoren, besitzen ahnliche Funktionen und konnen auf ein gemeinsames Vorlauferprotein zuriickge­ fuhrt werden Proteinkinase - Enzym, das Phosphatgruppen auf andere Pro­ teine iibertragt. Phosphorylierungen dienen haufig zur Regulierung der Aktivitat von Zielproteinen Proteinlysat - Proteingemisch, das nach der Lysierung von Zellen entsteht Proteom - Gesamtheit aller in einem Organismus vorliegen­ den Proteine Proteomics - Fachgebiet, das sich mit dem Proteom eines Organismus beschaftigt, Strukturelle und funktionelle Ana­ lyse von Proteinen ProtEST - Datenbank, die der NCBI-Datenbank UniGene angegliedert ist. ProtEST enthalt die EST-Sequenzen eines UniGene-Clusters, die nach der Translation einen Hit mit einer Proteinsequenz aufweisen. PSI-BLAST - Position-Specific-Iterated BLAST. Ein Programm zum Auffinden von neuen Mitgliedern einer Proteinfamilie in einer Proteindatenbank. PSI-BLAST errnoglicht auch die Identifizierung von entfernt verwandten Proteinen Glossar 263

Punktmutation - Veranderung der genetisehen Information in nur einer Base eines DNA-Molekuls Quality Score - Ein von DNA-Sequenziergeraten ermitteltes MaB, das die Qualitat eines jeden sequenzierten Nukleotids einer DNA-Sequenz widerspiegelt. Anhand des Quality Sco­ res konnen Bereiehe einer DNA-Sequenzierung mit geringer Qualitat leieht entfernt werden Quartarstruktur - Assoziation mehrerer Proteinuntereinhei­ ten zu einem funktionellen Protein Regular Expression - Regularer Ausdruek. Formalisierte Besehreibung einer Zeiehenabfolge. Regulate Ausdrticke bieten die Moglichkeit, fur jede Position in der Zeiehenkette eine Auswahl moglicher Zeiehen zu definieren. Die Daten­ bank Prosite benutzt regulate Ausdrucke zur Besehreibung der eharakteristisehen Signaturen von Proteinfamilien. Reportergen - Ein Gen, das fur ein leieht naehweisbares Pro­ dukt kodiert. Dies kann beispielsweise ein Enzym darstellen, das ein Substrat umsetzt und so einen Farbumsehlag indu­ ziert, der gemessen werden kann (z.B. Luciferase) Restriktionsenzym - Bakterielle Enzyme, die DNA-Molekiile an spezifisehen Erkennungssequenzen sehneiden Reverse-Transkriptase - Enzym, das die Umwandlung von RNA in DNA katalysiert RNA - Ribonucleic Acid. Der DNA ehemiseh verwandtes Mole­ kiil, das eine zentrale Rolle in der Proteinsynthese spielt. DNA wird in mRNA transkribiert, die wiederum in Proteine translatiert wird. Neben der mRNA existieren eine Reihe weiterer RNA-Klassen (tRNA, rRNA usw.) RNS - Ribonukleinsaure. S. RNA Rontgenstrukturanalyse - Teehnik zur Bestimmung der drei­ dimensionalen Struktur von Proteinen aus Proteinkristallen RT-PCR - Eine auf der Teehnik der PCR basierende Methode zur Amplifikation von spezifisehen Sequenzbereiehen aus RNA. Dabei wird die RNA zuerst mit dem viralen Enzym Reverse-Transkriptase in eDNA umgewandelt und aus dieser definierte Sequenzbereiche dureh DNA-Polymerasen expo­ nentiell amplifiziert 264 Glossar

SAGE - Serial Analysis of Gene Expression. Experimentelle Technik zur Analyse der Genexpression von Zellen oder Geweben. SAGE eignet sich wie DNA-Microarrays fur die Hochdurchsatzproduktion von Expressionsdaten Schmalspektrumantibiotikum - Antibiotisch wirksame Sub­ stanz, deren Wirkmechanismus (mode of action) auf einem speziesspezifischen Zielprotein (Target) basiert und daher nur einen auf wenige Bakterien begrenzten Einsatzbereich aufweist SCOP - Structural Classification of Proteins. Datenbank, die Proteine mit bekannter Struktur nach strukturellen Krite­ rien klassifiziert Score Matrices - S. Ahnlichkeitsmatrizen SDS-PAGE - Sodiumdodecylsulfate-Polyacrylamidgelelektro­ phorese. S. auch PAGE Sekundare Datenbanken - Datenbanken, die Informationen enthalten, welche aus prirnaren Datenbanken abgeleitet wur­ den. Fingerprint- und Motivdatenbanken wie Prosite, Blocks und pfam sind sekundare Datenbanken Sekundarstruktur - Regulare Faltungsmuster des Polypeptid­ geriists ohne Beriicksichtigung der Lage der Seitenketten. Auftretende Faltungsmuster sind die u-Helix) das ~- Faltblatt sowie nicht repetitive Muster, die Loops. Sequence Assembly - Die Bildung eines Alignments aus tiber­ lappenden kurzen DNA-Sequenzstiicken und die anschlie­ Bende Ableitung einer Konsensussequenz Sequence Retrieval System - SRS. Datenbankverwaltungs- und Abfragesystem fiir die Verwaltung von Flat-File-Datenban­ ken. SRS wird unter anderem auf dem EBI-Server zur Abfrage der biologischen Datenbanken eingesetzt Sequenz - Abfolge von Nukleotiden (Nukleotidsequenz) oder Aminosauren (Aminosauresequenz) Sequenzierung - Bestimmung der Basenabfolge von Nukleo­ tidsequenzen bzw. der Abfolge von Aminosauren in Protein­ molekiilen. S. auch DNA-Sequenzierung Glossar 265

Server - Ein Computer oder ein Computerprogramm, das Informationen tiber ein Netzwerk (z.B. das Internet) an einen Client weitergibt Shell- Textbasiertes Eingabefenster zur Bedienung eines Com­ puters, oft auch als Kommando-Interpreter bezeichnet SignalP - Computerprogramm zur Bestimmung N-terminaler Signalpeptide von Proteinen Signalpeptid - Kurze N-terminale Aminosauresequenz (ca. 15­ 30 Aminosauren), die als Markierung fur den zellularen Transportmechanismus dient Signifikanz - Unter einem signifikanten Ergebnis versteht man ein Resultat, das nicht nur zufallig vorkommt und daher wahrscheinlich wahr ist. Durch statistische Tests kann die Signifikanz von Ergebnissen errechnet werden Singleton - EST-Sequenzen, die keine Uberlappungen zu ande­ ren EST-Sequenzen aufweisen und daher nicht in Contigs eingeteilt werden konnen Six Frame Translation - Translation eines DNA-Fragments in die sechs moglichen Leserahmen. Dieses Vorgehen ist not­ wendig, wenn uncharakterisierte DNA-Fragmente vorliegen und keine Angaben tiber die Leserichtung vorhanden sind. S. auch Leserahmen SMD - Stanford Microarray Database. Datenbank, in der die Rohdaten und die normalisierten Daten von Microarray­ Experimenten sowie die Bilder der Arrays gespeichert und abgefragt werden konnen Smith-Waterman-Algorithmus - Dynamischer Algorithmus zur Ableitung eines optimalen lokalen Alignments zweier Sequenzen. Der Smith-Waterman-Algorithmus kann auch zur Datenbanksuche eingesetzt werden und ist dabei sehr sensitiv, jedoch auch sehr langsam SNP - Single Nucleotide Polymorphism. Genetische Variation, die durch den Austausch eines einzigen Nukleotids verur­ sacht wird Spam - Unerwiinschte Email-Nachrichten an eine grofie Anzahl von Empfangern bzw. unerwiinschte Beitrage an 266 Glossar

eine groBe Anzahl von Newsgroups. Spam ist vergleichbar mit unerwiinschten Postwurfsendungen Spleiflvarianten - Proteine unterschiedlicher Lange, die aus dem Vorgang des Alternativen Spleifsens hervorgehen Spotting - Die Platzierung von DNA-Spots auf einem cDNA­ Array mit Hilfe eines Roboters SRS - S. Sequence Retrieval System. Stackpack - Speziell ftir das Clustering von EST-Sequenzen entwickeltes Computerprogramm Structural Genomics - Structural Proteomics. Weltweite Initia­ tive zur experimentellen, automatisierten Aufklarung der dreidimensionalen Struktur moglichst vieler Proteine. STS - Sequence Tagged Sites. Kurze, einzigartige DNA-Sequen­ zen, die zur Markierung von Genomen verwendet werden Swissprot - Kurierte, qualitativ hochwertige Proteinsequenz­ datenbank des Swiss Institute of Bioinformatics. S. auch Expasy Synthenie - Synthenie bezeichnet das Vorliegen von zwei oder mehreren Genen auf einem Chromosom einer Spezies Synthenische Regionen - Chromosomale Regionen sind syn­ thenisch, wenn bei zwei Spezies Gene orthologer Proteine auf korrespondierenden Chromosomenabschnitten vorlie­ gen, wobei die Reihenfolge der Gene unberucksichtigt bleibt Target - Zielprotein, das bei der Entstehung einer Krankheit eine zentrale Rolle spielt und dessen Aktivierung bzw. Inhi­ bierung einen direkten Einfluss auf den Krankheitsverlauf zeigt Target Based Approach - Moderne Wirkstoffsuche, die in vitro an einem isolierten Zielprotein durchgefuhrt wird TCP/IP - Transmission Control Protocol/Internet Protocol. Kommunikationsprotokoll, das der Datenubertragung im Internet zugrunde liegt. Ein anerkannter Industriestandard fur die Kommunikation zwischen offenen Systemen. Das Ubertragungsprotokoll definiert die Regeln und Vereinba­ rungen, die den Informationsfluss in einem Kommunikati­ onssystem steuern Glossar 267

Telnet - Teletype Network. Das Standard-Protokoll im Internet fur remote login. Textbasierte Kommunikationsmethode zwischen zwei Cornputern, die es erlaubt, einen entfernt lokalisierten Computer so zu benutzen, als ware man direkt an diesen via Terminal angeschlossen 'Iertiarstruktur - Dreidimensionale Faltungsstruktur einer Polypeptidkette unter Berucksichtigung der Lage der Seiten­ ketten TIGR - The Institute for Genomic Research. Amerikanisches gemeinnutziges Zentrum zur Genomforschung. TIGR bietet eine Reihe von Datenbanken sowie Computerwerkzeuge zur Sequenzanalyse an TMHMM - Ein auf Hidden -Markov-Modellen basierendes Computerprogramm zur Bestimmung von Transmembran­ dornanen in Proteinen Toxicogenomics - Fachgebiet, das die Auswirkungen von toxi­ schen Substanzen auf die Genexpression von Zellen analy­ siert Transformation - Die Einschleusung von Nukleinsauren in lebende Zellen oder Bakterien (Transfektion). Oder: Die Umwandlung in eine Tumorzelle beispielsweise durch die Aktivierung von Onkogenen Transkription - Herstellung einer RNA -Kopie aus einem DNA­ Abschnitt durch das Enzym RNA-Polymerase Transkriptionsfaktor - Protein, das die Transkription von Genen positiv oder negativ beeinflusst, haufig durch eine Interaktion mit der RNA-Polymerase Transkriptom - Gesamtheit der mRNA-Transkripte eines Organismus Translation - Synthese von Proteinen an Ribosomen unter Nutzung einer mRNA-Matrize Transmembran-Domane - Eine Region eines Proteins, das die Membran einer Zelle durchdringt Twisted Pair - Spezieller Kabeltyp, der haufig fur den Autbau von Computer-Netzwerken eingesetzt wird. Das Kabel besteht aus mehreren Adernpaaren, die umeinander ver­ drillt sind, urn die Storbestandigkeit zu erhohen 268 Glossar

UniGene - Am NCB1 lokalisierte Datenbank, die alle Nukleo­ tidsequenzen eines Gens zusammenfasst und nicht-redun­ dant darstellt UniSTS - Nicht-redundante NCB1-Datenbank, in der STS-Mar­ ker aus versehiedenen Quellen gespeichert sind URL - Uniform Resource Locator. Adresse einer Informations­ quelle im WWW. Eine URL besteht aus drei Bestandteilen, dem Protokoll, dem Namen des Servers sowie dem komplet­ ten pfad inklusive der Dateinamen (z.B. http ://www.nebi. nlm.nih.gov/genome/guide/zebrafish/index.html) UTR - Untranslated Region. Der Bereich einer mRNA oder eDNA, der nicht-kodierende Sequenzen enthalt. Man unter­ seheidet einen 5'-UTR, der sich vor dem Starteodon befindet und wichtige regulatorisehe Bereiehe wie die Ribosomen­ Bindungsstelle aufweist. Der 3'-UTR beginnt naeh dem Stop­ codon und enthalt meist eine terminale Poly-A-Sequenz Vektor - DNA-Tragerkonstrukte, meist Plasmide (DNA-Ring) oder Phagen (Bakterienviren), die zum Transport von Fremdgenen dienen. Vektoren konnen sich in Zellen oder Bakterien vermehren, da sie regulatorisehe DNA-Fragmente enthalten, die zur Replikation notwendig sind Vergleichende Genomanalyse - Comparative Genomics. Simul­ taner Vergleich von zwei oder mehreren Genomen mit dem Ziel, Ahnliehkeiten und Unterschiede zwischen diesen Genomen zu identifizieren Verwandtschaft - Im genealogischen Sinn eine Abkiirzung fur phylogenetisehe Verwandtsehaft. Der Begriff wird leider sehr verschieden benutzt (z. B. aueh im Sinn von Formver­ wandtsehaft = Ahnliehkeit) . Zwei Arten oder Proteine (A und B) gelten miteinander als naher verwandt als mit einer Dritten (C), wenn sie Nachkommen eines gemeinsamen Vor­ laufers (Stammart) sind, der nicht zugleich aueh der Vorlau­ fer der Dritten ist. Der Vorlaufer, den A und Bauch mit C teilen, muss also alter sein als der gemeinsame Vorlaufer von A und B. Der Grad der phylogenetisehen Verwandtsehaft versehiedener Arten oder Proteine bestimmt sich also naeh Glossar 269

der relativen Gegenwartsnahe ihres gemeinsamen Vorlau­ fers.S. auch Analogie, Homologie, Merkrnal, Phylogenie Wildcard - Platzhalterzeichen, das in einem Dateinamen innerhalb eines Befehls fur ein oder mehrere beliebige Zei­ chen stehen kann WWW - World Wide Web. Kommunikationsservice im Inter­ net, der hauptsachlich das HTTP-Protokoll einsetzt. S. auch CERN Yeast Two-Hybrid System - In-vivo-Methode zum Nachweis von Protein-Protein Interaktionen in Hefezellen Zelllysat - S. Proteinlysat Zentrales Dogma der Molekularbiologie - DNA wird beim Vorgang der Transkription in mRNA umgeschrieben, die wahrend der Translation in Proteine ubersetzt wird (Francis Crick 1957) Zielprotein - S. Target Zweidimensionale (2D) Gelelektrophorese - Zweidimensio­ nale Polyacrylamid-Gelelektrophorese. Elektrophoretische Technik zur Auftrennung von Proteinlysaten. Bei einer 2D­ Gelelektrophorese werden die Proteine in der ersten Dimen­ sion nach ihrem isoelektrischen Punkt (pI-Wert) und in zweiter Dimension nach dem Molekulargewicht aufgetrennt Sachverzeichnis

Accession-Number 49, 239 - ungapped 62 Account 12, 29, 191, 239 alpha-beta 65 Adenin 34 alpha-Kohlenstoff 39 ADSL 7,239 Alternative Splicing Annotation Affinitatschromatographie Project 106 157-158,239 Aminosaure 39-44, 117, 240 Affymetrix 139 Aminosaurenabfolge 197 Ahnlichkeit (similarity) 71-72, Analogie 240 239 Annotation 47-48,71,100-101, Ahnlichkeitsmatrize 74,240 241 Aids 107 Antibiotikum 149,169,171 aktives Zentrum 128-129, 170 - Breitband (broad spectrum) Algorithmus 74,81,240 171, 242 - BLAST 76-81,242 - Schmalspektrum (narrow - FASTA 81, 247 spectrum) 171,257,264 - gapped BLAST 81 Antigen Capture Assay 159-160 - Needleman-Wunsch 76,81,257 Antigen 159, 239, 241 - PSI-BLAST 262 Antikorper 159-160,239,241 - Smith-Waterman 76,81,242, Apoptose 101 265 Applet 241,254 Alias 240 Arabinofuranosidase 67, 199,203 Alignment 60, 72-76, 124,240, Architecture 64-65 248 ARPANET 5 - globales 76, 250 Array 138-163,241-242,245,247, - lokales 76, 85, 255 256, 258, 265 - multiples 76, 80, 87, 109, 124, - DNA 138-159 211, 240, 257 - Oligonukleotid 139-143,258 - paarweises 80, 124, 240 - Protein 159-161,261 - Score 210 ArrayExpress 148,241 - strukturelles 124 Arzneimittel 109-112, 132 272 Sachverzeichnis

Arzneimittelforschung 112, - gapped 81 119-127,171 - Server 209 Arzneistoffe 109-112 - tblastn 79-80 ASCII 16, 241 - tblastx 79, 102 Assay 160 Blocks 68, 206, 264 Assembly 99-100,113,241,264 BLOSUM 75 AT-Gehalt 172 Boehringer Mannheim-Biochemi­ Ausdruck cal Pathways 180 - regularer 60 Breitbandkabelnetz 8 Austausch Browser 6, 242 - konservativer 73,211 Available Chemicals Directory Caenorhabditis elegans 91-92 128 CAP3 99,242 CAS-Nummer 181 Bacillus subtilis 66, 199, 203 Caspase 100-101 Bacteroides ovatus 203 CATH 64,242 barrel 65 Cathepsin 211 Basen 241 CDD 209 Basenpaar 241 eDNA 93-98, 242, 252, 254, 263 Basenpaarungen 45 eDNA-Array 140-142, 139-141, Benutzerschnittstelle 242-243 - graphische 2 cDNA-Bibliothek 95-97 Bereiche cDNA-Microarray 140-142, - nicht-kodierende 102, 174 139-141,242-243 - nicht-kodierende 102 CDS 200,243 beta-propellor 65 Central Dogma 37,45, 197,243, Betriebssystem 1-5 269 - MacOS 1 CERN 5,243 - Unix 3 Chromosom 92-92, 172-173 - Windows 2 CIB 52,243 Binardatei 242 Class 64-65 Biochip 139, 242 Classical Proteomics 151,243 BioEdit 86 Client 243, 265 Bioinformatik 242 Clostridium stercorarium 203 - angewandte 242 CLUSTALW 85 - theoretische 242 Cluster of orthologous Groups Biologische Membran 122 (COG) 182-186,236 bl2seq 80 Cluster 95-96, 100, 113, 146-148, BLAST 76-81,84,209,242 163, 216, 228, 243 - blastn 79, 85, 102, 210 Clustering 100, 146-147,243,266 - blastp 79,209,211 Coding Sequence 243 - blastx 79,85, 100,210 Codon Usage 102 - blast2seq 85, 211 Codon 36,172,243,248 Sachverzeichnis 273

Codonnutzung 210,243 - Signatur 63 COG 182-186,236 Datenbanksuchen 76,81 Command Line 244 dbEST 95,104,112,213,244 Communication Protocol 244 dbGSS 96, 244 Comparative Genomics 171,244, dbSNP 109,218,244 268 dbSTS 93 complement 200 DDBJ 52, 243-244 complementary DNA 98 degeneriert 210 Computer 244 Deletion 63, 73, 94, 106,244,248, Computer-Pool 191 255 Computerviren 12 Denaturierung 39, 245 Conserved Domain Database De-novo-design 127 (CDD) 209 Desoxyribose 35, 196 conserved linkages 172 Disulfidbindungen 45 conserved segments 172 DNA 33-35,45, 167-169, 196, conserved syntheny 172 241,244,258 Content-Provider 244 DNA-Array 138-159 Contig 99-100,113,214-215,244, DNA-Microarray 138-159 265 DNA-Sequenz 245 CORBA 244 DNA-Sequenzierung 94,245 Cosmid 87,211 DNA-Spot 139-141 Cross-references 202 DNA-Star 84 C-Terminus 40, 198 DNS 245 Cysteinprotease 119, 124-128, DOCK 127-132 130, 132 Docking 127-132,245 - Inhibitoren 130-131, 133 Domain 245 Cytochrom P450 110 Domanen 44, 76, 245 Cytophaga xylantolytica 203 Doppelhelix 35, 244 Cytosin 34 Doppelstrang 196 download 30, 246 Database-Issue 47 Dreibuchstabencode 40,41 Datenbank 244 Drosophila melanogaster 97, 162 - biologische 47-70 Drug-Target 126-127,168-171, - Flat-File 48 176,266,269 - Indexierung 48 DSL 7,239,246 - metabolische 179 Dye Swapping 144 - nicht-redundante 79 dynamische Methode 76,81,246 - Nukleotid 49-56 - primare 47-48,52, 179 EBI 66,82,85,167,201,246 - Protein 56-59 EcoCyc 176 - relationale 48 Edman-Abbau ISS, 246 - sekundare 48, 56-65 Einbuchstabencode 40,41 - Sequenz 49 Electropherogramm 94 274 Sachverzeichnis

Elektrophorese 163,254,258,269 Features 199 Elektrospray-Ionisations-Quadru- Fehler pole-TOF-Spektroskopie 155 - statistische 144 Email 6.11. 190, 239, 246 - systematische 144-145 - Adresse 11, 29, 239 Fingerprint 68, 62, 206, 247 - Alias 12 Firewall 10, 248 EMBL 52,246 Flat-File 248 EMBnet 84 Flat-Rates 10 EMBOSS 82-83 FLEX 128 Entrez 51, 66, 200, 204, 246 Flybase 227 - Feld-ID 52 Folds 64 Enzym 246 Frameshift 94, 248 Enzym-Nummer 180 FTP 6,16,29,194,248 Epitop 247, 159 - anonymous 15-16, 194 Erbinformation 244, 249 - ASCII 18, 194 Escherichia coli 98, 170 - bin 18 EST 93-101, 112,213,218,247,265 - bye 18, 195 - kodierende 102 - cd 18 - nicht-kodierende 102 - get 18, 195 EST-Clustering 100 - help 19 EST-Projekt 96-100 - led 19 Ethernet 8,247 - Is 19, 194 Eukaryoten 38, 247 - mget 19 E-value 206 - mput 19 Evolution 71 - prompt 20 Exon 38-39,82,104,174,198, - put 20 212,247,249 - pwd 20 Expasy 56,84,85,153-154,247 - quit 20, 195 Expressed Sequence Tag (EST) - Ubertragungsmodus 16, 18 93-101, 112,213,218, 247,265 Functional Genomics 138, 248 Expression Profiling 138, Functional Proteomics 151-156, 141-148, 152,247,258 248 Expression 145-162,226-228 Fusionsprotein 157-158,248 - regular 60 Expressionsprofile 149, 227-228 Gap 81,248 Gapped BLAST 81 Faltblatt 41, 65, 117, 198,241,264 GCG 84,248 Faltung 44, 64 GC-Gehalt 172 Faltungsmuster 41 Gelelektrophorese 152-158,269 Familien (Family) 64 - zweidimensionale 152-158,269 FAQ 14,247 Gen 82,137-146,171-175,249 FASTA 81,247 - eukaryotisches 82 - Format 85, 247 - Expression 137-138,249 Sachverzeichnis 275

- Regulation 137-138 Global Alignment 74,250 - synthenisches 172 Glykosylierung 152,250,261 Genbank 49-51,167,249 GNU 3 - genomische 96, 250 GOLD 128 GeneCluster 162, 227-228 Gopher 6, 20, 250 Genduplikation 182 G-Protein gekoppelter Rezeptor Gene Expression Omnibus (GEO) (GPCR) 122, 134,225 148,250 GroBrechner 1 Gene Indices 96, 249 GSS 96,250 Genechip 139, 249 Guanin 34 GeneDoc 86 GUI 2,250 genetische Information 35 genetische Variation 106-109 Header 12 genetischer Code 36,45, 197,249 Helicobacter pylori 170, 176-177, Genexpression 137-138,249 185-186,233-235 Genfamilie 249 Helix 41,65, 117, 198,240,264 Genom 37,45,91-92,106,137, heterozygot 107 167-186,196,249 heuristische Methode 76,81,250 - humanes 93,106,218 Hidden Markov Modell (HMM) Genomanalyse 167, 175, 184,268 63,80,120-122,224,251 - vergleichende 167,268 HIV 107 Genome Survey Sequence (GSS) HMM 63,80,120-122,224,251 96,250 Home Page 251 Genomics 249 HomoloGene 95-96, 251 - comparative 268, 244 Homologie (homology) 72, 185, - structural 219,266 211,251 genomische Genbank 96, 250 Homologie-Karte 173 genomische Sequenz 82 Homologous Superfamily 64-65 Genomorganisation 174 Homology Map 251 Genomprojekt Homo logy Modelling 124-130, - humanes 92, 137 134, 252 Genomsequenzierung 47,91-92, homozygot 107 185 Host 252 Genomstruktur 171-172 HTML 252 Genotyp 110,250 HTTP 6,21,252 Genotypisierung (Genotyping) HTTPS 252 108, 111-112, 250 Human Gene Index 96 Genprodukt 137-158 Human Immunodeficiency Virus Genregionen 38 (HIV) 107 Genscan 82, 211 Hybridgen 248 GEO 148,250 Hybridisierung 142, 145,252,258 Geriistkonformation 41 Hyperlink 20,21,252 Glimmer 82 Hypertext 252 276 Sachverzeichnis

Identifier 202, 204 Klassische Proteomics 151,254 Identitat (Identity) 72,211-212, Klon 97-98,254 252 Klonierung 97-98,254 IMAGE-Konsortium 95,252 Klonierungsvektor 97-98, 254 Immobilisierung 253 kodierende Region 171 In Silico 254 Kommunikationsprotokoll 254 In Vitro 254 Kompilierung 79, 255 In Vivo 254 Komplex 45 Indexierung 254 Konsensussequenz 99-100,255 Infektionskrankheiten 168-169 Konservativer Austausch 73, 211 Inhibitor 132 Konservierte Sequenz 255 Insertion 62, 73, 94, 106, 248, Krebs 108-111, 148-150 254,255 Krebszellen 143 International Nucleotide Sequence Kyoto Encyclopedia of Genes and Database Collaboration 52 Genomes (KEGG) 179-185, Internet Service Provider (ISP) 9, 231,233 29,189,254 Internet 5-6, 254 LAN 255 - Assistant 10 Leishmania major 132 - Services 11 Leserahmen 73, 79, 248, 255, Interpro 63,68,207-208,254 265 Intranet 254 Leukamie 111,148-149 Intron 38-39,82, 104, 174, 198, Link 255 212, 247, 249, 254 Linux 3 Ionenbindungen 45 Local Alignment 74,255 IP-Adresse 254 Locus 255 ISDN 7,254 LocusLink 115, 218-219, 255 isoelektrische Fokussierung 153, Loop 41,117,124,198 254 Losungen isoelektrischer Punkt 153-154, - Kapitel 1 189 260, 269 - Kapitel 2 196 ISP 9,29,189,254 - Kapitel 3 199 - Kapitel 4 208 JAVA 241, 254 - Kapitel 5 213 - Kapitel 6 219 Kanalbiindelung 7 - Kapitel 7 226 Kartierung 92-93, 108 - Kapitel 8 231 KEGG 176-185,231,233 Low Complexity Region 255 Kernresonanzspektroskopie 123-126 Mail-Alias 12, 256 Keywords 51 mainly-alpha 65 Kilobit 7 mainly-beta 65 Kinase 262 Malaria 219 Sachverzeichnis 277

MALDI-TOF 155,256 Multiprotein-Komplex 158, 165, man 23 230-231 Marker 92-93, 108 Mutation 106-115,257 Massachusetts Institute of Techno - logy 82 NAR 84 Massenspektrometrie 152-158, Narrow Spectrum Antibiotic 171, 165,256 257,264 Massenspektrum 155-156 NCB! 49,67,82, 167, 173, 183, Match 73 199-200,203-204,208,257 Matrix-assisted Laser Desorption/ - Protein-Database 59 Ionization-Time of Flight 155 NCBI-BLAST 78 MBGD 183-187,237-238 Needleman-Wunsch 76,81,257 Medikament 109-112, 132, 149, Nematoden 103-104,257 169 Netiqette 14 Medline 203 Netzwerk Melanie 153 - neuronales 120-121,224 Membran 122 neuronales Netz 82, 120-121,224, Membranprotein 122 257 Merkmal 256 Newsgroups (News) 6, 13,257 messenger RNA (mRNA) 37,98, Newsreader 13 138, 198, 256, 263 NiceProt-View 58-59 Metabolom 38,45, 175-176, 196, NiceSite View 61 256 nicht-kodierende Bereiche Metasuchmaschinen 22 171-175 Methode nicht-kodierende Region 171-175 - dynamische 76,81, 246 nicht-redundante Datenbank 257 - heuristische 76, 81, 250 NMR 257 Microarray 138-163, 241-242, NMR-Spektrometrie 123-126 245,247,256,258,265 Non Redundant Database 257 - Genotyping 108 Normalisierung 145, 153, 162, Microbial Genome Database 183 227,258 Microspotting 141 Northern Blot 138, 146,258 Microspraying 141 N-Terminus 40, 198 Mismatch 73 Nucleic Acids Research 84, 258 MIT 82 Nukleinsauren 33-35 Modell -Organismus 256 Nukleotid 33, 196, 258 Modell-System 256 Nukleotid-Datenbank 66 Modem 7,256 Nukleotidstrange 35,45,244-245 molekularer Fingerabdruck 152 Motiv 60, 68, 76, 206, 256 Oligonukleotid 258 mRNA 37,98,138,198,256,263 Oligonukleotid-Array 139-143,258 Multiples Alignment 76,80,87, Online-Dienste 9, 189, 258 109, 124, 211, 240, 257 Open Reading Frame (ORF) 259 278 Sachverzeichnis

Operator 200 Polymerase Chain Reaction Operatoren (PCR) 92, 141,259,261 - logische 51 Polymorphismus 106-111, 261 ORF 259 Polynukleotid 33, 40, 45 ortholog 72,91, 176-185,259 Portal 9 Port-Number 21 PAGE 153-154,259 Posix 3 Palindrom 259 Posttranslationale Modifizierung PAM 75 152,261 paralog 72, 259 Praproprotein 119 Parasitic Nematode Sequencing Primare Datenbank 261 Project 103 Primarstruktur 39-40, 46, Pathway Mapping 158, 161,259 117-119,133,261 Pathway 107, 146-148, 151 , Prints 62-63, 68, 205-206 175-182,185,232-233,259 ProDom 63 PCR 92, 141, 259, 261 Profil 62, 261 PDB 59, 125, 133,219-220,226, Prokaryoten 38, 261 259 Promoter 261 Peptidbindung 40, 42 Propeptid 119 PeptideMass 164,230 Prosite 59-61,63,67,204-205, PeptIdent 165,230 264 pfam 62-63, 68, 207, 259, 264 - Motiv 61 Phanotyp 106-107,259 Protease 261 Pharmacogenetics 109-112, 260 Protein Data Bank 125 Pharmacogenomics 109-112,260 Protein Profiling 152-156,262 Pharrnacophor-Analyse 127 Protein Turnover 152, 262 Phenylketonurie 107, 114,218 Protein 33,35, 117,240,262 PHI-BLAST 80 - orthologes 172 Phosphorylierung 152,260-261 - struktureller Aufbau 64 Photolithographie 139-140 Protein-Array 159-161,261 Phrap 99, 260 Proteindatenbank 208 phylogenetischer Baum 87,211, Proteinfaltung 39 260 Proteinfaltungsmuster 126 Phylogenie 260 Proteinfamilie 62, 125-126, 202, Phylogentische Analyse 260 206, 262 PIR 59 Proteinkinase 103-104, 262 pI-Wert 153, 164,228-229,260, Proteinkristallisation 126 269 Proteinlysat 151-154,158-161, Plasmid 98, 260 262 Plasmodium falciparum 133 Proteinmodellierung 124 Polyacrylamidgel 152-153,269 Protein-Protein Interaktion - 2D-Elektrophorese 152-158, 156-161,269 269 Proteinstruktur 117, 123-126 Sachverzeichnis 279

Proteom 37-38,45, 137, 151, - messenger 37,98, 138, 198, 157-159,196,262 256, 263 Proteomics 151, 262 - ribosomal 98 - funktionelle (functional) 151, - transfer 98 156,248 RNS (RNA) 33-35, 45, 98, 196, - klassische (classical) 151-152, 241, 258, 263 243, 254 Rontgenstrukturanalyse 123-125, - structural 266 263 ProtEST 95-96, 262 rRNA 98 PSI-BLAST 80, 262 RT-PCR 138,263 Pubmed 67,203,204 Punktmutation 107, 263 SAGE 138, 150-151,264 Purin 35, 196 SAGEmap 150 Pyrimidin 35, 196 Sandwich 65, 159-160 - Assay 159-160 Qualitatskriterium 74 Schleifen 198 Quality Score 98, 263 Schlussel-Schlofs- Prinzip 128 Quality Trimming 98 Schmalspektrumantibiotikum Quartarstruktur 44-45, 118, 171, 257, 264 263 SCOP 64,264 Score 74, 129,210,264 Ramachandran-Plot 42-43 - Contact-Field 129 Referenzprotein 124 - Matrix 74, 264 Region SCR 124 - kodierende 171 Screening 127, 168-169 - nichtkodierende 171-175 SDS-PAGE 153-154,264 - synthenische 172-173, 266 Sekundare Datenbanken 264 regular Expression 60, 263 Sekundarstruktur 40, 41-44, 46, regul arer Ausdruck 60, 263 117, 133, 198, 222-223,264 Replikase 38, 39 Sekundarstrukturelernent 64 Reportergene 263 Sequence Assembly 99-100, 113, request-ID 209 241,264 Restriktionsenzym 150,263 Sequence Tagged Sites (STS) Reverse Transciptase Polymerase 92-93,266 Chain Reaction (RT-PCR) 138, Sequence-Retrieval-System (SRS) 263 54,66,201,264,266 Reverse-Transkriptase 38, 39, 98, Sequenz 47,82,264 143, 150,263 - abgleich 72 reziproke Markierung 144 - analyse 82 Ribose 35, 196 - daten 47 ribosomal RNA 98 - datenbank 49 RNA 33-35,45,98,196,241,258, - genomische 82 263 - identitat 64 280 Sachverzeichnis

- information 47 SRS 54,66,201,264,266 - motiv 62 - Extended-Query-Form 56 - muster 76 - Quick Search 54 Sequenzierung 91-94, 108, 155, - Session 54 167-168,175,264 - Standard-Query-Form 56 Sequenzvergleiche 71-89 - Wildcard 56 - multiple 71 Stackpack 100,266 - paarweise 71 Stanford Microarray Database Serial Analysis of Gene Expression (SMD) 148, 265 (SAGE) 138,150-151,264 Stoffwechsel 107, 151, 175-182, Server 265 185,232-233,259 Shell 265 - analyse 175 Short Tandem Repeats 106 Structural Genomics Initiative Sichelzellanamie 219 125, 133,219 Sicherheitsliicken 10 Structural Genomics 219,266 Signalerkennungspartikel 119 Structural Proteomics Initiative Signalhypothese 118 125-126 SignalP 119-121, 134,223,265 Structural Proteomics 266 Signalpeptid 118-121, 134,265 Structurally Conserved Regions Signalpeptidase 119 124 Signalsequenz 121 Structure-Based-Rational-Drug- Signaltransduktion 157 Design 117, 126, 127-133 Signaturdatenbank 63 - Erfolge 131-133 Signifikanz 265 STS 92-93,266 similarity 71-72,239 Subject 190 Single Nucleotide Polymorphism Suchmaschinen 22 (SNP) 106-111,115,218,265 Superfamilien (Superfamily) Single-Base Primer Extension 108 64-65 Singleton 100,214,265 Superfamily 64-65 Six Frame Translation 265 - homologous 64-65 Smart 63 SWALL 66,201 SMD 148,265 Swiss-2Dpage 163-164,228-230 Smith-Waterman 76,81,242,265 SwissEntry 67,202,203 SNP 106-111, 115, 218, 265 Swissprot 56-59,63,68,133-134, Spam 265 201,205,222-224,247,266 Speziesbildung 182 Synthenie 172-173, 266 SpleiBen 39,45,104-105, 198,266 synthenische Region 172-173, 266 - alternatives 39, 104-106, 174, 198,240,266 Target Based Approach 169-170, SpleiBvarianten 266 - alternative 100, 104-105,266 Target 126-127,168-171,176, Spotting 141,266 266, 269 SPTR 201 - metabolisches 176 Sachverzeichnis 281 tblastn 79, 80 Ubertragungsmodus 16, 18 tblastx 79, 102 Ubungen TCP/IP 5,254-255,266 - Kapitel 1 29 Telnet 191,267 - Kapitel 2 45 Template 124, 125 - Kapitel 3 66 Tertiarstruktur 40, 44-45, 117, - Kapitel 4 84 133,219,267 - Kapitel 5 112 TextEntry 66 - Kapitel 6 133 Thiopurin-S-Methyltransferase - Kapitel 7 161 111-112 - Kapitel 8 185 Thymin 34, 196 Uniform Resource Locator (URL) TIGR 82,96, 104, 186, 267 21,268 TIGRFAMs 63 UniGene 95-96, 113,215-216, TMHMM 122-123,224-225,267 268 Topology 64-65 UniSTS 93, 268 Torsionswinkel 42 Unix 3, 23, 29 - PHI (

- VVildcards 23-24 VVindung 41 - X-VVindow 5 Wirkstoff 111,168-170 Untranslated Region (UTR) 101, Wirkstofffindung 127 268 VVirkstoffforschung 168 Uracil 34, 196 VVorld VVide VVeb 5-6, 20-23, 243, URL 21,268 268-269 Usenet 13 - Uniform Resource Locator 21 UTR 101,268 VVU-BLAST 78 VVVVVV 5-6,20-23,243,268-269 Variation - Browser 6 - genetische 106-109 VectorNTI 84 XSA 200 Vektor 98, 268 X-VVindow 5 Verfahren - dynamische 76,81,246 Yeast Two-Hybrid System - heuristische 76, 81, 250 157-158,161,179,269 Vergleichende Genomanalyse 167,268 Zelllysat lSI, 269 Verwandschaft 268 Zellpopulation 141 Virenscanner 11 zentrales Dogma 37,45, 197,243, Virtual Screening 127 269 Virulenzfaktoren 168 Zentrum Vorlaufersequenz 71 - aktives 128-129, 170 Zielorganismus 170 VVahrscheinlichkeiten 251 Zielprotein 126-127 ,168-171, VVasserstoffbruckenbindungen 35, 176, 266, 269 42,45,196 Zweibuchstabencode 53, 57 VVeb-Katalog 189 Zweidimensionale Gelelektropho­ VVildcard 269 rese 152-158, 269

Druck: Druckhaus Berlin-Mitte GmbH Verarbeitung: Buchbinderei Stein & Lehmann, Berlin