Aus dem Institut für Pharmakologie der Medizinischen Hochschule Hannover

Aufbau einer Datenbank für die Archivierung, Visualisierung und Auswertung von mRNA-Expressionsprofilen entzündungsrelevanter auf der Basis eines standardisierten Oligonukleotid-DNA-Mikroarray-Systems

Dissertation zur Erlangung des Doktorgrades der Humanbiologie der Medizinischen Hochschule Hannover

vorgelegt von Axel Hans Robert Weber aus Kusel Hannover 2006 Angenommen vom Senat der Medizinischen Hochschule Hannover am 12. Juli 2006

Gedruckt mit Genehmigung der Medizinischen Hochschule Hannover

Präsident: Prof. Dr. Dieter Bitter-Suermann

Referent: Prof. Dr. Helmut Holtmann

Korreferenten: Prof. Dr. Herbert Matthies Prof. Dr. M. Lienhard Schmitz

Tag der mündlichen Prüfung 19. Juli 2006 Danksagung

Die Durchführung und Niederschrift dieser Arbeit wäre nicht möglich gewesen ohne die Unterstützung und Förderung zahlreicher Personen.

Mein besonderer Dank gilt meinem Doktorvater Prof. Dr. Michael Kracht für die hervorragende fachliche Betreuung dieser Arbeit sowie für zahlreiche Anregungen und Diskussionen.

Dank gebührt auch Prof. Dr. Klaus Resch für die vielfältige Unterstützung innerhalb des Institutes für Pharmakologie.

Herrn Dr. Oliver Dittrich-Breiholz, danke ich für die fundierte Einführung in das Thema DNA-Mikroarrays, die vielen fruchtbaren Diskussionen und die gute Zusammenarbeit beim Aufbau der Datenbank. Heike Schneider danke ich für die stete Hilfsbereitschaft und die unermüdliche Dateneingabe.

Auch möchte ich mich bei Prof. Edgar Wingender und Dr. Alexander Kel von BIOBASE bedanken für die Kooperation und Überlassung der Auswertungsergebnisse.

Nicht zuletzt gilt mein Dank natürlich auch allen Kooperationspartnern des Z02- Projektes für die Bereitstellung der Daten, die die Grundlage dieser Arbeit bilden.

Die Arbeit wurde im Rahmen des DFG-Sonderforschungsbereiches SFB 566 Zytokin- Rezeptoren und Zytokin-abhängige Signalwege als therapeutische Zielstrukturen, im Teilprojekt Z02, „Identifizierung von differenziell regulierten Genen mittels DNA Microarrays” erstellt. Dank gilt dem Präsidium der MHH, das die Stelle für dieses Projekt geschaffen hat. Inhaltsverzeichnis

1 Einleitung...... 8 1.1 Mikroarray-Verfahren im Überblick...... 8 1.2 Vergleichbarkeit der Ergebnisse aus DNA-Mikroarray-Experimenten...... 10 1.3 Informationsflüsse im Zusammenhang mit DNA-Mikroarray-Experimenten...... 12 1.4 Prozessierung, Datenaufnahme und Ergebnisdarstellung von DNA-Mikroarray-Experimenten...... 12 1.5 Datenbanken für Mikroarray-Experimente und BASE...... 13 1.6 Möglichkeiten der Mikroarray-Technologie...... 15 1.7 Regulation der Genexpression während einer Entzündung als Paradigma für koordiniert ablaufende komplexe genregulatorische Vorgänge... 16 1.8 Algorithmen zur Vorhersage von Enhancer Elementen...... 19 1.9 Fragestellung...... 19 2 Material und Methoden ...... 20 2.1 CytoBASE und BASE...... 20 2.2 Mikroarray-Experimente ...... 20 2.2.1 Mikroarray-Typen...... 20 2.2.1.1 Allgemeiner Aufbau der Entzündungsarrays...... 21 2.2.1.2 Entzündungsarrays...... 21 2.2.2 Die experimentelle Gruppe - parallele Prozessierung der Proben eines Experimentes...... 23 2.2.2.1 Die experimentelle Gruppe und Arrayvergleiche...... 23 2.2.2.2 Rohdatensätze in CytoBASE sind Arrayvergleiche...... 24 2.2.2.3 Experimentelle Gruppen in CytoBASE...... 25 2.2.3 Probenprozessierung...... 25 2.2.3.1 cDNA-Synthese...... 25 2.2.3.2 cRNA-Synthese und -Markierung...... 25 2.2.3.3 Qualitätskontrolle der RNA und cDNA...... 25 2.2.3.4 Hybridisierung...... 26 2.2.4 Rohdatenerzeugung...... 26 2.2.4.1 Abtasten der Fluoreszenzintensitäten in Scan-Stufen...... 26 2.2.4.2 Datenextraktion und -Quantifizierung mit Imagene...... 26 2.2.5 Aufbereitung der Rohdaten...... 28 2.2.5.1 Integration von Daten mit MAVI Pro...... 28 2.2.5.2 Normalisierung der Daten mit MAVI Pro...... 28 2.2.5.3 Qualitäts-Filterung und Zusammenfassung der Daten...... 29 2.2.6 Rohdaten in CytoBASE...... 29 2.2.7 Integration aller Messwerte einer experimentellen Gruppe...... 30 2.3 Server...... 30 2.3.1 Hardware und Software...... 30 2.3.2 Datenbankinstanzen...... 31 2.4 Softwareentwicklung...... 31 2.4.1 Programmiersprachen und Entwicklungsumgebung...... 31 2.4.2 Dokumentation...... 31 3 Ergebnisse ...... 32 3.1 Erweiterungen der Datenbank...... 32 3.1.1 Erweiterungen von Tabellen aus BASE...... 32 3.1.1.1 Rohdaten und Gensonden...... 32 3.1.1.2 Dokumentation experimenteller Gruppen...... 33 3.1.1.3 Neue Benennung von „Analyzed data sets”...... 34 3.1.2 Neue Tabellen in CytoBASE...... 34 3.1.2.1 Probenannotation und Suchfunktionen...... 34 3.2 Konzeptionelle Vorarbeiten für den Datenzugriff in CytoBASE...... 37 3.2.1 Nutzerkonzept und Gruppenzugehörigkeit...... 37 3.2.2 Nomenklatur...... 39 3.2.2.1 Die Probe – „Sample” und „Sample Description”...... 39 3.2.2.2 Der Rohdatensatz „Raw Data Set”...... 41 3.2.2.3 Die Analysegruppe „Analysis Group”...... 42 3.3 Datenimport nach CytoBASE...... 44 3.3.1 Rohdaten...... 44 3.3.1.1 Das Werkzeug CytoBASE_Rohdatentool (mergerawfiles)...... 44 3.3.1.2 Hochladen und Zusammenfassen der Rohdatensätze...... 47 3.3.2 Annotation der RNA-Proben...... 48 3.4 CytoBASE – Erweiterungen gegenüber BASE...... 50 3.4.1 Benutzeroberfläche...... 50 3.4.1.1 Startseite...... 50 3.4.1.2 Benutzerhandbücher...... 51 3.4.1.3 Navigation und Datenanzeige...... 52 3.4.1.4 Verweise für Gensonden zu GeneCards...... 54 3.4.1.5 Neue Nomenklatur für CytoBASE-Elemente...... 56 3.4.2 Eingabe und Verwaltung der Daten...... 56 3.4.2.1 Ausschluss doppelter Eintragungen...... 56 3.4.2.2 Annotation der RNA-Proben...... 57 3.4.2.3 Dokumentation der experimentellen Gruppe...... 60 3.4.2.4 Neue Benennung der „Analyzed data sets”...... 61 3.4.3 Datenabfragen und Export...... 64 3.4.3.1 Suchmöglichkeit nach Behandlung und Zellsystem...... 64 3.4.3.2 Export von Daten...... 67 3.4.4 Qualitätskontrolle der Daten über PlugIn...... 70 3.4.4.1 Einleitung...... 70 3.4.4.2 Arbeitsweise des Programms MHHSpotFlagging...... 71 3.4.4.3 Datenformat für den Import und Export ...... 73 3.4.4.4 Qualitätskriterien als Programmparameter...... 74 3.4.4.5 Software-Entwurf von MHHSpotFlagging...... 77 3.4.5 Datensicherung...... 82 3.5 Übersicht über Mikroarray-Experimente in CytoBASE...... 83 3.5.1 Einleitung...... 83 3.5.1.1 Art der Ablage experimenteller Daten...... 83 3.5.1.2 Zusammenstellung der Übersicht...... 83 3.5.2 Experimente in CytoBASE...... 84 3.5.2.1 Zellsysteme...... 84 3.5.2.2 Experimentelle Behandlungen...... 86 3.5.2.3 RNA-Proben...... 89 3.5.2.4 Arrayvergleiche...... 91 3.6 Analyse ausgewählter Mikroarray-Experimente...... 100 3.6.1 Vergleich der relativen Änderungen der mRNA-Mengen...... 100 3.6.2 Ähnlichkeiten der Expressionsmuster und koregulierte Gene...... 112 3.6.3 Promotoranalysen von koregulierten Genen...... 119 4 Diskussion...... 128 4.1 CytoBASE-Aufbau einer Datenbanklösung für DNA-Mikroarray-Experimente...... 128 4.2 Erstellung einer strukturierten Übersicht über die in CytoBASE enthaltenen DNA-Mikroarray-Experimente ...... 130 4.3 Identifikation einer koregulierten Gruppe an Entzündungs- genen und in-silico-Analyse der Promotorstrukturen...... 131 5 Zusammenfassung...... 135 6 Literatur...... 136 Lebenslauf...... 141 7 Anhang...... 143 7.1 Abbildungen...... 143 7.2 Tabellen...... 144 7.3 Ausgewählte SQL-Skripte zur Erzeugung von Tabellen...... 158 7.3.1 Tabelle RawBioAssayData...... 158 7.3.2 Tabelle Reporter...... 159 7.4 Datenbankabfragen zur Übersichtsauswertung...... 160 Tab. 0.1.: Begrifflichkeiten in BASE mit deren Entsprechungen in CytoBASE und Verwendung im Text

Bezeichnung Bezeichnung Deutsche Form Beschreibung in BASE in CytoBASE im Text

Reporter Gene Probe Gensonde Sonde für die spezifische Detektion einer zellulären mRNA, hier: 50-mer Oligonukleotid Sample Sample (RNA) Probe, Probe RNA-Probe hier: extrahierte RNA mit Annotation der Probe Experiment Analysis group Analysegruppe zentrale Auswertungseinheit, die verarbeitete Rohdaten enthält und die Hierarchie der Verarbeitung mit allen erzeugten Daten vorhält experimentelle hier: Gruppe Zusammenfassung der Rohdaten eines übergreifenden Mikroarrayexperimentes, — speziell speziell angelegte dessen Proben bis zu den Hybridisierungen angelegte Analysegruppe parallel prozessiert wurden Analysis group Experiment Gene Explorer Genexplorer Web-Formular zur Anzeige der Expression Explorer eines in vielen Hybridisierungen einer Analysegruppe Analysis steps Analyzed data analysierte Überschrift der Anzeige der Datenanalyse, sets Datensätze die in einer hierarchischen Darstellung die Arbeitsschritte und resultierenden Daten auf einer Seite kombiniert auch: Anzeige der Ergebnisgruppen BioAssay Set Result group Ergebnisgruppe Zusammenfassung einer Gruppe von „analysierten Datensätzen”, die gleichartig verarbeitet wurden BioAssay Analyzed data analysierter einzelner Datensatz mit Expressionsdaten, set Datensatz der gefiltert oder verarbeitet sein kann und mit den ursprünglichen Rohdaten verbunden bleibt Raw data set Raw data set Arrayvergleich, Basisbehälter für Rohdaten, Zweikanal- der alle Messwerte aus der Bildbearbeitung rohdatensatz, für beide Farb-Kanäle aufnimmt „Pseudo”- Zweikanal- hier: sinnvolle Kombination von Rohdaten datensatz aus zwei Einkanalhybridisierungen der selben experimentellen Gruppe Channel 1, Channel 1, Kanal 1, Kanal 2 Die jeweilige Gesamtheit der Daten der Channel 2 Channel 2 beiden Farb-Kanäle im Mikroarrayexperiment mit Zweikanalhybridisierung hier: Die jeweilige Gesamtheit der Daten der beiden kombinierten Einkanalexperimente Das System bildet automatisch den Quotienten nach der Regel:

Ratio = IntensitätChannel 1 / IntensitätChannel 2 1 Einleitung 8

1 Einleitung Die DNA-Mikroarraytechnologie, die in einem miniaturisierten Format mit immobilisierten Nukleinsäuren als Sonden viele endogene Nukleinsäuren gleichzeitig detektiert, ist innerhalb einer knappen Dekade zu dem weltweit wichtigsten Hochdurchsatzverfahren zur Bestimmung der Genexpression von vielen Organismen geworden. Abb. 1.1 gibt einen Überblick über den massiven Anstieg der Publikationen mit DNA-Mikroarrays. Wie weiter unten erwähnt, kommen verschiedene Varianten dieses Verfahrens zum Einsatz, eine aktuelle PubMed Recherche am 15.05.2006 ergab 14.474 Einträge mit dem Stichwort „microarray”.

4500 n

e 4500 n o

i 4000 3600 t a

k 3500 i 3000 l

b 3000 u P

2500 r 2000 e

d 2000

l

h 1500 1122 a z

n 1000

A 425

. 500 139

a 7 8 40 c 0 1 1 1 1 2 2 2 2 2 2 9 9 9 9 0 0 0 0 0 0 9 9 9 9 0 0 0 0 0 0 5 7 8 9 0 1 2 3 4 5 -1 9 9 6 Jahr für PubMed-Recherche

Abb. 1.1: Übersicht über die Entwicklung der Publikationen mit DNA-Mikroarray-Technologie von 1995 bis 2005 (erweitert nach Marshall, 2004).

Auf der einen Seite ist diese Technologie – vor allem was die prinzipiellen experimentellen Vorgehensweisen angeht – gut etabliert, auf der anderen Seite zeigen sich eine Reihe von Herausforderungen im Umgang mit dieser Technologie und den dabei anfallenden riesigen Datenmengen. Solche Genexpressionsuntersuchungen erfordern spezifische bioinforma- tische Entwicklungen, um die gewonnenen Ergebnisse darzustellen und zwischen unterschiedlichen Untersuchungssystemen vergleichbar zu machen (Bassett et al., 1999; Stoeckert et al., 2002).

1.1 Mikroarray-Verfahren im Überblick Konzeptionell sind Mikroarray-Experimente relativ einfach aufgebaut: Die aus biologischen Proben gewonnenen Nukleinsäuren werden amplifiziert und in vitro so manipuliert, dass sie komplementär sind zu bestimmten auf soliden Trägern immobilisierten Gensonden (den eigentlichen DNA-Mikroarrays). Anschließend werden die zellulären Nukleinsäuregemische mit Fluoreszenzfarbstoffen markiert (in der Regel Cy3 und Cy5) und auf die DNA- Mikroarrays hybridisiert. Die Menge der Bindung von markierten Nukleinsäuren wird mit Hilfe eines Laser-Scanners quantifiziert (Holloway et al., 2002 und Murphy, 2002).

Auf diese Art können zelluläre DNA aber vor allem auch zelluläre mRNA Abschnitte detektiert und sogar quantifiziert werden. Die Detektion von mRNAs mit Hilfe von Mikroarrays war wegweisend für die Entwicklung der DNA-Mikroarraytechnologie, ermöglicht 1.1 Einleitung 9 sie doch die parallele Messung der Expression aller vom Genom kodierten Gene. Im Folgenden wird ausschließlich auf diese Art von Mikroarraytechnologie eingegangen, da die Archivierung und Auswertung von mRNA-Expressionprofilen den Kern dieser Promotionsarbeit darstellt.

Abb. 1.2 zeigt den prinzipiellen Ablauf von Mikroarrayexperimenten, wie er auch im Labor des Z02-Projektes des SFB566 eingehalten wird. Das Standardverfahren für Experimente mit den selbst entwickelten Entzündungsarrays ist die Hybridisierung der Arrays im Einkanalverfahren. Dabei wird das farbmarkierte cRNA-Gemisch von einer einzelnen Probe auf einen DNA-Mikroarray hybridisiert. Die Vergleichsprobe wird parallel prozessiert und auf einen weiteren Array hybridisiert.

Abb. 1.2: Prinizipeller Ablauf eines DNA-Mikroarray-Experiments zur Messung der Genexpression. Aus Zellen oder Gewebe wird die Gesamt-RNA extrahiert. Daraus wird fluoreszenzmarkierte copy-RNA (cRNA) synthetisiert. Die farbmarkierte cRNA wird auf einen Mikroarray hybridisiert, der DNA-Sonden enthält. Nach Waschen wird die Menge der pro Sonde gebundenen cRNA über deren Fluoreszenz im Scanner gemessen. A) Im Zweikanalexperiment werden zwei Proben mit unterschiedlichen Farbstoffen (Cy3 und Cy5) markiert, auf einen Array gemeinsam hybridisiert und die zwei Farbkanäle im Scanner getrennt gemessen. B) Im Einkanalexperiment werden zwei Proben mit dem gleichen Farbstoff markiert, auf zwei Arrays hybridisiert und diese nacheinander gemessen. Die Farbdarstellung der Verhältnisse der mRNA-Spiegel (ganz rechts) ergibt sich hier also aus einem künstlichen Vergleich der zwei Einkanalarrays.

Die größten Unterschiede bei der Anwendung von mRNA Expressionsmessungen mit Hilfe der DNA-Mikroarraytechnologie bestehen im Moment in der Art der verwendeten Gensonden. Zum Einsatz kommen entweder cDNAs oder Oligonukleotide (Holloway et al., 2002; Murphy, 2002). Ersteres Verfahren hat den Vorteil, dass bei ausreichender Länge der cDNA-Fragmente stringente Hybridisierungsbedingungen möglich sind und damit relativ 1.1 Einleitung 10 spezifische Bindung erfolgt. Nachteile sind die arbeitsintensiven Schritte der PCR Amplifikation, Aufreinigung und Sequenzbestimmung der Sonden vor dem eigentlichen Mikroarray-Experiment (Holloway et al., 2002; Murphy, 2002).

Oligonukleotid Sonden erfordern ein sehr sorgfältiges Design, um unter gegebenen Hybridisierungsbedingungen spezifische und ausreichende Bindung zu gewährleisten. Marktführer dieser Technologie ist das Unternehmen Affymetrix mit dem sogenannten GeneChip, bei dem durch photo-lithographische Verfahren und kombinatorische chemische Synthese hunderttausende verschiedener Oligonukleotidsonden direkt auf dem Glasträger synthetisiert werden (Holloway et al., 2002; Murphy, 2002). GeneChip-Mikroarrays sind sehr teuer und erfordern spezifische Geräte (Scanner und „Fluidics Work Station”), was ihren Einsatz zumindest in Deutschland auf wenige spezialisierte Zentren beschränkt.

Alternativ zu GeneChips können auch konventionell synthetisierte Oligonukleotidsonden von ca. 50-70 Basen Länge verwendet werden, die mittlerweile von einer Reihe von Herstellern angeboten werden, z.B. von Agilent (Holloway et al., 2002; Murphy, 2002). Die in der Arbeitsgruppe Z02 des SFB566 der Medizinischen Hochschule Hannover entworfenen Entzündungsarrays für Mensch und Maus, die als Grundlage zur Generierung der hier behandelten Daten dienten, entsprechen diesem Mikroarraytypus und enthalten 50-mer Oligonukleotide.

1.2 Vergleichbarkeit der Ergebnisse aus DNA-Mikroarray-Experimenten Seit Publikation der ersten großen mRNA-Expressionstudien in Säugerzellen mit Hilfe von DNA-Mikroarrays (DeRisi et al., 1997; Heller et al., 1997; Schena et al., 1998; Fambrough et al., 1999; Iyer et al., 1999) haben weltweit viele Arbeitsgruppen Ergebnisse mit dieser Technologie publiziert. Dieses führte zu der Erkenntnis, dass unterschiedliche DNA- Mikroarray Typen und unterschiedliche Konfigurationen der Mikroarray Plattform zu nicht kompatiblen Ergebnissen führen können.

So detektieren lange PCR-Fragmente als Sonden vermutlich alle Spleißvarianten eines Genes, während kurze Oligonukleotidsonden nur bestimmte Spleißformen erkennen können. Wenn eine solche Spleißform mengenmäßig stark über- oder unterrepräsentiert ist, wird eine solcher DNA-Mikroarray einen anderen Expressionswert für dieses Gen messen. Die meisten Hersteller von Oligonukleotidsonden verwenden unternehmenseigene Software, um diese Effekte oder potenzielle Kreuzhybridisierung mit nicht gewünschten Zielsequenzen vorherzusagen und zu minimieren.

Ohne Kenntnis der Primärsequenz einer solchen Sonde sind daher unterschiedliche Hybridisierungssignale im Vergleich zu Sonden anderer Hersteller nicht interpretierbar (Kuo et al., 2002; Marshall, 2004). Wie aktuell diese Probleme sind, zeigte sich bei dem Vergleich dreier Mikroarray Plattformen durch die Arbeitsgruppe von Margaret Cam (Tan et al., 2003). Sie verglich die Fähigkeit von drei kommerziell angebotenen Mikroarray Plattformen von Amersham (30mer-Oligonukleotidsonden), Agilent (cDNA-Sonden) und Affymetrix (25mer- Oligonukleotidsonden) die Genexpression in Serum-behandelten und unbehandelten Pankreaskarzinomzelllinien zu messen. Nur bei sehr wenigen Genen konnten diese drei Plattformen ausgehend von denselben RNA-Präparationen übereinstimmende Genexpressionsänderungen messen (Tan et al., 2003).

Unabhängig von der Art der Sonden bestehen bei der Anwendung der DNA-Mikroarray Technologie noch eine Reihe weiterer Probleme, vor allem dadurch, dass weltweit noch keine allgemein gültigen Standards zur Durchführung der Experimente oder Aufnahme, Auswertung und Archivierung der Daten existieren (Petricoin,EF, et al., 2002; Quackenbush, 2002; Yang & Speed, 2002). Ein Versuch, einen internationalen Standard aufzustellen, 1.2 Einleitung 11 besteht in den Vorschlägen des MIAME (Minimum Information About a Microarray Experiment) Programms (Brazma et al., 2001). Die Microarray Gene Expression Data Society (MGED) hat in diesem Zusammenhang Richtlinien erstellt für die Beschreibung, das Management und den Datenaustausch von Mikroarraydaten (Stoeckert & Parkinson Helen, 2003).

Mehrere Übersichtsarbeiten beschäftigen sich ausschließlich mit dem Design, der statistischen Auswertung und der Validierung von Mikroarray-Experimenten sowie den unterschiedlichsten Möglichkeiten von Fehlerquellen und Fehlinterpretation der erhaltenen Daten (Churchill, 2002; Kothapalli et al., 2002; Quackenbush, 2002; Yang & Speed, 2002). Eine entscheidende Forderung ist immer wieder die ausreichend häufige Wiederholung von Experimenten, um die Varianz innerhalb einer Mikroarray-Studie zu vermindern (Quackenbush, 2002; Yang & Speed, 2002). Diese für jedes biologische Experiment gültige Regel wird oft durch die hohen Kosten eines Mikroarray-Experimentes eingeschränkt (Holloway et al., 2002).

Neuere Arbeiten zeigen, dass die Kombination aus standardisierten Markierungsprotokollen und –standardisierter Datenauswertung zu einer deutlich verbesserten Reproduzierbarkeit der von verschiedenen Mikroarray Plattformen generierten Daten führt (Sherlock, 2005; Larkin et al., 2005; Irizarry et al., 2005; Bammler et al., 2005). 1.3 Einleitung 12

1.3 Informationsflüsse im Zusammenhang mit DNA-Mikroarray-Experimenten Abbildung 1.3 gibt einen Überblick über die Informationsflüsse, die im Zusammenhang mit Mikroarray-Experimenten wichtig sind. Die hier vorliegende Arbeit behandelt die Themen Datenextraktion, Datenanalyse und Aufbau eines Archives mit Web-Interface und Nutzerverwaltung, das Möglichkeiten zur Suche und analytischen Prozessierung der Mikroarraydaten bietet.

Abb. 1.3: Überblick über die Informationsflüsse im Zusammenhang mit Mikroarrayexperimenten. Die blau eingekreisten Bereiche wurden im Rahmen dieser Promotion bearbeitet (aus Stears et al., 2003).

1.4 Prozessierung, Datenaufnahme und Ergebnisdarstellung von DNA-Mikroarray-Experimenten Die nach der Hybridisierung und dem Scannen der Mikroarrays erhaltene Rohdaten können auf vielfache Weise weiter verarbeitet werden. Die Herausforderung liegt darin, eine sehr gute Vergleichbarkeit über viele Experimente sicherzustellen. Dabei macht die große Menge der anfallenden Daten ein standardisiertes Vorgehen bei der Bearbeitung und Archivierung der Daten zwingend notwendig.

Die übliche Darstellung von Mikroarray-Daten erfolgt als relative Genexpression (Ratio) zwischen zwei unterschiedlichen Proben (Ball et al., 2002; Allison et al., 2006). Dieses impliziert, dass jedes Mikroarray-Experiment eine Kontroll- oder Referenzprobe beinhalten sollte, gegen die die Veränderung der Genexpression bestimmt wird. Eine solche Referenz- 1.4 Einleitung 13 probe kann z.B. eine unbehandelte Zellinie oder ein Gemisch aus RNAs von gesunden Spendern darstellen. Die Referenzprobe ist eine entscheidende Einflussgröße des Mikroarray-Experimentes und bedarf sorgfältiger Auswahl anhand der Fragestellung und des erwarteten Ergebnisses (Yang & Speed, 2002). Dem gegenüber ist die Bestimmung von absoluten mRNA-Mengen mit der Mikroarraytechnologie, welche eine direkten Vergleich der „absoluten” Genexpression zwischen unterschiedlichsten biologischen Proben erlauben würde, weitgehend unüblich, da hierfür erst noch die geeigneten methodischen Voraus- setzungen (z.B. einheitliche RNA-Referenzstandards) geschaffen werden müssen (Ball et al., 2002).

Die Mikroarray-Datenanalyse beginnt mit der Bewertung des eingescannten Bildes durch eine Software, die die Spots identifiziert und charakterisiert. Schlecht messende Spots müssen identifiziert und markiert werden („flagging”). Die Intensitätswerte in den Arraydaten werden anschließend normalisiert, damit die Daten aus verschiedenen Hybridisierungen vergleichbar werden. Für hoch dichte Arrays existieren hierfür viele Methoden. Der einfachste und oft beschrittene Weg ist der Bezug auf den Mittelwert der Intensitäten aller Sonden des Arrays. Es existieren aber auch wesentlich ausgefeiltere Strategien, wie z.B. die varianzstabilisierende Normalisierung (VSN, Huber et al., 2002). Eine weitere Möglichkeit ist die Normalisierung über Haushaltsgene (engl. house keeping genes), die im experimentellen Kontext nicht reguliert sind. Dies ist notwendig wenn wie bei den hier verwendeten Entzündungsarrays außer den Haushaltsgenen die Mehrzahl der Gene unter den Versuchsbedingungen potentiell reguliert sind.

An diese grundlegenden Datenverarbeitungen schließt sich die eigentliche Analyse der Genexpressionen an. Die direkteste Art ein Mikroarrayexperiment darzustellen, ist die Form einer Tabelle, welche die normalisierten Fluoreszenzmesswerte und die Ratioberechnungen enthält. Hierbei können zusätzlich auch die Mittelwerte und Fehlergrenzen sowie die statistische Verteilung der Messwerte mit angegeben werden. Diese Form der Darstellung ist bei vielen Genen und entsprechend vielen Proben schnell unübersichtlich. In diesem Fall können die Zahlenwerte durch Farbabstufungen visualisiert werden (sogenannte Heatmaps). Weitere Darstellungen der Messwerte sind Punktwolkendiagramme (engl. scatterplots), die einen Vergleich der Ratios der Messwerte zwischen zwei Proben in Abhängigkeit von der Signal(Fluoreszenz)intensität ermöglichen. Sie machen die Varianz der Messwerte und systematische Abweichungen in den Daten sichtbar. Mit sogenannten Boxplots, die die Verteilung der Intensitäten darstellen, lassen sich beispielsweise die Intensitätsniveaus mehrerer Arraydatensätze untereinander vergleichen. Eine weitere wichtige Form der Darstellung von Mikroarray-Ergebnissen ist die Koppelung der Analyse der Daten mit anschließender Visualisierung von auffällig (z.B. im Sinne des Experimentes) regulierten Genen. Hierbei finden sehr oft verschiedene sogenannte Clustering Methoden Anwendung. Bei diesen Methoden werden Genexpressionsdaten in einem n-dimensionalen Raum dargestellt, wobei n der Anzahl an zu vergleichenden Experimenten entspricht und jedem Gen ein Vektor zugeordnet wird, der die Position des Messwertes für dieses Gen in einem multi (n-)dimensionalem Raum festlegt. Gene, deren Messwerte in diesem Raum über verschiedene Experimente einen ähnlichen Vektor erzeugen, werden zusammen „clustern” und gelten als koreguliert. Viele Varianten dieser Clusteringalgorithmen werden zur Zeit benutzt (Bryan, 2004; Chipman, H., Hastie, T.J. & Tibshirani, R., 2003 und Quackenbush, 2001). Allison et al., 2006 gibt einen guten Überblick über weitere aktuell nutzbare Möglichkeiten der Mikroarray-Datenanalyse.

1.5 Datenbanken für Mikroarray-Experimente und BASE Zum Start der Arbeit in der zweiten Hälfte des Jahres 2003 wurde vom Autor recherchiert, welche Datenbanklösungen für Mikroarray-Daten im wissenschaftlichen Umfeld verfügbar sind. Zu diesem Zeitpunkt existierten bereits öffentliche Datenbanken, in die man 1.5 Einleitung 14

Experimente hochladen und nach einem standardisierten Schema veröffentlichen kann (Stoeckert et al., 2002). Die wichtigsten frei zugänglichen Datenbanken sind in Tab. 1.1 aufgeführt. Daneben wurden auch Datenbanken geschaffen, die für akademische Nutzung frei sind. Die Stanford Microarray Database (SMD; http://genome- www.stanford.edu/microarray) nimmt z.B. nur Daten von deren eigener Arrayplattform auf. Die RNA Abundance Database (RAD; http://www.cbil.upenn.edu/RAD) hält dagegen Daten von vielen Plattformen.

Tab. 1.1: Öffentliche Datenbanken zur Ablage von Mikroarraydaten

Art des Name Betreiber und Adresse Zugangs

European Bioinformatics Institute (EBI) ArrayExpress öffentlich http://www.ebi.ac.uk/arrayexpress Center for Information Biology DNA Data Bank of Japan, National Institute of Genetics, Japan öffentlich Gene Expression http://cibex.nig.ac.jp Database (CIBEX) National Center for Biotechnology Information (NCBI) at the Gene Expression National Institutes of Health, USA öffentlich Omnibus (GEO) http://ncbi.nlm.nih.gov/geo

Alle diese über das Netz zugänglichen Datenbanken eignen sich jedoch nicht, die regulären Datenmengen einer Mikroarray-Arbeitsgruppe aufzunehmen, sondern sind vielmehr interessant als Ablage für veröffentlichte Daten. Deshalb wurde nach frei erhältlichen Lösungen gesucht, die möglichst auch in der Struktur offen sind für Erweiterungen.

Zum Zeitpunkt der Recherche waren lediglich zwei Systeme zur Verwaltung und Archivierung von Mikroarraydaten verfügbar, deren Lizenzmodell auch eine lokale Installation zuließen und die ausreichende Funktionalitäten mitbrachten. Das für akademische Zwecke frei nutzbare Softwarepaket TM4 enthält das Programm MADAM (MicroArray Data Manager), das eine MySQL-Datenbank auf Windowsplattformen steuert (http://www.tigr.org/software; Saeed et al., 2003). Im Gegensatz zu TM4 ist die an der Universität Lund, Schweden, entwickelte Softwarelösung BASE (http://base.thep.lu.se/; Saal et al., 2002) Quelltext-offen (Open Source unter GNU Public License) und bietet vielfältige Möglichkeiten zur Erweiterung zur Datenanalyse über eine sogenannte PlugIn-Struktur. Ziel dieses Softwarepaketes ist es, Werkzeuge zur Verfügung zu stellen für Datenspeicherung, Qualitätskontrolle und Normalisierung der Daten in einer integrierenden web-basierten Anwendung (Holloway et al., 2002).

Die Wahl für die Erstellung eines interaktiven Datenbanksystems fiel auf BASE, da dieses System vollkommen auf freier Software basiert und durch den offenen Quelltext leicht erweiterbar ist (http://base.thep.lu.se). BASE arbeitet mit den freien relationalen Daten- banken MySQL (http://www.mysql.com) oder PostgreSQL (http://www.postgresql.org) zusammen und bietet ein ausgefeiltes Datenbankschema (vgl. Abb. 7.1 im Anhang) zur Speicherung aller relevanten Daten und einer Historie der auf Datensätze angewendeten Auswertungsschritte. Mit Programmen die als PlugIn in BASE eingebunden sind können Daten normalisiert und analysiert werden. So existieren z.B. PlugIns zur Anbindung an die freie Statistiksoftware R (http://cran.r-project.org), die im Paket Bioconductor viele Möglich- keiten für Analysen und Visualisierungen von Mikroarraydaten bietet. Weiterhin enthält es Werkzeuge zur Darstellung vieler Arraydatensätze auch nebeneinander. Nicht zu unterschätzen ist auch eine aktive Entwicklergemeinde die in der Mailingliste aktuelle 1.5 Einleitung 15

Fragen beantwortet .

Abbildung 1.4 veranschaulicht den Aufbau von BASE. Dieses Softwarepaket enthält alle wesentlichen Elemente für ein Mikroarray-Datenlager mit Anbindung an das Internet im Sinne von Stears et al., 2003 (rot gefärbte Kasten in Abb. 1.3).

Abb. 1.4: Schematischer Überblick über die Komponenten von BASE, BioArray Software Environment. Verändert nach Saal et al., 2002.

1.6 Möglichkeiten der Mikroarray-Technologie Nach dem gängigen Verständnis sollten Gene, die in einem gemeinsamen Signalweg liegen oder durch einen Stimulus gemeinsam aktiviert oder gehemmt werden, koreguliert sein. Daher liegen sicherlich die größten und faszinierendsten Möglichkeiten der Arraytechnologie 1.6 Einleitung 16 in der Durchführung vieler vergleichender Mikroarrayexperimente und der damit einhergehenden Identifikation von Gengruppen, deren Proteinprodukte in ihrer Summe einen physiologischen oder pathophysiologischen Prozess kontrollieren (Quackenbush, 2001).

1.7 Regulation der Genexpression während einer Entzündung als Paradigma für koordiniert ablaufende komplexe genregulatorische Vorgänge Die Entzündungsreaktion ist eine entscheidende Komponente der unspezifischen und spezifischen Immunantwort. Das typische makroskopische Erscheinungsbild einer Entzündung mit den bekannten klinischen Entzündungszeichen wie Rötung, Schwellung, Überwärmung, Schmerz und Funktionsverlust wird hervorgerufen durch die rasche und effektive Synthese einer großen Anzahl von Entzündungsproteinen wie Zytokinen, Chemokinen, Adhäsionsmolekülen, NO-Synthasen, Cyclooxygenasen, Proteasen u.v.a., die die Leukozyten veranlassen in das Gewebe zu infiltrieren und dadurch eine lokale Störung der Mikrozirkulation und die möglichen destruktiven Prozesse hervorrufen (Kracht & Saklatvala, 2002; Beutler, 2004). Anhand von DNA-Mikroarrays kann man zeigen, dass hunderte von Genen innerhalb von Minuten bis Stunden durch Toll-Rezeptor aktivierende Stimuli (TLR-Liganden, Produkte von z.B. Viren, Bakterien oder Pilzen) oder durch die endogenen proinflammatorischen Liganden IL-1 und TNF induziert oder reprimiert werden können (Huang et al., 2001; Calvano et al., 2005). Die Entschlüsselung derjenigen Mechanismen, die die Signaltransduktion in die Aktivierung von einzelnen oder von Gruppen von entzündlichen Genen übersetzen, stellt aktuell eine große Herausforderung für die Grundlagenforschung im Rahmen funktioneller Genomforschung dar, eröffnet aber auch neue interessante Perspektiven für die selektive Modulation von Entzündungsgenen. Ein Kennzeichen entzündlicher Genregulation ist besonders auch die zeitlich koordinierte Koregulation von vielen verschiedenen Genen (Kracht & Saklatvala, 2002; Hoffmann et al., 2005; Thiefes et al., 2005). Es ist daher wahrscheinlich, dass entzündliche Genexpression durch übergeordnete Regulationsmechanismen sowohl auf der trans () als auch auf der cis (DNA/RNA) Ebene exakt koordiniert wird. 1.7 Einleitung 17

Abb. 1.5: Abb.4. Übersicht über die durch proinflammatorische Stimuli aktivierten Signalsysteme. Mindestens fünf Signalwege werden durch intrazelluläre Proteinkinasekaskaden reguliert und führen zur Aktivierung von transkriptionellen Regulatorproteinen (adaptiert nach Han & Ulevitch, 2005).

A

B

Abb. 1.6: Übersicht über die durch proinflammatorische Stimuli aktivierten A) transkriptionellen und B) posttranskriptionellen genregulatorischen Mechanismen. Mit roten Kreisen gekennzeichnete Proteine bezeichnen die wichtigsten Transkriptionsfaktoren, die Entzündungsgene regulieren können. (adaptiert nach Han & Ulevitch, 2005). NF-κB (nuclear factor kappa B), AP-1 (activating protein-1), CREB (cyclic AMP responsive element binding protein), IRF (interferon-regulatory factor), ELK1 (ets related protooncogene 1), C/EBP (CCAAT/enhancer-binding protein), STAT (signal transducer and activator of transcription). 1.7 Einleitung 18

Komplexität der Genregulation auf der Ebene funktioneller cis-Elemente Die Identifikation dieser genregulatorischen Mechanismen berührt ein Grundproblem, welches nicht nur auf Entzündungsgene beschränkt, sondern generellerer Natur ist: Obwohl das menschliche Genom sequenziert worden ist, lässt sich aus der Nukleotidsequenz der Gene die phänotypische Diversität von verschiedenen Zellen, Geweben, oder Organismen nur unzureichend erklären. Von wesentlicherer Bedeutung als die eigentliche Primärsequenz der DNA für die Ausbildung eines physiologischen oder pathophysiologischen Phänotyps - wie eben auch den einer Entzündungsreaktion - ist, zu welchem Zeitpunkt und in welchem Ausmaß, welche spezifischen Gene aktiviert sind. Postuliert wird daher ganz generell, dass neben dem eigentlichen genetischen Code, der über die „Codon Usage” die Aminosäure- zusammensetzung eines Genproduktes kodiert, ein zweiter genetischer Code existieren muss, der die Aktivität des entsprechenden Genes kontrolliert (Pennisi, 2004). Diese Kontrolle der Aktivität von Genen findet in dem menschlichen Genom durch regulatorische Bereiche (so genannte Enhancer oder Silencer) in nicht kodierenden Regionen statt, die zum Teil viele Tausend Basenpaare von dem eigentlichen Gen entfernt liegen können. Der regulatorische Code in einem Enhancer verbirgt sich der Kombination an Bindungsstellen für individuelle Transkriptionsfaktoren, ihrem Abstand zueinander und in einem Fehlen oder in der Amplifikation einzelner Bindungsstellen.

II

I

A

B

Abb. 1.7: Komplexität von genregulatorischen Enhancer-Regionen (aus Pennisi, 2004). I) Ein Beispiel für einen aus identischen Elementen aufgebauten Enhancer (A) und für einen komplex aufgebauten Enhancer (B). II) Unterschiedliche Anordnungen (A), unterschiedlicher Abstand (B) und Fehlen eines Elementes (C) in aus den gleichen cis-Elemeneten aufgebauten Enhancer Regionen.

Momentan werden virtuelle Methoden entwickelt, die durch genomweite Vergleiche verschiedener Organismen (z.B. Mensch, Maus, Hund, Ratte) solche Enhancer-Elemente identifizieren können (Pilpel et al., 2001; Bulyk, 2003; Xie et al., 2005). Xie et al. entdeckten so 174 Kandidaten-Motive, von denen 105 neue Transkriptionsfaktor- Bindungsstellen darstellen könnten (Xie et al., 2005). Solche Verfahren entdecken im Wesentlichen hoch konservierte Regionen in Genomen, die nachfolgend experimentell verifiziert werden müssen, z.B. durch ChIP-Chip Analysen (Buck & Lieb, 2004). Viele Transkriptionsfaktoren weisen allerdings nicht komplett konservierte Bindungsstellen auf (Taverner et al., 2004). Bereits Mutationen von einer Base in einem cis-Element können starke Änderungen der Bindung des Faktors selbst oder auch von transkriptionellen Kofaktoren zur Folge haben (Leung et al., 2004).

Da das menschliche Genom ca. 2000 potenzielle Transkriptionsfaktorgene enthält, deren Bindungsstellen funktionell zugeordnet werden müssen, besteht hierbei ein Bedarf nach sehr gut validierten Hochdurchsatzverfahren, welche mit bioinformatischen Methoden kombiniert werden müssen (Tupler et al., 2001). 1.8 Einleitung 19

1.8 Algorithmen zur Vorhersage von Enhancer Elementen In den letzten Jahren wurde eine Reihe an Arbeiten publiziert, die die erfolgreiche Anwendung von Algorithmen und Promotordatenbanken auf diese Problematik beschreiben (Pilpel et al., 2001; Bulyk, 2003; Halees et al., 2003; Taverner et al., 2004; Halees & Weng, 2004; Hu et al., 2004; Segal & Sharan, 2005; Shlomi et al., 2006). Insbesondere die integrierte Datenbankstruktur des Unternehmens BIOBASE ermöglicht die Verknüpfung von Informationen zu Transkriptionsfaktorgenen, den von diesen Faktoren gebundenen cis- Elementen und seit neuestem auch die kombinatorische Suche nach komplexen Enhancer- Elementen (Potapov & Wingender, 2006; Matys et al., 2006; Krull et al., 2006; Kel et al., 2006). Dass diese Methoden ausgehend von mRNA-Expressionsdaten tatsächlich die übergeordneten regulatorischen cis-Elemente und dazugehörigen Transkriptionsfaktoren identifizieren können, wurde vor kurzem in einer Arbeit gezeigt, in er IRF3 als neuer Kofaktor für die Regulation glukokortikoid-sensitiver Entzündungsgene identifiziert wurde (Ogawa et al., 2005). Hierbei wurde die Promotordatenbanken und die von (Halees et al., 2003; Segal & Sharan, 2005) beschriebenen Algorithmen benutzt.

1.9 Fragestellung Zu Beginn dieser Promotionsarbeit lag ein durch DNA-Mikroarrays mit validierten Sonden gewonnener Datensatz von insgesamt 181 Mikroarray-Hybridisierungen vor, der bis zum 1.1.2006 auf 1118 Hybridisierungen angewachsen war. Die Daten waren durch ein hoch standardisiertes experimentelles Vorgehen gewonnen worden, lagen in ihrer Gesamtheit aber ausschließlich in Excel-basierenden Archivierungssystemen vor. Die meisten der zu Grunde liegenden Experimente beinhalteten eine biologisch fokussierte Fragestellung im Rahmen der Regulation von Entzündungsgenen.

Ziele der Arbeit waren daher:

(i) Der Aufbau einer maßgeschneiderten flexiblen Datenbankstruktur zur Archivierung und Auswertung aller vorhandenen Mikroarraydaten und Web-basiertem integriertem Nutzerzugang.

(ii) Die Nutzung der Datenbank zur Metaanalyse der Rohdaten.

(iii) Die Identifikation von koregulierten Entzündungsgenen.

(iv) Die bioinformatische Auswertung der cis-Elemente dieser Gene. 2 Material und Methoden 20

2 Material und Methoden

2.1 CytoBASE und BASE BioArray Software Environment BASE ist eine frei erhältliche, Web-gestützte Software- umgebung mit Datenbank für die Archivierung und Analyse großer Datenmengen aus Mikroarray-Experimenten. Die Homepage von BASE (http://base.thep.lu.se) wird von Carl Troein in der Abteilung für Theoretische Physik der Universität Lund, Schweden, betrieben. BASE ist unter der GNU General Public License veröffentlicht (http://www.gnu.org/licenses/gpl.html). Weitergehende Informationen sind der Webseite http://base.thep.lu.se und in Dietzsch et al., 2006; Saal et al., 2002) erstellt.

In der vorliegenden Arbeit wird der Begriff BASE immer verwendet, wenn Funktionalitäten behandelt werden, die dem Standardumfang von BASE in Version 1.2.15 entsprechen. Der Begriff CytoBASE kennzeichnet die erweiterte Version von BASE, die im Rahmen dieser Arbeit im „Zentralen Projekt Z02 des SFB 566” an der Medizinischen Hochschule Hannover entwickelt wurde.

Zur Einführung in CytoBASE wird folgend eine kurze Beschreibung der prinzipiellen Funktionsweise von BASE gegeben. BASE ist eine in PHP realisierte Softwareumgebung, die auf einem Webserver läuft. PHP ist die Abkürzung für „PHP: Hypertext Preprocessor”, eine Open Source Skriptsprache speziell für Web-Entwicklungen mit einfachem Zugriff auf Datenbanken. Die Web-Seiten der Benutzerschnittstelle werden in BASE über in Webseiten eingebettetes PHP dynamisch erzeugt. Die dargestellten Seiten enthalten nur die Informationen, die der Nutzer entsprechend seiner Rechte sehen darf. BASE greift für alle Anzeigen auf die Daten einer logisch darunter liegenden Datenbank zu. Die Datenbank muss sich aber nicht auf dem selben Rechner befinden. Die PHP-Schicht enthält die Logik, die festlegt, wie Datenbankeinträge und Datenbankabfragen ausgeführt werden. Alle Datenban- kelemente sind in PHP in einer ausgefeilten Klassenhierarchie abgebildet und als Objekte zugreifbar. Neben den in der Datenbank abgelegten Daten werden auch Dateien im Dateisystem gespeichert, wobei die Informationen über Namen und Speicherorte in der Datenbank verwaltet werden. Die Dateien sind nicht direkt zugreifbar, sondern für den Nutzer nur über eine Webseite abrufbar.

BASE hat offenen Quelltext und ist dadurch auf spezifische Probleme unserer Arbeitsgruppe anpassbar. In der Mailingliste von BASE findet ein reger Austausch zwischen Nutzern und Entwicklern statt, was den lokalen Aufbau einer solchen Datenbanklösung erheblich erleichtert.

2.2 Mikroarray-Experimente

2.2.1 Mikroarray-Typen Innerhalb der zentralen Mikroarray-Einheit des SFB 566 der MHH wird mit zwei verschie- denen Typen von Mikroarrays gearbeitet. Den hoch dichten Mikroarrays (engl. high density arrays), mit denen mehr als 10000 Transkripte erfassbar sind, stehen die im Z02-Projekt entwickelten Entzündungsarrays (engl. inflammation arrays, low density arrays) gegenüber. Zur Zeit der Verfassung dieser Dissertation waren noch keine Experimente mit hoch dichten Mikroarrays in CytoBASE aufgenommen. Dies ist aber leicht möglich und für die nahe Zukunft vorgesehen. Die folgenden Abschnitte beziehen sich daher auf das experimentelle Vorgehen zur Erzeugung von Genexpressionsdaten unter Verwendung der Entzündungs- arrays. Auf methodische Unterschiede beim Einsatz von hoch dichten Mikroarrays wird nur am Rande eingegangen. 2.2 Material und Methoden 21

2.2.1.1 Allgemeiner Aufbau der Entzündungsarrays Die in der Arbeitsgruppe Z02 des SFB566 entworfenen Entzündungsarrays für Mensch und Maus wurden von MWG-Biotech (http://www.mwg-biotech.com) produziert. Seit Frühjahr 2005 können sie bei Ocimum Biosolutions bezogen werden (http://www.ocimumbio.com). An genau festgelegten Positionen wurden im Rahmen des Produktionsprozesses spezifische 50-mer Oligonukleotide „punktförmig” aufgebracht. Diese Regionen, an denen später durch spezifische Nukleinsäure-Hybridisierung die Erkennung zwischen jeweils genau einem Typ von Ziel RNA (Target-RNA) und dem entsprechend komplementären Oligonukleotid (Sonde) stattfindet, werden auch als „Spots” bezeichnet. Jeder einzelne dieser Spots beinhaltet genau einen Typ von Oligonukleotid-Sonde und besitzt demnach das Potenzial, genau eine zelluläre Target-RNA zu binden und entsprechend der Detektion zugänglich zu machen.

Spot-Duplikate (engl. replica spots) Während bei den Entzündungsarrays jede Sonde pro Mikroarray zweimal aufgebracht wurde, enthalten die hoch dichten Mikroarrays von wenigen Ausnahmen abgesehen jeweils nur einen Spot pro Sonde. Alle Entzündungsarrays (HA286, Inflhum, MA313, Inflmus) sind nach dem gleichen Schema aufgebaut. Die Gensonden sind auf zwei mal vier Blöcke verteilt. Die Anordnung in den ersten vier Blöcken wiederholt sich auf dem Array ein zweites mal. Abb. 2.1 macht den Aufbau der Entzündungsarrays am Beispiel des Arraytyps HA286 deutlich.

Abb. 2.1: Entzündungsarray vom Typ HA286 Eingescannter hybridisierter Array in Falschfarbendarstellung. Die Farben sind auf den Intensitäts-- bereich von 0 bis 65535 aufgeteilt, wie in der Skala rechts abzulesen ist. Die Gensonden sind in Blöcken auf den Glasträger gedruckt. Der Array enthält alle Sonden doppelt. Die Anordnung der Spots im oberen Bereich (Spots) wiederholt sich im unteren Teil (Duplikate).

2.2.1.2 Entzündungsarrays Die vier eingesetzten Entzündungsarrays lassen sich in zwei aufeinander folgende Versionen oder Generationen unterteilen. Die in den verschiedenen Arraytypen enthaltenen Gene können den Darstellungen im Ergebnisteil (Abb. 3.29 bis Abb. 3.38) entnommen werden, die die Genexpressionen in Heatmap-Darstellungen abbilden. 2.2 Material und Methoden 22

Erste Generation von Mikroarrays: HA286 und MA313 Die erste Generation enthält die Mikroarrays HA286 (für die Messung humaner Transkripte) und MA313 (zur Erfassung muriner Transkripte). Die Zusammenstellung der Sonden auf diesen Arrays entstammt einer umfangreichen Literaturrecherche. Hierbei wurde eine Liste von Genen erstellt, die durch entzündliche Bedingungen stark reguliert werden. Ausgehend von dieser Liste wurden 116 stark regulierte, funktionell charakterisierte Gene ausgewählt. Anhand eines speziellen Rechen-Algorithmus wurden von MWG-Biotech nach Möglichkeit jeweils 3 unterschiedliche 50-mer Oligonukleotid-Sonden pro Gen berechnet. Mit diesen Sonden wurden HA286 und MA313 produziert. Da für einige der zu Grunde liegenden Gene keine echten Homologe in Maus und Mensch existieren und für einige der Gene nur zwei, eine oder keine Sonde berechnet werden konnte, weichen Gen- und Sonden-„Ausstattung” von HA286 und MA313 teilweise geringfügig voneinander ab.

Beide Arrays enthalten zusätzlich zu den Sonden für Entzündungsgene Sonden für jeweils 6 Haushaltsgene. Jede einzelne dieser Sonden ist auf die Mikroarrays in Form von vier unabhängigen Oligonukleotid-Produktionschargen aufgebracht (insgesamt 24 Spots, ohne Duplikate gezählt). Außerdem sind auf beiden Arrays 2 unterschiedliche Negativkontroll- Sonden mit Sequenzen aus dem Arabidopsis thaliana-Genom enthalten (auch hier wurden für jede Sonde jeweils 4 verschiedene Oligonukleotid-Produktionschargen eingesetzt).

Die spezifische Messgenauigkeit der Entzündungsarrays der ersten Generation wurde durch umfangreiche Analysen sehr detailliert ausgetestet. Hierfür wurden 321 Hybridisierungen unter Einsatz von Material aus verschiedenen Entzündungsmodellen durchgeführt. Inkonsistente Daten wurden durch Real-Time-PCR-Analysen und Hybridisierungen mit in vitro synthetisierten RNA-Gemischen nach untersucht.

Als Ergebnis dieses Prozesses wurden schlecht messende Sonden aussortiert. Außerdem konnte für jedes Gen eine repräsentative, optimal messende Sonde identifiziert und ausge- wählt werden. Für die Gesamtheit aller auf diese Weise ausgewählten Sonden werden in verschiedenen Kontexten auch die Begriffe „ausgewählte Sonden” oder „evaluierte Sonden” verwendet.

Zweite Generation von Mikroarrays: Inflhum und Inflmus Für die zweite Version der Entzündungsarrays, Inflhum (für humane Systeme) und Inflmus (für murine Systeme), wurde zur Erfassung der Entzündungsgene nur die zuvor identi- fizierte, jeweils optimale Sonde übernommen (bzw. die Gesamtheit der jeweils evaluierten Sonden).

Zusätzlich wurden Sonden für Entzündungsgene integriert, die in Screening-Experimenten auf hoch dichten Mikroarrays als stark reguliert und funktionell charakterisiert identifiziert worden waren. Aus den gleichen Experimenten wurden Sonden für zusätzliche 14 Haushaltsgene ausgewählt, um damit die Anzahl der Haushaltsgene auf der neuen Version der Entzündungsarrays von 6 auf 20 zu erhöhen. Inflhum und Inflmus enthalten jeweils zwei verschiedene Arabidopsis-Negativkontroll-Sonden, die nicht mit den entsprechenden Sonden auf der ersten Version identisch sind.

Aus der Tatsache, dass die beschriebenen Screening-Experimente für die Erweiterung der Entzündungsgen-Anzahl für humane und murine Systeme unabhängig durchgeführt wurden, resultiert, dass die Übereinstimmung der erfassten Gene auf Inflhum und Inflmus etwas niedriger als bei den entsprechenden Vorläufern ist. Insgesamt werden 75% der erfassten Entzündungsgene als echte Homologe jeweils in Maus und Mensch übereinstimmend detektiert. 2.2 Material und Methoden 23

Haushaltsgene (House keeping genes) Die Kontrollgensonden für Gene die durch entzündliche Vorgänge nicht beeinflusst sein sollen sind in Tab. 2.1 zusammengestellt.

Tab. 2.1.: Zusammenstellung der Haushaltsgene (Housekeeping genes) für die vier selbst entwickelten Entzündungsarraytypen. Das Gen Phospholipase A2 ist in manchen Versuchsbedingungen beeinflusst und deshalb kein Haushaltsgen im engeren Sinne.

Haushaltsgen vorhanden auf dem Entzündungsarray vom Typ Haushaltsgenname HA286 MA313 Inflhum Inflmus actb (BETA ACTIN) ja ja ja ja gapd (GAPDH) ja ja ja ja hprt1 ja ja ja ja ywhaz (PHOSPHOLIPASE A2) (ja) (ja) (ja) (ja) rpl15 (RIBOSOMAL PROTEIN L15) ja ja ubc (UBIQUITIN C) ja ja rps29 (RIBOSOMAL PROTEIN S29) ja ja ubb (UBIQUITIN B) ja ja cox8 (CYTOCHROME C OXIDASE SUBUNIT 8) ja ja gss (GLUTATHIONE SYNTHETASE) ja ja gusb (BETA GLUCURONIDASE) ja ja lars2 (LEUCYL-TRNA SYNTHETASE) ja ja mrpl27 (MITOCHONDRIAL RIBOSOMAL PROTEIN L27) ja ja ndufb8 (NADH DEHYDROGENASE 1 BETA SUBCOMPLEX 8) ja papss1 (3-PRIME-PHOSPHOADENOSINE 5-PRIME-PHOSPHOSULFATE SYNTHASE 1) ja ja pdha1 (PYRUVATE DEHYDROGENASE ALPHA 1) ja ja polr2a (RNA-POLII LARGEST SUBUNIT) ja ptdss1 (PHOSPHATIDYLSERINE SYNTHASE 1) ja ja rps17 (RIBOSOMAL PROTEIN S17) ja ja u2af1 (U2 SMALL NUCLEAR RNA AUXILLARY FACTOR 1) ja ja ube2l3 (UBIQUITIN-CONJUGATING ENZYME E2 LIKE 3) ja ja uqcrc1 (UBIQUINOL-CYTOCHROME C REDUCTASE CORE PROTEIN I) ja ja tbp (TATA BOX BINDING PROTEIN) ja polr2c (RNA POL-II POLYPEPTIDE C) ja Gesamtanzahl von Haushaltsgenen 5 (6) 5 (6) 19 (20) 19 (20)

2.2.2 Die experimentelle Gruppe - parallele Prozessierung der Proben eines Experimentes Wie in der Einleitung erwähnt, ist das Standardverfahren für Experimente mit den selbst entwickelten Entzündungsarrays die Hybridisierung der Arrays im Einkanalverfahren. Dabei wird das farbmarkierte cRNA-Gemisch von einer einzigen Probe auf einen DNA-Mikroarray hybridisiert. Die entsprechende Vergleichsprobe wird auf einen weiteren Array hybridisiert (vgl. Abb. 1.2, S.9).

Um Ergebnisse aus mehreren Hybridisierungen mit möglichst geringen prozessbedingten Schwankungen zu generieren und somit eine gute Vergleichbarkeit zwischen den Messungen zu erzielen, werden die Probenaufarbeitungen und Arrayhybridisierungen eines Experimentes im Labor parallel prozessiert. Die Ergebnisse eines parallel prozessierten Experimentes werden bei der Auswertung als „experimentelle Gruppe” zusammengefasst. Die experimentelle Gruppe entspricht (in der Regel) einem gesamten Mikroarrayexperiment mit mindestens zwei zu vergleichenden Situationen.

2.2.2.1 Die experimentelle Gruppe und Arrayvergleiche Jede einzelne experimentelle Gruppe erhält eine eindeutige Identifikationsnummer (auch G- Nr. bezeichnet, beispielsweise G022). Innerhalb einer experimentellen Gruppe kann meist eine der Vergleichssituationen (in der Regel die unbehandelte Kontrolle) eindeutig als 2.2 Material und Methoden 24

Referenz definiert werden. Im Rahmen der Labordokumentation bekommt diese Bedingung (bzw. der resultierende Datensatz) als Symbol ein B (für basal) zugeordnet. Alle hiermit zu vergleichenden Bedingungen (beispielsweise unterschiedlich behandelte Zellen) werden mit dem Buchstaben S (für stimuliert) ausgezeichnet und innerhalb der experimentellen Gruppe durchnummeriert (S1, S2, S3, usw.).

Der für die Darstellung der relativen mRNA-Expression relevante Quotient aus dem Intensitätswert einer S-Bedingung zum Wert der B-Bedingung ist daher innerhalb einer gegebenen experimentellen Gruppe mit einem Terminus wie beispielsweise „G022_S1/B” eindeutig definiert. Ein solcher Vergleich von zwei Bedingungen zueinander wird im Folgenden auch als „Arrayvergleich” bezeichnet. Jede experimentelle Gruppe kann mehrere sinnvolle Arrayvergleiche beinhalten, mindestens aber einen Arrayvergleich (im Fall von nur zwei Bedingungen pro experimenteller Gruppe).

2.2.2.2 Rohdatensätze in CytoBASE sind Arrayvergleiche Eine Einschränkung der Softwarelösung BASE ist, dass ihre immanente Struktur auf Daten aus Zweikanalhybridisierungen ausgerichtet ist.

Innerhalb aller wesentlichen Analyse-Module werden die Daten von jeweils zwei Bedingungen direkt gegenübergestellt. Da bei Zweikanalhybridisierungen zwei verschiedene Farbstoffe eingesetzt werden, die unterschiedlich gefiltert und detektiert werden, wird in diesem Zusammenhang auch von „Kanal 1” und „Kanal 2” gesprochen. Entsprechend speichert BASE die Daten aus zwei Kanälen zusammen in einer Datenbanktabelle. Dies ist auch sinnvoll wenn man zwei verschiedenartig farbmarkierte Proben auf einem Mikroarray kohybridisiert. Bei dem hier verwendeten Standardverfahren der Einkanalhybridisierung befinden sich die beiden „Kanäle” aber auf zwei verschiedenen Arrays. Aus diesem Grund wurden in CytoBASE für alle experimentellen Gruppen die sinnvollen Arrayvergleiche als künstliche Zweikanaldatensätze erzeugt (vgl. Kapitel 3.3.1).

Ein Rohdatensatz ist also in CytoBASE immer ein künstlich erstellter Zweikanaldatensatz, der einen Arrayvergleich und damit einen sinnvollen Vergleich aus zwei Einkanal- hybridisierungen der selben experimentellen Gruppe enthält. In dieser Arbeit wird der CytoBASE-Rohdatensatz auch Arrayvergleich genannt. Eine Übersicht über die Begrifflich- keiten findet sich am Anfang der Arbeit in Tab. 0.1.

Der Begriff Kanal (engl. channel) Als Kanal wird auf der Datenebene die Gesamtheit aller Daten einer dieser beiden Bedingungen aufgefasst. In diesem Zusammenhang ist per Konvention vorgesehen, dass dem Kanal 1 immer die Daten der behandelten Situation und Kanal 2 die Daten der Referenzprobe zugewiesen werden.

Im Zuge der Anpassung der Datenbank an die gegebene Laborroutine wurde der Terminus Kanal beibehalten. An dieser Stelle sei aber darauf hingewiesen, dass dieser Terminus insofern missverständlich aufgefasst werden kann, als alle von den Entzündungsarrays abgeleiteten Datensätze, die in CytoBASE integriert werden, auf Einkanalhybridisierungen mit nur einem Farbstoff (und streng genommen nur einem Kanal) basieren. Aus den weiter oben beschriebenen Gründen ist es aber trotz allem erforderlich, vor der Datenintegration alle Einzelelemente einer experimentellen Gruppe zu sinnvollen Zweiervergleichen (Arrayvergleichen) zusammenzufassen und dann paarweise den beiden Kanälen (1 und 2) zuzuordnen. 2.2 Material und Methoden 25

2.2.2.3 Experimentelle Gruppen in CytoBASE Die experimentelle Gruppe hat auf der Datenbankseite von CytoBASE kein Pendant in Form einer Relation (Tabelle). Um eine entsprechende Struktur zu schaffen, wurden die Daten aus den experimentellen Gruppen in eigens dafür vorgefertigten „Analysegruppen” zusammengestellt (vgl. Abb. 3.17 S.62).

Damit finden CytoBASE-Nutzer die Daten, die untereinander sehr gut vergleichbar sind, in der zentralen Auswerteeinheit von BASE zusammengefasst. Ein Betrachter, der keinen Einblick in die in CytoBASE enthaltenen Experimente hat, wird es als vorteilhaft empfinden, immer sinnvolle Vergleiche zwischen den Versuchsvarianten vorzufinden.

2.2.3 Probenprozessierung

2.2.3.1 cDNA-Synthese Im ersten Schritt der Probenprozessierung wird Gesamt-RNA mit dem Enzym Reverse Transkriptase in DNA umgeschrieben. Der für das initiale Priming eingesetzte Oligo-dT- Primer gewährleistet, dass nur die reife mRNA (Messenger RNA) bei diesem Prozess umgeschrieben wird, weil nur diese RNA-Population einen Poly-A-Abschnitt am 3´-Ende enthält. In mehreren aufeinander folgenden Enzymreaktionen und Aufreinigungsschritten wird doppelsträngige cDNA (complementary DNA) erzeugt. Die Gesamtheit der so generierten cDNA-Population repräsentiert die Gesamtheit der funktionellen mRNA-Moleküle im untersuchten Zustand.

2.2.3.2 cRNA-Synthese und -Markierung Da der eingesetzte Oligo-dT-Primer den Core-Promotor für die T7-Polymerase enthält, wird dieser regulatorische Abschnitt in den 3´-Bereich jedes umgeschriebenen cDNA-Moleküls integriert. In der anschließenden Reaktion werden mit der T7-Polymerase RNA-Einzelstränge synthetisiert, die so genannten copy-RNAs (cRNAs). Diese RNA-Moleküle weisen antisense- Orientierung auf, können also später nur mit Oligonukleotiden hybridisieren, die sense- orientiert sind.

Für das finale „Auslesen” der Mikroarrays müssen die cRNA-Moleküle fluoreszierend markiert werden. Im Zuge der cRNA-Synthesereaktion werden hierfür spezifische UTP-Analoga eingesetzt. Dies können UTP-Moleküle sein, an die bereits vom Hersteller die entsprechenden Fluorophore Cyanine 3 (Cy3) bzw. Cyanine 5 (Cy5) gekoppelt wurden (direkter Einbau). Alternativ besteht die Möglichkeit, Amino-Allyl-UTP in der Synthese- reaktion einzusetzen. Nach Inkorporation in die cRNA werden die Fluorophore in diesem Fall in einem nachfolgenden Schritt chemisch an die Amino-Allyl-UTP Moleküle gekoppelt (indirekter Einbau).

Die durchschnittliche Länge einer cRNA-Population liegt je nach Integrität der zu Grunde liegenden Gesamt-RNA und Markierungsmethodik innerhalb einer Größenordnung von 600 bis 1500 Nukleotiden. Für eine Hybridisierung müssen die cRNA-Moleküle fragmentiert werden, damit optimale Hybridisierungsbedingungen zwischen cRNA und den auf dem Mikroarray enthaltenen 50-mer-Oligonukleotiden gewährleistet sind. Die mittlere Größe der cRNAs nach Fragmentierung beträgt 100-200 Nukleotide.

2.2.3.3 Qualitätskontrolle der RNA und cDNA Die Integrität der gesamt extrahierten RNA und die mittlere Fragmentlänge der farbmar- kierten cRNA werden routinemäßig anhand der Spektren von kapillarelektrophoretischen Läufen im Agilent 2100 Bioanalyzer kontrolliert. 2.2 Material und Methoden 26

2.2.3.4 Hybridisierung Die Hybridisierung der jeweiligen cRNA-Population auf die Mikroarrays erfolgt über Nacht bei 42°C. Hierbei wird immer jeweils genau eine Cy3-markierte cRNA-Population auf einen Mikroarray hybridisiert (Einkanalhybridisierung). Die erhaltenen Hybridisierungssignale auf dem entsprechenden Mikroarray repräsentieren also die mRNA-Spiegel im spezifisch untersuchten Zustand.

Eine Abweichung von dieser Hybridisierungs-Strategie existiert für die hochdichten Mikroarrays. Bei Hybridisierungen auf diesen Arrays werden zwei unterschiedlich markierte cRNA-Populationen (Cy3- versus Cy5-Markierung) vereinigt und zusammen auf einen Mikroarray kohybridisiert (Zweikanal-Hybridisierung). Hier werden also experimentell immer bereits zwei Zustände vergleichend untersucht. Hochdichte Mikroarrays sind derzeit noch nicht in CytoBASE integriert.

2.2.4 Rohdatenerzeugung

2.2.4.1 Abtasten der Fluoreszenzintensitäten in Scan-Stufen Nach mehreren Waschschritten, bei denen unspezifisch bindende cRNA-Fragmente vom Mikroarray entfernt werden, werden die Mikroarrays im Affymetrix 428 Array Scanner „ausgelesen”. Bei Cy3-markierten cRNA-Gemischen werden die Mikroarrays hierfür mit einem grünen Laser (Licht der Wellenlänge 532 nm) bestrahlt. Die Cy3-Fluorophore der hybridisierten cRNAs werden dabei angeregt und emittieren anschließend längerwelliges Licht (für Cy3 liegt das Emmisionsmaximum bei 570 nm). Dieses Licht wird gefiltert, in einer Photomultiplier-Einheit in einen proportionalen elektrischen Spannungswert überführt und anschließend in Form von 16-Bit TIFF-Dateien digitalisiert. Innerhalb des digitalen Auflösungsvermögens werden jedem Pixel des eingescannten Bereiches somit Zahlenwerte von 0 bis 65535 zugeordnet.

Der Dynamik-Bereich in dem mRNA-Spiegel in Zellen vorkommen umfasst mehrere Größenordnungen. Da das digitale Auflösungsvermögen auf einen Bereich zwischen 0 und 65535 begrenzt ist, treten beim Scannen von Mikroarrays an beiden Enden dieses Detektions-Spektrums Limitationen auf. Einige Signale sind zu schwach um vom „Eigenrauschen” des Systems abgrenzbar zu sein. Andere Signale des gleichen Mikroarrays können so stark sein, dass es zu Sättigungseffekten an der oberen Detektionsgrenze kommt. Dieser Problematik kann durch mehrfaches Scannen bei unterschiedlichen Verstärkungsstufen in der Photomultiplier-Einheit begegnet werden. Diese Verstärkungs- stufen sind beim Affymetrix 428 Array Scanner innerhalb eines Bereiches von 1 bis 70 frei wählbar. Durch Erhöhung der Verstärkerstufe (nachfolgend als Scan-Stufe bezeichnet) werden die eingehenden Lichtsignale linear verstärkt. Damit kann der erfassbare Dynamik- bereich erhöht werden. Standardmäßig wird jeder Mikroarray absteigend bei Scan-Stufen von 65, 55, 45, 35, 25 und 15 eingescannt.

2.2.4.2 Datenextraktion und -Quantifizierung mit Imagene Die Quantifizierung der jeweiligen Signalintensitäten im Bereich einzelner Sonden erfolgt mit dem Programm Imagene (Version 5.0, Biodiscovery). In dieses Programm werden die TIFF-Dateien importiert. Je nach Design des Arrays (Anzahl und Anordnung der Sonden auf dem Mikroarray) wird ein spezifisches Gitter (engl. grid) erzeugt. Dieses Gitter definiert, welche Positionen innerhalb des TIFF-Bildes den einzelnen Sonden zuzuordnen sind. Darüber hinaus wird über das Gitter für jeden einzelnen Spot die Größe und die genaue Position der Bereiche festgelegt, welche einerseits die eigentlichen Signal-Messwerte und andererseits lokalen Hintergrund umfassen. Nach erfolgter Datenextraktion, wird jeder 2.2 Material und Methoden 27

Signalmesswert eines Spots um den lokalen Hintergrundwert korrigiert, indem der Hintergrundwert vom Signalwert subtrahiert wird. Das Imagene-Programm ermöglicht es, vor der Datenextraktion einzustellen, ob für die Quantifizierung von Signal- und Hintergrund-Bereichen jeweils alle Pixel berücksichtigt werden oder ob die jeweils stärksten und schwächsten Pixel von der Datenextraktion ausgeschlossen werden. Innerhalb des Z02- Projektes wird standardmäßig unter folgenden Imagene-Einstellungen (settings) quantifiziert: Signal Low 0.4; Signal High 0.96; Background Low 0.05, Background High 0.6. Diese Einstellungen bedeuten, dass bei der Quantifizierung des Signalbereiches 4 % aller Pixel mit den höchsten Intensitäten und 40 % aller Pixel mit den schwächsten Intensitäts- werten nicht mit berücksichtigt werden. Für den lokalen Hintergrundbereich gilt entsprechend, dass 5 % aller Pixel mit schwächsten Intensitäten, sowie 60 % aller Pixel mit stärksten Intesitäten nicht mit in die Quantifizierung eingehen.

Gegenüber einer Quantifizierung, bei der jeweils alle Pixel berücksichtigt würden, haben die oben beschriebenen Einstellungen im Wesentlichen zwei eindeutige Vorteile:

1) Bei der Quantifizierung von Spots, deren Signale sehr inhomogen über die Pixel verteilt sind, kann davon ausgegangen werden, dass es sich entweder um eine qualitative Beeinträchtigung als Folge des Produktionsprozesses oder als Folge sogenannter „Hybridisierungsartefakte” handelt. Im zuletzt genannten Fall können zum Beispiel fluoreszierende Präzipitate, Härchen oder kleine Staubpartikel im Bereich der Sonden an der Array-Oberfläche haften und damit den eigentlichen Messwert verfälschen. Da diese Artefakte in der Regel dazu führen, dass die jeweils betroffenen Pixel entweder extrem erhöhte oder extrem erniedrigte Fluoreszenzwerte aufweisen, können genau diese Pixel in der Regel recht effizient von der Quanti- fizierung ausgeschlossen werden, wenn die jeweils stärksten und schwächsten Pixel jedes Spots wie oben beschrieben von der Datenquantifizierung ausgeschlossen bleiben.

2) Die Auswahl der von der Quantifizierung auszuschließenden Pixel erfolgt für den Signal- und den lokalen Hintergrund-Bereich nicht identisch. Vereinfacht ausgedrückt werden für den Hintergrundbereich sehr viel weniger der intensiven Pixel berück- sichtigt. Bei intensiven Spots hat dies keine praktischen Konsequenzen, da die Intensität des lokalen Hintergrundes im Vergleich zum Signalbereich zu vernach- lässigen ist. Bei Signalmesswerten, die nah am Hintergrundbereich liegen folgt aus der etwas schwächeren „Gewichtung” des Hintergrundes, dass sich die Hintergrund- korrigierten Signalwerte assymptotisch an einen unteren Grenzwert annähern und in der Regel keine negativen Werte annehmen. So ergibt sich bei der Scan-Stufe 35 für die Quantifizierung eines beliebigen Bereiches, der keinen Spot enthält (auch als Blank oder Empty Spot bezeichnet), als Folge der Standard Imagene-Einstellungen ein mittlerer Intensitätswert von 10, der bei gleicher Berücksichtigung von Signal- und Hintergrundbereich theoretisch bei 0 liegen würde.

Neben den beiden beschriebenen wichtigsten Messwerten (Signalintensität und lokaler Hintergrund), werden bei der Quantifizierung im Imagene-Programm eine Vielzahl weiterer Parameter mit erfasst und später ausgegeben. Es handelt sich hierbei prinzipiell um zwei unterschiedliche Arten von Daten: Die erste Kategorie beinhaltet mehrere alternative Möglichkeiten Mittelwerte der Signalintensitäten aller Pixel eines relevanten Bereiches zu bestimmen (zum Beispiel „Signal Mean”, „Signal Median” und „Signal Mode”). Die zweite Kategorie von Daten umfasst Messwerte, mit deren Hilfe die Zuverlässigkeit der Quantifizierungsergebnisse für jeden einzelnen Spot geprüft werden kann. In diese Kategorie fällt beispielsweise der Parameter, der die Standardabweichung der Intensitätswerte aller erfassten Pixel eines Spots angibt („Signal Standard Deviation”). Indem dieser Wert ein direktes Maß für die Gleichmäßigkeit der Messwerte innerhalb eines Spots darstellt, können hiermit (bzw. unter Einbeziehung weiterer Parameter) effizient 2.2 Material und Methoden 28 weniger zuverlässige Messwerte identifiziert und gegebenenfalls markiert und/oder von der weiterführenden Datenanalyse ausgeschlossen werden.

Für jede in das Imagene-Programm importierte TIFF-Datei wird nach erfolgter Quanti- fizierung in genau einer Textdatei abgespeichert, in der die einzeln erfassten Messwerte den einzelnen Sonden zugeordnet sind. Im Kopf der Datei finden sich die Einstellungen unter denen das Programm gelaufen ist. Darunter folgt der Datenteil, der in Spalten mit einer Überschriftszeile angeordnet ist. Ein Beispiel für die Spalten ist im oberen Teil der Tab. 7.1 im Anhang abgebildet.

2.2.5 Aufbereitung der Rohdaten

2.2.5.1 Integration von Daten mit MAVI Pro Wie oben beschrieben, wird durch das Scannen jeden Arrays bei verschiedenen Scan-Stufen der dynamische Bereich für die Erfassung von Messwerten erhöht. Mit Hilfe des Programms MAVI Pro (Version 2.5.1, MWG Biotech) können die Messwerte der verschiedenen Scan- Stufen wieder zusammengefasst und auf je einen resultierenden Intensitätsswert pro Sonde bezogen ausgegeben werden. Innerhalb des Programmablaufes werden für jeden Messwert die Daten zweier „benachbarter” Scan-Stufen verglichen. Da die Signalverstärkung linear ist und für jeden Gerätetyp und gemessenen Farbstoff eine konstante Größe darstellt, kann im MAVI-Programm für jeden einzelnen Messwert berechnet werden, ob sich der Signal- unterschied direkt aus dieser Konstante ableiten lässt. Für die Detektion von Cy3 Signalen im Affymetrix 428 Array Scanner beträgt die Verstärkungskonstante im Mittel 0,117 pro eingestellte Photomultiplier-Einheit (Scan-Stufen-Einheit). Ist die Diskrepanz zu groß, so liegt entweder bei einer der verglichenen Scanstufen Sättigung vor oder es handelt sich um Signalverlust im „Hintergrundrauschen”. Die Daten der jeweils betroffenen Scan-Stufe werden bei der weiteren Berechnung nicht mit berücksichtigt. Für die Daten aller verbleibenden Scan-Stufen wird mittels linearer Regression ein resultierender Messwert berechnet, welcher auf eine bestimmte Scan-Stufe (in der Regel auf 35) „bezogen” und zusammen mit einer Reihe zusätzlicher Parameter in einer Textdatei ausgegeben wird. Die entsprechende Scan-Stufe wird auch als „bezogene Scan-Stufe” bezeichnet. Der ausgegebene Intensitäts-Messwert wird als Ic3-Wert (Intensity Cyanine 3 oder Cy3) ausgewiesen.

Der beschriebenen Daten-Transformation mit dem MAVI-Programm liegen als Eingangs- werte die Mediane der Signalintensitäten der Pixel (Signal Median) zu Grunde.

2.2.5.2 Normalisierung der Daten mit MAVI Pro Im Rahmen der Analyse mit dem Programm MAVI werden die Daten auch normalisiert. Hierfür wird eine Subgruppe der auf dem jeweiligen Mikroarray gemessenen Gene definiert, die als Referenzgruppe zur Normalisierung herangezogen wird. Die Gene dieser Gruppe sollen im Mittel nicht oder nur unwesentlich reguliert sein.

Alle jeweiligen Intensitätswerte der Gruppenmitglieder werden mit dem natürlichen Loga- rithmus transformiert und arithmetisch gemittelt. Nun wird für jede einzelne Sonde der log- transformierte Wert durch den Mittelwert der Referenzgruppe dividiert. Die erhaltenen relativen Intensitätswerte werden mit 100 multipliziert und als Ic3pc (Intensity Cy3 per cent) bezeichnet ausgegeben.

Die Referenzgruppe für die vier selbst entwickelten Entzündungsarraytypen ist die gesamte Gruppe der Haushaltsgene (vgl. Tab. 2.1). Das heißt für die Arraytypen erster Generation (HA286 und MA313) wurden sechs Gene, für die Arraytypen zweiter Generation (Inflhum 2.2 Material und Methoden 29 und Inflmus) wurden 20 Gene zur Normalisierung mit MAVI verwendet.

2.2.5.3 Qualitäts-Filterung und Zusammenfassung der Daten

Standardauswertung als manuelles Verfahren Für die routinemäßige Verarbeitung der Daten wurde in der Mikroarray-Arbeitsgruppe ein festes Schema der Auswertung mit Hilfe von Microsoft Excel-Vorlagen etabliert, das in einer Ergebnisdatei im Excel-Format mündet. Diese Ergebnisdatei wird „Zwischendatei” genannt. Sie enthält nur die Ergebnisse aus einer Einkanalhybridisierung und stellt damit nur die Daten einer Versuchsvariante des Gesamtexperimentes dar.

Die Gesamtheit der vom MAVI-Programm ausgegebenen Daten setzt sich aus Daten zusammen, die entweder aus den ins MAVI-Programm eingeladenen Imagene-Texdateien übernommen worden sind oder direkt der Datenprozessierung im MAVI-Programm entstammen. Diese Daten werden für die Standardauswertung manuell in ein vorgefertigtes Excel-Formular überführt. Dieses Formular erfüllt zwei wesentliche Aufgaben:

1) Qualitätskontrolle: Minderwertige und deshalb nicht aussagekräftige Messwerte für Spots werden durch die Abfrage informativer Qualitätsparameter herausgefiltert. Exakt die selben Qualitätsparameter nutzen in CytoBASE die PlugIns zur Qualitätskontrolle. In Kapitel 3.4.4.4 findet sich eine Beschreibung zu der Anwendung der Qualitätsparameter.

2) Vereinigung der Messwerte der Spot-Duplikate und übersichtliche Darstellung: Nach der Eliminierung der qualitativ minderwertigen Spots werden die jeweils doppelt vorhandenen Messwerte der Sonden (Spot-Duplikate, engl. replica spots) über Mittelwertsbildung vereinigt und bezogen auf die wichtigsten Parameter übersichtlich angeordnet. Gemittelt werden die Intensitätswerte Ic3- und Ic3pc-Wert, die das Programm MAVI ausgibt (s. o.). Zusätzlich wird in der Excel-Datei der Variationskoeffizient aus den entsprechenden Intensitätswerten als Maß für die Abweichungen eines jeden Spot-Duplikat-Paares.

In den Ergebnisdateien der Standardauswertung stehen also pro Gensonde aus dem jeweiligen Spot-Duplikat-Paar gemittelte Werte. Dagegen enthalten die Rohdaten in CytoBASE alle Informationen von beiden Spot-Duplikaten (in zwei Kanälen, vgl. hierzu Kapitel 3.3.1.2).

2.2.6 Rohdaten in CytoBASE Die Datenintegration in CytoBASE erfolgt mit einem im Rahmen dieser Dissertation entwickelten Programm. Hierbei werden die Imagene-Daten der bezogenen Scan-Stufe mit den MAVI-Daten kombiniert (vgl. Kapitel 2.2.5.1). Dieser Prozess ist im Ergebnisteil unter dem Punkt Datenimport (Kapitel 3.3.1) beschrieben, da es sich um eine neue Entwicklung für CytoBASE handelt. Ein Beispiel für die Bezeichnungen der hoch zu ladenden Daten findet sich im Anhang in Tab. 7.1.

In BASE und CytoBASE können die Daten aus wiederholten Spots der gleichen Gensonde auf Wunsch automatisch während der Ausgabe gemittelt werden. Es ist also nicht wie in der Laborauswertung nötig, gemittelte Werte speziell zu erzeugen.

Um die Unterschiede zwischen den Daten in CytoBASE und den Ergebnisdateien der Standardauswertung aufzulösen, wurde ein Programm entwickelt, das als PlugIn in CytoBASE die Qualitätskriterien der Standardauswertung auf die Daten in CytoBASE 2.2 Material und Methoden 30 anwenden kann. Damit bekommt der Nutzer die Möglichkeit, in CytoBASE mit gleichartig qualitätsgefilterten Daten zu arbeiten. Das PlugIn ist ein Java-Programm, das von CytoBASE Daten bekommt und berechnete Werte an CytoBASE zurück liefert. Die Qualitätsfilterung mit diesem Programm und das Programm selbst ist in Kapitel 3.4.4 ausführlich dargestellt.

2.2.7 Integration aller Messwerte einer experimentellen Gruppe In den voranstehenden Abschnitten ist die Prozessierung von einzelnen Proben bis zur Erzeugung der Expressionsdaten dargestellt. Ein Experiment umfasst aber immer mehrere Proben, zumindest eine Versuchsvariante und eine Kontrollvariante. Wie unter Punkt 2.2.2 ausführlich beschrieben, werden parallel prozessierte Proben zu einer experimentellen Gruppe zusammengefasst. Hier wird nun beschrieben, wie die Daten einer experimentellen Gruppe in der Standardlaborauswertung zusammengefasst werden:

Im letzten Schritt der Daten-Prozessierung werden die jeweils wichtigsten Messwerte aus den „Zwischendateien” der standardisierten Laborauswertung in ein weiteres Excel- Formular, die sogenannte „Ergebnis-Übersichtsdatei”, überführt. Diese Messwerte sind die Mittelwerte aus den beiden Spots der selben Sonde für Intensitätswerte aus MAVI (I-Wert, Ic3) und für normalisierte Intensitätswerte aus MAVI (Ipc-Wert, Ic3pc) und der Variations- koeffizient aus den beiden Spot-Duplikaten.

In der „Ergebnis-Übersichtsdatei” werden die Daten übersichtlich angeordnet, und die für jeden Mikroarray erhaltenen (bzw. jeder experimentellen Bedingung direkt entsprechenden) Intensitätswerte werden über die Bildung von Quotienten (im Folgenden als Ratios bezeichnet) in Beziehung zueinander gesetzt. Zusätzlich enthält das zu Grunde liegende Formular Informationen zu den gemessenen RNAs bzw. Genen sowie vorformatierte Bar Graph Darstellungen der Intensitätswerte. Die Ergebnis-Übersichtsdatei wird schließlich auch in CytoBASE abgelegt. Dies ist im Ergebnisteil unter Punkt 3.4.2.3 behandelt, da die Dateiablage eine Neuentwicklung für CytoBASE darstellt.

2.3 Server

2.3.1 Hardware und Software Die Softwareumgebung CytoBASE wurde auf einem Rechner installiert, dessen Konfiguration in Tab. 2.2 und im folgenden Text dargestellt ist.

Tab. 2.2.: Hardwarekonfiguration des Servers

Mainboard Asus ATX P4P800 Deluxe Prozessor Pentium IV 2,66GHz FSB 800 RAM 1 GB Festplatten 2 x 160 GB in Raid 0 Hardware-Raid Escalade 3W-7000-2

Als Betriebssystem wurde SuSE Linux 8.2 (i586) mit der Kernelversion 2.4.20-64GB-SMP und Compilerversion gcc 3.3 20030226 (prerelease SuSE Linux) verwendet. Apache 1.3.27 mit der Programmiersprache PHP 4.3.3 diente als Webserver. Als Basis für CytoBASE wurde BASE in Version 1.2.15 installiert und durch eigene Entwicklungen erweitert. Die Daten von 2.3 Material und Methoden 31

CytoBASE wurden in Datenbanken des Datenbankmanagementsystems PostgreSQL 7.3.9 archiviert. Die Quelltextdateien der Java- und PHP-Projekte wurden mit dem Versionskon- trollsystem CVS in Version 1.11.5 auf diesem Rechner verwaltet. Java wurde als Version Java 2 SDK 1.4.2 Standard Edition eingesetzt.

2.3.2 Datenbankinstanzen Zum Testen von Neuentwicklungen wurde das gesamte Datenbanksystem mit PHP- Umgebung in drei Instanzen aufgesetzt. Die Produktionsinstanz enthält die aktuellen Daten. Die Testinstanz enthält die Daten eines vorherigen Backupzeitpunktes. Die Entwicklungs- instanz enthält keine repräsentativen Daten.

Die Nutzer haben lediglich Zugang zur Produktionsinstanz.

2.4 Softwareentwicklung

2.4.1 Programmiersprachen und Entwicklungsumgebung Skripte in SQL oder für die Linux-Shell (sh oder bash) wurden unter Windows 2000 mit Crimson Editor 3.70 und auf Linux unter kde mit kwrite entwickelt. Zur schnellen Änderung von Textdateien unter Linux kam vim aus der SuSE-Distribution zum Einsatz.

Die SQL-Skripte zur Datendefinition, Datenmanipulation und für Abfragen der PostgreSQL- Datenbanken wurden in pgAdmin III Version 1.4.1 oder unter Linux mit psql ausgeführt.

Alle weiteren Programmierungen wurden mit der Entwicklungsumgebung Eclipse 3.1.1 durchgeführt. Das Hilfsprogramm für den Datenimport und das CytoBASE-PlugIns zur Qualtitätskontrolle der Arraydaten wurden mit Java Version j2sdk1.4.2_04 erstellt. Für das Management von PHP-Projekten wurde das Eclipse-Plugin PHPeclipse Vers. 1.1.8 eingesetzt. Die Anwendungsschicht von CytoBASE wurde mit Eclipse unter PHP 4.3.3 mit „command line interface” (cli) programmiert.

Mit der Anbindung von Eclipse (http://www.eclipse.org) an das Versionsverwaltungssystem cvs auf dem Linux-Webserver wurde eine Sicherung der Entwicklungshistorie gewährleistet.

2.4.2 Dokumentation Die Klassendiagramme, die den Aufbau der Softwaretools beschreiben, und die Sequenzdia- gramme wurden mit der freien Open-Source-Software ArgoUML (Version 0.20, http://argouml.tigris.org) erstellt und entsprechen der Unified Modelling Language UML (Version 1.4). 3 Ergebnisse 32

3 Ergebnisse

3.1 Erweiterungen der Datenbank Die mit BASE ausgelieferte Datenbank entsprach in einigen Punkten nicht den Anforderungen unserer Arbeitsgruppe und musste deshalb erweitert werden. Da die Datenbanktabellen die Grundlage für ein funktionierendes System sind, werden in diesem Abschnitt die neu erzeugten, bzw. geänderten Datenbanktabellen kurz beschrieben und die SQL-Skripte zur Erzeugung der Tabellen wiedergegeben. Die Verwendung der Tabellen wird bei der Beschreibung der Erweiterungen der Anwendungsschicht von CytoBASE erläutert (siehe Kapitel 3.4).

Die Struktur der Datenbanktabellen wurde nur an sehr wenigen Stellen geändert, um einen Export oder Update auf eine neuere Version von BASE ohne zu großen Aufwand durchführen zu können.

Alle Tabellen des BASE-Systems sind einem speziellen Nutzer auf dem Serverrechner zugeordnet, der die Rechte über die Datenbankobjekte von BASE verfügt, und über den die PHP-Schicht mit der Datenbank kommuniziert. Diese Zuordnung wurde auch für die Tabellen in CytoBASE verwendet. In den folgenden SQL-Skripten zur Tabellendefinition ist dieser Nutzer als CytoBASE_NUTZER gekennzeichnet.

3.1.1 Erweiterungen von Tabellen aus BASE

3.1.1.1 Rohdaten und Gensonden

Tabellen Rawbioassaydata und Reporter In BASE ist vorgesehen, die Tabellen der Datenbank für die Rohdaten und die Gensonden (RawBioAssayData und Reporter) und die zugehörigen Einstellungen in den PHP-Klassen (RawBioAssayData und ReporterColumn) den lokalen Anforderungen anzupassen.

Die originale Datenbanktabelle RawBioassayData basiert mit ihren Datenfeldern auf dem Datenformat GenePix-Result (GPR), das von der Mikroarray-Bildanalysesoftware GenePix Pro (Molecular Devices) erzeugt wird und umfasst nicht alle Rohdaten, die mit den Programmen Imagene (Version 5.0, Biodiscovery) und MAVI (Version Pro 2.5.1, MWG Biotech) erzeugt werden.

Um CytoBASE mit eigenen Rohdatensätzen füllen zu können, mussten also die Voraus- setzungen auf der Datenbankseite durch erzeugen von angepassten Tabellenstrukturen geschaffen werden. Die Tabellen wurden mit den Änderungen in der Struktur neu erzeugt, bevor Daten eingetragen wurden. Für den Zugriff auf die Datenbank wurden die PHP- Dateien (reporter_columns.inc.php, raw_columns.inc.php), die die beiden Tabellen repräsentieren, angepasst.

Als Beispiel für die Anpassungen zeigt Tab. 7.2 im Anhang die Datenbankfelder in der Tabelle RawBioAssayData, die die Rohdaten der Mikroarrayvergleiche enthält, in Gegenüber- stellung von CytoBASE und BASE. Insgesamt wurden 11 Felder nicht aus der Originaltabelle übernommen und 94 Felder neu erzeugt, um die Rohdaten unserer Arbeitsgruppe abzubilden.

Wie in Kapitel 2.2.2 dargelegt, ist ein Rohdatensatz in CytoBASE immer ein sinnvoller Vergleich aus zwei Einkanalversuchen der selben experimentellen Gruppe und wird in dieser Arbeit auch Arrayvergleich genannt. 3.1 Ergebnisse 33

Die Tabelle Reporter wurde lediglich um eine Spalte erweitert: Das Feld functionalGroup mit dem Datentyp „character varying(255)” nimmt unsere Einordnung von Genen in funktionelle Gruppen auf.

Die Skripte zur Erzeugung der Tabellen RawBioAssayData und Reporter sind im Anhang unter Punkt 7.3 zu finden.

3.1.1.2 Dokumentation experimenteller Gruppen

Tabelle Experiment Eine Anforderung an CytoBASE war, eine Datei, die die Versuche und die Auswertung einer experimentellen Gruppe (vgl. Kapitel ) dokumentiert, sicher zu speichern. Damit die Datei- verwaltung nach dem selben Schema funktioniert, wie in BASE vorgegeben, wurde die Logik zur Dateiverwaltung der Ergebnis-Übersichtsdateien in die PHP-Schicht eingefügt (siehe Kapitel 3.4.2). CytoBASE nutzt ein spezielles Verzeichnis (experimentdocfiles) im Dateibereich des Servers, in dem die Dateien abgelegt werden. Ist das Verzeichnis nicht vorhanden, wird es automatisch erzeugt. Damit die Namensverwaltung der Dateien funktioniert, wurde der Tabelle Experiment eine Spalte für den Dateinamen hinzugefügt. Somit lässt sich zu jeder „Analyse Gruppe” in CytoBASE eine Ergebnis-Übersichtsdatei hoch laden und dauerhaft sichern. Mit dem folgenden SQL-Skript wurde die Tabelle Experiment aus BASE um die Spalte docFileName erweitert: ALTER TABLE experiment ADD COLUMN "docFileName" varchar(255); ALTER TABLE experiment ALTER COLUMN "docFileName" SET STORAGE EXTENDED; INSERT INTO experiment ("docFileName") VALUES (''); UPDATE experiment SET "docFileName" = '' WHERE "docFileName" is NULL;ALTER TABLE experiment ALTER COLUMN "docFileName" SET DEFAULT ''; ALTER TABLE experiment ALTER COLUMN "docFileName" SET NOT NULL;

Wenn die Datenbank neu erstellt wird, muss die Tabelle mit folgendem Befehl erstellt werden: CREATE TABLE experiment ( id int4 NOT NULL DEFAULT nextval('Experiment_id_seq'::text), name varchar(80) NOT NULL DEFAULT '', descr text NOT NULL DEFAULT '', "owner" int4 NOT NULL DEFAULT '0', "addedDate" date NOT NULL DEFAULT '0001-01-01', authors text NOT NULL DEFAULT '', affiliations text NOT NULL DEFAULT '', "experimentType" varchar(255) NOT NULL DEFAULT '', "experimentDesign" text NOT NULL DEFAULT '', publication text NOT NULL DEFAULT '', abstract text NOT NULL DEFAULT '', "pubMedId" varchar(80) NOT NULL DEFAULT '', "publicationDate" date NOT NULL DEFAULT '0001-01-01', removed int2 NOT NULL DEFAULT '3', gid int4 NOT NULL DEFAULT '0', "groupAccess" int2 NOT NULL DEFAULT '0', "worldAccess" int2 NOT NULL DEFAULT '0', channels int2 NOT NULL DEFAULT '2', "hasMageml" int2 NOT NULL DEFAULT '0', "docFileName" varchar(255) NOT NULL DEFAULT '', "extraColumnTables" int4 NOT NULL DEFAULT 0, CONSTRAINT experiment_pkey PRIMARY KEY (id) ) WITH OIDS; ALTER TABLE experiment OWNER TO CytoBASE_NUTZER; REVOKE ALL ON TABLE experiment FROM public; GRANT ALL ON TABLE experiment TO CytoBASE_NUTZER; 3.1 Ergebnisse 34

3.1.1.3 Neue Benennung von „Analyzed data sets”

Tabelle BioAssay In der CytoBASE-Oberfläche wird die BASE-Einheit „BioAssay” als „Analyzed data set” bezeichnet (vgl. Kapitel 3.4.1.5). Zudem wurde eine neue Benennung für die einzelnen „BioAssays” eingeführt. Siehe hierzu Kapitel 3.4.2.4.

Da der Name eines „BioAssays” nach dem neuen Schema aus doppelt so vielen Zeichen plus Füllzeichen bestehen kann, wurde das Datenbankfeld Name der Tabelle BioAssay von einer variablen Zeichenlänge von 80 Zeichen vergrößert auf 166 Zeichen. Die Erweiterung der Namensgebung wurde erst entwickelt, als schon Daten eingetragen waren. Das bedeutet, dass die Datenbanktabelle nicht mit den passenden Einstellungen neu erzeugt werden konnte, sondern im laufenden Betrieb geändert werden musste.

Das Datenbankmanagementsystem PostgreSQL kennt in der installierten Version 7.3 keinen direkten Befehl zum Ändern des Datentyps von Spalten. In dem vorliegenden Fall tritt durch eine Vergrößerung des Umfanges des Datentypes „character varying” kein Datenverlust auf. Zur Änderung der Tabellenspalte wurde das Datenbankverwaltungstool PgAdmin eingesetzt, das das entsprechende SQL-Statement generiert. Dieses ändert die entsprechenden Verwaltungsdaten des Systems: UPDATE pg_attribute SET atttypmod=170 WHERE attrelid=17864473::oid AND attnum=2; ALTER TABLE bioassay ALTER COLUMN name SET STATISTICS -1;

Wenn die Datenbank neu erstellt wird, muss die Tabelle mit folgendem Befehl erstellt werden: CREATE TABLE bioassay ( id int4 NOT NULL DEFAULT nextval('BioAssay_id_seq'::text), name varchar(166) NOT NULL DEFAULT '', descr text NOT NULL DEFAULT '', "owner" int4 NOT NULL DEFAULT '0', "addedDate" date NOT NULL DEFAULT '0001-01-01', "bioAssaySet" int4 NOT NULL DEFAULT '0', experiment int4 NOT NULL DEFAULT '0', spots int4 NOT NULL DEFAULT '0', removed int2 NOT NULL DEFAULT '3', channels int2 NOT NULL DEFAULT '2', CONSTRAINT bioassay_pkey PRIMARY KEY (id) ) ALTER TABLE bioassay OWNER TO CytoBASE_NUTZER; REVOKE ALL ON TABLE bioassay FROM public; GRANT ALL ON TABLE bioassay TO CytoBASE_NUTZER;

3.1.2 Neue Tabellen in CytoBASE

3.1.2.1 Probenannotation und Suchfunktionen

Tabelle mhh_treatments Behandlungen von Proben können in biologischen Experimenten vielfältig sein. Meist gibt es auch Proben im Experiment, die als Kontrollvariante nur eine Standardbehandlung erfahren, wie zum Beispiel die Kultivierung von Zellen in reinem Medium. Solche Proben werden in CytoBASE meist nicht durch eine Behandlung gekennzeichnet.

Somit können einer Probe entweder keine, eine oder mehrere Behandlungen zugeordnet werden. Die Standardmöglichkeit in BASE, Proben zu beschreiben sieht nur eine zahlen- 3.1 Ergebnisse 35 mäßige Eins-zu-eins-Beziehung zwischen Proben und deren Beschreibung vor. Deshalb wurde zum Beispiel das Zellsystem, aus dem die Probe stammt, als Standard-Annotation in CytoBASE abgelegt. Da aber Mehrfachbehandlungen vokommen und jeder einzelnen Behandlung wiederum einzelne Attribute wie Konzentration oder Einwirkungszeit zugeordnet werden sollen, wurde für die Behandlungen die neue Tabelle mhh_treatments angelegt. Jeder Eintrag in mhh_treatments enthält neben den Informationen über die Behandlung einen Verweis auf eine Probe, der die entsprechende Behandlung zugeordnet ist (Abb. 3.1). Die Datenbank-Sequenz mhh_treatments_id_seq stellt für jeden Eintrag in der Tabelle mhh_treatments eine fortlaufende Identifizierungsnummer (ID) zur Verfügung. Die Verwendung der Tabelle mhh_treatments ist im Kapitel 3.4.2.2 beschrieben. Die Bedeutung der wichtigsten Spalten der Tabelle in Tab. 3.4 erläutert.

0..n

Abb. 3.1: Entity-Relationship-Diagramm für die CytoBASE-Tabellen mhh_treatments und samples.

Im Folgenden sind die SQL-Definition für die Sequenz mhh_treatments_id_seq und die Tabelle mhh_treatments wiedergegeben. -- DROP SEQUENCE mhh_treatments_id_seq; CREATE SEQUENCE mhh_treatments_id_seq INCREMENT 1 MINVALUE 1 MAXVALUE 9223372036854775807 START 1 CACHE 1; REVOKE ALL ON TABLE mhh_treatments_id_seq FROM public; GRANT ALL ON TABLE mhh_treatments_id_seq TO CytoBASE_NUTZER;

-- Table: mhh_treatments -- DROP TABLE mhh_treatments; CREATE TABLE mhh_treatments ( id int4 NOT NULL DEFAULT nextval('mhh_treatments_id_seq'::text), sample int4 NOT NULL, treatment_no int2 NOT NULL DEFAULT 1, name varchar(80) NOT NULL, descr text NOT NULL DEFAULT '', name_short varchar(40) NOT NULL, concentration float4, conc_unit varchar(30), type varchar(40) NOT NULL DEFAULT '', application_type varchar(80), applic_period float4, owner int4 NOT NULL DEFAULT '0', "addedDate" date NOT NULL DEFAULT '0001-01-01', removed int2 NOT NULL DEFAULT '0', gid int4 NOT NULL DEFAULT '0', "groupAccess" int2 NOT NULL DEFAULT '0', "worldAccess" int2 NOT NULL DEFAULT '0', treatmenttype int4, 3.1 Ergebnisse 36

CONSTRAINT mhh_treatments_pk PRIMARY KEY (sample, treatment_no), CONSTRAINT sample FOREIGN KEY (sample) REFERENCES sample (id) ON UPDATE CASCADE ON DELETE CASCADE ) WITH OIDS; REVOKE ALL ON TABLE mhh_treatments FROM public; GRANT ALL ON TABLE mhh_treatments TO CytoBASE_NUTZER;

Tabelle mhh_searches Die Tabelle mhh_searches wurde angelegt, um eine Suchfunktion nach Zelltypen und Behandlungen zu realisieren. Die Tabelle enthält die Informationen für die Ausklappfelder im Suchwerkzeug der CytoBASE-Oberfläche. Sie wird automatisch aktualisiert, wenn neue Annotationen oder Behandlungen über die Oberfläche hoch geladen werden (vgl. Kapitel 3.3.2 und 3.4.3.1). Aus dem folgenden SQL-Statement wird ersichtlich, wie mhh_searches erstellt wurde. -- Table: mhh_searches -- DROP TABLE mhh_searches; -- type 0 is search on celltype -- type 1 is search on treatment CREATE TABLE mhh_searches ( type int2 NOT NULL, display varchar(80) NOT NULL, pattern varchar(80) NOT NULL, PRIMARY KEY (type, display, pattern) ) WITH OIDS; REVOKE ALL ON TABLE mhh_searches FROM public; GRANT ALL ON TABLE mhh_searches TO CytoBASE_NUTZER; 3.2 Ergebnisse 37

3.2 Konzeptionelle Vorarbeiten für den Datenzugriff in CytoBASE

3.2.1 Nutzerkonzept und Gruppenzugehörigkeit BASE hat eine Nutzerverwaltung mit stark differenzierter Rechtevergabe. Um den Zugriff auf die Daten aus verschiedenen Arbeitsgruppen getrennt zu halten, musste lediglich ein Konzept erarbeitet werden, mit dem gewährleistet wird, dass von jedem Nutzer nur auf für ihn freigegebene Daten zugegriffen werden kann.

Jeder Nutzer kann keiner, einer oder mehreren Nutzergruppen zugeordnet sein. Jeder Nutzer und jede Gruppe hat einen Satz von zugeordneten Berechtigungen, wobei der Nutzer auch die Rechte der ihm zugeteilten Gruppe erteilt bekommt. Abb. 3.2 zeigt die Eingabemaske für einen neuen Nutzer mit den Standardeinstellungen, wie er in CytoBASE für einen Gastzugang angelegt wird.

Abb. 3.2: Eingabemaske für neue Nutzer in CytoBASE. Im Mittelteil der Maske lassen sich die Rechte durch Klicken der Checkboxen einstellen. Die Vorgaben in CytoBASE sind restriktiver gestaltet als in der Standardausgabe von BASE, so dass neu angelegte Nutzer die Rechte eines Gastzugangs haben und auf Daten nur lesend zugreifen können. 3.2 Ergebnisse 38

Abb. 3.3: Anzeige einer RNA-Probe in CytoBASE. In den Spalten Owner, Group, World sind die Zugriffs-Berechtigungen für die Probe 405 angezeigt. „r-” bedeutet, ein Nutzer dieser Gruppe kann lesend (engl. read) auf die Probe zugreifen. „rw” bedeuted ein Nutzer der Gruppe auf die Probe kann auch schreibend (engl. write) zugreifen, darf also den Eintrag ändern und sogar löschen.

Abb. 3.4: Anzeige für Einstellungen von Nutzern in CytoBASE. Der Nutzer mit dem Namen „new” hat Rechte wie ein Nutzer mit Gastzugang ohne weitreichende Rechte. Er sieht nur Daten, die weltweit freigegeben wurden. Der Nutzer mit dem Namen „A02” hat die Rechte, um Daten seiner speziellen Arbeitsgruppe („A02 group”) anlegen zu können. Neue Daten dieser Arbeitsgruppe werden unter der Anmeldung des Nutzers „A02” erzeugt. Ein reales Mitglied einer Arbeitsgruppe hat einen Nutzer in CytoBASE, wie unter „Realer Nutzer A02” dargestellt: Dieser ist Mitglied der gleichen Arbeitsgruppe (A02 group), wie „A02” hat eingeschränkte Rechte, kann aber alle Daten sehen und auswerten, die Nutzer „A02” angelegt hat.

Jedes Datenbankobjekt ist einem Besitzer zugeordnet. Vergleiche hierzu die Angaben zu einer RNA-Probe in Abb. 3.3 als Beispiel für ein Datenbankobjekt. Der Besitzer hat immer die vollen Rechte für seine Objekte, das heißt, er kann frei Änderungen vornehmen oder seine Objekte löschen. Zusätzlich kann ein Datenbankobjekt einer Gruppe zugeordnet sein, wobei der Zugriff auf das Objekt für Gruppenmitglieder nur lesend oder lesend und schreibend gestattet sein kann. Ist ein Zugriff auf ein Objekt lesend und schreibend gestattet, so kann der Nutzer es ebensfalls ändern oder sogar löschen. Als dritte Zugriffsebene kann jedes Objekt der Berechtigung „World” lesend oder lesend / schreibend zugeordnet sein. Damit ist es dann für jeden Nutzer von CytoBASE, also auch für Nutzer mit 3.2 Ergebnisse 39

Gaststatus einsehbar oder gegebenenfalls sogar editierbar.

Die Daten in CytoBASE sind für Arbeitsgruppenmitglieder standardmäßig nur unter lesendem Zugriff freigegeben. Das Konzept der Rechtevergabe in CytoBASE wird folgend genauer beschrieben.

Im „Zentralen Projekt Z02 des SFB 566” werden die Daten aus den unterschiedlichen Arbeitsgruppen jeweils unter einem speziellen Nutzer angelegt, der zur gleichen Nutzergruppe in CytoBASE gehört, wie die Nutzer der entsprechenden Arbeitsgruppe. Damit ist gewährleistet, dass alle Daten für die Mitglieder einer Arbeitsgruppe sichtbar sind und weiter ausgewertet werden können. Ein Schreibrecht auf die Rohdatensätze in der Datenbank besteht aber nicht. Somit ist es Nutzern ohne Administratorrechte (auch root- oder Superuser-Rechte genannt) nicht möglich, die Daten ihrer Projekte zu löschen. Abb. 3.4 veranschaulicht die Zusammenhänge.

3.2.2 Nomenklatur

3.2.2.1 Die Probe – „Sample” und „Sample Description” Um den Laborablauf abbilden zu können, werden die RNA-Proben als grundlegende Proben „Samples” eingetragen. Die Informationen zu der jeweiligen Probe sind in deren Beschreibung („Description”) abgelegt.

Der Name der Probe Jede Probe bekommt ihre eindeutige laufende Nummer (RNA#) aus der Labordokumentation als Name zugewiesen.

Die Systematik des Eintrags für „Sample Description” Die Beschreibung einer RNA-Probe in der „Sample Description” folgt einer strengen Systematik. Dies ist aus folgenden Gründen notwendig:

1) Der Beschreibung soll eine möglichst große Menge an Informationen über die zu Grunde liegende experimentelle Situation zweifelsfrei entnommen werden können. Die Intention ist, dass der (wissenschaftlich vorgebildete) Datenbank-Nutzer aus dieser Beschreibung, den experimentell relevanten Ablauf möglichst optimal und fehlerfrei entnehmen kann. Gleichzeitig soll die Beschreibung übersichtlich und möglichst schnell inhaltlich erfassbar bleiben.

2) Für Datenbankabfragen, bei denen die Daten nach bestimmten experimentellen Bedingungen gefiltert werden, können Teile der systematisch aufgebauten „Sample Description” (bzw. des direkt hiervon abgeleiteten „Analysis Group Name”) als Muster gesucht werden. Derartige Abfragen werden beispielsweise wichtig, wenn für zielgerichtete Analysen nach der Gesamtheit aller Experimente gesucht wird, bei denen ein ganz bestimmter Stimulus oder ein ganz bestimmtes Zellsystem zum Einsatz gekommen ist.

Diese Möglichkeit der Suche nach Bestandteilen des Namens oder der Beschreibung eines Objektes wird in CytoBASE von der erweiterten Such-Funktionalität verwendet. Sie greift auf vorgefertigte Sucheinträge für das Zellsystem und die Behandlung zurück und sucht damit die systematisch benannten Datenbankelemente. Diese vorgefertigte Suche ist in CytoBASE für die Listen von Proben, Rohdatensätzen und Analysegruppen implementiert (siehe Kapitel 3.4.3.1). 3.2 Ergebnisse 40

Die „Sample Description” ist nach folgendem Schema aufgebaut:

CSNS(CSS) AT#1[h] TC#1 rem AT#2[h] TC#2 rem AT#3[h] TC#3 rem ...

1. Applikation 2. Applikation 3. Applikation ...

CSNS Cell System Name Short

An dieser Stelle wird eine möglichst allgemein gebräuchliche Kurzform des Zell- bzw. Gewebe-Systems integriert.

CSS Cell System Specifics

Der CSS-Eintrag ist der einzige Teil der „Sample Description”, der bewusst von einer streng systematischen Logik ausgeschlossen ist und „Freitext”-Charakter aufweist. Anhand dieses Eintrags ist es möglich, experimentell relevante Informationen einzufügen, die nicht ohne weiteres in die sonstige Logik der „Sample Description” integrierbar wären.

An zwei Beispielen soll im Folgenden verdeutlicht werden, warum dem „Freitext-Bereich” an dieser Stelle eine entscheidende Bedeutung zukommt:

Werden Zellen beispielsweise transient transfiziert, so lässt sich dieser Prozess kaum als echtes „Treatment” (im Sinne der Datenbank) integrieren. Die transiente Transfektion ist in der praktischen Durchführung (anders als bei der Applikation von „Treatments”) im zeitlichen Ablauf nicht beliebig mit anderen Stimulationen kombinierbar. Transfektions- Experimente werden in der Regel immer so aufgebaut, dass Zielzellen transfiziert werden und anschließend folgen zusätzliche Stimulationen, welche dann als „Treatments” erfassbar und mit der Logik der „Sample Description” kompatibel sind.

Während es außerdem für „echte Treatments” noch vergleichsweise leicht fällt, durch den gewählten beschreibenden Begriff Eindeutigkeit herzustellen und formal jeweils gleiche und verschiedene Behandlungen voneinander abzugrenzen, so ist dies bei transienten Transfektionen weder sinnvoll noch praktisch durchführbar. Aufgrund der enormen Diversität der bei diesen Experimenten zum Einsatz kommenden Konstrukte, ist es praktisch nicht möglich, hier eine begriffliche Systematik zu definieren, die wiederum zielgerichtetes Suchen und Filtern über Textbestandteile ermöglicht.

Ein zweites Beispiel für die Erforderlichkeit des CSS-Bereiches betrifft die relativen Bezüge einzelner experimenteller Bedingungen untereinander:

Innerhalb einer experimentellen Gruppe ist es beispielsweise genau dann dringend erforderlich, zwei RNA-Proben gleichen Zelltyps und gleicher Behandlung in der „Sample Description” eindeutig voneinander unterscheidbar zu machen, wenn es sich um ein inter- individuelles Replikat handelt, die Proben also von zwei verschiedenen Spendern gewonnen wurden. In einem solchen Fall können in den CSS-Bereich jeweils beliebige Textbestandteile integriert werden, die die Zuordnung der (ansonsten gleich beschrifteten) RNA-Proben zu den einzelnen Individuen erlaubt. Auf diese Weise ist gewährleistet, dass der entsprechende „Cell System Name Short” terminologisch unverändert bleibt (so dass entsprechende 3.2 Ergebnisse 41

Suchfunktionen in der Datenbank nicht beeinträchtigt sind), dass aber andererseits die Proben entsprechend ihrer absoluten Verschiedenartigkeit innerhalb der experimentellen Gruppe diskriminiert werden können.

Der CSS-Eintrag wird eingeklammert und folgt dem CSNS-Terminus ohne Leerstelle. Rechts von der schließenden Klammer folgt ein Leerzeichen.

AT Application Time

Als „Application Time” wird in der „Sample Description” die Zeitspanne definiert, für die die nachstehend aufgelistete „Treatment Combination” bis zum Zeitpunkt der RNA-Aufarbeitung oder dem Hinzufügen einer weiteren „Treatment Combination” auf das entsprechende Zellsystem einwirkt. Diese Zeitspanne wird immer in Stunden ausgedrückt. Anschließend folgt ein Leerzeichen.

TC Treatment Combination

Die „Treatment Combination” umfasst genau ein oder im Falle synchroner Applikation alle über die gleiche Zeitspanne einwirkenden „Treatments”. Handelt es sich nur um ein „Treatment”, so wird hier eine (möglichst allgemein gültige und gebräuchliche) Kurzform des entsprechenden „Treatments” integriert. Handelt es sich um mehrere „Treatments”, so werden diese mit einem + Zeichen (aber ohne Leerstelle) verbunden hintereinander aufgelistet. rem removed

In Experimenten mit Zellen kann es zur Applikation mehrerer „Treatment Combinations” nacheinander kommen. Werden in einem solchen Fall vor der Zugabe der neuen „Treatment Combination” die vorherigen „Treatments” durch einen Waschprozess dem System entzogen, dann wird hinter die entsprechend entfernte „Treatment Combination” ein Leerzeichen und anschließend der Terminus rem (für removed) integriert. Es folgt ein weiteres Leerzeichen.

Die Einheit aus „Incubation”, „h”, „Treatment Combination” und optional „rem” ist in der Abbildung oben auch als „Applikation” bezeichnet worden.

Ein konkretes Beispiel für eine „Sample Description” ist im Folgenden dargestellt: HeLa(JUN siRNA) 24h IFNg rem 4h IL1a+TNF 2h LPS

In diesem Beispiel wurden HeLa-Zellen, die zuvor transient mit einer JUN siRNA transfiziert wurden, für 24 Stunden mit Interferon gamma (IFNg) stimuliert. Nach dieser Inkubation wurde das IFNg durch Waschen entfernt (rem Zusatz hinter IFNg). Nachfolgend wurden die Stimuli Interleukin-1 alpha (IL1a) und Tumor Necrosefaktor (TNF) gleichzeitig zum Zellmedium hinzugefügt. Nach 4-stündiger Inkubation wurde zusätzlich LPS appliziert (ohne vorherige Entfernung des IL1a+TNF-Gemisches). Nach zwei Stunden weiterer Inkubation wurden die Zellen für die RNA-Aufarbeitung „geerntet”. Da das IL1a+TNF-Gemisch nicht entfernt worden war (kein rem Zusatz hinter IL1a+TNF) beträgt die absolute Einwirkungs- zeit dieses Gemisches 6 Stunden (4h+2h).

3.2.2.2 Der Rohdatensatz „Raw Data Set” Der Name jeden „Raw Data Sets” enthält alle Informationen zu den Proben aus denen der Datensatz erzeugt wurde. Die Beschreibung jeden „Raw Data Sets” enthält die Informationen zum experimentellen Zusammenhang in dem die Proben erzeugt wurden. 3.2 Ergebnisse 42

Dies ist auch deshalb wichtig, weil die Rohdatensätze in ihren beiden Kanälen Daten aus zwei verschiedenen im Einkanalverfahren hybridisierten Arrays enthalten.

Die Systematik des Namens des „Raw Data Set” Die Nomenklatur für den Namen des „Raw Data Set” leitet sich systematisch direkt aus den „Sample Descriptions” der beiden verglichenen Proben ab. Der Name setzt sich zusammen aus der „Sample Description” der Probe aus Kanal 1 gefolgt von einer Zeichenkombination aus Leerzeichen, Schrägstrich und Leerzeichen. Danach steht die „Sample Description” der Probe aus Kanal 2.

Ein konkretes Beispiel für einen „Raw Data Set Name” ist im Folgenden dargestellt: NIH3T3 1.5h TNF / NIH3T3

Die Systematik des Eintrags für „Raw Data Set Description” Der Eintrag setzt sich zusammen aus der Gruppennummer (G-Nr.) der experimentellen Gruppe und einer Beschreibung, welche Versuchsvarianten in dem Zweikanal-Rohdatensatz gegenübergestellt sind. Die beiden Informationen werden durch zwei Unterstriche voneinander getrennt.

Ein konkretes Beispiel für eine „Raw Data Set Description” ist im Folgenden dargestellt: G103__S01/B

3.2.2.3 Die Analysegruppe „Analysis Group”

Die Systematik des Namens der „Analysis Group” Die Nomenklatur für den Namen der „Analysis Group” leitet sich systematisch direkt aus der Gesamtheit aller „Sample Descriptions” der entsprechenden Mitglieder der experimentellen Gruppe ab:

NIH3T3(empty retrovirus)(TAK1K63W)_zVAD TNF_G112_Inflmus

CSNS CSS#1 CSS#2 T#1 T#2 G-Nr. Array-Typ

Dem „Cell System Name Short” werden (jeweils eingeklammert) alle innerhalb der Analysis Group vorkommenden „CSS”-Einträge (ohne Leerzeichen) hinten angestellt. Es folgt ein Unterstrich. Rechts von diesem Bereich werden alle innerhalb der Analysis Group zum

Einsatz gekommenen „Treatments” (T#1, T#2,...) hintereinander (durch Leerzeichen voneinander abgegrenzt) aufgelistet. Ein Unterstrich flankiert diesen Bereich. Im nächsten Abschnitt folgt die Gruppennummer (G-Nr.) der experimentellen Gruppe, nachfolgend wieder ein Unterstrich und im letzten Abschnitt der entsprechend zum Einsatz gekommene Entzündungsarray-Typ (Array-Typ).

Vorgaben zur Annotation von RNA-Proben Die Beschreibung von Proben sollte alle wichtigen Informationen zum experimentellen Kontext und die Herkunft der Probe enthalten. Über eine systematische Beschreibung von Proben kann man diese gruppieren und leicht wiederfinden. Folgend werden Beschreibungen auch Annotationen genannt. In BASE kann man sehr flexibel Datentypen für die Behälter von Annotationen vorgeben. Proben werden dann ausschließlich Annotationen zugewiesen, die den vorhandenen Datentypen entsprechen. Die von uns anzulegenden Proben- beschreibungen sollten aus der Labordokumentation über Softwaretools (Beschreibung in 3.2 Ergebnisse 43

Kapitel 3.3.2) automatisiert erzeugt (vgl. Kapitel 3.4.2.2) werden. Damit dieser Vorgang funktioniert, mussten die Datentypen für fünf Annotationen erzeugt werden und der Zugriff auf diese Typen nach außen beschränkt sein, damit nachträgliche Änderungen ausgeschlossen bleiben. Die Vorgaben für CytoBASE sind aus Abb. 3.5 zu entnehmen.

Abb. 3.5: Annotationstypen für Proben in CytoBASE. Die Typen außer „Cell system type” bedingen eine Speicherung der Annotation im Textformat. Bei „Cell system type” können nur Einträge aus der Auswahlliste gewählt werden. 3.3 Ergebnisse 44

3.3 Datenimport nach CytoBASE

3.3.1 Rohdaten In den folgenden Abschnitten wird beschrieben, wie Daten nach CytoBASE hoch geladen werden.

● Zuerst werden die zu importierenden Rohdatenordner in einem gemeinsamen Verzeichnis abgelegt. ● Für dieses Verzeichnis wird das BASE_Rohdatentool (mergerawfiles) gestartet. ● Danach werden die neu erzeugten CytoBASE-Import-Dateien (kombinierten MAVI- Imagene-Rohdatendateien) aus der Weboberfläche heraus hoch geladen und gleichzeitig zu Zweiervergleichen zusammengefasst, wie in der Standardarbeitsanleitung von Oliver Dittrich-Breiholz beschrieben.

3.3.1.1 Das Werkzeug CytoBASE_Rohdatentool (mergerawfiles) Das Programm CytoBASE_Rohdatentool (mergerawfiles) ist eine Java-Konsolenanwendung zur Erstellung der kombinierten Rohdatendateien, die in CytoBASE hoch geladen werden können. Die vom CytoBASE_Rohdatentool erzeugten Dateien enthalten alle Informationen aus den Progammläufen von MAVI und Imagene.

Das Programm wird auf einen Ordner angewendet, der alle Rohdatenordner für zu integrierende Arrays enthält. Man startet es, indem man beim Aufruf als einziges Argument das Startverzeichnis, von dem aus gearbeitet werden soll, übergibt: java -cp .\MergeRawFiles.jar mergerawfiles.Main "AUSGANGSVERZEICHNIS" > output.log mergerawfiles durchsucht selbsttätig alle Unterverzeichnisse und erzeugt ein neues Verzeichnis als Nachbarverzeichnis zum Ausgangsverzeichnis und speichert dort die kombinierten MAVI-Imagene-Rohdatendateien zum Import nach CytoBASE. Der Verzeichnis- name ist eine Kombination aus Datum und Uhrzeit zum Zeitpunkt des Programmstarts. Die bearbeiteten Verzeichnisse und Dateien werden ausgegeben und in die Ausgabedatei output.log geschrieben. Bei Überschreiben von schon vorhandenen Dateien wird dieses in der Ausgabedatei vermerkt. Somit lässt sich feststellen, ob das Erzeugen von Rohdaten- dateien fehlerlos durchgeführt wurde.

Software-Entwurf für mergerawfiles Die Java-Anwendung ist als Java-Paket mit dem Namen mergeRawFiles realisiert, das die Programmklassen enthält. Die Klassen sind in Abb. 3.6 und Abb. 3.7 visualisiert. Die Objekte der Klassen, die „Reader” im Namen haben, lesen Dateien ein und verarbeiten diese. Die Hauptklasse Main erzeugt ein Objekt der Klasse MergeRawFiles. Dieses Objekt enthält die gesamte Logik zum Auffinden der entsprechenden Dateien in allen Unterver- zeichnissen. Die Logik ist im nächsten Abschnitt beschrieben. Entspricht ein Verzeichnis dem Suchschema, so werden die Imagene- und MAVI-Dateien über die Objekte der Reader- Klassen geöffnet und damit letztlich die Ausgabe als Textdatei erzeugt.

Das Programm enthält die geordneten Listen zu den Gensonden der Standard-Mikroarrays und erkennt automatisch die Plattform, von der die Daten stammen. Die Informationen sind in der Datei imageneFileReaderObjects.tos im Programmverzeichnis abgelegt. Über den Aufruf der Klasse UpdateGenelists lassen sich die Listen der Sonden aktualisieren (siehe Abb. 3.6). Dazu stellt man im Programmverzeichnis die aktuellen Listen in Textdateien bereit, deren Dateiname die Abkürzungen der Arrayplattform mit der Erweiterung „.txt” kombiniert (HA286.txt, Inflhum.txt, MA313.txt, Inflmus.txt). Die neuen Informationen 3.3 Ergebnisse 45 werden wieder in imageneFileReaderObjects.tos im Programmverzeichnis gespeichert und beim nächsten Lauf des Tools automatisch gelesen. Das Programm wird zur Aktualisierung über die Aufgabeaufforderung oder Konsole mit folgendem Befehl aufgerufen: java -cp .\MergeRawFiles.jar mergerawfiles.UpdateGenelists

Abb. 3.6: Klassendiagramm des Java-Projektes mergeRawFiles: Hilfsklasse zum Aktualisieren der Listen der Gensonden auf den Mikroarrays. Die Klasse UpdateGenelists erzeugt ein Objekt der Klasse ImageneFileReader, die ihrerseits ein Objekt der Klasse TrivialObjectSerialize enthält. Über die Methode setReporterListsFromFiles aus ImageneFileReader werden die Listen der Gensonden auf den Arrays aus entsprechenden Textdateien aktualisiert. 3.3 Ergebnisse 46

Abb. 3.7: Klassendiagramm des Java-Projektes mergeRawFiles: Hauptprogramm. Die Klasse Main steuert den Programmablauf und ruft bei korrekt übergebenem Startverzeichnis ein Objekt der Klasse MergeRawFiles auf. Dieses durchläuft selbstständig das Startverzeichnis und erzeugt für die Dateien, die dem Suchschema entsprechen (vgl. Text) Objekte aus der entsprechenden Klasse ImageneFileReader oder MAVIFileReader, die von BasicFileReader abgeleitete Klassen sind. Die Informationen aus der MAVI-Datei werden in weiteren Spalten an die eingelesenen Informationen der Imagene-Datei angehängt und als neue Datei abgespeichert. Die Klasse ImageneFileReader liest über ein Objekt der Klasse TrivialObjectSerialize die Informationen zu den Gensonden der vier Entzündungs-Mikroarrays aus der Datei imageneFileReaderObjects.tos, die im Programmverzeichnis steht, ein und stellt selbstständig fest, zu welchem Arrayformat die Daten gehören. Über eine Hilfsklasse lassen sich die Informationen zu den Sonden auf den Arrays aktualisieren (siehe Abb. 3.6) und in der Datei imageneFileReaderObjects.tos sichern. 3.3 Ergebnisse 47

Arbeitsweise und Logik von mergerawfiles Das beim Programmstart übergebene Ausgangsverzeichnis wird nach Unterverzeichnissen durchsucht, deren Name folgendem Schema entspricht: "* Multiscan MAVI*"

In jedem Verzeichnis "* Multiscan MAVI*" werden Unterverzeichnisse nach dem Schema "*MAVI NORM HK*" gesucht. Der Teil des gefundenen Verzeichnisnamens bis zum ersten Leerzeichen wird als Identifikationsnummer für die Einkanalhybridisierung übernommen (Bsp.: "M189 MAVI NORM HK" -> "M189"). Bei dem Schema "*MAVI NORM HK*" wird nicht zwischen Gross- und Kleinschreibung unterschieden!

Im Verzeichnis "*MAVI NORM HK*" wird die MAVI-Datei geöffnet, die dem Schema "* NORM HK*" entspricht, aber keine Dateinamenerweiterung ".xls" besitzt. Durch die Auswertung der MAVI-Datei wird die mittlere Scanstufe bekannt, auf die sich die MAVI-Prozessierung bezieht (siehe hierzu Kapitel 2.2.5). Bei der MAVI-Datei wird bei dem Ausdruck "* NORM HK*" nicht zwischen Gross- und Kleinschreibung unter- schieden.

Im Verzeichnis "* Multiscan MAVI*" wird die Imagene-Datei geöffnet, die dem Schema entspricht: "-c?-.txt" Hierbei wird die Groß- und Kleinschreibung unterschieden!

Aus MAVI-Datei und Imagene-Datei wird eine neue Datei, die CytoBASE-Import-Datei mit dem Namen "_.txt" erzeugt, indem die Datenspalten aus der MAVI-Datei rechts an die Datenspaltern der Imagene-Datei angefügt werden. Die Spalten einer solchen Datei sind im Anhang in Tab. 7.1 dargestellt. Die Datei wird in dem neu erstellten Verzeichnis mit dem Namen abgespeichert. Dieses neue Verzeichnis liegt auf der gleichen Ebene wie das Ausgangs- verzeichnis. Existieren im Verzeichnis "* Multiscan MAVI*" mehrere Unterverzeichnisse nach dem Schema "*MAVI NORM HK*", so werden auch mehrere CytoBASE-Import-Datei erzeugt. Sie erhalten dann den Namen: "_ dirnumber .txt"

3.3.1.2 Hochladen und Zusammenfassen der Rohdatensätze Das Standardverfahren für Experimente mit den selbst entwickelten Entzündungsarrays ist die Hybridisierung der Arrays im Einkanalverfahren mit einzelnen Proben die mit einer Farbe markiert werden. BASE verarbeitet aber sinnvoll nur Daten mit zwei Farbkanälen. Deshalb mussten vor dem Eintragen von Daten in CytoBASE für jede experimentelle Gruppe alle sinnvollen Vergleiche zwischen den Proben festgelegt werden, um zu sinnvollen Zweierver- gleichen zu gelangen und Daten importieren zu können (vgl. hierzu Kapitel 2.2.2).

Eine Standardfunktion von BASE, die hier genutzt wird, ist das Zusammenfassen von zwei Imagene-Dateien. Damit lassen sich in einfacher Weise zwei neu erzeugte CytoBASE- Import-Dateien (kombinierte MAVI-Imagene-Rohdatendateien) über die Weboberfläche hochladen und zu Zweiervergleichen zusammenfassen. Es entstehen dadurch künstliche Zweikanalrohdatensätze für alle experimentellen Gruppen. Diese Rohdatensätze enthalten alle Werte von beiden Spot-Duplikaten in beiden Kanälen. Das System mittelt die Werte bei der Ausgabe auf Wunsch automatisch. Sofern es gewünscht wird, lassen sich die Daten später aus den beiden Kanälen ganz einfach wieder getrennt exportieren und somit beide 3.3 Ergebnisse 48

„Pseudokanäle” voneinander trennen.

3.3.2 Annotation der RNA-Proben Die Beschreibung von Proben sollte alle wichtigen Informationen zum experimentellen Kontext und die Herkunft der Probe enthalten. Über eine systematische Beschreibung von Proben kann man diese gruppieren und leicht wiederfinden. Folgend werden Beschreibungen auch Annotationen genannt.

Datenexport aus Labordokumentation Die Informationen zu den RNA-Proben, die in CytoBASE aufgenommen werden sollen, sind in der Labordokumentation in Microsoft Excel-Dateien abgelegt. Zum Import von Proben- beschreibungen und Behandlungen wurde ein Visual Basic-Makro geschrieben, das die Informationen aus der Labordokumentation herauszieht und als Textdateien speichert. Einzelheiten zu Visual Basic-Makros werden im Rahmen der Dissertation nicht gezeigt. Die Dateien haben Namen nach dem Schema:

Annot[Zahl].txt und Treatments[Zahl].txt.

Die Textdateien enthalten Werte, die durch das Tabulatorzeichen getrennt sind. In der ersten Zeile stehen die Spaltenüberschriften. Jede folgende Zeile enthält die Daten zu einer bestimmten Probe (Sample). Die erste Spalte enthält immer den Namen (RNA-Nummer) der zu aktualisierenden Probe. Die weiteren Spalten sind in Tab. 3.1 zusammengefasst.

Tab. 3.1: Spalten der Textdateien, die in CytoBASE zur Annotation von Proben hoch geladen werden.

Datei für Probenbehandlungen (Treatments) Datei für Annotationen

Sample Sample name Cell system name descr Cell system name short treatment_no Cell system type name_short Cell system specifics concentration Sample comments conc_unit type application_type applic_period

Das Werkzeug MergeFilesWithMultipleDatalines Mit dem Tool MergeFilesWithMultipleDatalines lassen sich viele Textdateien der oben beschriebenen Struktur zusammenfügen. Das Tool ist eine Java-Konsolenanwendung, die alle Annotation- und Treatments-Dateien eines Verzeichnisses öffnet und zwei neue Dateien erzeugt, in denen alle Datenzeilen der zusammengehörigen Dateien untereinander stehen. Man startet das Programm, indem man es aufruft und als einziges Argument das Startver- zeichnis, in dem die Ausgangsdateien gesucht werden sollen, übergibt. Die Ausgabedateien werden in das übergebene Verzeichnis geschrieben. 3.3 Ergebnisse 49

Software-Entwurf für MergeFilesWithMultipleDatalines Das Klassendiagramm in Abb. 3.8 beschreibt die wichtigsten Klassen, im Java-Paket mergeFilesWithMultipleDatalines. Der Programmablauf ist im Sequenzdiagram in Abb. 3.9 in UML-Notation skizziert: Die Klasse Main enthält das Hauptprogramm und überprüft den übergebenen Parameter darauf, ob er ein Verzeichnis ist. Wenn das der Fall ist, wird ein anonymes Objekt der Klasse MergeFilesWithMultipleDatalines erzeugt.

Die Klasse MergeFilesWithMultipleDatalines enthält die Logik des Programmes und ruft diese direkt bei der Erzeugung eines Objektes über ihren Konstruktor auf. Dateien im angegebenen Verzeichnis, die dem Namensschema „*annot*.txt” oder „*treatment*.txt” entsprechen, werden über die Klasse DataFileReader geöffnet und durchlaufen (geparst). Als Ergebnis eines erfolgreichen Parsens hat das DataFileReader-Objekt die Eigenschaft „isOK”. Sind mehrere Dateien des selben Typs mit validem Inhalt im Verzeichnis, so werden deren Datenzeilen unten an die Daten der zuerst verarbeiteten Datei des Typs angehängt und die zusammengesetzten Dateien schließlich gespeichert.

Abb. 3.8: Klassendiagramm des java-Paketes mergeFilesWithMultipledatalines. 3.3 Ergebnisse 50

Abb. 3.9: Sequenz-Diagramm des Programmablaufes im java-Paket mergeFilesWithMultipledatalines. Die Erzeugung eines anonymen Objektes der Klasse MergeFilesWithMultipleDatalines beinhaltet die gesamte Funktionalität des Progammes.

Das Hochladen der Daten in CytoBASE über die Weboberfläche ist in Kapitel 3.4.2.2 beschrieben, da diese Funktionalität eine Erweiterung der Anwendungsschicht von CytoBASE darstellt.

3.4 CytoBASE – Erweiterungen gegenüber BASE CytoBASE wurde an vielen Stellen gegenüber BASE geändert und erweitert. Sehr viele Dateien der CytoBASE-Benutzeroberfläche und der Anwendungsschicht entsprechen nicht mehr dem Original, da neue Funktionalitäten oder Änderungen eingefügt wurden, die die Benutzeroberfläche leichter bedienbar machen. In den folgenden Unterkapiteln werden die wichtigsten Anpassungen erläutert. Die Struktur der darunter liegenden Datenbank wurde möglichst wenig geändert, um einen Export oder Update auf eine neuere Version von BASE ohne zu großen Aufwand durchführen zu können (vgl. Kapitel 3.1).

3.4.1 Benutzeroberfläche

3.4.1.1 Startseite Die Startseite von CytoBASE enthält die wichtigsten Informationen zur Datenbank und deren Betreiber (Abb. 3.10). Von dieser Seite gelangt man über einen Link zur Homepage des „Zentralen Projektes Z02 des SFB 566” auf der alle wichtigen Informationen zur Arbeits- gruppe und zu den Mikroarray-Experimenten zusammengestellt sind. Die Tabelle im unteren Drittel basiert auf neuen Abfragen an die Datenbank und stellt die aktuellen Inhalte im System als Übersicht dar. Gegenübergestellt sind die weltweit freigegeben Daten und die Zahlen des gesamten Datenumfangs.

Die entsprechenden Datenbankabfragen sind in Funktionen der Klasse RawBioAssay in der PHP-Klassendatei InstallationsverzeichnisCytoBASE/include/classes/raw.inc.php abgelegt und werden aus dem Formular der Startseite aufgerufen um mit den zurück- gelieferten Zahlen die Tabelle zu füllen. Der Quelltext der Abfragen befindet sich im Anhang. 3.4 Ergebnisse 51

Abb. 3.10: Startseite von CytoBASE mit Tabelle zum laufenden Inhalt der Datenbank.

3.4.1.2 Benutzerhandbücher Zwei Benutzerhandbücher sollen den Einstieg in CytoBASE erleichtern. Auf der Seite „UserGuide”, die direkt nach dem Anmeldevorgang erscheint (Abb. 3.11) erscheinen an zentraler Stelle die Links zu den Handbüchern. „Find your data in CytoBASE” ist eine Präsentation aus 21 Folien, die den Aufbau von CytoBASE anhand von Bildschirmfotos mit Beschreibung anschaulich macht und erklärt, wie man Mikroarray-Experimente findet. In „Analyze your data in CytoBASE” wird in der gleichen Art auf 25 Folien beschrieben, wie man eigene Daten zusammenstellt, auswerten kann und exportiert. Die Beispiele in den Handbüchern sind in CytoBASE an eigens dafür angelegten Beispieldaten nachvollziehbar. Diese befinden sich in der Analysegruppe „New Analysis” (siehe auch Abb. 3.12). 3.4 Ergebnisse 52

Abb. 3.11: User guide Seite von CytoBASE mit Links zu den beiden Benutzerhandbüchern.

3.4.1.3 Navigation und Datenanzeige Die Anzeige in BASE und in CytoBASE ist zweigeteilt. An der linken Seite befindet sich eine Navigationsleiste und im Hauptteil rechts werden die angeforderten Daten angezeigt. Die originale Navigationsleiste in BASE enthält viele Menüpunkte, die zudem als Ausklappfelder mit Unterpunkten fungieren. Dadurch ist es für einen Nutzer anfänglich schwer, in der Navigationsleiste die wichtigen Punkte aufzufinden, vor allem wenn diese in einem Ausklappfeld versteckt sind.

CytoBASE wurde deshalb gegenüber BASE verändert, um den Umgang mit CytoBASE zu erleichtern: Die Navigationsleiste zeigt im Ausgangszustand eine sehr vereinfachte Ansicht, in der lediglich die Links zu den Proben, den Rohdatensätzen und den Analysegruppen sichtbar sind (Abb. 3.12). Diese drei Links sind im Originalmenü von BASE in Untermenüs versteckt (vgl. Abb. 3.13 A). Durch einen Klick auf den Link [Enlarge menu] schaltet man in die Volldarstellung um (Abb. 3.13 B), die dann den Menüteil ausgeklappt darstellt, der den Link zur Anzeige des gerade aktuellen Elements enthält. In Abb. 3.13 werden die Menüpunkte zu „Analyze data” angezeigt, die den Link zu Analysegruppen und weiteren Auswertungsseiten enthält.

Bei der Erweiterung der Navigationsleiste wurde darauf geachtet, die spezifischen Nutzer- ansichten aus BASE zu übernehmen: Nur die Elemente, die der Benutzer seinen Rechten 3.4 Ergebnisse 53 entsprechend sehen darf, werden in der Menüleiste (und im Hauptfenster) angezeigt. So hat der Nutzer „weber” in Abb. 3.13 das Recht, Nutzer zu verwalten und sieht den Menüpunkt „User”. Fehlt einem CytoBASE-Nutzer das Recht, die Benutzer einzusehen oder zu bearbeiten, so bekommt er den Menüpunkt „User” nicht eingeblendet.

Abb. 3.12: CytoBASE – Anzeige mit Navigationsleiste links, Anzeige der Analysegruppen rechts. Die Navigationsleiste befindet sich im vereinfachten Zustand und zeigt nur die Navigation zu den drei wichtigsten Datenbankelementen. Bei Klick auf [Enlarge menu] werden alle Navigationsmöglichkeiten eingeblendet. 3.4 Ergebnisse 54

A B

Abb. 3.13:Navigationsleisten von A) BASE und B) CytoBASE. Beide Navigationsleisten mit aktiviertem Menü „Analyze data”. CytoBASE im erweiterten Zustand mit Anzeige von allen Menüpunkten. Bei Klick auf [Shorten menu] werden die Navigationsmöglichkeiten unterhalb von [Shorten menu] wieder ausgeblendet.

Einige Anzeigen im Hauptfenster von CytoBASE wurden ebenfalls gegenüber BASE angepasst. Die Änderungen betreffen vor allem das Layout und die Farbgebung und sollen eine bessere Übersichtlichkeit der Darstellung gewährleisten, ändern aber nichts an den dargestellten Inhalten. Weiterhin wurden die CytoBASE-spezifischen Erweiterungen der Funktionalitäten, welche weiter unten in diesem Kapitel beschrieben werden, in die Benutzeroberfläche aufgenommen.

3.4.1.4 Verweise für Gensonden zu GeneCards BASE verweist an drei verschiedenen Stellen, das heißt überall dort wo Gensonden angezeigt werden, automatisch auf die Suche in der Nukleotid-Datenbank am National Center for Biological Information NCBI, USA (http://www.ncbi.nlm.nih.gov/ ). Damit ist ein direkter Zugriff auf Informationen zum gerade betrachteten Gen möglich. Man bekommt in BASE und CytoBASE in den Anzeigen der Rohdatentabellen, der analysierten Daten („Analyzed data set”) und im Gene Explorer zu jeder dargestellten Gensonde, die einen Eintrag in der Spalte „Accession” hat, einen Link zum NCBI bereitgestellt.

Diese Funktionalität wurde erweitert, um dem Nutzer einen besseren Einblick in die Bedeutung bestimmter Gene zu verschaffen. In CytoBASE erscheint in einer zweiten Zeile 3.4 Ergebnisse 55 ein zusätzlicher Verweis auf die Datenbank GeneCards des Weizmann Institute of Science, Israel (http://www.genecards.org). Diese Datenbank gibt eine übersichtliche Zusammenschau sehr vieler Informationen zu einem gesuchten Gen. Abb. 3.14 zeigt eine Auswahl an Gensonden in der Rohdatenansicht und die Anordnung der Links zu den beiden Datenbanken.

Abb. 3.14: Ausschnitt aus der gefilterten Rohdatenanzeige in CytoBASE. In der Liste stehen verschiedene Gensonden für Gene, deren Gensymbol mit dem Buchstaben „c” beginnt. Die eigentlichen Rohdaten sind ausgeblendet, da im Auswahlfeld „Raw data” über der Liste None selektiert wurde. In der Spalte „Accession” stehen die Links zur NCBI-Nucleotid-Datenbank (oben) und zur GeneCards-Datenbank (unten). Weitere Einzelheiten zu den Links im Text.

Für den neuen Verweis wurde die Methode extraLink der PHP-Klasse ReporterColumn in der Datei

InstallationsverzeichnisCytoBASE/include/local/reporter_columns.inc.php an entsprechender Stelle erweitert. Der folgende PHP-Quelltextausschnitt aus der Datei zeigt den Eintrag für die beiden Verweise zu der Datenbank: else if($column == "accession") { if(!$value) return html(""); $accession = $value; return "$accession". "
GeneCard"; }

Als Ziel für den Verweis wurde das Deutsche Krebsforschungszentrum in Heidelberg gewählt, denn es unterhält eine gespiegelte Version der israelischen GeneCards. 3.4 Ergebnisse 56

3.4.1.5 Neue Nomenklatur für CytoBASE-Elemente Das System BASE ist für Benutzer ohne Kenntnisse über den Umgang mit Datenbanken nicht sehr leicht und intuitiv bedienbar. Vor allem einzelne Begrifflichkeiten in BASE, die reale Gegebenheiten abbilden, sind nicht selbsterklärend oder bedeuten im molekularbiolo- gischen Sprachgebrauch auch andere Dinge. So wird zum Beispiel in BASE eine Gensonde auf dem Array als Reporter bezeichnet.

Um die Begrifflichkeiten in CytoBASE möglichst sprechend zu gestalten und damit den Umgang mit CytoBASE zu vereinfachen, wurde die Nomenklatur von sechs wichtigen Elementen in BASE geändert. Ziel war dabei eine Namensgebung, die die Elemente exakt beschreibt und intuitiv erfassbar ist. Die Tab. 3.2 zeigt eine Gegenüberstellung der neuen und originalen Nomenklatur.

Tab. 3.2: Gegenüberstellung der Begrifflichkeiten in BASE und der Entsprechungen in CytoBASE

Originalbezeichnung in BASE Bezeichnung in CytoBASE Beschreibung

Reporter Gene Probe Gensonde Sample Sample (RNA) Probe (hier: extrahierte RNA) mit anhängender Annotation Experiment Analysis group zentrale Auswertungseinheit Experiment Explorer Gene Explorer Anzeige der Genexpression eines Genes in vielen Hybridisierungen einer Analysis group Analysis steps Analyzed data sets Überschrift der Anzeige der Datenanalyse, die in einer hierarchischen Darstellung die Arbeitsschritte und resultierenden Daten auf einer Seite kombiniert BioAssay Set Result group Menge von Datensätzen in einer Analysis group BioAssay Analyzed data set einzelner Datensatz, der gefiltert oder verarbeitet sein kann

3.4.2 Eingabe und Verwaltung der Daten

3.4.2.1 Ausschluss doppelter Eintragungen CytoBASE wurde für die Dateneingabe um eine Logik ergänzt, die eine Erzeugung doppelter Einträge für Proben und Rohdatensätze unmöglich macht. Diese Überprüfung der Eingaben wurde nötig, da im Laborablauf durch die Regeln zur Nomenklatur keine Namensduplikate entstehen. In BASE dagegen ist die Vergabe von Namen frei, da jeder Datenbankeintrag eine interne ID trägt, die ihn eindeutig zugreifbar macht. Die Logik geht also über den BASE-Standard hinaus, denn sie arbeitet für Proben (Samples), deren Name eindeutig sein muss und für Rohdatensätze, für die die Kombination aus Name und Beschreibung eindeutig sein muss.

Wenn über die Benutzeroberfläche Proben bzw. Rohdatensätze erzeugt oder editiert werden, werden aus dem PHP-Formular heraus Funktionen aus den PHP-Klassen Sample oder RawBioAssay aufgerufen, die zurückliefern ob ein solcher Datenbankeintrag schon in der Datenbank existiert. Besteht der Eintrag schon, wird als Folge im Formular eine Fehlermeldung ausgegeben und der Benutzer darauf aufmerksam gemacht, dass der doppelte Eintrag nicht erstellt werden konnte. Diese funktionelle Erweiterung erleichtert die 3.4 Ergebnisse 57

Dateneingabe und macht sie sicherer.

Als Beispiel für die Datenbankabfrage ist unten der Quelltext der PHP-Funktion isDuplicatePresent aus der Klasse RawBioAssay aufgeführt. Die Funktion gibt den Wahrheitswert „falsch” zurück, sofern kein Eintrag mit selbem Namen, Beschreibung und ID existiert, der nicht als gelöscht markiert ist. Andernfalls wird die Anzahl der Einträge zurückgeliefert. function isDuplicatePresent() { $query = "SELECT COUNT(*) FROM rawbioassay r ". "WHERE r.name = '$this->name' ". "AND r.descr = '$this->descr' ". "AND r.id != $this->id ". "AND r.removed = 0"; $res = query($query); if($row =& db_fetch_row($res)) return $row[0]; return false; }

3.4.2.2 Annotation der RNA-Proben Die Beschreibung von Proben sollte alle wichtigen Informationen zum experimentellen Kontext und die Herkunft der Probe enthalten. Über eine systematische Beschreibung von Proben kann man diese gruppieren und leicht wiederfinden. Beschreibungen von Proben werden im folgenden Text auch Annotationen genannt. In Kapitel 3.3.2 sind die Werkzeuge vorgestellt, mit deren Hilfe man Textdateien zur Annotation mehrerer Proben erzeugen kann. Hier werden die Erweiterungen in der CytoBASE-Oberfläche beschrieben, die das Management und die Darstellung der Annotationen betrifft.

Datenbankfelder für Annotationen Die Standardmöglichkeit in BASE, Proben zu beschreiben bildet nur eine zahlenmäßige Eins- zu-eins-Beziehung zwischen Proben und deren Annotation ab. Die Proben können derzeit fünf Annotationen zugewiesen bekommen, deren Voreinstellungen in Kapitel 3.2.2.3 beschrieben sind. Tab. 3.3 führt die Standardmöglichkeiten für Probenannotationen auf.

Tab. 3.3: Standardannotationen in CytoBASE für RNA-Proben.

Annotation Bedeutung

Cell system name Name des Zellsystems Cell system name short Abkürzung des Zellsystems Cell system type Zellsystemtyp: Zelllinie, Gewebe, etc. Cell system specifics Besonderheiten des Zellsystems Sample comments Kommentar als Freitext

Einer Probe können entweder keine, eine oder mehrere Behandlungen (treatments) zugeordnet werden. Diese Möglichkeit der Mehrfach-Beziehung zwischen Probe und Behand- lungen wurde in CytoBASE über die neu eingefügte Tabelle mhh_treatments realisiert (vgl. Kapitel 3.1.2.1). Tab. 3.4 zeigt die Möglichkeiten, Behandlungen in CytoBASE zu speichern. 3.4 Ergebnisse 58

Tab. 3.4: Felder in der Tabelle mhh_treatments für Behandlungen von RNA-Proben.

Behandlungen Bedeutung

name Name der Behandlung descr Beschreibung als Freitext treatment_no Nummer der Behandlung (wird pro Probe gezählt) name_short Kurzform des Namens der Behandlung concentration Konzentration des Agens conc_unit Einheit der Konzentration type Art der Behandlung, z.B. physiological stimulus application_type Art der Application, z.B. added to culture medium applic_period Applikationsdauer in Minuten

CytoBASE-Weboberfläche und -Anwendungsschicht Die Beschreibung der Behandlungen (treatments) von Proben kann auch als Annotation aufgefasst werden.

Aus diesem Grund wurde die Anzeige die Behandlungen in der Ebene eingefügt, in der CytoBASE auch die Annotationen anzeigt: Die Listenanzeige für RNA-Proben und die Formulare für die Ansicht bzw. Bearbeitung von Proben wurden um die Behandlungen (treatments) erweitert.

In der Liste der RNA-Proben erscheint neben den Standardannotationen eine weitere Spalte, die einen Link zur Anzeige der Liste der Behandlungen enthält, sofern Eintragungen vorhanden sind. Abb. 3.15 zeigt einen Ausschnitt aus der Anzeige der Probenliste. Probe 233 war die Kontrollvariante der experimentellen Gruppe und hat deshalb keine Behandlungen. Probe 237 hat zwei Behandlungen erfahren. Diese zwei Behandlungen sind im Vordergrundfenster als Liste dargestellt, die nach Klick auf den entsprechenden Link erscheint. 3.4 Ergebnisse 59

Abb. 3.15: CytoBASE-Anzeige der RNA-Proben in der Ansicht mit Annotationen für einen Nutzer mit Administratorrechten. Über der Liste der Proben stehen drei Links (markiert durch den roten Kasten) zum Annotieren von Proben aus Textdateien, die in CytoBASE hoch geladen und verarbeitet werden. Innerhalb der Liste sind zu jeder Probe alle Annotationen angegeben. Die Spalte Treatments enthält den Link zur Anzeige der Behandlungen der Probe. Im Vordergrund steht das Popup-Fenster, das nach Klick auf den Link „Table” (Mauszeiger als Hand) erscheint und alle Behandlungen der Probe 237 als Liste zeigt.

CytoBASE wurde um die Funktionalität erweitert, in einem Arbeitsgang mehreren Proben Annotationen und Behandlungen zuzuweisen. Dazu werden die Textdateien, die mit Hilfe von Werkzeugen aus der Labordokumentation, wie unter 3.3.2 beschrieben, erstellt wurden, über die Weboberfläche hoch geladen und verarbeitet. Voraussetzung ist, dass man als Nutzer mit Administratorrechten (auch root- oder Superuser-Rechte genannt) angemeldet ist.

Die entsprechenden Web-Formulare werden aus der Listenanzeige von Proben gestartet, indem man den Links über der Liste folgt (Abb. 3.15 roter Kasten). Im nun geöffneten Formular lädt man die entsprechende Textdatei für Annotations oder Treatments hoch und stößt über den Button [Continue (dry run)] einen Testlauf der Datenbankaktionen an. Im darauf folgenden Fenster erscheint eine Ausgabe, was beim nächsten Schritt in der Datenbank eingetragen würde. Ein Beispiel für einen solchen Testlauf ist in Abb. 3.16 abgebildet. Wenn die Datei nicht im passenden Format vorliegt oder die Zuordnung zu den Datenbankfeldern nicht funktioniert, erscheint eine Fehlermeldung als roter Text. Wird anzeigt, dass die richtigen Samples annotiert würden oder den entsprechenden Samples die 3.4 Ergebnisse 60 passenden Treatments zugeordnet würden, dann können über Anklicken des Buttons [Annotate for real] bzw. [Add/update treatments for real] die Werte aus der hoch geladenen Datei in die Datenbank eingetragen werden. In der Beispielabbildung 3.16 würden die Behandlungen der Proben 204 und 205 mit den neuen Informationen aus der hoch geladenen Datei überschrieben. Bei diesem Vorgang der Probenbeschreibung werden automatisch die Suchvorgaben für Behandlungen und Zellsystem aktualisiert, so dass das Filtertool auch die neuen Suchbegriffe einblendet (vgl. Kapitel 3.4.3.1).

Abb. 3.16:Ausgabe des Testlaufs von „Add/update sample treatments from file” in CytoBASE. Die Behandlungen von zwei Proben sollen aus einer Textdatei aktualisiert werden. Durch Klick auf [Add/update treatments for real] werden die Informationen in die Datenbank eingetragen und die CytoBASE-spezifischen Suchvorgaben für Behandlungen und Zellsystem in der Datenbank aktualisiert.

Für die Änderungen in der CytoBASE-Weboberfläche wurden die folgenden Dateien im CytoBASE-System angepasst oder neu erstellt:

InstallationsverzeichnisCytoBASE/www/mhh_sample_massannot.phtml InstallationsverzeichnisCytoBASE/www/mhh_sample_masstreat.phtml InstallationsverzeichnisCytoBASE/www/mhh_treatmentlist.phtml InstallationsverzeichnisCytoBASE/www/sample_list.phtml InstallationsverzeichnisCytoBASE/www/sample_massannot.phtml

Die Logik und Datenbanksteuerung ist in den folgenden Dateien der CytoBASE- Anwendungsschicht enthalten. Neben der Methode über das Web-Interface kann ein Nutzer mit dem entsprechenden Zugang auf dem Server die Annotation auch durch direkten Aufruf der PHP-Skripte anstoßen.

InstallationsverzeichnisCytoBASE/bin/massAnnotate.php InstallationsverzeichnisCytoBASE/bin/mhh_massTreatments.php InstallationsverzeichnisCytoBASE/bin/mhh_upd_cell_search.php InstallationsverzeichnisCytoBASE/include/classes/mhh_searches.inc.php

3.4.2.3 Dokumentation der experimentellen Gruppe Eine Anforderung an CytoBASE war, die Dokumentation der Versuche und der Auswertung einer experimentellen Gruppe in Form einer Datei sicher zu speichern. Wie die Datei erzeugt wird ist in Kapitel 2.2.7 beschrieben. Die Datei wird Ergebnis-Übersichtsdatei genannt.

BASE besitzt an mehreren Stellen die Möglichkeit, Dateien im System zu speichern. So kann man z.B. Versuchsprotokolle in das Systen laden und somit sichern. BASE legt die Datei intern in einem bestimmten Datenverzeichnis ab und benennt diese mit der internen Identifikationsnummer als Name. In der Datenbank ist der Speicherort und der originale 3.4 Ergebnisse 61

Name der Datei abgelegt. Somit kann das System die Datei zum Einsehen bereitstellen.

Damit die Dateiverwaltung für Ergebnis-Übersichtsdateien in CytoBASE nach dem selben Schema funktioniert, wie in BASE vorgegeben, wurde eine zu BASE analog aufgebaute Logik eingefügt: CytoBASE nutzt ein spezielles Verzeichnis (experimentdocfiles) im Dateibereich des Servers, in dem die Dateien abgelegt werden. Damit lässt sich zu jeder Analysegruppe in CytoBASE eine Ergebnis-Übersichtsdatei hochladen und dauerhaft sichern.

CytoBASE bietet in zwei Benutzerformularen die diesbezüglichen Möglichkeiten: In der Liste der Analysegruppen (Analysis groups) werden in der Spalte „Standard result file” Links zum Einsehen oder Herunterladen der Ergebnis-Übersichtsdatei angezeigt, falls eine Datei abgelegt ist.

Navigiert man eine Analysegruppe an und wählt den Karteireiter Info, so erscheinen dort in der Zeile „Standard result file” falls schon eine Datei abgelegt ist Links zum Einsehen oder Herunterladen der Ergebnis-Übersichtsdatei. Besitzt man Schreibrechte für die Analysegruppe so erscheint zusätzlich eine Möglichkeit, die Datei durch eine andere zu ersetzen oder eine neue Datei hinzuzufügen, sofern noch keine existiert.

3.4.2.4 Neue Benennung der „Analyzed data sets” BASE speichert alle Schritte zur Filterung und Auswertung von Datensätzen innerhalb einer Analysegruppe (Analysis group) und zeigt diese hierarchisch an. In CytoBASE werden im Hauptfenster der Anzeige einer Analysegruppe alle Informationen zu der Zusammenstellung von Rohdaten und deren ausgewerteten Daten angezeigt. Die Anzeige gliedert sich in vier Karteireiter: „Info” – „Raw data sets” – „Analyzed data sets” – „Gene probe lists”. Der Reiter „Analyzed data sets” enthält die hierarchische Übersicht über die Schritte der Auswertungen (vgl. Abb. 3.17). „Analyzed data set” ist in CytoBASE die Einheit, die gefilterte und verarbeitete Expressionsdaten aus einem Rohdatensatz darstellt. In BASE wird diese Einheit „BioAssay” genannt (vgl. hierzu die neue Nomenklatur in Kapitel 3.4.1.5).

In BASE bekommen die „BioAssays” bei ihrer Erzeugung automatisch den Namen des dazugehörigen Rohdatensatzes als Name zugewiesen. Damit lassen sich verschiedene „BioAssays”, die vom selben Rohdatensatz abgeleitet sind, nicht an ihrem Namen unterscheiden. Zudem können die Namen von „BioAssays” in BASE nicht geändert werden.

Um die Übersichtlichkeit zu steigern und Verwechslungen zu vermeiden, wurde BASE so geändert, dass die „BioAssays” automatisch einen selbsterklärenden Namen bekommen. Dies ist auch wichtig, weil die Namen beim Export an exponierter Stelle zur Beschreibung der exportierten Daten verwendet werden (vgl. Kapitel 3.4.3.2). Bei der Erzeugnung von analysierten Datensätzen („Analyzed data sets”, Synonym in BASE: „BioAssays”) bekommen diese in CytoBASE eine Kombination aus dem Namen der Ergebnis- gruppe, einer laufenden Nummer und der Beschreibung des zugehörigen Rohdatensatzes als Name zugewiesen. Ein Beispiel der neuen Namensvergabe ist in Abb. 3.17 dargestellt.

Weiterhin wurde BASE so erweitert, dass die Namen der analysierten Datensätze nachträglich einzeln editierbar sind. Ruft der Besitzer einer Analysegruppe das Formular zum Ändern des Namens einer Ergebnisgruppe auf (siehe Abb. 3.18), so hat er in CytoBASE die Möglichkeit, die Namen der zugehörigen, hierarchisch untergeordneten „analyzed data sets” auch automatisch mit ändern zu lassen. Diese erweiterten Funktionalitäten werden in CytoBASE allerdings nur eingeblendet, wenn der Nutzer die Schreibrechte für die Analyse- gruppe besitzt. 3.4 Ergebnisse 62

Abb. 3.17: Anzeige Datenanalyse der Analysegruppe „Raw264.7_LPS_G099x_MA313” in CytoBASE. Im unteren Teil des Fensters stehen die Verweise zu den analysierten Datensätzen. Der Name eines analysierten Datensatzes setzt sich aus dem Namen der Ergebnisgruppe, einer laufenden Nummer und der Beschreibung des zugehörigen Rohdatensatzes zusammen. Hier ist die Ansicht für einen Nutzer mit Schreibrechten für die Analysegruppe gezeigt, die die Verweise zum Editieren oder Löschen der Ergebnisgruppe eingeblendet hat. 3.4 Ergebnisse 63

Abb. 3.18: Formular zum Ändern des Namens einer Ergebnisgruppe in CytoBASE. Das Fenster enthält im Gegensatz zu BASE die Möglichkeit, die hierarchisch untergeordneten „analyzed data sets” automatisch mit umzubenennen. Das Formular wird nur eingeblendet, wenn der CytoBASE-Nutzer Schreibrechte für die Analysegruppe hat.

Für die Änderungen in CytoBASE wurden die folgenden Dateien angepasst oder neu erstellt: InstallationsverzeichnisCytoBASE/www/transcreate.phtml InstallationsverzeichnisCytoBASE/include/classes/jobhandler.inc.php InstallationsverzeichnisCytoBASE/include/classes/experiment.inc.php InstallationsverzeichnisCytoBASE/include/web/experiment_common.inc.php

Die neue Logik der Namensvergabe wurde an den folgenden Stellen in das CytoBASE- System eingeführt:

● Die PHP-Klasse Jobhandler wurde in der Methode zum Erzeugen neuer „BioAssays” (function createChildSet) ergänzt. ● Das WebFormular, das Tochterdatensätze aus bestehenden „BioAssays” erzeugt (transcreate.phtml), wurde in der Methode zum Erzeugen einer neuen Ergebnisgruppe (function createChildSet) um die Logik ergänzt. ● Die Datei experiment_common.inc.php ist vom Webformular experiment_edit.phtml eingebunden (Befehl require_once) und bestimmt die Anzeige und viele Funktionalitäten für die Web-Oberfläche. Die Funktion, die hierin eine neue Ergebnisgruppe (in BASE einen „BioAssay set”) innerhalb einer Analysegruppe anlegt wurde ebenfalls um die neue Logik ergänzt. ● Die PHP-Klasse Experiment wurde um eine Methode ergänzt, die die Namen der „BioAssays” aktualisiert (updateBioAssayNames).

Da der Name eines „BioAssays” nun aus doppelt so vielen Zeichen plus Füllzeichen bestehen kann, wurde das Datenbankfeld Name der Tabelle BioAssay von einer variablen Zeichen- länge von 80 Zeichen vergrössert auf 166 Zeichen. Die Beschreibung hierzu findet sich in Kapitel 3.1.1.3. 3.4 Ergebnisse 64

3.4.3 Datenabfragen und Export

3.4.3.1 Suchmöglichkeit nach Behandlung und Zellsystem BASE bringt für alle Anzeigen in Tabellenform eine Filter- und Suchfunktion mit. Sie befindet sich über der Tabelle und enthält die Möglichkeit die Anzeige nach bestimmten Kriterien einzugrenzen. Die Bedienung erschließt sich nicht intuitiv, da die Art der Definition von Kriterien relativ nah an die Datenbanksprache SQL angelehnt ist. So ist zum Beispiel das Platzhalterzeichen für beliebig viele Zeichen nicht der Stern „*” sondern das Prozentzeichen „%”. Das für CytoBASE erstellte Benutzerhandbuch und die Hilfe erklären jedoch ausführlich die Such- und Filter-Funktionalität. CytoBASE wurde um die Möglichkeit jeder Probe mehrere Behandlungen zuweisen zu können erweitert (vgl. Kapitel 3.4.2.2). Weiterhin wurden alle Elemente in CytoBASE nach einem feststehenden und eindeutigen System benannt (vgl. Kapitel 3.2.2), das viele Informationen im Namen enthält. Nach diesem System wurden alle Eintragungen in CytoBASE gemacht. Dadurch trägt CytoBASE Informa- tionen zum Zellsystem und den experimentellen Behandlungen.

Um eine bessere Übersicht über diese Inhalte von CytoBASE zu erzielen, wurde die Such- Funktionalität um vorgefertigte Sucheinträge für das Zellsystem und die Behandlung erweitert. In Abb. 3.19 ist dies für die Auswahl „Treatments” am Beispiel der Suche von Rohdatensätzen veranschaulicht.

In CytoBASE enthalten alle Listen-Anzeigen von Rohdatensätzen (Raw data sets) und Analysegruppen (Analysis groups) im Ausklappfeld „Field” die Einträge „Treatments” und „Cell system” (vgl. Abb. 3.19). In der Anzeige von Proben (Samples) kann derzeit nur die Suche nach dem Zellsystem genutzt werden. Wird entweder „Treatments” oder „Cell system” ausgewählt, so erscheint im Feld „Value” automatisch eine Liste der Suchbegriffe, die alle möglichen Werte für Behandlungen oder Zellsysteme enthält. Die entsprechende Liste wird aus der Tabelle mhh_searches gefüllt. Diese Tabelle wird automatisch aktualisiert, wenn zu Proben neue Annotationen oder Behandlungen über die Oberfläche hoch geladen werden, wie in Kapitel 3.4.2.2 beschrieben.

Wird, wie in Abb. 3.19 angedeutet, der Eintrag „IL1a” ausgewählt, so erscheinen in der Tabelle nur Rohdatensätze, in deren Namen „IL1a” vorkommt. Diese Art der Suche ist nur durch eine systematische Benennung der Rohdatensätze möglich. Durch die ausklappenden Suchbegriffe bekommt man eine Übersicht über die Inhalte, nach denen man suchen kann. Die Suche nach Zellsystemen funktioniert nach dem selben Schema. 3.4 Ergebnisse 65

Abb. 3.19: Erweiterte Suchfunktionalität in CytoBASE am Beispiel der Suche nach Behandlungen (Treatments) in Rohdatensätzen. Der Ausschnitt der Webseite zeigt die Einträge im Ausklappfeld, die aus der Tabelle mhh_searches erzeugt werden.

Intern stellt die PHP-Klasse Mhh_Searches die erweiterte Suchfunktionalität zur Verfügung. Der Quelltext ist weiter unten, nach einer kurzen Beschreibung der wichtigsten Elemente der Klasse, abgebildet. Der Konstruktor mhh_searches($searchtype) holt die Such-Einträge aus der Datenbanktabelle und liefert sie in einem Array zurück. Dieses wird aus dem entsprechenden Web-Formular mit Suchfunktionalität genutzt. Mit der Methode updateSearchTable($searchtype, $searchentry) werden Sucheinträge für Behandlungen oder Zellsystem zur Tabelle hingefügt, sofern diese noch nicht existieren. Diese Funktionalität wird zum Aktualisieren der Tabelle bei der Annotation von Proben bzw. beim Hinzufügen von Behandlungen benutzt (vgl. Kapitel 3.4.2.2).

class Mhh_Searches { //Axel Weber 2004-08-10 //-- type 0 is search on treatments //-- type 1 is search on celltypes //this function gets the searchtype entries from the database function mhh_searches($searchtype) { $searchtype = (int)$searchtype; $arr = array(); $arr = array( "_type" => SEARCH_COMPLEX_ENUM, "%" => "any"); $query = "SELECT display, pattern ". "FROM mhh_searches ". "WHERE type = ".$searchtype. 3.4 Ergebnisse 66

" ORDER BY pattern"; $res = query($query); while(list($disp, $patt)= db_fetch_row($res)) { $arr[$patt]=$disp; } return $arr; } //-- type 0 is search on treatments //-- type 1 is search on celltypes function updateSearchTable($searchtype, $searchentry){ $searchtype = (int)$searchtype; $query = "SELECT count(*) ". "FROM mhh_searches ". "WHERE type = ".$searchtype." ". "AND display = '".$searchentry."'"; $res = query($query); if($row =& db_fetch_row($res)) $cnt = $row[0]; else { return false; } if ($cnt == 0 ) { if ($searchtype == 0) $query = "INSERT INTO mhh_searches (type, display, pattern) ". "VALUES (".$searchtype.", '".$searchentry."', '%".$searchentry."%')"; else if ($searchtype == 1) $query = "INSERT INTO mhh_searches (type, display, pattern) ". "VALUES (".$searchtype.", '".$searchentry."', '".$searchentry."%')"; else $query = ""; if(!query($query)) return false; } return true; } function updateCellSystemNameSearch(){ $query = "SELECT DISTINCT annotation ". "FROM sampleannotation ". "WHERE `annotationType` = 2 ". "AND annotation NOT IN ". "(SELECT display FROM mhh_searches WHERE type = 1)"; $arr = array(); if(!($res = query($query))) return false; while($row =& db_fetch_row($res)) { if (!Mhh_Searches::updateSearchTable(1, $row[0])){ echo "Error while updating search for treatments\n"; } } return true; } function countEntries($searchtype, $world=true) { $query = "SELECT COUNT(DISTINCT display) ". "FROM mhh_searches ". "WHERE type = ".$searchtype; if ($world) $query .= "AND r.`worldAccess` = 1"; $res = query($query); if($row =& db_fetch_row($res)) return $row[0]; return false; } }

Für die neue Suchfunktionalität wurde für die oben beschriebene Klasse eine Datei neu erstellt:

InstallationsverzeichnisCytoBASE/include/classes/mhh_searches.inc.php

Da die Listenanzeigen von Proben (Samples), Rohdatensätzen (Raw data sets) und Analyse- gruppen (Analysis groups, in BASE: Experiments) die neue Suche enthalten, mussten die zu Grunde liegenden Klassendateien angepasst werden. Die Verweise auf die neuen Suchmöglichkeiten wurden in die folgenden Dateien eingefügt:

InstallationsverzeichnisCytoBASE/include/classes/experiment.inc.php InstallationsverzeichnisCytoBASE/include/classes/sample.inc.php InstallationsverzeichnisCytoBASE/include/classes/raw.inc.php 3.4 Ergebnisse 67

Die Verweise, die zur Aktualisierung der Suchtabelle führen, wurden in die Dateien aufgenommen, die zur Änderung von Behandlungen oder Zellsystem von Proben führen:

InstallationsverzeichnisCytoBASE/bin/massAnnotate.php InstallationsverzeichnisCytoBASE/bin/mhh_massTreatments.php InstallationsverzeichnisCytoBASE/bin/mhh_upd_cell_search.php

InstallationsverzeichnisCytoBASE/www/mhh_sample_massannot.phtml InstallationsverzeichnisCytoBASE/www/mhh_sample_masstreat.phtml InstallationsverzeichnisCytoBASE/www/sample_massannot.phtml

3.4.3.2 Export von Daten BASE enthält viele unterschiedliche Formate für den Export von Daten. Die entstehenden Dateien sind aber nach Import in ein Tabellenkalkulationsprogramm nicht gut lesbar, da die Daten keine Überschriften enthalten.

In CytoBASE wurden vier Exportformate hinzugefügt, deren Ausgabe in Tabellenform besser lesbar ist. Damit sollte die Bedienung von CytoBASE weiter vereinfacht werden. In Abb. 3.20 ist die Exportseite für eine Ergebnisgruppe aus der Beispielanalysegruppe „New Analysis”, die für das Benutzerhandbuch erstellt wurde, abgebildet. Die neuen Exportformate, die „MHHfile” im Namen tragen, besitzen die gleiche Exportlogik, wie deren Pendants mit „BASEfile” im Namen, denn sie leiten sich im Quelltext direkt von ihnen ab (siehe unten). Das heißt, bei gleicher Auswahl im Exportformular von BASE und dem entsprechenden neuen Exportformular in CytoBASE werden die selben Daten exportiert. 3.4 Ergebnisse 68

Abb. 3.20: Anzeige der Exportseite in CytoBASE. Diese Exportmöglichkeiten werden angezeigt, wenn man bei der Ergebnisgruppe „IL1a 1h twofold regulated genes” aus der Analysegruppe „New Analysis” dem Verweis auf Datenexport folgt. Die Dateiformate mit „MHHfile” im Namen sind Erweiterungen in CytoBASE. Das Dateiformat „Custom MHHfile (normal)” ist am besten für den Import in ein Tabellenkalkulationsprogramm geeignet und deshalb abgesetzt von den restlichen Formaten unterhalb der Liste dargestellt.

Das Dateiformat „Custom MHHfile (normal)” ist am besten für den Import in ein Tabellenkal- kulationsprogramm geeignet und wird deshalb hier näher beschrieben. Im Exportvorgang für dieses Format kann der Nutzer frei wählen, welche Felder aus der Datenbank herausge- zogen werden. Als Ergebnis des Exports wird eine Textdatei ausgegeben, die über den Web- Browser angezeigt oder gespeichert werden kann. Diese Exportdatei enthält durch Tabulatorzeichen getrennte Werte. In den Kopfzeilen stehen die Informationen zum Dateiformat und zu den enthaltenen Daten (siehe Tab. 3.5). In Tab. 3.5 fällt eine Neuerung von CytoBASE auf: Die Namen der „Analyzed data sets” sind wesentlich aussagekräftiger als in BASE (siehe Kapitel 3.4.2.4) und erleichtern die Einordnung der Daten, denn sie enthalten neben dem Namen der Ergebnisgruppe die Beschreibung des Rohdatensatzes, der das Kürzel der experimentellen Gruppe darstellt. 3.4 Ergebnisse 69

Folgend werden die Erweiterungen des Exportformates „Custom MHHfile (normal)” aus CytoBASE gegenüber dem „Custom BASEfile (normal)” aus BASE erläutert: In der zweiten Kopfzeile ist die Anzahl der erzeugten Datenspalten angegeben, um dem Nutzer anzuzeigen, ob die Datei ohne Verlust in ein Tabellenkalkulationsprogramm zu importieren ist. Die „Analyzed data sets” (in BASE „BioAssays”) werden nicht durch ihre interne Nummer wie in BASE gekennzeichnet, sondern erhalten als Kennzeichnung eine Kombination aus „Set#” und einer laufenden Nummer (vgl. Tab. 3.5 ab Zeile sechs). Mit dieser Benennung lassen sich die Spalten für den Datenbereich effektiv beschriften. Nach den Kopfzeilen folgt nach einer Leerzeile die Überschriftszeile für die Daten. Die Überschriften zu den Datenspalten sind in CytoBASE sprechend und setzen sich zusammen aus „Set#” und Nummer, einem Unterstrich „_” und dem ausgewählten Datenbankfeld. Die Spaltenüberschrift im ersten Datensatz für das Verhältnis der Expressionswerte aus Kanal eins und zwei wäre dann im Set#1_ratio1_2. Unter der Überschriftenzeile folgen wie in BASE die Daten. Eine Zeile im Datenbereich enthält alle zuvor ausgewählten Daten für eine Gensonde und alle „Analyzed data sets.

Tab. 3.5.: Beispiel für die Einträge in den Kopfzeilen einer Exportdatei des Formats „Custom MHHfile (normal)” in CytoBASE. Nähere Beschreibung im Text.

Zeile Eintrag

1 CytoBASE: MHH export file - Normal format 2 Number of columns: 8 3 Maximum of numbers of columns in Excel sheets: 256 4 5 Analyzed data set name 6 Set#1 IL1a 1h twofold regulated genes #01: G160__S01/B 7 Set#2 IL1a 1h twofold regulated genes #02: G158a__S07/B 8 Set#3 IL1a 1h twofold regulated genes #03: G123__S03/B 9 Set#4 IL1a 1h twofold regulated genes #04: G079__S01/B 10 Set#5 IL1a 1h twofold regulated genes #05: G044__S01/B 11 Set#6 IL1a 1h twofold regulated genes #06: G124__S01/B 12 Set#7 IL1a 1h twofold regulated genes #07: G047__S03/B

Für die Anzeige des Formulars zum Export wie in Abb. 3.20 wurde die Datei

InstallationsverzeichnisCytoBASE/www/gene_export.phtml um die Verweise auf die neuen Exportfunktionalitäten und die Beschreibungen aller Exportformate erweitert. Das Exportformular gene_export.phtml bindet zwei Dateien über den Befehl require_once ein und benutzt so deren Funktionalitäten. Die eigentlichen Exportfunktionen für die neuen Formate wurden deshalb in diesen Dateien eingefügt:

InstallationsverzeichnisCytoBASE/include/classes/basefile_spots.inc.php InstallationsverzeichnisCytoBASE/include/classes/bioassay.inc.php

Wie oben angedeutet, wurde die Algorithmik aus den schon vorhandenen Funktionen übernommen und lediglich die Art der Ausgabe geändert. Dazu wurden die entsprechenden Funktionen in neue Funktionen mit „mhh” im Namen kopiert und dort abgeändert, wo es nötig war. Tab. 3.6 gibt eine Überblick über die Originalfunktionen und die daraus erzeugten 3.4 Ergebnisse 70

Funktionen. Zwei der drei Funktionen wurden um einen Übergabeparameter erweitert, der es ermöglicht, auch die Namen der „Analyzed data sets” in der Datei auszugeben.

Tab. 3.6: Neue PHP-Funktionen zum vereinfachten Datenexport aus CytoBASE. Dargestellt sind die Funktionen mit deren Parameterliste in Klammern.

Abgewandelte Funktion in Datei Originalfunktion in BASE CytoBASE

bioassay.inc.php exportSearchCb mhhexportSearchCb (&$buffer, $assayid, &$genes, (&$buffer, $assayid, &$genes, $callback, $assoc = true) $callback, $assoc = true, $name="") basefile_spots.inc.php createSpotsBaseFile createSpotsMHHFile (&$user, &$set, &$exp, $fd, (&$user, &$set, &$exp, $fd, &$prog, $genesearch, &$prog, $genesearch, $valuesearch, &$settings, $valuesearch, &$settings, $terminationCallback = NULL) $terminationCallback = NULL) SBFCserialCB(&$arr) mhhSBFCserialCB(&$arr, $setname)

3.4.4 Qualitätskontrolle der Daten über PlugIn

3.4.4.1 Einleitung Die Rohdaten (Raw data sets) in CytoBASE enthalten für alle Gensonden die vollständigen Informationen von beiden Spot-Duplikaten in beiden Kanälen (vgl. Kapitel 3.3.1). Eine Filterung der Daten nach bestimmten Qualitätskriterien wurde vor oder bei dem Import nicht durchgeführt. Sieht man davon ab, dass durch die Einstellungen des Imagene- Programms zum Beispiel keine negativen Intensitätswerte entstehen können, so sind die Daten in CytoBASE als ungefilterte und rohe Daten aufzufassen.

Demgegenüber enthalten die Ergebnisdateien der Standardauswertung pro Gensonde qualitätsgefilterte und gemittelte Werte aus den beiden Spot-Duplikaten. In der routinemä- ßigen Datenauswertung findet für jede Hybridisierung eine Qualitätskontrolle der Rohdaten statt. Die Werte der Spot-Duplikate werden untereinander verglichen und nach Qualitätskri- terien eingestuft. Als Ergebnis dieser Datenbearbeitung werden die Kriterien dokumentiert und qualitativ minderwertige Spots herausgefiltert. Anschließend wird für der Mittelwert der Intensitätswerte Ic3pc und Ic3 aus den Spot-Duplikaten als Ergebnis für das entsprechende Gen verwendet (vgl. Kapitel 2.2.5.3). Somit ist der Inhalt der Ergebnis-Übersichtsdateien einerseits qualitativ verbessert andererseits durch Zusammenfassen vereinfacht. Die Ergebnis-Übersichtsdateien werden an Kooperationspartner ausgeliefert und sind auch für jede experimentelle Gruppe in der entsprechenden Analysegruppe als Dokumentation der Ergebnisse der experimentellen Gruppe in CytoBASE abgelegt.

BASE und CytoBASE mitteln für gleiche Sonden Werte bei der Ausgabe auf Wunsch automatisch. Sofern es gewünscht wird, lassen sich auch die Daten aus den beiden Kanälen ganz einfach wieder getrennt exportieren und somit die beiden „Pseudokanäle” voneinander trennen. Damit ist ein Vereinfachen der Ausgabe in CytoBASE sehr wohl möglich, aber die Daten enthalten weiterhin „falsch” messende Spots, da keine Qualitätskontrolle durchgeführt wurde.

Ziel Um diese Unterschiede zwischen den Daten in CytoBASE und den Ergebnisdateien der Standardauswertung aufzulösen, wurde ein Programm entwickelt, das als PlugIn in CytoBASE die Qualitätskriterien der Standardauswertung auf die Daten in CytoBASE 3.4 Ergebnisse 71 anwenden kann. Damit bekommt der Nutzer die Möglichkeit, in CytoBASE mit gleichartig qualitätsgefilterten Daten zu arbeiten.

3.4.4.2 Arbeitsweise des Programms MHHSpotFlagging Das Programm MHHSpotFlagging ist ein Java-Programm, das über die Benutzeroberfläche von CytoBASE gestartet wird. Es hat zwei grundsätzlich verschiedene Funktionalitäten und wurde deshalb in CytoBASE so installiert, dass es für den Nutzer in zwei unterschiedlichen PlugIns erscheint:

1) Markierung der Qualität der Spots – „MHH: spot flagging” Das PlugIn kontrolliert die Daten nach den eingegebenen Qualitätsparametern und weist jedem Spot einen Wert für dessen Qualität in einer eigens erzeugen Datenbankspalte zu. Mit diesem Plugin kann man die Auswirkung von verschiedenen Qualitätsparametern studieren, in dem man die Ergebnisse der Markierungen der Spots vergleicht.

2) Zusammenfassen der Spots – „MHH: spot merging” Das PlugIn kontrolliert die Daten nach den eingegebenen Qualitätsparametern genauso wie das PlugIn „MHH: spot flagging”, entfernt aber die qualitativ minderwertigen Spots, bildet anschließend die Mittelwerte der Spot-Duplikate und halbiert dabei die Anzahl von Spots im System. Wenn die Qualitätsparameter der Vorgabe und somit der Standardauswertung übernommen wurden, entspricht der so erzeugte Tochterdatensatz im Inhalt und in der Anzahl der Werte der Ergebnis- Übersichtsdatei.

Die beiden PlugIns arbeiten in CytoBASE als Transformation. Das bedeutet, sie erhalten Daten aus der Datenbank, verarbeiten diese und liefern Daten an das System zurück. MHHSpotFlagging nimmt beim Aufruf von CytoBASE die Datei stdin.txt im Format „BASE- File” entgegen, liest die Daten ein, wertet sie aus und schreibt die Ergebnisse in die Datei stdout.txt des selben Formats zurück. stdout.txt wird dann von dem PlugIn- Mechanismus in CytoBASE ausgewertet und die enthaltenen Ergebnisdaten werden dann als Tochterdatensätze zu den Ausgangsdatensätzen abgelegt (siehe Abb. 3.21). Die Ausgangsdaten werden dadurch nicht verändert und bleiben jederzeit zugreifbar. Die Ausgangsdatensätze sind die analysierten Datensätze, die in einer Ergebnisgruppe enthalten sind.

Für jeden analysierten Datensatz, der einen Arrayvergleich aus zwei Hybridisierungen (in zwei Kanälen) darstellt (vgl. Kapitel 2.2.2), wird über das PlugIn ein Tochterdatensatz erzeugt, der als Teil der neuen Tochterergebnisgruppe gespeichert wird. Im Beispiel der Abb. 3.21 hat die Ergebnisgruppe „Ic” vier analysierte Datensätze, die mit dem PlugIn „MHH: spot merging” verarbeitet wurden und in der Tochterergebnisgruppe „Ic quality merged” abgelegt wurden.

Ein PlugIn wird für eine Ergebnisgruppe gestartet, indem in der Darstellung einer Analysegruppe eine Ergebnisgruppe ausgewählt und dem Link „Run application on all” gefolgt oder in der entsprechenden Zeile auf das Symbol mit dem laufenden Mann geklickt wird. Nach der Auswahl des zu benutzenden PlugIns erscheint ein Formular, das es gestattet, die Einstellungen (Parameter) für den Programmlauf zu bestimmen. Ein Beispiel dazu ist in Abb. 3.22 dargestellt.

Rückgabe der Daten an CytoBASE Bei dem PlugIn „MHH: spot flagging” kann der Nutzer auch die berechneten Werte zu den Spotqualitäten ausgeben lassen (vgl. Abb. 3.22) und somit den Vorgang der Qualitätskontrolle bequem über die Weboberfläche kontrollieren. 3.4 Ergebnisse 72

Im Programmlauf nach Starten des PlugIns „MHH: spot merging” werden die Informationen zur Spotqualität bei der Filterung der Daten genutzt. Das heißt, die vom PlugIn „MHH: spot merging” zurückgelieferten Mittelwerte ergeben sich aus den Daten ohne die Daten der als Spots schlechter Qualität markierten Spots.

Abb. 3.21: Anzeige der Analysegruppe „HeLa tTA HA286” in CytoBASE. Die Ergebnisgruppe „Ic quality merged” ist aktiviert. Sie ist die „Tochterergebnisgruppe” von „Ic”, die durch Anwendung des PlugIns „MHH: spot merging” entstanden ist. Dieses PlugIn erzeugt Mittelwerte aus Spot-Duplikaten, deshalb hat diese Ergebnisgruppe nur die halbe Anzahl Spots, verglichen zur Ausgangsgruppe. Ein PlugIn läßt sich für eine Ergebnisgruppe starten, indem man dem Link „Run application on all” folgt oder in der entsprechenden Zeile auf das Symbol mit dem laufenden Mann klickt. 3.4 Ergebnisse 73

Abb. 3.22: Ausschnitt aus dem Web-Formular zum Starten des PlugIns „MHH: spot flagging” in CytoBASE. Die Voreinstellungen für die Qualitätskriterien für die Spot-Duplikate sind änderbar oder können von der Benutzung ausgeschlossen werden. Das wichtigste und aussagekräftigste Kriterium steht oben, das am wenigsten wichtige Kriterium steht unten. Das Programm benutzt ein Kriterium nur, wenn keines der übergeordneten Kriterien deaktiviert ist oder kein übergeordnetes Kriterium existiert. In der Zeile Output kann gewählt werden, ob die berechneten Werte ausgegeben werden oder nicht. Eine Beschreibung der Qualitätskriterien wird in Tab. 3.7 und im Text gegeben.

3.4.4.3 Datenformat für den Import und Export MHHSpotFlagging ist ein Java-Programm, das beim Aufruf aus CytoBASE die Datei stdin.txt im Format „BASE-File” entgegennimmt, diese einliest, auswertet und die Ergebnisse in die Datei stdout.txt des selben Formats schreibt. Die Datei stdout.txt wird von dem PlugIn-Mechanismus in CytoBASE ausgewertet und die enthaltenen Datensätze als Tochterdatensätze zu den Ausgangsdatensätzen erzeugt (vgl. Abb. 3.21).

BASE-Files sind Text-Dateien in einem festgelegten Format, die Daten aus vielen analysierten Datensätzen (in BASE: BioAssays) enthalten können. Dateien diesen Formats enthalten immer in der ersten Zeile ausschließlich den Text „BASEfile”. Danach folgt eine beliebige Anzahl von Abschnitten. Jeder Abschnitt wird eingeleitet durch eine Zeile mit dem Text „section” gefolgt von einem Leerzeichen und dem Namen des Abschnittes. Darunter folgen Zeilen mit Parametern des Abschnittes. Der Datenbereich des Abschnittes wird eingeleitet durch eine Zeile die nur ein Prozentzeichen enthält. Als Trennzeichen zwischen Daten dient das Tabulatorzeichen.

Es existieren zwei Varianten des Formats: In der „seriellen” Form sind die Datensätze von BioAssays untereinander angeordnet. In der „normalen” Form stehen die Datensätze nebeneinander. Die „normale” Form ist übersichtlicher für das menschliche Auge, hat aber den Nachteil, dass sie aus CytoBASE heraus bei umfangreicheren Auswertungen sehr langsam aufgebaut wird, weil sehr viele Daten gleichzeitig in den Speicher der Maschine geladen werden müssen. Das serielle Format eignet sich für Berechnungen besser, da für den Export aus CytoBASE die Daten der BioAssays nacheinander und damit viel schneller 3.4 Ergebnisse 74 verarbeitet werden.

Das Programm MHHSpotFlagging wurde deshalb in einer zweiten Entwicklungsphase auf das von CytoBASE schneller zu verarbeitende serielle Dateiformat umgestellt. Das ergab eine mindestens 15-fach schnellere Erzeugung der Tochterdatensätze gegenüber dem „normalen” Format.

3.4.4.4 Qualitätskriterien als Programmparameter Das Programm wird aus den Formularen für das PlugIn „MHH: spot flagging” oder das Plugin „MHH: spot merging” gestartet. Werden die Vorgaben für die Qualitätskriterien vom Nutzer nicht geändert, so bearbeitet das Programm die Daten genauso, wie dies in der Standardauswertung für die Erzeugung der Ergebnis-Übersichtsdatei der Fall ist. Das heißt, man hat die Möglichkeit qualitätskontrollierte Daten zu erzeugen, die übereinstimmen mit den Daten in der Ergebnis-Übersichtsdatei. Weiterhin gestatten beide Formulare die Änderung und das Deaktivieren der Qualitätskriterien (siehe Abb. 3.22). Damit besteht die Möglichkeit, die Stringenz der Filterung der Spots zu beeinflussen und die Qualitätskontrolle an die Güte der Daten anzupassen.

In Tab. 3.7 werden die Qualitätskriterien beschrieben, die das Programm MHHSpotFlagging verwendet: Es sind drei Kriterien für die Spotqualität und ein aus zwei Parametern zusammengesetztes Kriterium für die Qualität der Intensitätsberechnung im Programm MAVI. Die Abarbeitung dieser Qualitätskriterien erfolgt streng hierarchisch. Das Programm benutzt ein Kriterium nur, wenn keines der übergeordneten Kriterien deaktiviert ist oder kein übergeordnetes Kriterium existiert. Folgend werden die Vorgaben für die Kriterien nach aufsteigender Wichtigkeit beschrieben (s. a. Abb. 3.22).

● Die MAVI-Kriterien werden nur angewendet, wenn alle anderen Kriterien auch genutzt werden. Als Vorgaben wurden folgende Schwellenwerte festgelegt: Die Intensität muss größer sein als 10000 Einheiten und der Unterschied in den Steigungen der Regressions- geraden zwischen Spot und dessen Duplikat muss größer als 0,015 sein. Die Anwendung dieses Kriteriums soll Randeffekte der Bearbeitung mit dem Programm MAVI beseitigen, die nur selten und bei hohen Intensitäten auftreten. ● Die Schwelle für den Unterschied der Hintergrundintensitäten von Spot und dessen Duplikat ist auf den Faktor 1,3 (fold change) voreingestellt. Dieses Kriterium greift nur, wenn auch die Kriterien für die Ähnlichkeit der Vordergrundintensitäten und für die Spot- Homogenität verwendet werden. ● Das Kriterium für die Ähnlichkeit der Spot-Homogenität zwischen Spot und dessen Duplikat entspricht dem Unterschied der Standardabweichung der Intensitäten der einzelnen Pixel innerhalb eines Spots. Die Schwelle dafür ist auf den Faktor 2 (fold change) voreingestellt. Dieses Kriterium greift nur, wenn auch das Kriteriun für die Ähnlichkeit der Vordergrundintensitäten verwendet wird. ● Das wichtigste Kriterium für die Beurteilung der Spotqualität ist die Ähnlichkeit der Hintergrund-korrigierten Signalintensitäten zwischen Spot und dessen Duplikat. Der Schwellenwert für den Unterschied der Intensität ist auf den Faktor 1,538495 (fold change) voreingestellt. Das entspricht bei zwei Werten einem Variationskoeffizienten von 0,3. Die Voreinstellung der Schwellenwerte für die Qualitätskriterien ist so gewählt, dass nur sehr starke Ausreißer als Spots minderer Qualität markiert werden. 3.4 Ergebnisse 75

Tab. 3.7.: Qualitätskriterien für den Programmlauf von MHHSpotFlagging in CytoBASE Das Programm wird aus den Formularen für das PlugIn „MHH: spot flagging” oder das Plugin „MHH: spot merging” gestartet. Die Formulare enthalten Vorgaben für die Qualitätskriterien (vgl. Abb. 3.22). Das wichtigste und aussagekräftigste Kriterium steht oben, das am wenigsten wichtige Kriterium steht unten. Das Programm benutzt ein Kriterium nur, wenn keines der übergeordneten Kriterien deaktiviert ist oder kein übergeordnetes Kriterium existiert.

Qualitätskriterium Bedeutung Berechnung (Bezeichnung im Web-Formular)

Minimal fold change Maß für die Ähnlichkeit der Grenzwert für den Faktor, um den die of intensity between Stärke der Intensität Intensität des Spots mit dem höheren Wert replicated spots zwischen Spot-Duplikaten größer ist als der des entsprechenden Spot-Duplikates. Der Faktor wird intern umgerechnet in den Varianzkoeffizienten für die Werte von zwei Spots. Minimal fold change Maß für die Ähnlichkeit der Grenzwert für den Faktor, um den die of sstd between Gleichmäßigkeit der Standardabweichung der Intensitätswerte des replicated spots Intensität zwischen Spots mit dem größeren Wert größer ist als Spot-Duplikaten der des entsprechenden Spot-Duplikates. Minimal fold change Maß für die Ähnlichkeit der Grenzwert für den Faktor, um den die of bgmean between Stärke der Intensität des Spothintergrundes mit dem replicated spots Hintergrundintensität größeren Wert größer ist als der des zwischen Spot-Duplikaten entsprechenden Spot-Duplikates. Minimal MAVI slope Maß für die Ähnlichkeit der Grenzwert für die Differenz der Steigung aus difference between linearen Regression in MAVI der lineraren Regression in MAVI für den Spot replicated spots zwischen Spot-Duplikaten mit dem höheren Wert und der Steigung des entsprechenden Spot-Duplikates.

Minimal mean im vorgegebenen Die Berechnung wird nur durchgeführt, wenn intensity of repl. Intensitätsbereich der Mittelwert der Intensitäten aus beiden spots for MAVI effects Spot-Duplikaten über der angegebenen Intensität liegt.

Das Programm nutzt die übergebenen Qualitätsparameter zum Vergleich der Spot- Duplikate. Stark voneinander abweichende Spot-Duplikate entsprechen nicht den Qualitätskriterien und werden markiert. Wie das geschieht wird weiter unten beschrieben. Als Ergebnis der Berechnungen und Vergleiche weist MHHSpotFlagging jedem Spot eine Markierung („MHH_flag”) für die Qualität zu (vgl. Tab. 3.8).

Zu beachten ist, dass in CytoBASE immer Zweikanaldaten gespeichert sind. Diese setzen sich aber in unserem Fall aus Daten zusammen, die von zwei verschiedenen Arrays stammen, die im Einkanalverfahren hybridisiert wurden. Um der Tatsache Rechnung zu tragen, dass die beiden Kanäle eines Spots in CytoBASE aus verschiedenen Hybridisierungen und damit auch aus verschiedenen Spots stammen, werden die Qualitätskriterien auf die Kanäle eines Spots getrennt angewendet. Die Information zu Qualität eines Spots in den beiden Kanälen wird dann nach dem Schema in Tab. 3.8 zu einem kodierten Wert („MHH_flag”) zusammengefasst. Dieser Wert ermöglicht in CytoBASE ein Filtern der Spots getrennt nach der Qualität in den verschiedenen Kanälen und damit nach der Qualität der Spots aus beiden Einkanalhybridisierungen.

Wird das Progamm als PlugIn „MHH: spot flagging” gestartet, dann werden diese Werte in CytoBASE in eine Extraspalte mit dem Namen „MHH_flags” zu den Daten der Spots in den resultierenden analysierten Datensätzen geschrieben. 3.4 Ergebnisse 76

Tab. 3.8.: Markierung der qualitativ minderwertigen Spots im Programm MHHSpotFlagging Die Werte werden in CytoBASE in die Extraspalte „MHH_flags” zu den Daten der resultierenden analysierten Datensätze geschrieben, wenn das Progamm als PlugIn „MHH: spot flagging” gestartet wurde. Im Programmlauf nach Starten des PlugIns „MHH: spot merging” werden diese Informationen zur Filterung der Daten genutzt.

Markierungscode Bedeutung (Wert in der Spalte „MHH_flags”)

0 Spot ist nicht markiert 1 Spot in Kanal 1 ist markiert 2 Spot in Kanal 2 ist markiert 3 Spot in Kanal 1 und Spot in Kanal 2 sind markiert

Die Kernfunktionalität der Qualitätsmarkierung von Spots ist in der Methode setQualityFlags der Hilfsklasse ControlReplicatedSpots enthalten. Sie wird bei jedem Programmlauf aufgerufen und belegt alle Spots nach den Qualitätsparametern mit einem Wert für „MHH_flag”. Die Arbeitsweise der Methode wird im folgenden Text erläutert:

● Die Methode setQualityFlags bekommt eine Liste aller Spots eines Arrayvergleiches aus CytoBASE übergeben und hat Zugriff auf die Qualitätsparameter des Programmlaufes. ● Jeder Spot wird durch ein Objekt der Klasse SpotPositionSortable repräsentiert, das alle Daten, die für Kanal 1 und Kanal 2 aus CytoBASE exportiert wurden, enthält. Das Attribut „mhh_flag” nimmt am Ende der Berechnungen den Wert auf, der die Spotqualität in beiden Kanälen in kodierter Form darstellt (Tab. 3.8). Die Voreinstellung für „mhh_flag” ist null. ● Die Liste der Spots wird nach der Position auf dem Array sortiert. Die darauf folgenden Qualitätsberechnungen werden immer aus dem Vergleich von Daten aus einem Kanal eines Spot aus der ersten Hälfte des Arrays mit der Entsprechung in dessen Duplikat aus der zweiten Hälfte des Arrays durchgeführt. ● Die Vergleichswerte für die vier Qualitätskriterien aus Tab. 3.7 werden für jeden Spot aus den folgenden Werten separat berechnet: „Spot Kanal 1” verglichen mit „Duplikat Kanal 1” „Spot Kanal 2” verglichen mit „Duplikat Kanal 2”. ● Die errechneten Werte für die Spotqualitäten werden für jeden Spot und jeden Kanal verglichen mit den Qualitätsparametern (Schwellenwerten) des Programmlaufes und als Wahrheitswerte für jedes Kriterium separat gesichert. ● Danach werden für jeden Spot die Informationen aus beiden Kanälen ausgewertet. Dazu werden die Wahrheitswerte zu den einzelnen Qualitätskriterien für jeden Spot getrennt nach Kanälen ausgewertet, wobei die Kriterien streng nach der weiter oben beschriebenen Hierarchie abgearbeitet werden. Ein Qualitätskriterium wird nur dann verwendet, wenn keines der übergeordneten Kriterien deaktiviert ist oder kein übergeordnetes Kriterium existiert. ● Die Ergebnisse der Qualitätsbewertung beider Kanäle werden schließlich für jeden Spot über die Methode setMhh_flag kombiniert und nach dem Kodierungsschema in Tab. 3.8 als Zahlenwert im Attribut „mhh_flag” gespeichert. ● Es folgt ein Auszug aus dem Java-Quelltext der Methode setQualityFlags, der die Logik für die Markierung eines Spots und seines Duplikates enthält. 3.4 Ergebnisse 77

Die Variablen, die mit „is_” beginnen enthalten Wahrheitswerte aus der Qualitätsberechnung.

Eine Oder-Verknüpfung „||” bedeutet, dass ein wahrer Wert genügt, um als Ergebnis den Wert „wahr” zu erhalten.

Eine Und-Verknüpfung „&&” bedeutet, dass alle Werte wahr sein müssen, um als Ergebnis den Wert „wahr” zu erhalten.

Die Methode setMhh_flag kombiniert die Wahrheitswerte aus Kanal 1 und Kanal 2 und speichert den Zahlenwert für „mhh_flag” nach dem Kodierungsschema in Tab. 3.8.

/* * * Set flags according to boolean logic for spot and replicated spot * */ /* * Spot factor: absolute value of fraction represents the coefficient of variance */ if (is_spot_factor_used) { if (!is_sstd_factor_used && !is_bg_factor_used && !is_mavi_used) { spot.setMhh_flag(is_spot_factor_Ch1flag, is_spot_factor_Ch2flag); replicate.setMhh_flag(is_spot_factor_Ch1flag, is_spot_factor_Ch2flag); } /* * Spot uniformity */ if (is_sstd_factor_used && (is_spot_factor_Ch1flag || is_spot_factor_Ch2flag)) { spot.setMhh_flag(is_sstd_factor_SpotCh1flag && is_spot_factor_Ch1flag, is_sstd_factor_SpotCh2flag && is_spot_factor_Ch2flag); replicate.setMhh_flag(is_sstd_factor_ReplicateCh1flag && is_spot_factor_Ch1flag, is_sstd_factor_ReplicateCh2flag && is_spot_factor_Ch2flag); } /* * Background similarity */ if (is_bg_factor_used && (is_spot_factor_Ch1flag || is_spot_factor_Ch2flag)) { spot.setMhh_flag(is_bg_factor_SpotCh1flag && is_spot_factor_Ch1flag, is_bg_factor_SpotCh2flag && is_spot_factor_Ch2flag); replicate.setMhh_flag(is_bg_factor_ReplicateCh1flag && is_spot_factor_Ch1flag, is_bg_factor_ReplicateCh2flag && is_spot_factor_Ch2flag); } /* * MAVI Qualitiy */ if (is_mavi_used && (is_spot_factor_Ch1flag || is_spot_factor_Ch2flag)) { spot.setMhh_flag(is_mavi_SpotCh1flag && is_spot_factor_Ch1flag, is_mavi_SpotCh2flag && is_spot_factor_Ch2flag); replicate.setMhh_flag(is_mavi_ReplicateCh1flag && is_spot_factor_Ch1flag, is_mavi_ReplicateCh2flag && is_spot_factor_Ch2flag); } }

3.4.4.5 Software-Entwurf von MHHSpotFlagging

Klassenhierarchie und Zusammenarbeit der Objekte MHHSpotFlagging ist eine Java-Konsolenanwendung die aus zwei Java-Paketen aufgebaut ist und in der Datei MHHSpotFlagging.jar zusammengefügt ist. Das Paket base.baseFile enthält die Funktionalitäten zum Auslesen von BASE-Files und wurde vollständig aus dem PlugIn Rank von Johann Enell übernommen. Im zweiten Paket ist die Logik zur Bearbeitung und Ausgabe der eigentlichen Daten enthalten. Dieses Paket heißt base.MHHSpotFlagging.

Das Programm MHHSpotFlagging basiert in Teilen auf dem Plugin Rank. Rank wurde in der Abteilung für Onkologie, Lund Universität, Schweden für BASE entwickelt (Copyright 2004 Johan Enell) und ist freie Software im Sinne der „GNU General Public License” wie sie von 3.4 Ergebnisse 78 der Free Software Foundation veröffentlicht wird (Version 2 der Lizenz oder jede spätere Version). Rank enthält das Java-Paket baseFile mit Klassen für die sichere Bearbeitung von den oben beschriebenen BASE-Files (Abb. 3.23). Die Klasse BASEFileReader liest mit Hilfe der Klasse BASEFileSection die Abschnitte einer Datei im Format BASE-File ein und stellt die Daten bereit für eine weitere Bearbeitung. Die Klassen mit Exception im Namen stellen die Behandlungen von Fehlern bei der Verarbeitung von Dateien sicher und generieren verständliche Fehlermeldungen.

Das Paket baseFile und die grundlegende Programmlogik zum Bearbeiten von Spotdaten wurden in MHHSpotFlagging aus dem PlugIn Rank übernommen.

Abb. 3.23: Klassendiagramm des Paketes base.baseFile als Bestandteil von MHHSpotFlagging.jar. Die Klassen BASEFileReader und BASEFileSection stellen die Funktionalitäten zum Einlesen von Dateien im Format BASE-File zur Verfügung. Die Klassen mit Exception im Namen stellen die Behandlungen von Fehlern bei der Verarbeitung von Dateien sicher und generieren verständliche Fehlermeldungen.

Das Java-Paket base.MHHSpotFlagging fasst die Logik zur Programmsteuerung und die Algorithmik zur Bearbeitung und Ausgabe der eigentlichen Daten zusammen. Das Paket umfasst fünf Klassen, die in Abb. 3.25 dargestellt sind.

Das Programm MHHSpotFlagging wird über die Methode main der Klasse Main gesteuert. Das Sequenzdiagramm in Abb. 3.24 verdeutlicht den Programmablauf, der im Folgenden kurz beschrieben wird:

● Beim Programmstart wird ein Objekt b der Klasse BASEFileReader erzeugt, das die Datei stdin.txt öffnet und deren Abschnitte später zur Verfügung stellt. ● Die Ergebnisse sollen in die Datei stdout.txt geschrieben werden, deshalb wird dafür ein Datenstrom a erzeugt. Die Ergebnisse aus den verschiedenen Programmteilen werden später über diesen Strom in die Datei geschrieben. ● Ein Objekt qC der Klasse QualityControl wird erstellt. Die Klasse enthält die Methoden zur Bearbeitung der Abschnitte der Datei stdin.txt und nimmt die Programmparameter auf. 3.4 Ergebnisse 79

● In einer Schleife werden vom Objekt b über die Methode readSection nacheinander alle Abschnitte der Datei stdin.txt geholt und an die Methoden des Objektes qC übergeben, die die Auswertung der Abschnitte vornehmen. Die Methode extractSettings macht die beim Aufruf des PlugIns übergebenen Parameter zum Programmlauf für das Programm verfügbar, indem sie sie im Objekt qC speichert. Die Methode extractAssays verarbeitet die Informationen zu den „BioAssays” und schreibt die Informationen in die Ausgabedatei stdout.txt Die Methode extractSingleAssaySpots verarbeitet die Informationen aus dem Datenteil. Sie nimmt die Daten der einzelnen Spots in einer „ArrayList” auf und delegiert die Verarbeitung der Daten Spots an drei verschiedene statische Methoden der Hilfsklasse ControlReplicatedSpots (vgl. Abb. 3.25):

Wird das Programm aus dem PlugIn „MHH: spot flagging” mit der Vorgabe gestartet, die errechneten Qualitätsparameter zu exportieren (vgl. Abb. 3.22), so wird die Methode ControlReplicatedSpots.controlSpotQualityParameters aufgerufen. Diese bewertet die Spotqualiät anhand der Programmparameter durch Vergleich mit dem Spot-Duplikat und schreibt die Intensitätswerte und die errechneten Qualitätsparameter zu jedem Spot in den Datenteil der Ausgabedatei.

Erfolgt der Aufruf des PlugIns „MHH: spot flagging” ohne die Ausgabe der errechneten Qualitätsparameter zu fordern (vgl. ), so wird die Methode ControlReplicatedSpots.controlSpotQuality aufgerufen. Diese bewertet die Spotqualiät anhand der Programmparameter durch Vergleich mit dem Spot-Duplikat und schreibt nur die Intensitätswerte zu jedem Spot in den Datenteil der Ausgabedatei.

Wird das Programm aus dem PlugIn „MHH: spot merging” gestartet, so wird die Methode ControlReplicatedSpots.filterAndMergeForSpotQuality aufgerufen. Diese bewertet die Spotqualität anhand der Programmparameter durch Vergleich mit dem Spot-Duplikat, filtert die Spots minderer Qualität heraus und mittelt schließlich die Intensitätswerte der Spot-Duplikate. Der daraus resultierende Tochterdatensatz hat dadurch nur die halbe Anzahl an Spots (vgl Abb. 3.21).

Die Methode setQualityFlags der Hilfsklasse ControlReplicatedSpots birgt die Kernfunktionalität des Programmes. Sie wird bei jedem Programmlauf von MHHSpotFlagging aufgerufen und belegt alle Spots nach den Qualitätsparametern mit einem Wert für „MHH_flag”, der die Qualität beider Kanäle nach der Kodierung, die in Tab. 3.8 gezeigt ist, zusammenfasst. Die Funktionsweise der Methode ist weiter vorne beschrieben. 3.4 Ergebnisse 80

Abb. 3.24: Sequenzdiagramm für den Programmablauf von MHHSpotFlagging.jar. Das Programm wird über die Methode main der Klasse Main gesteuert. Diese erzeugt ein Objekt der Klasse BASEFileReader, das die Datei einliest und über readSection bereitstellt. Die Ergebnisse werden in eine Datei über den entsprechenden Datenstrom geschrieben. Die Bearbeitung der Datei mit Qualitätskontrolle erfolgt im Objekt der Klasse QualityControl. Weitere Erklärungen siehe Text. 3.4 Ergebnisse 81

Abb. 3.25: Klassendiagramm des Paketes base.MHHSpotFlagging im Programm MHHSpotFlagging.jar. Die Klasse QualityControl nimmt die Programmparameter auf, die für die Qualitätskontrolle der Spot- Duplikate verwendet werden und startet die Auswertung der Eingabedatei über die Methoden, die mit „extract” beginnen (siehe Abb. 3.24 und Text). Die Klasse ControlReplicatedSpots ist eine Hilfsklasse für die Auswertung der Spot-Duplikate mit einigen statischen Methoden, die eine Liste von Spots bearbeiten. Jeder einzelne Spot in der Liste von Spots ist vom Typ SpotPositionSortable. Die Klasse SpotPositionSortable repräsentiert mit einem Objekt einen Spot und hat Behälter für alle Werte, die für Kanal 1 und Kanal 2 aus CytoBASE zur Qualitätskontrolle exportiert werden. Sie implementiert das Interface Comparable. Spots sind damit nach deren Position auf dem Array sortierbar. Weiterhin hat die Klasse das Attribut „mhh_flag”, das den Wert aufnimmt, der die Spotqualität in beiden Kanälen in kodierter Form darstellt (Tab. 3.8). Die Voreinstellung für „mhh_flag” ist null. Die Klasse SpotPositionComparator ist eine Hilfsklasse. Sie implementiert das Interface Comparator. Mit dieser Klasse kann eine Liste von Spots nach deren Attribut „mhh_flag” sortieren. 3.4 Ergebnisse 82

3.4.5 Datensicherung Um die Nutzdaten von CytoBASE vollständig zu sichern, müssen die gesamte Datenbank und das Datenverzeichnis inklusive der Ergebnis-Übersichtsdateien für die experimentellen Gruppen gesichert werden. Gleichzeitig muss sicher gestellt sein, dass während der Sicherung keine Änderungen an den abgelegten Dateien oder der Datenbank vorgenommen werden. Die gesamten Programm- und Web-Dateien, die zum CytoBASE-System gehören sollten zuvor auf einem anderen Weg gesichert sein. Wie im Methodenteil beschrieben, wurde das gesamte System im Arbeitsverzeichnis von Eclipse und auf einem CVS-Server archiviert.

BASE liefert ein Shellskript für die Linux- oder Unix-Umgebung mit, mit dem alle Nutzdaten des Systems gesichert werden können. Das Skript entspricht den oben stehenden Anforderungen, indem es die BASE-Umgebung anhält und dem Nutzer mitteilt, dass das zum Zweck eines Backups stattfindet. Dieses Skript arbeitet aber nur mit MySQL- Datenbanken zusammen. Eine PostgreSQL-Datenbank, wie sie für CytoBASE installiert ist, wird nicht unterstützt.

Aus diesem Grund wurde ein analog arbeitendes Shellskript erstellt, das die Daten in ein lokales Backupverzeichnis auf dem Server in gepackter Form sichert. Von dort können leicht Kopien auf anderen Medien erstellt werden. Das Skript wird mit folgendem Aufruf gestartet:

InstallationsverzeichnisCytoBASE/include/bin/backup_mhh.sh -v -t -z

Die Sicherung von CytoBASE lässt sich damit leicht automatisieren, indem man das Sicherungsskript periodisch über das Betriebssystem starten lässt. 3.5 Ergebnisse 83

3.5 Übersicht über Mikroarray-Experimente in CytoBASE

3.5.1 Einleitung

3.5.1.1 Art der Ablage experimenteller Daten Die Daten in CytoBASE wurden nach der Standardarbeitsanleitung der Mikroarray- Arbeitsgruppe erzeugt und in CytoBASE nach festgelegten Nomenklaturregeln eingetragen bzw. hoch geladen. Damit ist eine durchgehend eindeutige Benennung aller CytoBASE- Elemente sichergestellt (vgl. Kapitel 3.2.2).

RNA-Proben Die RNA-Proben wurden annotiert und enthalten Einträge zu deren experimenteller Behandlung (Treatment, siehe Kapitel 3.4.2.2). Diese systematischen Eintragungen erleichtern die Suche nach experimentellen Daten mit der erweiterten Suchfunktionalität (Kapitel 3.4.3.1).

Arrayvergleiche Parallel prozessierte Teilexperimente wurden wie unter Kapitel 2.2.2 beschrieben zu experimentellen Gruppen zusammengefasst. Aus den Gruppen wurden dann alle sinnvollen Zweiervergleiche gebildet. Diese Arrayvergleiche wurden als Rohdatensätze in CytoBASE angelegt (vgl. Kapitel 2.2.2.2). Sofern dies nach dem experimentellen Design sinnvoll war, wurden die Vergleiche so gewählt, dass in Kanal 1 die Expressionsdaten der experimentell manipulierten Probe, in Kanal 2 die Daten der Kontrollvariante eingetragen wurden. Als Kontrollen dienten z.B. in Versuchen mit Zelllinien meist Zellen der selben Linie, die lediglich für die gleiche Zeit in Medium kultiviert wurden und keine weitere Behandlung erfuhren.

Wenn es gewünscht wird, exportiert CytoBASE die Daten aus den beiden Kanälen ganz einfach wieder getrennt.

3.5.1.2 Zusammenstellung der Übersicht Die folgenden Darstellungen zum Inhalt in CytoBASE basieren auf Datenbankabfragen, die alle gewünschten Informationen in einer großen Tabelle ausgeben. Einige Abfragen an die Datenbank sind in Form von SQL-Skripten im Anhang unter 7.4 wiedergegeben. Die so exportierten Inhalte wurden in Microsoft Excel über die Filterfunktion und vor allem die Pivot-Tabellen-Funktion gruppiert und übersichtlich in Tabellenform dargestellt. Dagegen wurden die Expressionsdaten für die Analysen im folgenden Kapitel 3.6 über die Exportfunktionalität von BASE im neu entwickelten Format exportiert.

Alle hier beschriebenen Datenbankinhalte aus CytoBASE beziehen sich auf den Stichtag 1.1.2006. 3.5 Ergebnisse 84

3.5.2 Experimente in CytoBASE CytoBASE enthielt zum Stichtag (1.1.2006) insgesamt 645 Arrayvergleiche (vgl. Tab. 3.9), wobei 392 aus menschlichen, 250 aus murinen Untersuchungssystemen und 3 aus einer Ratten-Zellinie stammten. Die Array-Versuche wurden in 37 Zellsystemen und unter 67 Behandlungen durchgeführt und verteilen sich auf 111 experimentelle Gruppen für menschliche Zellsysteme, 48 experimentelle Gruppen für Untersuchungssysteme aus der Maus und auf ein Experiment mit Zellen einer Linie aus der Ratte.

Tab. 3.9: Experimentelle Daten in CytoBASE, Stand 1.1.2006.

Art Arrayvergleiche experimentelle Zellsysteme / Stimuli / Gruppen Gewebe Behandlungen

Homo sapiens 392 111 22 49 Mus musculus 250 48 14 17 Rattus norvegicus 3 1 1 1

Summe 645 160 37 67

3.5.2.1 Zellsysteme CytoBASE enthielt zum Stichtag (1.1.2006) Experimente aus insgesamt 37 verschiedenen Zellsysteme (Tab. 3.10). Davon sind 22 menschliche Zellsysteme, 14 murine Zellsysteme, ein Zellsystem stammt von der Ratte. Jede RNA-Probe enthält in ihren Annotationen die Informationen zum Zellsystem und Zugehörigkeit zur biologischen Art. 3.5 Ergebnisse 85

Tab. 3.10:Zellsysteme in CytoBASE. Die Einträge sind als Annotationen zu den RNA-Proben gespeichert. Der Name des Annotationsfeldes ist in Klammern angegeben. Stand 1.1.2006.

Zellsystemname Kürzel für Zellsystemtyp Zellsystemnamen (CellSystemName) (CellSystemNameShort) (CellSystemType)

human 293T cells 293T cell line

human embryo kidney (HEK) 293-IL1R cells 293-IL1R cell line

human HaCaT keratinocytes HaCaT cell line

human HeLa cells HeLa cell line

human HeLa-tTA cells HeLa-tTA cell line

human HT-1080 cells HT-1080 cell line

human Jurkat cells Jurkat cell line

human KB cells KB cell line

human NK-92 cells NK-92 cell line

human THP-1 cells THP-1 cell line

human U-937 cells U-937 cell line

human CD4-positive T-lymphocytes CD4+ primary cell

human gingival fibroblasts HuGi primary cell

human keratinocytes Keratinocytes primary cell

human monocyte-derived dendritic cells MoDC primary cell

human monocytes Monocytes primary cell

human MRC-5 cells MRC-5 primary cell

human natural killer cells NK primary cell

human neutrophil granulocytes Neutrophils primary cell

human peripheral blood mononuclear cells PBM primary cell

human T-lymphocytes T-cells primary cell

human skin Skin tissue

mouse embryo fibroblasts MEF cell line

mouse immortalized bone marrow macrophages bmMacrophagesImm cell line

mouse NIH3T3 cells NIH3T3 cell line

mouse NIH3T3 cells genetically modified NIH3T3-TetMycRas-IRF1ER cell line

mouse Raw264.7 cells Raw264.7 cell line

mouse bone marrow macrophages bmMacrophages primary cell

mouse dendritic cells DendriticCells primary cell

mouse vascular smooth muscle cells VSMC primary cell

mouse aorta mAorta tissue

mouse cervical lymph nodes CervLymphNodes tissue

mouse liver Liver tissue

mouse lung Lung tissue

mouse mesenteric lymph nodes MesLymphNodes tissue

mouse peripheral lymph nodes PerLymphNodes tissue

rat aortic vascular smooth muscle cells RASMC primary cell 3.5 Ergebnisse 86

3.5.2.2 Experimentelle Behandlungen Die folgende Tabelle 3.11 gibt einen Überblick über die Arten von Behandlungen. CytoBASE enthielt zum Stichtag (1.1.2006) insgesamt 58 verschiedene Behandlungsarten. Jeder Probe können mehrere Behandlungen in unterschiedlichen Applikationsarten und Applikationszeiträumen zugeordnet sein. Kombinationen aus mehreren Behandlungen sind ebenfalls möglich. Die Behandlungen der Proben sind in der Datenbank in der Tabelle mhh_treatments abgelegt (vgl. Kapitel 3.1.2.1 und 3.4.2.2).

In der Übersichtstabelle Tab. 3.9 ergibt sich mit insgesamt 67 eine höhere Gesamtzahl an Behandlungen. Dies rührt daher, dass die Zahlen für Spezies getrennt angegeben und dann aufsummiert sind.

mhh_treatments 3 Tab. 3.11: Arten der Behandlungen von allen in CytoBASE enthaltenen Experimenten. Auszug aus der Datenbanktabelle , ergänzt um . 5

Beschreibungen und Klassifkationen. Stand: 1.1.2006. Wird fortgesetzt. E r g e

Kurzname b Name der Behandlung n i

mhh_treatments.name (Suchbegriff in grobe Klassifikation verfeinerte Klassifikation Beschreibung s

( ) s

CytoBASE) e

12-O-tetradecanoylphorbol-13-acetate TPA intrazellulärer Agonist intrazellulärer Agonist PKC Aktivator actinomycin D ActD zellpermeabler Inhibitor zellpermeabler Inhibitor Transkriptionshemmstoff alpha hemolysin alphaHemolysin Pathogen pathogene Bakterien Staphylokken Toxin anti-CD28 antibody aCD28 extrazellulärer Agonist T-Zellrezeptoragonist agonistischer Antikörper für Korezeptor anti-CD3 antibody aCD3 extrazellulärer Agonist T-Zellrezeptoragonist agonistischer Antikörper für Antigenrezeptor anti-CD43 antibody aCD43 extrazellulärer Agonist T-Zellrezeptoragonist agonistischer Antikörper für Korezeptor bacterial cell wall component peptidoglycan Peptidoglycan Pathogen pathogene Bakterien bakterieller Zellwandbestandteil bacterial lipopolysaccharide LPS Pathogen pathogene Bakterien bakterieller Zellwandbestandteil CCN1 CCN1 extrazellulärer Agonist extrazellulärer Agonist rek.Protein, angiogenetischer faktor cell permeable TAT-c-Jun fusion peptide TATcJun zellpermeabler Inhibitor zellpermeabler Inhibitor JUN Inhibitor cell permeable TAT-scrambled fusion peptide TATscr zellpermeabler Inhibitor zellpermeabler Inhibitor Kontrollpeptid für 52 chlamydia pneumoniae ChlamydiaPn Pathogen pathogene Bakterien intaktes Bakterium chlamydia trachomatis L2 ChlamydiaTrL2 Pathogen pathogene Bakterien intaktes Bakterium clobenpropit Clobenpropit extrazellulärer Agonist Histaminrezeptor (H3)Agonist complement factor C3a C3a extrazellulärer Agonist extrazellulärer Agonist rek, Protein, Komplementsystem coxsackie enterovirus CVB3-Nancy CVB3-Nancy Pathogen pathogene Viren coxsackie enterovirus CVB3-PD CVB3-PD Pathogen pathogene Viren coxsackie enterovirus CVB3-PD UV-inactivated CVB3-PD-UVinact Pathogen pathogene Viren coxsackie enterovirus CVB3-Woodruff CVB3-Woodruff Pathogen pathogene Viren cyclosporin A CyclosporinA zellpermeabler Inhibitor zellpermeabler Inhibitor Calcineurin Phosphatase Hemmstoff dextran sulphate sodium DSS Stress Stress osmolarer Stress estradiol E2 intrazellulärer Agonist Steroidrezeptoragonist fas ligand FasL extrazellulärer Agonist Todesrezeptoragonist heat shock protein 70 HSP70 extrazellulärer Agonist Chaperon, extrazellulärer Agonist hepatitis A virus HAV Pathogen pathogene Viren hepatitis B virus plasmid pHBV1.5 Pathogen pathogene Viren hepatitis C virus core protein HCV-core Pathogen pathogene Viren histamine Histamine extrazellulärer Agonist Histaminrezptor (H1-H4)Agonist HIV-1 protein p17 HIV-p17 Pathogen pathogene Viren HIV-1 protein vif HIV-vif Pathogen pathogene Viren human immunodeficiency virus type I HIV-1 Pathogen pathogene Viren interferon alpha IFNa extrazellulärer Agonist Zytokinrezeptoragonist rekombinantes Protein interferon beta IFNb extrazellulärer Agonist Zytokinrezeptoragonist rekombinantes Protein interferon gamma IFNg extrazellulärer Agonist Zytokinrezeptoragonist rekombinantes Protein interleukin 1 alpha IL1a extrazellulärer Agonist Zytokinrezeptoragonist rekombinantes Protein interleukin 1 receptor antagonist (anakinra) IL1RA extrazellulärer Antagonist Zytokinrezeptorantagonist rekombinantes Protein interleukin 12 IL12 extrazellulärer Agonist Zytokinrezeptoragonist rekombinantes Protein interleukin 13 IL13 extrazellulärer Agonist Zytokinrezeptoragonist rekombinantes Protein interleukin 18 IL18 extrazellulärer Agonist Zytokinrezeptoragonist rekombinantes Protein interleukin 2 IL2 extrazellulärer Agonist Zytokinrezeptoragonist rek. Protein, T-Zell spezifisch interleukin 4 IL4 extrazellulärer Agonist Zytokinrezeptoragonist rek. Protein, T-Zell spezifisch 8

interleukin 6 IL6 extrazellulärer Agonist Zytokinrezeptoragonist rekombinantes Protein 7

3

Tab. 3.11: - Fortsetzung - . 5

mhh_treatments Arten der Behandlungen von allen in CytoBASE enthaltenen Experimenten. Auszug aus der Datenbanktabelle , ergänzt um E r Beschreibungen und Klassifkationen. Stand: 1.1.2006. g e b n i

Kurzname s

Name der Behandlung s

mhh_treatments.name (Suchbegriff in grobe Klassifikation verfeinerte Klassifikation Beschreibung e

( ) CytoBASE) ischemia/reperfusion injury I/R Stress Stress macrophage-activating lipopeptide 2 MALP-2 Pathogen pathogene Bakterien bakterieller Zellwandbestandteil PD98059 PD98059 zellpermeabler Inhibitor zellpermeabler Inhibitor MEK1/2 Kinase Hemmstoff polio virus strain mahoney Polio-Mahoney Pathogen pathogene Viren polio virus strain sabin Polio-Sabin Pathogen pathogene Viren Polyinosinic-polycytidylic acid PolyIC Pathogen pathogene Viren SB203580 SB203580 zellpermeabler Inhibitor zellpermeabler Inhibitor p38 MAP Kinase Hemmstoff SC514 SC514 zellpermeabler Inhibitor zellpermeabler Inhibitor IkB Kinase beta Hemmstoff sodium chloride NaCl kein Treatment Lösungsmittelkontrolle bei hohen Konzentrationen (zB 0.5M) Stressstimulus SP600125 SP600125 zellpermeabler Inhibitor zellpermeabler Inhibitor JNK MAP Kinase Hemmstoff tacrolimus Tacrolimus zellpermeabler Inhibitor zellpermeabler Inhibitor Calcineurin Phosphatase Hemmstoff tumor necrosis factor TNF extrazellulärer Agonist Zytokinrezeptoragonist UV-light exposition UV Stress Stress wortmanin high WortHigh zellpermeabler Inhibitor zellpermeabler Inhibitor PI3 Kinase Hemmstoff wortmanin low WortLow zellpermeabler Inhibitor zellpermeabler Inhibitor PI3 Kinase Hemmstoff Z-VAD-fmk zVAD zellpermeabler Inhibitor zellpermeabler Inhibitor Caspase Hemmstoff 8 8 3.5 Ergebnisse 89

3.5.2.3 RNA-Proben In CytoBASE waren zum Stichtag (1.1.2006) 628 hybridisierte RNA-Proben enthalten. 397 Proben stammten aus humanen, 227 aus murinen Untersuchungssystemen. Vier Proben stammten aus einer Ratten-Zellinie. Tab. 3.12 gibt eine Übersicht über die Anzahlen der Proben aufgegliedert nach Hybridisierung auf den verschiedenen Arraytypen.

Zu beachten ist, dass die Anzahl der Arrayvergleiche größer ist, als die Summe der Einzelproben, da in einer experimentellen Gruppe häufig mehrfach der gleiche Array als Kontrollvariante in Arrayvergleichen aufgenommen wurde. Dies ist eine methodisch bedingte Besonderheit der Einkanalversuche, der sich in CytoBASE in den „Pseudozweikanal”-Rohdatensätzen widerspiegelt. Wie in Kapitel 3.3.1 dargelegt, sind in CytoBASE nur Zweiervergleiche von Expressionsdaten als Zweikanalrohdatensätze gespeichert. Ein Rohdatensatz ist derzeit in CytoBASE immer ein sinnvoller Vergleich aus zwei Einkanalversuchen der selben experimentellen Gruppe (vgl. Kapitel und ) und wird in dieser Arbeit auch Arrayvergleich genannt.

Tab. 3.12:Anzahlen der RNA-Proben in CytoBASE. Stand 1.1.2006.

Arraytyp Homo sapiens Mus musculus Rattus norvegicus

HA286 281 Inflhum 101 testInflhum 15 MA313 103 4 Inflmus 124 Summe 397 227 4

Die in CytoBASE enthaltenen Mikroarray-Experimente lassen sich in zwei Gruppen einteilen: Experimente mit genetisch manipulierten und Experimente mit nicht genetisch veränderten Zellsystemen. Abb. 3.26 gibt einen Überblick über die Anzahlen aller Proben aus den verschiedenen Untersuchungssystemen.

1) Die erste Gruppe enthält alle Proben aus primären Zellen, Geweben oder Zelllinien, die nicht genetisch manipuliert worden waren. Diese Zellsysteme werden im Folgenden der Einfachheit halber als nicht transgen bezeichnet. Die Anzahlen von Proben dieser Gruppe sind in Abb. 3.27 dargestellt.

Aus dieser Gruppe werden weiter unten menschliche Proben aus besonders zahlreich vertretenen Zellsystemen in einer zusammenfassenden Auswertung genauer untersucht.

2) Die zweite Gruppe enthält Proben aus genetisch manipulierten Zellsystemen. Proben aus dieser Gruppe tragen in CytoBASE die Annotation „Cell system specifics”, die die Besonderheit des Zellsystems beschreibt. Diese Zellsysteme werden in dieser Arbeit im weiteren Sinne auch transgene Zellsysteme genannt. Zu den transgenen Zellsystemen zählen

Gen-defiziente Zellen und Gen-überexprimierende Zellen:

• Transient transfizierte Zellen (z.B. Transfektion mit siRNA) • Transient infizierte Zellen (z.B. Infektion mit Adenoviren) • Stabil transfizierte Zellen (z.B. Transfektion mit Bcl2-GFP) 3.5 Ergebnisse 90

• Stabil infizierte Zellen (z.B. retrovirale Infektion mit TAK1K63W)

In diese Gruppe fallen 60 humane und 126 murine RNA-Proben (Abb. 3.28). Da dies sehr heterogene Experimente mit sehr unterschiedlichen Fragestellungen sind, werden diese nicht in die weiter unten folgende Übersichtsauswertung einbezogen.

Homo sapiens Mus musculus

60

101 126

337

Primäre Zellen, Gewebe, Zelllinien Transgene Zellen, Gewebe, Zelllinien

Abb. 3.26: Gesamtübersicht über Anzahlen aller RNA-Proben in CytoBASE unterteilt nach Art der Experimente. Transgene Zellen, Gewebe und Zelllinien umfassen gen-defiziente, gen- überexprimierende, transient gen-transfizierte, transient virus-infizierte, stabil gen-transfizierte und stabil virus-infizierte Zellsysteme inclusive der unbehandelten Zellen des entsprechenden Versuches.

Homo sapiens Mus musculus

36 107 65

230

ohne zusätzl. Behandlung mit zusätzl. Behandlung

Abb. 3.27: Gesamtübersicht über Anzahlen von RNA-Proben aus nicht transgenen Zellsystemen. Zellsysteme ohne zusätzliche Behandlung dienten in der Regel als Kontrollen. Zellsysteme mit zusätzlicher Behandlung wurden zum Beispiel einem extrazellulären Agonist / Antagonist ausgesetzt oder mit einem zellpermeablen niedermolekularen Agonist / Antagonist behandelt. Proben ohne zusätzliche Behandlung dienten zumeist als Kontrollvariante des Experimentes bzw. der experimentellen Gruppe. 3.5 Ergebnisse 91

Homo sapiens Mus musculus

15 37 45 ohne zusätzl. Behandlung 89 mit zusätzl. Behandlung

Abb. 3.28: Gesamtübersicht über Anzahlen von RNA-Proben aus transgenen Zellsystemen. Zellsysteme mit zusätzlicher Behandlung wurden zum Beispiel einem extrazellulären Agonist / Antagonist ausgesetzt oder mit einem zellpermeablen niedermolekularen Agonist / Antagonist behandelt. Proben ohne zusätzliche Behandlung dienten zumeist als Kontrollvariante des Experimentes bzw. der experimentellen Gruppe.

3.5.2.4 Arrayvergleiche Eine Besonderheit der Methodik mit Einkanalhybridisierungen ist, dass häufig die Daten von mehreren experimentell manipulierten Proben verglichen werden mit den Daten aus der Hybridisierung von nur einer (oder selten mehrerer) Referenzproben (vgl. Kapitel 2.2.2). Dadurch treten in CytoBASE die selben Daten aus der Referenz-Hybridisierung in mehreren Arrayvergleichen der selben experimentellen Gruppe auf. Die Anzahl Arrayvergleiche ist deshalb größer als die Summe der einzelnen RNA-Proben*.

Die Tabellen 3.13 bis 3.20 geben einen Überblick über die Anzahlen von Arrayvergleichen aus nicht transgenen Zellsystemen (vgl. hierzu Kapitel 3.5.2.3). In den dargestellten Versuchen wurden keine genetisch veränderten Organismen verwendet und auch keine genetischen Manipulationen im Experiment durchgeführt. In den Tabellen 7.3 bis 7.10 des Anhangs finden sich die Gesamtzahlen der Arrayvergleiche aus allen Experimenten, die in CytoBASE enthalten sind. Die Gruppe der „transgenen” Experimente ist in den Tabellen des Anhangs mit ausgewertet. Diese Experimente sind sehr heterogen mit sehr unterschiedlichen Fragestellungen. Deshalb werden sie nicht weitergehend in der Übersichtsauswertung dargestellt. Die Tabellen für Kanal 1 der Arrayvergleiche enthalten vorwiegend Arrayzahlen von experimentell manipulierten Proben, während in den Tabellen für Kanal 2 vorwiegend Arrayzahlen für Proben aus Kontrollsituation stehen.

Betrachtet man die Gesamtübersichten in den Tabellen 7.3 bis 7.10, so fällt auf, dass der Großteil der Behandlungen in ein- bis vierfacher Anzahl angewendet wurden. Wobei aus den Tabellen nicht hervorgeht, ob es sich dabei um exakt die selbe Art der Applikation handelt. Zeitreihenversuche oder solche mit unterschiedlicher Einwirk- bzw. Stimulationsdauer oder auch Konzentrationen der einwirkenden Stoffe sind der Übersichtlichkeit halber nicht aufgeführt.

Ein Ziel der hier dargestellten Übersichtsauswertung war, eine Auswahl an Experimenten zu finden, die sinnvoll einer weitergehenden experimentübergreifenden Analyse unterzogen werden konnte. Will man Mikroarray-Expressionsdaten über verschiedene Experimente hinweg in Bezug setzen, so ist es wichtig, dass die Daten möglichst vergleichbar sind. Eine Voraussetzung dafür ist, dass der gleiche Arraytyp verwendet wurde. Man kann aus den Tabellen 3.13 bis 3.20 (und aus den Tabellen 7.3 bis 7.9) für alle Zellsysteme entnehmen, wie viele Proben einer Behandlungsart auf welchem Arraytyp hybridisiert wurden.

* Zusätzlich sind technische Replikate möglich, die die Anzahl von Hybridisierungen pro RNA-Probe ebenfalls erhöhen. 3.5 Ergebnisse 92

Für die experimentübergreifenden Auswertungen wurden die meistuntersuchten Zellsysteme ausgewählt. Das sind für den Menschen zwei Zelllinien und zwei Zellsysteme aus primären Zellen. Für die Maus sind es zwei Zelllinien und drei Zellsysteme aus primären Zellen oder Geweben:

Menschliche Zelllinien: HeLa-tTA-Zellen, KB-Zellen Menschliche primäre Zellen: Humane primäre Zahnfleischfribroblasten (human gingival fibroblasts, HuGi), Keratinozyten

Murine Zelllinien: NIH3T3-Zellen, immortalisierte Knochenmarksmakrophagen Murine primäre Zellen: Knochenmarkmakrophagen, embryonale Mausfibroblasten (mouse embryonal fibroblasts, MEF) Murines Gewebe: Leber (murine Hepatozyten)

Mit primären Zellen und Geweben konnten Zellsysteme mit weitgehend natürlichen Charakteristika, den Zelllinien gegenübergestellt werden, die immortalisiert sind und von der Ursprungszelle abweichende Eigenschaften besitzen. Diese ausgewählten Zellsysteme sind in den Tabellen 3.13 bis 3.20 durch Unterstreichung markiert. Die Experimente der ausgewählten Zellsysteme werden folgend anhand der Tabellen beschrieben.

Menschliche Zellsysteme

Tabellen 3.13 und 3.14 HeLa-tTA-Zellen haben viele Mehrfachbehandlungen erfahren und in Kanal 2 der Arrayvergleiche stehen auch oft mehrfach behandelte Proben zum Vergleich. Bei KB-Zellen ist in sehr vielen Behandlungen IL-1α beteiligt und Kanal 2 enthält vorwiegend unstimulierte Zellen.

Tabellen 3.15 und 3.16 Keratinozyten wurden mit einer Vielzahl von verschiedenen Stimuli behandelt, diese sind aber nicht im Einzelnen dargestellt, da die Versuche aus nicht veröffentlichter Kooperation entstammen. Bei HuGi-Zellen dominieren als Stimuli IL-1α und TNF. Weiterhin finden sich Versuche mit Kinase-Hemmstoffen (SB203580, SP600125, PD98059).

Murine Zellsysteme

Tabellen 3.17 und 3.18 Embryonale Fibroblasten (MEF) wurden hauptsächlich mit IL-1α und TNF stimuliert, während die Makrophagen mit bakteriellen Zellwandbestandteilen oder mit den proinflammatorischen Stimuli IL-1α oder TNF behandelt wurden.

Tabellen 3.19 und 3.20 Die Leberproben wurden entweder mit IL-6 oder TNF behandelt. Weitere Versuche behandelten die Auswirkungen von Reperfusion der Mausleber nach Ischämie.

3 . 5

E

Tab. 3.13: Anzahlen von Arrayvergleichen aus nicht transgenen Zellsystemen in CytoBASE (1.1.2006): Humane Zelllinien in Kanal 1. r g

Unterteilung nach Behandlung, Arraytyp und Zellsystem. Aufsteigende Sortierung nach Anzahl der Behandlungen. Jede Behandlung beginnt mit einer Zahl e b in eckiger Klammer. Unterstrichene Zahlen markieren die Zellsysteme, deren Daten in Kapitel 3.6.1 vergleichend dargestellt werden. Informationen zu den n i s

Zellsystemen und Behandlungen sind den Tabellen 3.10 und 3.11 (respektive) zu entnehmen. s e

Behandlungen (Treatments) Arraytyp Zelllinie 293- HeLa HT- NK- 293T HaCaT HeLa Jurkat KB THP-1 U-937 IL1R -tTA 1080 92 [1] CCN1 HA286 2 [1] chlamydia pneumoniae Inflhum 2 [1] chlamydia trachomatis L2 Inflhum 2 1 [1] human immunodeficiency virus type I HA286 2 1 [1] interferon gamma Inflhum 1 [1] interleukin 1 alpha HA286 1 14 Inflhum 2 2 [1] SC514 HA286 1 [1] anti-CD28 antibody [2] 12-O-tetradecanoylphorbol-13-acetate HA286 1 [1] cell permeable TAT-c-Jun fusion peptide [2] interleukin 1 alpha HA286 2 [1] cell permeable TAT-scrambled fusion peptide [2] interleukin 1 alpha HA286 1 [1] interferon gamma [2] interleukin 1 alpha Inflhum 1 [1] interleukin 1 alpha [2] actinomycin D Inflhum 2 7 [1] interleukin 1 alpha [2] tumor necrosis factor Inflhum 2 testInflhum 2 [1] PD98059 [2] interleukin 1 alpha HA286 4 [1] SB203580 [2] interleukin 1 alpha HA286 4 [1] SC514 [2] interleukin 1 alpha HA286 2 [1] SP600125 [2] interleukin 1 alpha HA286 4 [1] interferon gamma [2] interleukin 1 alpha [3] actinomycin D Inflhum 1 [1] interleukin 1 alpha [2] UV-light exposition [3] actinomycin D Inflhum 4 13 [1] SB203580 [2] SP600125 [3] PD98059 HA286 1 [1] interferon gamma [2] interleukin 1 alpha [3] UV-light exposition [4] actinomycin Inflhum 2 D [1] PD98059 [2] SB203580 [3] SP600125 [4] interleukin 1 alpha HA286 1 [1] SB203580 [2] SP600125 [3] PD98059 [4] interleukin 1 alpha HA286 4 keine Kontrollsituation, keine Behandlung HA286 1 1 Inflhum 3 Summe experimentell manipulierter Proben 1 8 7 35 1 1 35 2 3 1 Kontrollsituation, keine Behandlung HA286 1 12 1 Inflhum 4 Summe Kontrollsituationen 1 4 12 1 Gesamtsumme 2 8 11 35 1 1 47 3 3 1 9 3

3 . 5

E r g e b n i s s e

Tab. 3.14: Anzahlen von Arrayvergleichen aus nicht transgenen Zellsystemen in CytoBASE (1.1.2006): Humane Zelllinien in Kanal 2. Unterteilung nach Behandlung, Arraytyp und Zellsystem. Aufsteigende Sortierung nach Anzahl der Behandlungen. Jede Behandlung beginnt mit einer Zahl in eckiger Klammer. Unterstrichene Zahlen markieren die Zellsysteme, deren Daten in Kapitel 3.6.1 vergleichend dargestellt werden. Informationen zu den Zellsystemen und Behandlungen sind den Tabellen 3.10 und 3.11 (respektive) zu entnehmen.

Behandlungen (Treatments) Arraytyp Zelllinie 293-IL1R 293T HaCaT HeLa HeLa-tTA HT-1080 Jurkat KB NK-92 THP-1 U-937 [1] chlamydia pneumoniae Inflhum 2 [1] chlamydia trachomatis L2 Inflhum 1 [1] interleukin 1 alpha HA286 1 Inflhum 4 4 [1] cell permeable TAT-scrambled fusion peptide [2] interleukin 1 alpha HA286 1 [1] interferon gamma [2] interleukin 1 alpha Inflhum 2 [1] interleukin 1 alpha [2] actinomycin D Inflhum 2 6 [1] interleukin 1 alpha [2] tumor necrosis factor Inflhum 2 testInflhum 2 [1] interferon gamma [2] interleukin 1 alpha [3] actinomycin D Inflhum 1 [1] PD98059 [2] SB203580 [3] SP600125 [4] interleukin 1 alpha HA286 1 keine Kontrollsituation, keine Behandlung HA286 2 Inflhum 16 Summe experimentell manipulierter Proben 2 6 18 18 1 2 Kontrollsituation, keine Behandlung HA286 2 3 1 45 3 3 1 Inflhum 1 2 5 18 2 testInflhum 4 Summe Kontrollsituationen 3 2 5 25 2 1 45 3 3 1 Gesamtsumme 5 8 23 43 3 1 47 3 3 1 9 4

3

Tab. 3.15: Anzahlen von Arrayvergleichen aus nicht transgenen Zellsystemen in CytoBASE (1.1.2006): Humane primäre Zellen und Gewebe in Kanal 1. . 5

Unterteilung nach Behandlung, Arraytyp und Zellsystem. Aufsteigende Sortierung nach Anzahl der Behandlungen. Jede Behandlung beginnt mit einer Zahl E r in eckiger Klammer. Unterstrichene Zahlen markieren die Zellsysteme, deren Daten in Kapitel 3.6.1 vergleichend dargestellt werden. Informationen zu den g e

Zellsystemen und Behandlungen sind den Tabellen 3.10 und 3.11 (respektive) zu entnehmen. Die Versuche mit Keratinozyten entstammen aus nicht b n i veröffentlichter Kooperation. Deshalb werden deren Behandlungen hier nicht aufgeschlüsselt. s s e

Behandlung Arraytyp primäre Zellen Gewebe Keratino- Mono- Neutro- CD4+ HuGi MoDC MRC-5 NK PBM T-Zellen Haut zyten zyten phile [1] alpha hemolysin HA286 1 3 1 2 [1] anti-CD43 antibody HA286 2 [1] bacterial cell wall component peptidoglycan HA286 1 1 [1] bacterial lipopolysaccharide HA286 3 Inflhum 2 [1] clobenpropit HA286 1 [1] coxsackie enterovirus CVB3-Nancy HA286 2 [1] coxsackie enterovirus CVB3-PD HA286 5 testInflhum 2 [1] coxsackie enterovirus CVB3-PD UV-inactivated HA286 1 [1] coxsackie enterovirus CVB3-Woodruff HA286 4 [1] hepatitis A virus HA286 1 [1] histamine HA286 2 [1] HIV-1 protein p17 HA286 1 [1] HIV-1 protein vif HA286 1 [1] human immunodeficiency virus type I HA286 1 4 [1] interleukin 1 alpha HA286 14 [1] interleukin 2 HA286 2 [1] PD98059 HA286 1 [1] polio virus strain mahoney HA286 1 testInflhum 2 [1] polio virus strain sabin HA286 2 testInflhum 4 [1] SB203580 HA286 1 [1] tumor necrosis factor HA286 4 [1] anti-CD3 antibody [2] anti-CD28 antibody HA286 2 [1] cell permeable TAT-c-Jun fusion peptide [2] interleukin 1 alpha HA286 4 [1] cell permeable TAT-scrambled fusion peptide [2] interleukin 1 alpha HA286 2 [1] HIV-1 protein p17 [2] HIV-1 protein vif HA286 1 [1] interleukin 1 receptor antagonist (anakinra) HA286 2 [2] coxsackie enterovirus CVB3-PD [1] interleukin 2 [2] human immunodeficiency virus type I HA286 2 [1] PD98059 [2] bacterial lipopolysaccharide HA286 1 [1] PD98059 [2] interleukin 1 alpha HA286 5 [1] PD98059 [2] tumor necrosis factor HA286 1 [1] SB203580 [2] bacterial lipopolysaccharide HA286 1 [1] SB203580 [2] interleukin 1 alpha HA286 5 [1] SB203580 [2] tumor necrosis factor HA286 1 9

[1] SP600125 [2] bacterial lipopolysaccharide HA286 1 5

3 . 5

E r g e b n i s s e

Tab. 3.15: - Fortsetzung - Anzahlen von Arrayvergleichen aus nicht transgenen Zellsystemen in CytoBASE (1.1.2006): Humane primäre Zellen und Gewebe in Kanal 1. Unterteilung nach Behandlung, Arraytyp und Zellsystem. Aufsteigende Sortierung nach Anzahl der Behandlungen. Jede Behandlung beginnt mit einer Zahl in eckiger Klammer. Unterstrichene Zahlen markieren die Zellsysteme, deren Daten in Kapitel 3.6.1 vergleichend dargestellt werden. Informationen zu den Zellsystemen und Behandlungen sind den Tabellen 3.10 und 3.11 (respektive) zu entnehmen. Die Versuche mit Keratinozyten entstammen aus nicht veröffentlichter Kooperation. Deshalb werden deren Behandlungen hier nicht aufgeschlüsselt.

Behandlung Arraytyp primäre Zellen Gewebe Keratino- Mono- Neutro- CD4+ HuGi MoDC MRC-5 NK PBM T-Zellen Haut zyten zyten phile [1] SP600125 [2] interleukin 1 alpha HA286 6 [1] SP600125 [2] tumor necrosis factor HA286 1 [1] PD98059 [2] SB203580 [3] SP600125 HA286 1 [1] SB203580 [2] SP600125 [3] PD98059 HA286 1 [1] PD98059 [2] SB203580 [3] SP600125 [4] interleukin 1 alpha HA286 1 [1] PD98059 [2] SB203580 [3] SP600125 [4] tumor necrosis factor HA286 1 [1] SB203580 [2] SP600125 [3] PD98059 [4] interleukin 1 alpha HA286 4 keine Kontrollsituation, keine Behandlung HA286 2 2 13 6 Summe experimentell manipulierter Proben 2 53 56 3 6 26 2 1 33 6 6 Kontrollsituation, keine Behandlung HA286 4 2 1 3 1 1 1 testInflhum 1 Summe Kontrollsituationen 4 2 1 3 2 1 1 Gesamtsumme 2 57 58 4 9 28 2 1 34 6 7 9 6

3 . 5

E r g e b n i s

Tab. 3.16:Anzahlen von Arrayvergleichen aus nicht transgenen Zellsystemen in CytoBASE (1.1.2006): Humane primären Zellen und Gewebe in Kanal 2. s e

Unterteilung nach Behandlung, Arraytyp und Zellsystem. Aufsteigende Sortierung nach Anzahl der Behandlungen. Jede Behandlung beginnt mit einer Zahl in eckiger Klammer. Unterstrichene Zahlen markieren die Zellsysteme, deren Daten in Kapitel 3.6.1 vergleichend dargestellt werden. Informationen zu den Zellsystemen und Behandlungen sind den Tabellen 3.10 und 3.11 (respektive) zu entnehmen. Die Versuche mit Keratinozyten entstammen aus nicht veröffentlichter Kooperation. Deshalb werden deren Behandlungen hier nicht aufgeschlüsselt.

Behandlung Arraytyp primäre Zellen Gewebe Keratino- Mono- Neutro- CD4+ HuGi MoDC MRC-5 NK PBM T-Zellen Haut zyten zyten phile [1] coxsackie enterovirus CVB3-Nancy HA286 2 [1] coxsackie enterovirus CVB3-PD UV-inactivated HA286 3 [1] polio virus strain mahoney HA286 1 testInflhum 2 [1] SP600125 HA286 3 [1] cell permeable TAT-scrambled fusion peptide HA286 2 [2] interleukin 1 alpha [1] SP600125 [2] interleukin 1 alpha HA286 1 [1] SP600125 [2] tumor necrosis factor HA286 1 keine Kontrollsituation, keine Behandlung HA286 1 Summe experimentell manipulierter Proben 7 14 8 1 Kontrollsituation, keine Behandlung HA286 4 48 32 4 7 13 1 1 32 6 7 Inflhum 12 2 testInflhum 7 Summe Kontrollsituationen 4 48 44 4 7 20 1 1 34 6 7 Gesamtsumme 4 55 58 4 7 28 2 1 34 6 7 9 7

3

Tab. 3.17: Anzahlen von Arrayvergleichen aus nicht transgenen Zellsystemen in CytoBASE (1.1.2006): Murine Zelllinien und primäre Zellen in Kanal 1. . 5

Unterteilung nach Behandlung, Arraytyp und Zellsystem. Aufsteigende Sortierung nach Anzahl der Behandlungen. Jede Behandlung beginnt mit einer Zahl E r in eckiger Klammer. Unterstrichene Zahlen markieren die Zellsysteme, deren Daten in Kapitel 3.6.1 vergleichend dargestellt werden. Informationen zu den g e

Zellsystemen und Behandlungen sind den Tabellen 3.10 und 3.11 (respektive) zu entnehmen. b n i s

Behandlungen (Treatments) Arraytyp Zelllinie primäre Zellen s e

bmMacro- bmMacro- Dendritic- MEF NIH3T3 Raw264.7 VSMC phagesImm phages Cells [1] bacterial lipopolysaccharide Inflmus 2 1 MA313 1 3 3 [1] chlamydia pneumoniae Inflmus 7 [1] interleukin 1 alpha Inflmus 3 1 MA313 14 [1] tumor necrosis factor Inflmus 2 1 MA313 6 [1] Z-VAD-fmk Inflmus 1 [1] bacterial lipopolysaccharide [2] actinomycin D Inflmus 5 [1] Z-VAD-fmk [2] tumor necrosis factor Inflmus 2 keine Kontrollsituation, keine Behandlung MA313 1 1 Summe experimentell manipulierter Proben 2 24 5 3 18 1 1 Kontrollsituation, keine Behandlung Inflmus 1 4 MA313 9 1 Summe Kontrollsituationen 1 9 5 Gesamtsumme 3 33 5 3 23 1 1

Tab. 3.18: Anzahlen von Arrayvergleichen aus nicht transgenen Zellsystemen in CytoBASE (1.1.2006): Murine Zelllinien und primäre Zellen in Kanal 2.

Behandlungen (Treatments) Arraytyp Zelllinie primäre Zellen bmMacro- bmMacro- Dendritic- MEF NIH3T3 Raw264.7 VSMC phagesImm phages Cells [1] bacterial lipopolysaccharide Inflmus 6 [1] chlamydia pneumoniae Inflmus 1 [1] interleukin 1 alpha Inflmus 2 1 MA313 1 [1] tumor necrosis factor Inflmus 1 [1] Z-VAD-fmk Inflmus 2 [1] bacterial lipopolysaccharide [2] actinomycin D Inflmus 3 Summe experimentell manipulierter Proben 3 2 12 Kontrollsituation, keine Behandlung Inflmus 1 6 5 13 MA313 15 3 2 1 1 Summe Kontrollsituationen 1 21 5 3 15 1 1 Gesamtsumme 1 24 7 3 27 1 1 9 8

3

Tab. 3.19: Anzahlen von Arrayvergleichen aus nicht transgenen Zellsystemen in CytoBASE (1.1.2006): Murine Gewebe in Kanal 1. . 5

Unterteilung nach Behandlung, Arraytyp und Zellsystem. Aufsteigende Sortierung nach Anzahl der Behandlungen. Jede Behandlung beginnt mit einer Zahl E r in eckiger Klammer. Unterstrichene Zahlen markieren die Zellsysteme, deren Daten in Kapitel 3.6.1 vergleichend dargestellt werden. Informationen zu den g e

Zellsystemen und Behandlungen sind den Tabellen 3.10 und 3.11 (respektive) zu entnehmen. b n i s

Behandlungen (Treatments) Arraytyp Gewebe s e

CervLymphNodes Liver Lung mAorta MesLymphNodes PerLymphNodes [1] chlamydia pneumoniae MA313 1 [1] dextran sulphate sodium Inflmus 2 [1] interleukin 6 MA313 3 [1] ischemia/reperfusion injury Inflmus 4 [1] tumor necrosis factor Inflmus 4 MA313 5 keine Kontrollsituation, keine Behandlung Inflmus 2 1 1 MA313 1 Summe experimentell manipulierter Proben 2 17 1 3 1 Kontrollsituation, [1] hepatitis B virus plasmid Inflmus 2 Kontrollsituation, keine Behandlung Inflmus 2 1 MA313 1 Summe Kontrollsituationen 5 1 Gesamtsumme 2 22 1 1 3 1

Tab. 3.20: Anzahlen von Arrayvergleichen aus nicht transgenen Zellsystemen in CytoBASE (1.1.2006): Murine Gewebe in Kanal 2. Unterteilung nach Behandlung, Arraytyp und Zellsystem. Aufsteigende Sortierung nach Anzahl der Behandlungen. Jede Behandlung beginnt mit einer Zahl in eckiger Klammer. Unterstrichene Zahlen markieren die Zellsysteme, deren Daten in Kapitel 3.6.1 vergleichend dargestellt werden. Informationen zu den Zellsystemen und Behandlungen sind den Tabellen 3.10 und 3.11 (respektive) zu entnehmen.

Behandlungen (Treatments) Arraytyp Gewebe CervLymphNodes Liver Lung mAorta MesLymphNodes PerLymphNodes [1] chlamydia pneumoniae MA313 1 keine Kontrollsituation, keine Behandlung Inflmus 3 1 MA313 3 Summe experimentell manipulierter Proben 3 1 3 1 Kontrollsituation, [1] hepatitis B virus plasmid Inflmus 2 Kontrollsituation, keine Behandlung Inflmus 4 3 MA313 7 2 2 Summe Kontrollsituationen 13 2 5 Gesamtsumme 16 3 5 3 1 9 9 3.6 Ergebnisse 100

3.6 Analyse ausgewählter Mikroarray-Experimente

3.6.1 Vergleich der relativen Änderungen der mRNA-Mengen Da die in Kapitel 3.5 beschriebenen Datenbankinhalte von CytoBASE dem chronologischen Eingang der Proben durch die mit dem Z02-Projekt des SFB 566 kooperierenden Wissenschaftler entsprach, enthielt CytoBASE zum 1.1.2006 wie ausführlich dargestellt eine sehr heterogen zusammengesetzte Sammlung von Mikroarray-Experimenten. Für eine übergreifende Datenanalyse, mit dem Ziel reproduzierbar veränderte Entzündungsgene zu identifzieren, ist ein solcher Datensatz aber nur eingeschränkt verwendbar, da viele in CytoBASE enthaltene Mikroarray-Experimente Einzelexperimente darstellen. Auf Grund dieser Situation wurden die am häufigsten untersuchten humanen und murinen Zellsysteme ausgewählt, um eine übergreifende Auswertung der relativen Genexpressionsveränderungen über alle in diesen Zellsystemen zur Verfügung stehenden Stimulations- und Manipulations- Situationen durchzuführen.

Diese Auswertung stellt im zweifachen Sinne ein Experiment dar. Einerseits waren bisher in dem Z02 Projekt nur Mikroarray-Serien aus experimentellen Gruppen untereinander verglichen und ausgewertet worden, andererseits wurde so erstmals die Funktionalität von CytoBASE für die Auswertung großer Mikroarray-Experimentserien getestet.

Die experimentellen Zellsysteme, welche für die Übersichtsauswertung ausgewählt wurden, sind in den Tabellen 3.21 und 3.22 dargestellt. Vergleiche zwischen Experimenten sind, ohne vorher umfangreiche übergreifende Normalisierungen durchzuführen, nur zwischen gleichen Arraytypen sinnvoll. Deshalb sind die Anzahlen der vorhandenen Arrayvergleiche getrennt nach Arraytypen (vgl. Kapitel 2.2.1) aufgeführt. Auch die weiter unten gezeigten Vergleiche zwischen Versuchen (Abb. 3.29 bis Abb. 3.34) wurden getrennt nach Arraytypen erzeugt*.

Für die übergreifende Auswertung wurden die entsprechenden Rohdatensätze in CytoBASE unter dem Nutzernamen des Autors in neuen Analysegruppen zusammengestellt und im neu erstellten Exportformat herausgezogen. Bei der Zusammenstellung der Daten wurde ausgenutzt, dass die Zweikanaldatensätze (Arrayvergleiche) in CytoBASE immer sinnvolle Kombinationen von im Einkanalverfahren erzeugten Rohdaten darstellen (vgl. Kapitel 3.5.1). Das heißt, ein zeitaufwändiges manuelles Zusammenstellen sinnvoller Vergleiche war nicht nötig. Es wurden ausschließlich Arrayvergleiche verwendet, die in Kanal 2 eine Kontrollsituation der jeweiligen experimentellen Gruppe (vgl. Kapitel 2.2.2) aufwiesen. Zudem durfte keine genetische Besonderheit im Zellsystem oder bei der experimentellen Behandlung vorhanden sein. Die Gesamtzahlen für die in CytoBASE vorhandenen Arrayvergleiche und die Anzahlen für die Datensätze, die den oben beschriebenen Kriterien entsprachen sind den folgenden Tabellen zu entnehmen. In den resultierenden Datensätzen wurde die Änderung der mRNA-Expression der jeweiligen Gene als Verhältnis (Ratio) aus experimentell manipulierter Situation zu Kontrollsituation dargestellt. Für die Heatmapdar- stellungen wurden die Ratios log2-transformiert.

Tab. 3.21 zeigt die Anzahlen der Arrayvergleiche der vier ausgewählten humanen Zellsysteme: Zwei Tumorzelllinien (KB, HeLa-tTA) und zwei primäre Zellsysteme (humane Zahnfleischfibroblasten, human gingival fibroblasts HuGi und Keratinozyten).

Tab. 3.22 stellt die Anzahlen der Arrayvergleiche der fünf ausgewählten murinen Zellsysteme dar. Zwei Zelllinien (NIH3T3-Zellen und murine immortalisierte Knochenmarks- makrophagen) wurden zwei primären Zellsystemen (embryonale Mausfibroblasten, MEF und murine Knochenmarksmakrophagen) und einem Gewebe (murine Hepatozyten, Leber)

* Die Arraytypen Inflhum und testInflhum unterscheiden sich ausschließlich durch eine ausgetauschte Gensonde. Deshalb wurden sie in dieser Auswertung zusammengefasst. 3.6 Ergebnisse 101 gegenübergestellt.

Tab. 3.21: Auswahl der aus CytoBASE exportierten Arrayvergleiche: humane Untersuchungssysteme.

Anzahl Arrayvergleiche Gesamtzahl mit Kontrollvariante in Zellsystemtyp Zellsystem Arraytyp Array- Kanal 2 und Versuch ohne vergleiche genetische Manipulation

Zelllinie HeLa-tTA-Zellen HA286 4 3 Inflhum und 55 18 testInflhum

Zelllinie KB-Zellen HA286 51 45

primäre Zellen primäre humane HA286 61 48 Zahnfleischfibroblasten, human testInflhum 1 0 gingival fibroblasts (HuGi)

primäre Zellen Keratinozyten HA286 40 32 Inflhum 18 12

Summe 230 158

Tab. 3.22: Auswahl der aus CytoBASE exportierten Arrayvergleiche: murine Untersuchungssysteme.

Anzahl Arrayvergleiche Gesamtzahl mit Kontrollvariante in Zellsystemtyp Zellsystem Arraytyp Array- Kanal 2 und Versuch ohne vergleiche genetische Manipulation

Zelllinie NIH3T3-Zellen Inflmus 32 5 MA313 24 0 Zelllinie murine immortalisierte Inflmus 4 1 Knochenmarksmakrophagen Gewebe murine Inflmus 23 6 Hepatozyten (Leber) MA313 16 7 primäre Zellen embryonale Inflmus 26 6 Mausfibroblasten (MEF) MA313 46 15 primäre Zellen murine Inflmus 47 13 Knochenmarksmakrophagen MA313 5 2

Summe 223 55

Um die Zahlenwerte der mRNA-Änderungen zu visualisieren, wurde die Form der Darstellung in einer farbkodierten sogenannten „Heatmap” gewählt, die im Folgenden für alle Ergebnisse in gleicher Art und Weise dargestellt wird.

Rot bedeutet hierbei eine Zunahme der mRNA-Expression im Vergleich zu einer unbehandelten Kontrollsituation, Weiß bedeutet keine Änderung und Blau eine Abnahme im Vergleich zu der Kontrolle. 3.6 Ergebnisse 102

Die Heatmaps mit Farbcode für die Stärke der Intensitätsänderungen wurden mit der Open- Source-Software Mayday Version 2.0 (MicroarrAY DAta analYsis, http://www.zbit.uni- tuebingen.de/pas/mayday/, Dietzsch2006) erstellt.

Als Kontrollsituation wurde die unbehandelte (z.B. unstimulierte) Probe in der jeweiligen experimentellen Gruppe (siehe Kapitel 2.2.2) gewählt. Das heißt es wurde die Probe gewählt, die parallel mit den anderen Proben hergestellt und für die Erzeugung der Mikroarrayhybridisierungen parallel prozessiert wurde. Somit ergeben sich aus dem experimentellen Aufbau Ratios, die repräsentativ sind und einen Vergleich zwischen Experimenten (und damit experimentellen Gruppen) zulassen.

Weiterhin wurden in der Heatmap-Darstellung die einzelnen Gene, deren Expression gemessen wurde, in funktionelle Gruppen gegliedert, so dass schnell ersichtlich wird, in welcher Zelle und in welcher Stimulations- und Behandlungssituation innerhalb einer Gruppe an Genen, Induktion oder Suppression von Genen stattfindet.

Wie in Abb. 3.29 gezeigt, sieht man anhand dieser Übersicht, dass z.B. das Chemokin cxcl8 (IL-8) und das Zytokin il6 (IL-6) bis zu 28.53(370)-fach induziert sind. Man erkennt auch, dass der Stimulus IL-1α diese sehr starke Veränderung dieser beiden Gene sehr reprodu- zierbar bewirkt. Dieser Befund unterstreicht die Reproduzierbarkeit der Mikroarray- Experimente. IL-6 gehört zu den Interleukinen und steuert unter anderem im Sinne eines pleiotrop wirkenden Hormones oder Zytokines die „Akute Phase Reaktion” in der Leber, B- Zellproliferation und Fieberentstehung. IL-8 dagegen steuert als Chemokin vor allem die lokale Infiltration von Leukozyten und z.B. auch die Angiogenese. Trotzdem sind diese beiden funktionell unterschiedlichen Gene offensichtlich koreguliert, während andere Gene aus der Zytokin- oder Chemokin-Gengruppe dagegen kaum oder nur sehr gering verändert sind.

Diese Beschreibung der Genveränderung von zwei beispielhaft heraus gegriffenen Genen zeigt die Stärke der gruppenübergreifenden Analyse der Mikroarraydaten mit Hilfe von CytoBASE. In den Abb. 3.29 bis Abb. 3.34 sind so alle Heatmap-Darstellungen der Genregu- lationsmessungen in den vier humanen Systemen abgebildet. In jedem Fall erkennt man sehr stark regulierte Gene und Unterschiede in dem Muster zwischen den beiden Zelllinien.

Analoge Analysen, wie für die humanen Zellsysteme beschrieben, wurden auch für vier murine Zellsysteme durchgeführt und die Mikroarrayergebnisse als Heatmap in den Abb. 3.35 bis Abb. 3.38 dargestellt. Auch hieraus wird ersichtlich, dass bestimmte Gene wie cxcl1 (ein Chemokin) oder wieder IL-6 häufig in unterschiedlichen Situationen induziert und koreguliert sind, während andere Gene sich ganz anders verhalten. 3.6 Ergebnisse 103

+ + + + G044 +

+ + + +

+ + + + G079 + +

+

+ + + +

+ +

+ +

+ +

+ + + + + G158a + +

+ +

+ +

+

+ + +

+ + + +

+ + + + G158b n

+ + e l l

+ e Z + - G160 B + K + + G123 + + G124

G202

+

+

+ G047 +

+

+

+ - a A

+ + L

G003 T e t

+ + H h h h h h h h h h h h h h 5 5 1 2 4 2 5 5 5 5 2 2 2 . . . . .

2 2 2 . 0 0 0 0 0 . t 0 m n 0 5 e e e 9 n t 8 r 2 p 4 m 5 u s c 5 m 1 a p 1 J u 0 i s y i 3 0 1 c r u 8 5 s T d 0 0 r L l T e 9

Trans- C l A I e 2 6 A G p S D T e P B M T x P Z

Zytokine Zytokin- Chemokine Chemokin- kriptions- S S E Rezeptoren Rezeptoren faktoren Behandlung Toll-like Rezeptoren

Abb. 3.29: HeLa-tTA-Zellen und KB-Zellen, Arraytyp HA286. Gensonden sortiert nach Zugehörigkeit zu funktionellen Gengruppen (Teil 1): Zytokine, Zytokinrezeptoren, Chemokine, Chemokinrezeptoren, Toll-like-Rezeptoren, Transkriptionsfaktoren.

Heatmap der log2-transformierten Verhältnisse (Ratios) der Fluoreszenzintensitäten aus behandelten Zellen im Vergleich zur basalen Kontrollvariante der experimentellen Gruppe. 3.6 Ergebnisse 104

+ + + + G044 +

+ + + +

+ + + + G079 + +

+

+ + + +

+ +

+ +

+ +

+ + + + + G158a + +

+ +

+ +

+

+ + +

+ + + +

+ + + + G158b n

+ + e l l

+ e Z + - G160 B + K + + G123 + + G124

G202

+

+

+ G047 +

+

+

+ - a A

+ + L

G003 T e t

+ + H h h h h h h h h h h h h h 1 2 4 2 2 5 5 2 5 5 5 5 2 . . . . .

2 2 2 . 0 0 0 0 0 . t 0 m n 0 5 e e e 9 n t 8 r 2 p 5 4 m u s c 5 m 1 a p 0 1 J u i s y i 3 0 1 c r u 8 5 s T d 0 0 r L l T e 9 C l A I e 2 6 A G p S D T e P B M

Komple- Signal- Enzyme, Matrixproteine, Haushalts- T x P Z S S Matrix-Metallo- ment- trans- sonstige gene E Behandlung Proteasen System duktion Wachstums- Akute- Adhäs- Faktoren & Phase- ions- WF-Rezeptor Proteine Moleküle

Abb. 3.30: HeLa-tTA-Zellen und KB-Zellen, Arraytyp HA286. Gensonden sortiert nach Zugehörigkeit zu funktionellen Gengruppen (Teil 2): Wachstumsfaktoren und deren Rezeptoren, Matrix-Metallo-Proteasen, Akute-Phase-Proteine, Komplementsystem, Adhäsionsmoleküle, Signaltransduktion, Enzyme und Matrixproteine und sonstige.

Heatmap der log2-transformierten Verhältnisse (Ratios) der Fluoreszenzintensitäten aus behandelten Zellen im Vergleich zur basalen Kontrollvariante der experimentellen Gruppe. 3.6 Ergebnisse 105 e n i k o t Zy n - e r n i o t k o p t e y z Z e R e n i k o m e h C - n n e i r k o o t p m e e z h e C R n e e r k o i l t - p l l e o z T e - R ns o n i t e r p i o r t k k s a f n a Tr

+ + + + + + + + + + + + + 2h IL1a + + + + 4h g

+ + 24h IFNg n u

+ + + + 4h TNF l d n a

+ + + + + h 2h UV e

+ + 0h ActD B + + 0.5h + + 1h + + 2h + + 3h 3 9 9 1 5 4 5 7 7 1 1 1 9 7

0 8 4 5 4 7 5 6 3 1 9 6 4 5 Experiment. 2 1 2 1 1 1 1 1 1 1 0 0 1 1 Gruppe G G G G G G G G G G G G G G Keratinozyten HeLa-tTA-Zellen Zellsystem

Abb. 3.31: HeLa-tTA-Zellen und Keratinozyten, Arraytyp Inflhum. Gensonden sortiert nach Zugehörigkeit zu funktionellen Gengruppen (Teil 1): Zytokine, Zytokinrezeptoren, Chemokine, Chemokinrezeptoren, Toll-like-Rezeptoren,

Transkriptionsfaktoren. Heatmap der log2-transformierten Verhältnisse (Ratios) der Fluoreszenzintensitäten aus behandelten Zellen im Vergleich zur basalen Kontrollvariante der experimentellen Gruppe. Die Behandlungen der Keratinozyten sind nicht aufgeschlüsselt, da sie in nicht veröffentlichter Kooperation entstanden sind. 3.6 Ergebnisse 106 r - & s o

t n m p e u e r t z o - s t e o h l k R l c - n a a a F F e t s W W a Me e - t x o i r r t P a M e - - n - e e i t t s e n u t a e k o h m r A P m e P t e l s - p y s e S l n m ü o o i k K s e l ä o h d M A n o i t k u d s an r t l a n g i S e g i t s n o s

, ne i e t o r p x i r t a M

, e m y z n E e n e g s t al h s u a H

+ + + + + + + + + + + + + 2h IL1a + + + + 4h g

+ + 24h IFNg n u

+ + + + 4h TNF l d n a

+ + + + + h 2h UV e

+ + 0h ActD B + + 0.5h + + 1h + + 2h + + 3h 3 9 9 1 5 4 5 7 7 1 1 1 9 7

0 8 6 5 Experiment. 4 5 4 7 5 3 1 9 6 4 2 1 2 1 1 1 1 1 1 1 0 0 1 1 Gruppe G G G G G G G G G G G G G G Keratinozyten HeLa-tTA-Zellen Zellsystem

Abb. 3.32: HeLa-tTA-Zellen und Keratinozyten, Arraytyp Inflhum. Gensonden sortiert nach Zugehörigkeit zu funktionellen Gengruppen (Teil 2): Wachstumsfaktoren und deren Rezeptoren, Matrix-Metallo-Proteasen, Akute-Phase-Proteine, Komplementsystem, Adhäsionsmoleküle, Signaltransduktion, Enzyme und Matrixproteine und sonstige.

Heatmap der log2-transformierten Verhältnisse (Ratios) der Fluoreszenzintensitäten aus behandelten Zellen im Vergleich zur basalen Kontrollvariante der experimentellen Gruppe. Die Behandlungen der Keratinozyten sind nicht aufgeschlüsselt, da sie in nicht veröffentlichter Kooperation entstanden sind. 3.6 Ergebnisse 107

+ + + + + + + + + + + + + G032 + + + + + + + + + + + G014 + + + G021 + + n e

+ t s a

+ G016 l b

+ + o G028 r b + i f h

+ G011 c s i

+ + + + e l f

+ + n h

+ + G159b a Z

+ + e r

+ ä m i

+ + + + r p

+ + e n

+ + G080 a m

+ + u h

+ : i

+ + + + G u

+ + H + + + + + + + + + G159a + + + + + + + + + + + + G016 + + + + + + G020 +

G090

G093

G045

G046 n e

G049 t y z o

G062 n i t a r e

G109 K

G127

G120 h h h h h h h h h 5 1 4 4 5 5 5 1 1 . . . . e 0 0 0 0 p p u r m G e

0 5 t 9 . n 8 2 r s t 5 u c 5 1 y

Trans- n a F 0 J s s 3 0 e 1 c 8 l N T l 0 0 L T 9 T m A I e 2 kriptions- 6 i

Zytokine Zytokin- Chemokine Chemokin- A D T r P Z B T P e S S

Rezeptoren Rezeptoren faktoren p x E Toll-like Behandlung Rezeptoren

Abb. 3.33: Keratinozyten und humane primäre Zahnfleischfibroblasten (HuGi), Arraytyp HA286. Gensonden sortiert nach Zugehörigkeit zu funktionellen Gengruppen (Teil 1): Zytokine, Zytokinrezeptoren, Chemokine, Chemokinrezeptoren, Toll-like-Rezeptoren,

Transkriptionsfaktoren. Heatmap der log2-transformierten Verhältnisse (Ratios) der Fluoreszenzintensitäten aus behandelten Zellen im Vergleich zur basalen Kontrollvariante der experimentellen Gruppe. Die Behandlungen der Keratinozyten sind nicht aufgeschlüsselt, da sie in nicht veröffentlichter Kooperation entstanden sind. 3.6 Ergebnisse 108

+ + + + + + + + + + + + + G032 + + + + + + + + + + + G014 + + + G021 + + n e

+ t s a

+ G016 l b

+ + o G028 r b + i f h

+ G011 c s i

+ + + + e l f

+ + n h

+ + G159b a Z

+ + e r

+ ä m i

+ + + + r p

+ + e n

+ + G080 a m

+ + u h

+ : i

+ + + + G u

+ + H + + + + + + + + + G159a + + + + + + + + + + + + G016 + + + + + + G020 +

G090

G093

G045

G046 n e

G049 t y z o

G062 n i t a r e

G109 K

G127

G120 h h h h h h h h h 5 1 4 4 5 5 5 1 1 . . . . e 0 0 0 0 p p u r m G e

0 5 t 9 . n 8 2 r t s

Haus- 5 u c 5 1 y n a

Komple- Signal- F 0 J s s 3 0 e 1 c 8 l N T l 0 Enzyme, Matrixproteine, 0 L

halts- T 9 T m A I e 2 6

Matrix-Metallo- ment- trans- i A D T r P Z B T P

sonstige e S gene S

Proteasen System duktion p x Wachstums- Akute- Adhäs- E Behandlung Faktoren & Phase- ions- WF-Rezeptor Proteine Moleküle

Abb. 3.34: Keratinozyten und humane primäre Zahnfleischfibroblasten (HuGi), Arraytyp HA286. Gensonden sortiert nach Zugehörigkeit zu funktionellen Gengruppen (Teil 2): Wachstumsfaktoren und deren Rezeptoren, Matrix-Metallo-Proteasen, Akute-Phase-Proteine, Komplementsystem, Adhäsionsmoleküle, Signaltransduktion, Enzyme und Matrixproteine und sonstige. Heatmap der log2-transformierten Verhältnisse (Ratios) der Fluoreszenzintensitäten aus behandelten Zellen im Vergleich zur basalen Kontrollvariante der experimentellen Gruppe. Die Behandlungen der Keratinozyten sind nicht aufgeschlüsselt, da sie in nicht veröffentlichter Kooperation entstanden sind. 3.6 Ergebnisse 109

+ G083 + + G135 + G065 + embrionale G269 + Mausfibroblasten + (MEF)

+ G131 + + G254 + + G065 + G067 + G068 Leber + G038 + G133 primäre MEF + G008 Knochenmarks- + G056 Makrophagen h h h h h h h h h h h h 5 1 2 3 4 3 5 2 3 2 1 4 . .

2 1 0 0 . t m n e e e t p s m a p F i S y 6

Zytokine Chemokine Trans- 1 r u N P s L r L l I e L T l I G kriptions- p Zytokin- Chemokin- e x Z Rezeptoren Rezeptoren faktoren E Behandlung Toll-like Rezeptoren

Abb. 3.35: Murine primäre Zellen, Gewebe und Zelllinien, Arraytyp MA313. Gensonden sortiert nach Zugehörigkeit zu funktionellen Gengruppen (Teil 1): Zytokine, Zytokinrezeptoren, Chemokine, Chemokinrezeptoren, Toll-like-Rezeptoren,

Transkriptionsfaktoren. Heatmap der log2-transformierten Verhältnisse (Ratios) der Fluoreszenzintensitäten aus behandelten Zellen im Vergleich zur basalen Kontrollvariante der experimentellen Gruppe.

+ G083 + + G135 + G065 + embrionale G269 + Mausfibroblasten + (MEF)

+ G131 + + G254 + + G065 + G067 + G068 Leber + G038 + G133 primäre MEF + G008 Knochenmarks- + G056 Makrophagen h h h h h h h h h h h h 5 1 2 3 4 3 5 2 3 2 1 4 . .

2 1 0 0 . t m n e e e t p s m a p F i S y 6 1 r u N P s L r L l I e L T l Komple- Signal- Enzyme, Matrixproteine, Haushalts- I G p e x

Matrix-Metallo- ment- trans- sonstige gene Z E Proteasen System duktion Behandlung Wachstums- Akute- Adhäs- Faktoren Phase- ions- Proteine Moleküle

Abb. 3.36: Murine primäre Zellen, Gewebe und Zelllinien, Arraytyp MA313. Gensonden sortiert nach Zugehörigkeit zu funktionellen Gengruppen (Teil 2): Wachstumsfaktoren und deren Rezeptoren, Matrix-Metallo-Proteasen, Akute-Phase-Proteine, Komplementsystem, Adhäsionsmoleküle, Signaltransduktion, Enzyme und Matrixproteine und sonstige. Heatmap der log2-transformierten Verhältnisse (Ratios) der Fluoreszenzintensitäten aus behandelten Zellen im Vergleich zur basalen Kontrollvariante der experimentellen Gruppe. 3.6 Ergebnisse 110 e n i k o t y Z n - e r n i o t k o p t e y z Z e R e n i k o m he C - n n e i r k o o t p m e z n he e e C R e r k o i l t - p l l e o z T e R - ns o n i t e r p i o r t k k s a f n a r T

+ 1h IL1a + + + 2h + + 1.5h TNF + + 2h g + n 6h u + 0.5h ActD l + d

1h n

+ 2h a

+ 2.5h zVAD-fmk h + 3h Ischämie/Reperfusion e + 6h B

+ + + + + 2h LPS 4 1 5 8 2 7 3 2 2 3 4 6 6 6 3 4 3 0 1 3 4 4

2 2 2 2 2 2 1 1 1 1 1 Experiment. Gruppe G G G G G G G G G G G Knochenmarksmakrophagen Leber NIH3T3 MEF Zellsystem

Abb. 3.37: Murine primäre Zellen, Gewebe und Zelllinien, Arraytyp Inflmus. Gensonden sortiert nach Zugehörigkeit zu funktionellen Gengruppen (Teil 1): Zytokine, Zytokinrezeptoren, Chemokine, Chemokinrezeptoren, Toll-like-Rezeptoren, Transkriptions- faktoren. Heatmap der log2-transformierten Verhältnisse (Ratios) der Fluoreszenzintensitäten aus behandelten Zellen im Vergleich zur basalen Kontrollvariante der experimentellen Gruppe. Die Behandlungen der Knochenmarksmakrophagen aus den Gruppen G264 und G261 sind nicht aufgeschlüsselt, da sie in nicht veröffentlichter Kooperation entstanden sind. 3.6 Ergebnisse 111 - n s e - r m o o l u t l t n k a s e t a h s F c a Me a e - t x W o i r r t P a e M - - n e e i t s e u t a - k o h - e m r l t A P e P p n t - e s m s y e o l m n S K ü o i k s e l ä o h d M A n o i t k u d s n a r t l a n g i S e g i t s n o s

, e n i e t o r p x i r t a M

, e m y nz E e n e g s t l a h s u a H

+ 1h IL1a + + + 2h + + 1.5h TNF + + 2h g + n 6h u + 0.5h ActD l + d

1h n

+ 2h a

+ 2.5h zVAD-fmk h + 3h Ischämie/Reperfusion e + 6h B

+ + + + + 2h LPS 4 1 5 8 2 7 3 2 2 3 4 6 6 6 3 4 3 0 1 3 4 4

2 2 2 2 2 2 1 1 1 1 1 Experiment. Gruppe G G G G G G G G G G G Knochenmarksmakrophagen Leber NIH3T3 MEF Zellsystem

Abb. 3.38: Murine primäre Zellen, Gewebe und Zelllinien, Arraytyp Inflmus. Gensonden sortiert nach Zugehörigkeit zu funktionellen Gengruppen (Teil 2): Wachstumsfaktoren und deren Rezeptoren, Matrix-Metallo-Proteasen, Akute-Phase-Proteine, Komplementsystem, Adhäsionsmoleküle, Signaltransduktion, Enzyme und Matrixproteine und sonstige.

Heatmap der log2-transformierten Verhältnisse (Ratios) der Fluoreszenzintensitäten aus behandelten Zellen im Vergleich zur basalen Kontrollvariante der experimentellen Gruppe. Die Behandlungen der Knochenmarksmakrophagen aus den Gruppen G264 und G261 sind nicht aufgeschlüsselt, da sie in nicht veröffentlichter Kooperation enstanden sind. 3.6 Ergebnisse 112

3.6.2 Ähnlichkeiten der Expressionsmuster und koregulierte Gene Identifizierung einer aus 41 Experimenten mit vier humanen Zelltypen (vgl. Tab. 3.21) und 146 verschieden Stimulations- bzw. Behandlungssituationen koregulierte Gruppe an Genen.

Die in Abb. 3.29 bis 3.38 gezeigten Zusammenfassungen der Genexpressionsverändrungen in den acht Zellsystemen zeigten, dass ganz offensichtlich bestimmte „Muster” an stark induzierten und in einer gegebenen Situation koregulierten oder aber wenig veränderten Entzündungsgenen nachweisbar sind. Allerdings waren die zu Grunde liegenden experimentellen Situationen in der Übersichtsauswertung trotz der Beschränkung auf ausgewählte Experimente, immer noch relativ heterogen. Ein solcher Datensatz kann dazu dienen, gemeinsame intrazelluläre Prinzipien abzuleiten, die dazu führen, dass ganz bestimmte Gene „robust” durch eine Vielzahl an Stimuli in einer Vielzahl an Zelltypen reguliert werden. Voraussetzung für eine solche Analyse ist eine Zuordnung dieser Gene in bestimmte Gruppen. Dieses könnte manuell erfolgen, indem in jedem der als Heatmap dargestellten Datensätze die induzierten und die nicht induzierten Gene markiert werden.

Clusteranalyse Im Folgenden ist eine andere Art der Analyse dargestellt: Die gesamten Expressionsdaten der in Abb. 3.29 bis 3.34 dargestellten Heatmaps für humane Zellsysteme wurden mit einem Clustering-Verfahren nach Ähnlichkeiten der Expressionsmuster sortiert. Dies geschah über die Softwaresammlung BRB-Arraytools (Version 3.4 BETA_2, http://linus.nci.nih.gov/BRB-ArrayTools.html), die in Microsoft Excel integrierbar ist und zur Analyse von Mikroarraydaten dient. Das Clustering der Daten wurde mit dem in BRB- Arraytools enthaltenen Programm Gene Cluster Version 3.0 durchgeführt. Es ist eine erweiterte Version des Programmes Cluster von Michael Eisen (Eisen Lab Software. http://rana.lbl.gov/EisenSoftware.htm, Eisen et al., 1998).

Clusteranalysen haben zum Ziel, Gene über viele Experimente nach der Ähnlichkeit von Expressionsmustern zu gruppieren und damit koregulierte Gene zu identifizieren. Allen Clustering-Methoden ist die Darstellung der Expressionsdaten in einem multidimensionalen Raum gemeinsam. Dazu wird jedem Gen ein Vektor zugeordnet, der die Expressionsdaten über alle n zu vergleichenden Experimente (Bedingungen) enthält. Diese Vektordaten legen die Position des Genes in einem n-dimensionalen Raum fest. Gene, deren Messwerte in diesem Raum über verschiedene Experimente einen ähnlichen Vektor erzeugen, werden zusammen „clustern” und zeigen ähnliche Regulationsmuster.

Die Ähnlichkeit (oder auch Unähnlichkeit) von Gen-Vektoren und daraus resultierenden Clustern wird über ein Ähnlichkeitsmaß ermittelt, das zwischen verschieden Methoden variieren kann. In der englischen Literatur werden dafür die Begriffe „similarity metric” und „distance metric” synonym verwendet. Oft verwendet werden „Euclidean distance” und „Pearson centered correlation” (Chipman, H., Hastie, T.J. & Tibshirani, R., 2003). Um die Lage bzw. räumliche Nähe zwischen den Clustern definieren zu können, muss festgelegt werden, welche Methode der Algorithmus zur Eingruppierung in Cluster verwendet. Quackenbush, 2001 nennt mindestens sechs solcher Methoden für hierarchisches Clustering.

Hier wurde die Variante des hierarchischen Clustering verwendet, die die Daten nach einem „bottom-up”-Verfahren analysiert (Eisen et al., 1998). Das Verfahren startet damit, dass jeder Gen-Vektor als ein Cluster der Größe eins angenommen wird. In den folgenden Schritten werden immer die zwei nächstliegenden Objekte zu einem neuen Cluster zusammengefasst bis alle Objekte in einen gemeinsamen Cluster fallen. Als Ergebnis erhält man ein in sich geschachteltes Dendrogramm. Die Länge der Verbindungslinien eines Clusters zeigt die Ähnlichkeit der beiden zusammengefügten Objekte an. Der Algorithmus kann auch die Experimente in Clustern zusammenfassen. Dies geschieht in analoger Weise 3.6 Ergebnisse 113 zum Clustering der Gene.

Der Vorteil des hierarchischen Clustering von Eisen ist, dass unter Verwendung des Ähnlichkeitsmaßes „uncentered correlation matric” und der Clustering-Methode „mean- linkage” fehlende Expressionswerte nicht zu falschen Clusterergebnissen führen, da fehlende Werte paarweise ausgelassen werden (Simon & Lam, 2006; Eisen et al., 1998; Chipman et al., 2003). In der Zusammenstellung wurden die Expressionsdaten der Gensonden berücksichtigt, die auf beiden Arraytypen (HA286 und Inflhum) überlappend vorhanden waren, erweitert um die neuen Gensonden auf Arraytyp Inflhum. Damit ergeben sich fehlende Expressionswerte bei den Experimenten mit Arraytyp HA286.

Für die Ermittlung der Gengruppen mit Gene Cluster (Version 3.0) wurden folgende Einstellungen für hierarchisches Clustering verwendet:

● Gene und die Experimente sollten geclustert werden. ● Die Berechnungen erfolgten für Gene und Experimente ohne Gewichtung („calculate weights” war abgewählt). ● Als Ähnlichkeitsmaß wurde für Gene und Experimente „uncentered correlation” gewählt. ● Die Clustering-Methode war „average linkage”.

Das Clusterergebnis wurde in einer Heatmap mit Dendrogramm für die Ähnlichkeiten zwischen Genen und Experimenten mit dem Programm Java Treeview visualisiert und ist in Abb. 3.39 als Übersicht und in den Abbildungen 3.40 und 3.41 detailliert dargestellt. Das Programm Java Treeview (Version 1.0.13, http://jtreeview.sourceforge.net) ist eine erweiterte Umsetzung des Programmes Treeview von Michael Eisen in der Sprache Java, das bessere Einstellungs- und Exportmöglichkeiten bietet als die mit BRB-Arraytools ausgelieferte Version von Treeview.

Bei der Gruppierung der experimentellen Situationen und Zelltypen fällt auf, dass die jeweiligen Zelltypen bis auf wenige Ausnahmen einander zugeordnet werden, dieses trifft insbesondere auf die HuGi Experimente zu. Vor allem liegen vergleichbare experimentelle Behandlungen für die selben Zellsysteme direkt nebeneinander. Auch in dieser Analyse verhalten sich die beiden Gene IL-6 und IL-8 über die Mehrzahl der Experimente gleich und fallen deshalb in den gleichen Cluster, der nur die beiden Gene enthält (horizontale grüne Hinterlegung in Abb. 3.39 bis 3.41).

Weiterhin fällt auf, dass übergreifend über alle Zelltypen eine im oberen Teil der in Rot gefärbte Gruppe von unterschiedlichen Genen koreguliert ist. Diese Gengruppe zeichnet sich daher im Gegensatz zu den anderen Genen dadurch aus, dass sie zelltypunabhängig durch im weitestgehenden Sinne proinflammatorische Stimuli induziert wird.

Eine Gengruppe aus diesem Cluster, deren Expressionen im Zellsystem HuGi besonders stark reguliert waren, wurde für weitere Analysen ausgewählt (vertikale grüne Hinterlegung, oberer Teil von Abb. 3.39 bis 3.41). Die Expressionsdaten dieser ausgewählten Gene wurden für Experimente mit IL-1α stimulierten HuGi-Zellen, exportiert. Die Daten sind in Tab. 3.23 gezeigt. Aus dem unteren großen Cluster mit nicht oder schwach regulierten Genen wurde ebenfalls eine Auswahl für weitere Untersuchungen getroffen: Es wurden die Expressions- daten der Gene exportiert (Tab. 3.24), die in den Experimenten mit IL-1α stimulierten HuGi- Zellen keine Hochregulation zeigten. 3.6 Ergebnisse 114

Experimente e n e G

Abb. 3.39: Hierarchischer Cluster aus 146 humanen Arrayvergleichen und 41 experimentellen Gruppen.

Die farbcodierten Werte sind log2-transformierte Quotienten (Ratios) aus Intensitätswerten. Die Intensität der behandelten Versuchsvariante geteilt durch Intensität der Kontrollvariante der experimentellen Gruppe. Die Experimente wurden mit den Arraytypen HA286 und Inflhum durchgeführt. Dargestellt sind alle Sonden, die auf Inflhum enthalten sind. Nicht vorhandene Messwerte erscheinen grau. Das sind in der Regel Sonden die nicht in HA286 enthalten sind, da dieser Arraytyp weniger Gene als Inflhum umfasst. Waagrecht grün hinterlegt sind die beispielhaft ausgewählten und hochregulierten Gene IL6 und IL8. Senkrecht grün hinterlegt sind die Genexpressionen aus HuGi-Experimenten, die für weitere Analysen ausgewählt wurden. Damit Experimente und Gene darstellbar werden, findet sich die Abbildung weiter unten auf zwei Abbildungen verteilt: Teil A ist in Abb. 3.40, Teil B der Abbildung ist in Abb. 3.41 dargestellt. Die Behandlungen der Keratinozyten sind in Abb. 3.40 und Abb. 3.41 nicht aufgeschlüsselt, da sie in nicht veröffentlichter Kooperation enstanden sind. 3.6 Ergebnisse 115

Abb. 3.40: Hierarchischer Cluster, Teil A. Beschreibung siehe Abb. 3.39. 3.6 Ergebnisse 116

Abb. 3.41: Hierarchischer Cluster, Teil B. Beschreibung siehe Abb. 3.39.

3 . 6

E r g e b n i s s e

Tab. 3.23: Ratiovergleiche für die in der Clusternalyse Abb. 3.39 identifizierten koregulierten Gene.

G020 G011 G159b G028 G016 G021 G032 Standardab- Gen- Accession indu- Mittelwert Mittelwert S01_B S01_B S01_B S01_B S01_B S01_B S03_B Genname weichung symbol Nummer ziert Ratio log2 (Ratio) HuGi_4h_ HuGi_4h_ HuGi_4h_ HuGi_4h_ HuGi_4h_ HuGi_4h_ HuGi_4h_ log2 (Ratio) IL1a IL1a IL1a IL1a IL1a IL1a IL1a cxcl8 (IL8) cxcl8 NM_000584 ja 119.4 6.90 0.48 6.74 6.95 7.30 6.11 7.61 6.65 6.92 il6 il6 NM_000600 ja 93.1 6.54 0.81 6.25 7.83 6.23 5.84 7.59 6.07 5.98 ccl2 (MCP1) ccl2 NM_002982 ja 57.3 5.84 0.99 5.71 6.55 5.09 4.45 7.40 5.38 6.33 birc3 birc3 NM_001165 ja 37.3 5.22 0.57 5.93 5.33 4.55 4.43 5.61 5.65 5.07 mmp15 (METALLOTHIONEIN-2) mmp15 NM_002428 ja 31.1 4.96 0.81 5.04 4.08 5.55 5.44 5.07 3.68 5.89 cxcl3 (GRO GAMMA) cxcl3 NM_002090 ja 19.2 4.26 0.98 6.17 4.19 2.93 4.57 4.06 3.85 4.03 ptgs2 (COX 2) ptgs2 NM_000963 ja 18.6 4.22 1.22 6.62 3.85 4.29 4.88 3.44 3.42 3.05 sod2 (MnSOD) sod2 NM_000636 ja 16.2 4.02 0.74 3.36 5.37 4.17 3.09 4.19 3.73 4.20 ptx3 (PENTRAXIN 3) ptx3 NM_002852 ja 15.0 3.91 1.30 3.71 5.91 3.31 2.65 5.29 2.43 4.08 nfkbiz (MAIL) nfkbiz NM_031419 ja 11.2 3.49 0.96 4.05 5.14 2.57 3.52 3.76 3.16 2.26 serpinb2 (PAI-2) serpinb2 NM_002575 ja 10.4 3.38 0.41 4.03 3.55 3.07 2.97 3.79 3.13 3.15 csf2 (GM-CSF) csf2 NM_000758 ja 9.3 3.22 0.74 2.77 3.79 2.69 2.96 2.25 3.76 4.32 nfkbia (IKB-ALPHA) nfkbia NM_020529 ja 8.9 3.15 0.93 2.76 4.82 2.76 2.07 3.97 3.01 2.70 ccr1 ccr1 NM_001295 ja 7.0 2.80 0.64 2.01 2.57 3.15 4.00 2.73 2.33 2.84 mmp1 (INTERSTITIAL mmp1 NM_002421 ja 6.9 2.79 1.14 1.91 4.35 2.40 1.07 2.72 3.95 3.14 COLLAGENASE-1) il1r2 (IL1 RECEPTOR TYPE II) il1r2 NM_173343 ja 6.6 2.73 0.46 2.23 2.50 2.49 3.45 2.67 2.44 3.30 tnfrsf1b (TNF RECEPTOR TYPE tnfrsf1b NM_001066 ja 6.0 2.59 0.60 3.78 2.90 2.03 2.50 2.11 2.25 2.54 II) mmp3 (STROMELYSIN-1) mmp3 NM_002422 ja 5.7 2.52 1.35 1.21 4.69 1.77 1.24 1.80 3.68 3.22 plau (uPA) plau NM_002658 ja 4.8 2.27 1.06 3.72 3.65 1.07 1.40 2.26 2.25 1.57 gch1 (GTP CYCLOHYDROLASE I) gch1 NM_000161 ja 4.7 2.24 0.76 3.31 2.12 1.63 3.19 1.96 2.17 1.28 jun (C-JUN) jun NM_002228 ja 4.1 2.04 1.04 1.78 4.05 1.53 1.68 2.49 2.05 0.70 1 1 7

3

Tab. 3.24: Ratiovergleiche für die in der Clusternalyse Abb. 3.39 identifizierten nicht induzierten Gene. . 6

E

G020 G011 G159b G028 G016 G021 G032 r Standardab- g

Gen- Accession indu- Mittelwert Mittelwert S01_B S01_B S01_B S01_B S01_B S01_B S03_B e Genname weichung symbol Nummer ziert Ratio log2 (Ratio) HuGi_4h_ HuGi_4h_ HuGi_4h_ HuGi_4h_ HuGi_4h_ HuGi_4h_ HuGi_4h_ b log2 (Ratio) n

IL1a IL1a IL1a IL1a IL1a IL1a IL1a i s

gpr84 (EX33) gpr84 NM_020370 nein 1.96 0.97 0.78 1.87 2.22 0.75 0.63 0.47 0.78 0.07 s e

serpine1 (PAI-1) serpine1 NM_000602 nein 1.89 0.92 0.77 1.24 2.17 1.05 0.43 1.40 0.17 -0.02 egfr egfr NM_005228 nein 1.71 0.77 1.10 0.68 3.19 0.66 0.21 0.45 0.12 0.07 kit (C-KIT) kit NM_000222 nein 1.66 0.73 0.41 0.90 1.19 0.94 0.99 0.61 -0.03 0.50 mmp14 (METALLOTHIONEIN-1) mmp14 NM_004995 nein 1.57 0.65 0.62 1.08 1.88 0.46 0.29 0.29 0.19 0.33 hmox1 (HEME OXYGENASE 1) hmox1 NM_002133 nein 1.55 0.63 0.77 0.20 2.19 0.52 -0.21 0.36 0.95 0.42 il2 il2 NM_000586 nein 1.51 0.59 0.60 0.21 1.47 -0.23 0.56 0.55 0.31 1.27 cxcr4 cxcr4 NM_003467 nein 1.45 0.54 0.61 -0.06 1.70 0.16 0.96 0.24 0.20 0.56 fth1 (FERRITIN HEAVY CHAIN) fth1 NM_002032 nein 1.40 0.49 0.77 0.34 2.19 0.22 0.05 0.08 0.08 0.47 il2ra (IL2 RECEPTOR ALPHA) il2ra NM_000417 nein 1.39 0.47 0.86 0.03 2.17 0.09 1.00 0.36 -0.05 -0.34 fn1 (FIBRONECTIN) fn1 NM_002026 nein 1.38 0.46 1.20 1.54 2.30 0.83 -0.16 0.23 -1.30 -0.23 cxcr1 (IL8 RECEPTOR ALPHA) cxcr1 NM_000634 nein 1.32 0.40 0.90 0.08 2.44 -0.03 -0.04 0.08 0.20 0.10 apcs (SAP) apcs NM_001639 nein 1.31 0.39 0.30 0.57 0.64 0.39 0.81 0.01 0.08 0.23 gapd (GAPDH) gapd NM_002046 nein 1.30 0.38 1.13 1.00 2.68 0.11 -0.68 -0.10 -0.19 -0.19 col7a1 (COLLAGEN TYPE 7 col7a1 NM_000094 nein 1.29 0.37 0.53 1.01 1.17 0.34 -0.14 0.29 0.02 -0.12 ALPHA 1) hp (HAPTOGLOBIN) hp NM_005143 nein 1.26 0.33 0.63 1.60 0.70 0.15 -0.02 -0.16 0.16 -0.13 ccr3 ccr3 NM_001837 nein 1.26 0.33 0.38 0.23 1.01 0.70 0.00 0.06 0.10 0.18 nos2a nos2a NM_000625 nein 1.25 0.32 0.68 1.38 0.55 -0.28 0.10 -0.03 -0.47 0.99 hprt1 hprt1 NM_000194 nein 1.24 0.31 0.47 0.70 1.12 0.34 -0.16 0.32 -0.08 -0.10 ccl4 (MIP1 BETA) ccl4 NM_002984 nein 1.21 0.28 0.29 -0.10 0.26 0.49 0.62 -0.13 0.46 0.33 tgfb1 (TGF BETA 1) tgfb1 NM_000660 nein 1.19 0.25 0.94 0.74 2.14 0.23 -0.50 -0.11 -0.52 -0.23 ubc (UBIQUITIN C) ubc NM_021009 nein 1.17 0.23 0.49 0.28 1.26 0.22 -0.29 0.22 -0.07 0.01 ywhaz (PHOSPHOLIPASE A2) ywhaz NM_145690 nein 1.16 0.22 0.70 0.90 1.47 -0.18 -0.25 0.08 -0.44 -0.01 crp crp NM_000567 nein 1.15 0.20 0.41 0.22 1.00 0.29 0.23 -0.11 0.12 -0.33 il9 il9 NM_000590 nein 1.14 0.19 0.83 0.73 0.38 1.53 0.13 -0.98 -0.58 0.12 actb (BETA ACTIN) actb NM_001101 nein 1.14 0.19 1.07 1.55 1.82 -0.40 -0.76 0.21 -0.58 -0.54 cxcr2 (IL8 RECEPTOR BETA) cxcr2 NM_001557 nein 1.13 0.17 0.18 -0.04 0.53 0.03 0.24 0.11 0.19 0.10 ccl3 (MIP1 ALPHA) ccl3 NM_002983 nein 1.10 0.14 0.54 0.15 1.17 0.14 -0.14 -0.41 0.38 -0.34 ccl27 (CTACK) ccl27 NM_006664 nein 1.08 0.11 0.29 0.45 0.50 0.06 -0.15 -0.12 0.24 -0.20 socs1 socs1 NM_003745 nein 1.06 0.09 0.34 0.47 0.63 0.09 -0.13 -0.16 0.04 -0.31 mmp8 (NEUTROPHIL mmp8 NM_002424 nein 1.06 0.08 0.35 -0.21 0.75 0.11 0.24 -0.26 0.14 -0.20 COLLAGENASE) sele (E-SELECTIN) sele NM_000450 nein 1.01 0.02 0.61 0.19 0.69 0.09 0.39 -1.16 0.32 -0.34 fos (C-FOS) fos NM_005252 nein 1.01 0.01 0.61 -0.16 1.18 -0.74 0.39 -0.10 -0.23 -0.25 rpl15 (RIBOSOMAL PROTEIN rpl15 NM_002948 nein 1.00 0.00 0.42 0.09 0.87 -0.03 -0.38 -0.12 -0.14 -0.29 L15) il18 il18 NM_001562 nein 0.94 -0.09 0.57 0.34 0.41 0.18 0.04 0.11 -1.19 -0.51 ifng (IFN GAMMA) ifng NM_000619 nein 0.88 -0.18 0.50 -0.59 -0.03 0.23 0.24 -1.11 -0.11 0.14 il11 il11 NM_000641 nein 0.88 -0.19 0.13 0.02 -0.21 -0.06 -0.15 -0.37 -0.25 -0.30 il16 il16 NM_004513 nein 0.77 -0.38 0.44 -0.09 0.44 -0.47 -0.91 -0.55 -0.65 -0.46 trem1 trem1 NM_018643 nein 0.73 -0.46 1.38 -0.78 1.01 0.05 0.40 -3.31 -0.29 -0.28 adamts1 adamts1 NM_006988 nein 0.66 -0.61 0.68 -0.05 0.58 -0.67 -1.26 -1.04 -1.23 -0.62 1 1 8 3.6 Ergebnisse 119

3.6.3 Promotoranalysen von koregulierten Genen Aus den Tabellen 3.25 und 3.26 ist zu erkennen, dass die durch die in Abb. 3.39 bis Abb. 3.41 gezeigte Clusteranalyse identifizierten 21 konstant induzierten Entzündungsgene und die nicht induzierten Gene zu funktionell unterschiedlichen Klassen gehören. Dieses trifft auch auf Interleukin-6 (Zytokin) und Interleukin-8 (Chemokin) als die beiden am stärksten regulierten Gene zu.

Tab. 3.25: Einteilung der für die Protomotoranalysen ausgewählten induzierten Gene in in funktionelle Gruppen. Die Genexpressionsdaten hierzu finden sich in Tab. 3.23.

Accession Symbol Synonyme funktionelle Gruppe Nummer cxcl8 NM_000584 IL8; K60; NAF; GCP1; IL-8; LECT; LUCT; NAP1; 3-10C; CXCL8; GCP-1; Chemokine LYNAP; MDNCF; MONAP; NAP-1; SCYB8; TSG-1; AMCF-I; b-ENAP; interleukin 8 precursor il6 NM_000600 IL6; HGF; HSF; BSF2; IL-6; IFNB2; interleukin 6 (interferon beta 2) Zytokine ccl2 NM_002982 CCL2; HC11; MCAF; MCP1; MCP-1; SCYA2; GDCF-2; SMC-CF; Chemokine MGC9434; GDCF-2; small inducible cytokine A2 precursor birc3 NM_001165 BIRC3; AIP1; API2; MIHC; CIAP2; HAIP1; HIAP1; MALT2; RNF49; Signaltransduktion baculoviral IAP repeat-containing protein 3 mmp15 NM_002428 MMP15; MTMMP2; SMCP-2; MT2-MMP; matrix metalloproteinase 15 Matrixmetalloproteasen preproprotein cxcl3 NM_002090 CXCL3; GRO3; GROg; MIP2B; SCYB3; MIP-2b; CINC-2b; chemokine Chemokine (C-X-C motif) ligand 3 ptgs2 NM_000963 PTGS2; COX2; COX-2; PHS-2; PGG/HS; PGHS-2; hCox-2; Enzyme, Matrixproteine, prostaglandin-endoperoxide synthase 2 precursor weitere sod2 NM_000636 SOD2; IPO-B; MNSOD; superoxide dismutase 2 mitochondrial Enzyme, Matrixproteine, weitere ptx3 NM_002852 PTX3; TSG-14; pentaxin-related gene rapidly induced by IL-1 beta Enzyme, Matrixproteine, weitere nfkbiz NM_031419 IKBZ; INAP; molecule possessing ankyrin repeats induced by Signaltransduktion lipopolysaccharide serpinb2 NM_002575 SERPINB2; PAI; PAI2; PLANH2; HsT1201; serine (or cysteine) Enzyme, Matrixproteine, proteinase inhibitor clade B (ovalbumin) member 2 weitere csf2 NM_000758 CSF2; GMCSF; colony stimulating factor 2 precursor Zytokine nfkbia NM_020529 NFKBIA; IKBA; MAD-3; NFKBI; nuclear factor of kappa light polypeptide Signaltransduktion gene enhancer in B-cells inhibitor alpha ccr1 NM_001295 CCR1; CKR-1; HM145; CMKBR1; MIP1aR; SCYAR1; chemokine (C-C Chemokinrezeptoren motif) receptor 1 mmp1 NM_002421 MMP1; CLG; CLGN; matrix metalloproteinase 1 preproprotein Matrixmetalloproteasen il1r2 NM_173343 IL1R2; IL1RB; MGC47725; interleukin 1 receptor type II precursor Zytokinrezeptoren tnfrsf1b NM_001066 TNFRSF1B; p75; TBPII; TNFBR; TNFR2; CD120b; TNFR80; TNF-R75; Zytokinrezeptoren p75TNFR; TNF-R-II; tumor necrosis factor receptor 2 precursor mmp3 NM_002422 MMP3; SL-1; STMY; STR1; STMY1; TRANSIN; matrix metalloproteinase Matrixmetalloproteasen 3 preproprotein plau NM_002658 PLAU; UPA; URK; plasminogen activator urokinase Enzyme, Matrixproteine, weitere gch1 NM_000161 GCH1; GCH; DYT5; GTPCH1; GTP cyclohydrolase 1 (dopa-responsive Enzyme, Matrixproteine, dystonia) weitere jun NM_002228 JUN; AP1; v-jun avian sarcoma virus 17 oncogene homolog Transkriptionsfaktoren 3.6 Ergebnisse 120

Tab. 3.26: Einteilung der für die Protomotoranalysen ausgewählten nicht induzierten Gene in in funktionelle Gruppen. Die Genexpressionsdaten hierzu finden sich in Tab. 3.24.

Accession Symbol Synonyme funktionelle Gruppe Nummer gpr84 NM_020370 GPR84; EX33; GPCR4; inflammation-related G protein-coupled receptor Chemokinrezeptoren EX33 serpine1 NM_000602 SERPINE1; PAI; PAI1; PAI-1; PLANH1; plasminogen activator inhibitor-1 Enzyme, Matrixproteine, weitere egfr NM_005228 EGFR; ERBB; ERBB1; epidermal growth factor receptor isoform d growth factor receptors kit NM_000222 PBT; SCFR; CD117; v-kit Hardy-Zuckerman 4 feline sarcoma viral Zytokinrezeptoren oncogene homolog precursor mmp14 NM_004995 MMP14; MMP-X1; MTMMP1; MT1-MMP; matrix metalloproteinase 14 Matrixmetalloproteasen preproprotein hmox1 NM_002133 HMOX1; HO-1; bK286B10; heme oxygenase (decyclizing) 1 Enzyme, Matrixproteine, weitere il2 NM_000586 IL2; IL-2; TCGF; interleukin 2 precursor Zytokine cxcr4 NM_003467 CXCR4; HM89; LAP3; NPYR; LESTR; NPY3R; HSY3RR; NPYY3R; Chemokinrezeptoren D2S201E; chemokine (C-X-C motif) receptor 4 fth1 NM_002032 FTH1; FTH; FTHL6; ferritin heavy polypeptide 1 Enzyme, Matrixproteine, weitere il2ra NM_000417 IL2RA; CD25; IL2R; TCGFR; interleukin 2 receptor alpha chain precursor Zytokinrezeptoren fn1 NM_002026 FN1; CIG; MSF; FINC; LETS; fibronectin 1 isoform 7 preproprotein Enzyme, Matrixproteine, weitere cxcr1 NM_000634 IL8RA; CD128; CXCR1; IL8R1; CMKAR1; IL8RBA; CDw128a; C-C; C-C- Chemokinrezeptoren CKR-1; interleukin 8 receptor alpha apcs NM_001639 APCS; PTX2; serum amyloid P component precursor Akute Phase Proteine gapd NM_002046 GAPD; G3PD; GAPDH; glyceraldehyde-3-phosphate dehydrogenase housekeepings col7a1 NM_000094 COL7A1; EBD1; EBR1; EBDCT; alpha 1 type VII collagen precursor Enzyme, Matrixproteine, weitere hp NM_005143 haptoglobin Akute Phase Proteine ccr3 NM_001837 CCR3; CKR3; CMKBR3; CC-CKR-3; CC chemokine receptor 3 Chemokinrezeptoren nos2a NM_000625 NOS2A; NOS; INOS; NOS2; HEP-NOS; nitric oxide synthase 2A isoform Enzyme, Matrixproteine, 2 weitere hprt1 NM_000194 HPRT1; HPRT; HGPRT; hypoxanthine phosphoribosyltransferase 1 housekeepings ccl4 NM_002984 CCL4; ACT2; LAG1; Act-2; MIP1B; SCYA4; AT744.1; MIP-1-beta; Chemokine chemokine (C-C motif) ligand 4 precursor tgfb1 NM_000660 TGFB1; CED; DPD1; TGFB; transforming growth factor beta 1 Zytokine ubc NM_021009 UBC; HMG20; ubiquitin C Haushaltsgene ywhaz NM_145690 YWHAZ; KCIP-1; tyrosine 3/tryptophan 5 -monooxygenase activation Enzyme, Matrixproteine, protein zeta polypeptide weitere crp NM_000567 CRP; PTX1; C-reactive protein pentraxin-related Akute Phase Proteine il9 NM_000590 IL9; P40; HP40; IL-9; interleukin 9 precursor Zytokine actb NM_001101 ACTB; beta actin Haushaltsgene cxcr2 NM_001557 IL8RB; CXCR2; IL8R2; IL8RA; CMKAR2; CDw128b; interleukin 8 Chemokinrezeptoren receptor beta ccl3 NM_002983 CCL3; MIP1A; SCYA3; LD78ALPHA; MIP-1-alpha; chemokine (C-C motif) Chemokine ligand 3 ccl27 NM_006664 CCL27; ILC; CTAK; CTACK; PESKY; ESKINE; SCYA27; small inducible Chemokine cytokine A27 precursor socs1 NM_003745 SOCS1; CIS1; SSI1; TIP3; CISH1; SSI-1; SOCS-1; suppressor of Signaltransduktion cytokine signaling 1 mmp8 NM_002424 MMP8; HNC; CLG1; PMNL-CL; matrix metalloproteinase 8 preproprotein Matrixmetalloproteasen sele NM_000450 SELE; ELAM; ESEL; CD62E; ELAM1; LECAM2; selectin E precursor adhesion molecules fos NM_005252 FOS; v-fos FBJ murine osteosarcoma viral oncogene homolog Transkriptionsfaktoren rpl15 NM_002948 RPL15; EC45; RPL10; RPLY10; RPYL10; ribosomal protein L15 Haushaltsgene il18 NM_001562 IL18; IGIF; IL-18; IL-1g; IL1F4; MGC12320; interleukin 18 proprotein Zytokine ifng NM_000619 IFNG; IFG; IFI; interferon gamma Zytokine il11 NM_000641 IL11; AGIF; IL-11; interleukin 11 precursor Zytokine il16 NM_004513 IL16; LCF; IL-16; prIL-16; HsT19289; interleukin 16 isoform 2 Zytokine trem1 NM_018643 TREM1; TREM-1; triggering receptor expressed on myeloid cells 1 Signaltransduktion adamts1 NM_006988 ADAMTS1; C3-C5; METH1; KIAA1346; a disintegrin and metalloprotease Matrixmetalloproteasen with thrombospondin motifs-1 preproprotein

In einer weiter gehenden bioinformatischen Analyse wurde deshalb versucht, ein gemein- sames Promotormodell für die 21 regulierten Gene zu errechnen. Hierbei wurde die experimentell ermittelte Struktur der IL-6 und IL-8 Promotoren (siehe unten) als Kontrollmodell zugrunde gelegt.

Diese Analyse erfolgte in einer Kollaboration mit der von Prof. Edgar Wingender und Dr. Alexander Kel entwickelten Version der Software Explain, die die Datenbanken des 3.6 Ergebnisse 121

Unternehmens BIOBASE (http://www.biobase-international.com) nutzt. Die weiter unten beschriebenen Informationen zu Funktionen von Explain wurde aus dem zugehörigen Manual entnommen.

Die Mittelwerte der in Tab. 3.23 gezeigten mRNA-Expressionsdaten sowie der Kontrolldaten- satz aus 40 nicht regulierten Genen (Tab. 3.24) wurde hierzu zunächst in Explain importiert. In Explain wurden dann für 1000 Basenpaare stromaufwärts und 100 Basenpaare stromabwärts der transkriptionellen Startstelle (TSS) die Promotorsequenzen für diese Gene automatisch aus Datenbanken extrahiert. Mit Hife der in Explain integrierten Datenbank für die cis-Elemente, an welche Transkriptionsfaktoren binden können, wurde sodann zunächst die Anzahl an potentiellen Bindungsstellen für immunoregulatorisch wichtige Transkriptions- faktoren bestimmt. Hierbei ergaben sich keine signifikanten Unterschiede in der Art und Anzahl an immunoregulatorisch wichtigen Transkriptionsfaktorbindungsstellen (Abb. 3.42, Teil A). Nur für wenige Transkriptionsfaktoren wurde ein Unterschied in der Häufigkeit der Bindungsstellen zwischen regulierten und nicht regulierten Genen gefunden (Teil B der Abb. 3.42). Für diese Faktoren, die mindestens zweifach häufiger an regulierte Gene binden ist die Signifikanz unklar. In analoger Weise wurden diese Analysen für einen größeren Promotorbereich von 5000 Basenpaaren stromaufwärts und 100 Basenpaaren stromabwärts der transkriptionellen Startstelle (TSS) durchgeführt (Abb. 3.43). Auch hier traten nur sehr wenige Transkriptionsfaktoren mit Unterschieden in der Häufigkeit der Bindungsstellen auf.

Ein sehr ähnliches Ergebnis kam zu Stande, wenn diese Analyse auf alle in Vertebraten nicht redundanten Transkriptionsfaktorfamilien ausgedehnt wurde (Daten nicht gezeigt). 3.6 Ergebnisse 122

A B

Abb. 3.42: Frequenz an cis-Elementen für immunoregulatorisch wichtige Transkriptionsfaktoren im proximalen Promotorbereich (-1000 bis + 100 relativ zum transkriptionellen Startpunkt (+1)) für die 21 regulierten und 40 nicht regulierten Gene. Rote Balken kennzeichnen die Bindunghäufigkeit für die Gruppe der 21 regulierten Entzündungsgene („Yes” Spalte), blaue Balken stehen für die der nicht regulierten Gene („No” Spalte). Die durchschnittliche Anzahl an erkannten cis-Elementen pro Promotor ist angegeben. A) Sortierung nach „Yes”. Spalte B) Sortierung nach Ratio (erste 29 Faktoren). 3.6 Ergebnisse 123

A B

Abb. 3.43: Frequenz an cis-Elementen für immunoregulatorisch wichtige Transkriptionsfaktoren im proximalen Promotorbereich (-5000 bis + 100 relativ zum transkriptionellen Startpunkt (+1)) für die 21 regulierten und 40 nicht regulierten Gene. Rote Balken kennzeichnen die Bindunghäufigkeit für die Gruppe der 21 regulierten Entzündungsgene („Yes” Spalte), blaue Balken stehen für die der nicht regulierten Gene („No” Spalte). Die durchschnittliche Anzahl an erkannten cis-Elementen pro Promotor ist angegeben. A) Sortierung nach „Yes” Spalte B) Sortierung nach Ratio (erste 29 Faktoren).

Auf der Basis dieser identifizierten Bindungsstellen wurde dann mit Hilfe der in Explain integrierten Algorithmen des „composite modul analyst (CMA)” versucht, ein Promotor- modell („composite module CM”) zu identifizieren, welches den regulierten von dem nicht regulierten Datensatz unterscheidet. Jedes CM wird definiert durch die zu untersuchenden Transkriptionsfaktoren (Parameter φ), die vorhergesagten Bindungsstellen (Matrices, M) für diese Transkriptionsfaktoren und durch die Parameter, die die Promotormodellstruktur definieren:„sites” (Anzahl an einzelnen Bindungsstellen pro Modul), „pairs” (Anzahl an paarweise pro Modul vorhandenen Bindungsstellen), „modules” (Anzahl an Modulen) und „groups” (Gruppen an Modulen), „size” (Größe (an Nukleotiden) des Promotorbereiches, der die Module enthalten soll. Durch Variation dieser Parameter und Setzen von Schwellenwerten werden verschiedene komplexe Promotormodelle rekonstruiert. Nach Festlegen der Parameter werden die ausgewählten Promotorsequenzen mit einem Fenster, welches der in dem „size” Parameter festgelegten Größe entspricht, abgescannt und ein normalisierter „score” über alle Fensterpositionen errechnet. Der Score wird als 1 (positiv) oder 0 (negativ) angegeben, entsprechend der Erfüllung der für das CM Modell gewählten Parameter. Binäre Score Werte werden anschließend durch Boolean Operatoren kombiniert und die Promotoren als positiv (Output 1) klassifiziert, wenn der Gesamtwert 1 erreicht. Um ein Promotormodel zu definieren, dass einen regulierten von dem nicht regulierten Datensatz unterscheidet, wird ein stochastisches Modell mit einem genetischen Algorithmus verwendet. Eine fünf Komponenten enthaltene Fitness Funktion wird benutzt, um die Qualität des Models zu testen. Diese Komponenten werden als R (misst, wie gut der CM Score Wert mit den Expressionswerten übereinstimmt), T (erfasst statistisch signifikante Unterschiede zwischen den Score Werten für den regulierten und den nicht-regulierten Promotorset mit Hilfe des t-Testes), E (erfasst falsch negative und falsch positiv klassifizierte Promotoren aus den beiden Promotorsets und definiert eine Fehlerrate), N (kontrolliert die Normal-Verteilung der Score Werte), P („bestraft” zu komplexe Modelle und verhindert ein „Overfitting” der Fitnessfunktion) bezeichnet.

Wie in Abb. 3.44 gezeigt, konnte durch die CMA Funktion ein Promotormodell ermittelt 3.6 Ergebnisse 124 werden, welches einen sehr hohen Score Wert für alle 21 regulierten Gene aufweist, wenn insgesamt 5.1 kb genomische DNA Sequenz untersucht werden. Dieses Promotormodell enthält Bindungsstellen für 10 Transkriptionsfaktoren in einem Fenster von 200 bp. Wichtig ist auch, dass in diesem Modul NF-κB, Oct1 und CEBP Sites enthalten sind, die wie unten dargestellt, in den IL-6 und IL-8 Promotoren experimentell identifiziert wurden. Allerdings ist dieses Modul auch in dem nicht regulierten Datensatz enthalten und ermöglicht damit keine Identifikation von kombinatorischen cis-Elementen, die für die in der Clusteranalyse identifizierte differentielle Regulation verantwortlich sein könnten.

A

B

C D

Abb. 3.44: Identifikation eines gemeinsamen Promotormoduls in den mit Hilfe der Clusteranalyse (Abb. 3.39) identifizierten regulierten und nicht regulierten Genen. In der Composite Module Analyst (CMA) Software wurde ein Modul in einem Bereich von 200 Basenpaaren gesucht, welches 10 Transkriptionsfaktorbindungsstellen umfasst. A) Zusammensetzung des Moduls anhand der für die in Blau angegebenen Transkriptionsfaktor- bindungsstellen. B) Zusammenfassung der Score Werte für die Kalkulation der Fitnessfunktionen.

C) graphische Darstellung der Verteilung von Expressionsstärke (log2(Ratio)) gegen Validität des Promotormodells für jeden der analysierten Promotoren. D) graphische Darstellung der Score Werte für die Validität des Promotormodells für die regulierten (rote Balken) und nicht regulierten Gene (blaue Balken). Man sieht, dass für alle Gene die Score Werte zwischen 0.88 und 0.95, d.h. nahe an dem Maximalwert 1 liegen.

In einer weiteren Suche wurde ein Promotormodell identifziert, welches eine bessere Trennung zwischen den regulierten und nicht regulierten Genpromotoren für zumindest einen Teil der regulierten Gene ermöglicht (Abb. 3.45). 3.6 Ergebnisse 125

A

B

C D

Abb. 3.45: Identifikation eines Promotormoduls in den mit Hilfe der Clusteranalyse (Abb. 3.39) identifizierten Genen, welches eine partielle Diskriminierung von regulierten und nicht regulierten Genen ermöglicht. In der Composite Module Analyst (CMA) Software wurde ein Modul in einem Bereich von 200 Basenpaaren gesucht, welches 10 Transkriptionsfaktorbindungsstellen umfasst. A) Zusammensetzung des Moduls anhand der für die in Blau angegebenen Transkriptionsfaktor- bindungsstellen. B) Zusammenfassung der Score Werte für die Kalkulation der Fitnessfunktionen.

C) graphische Darstellung der Verteilung von Expressionsstärke (log2(Ratio)) gegen Validität des Promotormodells für jeden der analysierten Promotoren. Blaue bzw. rote Kreise symbolisieren die nicht-regulierte bzw. regulierte Gengruppe, die sich im Score Wert und in der Expressionsstärke unterscheiden. D) graphische Darstellung der Score Werte für die Validität des Promotormodells für die regulierten (rote Balken) und nicht regulierten Gene (blaue Balken). 3.6 Ergebnisse 126

A

B

Abb. 3.46: Verteilung des in Abb. 3.45. beschriebenen Promotormoduls in der proximalen Promotorsequenz der regulierten Gene. A) Farbcodierung der Transkriptionsfaktoren. B) Promotorsequenzen der 21 regulierten Gene mit Promotormodulbindungsstellen. In den am stärksten regulierten Genen IL-6 und IL-8 identifiziert die CMA Analyse Module nahe am transkriptionellen Startpunkt, die Bindungsstellen für NF-κB und AP-1 Transkriptionsfaktoren enthalten und den Promotorstrukturen ähneln, welche bisher wie in Abb. 3.47 und Abb. 3.48. beschrieben, experimentell ermittelt wurden. 3.6 Ergebnisse 127

Die Evidenz für die Relevanz der Transkriptionsfaktoren und Bindungsstellen dieses Promotormoduls kommt aus Reportergenexperimenten, in denen der regulatorische Promotorbereich durch Deletion eingegrenzt und die Notwendigekit bestimmter DNA- Bindungsmotife durch Mutation validiert wurde. In vitro DNA-Protein-Interaktionsassays (z.B. Electro-Mobility-Shift-Assays, EMSA) und Überexpressionsexperimente zeigen übereinstimmend in vielen Arbeiten, dass NF-κB, AP-1 und andere Transkriptionsfaktoren den IL-6 und IL-8 Promotor regulieren können. Allerdings zeigen die meisten dieser Arbeiten auch, dass NF-κB essentiell ist, während die anderen Transkriptionsfaktoren modulierenden Einfluss haben (Abb. 3.47, Abb. 3.48).

Abb. 3.47: Cis-Elemente und Transkriptionsfaktoren, die die IL-6 Gentranskription regulieren. Aus Isshiki et al., 1990. Boxen markieren die Bindung von Transkriptionsfaktoren an Promotorbereiche; die einzelnen konservierten DNA-Bindungselemente sind getrennt aufgeführt.

Abb. 3.48: Cis-Elemente und Transkriptionsfaktoren, die die IL-8 Gentranskription regulieren. DNA-Bindungselemente sind unterstrichen, Kreise markieren die dimeren Transkriptionsfaktoren. P bezeichnet phosphorylierungsabhängige Regulation der Aktivität. Aus Hoffmann et al., 2005.

Die in Abb. 3.44 Bis Abb. 3.45 gezeigten Daten legen daher nahe, dass möglichwerweise wesentlich komplexer aufgebaute Promotorstrukturen für die Koregulation der in Tab. 3.23 gezeigten Gene zusammen mit IL-6 und IL-8 verantwortlich sein könnten. 4 Diskussion 128

4 Diskussion In dieser Promotionsarbeit wurden drei Bereiche der Informationsverarbeitung innerhalb eines Projektes, in dem eine große Anzahl an DNA-Mikroarray-Experimenten durchgeführt worden war, untersucht.

Zum Ersten wurde eine flexible Datenbankstruktur geschaffen, die anhand der vorhandenen experimentellen Gegebenheiten an die inhaltlichen Anforderungen angepasst wurde. Zum Zweiten wurde diese Datenbank benutzt, um eine erste Metaanalyse aller vorhandenen Mikroarraydaten durchzuführen und damit die Funktionalität der Datenbank zu validieren. Zum Dritten wurde anhand dieser Metaanalyse eine Gruppe an koregulierten Genen identifiziert, für die mit weiteren bioinformatischen Methoden gezeigt werden konnte, dass sie möglicherweise durch gemeinsame komplexe Promotormodule transkriptionell reguliert werden.

Diese Ergebnisse zeigen daher beispielhaft, wie sehr große, aus Mikroarrayprojekten generierte Datenmengen archiviert, verwaltet und nachanalysiert werden können, um dann durch Vernetzung mit weiteren Datenbanken (wie Explain) neuartige Ergebnisse – in diesem Fall Promotorstrukturen - zu generieren, die durch Betrachtung einzelner kleiner Serien an Mikroarray-Experimenten nicht erzielbar gewesen wären.

4.1 CytoBASE-Aufbau einer Datenbanklösung für DNA-Mikroarray-Experimente Für eine Arbeitsgruppe, die routinemäßig Experimente mit DNA-Mikroarrays durchführt, ist eine geordnete Ablage und Mittel zur Recherche in den Daten unerläßlich.

In der Arbeitsgruppe des zentralen Mikroarray-Projektes Z02 des DFG-Sonderforschungs- bereiches SFB566 entstehen die Mikroarraydaten in einem hoch standardisierten experimentellen Verfahren. Die qualitativ hochwertigen Ergebnisse lagen aber zu Beginn dieser Arbeit ausschließlich in Form von Dateien vor. Dies hat einige entscheidende Nachteile: Die Ablage der Daten als Dateien in einem Dateisystem ist unsicher, da Daten sehr leicht gelöscht werden können. Um Dateien im Baum wiederzufinden, wird zudem eine gute und vor allem konsequent eingehaltene Systematik für die Vergaben von Pfad- und Dateinamen benötigt. Weiterhin ist es sehr mühsam eine Historie der Analyse von Arraydaten im Nachhinein zu rekonstruieren, besonders dann, wenn die Ergebnisse auf mehrere Dateien verteilt vorliegen. Sollen Daten verschiedener Provenienzen in einem gemeinsamen Kontext ausgewertet werden, so müssen diese erst in einem zeitaufwändigen und fehleranfälligen Prozess manuell zusammengestellt werden.

Primäres Ziel war es daher, ein System zu etablieren, was die große Anzahl von Ergebnissen aus DNA-Mikroarrayversuchen archivieren kann und die Daten zugreifbar macht. Mit einem System, das speziell für Mikroarraydaten entworfen worden ist, sollten alle wichtigen Daten zu den experimentellen Bedingungen und die Expressionsdaten recherchierbar werden. Weiterhin sollten aus dem System heraus Datenanalysen möglich sein. Bassett et al., 1999, Brazma et al., 2001, und Stoeckert et al., 2002 betonen in ihren Veröffentlichungen den Bedarf an Genexpressionsdatenbanken, die gute Beschreibungen der Daten (Annotationen) enthalten und den Bedarf an einheitlichen Mechanismen zum Datenaustausch.

Die Nachfrage nach solchen Archiven für Mikroarraydaten besteht weltweit. Das manifestiert sich in der Herausgabe leistungsfähigerer Versionen von bestehenden Datenbanklösungen und in der Entwicklung und Veröffentlichung von neuen Datenbanksystemen seit dem Beginn der hier vorgestellten Arbeiten Mitte 2003. Die folgenden Aufzählung soll einen Eindruck von der Aktivität der Entwickler auf diesem Gebiet geben und erhebt keinen Anspruch auf Vollständigkeit. Enthalten sind auch Systeme für spezielle Plattformen wie z.B. 4.1 Diskussion 129

GeneChips von Affymetrix und solche, die kostenpflichtige Datenbanken wie (Oracle oder Sybase) benötigen.

Weiterentwickelt werden beispielsweise folgende Systeme:

BASE BioArray Software Environment (http://base.thep.lu.se, Saal et al., 2002) MADAM MicroArray Data Manager (http://www.tigr.org/software, Saeed et al., 2003) SMD Stanford Microarray Database und deren freie Version LAD (http://genome-www5.stanford.edu/MicroArray/SMD/download) ArrayDB (NHGRI/NIH, http://genome.nhgri.nih.gov/arraydb, Ermolaeva et al., 1998)

Neuentwicklungen auf diesem Gebiet sind z.B. folgende Systeme:

RAD RNA Abundance Database (Manduchi et al., 2004) PEPR Public Expression Profile Resource (Chen et al., 2004) MiMiR (Navarange et al., 2005) maxdLoad2 und maxdBrowse (Hancock et al., 2005) MARS (Maurer et al., 2005)

Zur Zeit der Entscheidung für das hier vorgestellte DNA-Mikroarrayarchiv existierten im Gegensatz zu heutigen Situation nur sehr wenige frei verfügbare Softwarelösungen. Letztlich kamen nur zwei Systeme in die engere Wahl (MADAM / TM4 und BASE, vgl. Einleitung, Punkt 1.5). Die Wahl fiel auf BASE BioArray Software Environment (http://base.thep.lu.se, Saal et al., 2002), da es die Archiv-Funktion für alle wichtigen Daten aus Mikroarrayexperimenten bietet und in allen Teilen auf freier Software basiert. Darüber hinaus kann man in BASE Arraydaten sehr schnell und bequem zusammenstellen und unter besonderen Gesichtspunkten weiterverarbeiten, auswerten und in viele Formate exportieren. Ein sehr wichtiges Auswahlkriterium war die Erweiterbarkeit des Systems, die einesteils durch den freien und offenen Quellcode und anderenteils durch die PlugIn- Fähigkeiten gewährleistet sind und Anpassungen an die Bedürfnisse der Datenbanknutzer zulassen.

CytoBASE als erweiterte Version von BASE CytoBASE ist eine im Rahmen dieser Arbeit erweiterte Version von BASE, die aber in großen Teilen zum Original kompatibel bleibt. Damit soll erreicht werden, dass eine Migration auf eine neue BASE-Version zu einem späteren Zeitpunkt mit geringem Aufwand möglich bleibt.

Die Erweiterungen in CytoBASE resultieren aus den Anforderungen von zwei verschiedenen Nutzerkreisen. Auf der einen Seite steht die Mikroarray-Arbeitsgruppe, die vollen Zugriff auf die Daten hat und im Umgang mit dem System vertraut ist. Sie nutzt CytoBASE vor allem als Archiv und zur schnellen Datenverarbeitung. Auf der anderen Seite stehen Kooperations- partner, die ihre Daten einsehen oder sogar fremde Nutzer, die in die öffentlichen Daten Einblick nehmen wollen und sich schnell zurecht finden sollten. Aus diesem Grund lassen sich die Erweiterungen in zwei große Bereiche einteilen. Dem Bereich der Datenspeicherung und -verarbeitung (i) steht der Bereich der Benutzeroberfläche und des Bedienungskomforts (ii) gegenüber.

(i) Im Bereich Datenspeicherung und -verarbeitung wurden die Datenstrukturen zur Aufnahme aller wichtigen Daten aus Hybridisierungen im Einkanalverfahren geschaffen. Zudem wurde der Datenimport weitestgehend automatisiert. Wichtig sind die systematisch vergebenen Namen für die Dateneinheiten (wie z.B. Probe oder Rohdatensatz) und die Verhinderung von doppelten Eintragungen während der Eingabe ins System. Die Beschreibung (Annotation) der Proben und Experimente 4.1 Diskussion 130

wurde standardisiert und die Struktur in CytoBASE für die Aufnahme von mehrfach behandelten Proben erweitert. Ein im Rahmen der Arbeit entwickeltes Programm erzeugt nach änderbaren Kriterien als PlugIn qualitätskontrollierte Datensätze. Ein angepasstes Nutzerkonzept stellt exklusiven Zugriff auf Daten für berechtigte Personenkreise sicher. Die Sicherung der Datenbank und hoch geladenen Dateien kann durch ein hierzu neu erstelltes Skript automatisiert werden.

(ii) Im Bereich der Benutzeroberfläche und des Bedienungskomforts wurde die Naviga- tion stark vereinfacht und besondere Suchfunktionen für Proben, Experimente und Rohdaten geschaffen. Benutzerhandbücher und eine vereinfachte Benennung der Datenbankelemente erleichtern den Einstieg ins System. Eine neue Export- funktionalität mit sprechenden Namen für die Datensätze erleichtert die Ausgabe der Daten für Tabellenkalkulationsprogramme.

Mit CytoBASE steht nun ein verläßliches Archiv für die große Menge an DNA-Mikroarray- daten zur Verfügung. Eine Stärke des Systems ist die Tatsache, dass alle Schritte zur Analyse der Datensätze gespeichert bleiben. Die Schritte werden in übersichtlicher Form angezeigt und erlauben den Export von Daten aus jedem Analyseschritt.

Neben dem selbst entwickelten PlugIn zur Qualitätskontrolle der Daten stehen weitere PlugIns zur Verfügung. Die damit offen stehenden Möglichkeiten zur Analyse und Visualisierung der Daten werden momentan nicht genutzt, weil die PlugIns auf echte Zweikanalhybridisierungen spezialisiert sind. Hier soll in der Zukunft das Potential zur Datenauswertung mit CytoBASE besser genutzt werden.

Ein gewisse Schwäche hat das System bei der Beschreibung der experimentellen Gegeben- heiten. Deshalb wurde eine neue Funktionalität zur Beschreibung der Behandlung der Proben hinzugefügt. Die neueren Entwicklungen auf diesem Gebiet (MiMiR, Navarange et al., 2005; maxdLoad2 und maxdBrowse, Hancock et al., 2005) bringen hier ausgefeiltere Möglichkeiten zur Annotation mit. MiMiR hat aber nicht die Möglichkeiten zur Datenanalyse wie BASE.

4.2 Erstellung einer strukturierten Übersicht über die in CytoBASE enthaltenen DNA-Mikroarray-Experimente Das nun vorliegende Archiv an Mikroarrayexperimenten gestattet erstmals die Erstellung einer Gesamtübersicht über alle wichtigen Experimente. Über speziell entworfene Datenbankabfragen wurden die gewünschten Informationen schnell aus der Datenbank extrahiert. Dabei wurde ausgenutzt, dass die hybridisierten Arrays in CytoBASE zu sinnvollen Vergleichspaaren den Arrayvergleichen zusammengefasst worden waren (vgl. Kapitel 2.2.2). Die Datenbank war sehr gewissenhaft gefüllt worden, denn die Abfragen gaben ein fast lückenloses Bild wieder.

Bei der Übersichtsauswertung wurde eine große Anzahl an Versuchen festgestellt, die in experimentellen Gruppen durchgeführt worden waren: 160 experimentelle Gruppen mit 645 verschiedenen Arrayvergleichen und 628 RNA-Proben aus einer Vielzahl an Zellsystemen und experimentellen Manipulationen waren bis zum 1.1.2006 abgelegt worden.

Unter den Experimenten mit murinen Zellsystemen gab es wesentlich mehr Proben mit genetischen Manipulationen, verglichen mit den menschlichen Zellsystemen. Auffallend ist die insgesamt geringere Zahl von Proben die keine besondere Behandlung erfahren hatten. Dieser Sachverhalt stellt sich als direkte Konsequenz der routinemäßigen Versuchsdurch- führung im Einkanalverfahren dar: Das standardmäßige Design der Mikroarray-Experimente basiert auf experimentellen Gruppen. Aus diesem Grund ist es sinnvoll und zulässig 4.2 Diskussion 131 innerhalb einer solchen Gruppe Daten mehrerer unterschiedlich behandelter Proben jeweils einzeln mit genau einer unbehandelten Referenz zu vergleichen.

Die Zusammenstellungen der Anzahlen von Arrayvergleichen nach Behandlungsart, Arraytyp und Zellsystem in den Tabellen 3.13 bis 3.20 und 7.3 bis 7.10 verdeutlichen, wie heterogen die in CytoBASE enthaltenen Experimente sind. Meist liegen nur wenige Versuchsvarianten und keine Wiederholungen vor. Damit wird deutlich, dass man in Zukunft die Experimente besser in Bezug auf einen großen Kontext abstimmen und, sofern das möglich ist, weniger Versuche mit mehr Wiederholungen durchführen sollte. Anhand dieser Übersichts- auswertungen konnte eine Auswahl der meist untersuchten Zellsysteme ohne genetische Manipulationen für eine große experimentübergreifende Analyse der Genexpressionsdaten getroffen werden.

Die Rohdatensätze der ausgewählten Experimente konnten sehr schnell über die Suchfunktionalität in CytoBASE zusammengestellt werden, um sie dann im neuen Exportformat aus der Datenbank zu ziehen und in Heatmap-Darstellungen visualisieren zu können. Hier hat sich CytoBASE mit seinen Erweiterungen bewährt; es erfüllt die Anforderungen aus beiden oben genannten Benutzerkreisen. Seine Funktionalitäten führen zu einem schnellen und effektiven Arbeiten mit der großen Menge an Daten. Eine solche Auswertung und Zusammenführung von Daten wäre aus einem Dateisystem heraus sehr aufwändig bis unmöglich.

4.3 Identifikation einer koregulierten Gruppe an Entzündungs- genen und in-silico-Analyse der Promotorstrukturen Nach Etablierung von CytoBASE und Erstellung einer detaillierten Übersicht über die in der Datenbank akkumulierten Mikroarray-Ergebnisse stellte sich die Frage, ob eine weitere Analyse der Daten sinnvoll wäre und nach welchen Kriterien bzw. mit welchen Zielsetzungen diese geschehen sollte. Einerseits ist für eine statistischen Kriterien genügende Analyse von Miroarray-Experimenten ein möglicher großer Satz von aus vergleichbaren Situationen generierten Ergebnissen notwendig, andererseits zeigen praktische Gegebenheiten, dass einzelne Untersucher, die den notwendigen experimentell-biologischen Fokus gewährleisten, in der Regel nur relativ wenige Mikroarray Experimente benötigen, um dann mit anderen Methoden die erhaltenen Ergebnisse zu validieren und neue Hypothesen zu verfolgen. So zerfallen die in CytoBASE enthaltenen Daten, die insgesamt sehr umfangreich sind, in viele kleine experimentelle Gruppen, die in der Regel vier bis 12 Mikroarray-Experimente umfassen. Jede dieser Gruppen beinhaltet in der Regel eine intern sehr gut kontrollierte Analyse der Auswirkung verschiedener Behandlungen auf die gemessenen mRNA Expressionsspiegel. Die sehr ausführliche Auflistung und Inspektion der Daten (siehe oben) stellte folglich klar, dass der chronologisch akkumulierte Datensatz in CytoBASE eigentlich in zwei große Gruppen gegliedert werden kann. Zu der ersten Gruppe gehören Experimente, die im Wesentlichen in einem Zellsystem durchgeführt wurden und biologisch sinnvolle Kombinationen an Stimuli oder Behandlungen enthalten. Diese Gruppe eignet sich daher für weitergehende Vergleiche. Die zweite Gruppe an Mikroarray-Experimenten beinhaltet zu viele von der Fragestellung und den verwendeten biologischen Systemen her heterogene Experimente.

Zu der ersten Gruppe (repräsentiert in über 400 Mikroarray-Experimenten) gehören vor allem vier Zell- und Gewebesysteme menschlichen Ursprungs (primäre Fibroblasten, primäre Keratinozyten, KB und HeLa Epithelzelllinien) sowie fünf Zell- oder Gewebesysteme aus der Maus (embryonale Fibroblasten, NIH3T3 Fibroblastenlinien, immortalisierte Makrophagen, Makrophagen und Hepatozyten). Diese Gruppe wurde daher modellhaft ausgewählt. Es wurden detaillierte übergreifende Expressionanalysen durchgeführt, welche in Form von Heatmap-Darstellungen visualisiert wurden. Heatmaps werden genutzt, um 4.3 Diskussion 132 nach Ähnlichkeiten zwischen Genen und experimentellen Proben zu suchen. Sie sind am effektivsten, wenn die Gene sortiert vorliegen (Chipman, H., Hastie, T.J. & Tibshirani, R., 2003). Deshalb wurden die Gene nach funktionellen Kategorien sortiert und innerhalb der Experimente nach der Reihenfolge von Zellsystem, Zugehörigkeit zu experimentellen Gruppen und nach Art und Dauer der experimentellen Behandlung gruppiert.

Diese Heatmap-Darstellungen ermöglichten zum ersten Mal einen raschen Überblick über die „hotspots” an differentieller Genregulation, da jeweils eine Ratio aus dem Vergleich Stimulus / Treatment gegen eine unbehandelte Referenzprobe visualisiert wurde.

Dieser Überblick zeigte, dass ganz offensichtlich von allen potentiell regulierten 136 Entzündungsgenen unter den untersuchten Bedingungen jeweils nur bestimmte Gene induziert wurden. Es zeigten sich auch erhebliche quantitative Unterschiede in der Expression von einzelnen mRNAs, die von über 2-fach bis zu mehreren hundertfach reichten. Ganz besonders fiel aber auf, dass innerhalb einzelner funktioneller Gruppen an Entzündungsgenen, z.B. den Chemokinen oder den Zytokinen, erhebliche Unterschiede in der Regulation bestanden. Das Zytokin Interleukin-6 oder das Chemokin Interleukin-8 waren bereits auf Grund der visuellen Inspektion der Heatmaps fast immer induziert, während andere Zytokine oder Chemokine, wie Interleukin-1 oder ccl5 relativ zelltypspe- zifisch induziert wurden.

Diese Beobachtung bestätigte sich auch bei einer weitergehenden, hierarchischen Cluster- analyse der humanen Mikroarray-Experimente. Ziel der Clusteranalyse war es über eine Sortierung der Gene und Experimente Gruppen von Genen zu identifizieren, die ähnliche Muster von Genexpressionen aufweisen (vgl. Chipman, H., Hastie, T.J. & Tibshirani, R., 2003). 21 Entzündungsgene wurden hierdurch identifiziert, die in praktisch allen untersuch- ten Situationen stark induziert waren. Diese Gene fallen in funktionell unterschiedliche Gruppen wie Zytokine (IL-6, GM-CSF), Chemokine (MCP-1, IL-8, Groγ), Proteasen (MMP-1, MMP-3, MMP-15), metabolische Enzyme (COX-2, MnSOD) und intrazelluläre Signaltransduk- tionsproteine (IkBζ, IkBα).

Diese Ergebnisse wurden nicht mit einem genomweiten, unvoreingenommenen Mikroarray Screening Verfahren erhalten, der die mRNA-Expression aller bekannten Gene misst, sondern mit DNA-Mikroarrays, die einen auf maximal 136 Entzündungsgene beschränkten Sondensatz enthalten. Da gerade eines der Auswahlkriterien bei der Entwicklung der Entzündungsarrays starke Regulation in entzündlichen Situationen war, bestand die Erwartung, die Mehrzahl der 136 mRNAs bei übergeordneten Metaanalysen als verändert zu identifizieren. Im Gegensatz dazu wäre unter Einsatz von genomweiten Mikroarrays unter jeder beliebigen Einwirkung eine deutlich höhere relative Anzahl unveränderter Transkripte zu erwarten gewesen. Nur 19 Sonden für Haushaltsgene repräsentieren auf den erweiterten Entzündungsarrays eine Gruppe Stimulus-unbeeinflusster mRNAs. Entsprechend der Erwartung zeigen sich bei der Metaanalyse für diese Gruppe nur minimale Veränderungen der mRNA-Spiegel.

Daher stellte sich die Frage, weshalb gerade diese 21 von 136 Entzündungsgenen in den gegebenen biologischen Situationen differentiell reguliert wurden.

Wie in der Einleitung, Kapitel 1.7 beschrieben, sind die mit dem Mikroarray gemessenen Veränderungen der mRNA Spiegel das kombinierte Resultat von gesteigerter Gentranskrip- tion (mRNA-Neusynthese) und posttranskriptionellen Mechanismen (z.B. p38 MAPK-MK2- vermittelter mRNA-Stabilisierung) (Winzen et al., 1999; Holtmann et al., 2001; Bollig et al., 2002; Hoffmann et al., 2002; Kracht & Saklatvala, 2002). Eine Abschätzung des relativen Anteils dieser beiden Mechanismen an dem mRNA „steady state” Spiegel ist aus den Mikroarray Daten heraus nicht möglich.

Wie in der Einleitung ebenfalls beschrieben, wird die gesteigerte Gentranskription von Entzündungsgenen durch mehrere parallel aktivierte Signaltransduktionswege reguliert, 4.3 Diskussion 133 deren distale Effektoren Transkriptionsfaktoren aus den AP-1, NF-κB, C/EBP u.a. Genfamilien darstellen. Es wird vermutet und ist nur zum geringen Teil experimentell belegt, dass bestimmte Kombinationen aus diesen Transkriptionsfaktoren für die Koregulation von Genen verantwortlich sind (Kracht & Saklatvala, 2002). Auf Grund der Identifikation von 21 koregulierten Entzündungsgenen in der oben beschriebenen Analyse stellten sich die Fragen, ob (i) die 21 Gene gemeinsame genregulatorische Elemente aufweisen und ob (ii) diese Elemente in einem Kontrolldatensatz aus nicht regulierten Entzündungsgenen unterschiedlich sein würden.

Folglich wurde untersucht, ob sich solche genregulatorischen Elemente mit bioinforma- tischen Methoden identifizieren lassen. Zu diesem Zweck wurde die mRNA Expressionswerte der 21 Gene (Tab. 3.23) und 40 weiterer in der Clusteranalyse als nicht reguliert identifi- zierten Entzündungsene (Tab. 3.24) in Form von log2-transformierten Ratios aus CytoBASE exportiert und über das Web in die Software Explain des Unternehmens BIOBASE (http://www.biobase-international.com) importiert. Dieser Vorgang verdeutlicht auch noch einmal die Vielseitigkeit der Exportfunktionen von CytoBASE, welche eine Verknüpfung mit vielen weiteren Datenbanken ermöglichen.

Explain integriert mehrere Datenbanken, insbesondere die Datenbank TransFac (Matys et al., 2006), welche publizierte Informationen zu den DNA-Bindungsstellen (Matrices) für fast alle Transkriptionsfaktorfamilien enthält. Insbesondere enthält TransFac auch Variationen von cis-Elementen und flankierende Sequenzen. Eine weitere spezifische in Explain integrierte Funktion ist der sogenannte „composite module analyst” (CMA, Kel et al., 2006), welcher eine Berechnung von komplexen DNA-Bindungslelementen ermöglicht, die aus vielen Matrices aufgebaut werden. Zusätzlich kann Explain anhand der Gennamen für einen importierten mRNA-Expressionsdatensatz automatisiert die dazugehörigen Promotorsequen- zen extrahieren. Eine weitere Funktion besteht darin, identifizierte Promotormodelle mit regulierten und nicht regulierten mRNA Datensätzen zu korrelieren.

Eine initiale Analyse der 61 importierten Messwerte ergab, dass sich für die am häufigsten in den Promotorsequenzen identifizierten Matrices aus der Gruppe der immunoregulatorisch wichtigen Transkriptionsfaktoren keine signifikanten Unterschiede zwischen regulierten und nicht regulierten Transkriptionsfaktoren ergab. Bei den sehr seltenen vorhanden Matrices fanden sich einige (z.B. für STAT1), die bis zu dreifach in dem regulierten Datensatz überre- präsentiert waren.

Anschließend wurden 5 kb bzw 1.1 kb lange Abschnitte der Promotorsequenz aller Gene mit dem CMA Werkzeug daraufhin untersucht, ob sich einzelne Module finden lassen, in denen bis zu 10 Transkriptionsfaktoren innerhalb eines Sequenzbereiches von 200bp binden. Wie in Abb. 3.44 dargestellt, ließ sich so ein Promotormodell errechnen, welches mit einer sehr hohen Validität (Score um 0.9) für alle 61 Gene ein Modul identifizierte. Dieses Modul enthielt Bindungsstellen für bereits sehr oft in Regulation von Entzündungsgenen implizierte Transkriptionsfaktoren wie NF-κB und C/EBP, aber auch für weniger häufig belegte Faktoren wie Oct-1. Interessant ist, dass sowohl für IL-6 als auch für IL-8 eine Rolle für NF-κB, C/EBP, Oct1 bei der transkriptionellen Genregulation beschrieben wurde (Stein et al., 1993; Stein & Yang, 1995; Wu et al., 1997; Wen & Wu, 2001; Kracht & Saklatvala, 2002; Klein et al., 2005). Weiterhin identifizierte das Programm die NF-κB-Bindungsstellen im proximalen Promotorbereich beider Gene, was eine intrinsische Kontrolle für die Validität der erhaltenen Ergebnisse darstellt. Unerwarteterweise diskriminierte das errechnete Promotormodel aber nicht zwischen regulierten und nicht regulierten Entzündungsgenen.

Deshalb wurde durch weitere Variationen der Parameter für die CMA Analyse ein zusätzliches Modul identifiziert, welches zwar mit einer geringeren Validität (Score zwischen 0.2 und 0.4) belegt ist, was aber einen größeren Teil der stark regulierten Gene von den nicht regulierten Genen separiert (Abb. 3.45). Auch dieses Promotormodul enthält mit NF-κB und AP-1 Transkriptionsfaktoren erwartete „Kontroll”-Matrices. 4.3 Diskussion 134

Diese Ergebnisse zeigen, dass es prinzipiell möglich ist, durch das in Kapitel 3.6.3 beschriebene methodische Vorgehen im biologischen Sinn sinnvolle Promotormodule zu errechnen. Für weiter gehende Analysen wäre es auch interessant, Promotormodelle zu suchen, die nur die seltenen Transkriptionsfaktoren enthalten, die mehr als zweifach erhöhte Bindungsstellenfrequenzen bei den induzierten Genen aufweisen, um darüber die beiden Gengruppen zu differenzieren. Da naturgemäß Variationen in den Parametern der CMA Analyse zu vielen weiteren Promotormodellen führen werden, ist eine wichtige Frage, wie die erhaltenen Modelle weiter validiert werden können. Zum einen wäre es wünschens- wert, eine strikte Unterscheidung zwischen reguliertem und nicht reguliertem Datensatz zu erreichen. Dieses ist wie in Abb. 3.44 gezeigt, nur beschränkt gelungen. Die Gründe dafür könnten darin liegen, dass die Gene bereits als Entzündungsgene vorselektiert waren, und dass deshalb alle 136 auf dem Entzündungsarray repräsentierten Gene ähnliche Promotor- module aufweisen, damit sie durch eine Vielzahl an Entzündungsstimuli in verschiedenen Zelltypen potentiell aktivierbar sind. In diesem Fall würde das mit einer sehr hohen Score errechnet Promotormodell aus Abb. 3.45 sehr interessant sein. Ein Vergleich gegen die Promotoren eines randomisierten Satzes von Genen aus dem Gesamtgenom, sollte dann dieses Promotormodell nicht oder nur mit einem sehr viel niedrigeren Score zeigen. Eine solche Analyse war zum Abschluss der Promotion leider nicht mehr zu vervollständigen.

Eine weitere Erklärung für die mangelnde Diskriminierung zwischen reguliertem und nicht- reguliertem Datensatz könnte darin bestehen, dass ein signifikanter Anteil der mRNA- Expression durch posttranskriptionelle Mechanismen bewirkt wird. In diesem Fall ist die Korrelation der CMA-Analyse mit der Expressionsstärke nicht sinnvoll. Für IL-6, IL-8 und viele weitere der auf dem Array repräsentierten Entzündungsgene sind stabilisierende AU- reiche cis-Elemente in der mRNA nachgewiesen (Frevel et al., 2003).

Letztlich müssen die errechneten Promotormodule experimentell validiert werden. Dieses könnte durch Chromatin-Immunpräzipitationen (ChIP) mit Antikörpern gegen die in den Modulen enthaltenen Transkriptionsfaktoren geschehen. Bei dieser Technik werden Transkriptionsfaktoren in intakten Zellen mit der genomischen DNA quervernetzt. Anschließend werden die Zellen solubilisiert und die am Immunpräzipitat gebundene DNA isoliert. Die in der CMA-Analyse ermittelten Promotorbereiche könnten sodann in der immunpräzipitierten DNA mittels PCR amplifiziert und nachgewiesen werden. Durch eine Kombination von Mikroarray-Experimenten, bioinformatischen Promotoranalysen und ChIPs wurden auf diese Art und Weise IRF3 und ATF3 als neue Koaktivatoren/Repressoren von immunologisch relevanten Genen identifiziert (Ogawa et al., 2005; Gilchrist et al., 2006). 5 Zusammenfassung 135

5 Zusammenfassung Die Entzündungsreaktion führt auf der zellulären Ebene zu einer Induktion oder auch Hemmung der Expression von hunderten von Genen, deren Proteinprodukte in ihrer Summe den Beginn, die Stärke und den zeitlichen Verlauf der Entzündung regulieren. Es ist wahrscheinlich, dass qualitative aber vor allem auch quantitative Unterschiede in der Expression von Entzündungsgenen mit einem spezifischen entzündlichen Krankheitsbild korrelieren und dass solche Informationen für optimierte Therapien verwendet werden können. Eine Voraussetzung zur Überprüfung dieser Hypothese ist der Aufbau eines Genexpressionsarchivs aus standardisiert erzeugten mRNA-Expressionsdaten und die nachfolgende Identifizierung von Entzündungsgenexpressionsmustern. Im Rahmen des Z02 Projektes des SFB566 wurden mit speziell entwickelten DNA-Oligonukleotidmikroarrays 657 Experimente unter weitgehend identischen Bedingungen durchgeführt. Parallel wurde hierbei pro DNA-Mikroarray die Expression von bis zu 155 Entzündungs- und Kontrollgenen in menschlichen und Maussystemen erfasst. Hierbei wurden ausgehend von totaler RNA unter weitgehend identischen Bedingungen markierte cRNA-Gemische hergestellt, deren Bindung an spezifische Gensonden gemessen wurde. Der resultierende Datensatz aus über 200.000 Messpunkten wurde im Rahmen dieser Promotion in die Datenbank CytoBASE überführt, deren Funktionen an die besonderen Bedürfnisse eines Datenarchivs sowie eines Datenvisualisierungs- und auswertewerkzeuges systematisch angepasst wurden. Mit Hilfe von CytoBASE konnte der Datensatz systematisch gegliedert werden. Anschließend wurden modellhaft aus vier Zell/Gewebesystemen menschlichen Ursprungs (primäre Fibroblasten, primäre Keratinozyten, KB und HeLa Epithelzelllinien) sowie vier Zell/Gewebesystemen aus der Maus (embryonale Fibroblasten, NIH3T3 Fibroblastenlinien, Makrophagen und Hepatozyten) detaillierte, insgesamt über 400 Mikroarray-Experimente umfassende übergreifende Expressionsanalysen durchgeführt und in Form von „Heatmap” Darstellungen visualisiert. Aus diesen am häufigsten in CytoBASE repräsentierten Systemen wurden durch einen hierarchischen Clusteralgorithmus 21 Entzündungsgene identifiziert, die stimulusspezifisch aktiviert werden. In einem letzten Teil der Arbeit wurden in dem Promotorbereich dieser Gene mit Hilfe des in der Datenbank Explain integrierten „Composite Module Analyst” (CMA) Programmes die potentiellen DNA-Bindungsstellen für immunoregulatorisch wichtige Transkriptionsfaktoren ermittelt und zwei komplex zusammengesetzte Promotormodule identifiziert, die in einem Bereich von 200 Basenpaaren Bindungsstellen für bis zu 10 Transkriptionsfaktoren enthalten. Diese Module beschreiben Kandidaten für genregulatorische Elemente, die für die Koregulation der mRNA-Expression der funktionell heterogenen Gruppe der 21 Entzündungsgene verantwortlich sein könnten. Die Vernetzung von CytoBASE, hierarchischer Clusteranalyse und Metaanalyse der identifizierten Gene mit Explain beschreibt daher beispielhaft, wie sehr große aus Mikroarrayprojekten generierte Datenmengen archiviert, verwaltet und nachanalysiert werden können, um dann neuartige Ergebnisse – in diesem Fall Promotorstrukturen - zu generieren, die durch Betrachtung einzelner kleiner Serien an Mikroarray-Experimenten nicht erzielbar gewesen wären. 6 Literatur 136

6 Literatur

1. Allison, D., Cui, X., Page, G. & Sabripour, M. (2006). Microarray data analysis: from disarray to consolidation and consensus. Nat.Rev.Genet. 7, 55-65. 2. Ball, C., Sherlock, G., Parkinson, H., Rocca-Sera, P., Brooksbank, C., Causton, H., Cavalieri, D., Gaasterland, T., Hingamp, P., Holstege, F. et al. (2002). Standards for microarray data. Science 298, 539. 3. Bammler, T., Beyer, R., Bhattacharya, S., Boorman, G., Boyles, A., Bradford, B., Bumgarner, R., Bushel, P., Chaturvedi, K., Choi, D. et al. (2005). Standardizing global gene expression analysis between laboratories and across platforms. Nat.Methods 2, 351-356. 4. Bassett, D.E.J., Eisen, M.B. & Boguski, M.S. (1999). Gene expression informatics--it's all in your mine. Nat.Genet. 21, 51-55. 5. Beutler, B. (2004). Inferences, questions and possibilities in Toll-like receptor signalling. Nature 430, 257-263. 6. Bollig, F., Winzen, R., Kracht, M., Ghebremedhin, B., Ritter, B., Wilhelm, A., Resch, K. & Holtmann, H. (2002). Evidence for general stabilization of mRNAs in response to UV light. Eur.J.Biochem. 269, 5830-5839. 7. Brazma, A., Hingamp, P., Quackenbush, J., Sherlock, G., Spellman, P., Stoeckert, C., Aach, J., Ansorge, W., Ball, C., Causton, H. et al. (2001). Minimum information about a microarray experiment (MIAME)-toward standards for microarray data. Nat.Genet. 29, 365-371. 8. Bryan, J. (2004). Problems in gene clustering based on gene expression data. J.Multivariate Statistics 90, 44-66. 9. Buck, M.J. & Lieb, J.D. (2004). ChIP-chip: considerations for the design, analysis, and application of genome-wide chromatin immunoprecipitation experiments. Genomics 83, 349-360. 10. Bulyk, M.L. (2003). Computational prediction of transcription-factor binding site locations. Genome Biol. 5, 201. 11. Calvano, S., Xiao, W., Richards, D., Felciano, R., Baker, H., Cho, R., Chen, R., Brownstein, B., Cobb, J., Tschoeke, S. et al. (2005). A network-based analysis of systemic inflammation in humans. Nature 437, 1032-1037. 12. Chen, J., Zhao, P., Massaro, D., Clerch, L.B., Almon, R.R., DuBois, D.C., Jusko, W.J. & Hoffman, E.P. (2004). The PEPR GeneChip data warehouse, and implementation of a dynamic time series query tool (SGQT) with graphical interface. Nucleic Acids Res 32, D578-81. 13. Chipman, H., Hastie, T.J. & Tibshirani, R. (2003). Clustering Microarray Data. In:Statistical analysis of gene expression microarray data, ed. ed. Speed, T. (Chapman & Hall CRC Press), 159-211. 14. Churchill, G. (2002). Fundamentals of experimental design for cDNA microarrays. Nat.Genet. 32 Suppl., 490-495. 15. DeRisi, J., Iyer, V. & Brown, P. (1997). Exploring the metabolic and genetic control of gene expression on a genomic scale. Science 278, 680-686. 16. Dietzsch, J., Gehlenborg, N. & Nieselt, K. (2006). Mayday--a microarray data analysis workbench. Bioinformatics 22, 1010-1012. 17. Eisen, M.B., Spellman, P.T., Brown, P.O. & Botstein, D. (1998). Cluster analysis and display of genome-wide expression patterns. Proc.Natl.Acad.Sci.U.S.A. 95, 14863- 14868. 18. Ermolaeva, O., Rastogi, M., Pruitt, K.D., Schuler, G.D., Bittner, M.L., Chen, Y., Simon, R., Meltzer, P., Trent, J.M. & Boguski, M.S. (1998). Data management and analysis for 6 Literatur 137

gene expression arrays. Nat.Genet. 20, 19-23. 19. Fambrough, D., McClure, K., Kazlauskas, A. & Lander, E. (1999). Diverse signaling pathways activated by growth factor receptors induce broadly overlapping, rather than independent, sets of genes. Cell 97, 727-741. 20. Frevel, M., Bakheet, T., Silva, A., Hissong, J., Khabar, K. & Williams, B. (2003). p38 Mitogen-activated protein kinase-dependent and -independent signaling of mRNA stability of AU-rich element-containing transcripts. Mol.Cell Biol. 23, 425-436. 21. Gilchrist, M., Thorsson, V., Li, B., Rust, A., Korb, M., Kennedy, K., Hai, T., Bolouri, H. & Aderem, A. (2006). Systems biology approaches identify ATF3 as a negative regulator of Toll-like receptor 4. Nature 441, 173-178. 22. Halees, A. & Weng, Z. (2004). PromoSer: improvements to the algorithm, visualization and accessibility. Nucleic Acids Res. 32, W191-W194. 23. Halees, A., Leyfer, D. & Weng, Z. (2003). PromoSer: A large-scale mammalian promoter and transcription start site identification service. Nucleic Acids Res. 31, 3554-3559. 24. Han, J. & Ulevitch, R. (2005). Limiting inflammatory responses during activation of innate immunity. Nat.Immunol. 6, 1198-1205. 25. Hancock, D., Wilson, M., Velarde, G., Morrison, N., Hayes, A., Hulme, H., Wood, A.J., Nashar, K., Kell, D.B. & Brass, A. (2005). maxdLoad2 and maxdBrowse: standards- compliant tools for microarray experimental annotation, data management and dissemination. BMC Bioinformatics 6, 264. 26. Heller, R., Schena, M., Chai, A., Shalon, D., Bedilion, T., Gilmore, J., Woolley, D. & Davis, R. (1997). Discovery and analysis of inflammatory disease-related genes using cDNA microarrays. Proc.Natl.Acad.Sci.U.S.A. 94, 2150-2155. 27. Hoffmann, E., Dittrich-Breiholz, O., Holtmann, H. & Kracht, M. (2002). Multiple control of interleukin-8 gene expression. J.Leukoc.Biol. 72, 847-855. 28. Hoffmann, E., Thiefes, A., Buhrow, D., Dittrich-Breiholz, O., Schneider, H., Resch, K. & Kracht, M. (2005). MEK1-dependent delayed expression of Fos-related antigen-1 counteracts c-Fos and p65 NF-kappaB-mediated interleukin-8 transcription in response to cytokines or growth factors. J.Biol.Chem. 280, 9706-9718. 29. Holloway, A., van Laar, R., Tothill, R. & Bowtell, D. (2002). Options available--from start to finish--for obtaining data from DNA microarrays II. Nat.Genet. 32 Suppl., 481- 489. 30. Holtmann, H., Enninga, J., Kalble, S., Thiefes, A., Dorrie, A., Broemer, M., Winzen, R., Wilhelm, A., Ninomiya-Tsuji, J., Matsumoto, K. et al. (2001). The MAPK kinase kinase TAK1 plays a central role in coupling the interleukin-1 receptor to both transcriptional and RNA-targeted mechanisms of gene regulation. J.Biol.Chem. 276, 3508-3516. 31. Hu, Z., Fu, Y., Halees, A., Kielbasa, S. & Weng, Z. (2004). SeqVISTA: a new module of integrated computational tools for studying transcriptional regulation. Nucleic Acids Res. 32, W235-W241. 32. Huang, Q., Liu, D., Majewski, P., Schulte, L.C., Korn, J.M., Young, R.A., Lander, E.S. & Hacohen, N. (2001). The plasticity of dendritic cell responses to pathogens and their components. Science 294, 870-875. 33. Huber, W., von Heydebreck, A., Sultmann, H., Poustka, A. & Vingron, M. (2002). Variance stabilization applied to microarray data calibration and to the quantification of differential expression. Bioinformatics 18 Suppl. 1, 96-104. 34. Irizarry, R., Warren, D., Spencer, F., Kim, I., Biswal, S., Frank, B., Gabrielson, E., Garcia, J., Geoghegan, J., Germino, G. et al. (2005). Multiple-laboratory comparison of microarray platforms. Nat.Methods 2, 345-350. 35. Isshiki, H., Akira, S., Tanabe, O., Nakajima, T., Shimamoto, T., Hirano, T. & Kishimoto, T. (1990). Constitutive and interleukin-1 (IL-1)-inducible factors interact with the IL-1- responsive element in the IL-6 gene. Mol.Cell Biol. 10, 2757-2764. 6 Literatur 138

36. Iyer, V., Eisen, M., Ross, D., Schuler, G., Moore, T., Lee, J., Trent, J., Staudt, L., Hudson,J,Jr, Boguski, M. et al. (1999). The transcriptional program in the response of human fibroblasts to serum. Science 283, 83-87. 37. Kel, A., Konovalova, T., Waleev, T., Cheremushkin, E., Kel-Margoulis, O. & Wingender, E. (2006). Composite Module Analyst: a fitness-based tool for identification of transcription factor binding site combinations. Bioinformatics 22, 1190-1197. 38. Klein, C., Wustefeld, T., Assmus, U., Roskams, T., Rose-John, S., Muller, M., Manns, M.P., Ernst, M. & Trautwein, C. (2005). The IL-6-gp130-STAT3 pathway in hepatocytes triggers liver protection in T cell-mediated liver injury. J Clin Invest 115, 860-869. 39. Kothapalli, R., Yoder, S., Mane, S. & Loughran,TP,Jr (2002). Microarray results: how accurate are they?. BMC Bioinformatics 3, 22. 40. Kracht, M. & Saklatvala, J. (2002). Transcriptional and post-transcriptional control of gene expression in inflammation. Cytokine 20, 91-106. 41. Krull, M., Pistor, S., Voss, N., Kel, A., Reuter, I., Kronenberg, D., Michael, H., Schwarzer, K., Potapov, A., Choi, C. et al. (2006). TRANSPATH: an information resource for storing and visualizing signaling pathways and their pathological aberrations. Nucleic Acids Res. 34, D546-D551. 42. Kuo, W., Jenssen, T., Butte, A., Ohno-Machado, L. & Kohane, I. (2002). Analysis of matched mRNA measurements from two different microarray technologies. Bioinformatics 18, 405-412. 43. Larkin, J., Frank, B., Gavras, H., Sultana, R. & Quackenbush, J. (2005). Independence and reproducibility across microarray platforms. Nat.Methods 2, 337-344. 44. Leung, T.H., Hoffmann, A. & Baltimore, D. (2004). One nucleotide in a kappaB site can determine cofactor specificity for NF-kappaB dimers. Cell 118, 453-464. 45. Manduchi, E., Grant, G.R., He, H., Liu, J., Mailman, M.D., Pizarro, A.D., Whetzel, P.L. & Stoeckert, C.J.J. (2004). RAD and the RAD Study-Annotator: an approach to collection, organization and exchange of all relevant information for high-throughput gene expression studies. Bioinformatics 20, 452-459. 46. Marshall, E. (2004). Getting the noise out of gene arrays. Science 306, 630-631. 47. Matys, V., Kel-Margoulis, O., Fricke, E., Liebich, I., Land, S., Barre-Dirrie, A., Reuter, I., Chekmenev, D., Krull, M., Hornischer, K. et al. (2006). TRANSFAC and its module TRANSCompel: transcriptional gene regulation in eukaryotes. Nucleic Acids Res. 34, D108-D110. 48. Maurer, M., Molidor, R., Sturn, A., Hartler, J., Hackl, H., Stocker, G., Prokesch, A., Scheideler, M. & Trajanoski, Z. (2005). MARS: microarray analysis, retrieval, and storage system. BMC Bioinformatics 6, 101. 49. Murphy, D. (2002). Gene expression studies using microarrays: principles, problems, and prospects. Adv.Physiol.Educ. 26, 256-270. 50. Navarange, M., Game, L., Fowler, D., Wadekar, V., Banks, H., Cooley, N., Rahman, F., Hinshelwood, J., Broderick, P. & Causton, H.C. (2005). MiMiR: a comprehensive solution for storage, annotation and exchange of microarray data. BMC Bioinformatics 6, 268. 51. Ogawa, S., Lozach, J., Benner, C., Pascual, G., Tangirala, R., Westin, S., Hoffmann, A., Subramaniam, S., David, M., Rosenfeld, M. et al. (2005). Molecular determinants of crosstalk between nuclear receptors and toll-like receptors. Cell 122, 707-721. 52. Pennisi, E. (2004). Searching for the genome's second code. Science 306, 632-635. 53. Petricoin,EF, Hackett, J., Lesko, L., Puri, R., Gutman, S., Chumakov, K., Woodcock, J., Feigal,DW,Jr, Zoon, K. & Sistare, F. (2002). Medical applications of microarray technologies: a regulatory science perspective. Nat.Genet. 32 Suppl., 474-479. 54. Pilpel, Y., Sudarsanam, P. & Church, G. (2001). Identifying regulatory networks by combinatorial analysis of promoter elements. Nat.Genet. 29, 153-159. 6 Literatur 139

55. Potapov, A. & Wingender, E. (2006). Mining the genome and regulatory networks. Genome Biol. 7, 309. 56. Quackenbush, J. (2001). Computational analysis of microarray data. Nat.Rev.Genet. 2, 418-427. 57. Quackenbush, J. (2002). Microarray data normalization and transformation. Nat.Genet. 32 Suppl., 496-501. 58. Saal, L.H., Troein, C., Vallon-Christersson, J., Gruvberger, S., Borg, A. & Peterson, C. (2002). BioArray Software Environment (BASE): a platform for comprehensive management and analysis of microarray data. Genome Biol. 3, software0003.1-0003.6. 59. Saeed, A., Sharov, V., White, J., Li, J., Liang, W., Bhagabati, N., Braisted, J., Klapa, M., Currier, T., Thiagarajan, M. et al. (2003). TM4: a free, open-source system for microarray data management and analysis. Biotechniques 34, 374-378. 60. Schena, M., Heller, R., Theriault, T., Konrad, K., Lachenmeier, E. & Davis, R. (1998). Microarrays: biotechnology's discovery platform for functional genomics. Trends Biotechnol. 16, 301-306. 61. Segal, E. & Sharan, R. (2005). A discriminative model for identifying spatial cis- regulatory modules. J.Comput.Biol. 12, 822-834. 62. Sherlock, G. (2005). Of fish and chips. Nat.Methods 2, 329-330. 63. Shlomi, T., Segal, D., Ruppin, E. & Sharan, R. (2006). QPath: a method for querying pathways in a protein-protein interaction network. BMC Bioinformatics 7, 199. 64. Simon, R. & Lam, A.P. (2006). BRB-Arraytools (Version 3.4 BETA_2) User's manual. Bethesda MD, Biometric Research Branch, National Cancer Institute: ftp://linus.nci.nih.gov/pub/techreport/Manual_v3_4_0_beta_1.pdf. 65. Stears, R., Martinsky, T. & Schena, M. (2003). Trends in microarray analysis. Nat.Med. 9, 140-145. 66. Stein, B. & Yang, M. (1995). Repression of the interleukin-6 promoter by estrogen receptor is mediated by NF-kappa B and C/EBP beta. Mol.Cell Biol. 15, 4971-4979. 67. Stein, B., Cogswell, P. & Baldwin,AS,Jr (1993). Functional and physical associations between NF-kappa B and C/EBP family members: a Rel domain-bZIP interaction. Mol.Cell Biol. 13, 3964-3974. 68. Stoeckert, C.J. & Parkinson Helen (2003). The MGED Ontology: a framework for describing functional genomics experiments. Comparitive and Functional Genomics 4, 127-132. 69. Stoeckert, C.J., Causton, H.C. & Ball, C.A. (2002). Microarray databases: standards and ontologies. Nat.Genet. 32 Suppl., 469-473. 70. Stoeckert, C.J.J., Causton, H.C. & Ball, C.A. (2002). Microarray databases: standards and ontologies. Nat.Genet. 32 Suppl., 469-473. 71. Tan, P., Downey, T., Spitznagel,EL,Jr, Xu, P., Fu, D., Dimitrov, D., Lempicki, R., Raaka, B. & Cam, M. (2003). Evaluation of gene expression measurements from commercial microarray platforms. Nucleic Acids Res. 31, 5676-5684. 72. Taverner, N., Smith, J. & Wardle, F. (2004). Identifying transcriptional targets. Genome Biol. 5, 210. 73. Thiefes, A., Wolter, S., Mushinski, J.F., Hoffmann, E., Dittrich-Breiholz, O., Graue, N., Dorrie, A., Schneider, H., Wirth, D., Luckow, B. et al. (2005). Simultaneous blockade of NFkappaB, JNK, and p38 MAPK by a kinase-inactive mutant of the protein kinase TAK1 sensitizes cells to apoptosis and affects a distinct spectrum of tumor necrosis factor [corrected] target genes. J.Biol.Chem. 280, 27728-27741. 74. Tupler, R., Perini, G. & Green, M.R. (2001). Expressing the . Nature 409, 832-833. 75. Wen, X. & Wu, G. (2001). Evidence for epigenetic mechanisms that silence both basal 6 Literatur 140

and immune-stimulated transcription of the IL-8 gene. J.Immunol. 166, 7290-7299. 76. Winzen, R., Kracht, M., Ritter, B., Wilhelm, A., Chen, C.Y., Shyu, A.B., Muller, M., Gaestel, M., Resch, K. & Holtmann, H. (1999). The p38 MAP kinase pathway signals for cytokine-induced mRNA stabilization via MAP kinase-activated protein kinase 2 and an AU-rich region-targeted mechanism. EMBO J. 18, 4969-4980. 77. Wu, G., Lai, E., Huang, N. & Wen, X. (1997). Oct-1 and CCAAT/enhancer-binding protein (C/EBP) bind to overlapping elements within the interleukin-8 promoter. The role of Oct-1 as a transcriptional repressor. J.Biol.Chem. 272, 2396-2403. 78. Xie, X., Lu, J., Kulbokas, E.J., Golub, T.R., Mootha, V., Lindblad-Toh, K., Lander, E.S. & Kellis, M. (2005). Systematic discovery of regulatory motifs in human promoters and 3' UTRs by comparison of several mammals. Nature 434, 338-345. 79. Yang, Y. & Speed, T. (2002). Design issues for cDNA microarray experiments. Nat.Rev.Genet. 3, 579-588.

Online Ressourcen

80. ArgoUML (Version 0.20), http://argouml.tigris.org. 81. BIOBASE, http://www.biobase-international.com. 82. BRB-Arraytools (Version 3.4 BETA_2), http://linus.nci.nih.gov/BRB-ArrayTools.html. 83. Eisen Lab Software, http://rana.lbl.gov/EisenSoftware.htm. 84. Java Treeview (Version 1.0.13), SourceForge.net, Projekt Info, http://sourceforge.net/projects/jtreeview/. 85. Mayday (Version 2.0), http://www.zbit.uni-tuebingen.de/pas/mayday/. 86. MWG-Biotech, http://www.mwg-biotech.com. 87. Ocimum Biosolutions, http://www.ocimumbio.com. Lebenslauf

Persönliche Daten Name: Axel Hans Robert Weber Geburtsdatum und -ort: 06.09.1967 in Kusel, Rheinland-Pfalz Familienstand: verheiratet, ein Kind Staatsangehörigkeit: deutsch Adresse: Molanusweg 13 31787 Hameln

Ausbildung 08/74 - 06/87 Grundschule und Gymnasium, Kaiserslautern 09/87 - 04/89 Zivildienst, Werkstatt für Behinderte 09/89 - 05/96 Studium der Biologie, Johannes Gutenberg-Universität Mainz Zoologie (Ökologie), Botanik, Mikrobiologie, Geographie Diplomarbeit am Institut für Pflanzenschutz im Weinbau, Biologische Bundesanstalt für Land- und Forstwirtschaft in Bernkastel-Kues

Berufliche Tätigkeiten 06/96 - 01/99 Wissenschaftlicher Angestellter am Institut für Pflanzenkrankheiten und Pflanzenschutz, Universität Hannover Forschungsprojekt in Kooperation mit der BBA, Braunschweig Alternative Möglichkeiten der Schädlingsbekämpfung im Porree- Anbau und Mechanismen der Reduktion von Thrips-Populationen

05/02 - 04/03 Datenbankentwickler bei der BioVisioN AG Hannover Mitarbeit bei der Einführung eines Labor Informations Management Systems (LIMS) 05/03 - heute Wissenschaftlicher Angestellter am Institut für Pharmakologie, Medizinische Hochschule Hannover Mitarbeit im Teilprojekt Z02, „Identifizierung von differenziell regulierten Genen mittels DNA Mikroarrays” des SFB566

Fortbildung 10/00-03/02 Vollzeitseminar „Angewandte Wirtschaftsinformatik” im b.i.b. Bildungszentrum für Informationsverarbeitende Berufe, Paderborn Abschluss: Staatlich geprüfter Informatiker Wirtschaft

Hameln, 29. Mai 2006 Erklärung

Ich erkläre, dass ich die der Medizinischen Hochschule Hannover zur Promotion eingereichte Dissertation mit dem

Titel Aufbau einer Datenbank für die Archivierung, Visualisierung und Auswertung von mRNA- Expressionsprofilen entzündungsrelevanter Gene auf der Basis eines standardisierten Oligonukleotid-DNA-Mikroarray-Systems

im

Institut für Pharmakologie

unter Leitung von Prof. Dr. Klaus Resch

mit Unterstützung durch Prof. Dr. Michael Kracht ohne sonstige Hilfe selbst durchgeführt und bei der Abfassung der Dissertation keine anderen als die dort angeführten Hilfsmittel benutzt habe. Ich habe bisher an keiner in- oder ausländischen Medizinischen Fakultät ein Gesuch um Zulassung zur Promotion eingereicht noch die vorliegende oder eine andere Arbeit als Dissertation vorgelegt.

Die vorliegende Dissertation wird in der Bibliothek der Medizinischen Hochschule Hannover veröffentlicht.

Hannover,

(Unterschrift) 7 Anhang 143

7 Anhang

7.1 Abbildungen

Abb. 7.1: Vereinfachtes Datenbankschema von BASE, BioArray Software Environment, http://base.thep.lu.se. 7.2 Anhang 144

7.2 Tabellen

Tab. 7.1.: Spalten einer kombinierten Imagene-MAVI-Rohdatendatei (CytoBASE-Import-Datei) für ein Einkanalexperiment mit dem Farbstoff Cyanine 3 (Cy3), die mit dem CytoBASE_Rohdatentool (mergerawfiles) erstellt wird und in CytoBASE hoch geladen werden kann. Die Spalten im oberen Teil der Tabelle entsprechen exakt der Datenanordnung aus der Datei, die in Imagene erzeugt wird. Der untere Teil enthält die wichtigsten Spalten aus der in MAVI erzeugten Datei (vgl. hierzu auch Kapitel 2.2.5). Wird fortgesetzt.

Spaltenüberschrift Herkunft Generelle Beschreibung

Field Imagene Arrayposition Meta Row Imagene Arrayposition Meta Column Imagene Arrayposition Row Imagene Arrayposition Column Imagene Arrayposition Gene ID Imagene Sondenbezeichnung Flag Imagene Markierung für Spot schlechter Qualität Signal Mean Imagene Intensitätswert Background Mean Imagene Intensitätswert Signal Median Imagene Intensitätswert Background Median Imagene Intensitätswert Signal Mode Imagene Intensitätswert Background Mode Imagene Intensitätswert Signal Area Imagene Intensitätswert Background Area Imagene Intensitätswert Signal Total Imagene Intensitätswert Background Total Imagene Intensitätswert Signal Stdev Imagene Intensitätswert Background Stdev Imagene Intensitätswert Shape Regularity Imagene Intensitätswert Ignored Area Imagene Intensitätswert Spot Area Imagene Intensitätswert Ignored Median Imagene Intensitätswert Area To Perimeter Imagene Intensitätswert Open Perimeter Imagene Intensitätswert XCoord Imagene Gitterinformation YCoord Imagene Gitterinformation Diameter Imagene Gitterinformation Position offset Imagene Gitterinformation Offset X Imagene Gitterinformation Offset Y Imagene Gitterinformation Expected X Imagene Gitterinformation Expected Y Imagene Gitterinformation CM-X Imagene Gitterinformation CM-Y Imagene Gitterinformation CM Offset Imagene Gitterinformation CM Offset-X Imagene Gitterinformation CM Offset-Y Imagene Gitterinformation Min Diam Imagene Gitterinformation Max Diam Imagene Gitterinformation Control Imagene Kontrolldaten Failed Control Imagene Kontrolldaten Background contamination present Imagene Kontrolldaten Signal contamination present Imagene Kontrolldaten Ignored % failed Imagene Kontrolldaten Open perimeter failed Imagene Kontrolldaten Shape regularity failed Imagene Kontrolldaten Perim-to-area failed Imagene Kontrolldaten Offset failed Imagene Kontrolldaten Empty spot Imagene Kontrolldaten Negative spot Imagene Kontrolldaten 7.2 Anhang 145

Tab. 7.1.: - Fortsetzung - Spalten einer kombinierten Imagene-MAVI-Rohdatendatei (CytoBASE-Import-Datei) für ein Einkanalexperiment mit dem Farbstoff Cyanine 3 (Cy3), die mit dem CytoBASE_Rohdatentool (mergerawfiles) erstellt wird und in CytoBASE hoch geladen werden kann. Die Spalten im oberen Teil der Tabelle entsprechen exakt der Datenanordnung aus der Datei, die in Imagene erzeugt wird. Der untere Teil enthält die wichtigsten Spalten aus der in MAVI erzeugten Datei (vgl. hierzu auch Kapitel 2.2.5).

Spaltenüberschrift Herkunft Generelle Beschreibung

Ic3 MAVI Intensität Ic3pc MAVI Normalisierte Intensität raws2bc MAVI Signal zu Hintergrund flag MAVI Markierung für Spot schlechter Qualität offsetc3 MAVI Abschnitt der Regressionsgerade slopec3 MAVI Steigung der Regressionsgerade fiterrc3 MAVI Fehler bei Regression Ltakenc3 MAVI Niedrigste angenommene Scan-Stufe Utakenc3 MAVI Höchste angenommene Scan-Stufe sstd MAVI Standardabweichung der Pixel im Vordergrund bstd MAVI Standardabweichung der Pixel im Hintergrund

Tab. 7.2: Gegenüberstellung der Felder in der Tabelle RawBioAssayData, die die Rohdaten der Mikroarrayvergleiche enthält: CytoBASE und die originale Tabelle aus BASE. Wird fortgesetzt.

Spalten in Tabelle RawBioAssayData in CytoBASE Spalten in originaler Tabelle aus BASE

"rawBioAssay" int NOT NULL default '0', "rawBioAssay" int NOT NULL default '0',

"position" int NOT NULL default '0', "position" int NOT NULL default '0',

"element" int NOT NULL default '0', "element" int NOT NULL default '0',

"reporter" int NOT NULL default '0', "reporter" int NOT NULL default '0',

"block" smallint default NULL, "block" smallint default NULL,

"numCol" smallint default NULL, "numCol" smallint default NULL,

"numRow" smallint default NULL, "numRow" smallint default NULL,

"x" float4 NOT NULL default '0', -- xCh1 "x" float4 NOT NULL default '0',

"y" float4 NOT NULL default '0', -- yCh1 "y" float4 NOT NULL default '0',

"flags" smallint default NULL, -- flagsCh1 "flags" smallint default NULL,

"FCh1Mean" float4 default NULL, "FCh1Mean" float4 default NULL,

"BCh1Mean" float4 default NULL, "BCh1Mean" float4 default NULL,

"FCh1Median" float4 default NULL, "FCh1Median" float4 default NULL,

"BCh1Median" float4 default NULL, "BCh1Median" float4 default NULL,

"FCh1Mode" float4 default NULL,

"BCh1Mode" float4 default NULL,

"FPixels" smallint default NULL, -- FPixelsCh1 "FPixels" smallint default NULL,

"BPixels" smallint default NULL, -- BPixelsCh1 "BPixels" smallint default NULL,

"FCh1Total" int default NULL,

"BCh1Total" smallint default NULL,

"FCh1SD" float4 default NULL, "FCh1SD" float 4 default NULL,

"BCh1SD" float4 default NULL, "BCh1SD" float4 default NULL,

"ShapeRCh1" float4 default NULL,

"dia" float4 default NULL, -- diaCh1 "dia" float4 default NULL,

"Ch1Ic" int default NULL, 7.2 Anhang 146

Tab. 7.2: Gegenüberstellung der Felder in der Tabelle RawBioAssayData, die die Rohdaten der Mikroarrayvergleiche enthält: CytoBASE und die originale Tabelle aus BASE. Wird fortgesetzt.

Spalten in Tabelle RawBioAssayData in CytoBASE Spalten in originaler Tabelle aus BASE

"Ch1Ipc" float4 default NULL,

"Ch1Raw2B" float4 default NULL,

"flagsmavich1" smallint default NULL,

"Ch1Offset" float4 default NULL,

"Ch1Slope" float4 default NULL,

"Ch1Filtererr" float4 default NULL,

"Ch1Ltaken" int default NULL,

"Ch1Utaken" int default NULL,

"Ch1sstd" float4 default NULL,

"Ch1bstd" float4 default NULL,

"flagsch2" smallint default NULL,

"FCh2Mean" float4 default NULL, "FCh2Mean" float4 default NULL,

"BCh2Mean" float4 default NULL, "BCh2Mean" float4 default NULL,

"FCh2Median" float4 default NULL, "FCh2Median" float4 default NULL,

"BCh2Median" float4 default NULL, "BCh2Median" float4 default NULL,

"FCh2Mode" float4 default NULL,

"BCh2Mode" float4 default NULL,

"FPixelsCh2" smallint default NULL,

"BPixelsCh2" smallint default NULL,

"FCh2Total" int default NULL,

"BCh2Total" smallint default NULL,

"FCh2SD" float4 default NULL, "FCh2SD" float4 default NULL,

"BCh2SD" float4 default NULL, "BCh2SD" float4 default NULL,

"ShapeRCh2" float4 default NULL,

"xCh2" float4 NOT NULL default '0',

"yCh2" float4 NOT NULL default '0',

"diaCh2" float4 default NULL,

"Ch2Ic" int default NULL,

"Ch2Ipc" float4 default NULL,

"Ch2Raw2B" float4 default NULL,

"flagsmavich2" smallint default NULL,

"Ch2Offset" float4 default NULL,

"Ch2Slope" float4 default NULL,

"Ch2Filtererr" float4 default NULL,

"Ch2Ltaken" smallint default NULL,

"Ch2Utaken" smallint default NULL,

"Ch2sstd" float4 default NULL,

"Ch2bstd" float4 default NULL,

"percCh1SD1" smallint default NULL,

"percCh1SD2" smallint default NULL,

"percCh1Sat" smallint default NULL,

"percCh2SD1" smallint default NULL, 7.2 Anhang 147

Tab. 7.2: Gegenüberstellung der Felder in der Tabelle RawBioAssayData, die die Rohdaten der Mikroarrayvergleiche enthält: CytoBASE und die originale Tabelle aus BASE. Wird fortgesetzt.

Spalten in Tabelle RawBioAssayData in CytoBASE Spalten in originaler Tabelle aus BASE

"percCh2SD2" smallint default NULL,

"percCh2Sat" smallint default NULL,

"ratiosSD" float4 default NULL,

"rgnRatio" float4 default NULL,

"rgnR2" float4 default NULL,

"MValue" float4 default NULL,

"CV" float4 default NULL,

"Ch1IgnArea" int default NULL,

"Ch1SpotArea" int default NULL,

"Ch1IgnMedian" float default NULL,

"Ch1AreaToPeri" float4 default NULL,

"Ch1OpenPeri" float4 default NULL,

"Ch1PositionOffset" float4 default NULL,

"Ch1OffsetX" float4 default NULL,

"Ch1OffsetY" float4 default NULL,

"Ch1ExpectX" float4 default NULL,

"Ch1ExpectY" float4 default NULL,

"Ch1CMX" float4 default NULL,

"Ch1CMY" float4 default NULL,

"Ch1CMOffset" float4 default NULL,

"Ch1CMOffsetX" float4 default NULL,

"Ch1CMOffsetY" float4 default NULL,

"Ch1MinDiam" float4 default NULL,

"Ch1MaxDiam" float4 default NULL,

"Ch1Control" smallint default NULL,

"Ch1FailedControl" int default NULL,

"Ch1BackContamPres" smallint default NULL,

"Ch1SignContamPres" smallint default NULL,

"Ch1IgnPercFailed" float default NULL,

"Ch1OpenPeriFailed" int default NULL,

"Ch1ShapeRegFailed" int default NULL,

"Ch1PerimToAreaFailed" int default NULL,

"Ch1OffsetFailed" int default NULL,

"Ch1EmptySpot" int default NULL,

"Ch1NegativeSpot" int default NULL,

"Ch2IgnArea" int default NULL,

"Ch2SpotArea" int default NULL,

"Ch2IgnMedian" float default NULL,

"Ch2AreaToPeri" float4 default NULL,

"Ch2OpenPeri" float4 default NULL,

"Ch2PositionOffset" float4 default NULL,

"Ch2OffsetX" float4 default NULL, 7.2 Anhang 148

Tab. 7.2: Gegenüberstellung der Felder in der Tabelle RawBioAssayData, die die Rohdaten der Mikroarrayvergleiche enthält: CytoBASE und die originale Tabelle aus BASE.

Spalten in Tabelle RawBioAssayData in CytoBASE Spalten in originaler Tabelle aus BASE

"Ch2OffsetY" float4 default NULL,

"Ch2ExpectX" float4 default NULL,

"Ch2ExpectY" float4 default NULL,

"Ch2CMX" float4 default NULL,

"Ch2CMY" float4 default NULL,

"Ch2CMOffset" float4 default NULL,

"Ch2CMOffsetX" float4 default NULL,

"Ch2CMOffsetY" float4 default NULL,

"Ch2MinDiam" float4 default NULL,

"Ch2MaxDiam" float4 default NULL,

"Ch2Control" smallint default NULL,

"Ch2FailedControl" int default NULL,

"Ch2BackContamPres" smallint default NULL,

"Ch2SignContamPres" smallint default NULL,

"Ch2IgnPercFailed" float default NULL,

"Ch2OpenPeriFailed" int default NULL,

"Ch2ShapeRegFailed" int default NULL,

"Ch2PerimToAreaFailed" int default NULL,

"Ch2OffsetFailed" int default NULL,

"Ch2EmptySpot" int default NULL,

"Ch2NegativeSpot" int default NULL,

7

Tab. 7.3: Gesamtzahlen von Arrayvergleichen in CytoBASE (1.1.2006): Humane Zelllinien in Kanal 1. . 2

Unterteilung nach Behandlung, Arraytyp und Zellsystem. Aufsteigende Sortierung nach Anzahl der Behandlungen. Jede Behandlung beginnt mit einer Zahl A n in eckiger Klammer. Unterstrichene Zahlen markieren die Zellsysteme, deren Daten in Kapitel 3.6.1 vergleichend dargestellt werden. Informationen zu den h a

Zellsystemen und Behandlungen sind den Tabellen 3.10 und 3.11 (respektive) zu entnehmen. n g Behandlungen (Treatments) Arraytyp Zelllinie 293- HeLa- HT- NK- U- 293T HaCaT HeLa Jurkat KB THP-1 IL1R tTA 1080 92 937 [1] CCN1 HA286 2 [1] chlamydia pneumoniae Inflhum 2 [1] chlamydia trachomatis L2 Inflhum 2 3 [1] fas ligand HA286 2 [1] human immunodeficiency virus type I HA286 2 1 [1] interferon gamma Inflhum 1 [1] interleukin 1 alpha HA286 1 17 Inflhum 2 2 [1] SC514 HA286 1 [1] tumor necrosis factor HA286 2 [1] Z-VAD-fmk HA286 2 [1] anti-CD28 antibody [2] 12-O-tetradecanoylphorbol-13-acetate HA286 1 [1] cell permeable TAT-c-Jun fusion peptide [2] interleukin 1 alpha HA286 2 [1] cell permeable TAT-scrambled fusion peptide [2] interleukin 1 alpha HA286 1 [1] interferon gamma [2] interleukin 1 alpha Inflhum 1 [1] interleukin 1 alpha [2] actinomycin D Inflhum 2 19 [1] interleukin 1 alpha [2] tumor necrosis factor HA286 5 Inflhum 6 testInflhum 6 [1] PD98059 [2] interleukin 1 alpha HA286 4 [1] SB203580 [2] interleukin 1 alpha HA286 4 [1] SC514 [2] interleukin 1 alpha HA286 2 [1] SP600125 [2] interleukin 1 alpha HA286 4 [1] Z-VAD-fmk [2] fas ligand HA286 2 [1] interferon gamma [2] interleukin 1 alpha [3] actinomycin D Inflhum 1 [1] interleukin 1 alpha [2] UV-light exposition [3] actinomycin D Inflhum 4 13 [1] SB203580 [2] SP600125 [3] PD98059 HA286 1 [1] interferon gamma [2] interleukin 1 alpha [3] UV-light exposition [4] actinomycin D Inflhum 2 [1] PD98059 [2] SB203580 [3] SP600125 [4] interleukin 1 alpha HA286 1 [1] SB203580 [2] SP600125 [3] PD98059 [4] interleukin 1 alpha HA286 4 keine Kontrollsituation, keine Behandlung HA286 3 1 Inflhum 3 1 18 Summe experimentell manipulierter Proben 8 4 8 22 55 11 1 38 2 3 1 Kontrollsituation, keine Behandlung HA286 2 1 13 1 Inflhum 4 2 1 testInflhum 2 Summe Kontrollsituationen 2 1 4 4 1 13 1

Gesamtsumme 10 5 8 26 59 12 1 51 3 3 1 1 4 9

7 . 2

A n h a n g

Tab. 7.4: Gesamtzahlen von Arrayvergleichen in CytoBASE (1.1.2006): Humane Zelllinien in Kanal 2. Unterteilung nach Behandlung, Arraytyp und Zellsystem. Aufsteigende Sortierung nach Anzahl der Behandlungen. Jede Behandlung beginnt mit einer Zahl in eckiger Klammer. Unterstrichene Zahlen markieren die Zellsysteme, deren Daten in Kapitel 3.6.1 vergleichend dargestellt werden. Informationen zu den Zellsystemen und Behandlungen sind den Tabellen 3.10 und 3.11 (respektive) zu entnehmen.

Behandlungen (Treatments) Arraytyp Zelllinie 293-IL1R 293T HaCaT HeLa HeLa-tTA HT-1080 Jurkat KB NK-92 THP-1 U-937 [1] chlamydia pneumoniae Inflhum 2 [1] chlamydia trachomatis L2 Inflhum 1 [1] interleukin 1 alpha HA286 2 Inflhum 4 4 [1] cell permeable TAT-scrambled fusion peptide [2] interleukin 1 alpha HA286 1 [1] interferon gamma [2] interleukin 1 alpha Inflhum 2 [1] interleukin 1 alpha [2] actinomycin D Inflhum 2 18 [1] interleukin 1 alpha [2] tumor necrosis factor HA286 2 Inflhum 2 testInflhum 2 [1] interferon gamma [2] interleukin 1 alpha [3] actinomycin D Inflhum 1 [1] PD98059 [2] SB203580 [3] SP600125 [4] interleukin 1 alpha HA286 1 keine Kontrollsituation, keine Behandlung HA286 2 Inflhum 1 19 Summe experimentell manipulierter Proben 3 2 6 21 30 1 3 Kontrollsituation, keine Behandlung HA286 5 2 3 8 1 48 3 3 Inflhum 2 1 2 5 20 3 testInflhum 6 Summe Kontrollsituationen 7 3 2 5 29 11 1 48 3 3 Gesamtsumme 10 5 8 26 59 12 1 51 3 3 1 5 0

7 . 2

A n h a

Tab. 7.5: Gesamtzahlen von Arrayvergleichen in CytoBASE (1.1.2006): Humane primäre Zellen und Gewebe in Kanal 1. n Unterteilung nach Behandlung, Arraytyp und Zellsystem. Aufsteigende Sortierung nach Anzahl der Behandlungen. Jede Behandlung beginnt mit einer Zahl g in eckiger Klammer. Unterstrichene Zahlen markieren die Zellsysteme, deren Daten in Kapitel 3.6.1 vergleichend dargestellt werden. Informationen zu den Zellsystemen und Behandlungen sind den Tabellen 3.10 und 3.11 (respektive) zu entnehmen. Die Versuche mit Keratinozyten entstammen aus nicht veröffentlichter Kooperation. Deshalb werden deren Behandlungen hier nicht aufgeschlüsselt. Wird fortgesetzt.

Behandlung Arraytyp primäre Zellen Gewebe Keratino- Mono- Neutro- CD4+ HuGi MoDC MRC-5 NK PBM T-Zellen Haut zyten zyten phile [1] alpha hemolysin HA286 1 3 1 2 [1] anti-CD43 antibody HA286 2 [1] bacterial cell wall component peptidoglycan HA286 1 1 [1] bacterial lipopolysaccharide HA286 3 Inflhum 2 [1] clobenpropit HA286 1 [1] coxsackie enterovirus CVB3-Nancy HA286 2 [1] coxsackie enterovirus CVB3-PD HA286 5 testInflhum 2 [1] coxsackie enterovirus CVB3-PD UV-inactivated HA286 1 [1] coxsackie enterovirus CVB3-Woodruff HA286 4 [1] hepatitis A virus HA286 1 [1] histamine HA286 2 [1] HIV-1 protein p17 HA286 1 [1] HIV-1 protein vif HA286 1 [1] human immunodeficiency virus type I HA286 1 4 [1] interleukin 1 alpha HA286 16 testInflhum 1 [1] interleukin 2 HA286 2 [1] PD98059 HA286 1 [1] polio virus strain mahoney HA286 1 testInflhum 2 [1] polio virus strain sabin HA286 2 testInflhum 4 [1] SB203580 HA286 1 [1] tumor necrosis factor HA286 6 1 5 1

7 . 2

A

Tab. 7.5: - Fortsetzung - n h

Gesamtzahlen von Arrayvergleichen in CytoBASE (1.1.2006): Humane primäre Zellen und Gewebe in Kanal 1. a n

Unterteilung nach Behandlung, Arraytyp und Zellsystem. Aufsteigende Sortierung nach Anzahl der Behandlungen. Jede Behandlung beginnt mit einer Zahl g in eckiger Klammer. Unterstrichene Zahlen markieren die Zellsysteme, deren Daten in Kapitel 3.6.1 vergleichend dargestellt werden. Informationen zu den Zellsystemen und Behandlungen sind den Tabellen 3.10 und 3.11 (respektive) zu entnehmen. Die Versuche mit Keratinozyten entstammen aus nicht veröffentlichter Kooperation. Deshalb werden deren Behandlungen hier nicht aufgeschlüsselt.

Behandlung Arraytyp primäre Zellen Gewebe Keratino- Mono- Neutro- CD4+ HuGi MoDC MRC-5 NK PBM T-Zellen Haut zyten zyten phile [1] anti-CD3 antibody [2] anti-CD28 antibody HA286 2 [1] cell permeable TAT-c-Jun fusion peptide [2] interleukin 1 alpha HA286 4 [1] cell permeable TAT-scrambled fusion peptide HA286 2 [2] interleukin 1 alpha [1] HIV-1 protein p17 [2] HIV-1 protein vif HA286 1 [1] interleukin 1 receptor antagonist (anakinra) HA286 2 [2] coxsackie enterovirus CVB3-PD [1] interleukin 2 [2] human immunodeficiency virus type I HA286 2 [1] PD98059 [2] bacterial lipopolysaccharide HA286 1 [1] PD98059 [2] interleukin 1 alpha HA286 5 [1] PD98059 [2] tumor necrosis factor HA286 1 [1] SB203580 [2] bacterial lipopolysaccharide HA286 1 [1] SB203580 [2] interleukin 1 alpha HA286 5 [1] SB203580 [2] tumor necrosis factor HA286 1 [1] SP600125 [2] bacterial lipopolysaccharide HA286 1 [1] SP600125 [2] interleukin 1 alpha HA286 6 [1] SP600125 [2] tumor necrosis factor HA286 1 [1] PD98059 [2] SB203580 [3] SP600125 HA286 1 [1] SB203580 [2] SP600125 [3] PD98059 HA286 1 [1] PD98059 [2] SB203580 [3] SP600125 [4] interleukin 1 alpha HA286 1 [1] PD98059 [2] SB203580 [3] SP600125 HA286 1 [4] tumor necrosis factor [1] SB203580 [2] SP600125 [3] PD98059 [4] interleukin 1 alpha HA286 4 keine Kontrollsituation, keine Behandlung HA286 2 2 13 6 Summe experimentell manipulierter Proben 2 58 56 3 6 26 2 1 33 6 6 Kontrollsituation, keine Behandlung HA286 4 2 1 3 1 1 1 testInflhum 1 Summe Kontrollsituationen 4 2 1 3 2 1 1 Gesamtsumme 2 62 58 4 9 28 2 1 34 6 7 1 5 2

7 . 2

A n h a n g

Tab. 7.6:Gesamtzahlen von Arrayvergleichen in CytoBASE (1.1.2006): Humane primären Zellen und Gewebe in Kanal 2. Unterteilung nach Behandlung, Arraytyp und Zellsystem. Aufsteigende Sortierung nach Anzahl der Behandlungen. Jede Behandlung beginnt mit einer Zahl in eckiger Klammer. Unterstrichene Zahlen markieren die Zellsysteme, deren Daten in Kapitel 3.6.1 vergleichend dargestellt werden. Informationen zu den Zellsystemen und Behandlungen sind den Tabellen 3.10 und 3.11 (respektive) zu entnehmen. Die Versuche mit Keratinozyten entstammen aus nicht veröffentlichter Kooperation. Deshalb werden deren Behandlungen hier nicht aufgeschlüsselt.

Behandlung Arraytyp primäre Zellen Gewebe Keratino- Mono- Neutro- CD4+ HuGi MoDC MRC-5 NK PBM T-Zellen Haut zyten zyten phile [1] coxsackie enterovirus CVB3-Nancy HA286 2 [1] coxsackie enterovirus CVB3-PD UV-inactivated HA286 3 [1] interleukin 1 alpha HA286 2 [1] polio virus strain mahoney HA286 1 testInflhum 2 [1] SP600125 HA286 3 [1] cell permeable TAT-scrambled fusion peptide HA286 2 [2] interleukin 1 alpha [1] SP600125 [2] interleukin 1 alpha HA286 1 [1] SP600125 [2] tumor necrosis factor HA286 1 keine Kontrollsituation, keine Behandlung HA286 1 Summe experimentell manipulierter Proben 9 14 8 1 Kontrollsituation, keine Behandlung HA286 4 52 32 4 7 13 1 1 32 6 7 Inflhum 12 2 testInflhum 1 7 Summe Kontrollsituationen 4 53 44 4 7 20 1 1 34 6 7 Gesamtsumme 4 62 58 4 7 28 2 1 34 6 7 1 5 3

7 . 2

A n h a n g

Tab. 7.7: Gesamtzahlen von Arrayvergleichen in CytoBASE (1.1.2006): Murine Zelllinien und primäre Zellen in Kanal 1. Unterteilung nach Behandlung, Arraytyp und Zellsystem. Aufsteigende Sortierung nach Anzahl der Behandlungen. Jede Behandlung beginnt mit einer Zahl in eckiger Klammer. Unterstrichene Zahlen markieren die Zellsysteme, deren Daten in Kapitel 3.6.1 vergleichend dargestellt werden. Informationen zu den Zellsystemen und Behandlungen sind den Tabellen 3.10 und 3.11 (respektive) zu entnehmen.

Arrayty Behandlungen (Treatments) Zelllinie primäre Zellen p NIH3T3- bmMacro- bmMacro- Dendritic- MEF NIH3T3 TetMycRas Raw264.7 VSMC phagesImm phages Cells -IRF1ER [1] bacterial lipopolysaccharide Inflmus 3 6 MA313 1 3 4 [1] chlamydia pneumoniae Inflmus 12 [1] dextran sulphate sodium Inflmus [1] estradiol MA313 2 [1] hepatitis B virus plasmid Inflmus [1] interferon beta MA313 2 [1] interleukin 1 alpha Inflmus 15 3 MA313 20 4 [1] tumor necrosis factor Inflmus 6 9 3 MA313 15 7 [1] Z-VAD-fmk Inflmus 4 [1] bacterial lipopolysaccharide [2] actinomycin D Inflmus 17 [1] PD98059 [2] interleukin 1 alpha MA313 2 [1] PD98059 [2] tumor necrosis factor MA313 2 [1] wortmanin high [2] tumor necrosis factor Inflmus 2 MA313 2 [1] wortmanin low [2] tumor necrosis factor Inflmus 2 MA313 2 [1] Z-VAD-fmk [2] tumor necrosis factor Inflmus 7 keine Kontrollsituation, keine Behandlung MA313 1 1 1 Summe experimentell manipulierter Proben 3 57 43 5 3 45 1 1 Kontrollsituation, keine Behandlung Inflmus 1 5 8 6 MA313 10 5 1 Summe Kontrollsituationen 1 15 13 7 Gesamtsumme 4 72 56 5 3 52 1 1 1 5 4

7 . 2

A n h a n g

Tab. 7.8: Gesamtzahlen von Arrayvergleichen in CytoBASE (1.1.2006): Murine Zelllinien und primäre Zellen in Kanal 2. Unterteilung nach Behandlung, Arraytyp und Zellsystem. Aufsteigende Sortierung nach Anzahl der Behandlungen. Jede Behandlung beginnt mit einer Zahl in eckiger Klammer. Unterstrichene Zahlen markieren die Zellsysteme, deren Daten in Kapitel 3.6.1 vergleichend dargestellt werden. Informationen zu den Zellsystemen und Behandlungen sind den Tabellen 3.10 und 3.11 (respektive) zu entnehmen.

Arrayty Behandlungen (Treatments) Zelllinie primäre Zellen p NIH3T3- bmMacro- bmMacro- Dendritic- MEF NIH3T3 TetMycRas Raw264.7 VSMC phagesImm phages Cells -IRF1ER [1] bacterial lipopolysaccharide Inflmus 1 12 MA313 1 [1] chlamydia pneumoniae Inflmus 4 [1] interleukin 1 alpha Inflmus 4 1 MA313 6 [1] tumor necrosis factor Inflmus 2 1 1 MA313 5 1 [1] wortmanin high Inflmus 4 MA313 4 [1] wortmanin low Inflmus 4 MA313 4 [1] Z-VAD-fmk Inflmus 7 [1] bacterial lipopolysaccharide [2] actinomycin D Inflmus 3 [1] PD98059 [2] interleukin 1 alpha MA313 2 [1] PD98059 [2] tumor necrosis factor MA313 2 [1] Z-VAD-fmk [2] tumor necrosis factor Inflmus 1 keine Kontrollsituation, keine Behandlung Inflmus MA313 4 Summe experimentell manipulierter Proben 1 17 30 4 22 Kontrollsituation, keine Behandlung Inflmus 3 20 15 26 MA313 35 11 1 3 4 1 1 Summe Kontrollsituationen 3 55 26 1 3 30 1 1 Gesamtsumme 4 72 56 5 3 52 1 1 1 5 5

7 . 2

A n h a n g

Tab. 7.9: Gesamtzahlen von Arrayvergleichen in CytoBASE (1.1.2006): Murine Gewebe in Kanal 1. Unterteilung nach Behandlung, Arraytyp und Zellsystem. Aufsteigende Sortierung nach Anzahl der Behandlungen. Jede Behandlung beginnt mit einer Zahl in eckiger Klammer. Unterstrichene Zahlen markieren die Zellsysteme, deren Daten in Kapitel 3.6.1 vergleichend dargestellt werden. Informationen zu den Zellsystemen und Behandlungen sind den Tabellen 3.10 und 3.11 (respektive) zu entnehmen.

Behandlungen (Treatments) Arraytyp Gewebe CervLymphNodes Liver Lung mAorta MesLymphNodes PerLymphNodes [1] chlamydia pneumoniae MA313 3 [1] dextran sulphate sodium Inflmus 3 [1] hepatitis B virus plasmid Inflmus 5 [1] interleukin 6 MA313 4 [1] ischemia/reperfusion injury Inflmus 6 [1] tumor necrosis factor Inflmus 6 MA313 7 [1] hepatitis B virus plasmid [2] hepatitis C virus core protein Inflmus 2 keine Kontrollsituation, keine Behandlung Inflmus 2 2 1 1 MA313 4 2 Summe experimentell manipulierter Proben 2 34 3 4 4 1 Kontrollsituation, [1] hepatitis B virus plasmid Inflmus 2 Kontrollsituation, keine Behandlung Inflmus 2 1 MA313 1 1 1 Summe Kontrollsituationen 5 1 2 Gesamtsumme 2 39 4 6 4 1 1 5 6

7 . 2

A n h a n g

Tab. 7.10: Gesamtzahlen von Arrayvergleichen in CytoBASE (1.1.2006): Murine Gewebe in Kanal 2. Unterteilung nach Behandlung, Arraytyp und Zellsystem. Aufsteigende Sortierung nach Anzahl der Behandlungen. Jede Behandlung beginnt mit einer Zahl in eckiger Klammer. Unterstrichene Zahlen markieren die Zellsysteme, deren Daten in Kapitel 3.6.1 vergleichend dargestellt werden. Informationen zu den Zellsystemen und Behandlungen sind den Tabellen 3.10 und 3.11 (respektive) zu entnehmen.

Behandlungen (Treatments) Arraytyp Gewebe CervLymphNodes Liver Lung mAorta MesLymphNodes PerLymphNodes [1] chlamydia pneumoniae MA313 1 [1] dextran sulphate sodium Inflmus 1 [1] hepatitis B virus plasmid Inflmus 2 [1] interleukin 6 MA313 1 [1] ischemia/reperfusion injury Inflmus 2 [1] tumor necrosis factor Inflmus 2 MA313 2 keine Kontrollsituation, keine Behandlung Inflmus 3 1 MA313 4 Summe experimentell manipulierter Proben 13 1 4 1 Kontrollsituation, [1] hepatitis B virus plasmid Inflmus 2 Kontrollsituation, [1] sodium chloride Inflmus 5 Kontrollsituation, keine Behandlung Inflmus 10 3 2 MA313 9 3 3 Summe Kontrollsituationen 26 3 6 2 Gesamtsumme 39 4 6 6 1 1 5 7 7.3 Anhang 158

7.3 Ausgewählte SQL-Skripte zur Erzeugung von Tabellen

7.3.1 Tabelle RawBioAssayData CREATE TABLE rawbioassaydata ( "rawBioAssay" int4 NOT NULL DEFAULT '0', "position" int4 NOT NULL DEFAULT '0', element int4 NOT NULL DEFAULT '0', reporter int4 NOT NULL DEFAULT '0', block int2, "numCol" int2, "numRow" int2, x float4 NOT NULL DEFAULT '0', y float4 NOT NULL DEFAULT '0', flags int2, "FCh1Mean" float4, "BCh1Mean" float4, "FCh1Median" float4, "BCh1Median" float4, "FCh1Mode" float4, "BCh1Mode" float4, "FPixels" int2, "BPixels" int2, "FCh1Total" int4, "BCh1Total" int2, "FCh1SD" float4, "BCh1SD" float4, "ShapeRCh1" float4, dia float4, "Ch1Ic" float4, "Ch1Ipc" float4, "Ch1Raw2B" float4, "flagsMAVICh1" int2, "Ch1Offset" float4, "Ch1Slope" float4, "Ch1Filtererr" float4, "Ch1Ltaken" int4, "Ch1Utaken" int4, "Ch1sstd" float4, "Ch1bstd" float4, "flagsCh2" int2, "FCh2Mean" float4, "BCh2Mean" float4, "FCh2Median" float4, "BCh2Median" float4, "FCh2Mode" float4, "BCh2Mode" float4, "FPixelsCh2" int2, "BPixelsCh2" int2, "FCh2Total" int4, "BCh2Total" int2, "FCh2SD" float4, "BCh2SD" float4, "ShapeRCh2" float4, "xCh2" float4 NOT NULL DEFAULT '0', "yCh2" float4 NOT NULL DEFAULT '0', "diaCh2" float4, "Ch2Ic" float4, "Ch2Ipc" float4, "Ch2Raw2B" float4, "flagsMAVICh2" int2, "Ch2Offset" float4, "Ch2Slope" float4, "Ch2Filtererr" float4, "Ch2Ltaken" int2, "Ch2Utaken" int2, "Ch2sstd" float4, "Ch2bstd" float4, "Ch1IgnArea" int4, "Ch1SpotArea" int4, "Ch1IgnMedian" float8, "Ch1AreaToPeri" float4, "Ch1OpenPeri" float4, "Ch1PositionOffset" float4, "Ch1OffsetX" float4, "Ch1OffsetY" float4, "Ch1ExpectX" float4, "Ch1ExpectY" float4, "Ch1CMX" float4, "Ch1CMY" float4, "Ch1CMOffset" float4, "Ch1CMOffsetX" float4, "Ch1CMOffsetY" float4, "Ch1MinDiam" float4, "Ch1MaxDiam" float4, 7.3 Anhang 159

"Ch1Control" int2, "Ch1FailedControl" int4, "Ch1BackContamPres" int2, "Ch1SignContamPres" int2, "Ch1IgnPercFailed" float8, "Ch1OpenPeriFailed" int4, "Ch1ShapeRegFailed" int4, "Ch1PerimToAreaFailed" int4, "Ch1OffsetFailed" int4, "Ch1EmptySpot" int4, "Ch1NegativeSpot" int4, "Ch2IgnArea" int4, "Ch2SpotArea" int4, "Ch2IgnMedian" float8, "Ch2AreaToPeri" float4, "Ch2OpenPeri" float4, "Ch2PositionOffset" float4, "Ch2OffsetX" float4, "Ch2OffsetY" float4, "Ch2ExpectX" float4, "Ch2ExpectY" float4, "Ch2CMX" float4, "Ch2CMY" float4, "Ch2CMOffset" float4, "Ch2CMOffsetX" float4, "Ch2CMOffsetY" float4, "Ch2MinDiam" float4, "Ch2MaxDiam" float4, "Ch2Control" int2, "Ch2FailedControl" int4, "Ch2BackContamPres" int2, "Ch2SignContamPres" int2, "Ch2IgnPercFailed" float8, "Ch2OpenPeriFailed" int4, "Ch2ShapeRegFailed" int4, "Ch2PerimToAreaFailed" int4, "Ch2OffsetFailed" int4, "Ch2EmptySpot" int4, "Ch2NegativeSpot" int4, CONSTRAINT rawbioassaydata_pkey PRIMARY KEY ("rawBioAssay", "position")) WITH OIDS; ALTER TABLE rawbioassaydata OWNER TO CytoBASE_NUTZER; REVOKE ALL ON TABLE rawbioassaydata FROM public; GRANT ALL ON TABLE rawbioassaydata TO CytoBASE_NUTZER;

7.3.2 Tabelle Reporter CREATE TABLE reporter ( id int4 NOT NULL DEFAULT nextval('Reporter_id_seq'::text), "reporterId" varchar(255) NOT NULL DEFAULT '', species varchar(255) NOT NULL DEFAULT '', "clusterId" int4 NOT NULL DEFAULT '0', "geneName" varchar(255) NOT NULL DEFAULT '', "geneSymbol" varchar(255) NOT NULL DEFAULT '', "lastUpdate" timestamp NOT NULL DEFAULT '0001-01-01 00:00:00', length int4 DEFAULT '0', "sequence" text, vector text, tissue text, library text, accession varchar(255), nid varchar(255), varchar(255), "cytoBand" varchar(255), markers varchar(255), antibiotics varchar(255), "locusLink" int4 DEFAULT '0', omim int4 DEFAULT '0', "startPosition" int4 DEFAULT '0', "endPosition" int4 DEFAULT '0', "functionalGroup" varchar(255), CONSTRAINT reporter_pkey PRIMARY KEY (id)) WITH OIDS; ALTER TABLE reporter OWNER TO CytoBASE_NUTZER; REVOKE ALL ON TABLE reporter FROM public; GRANT ALL ON TABLE reporter TO CytoBASE_NUTZER;

CREATE INDEX reporter_genename_index ON reporter USING btree ("geneName");

CREATE UNIQUE INDEX reporter_reporterid_index ON reporter USING btree ("reporterId"); 7.4 Anhang 160

7.4 Datenbankabfragen zur Übersichtsauswertung Die folgenden Abfragen in der Datenbanksprache SQL für PostgreSQL 7.3 ermöglichen die Übersichtsauswertung in Kapitel 3.5.

Behandlungen der Proben (Treatments) SELECT distinct name, name_short FROM mhh_treatments;

Besondere Zellbehandlungen (Cell system specifics) SELECT DISTINCT ON (sa.annotation) max(s.name) as "Sample name", s.descr as "Sample description", sa.annotation as "Cell system specifics" FROM SampleAnnotation sa, SampleAnnotationType sat, sample s WHERE sa.sample = s.id AND sat.id = sa."annotationType" AND sat.removed = 0 AND sat.name = 'Cell system specifics' AND sa.annotation not like '' GROUP BY sa.annotation, s.id, s.descr;

Anzahlen experimenteller Gruppen SELECT COUNT(distinct substring (rba.descr for 4)) ,t.id FROM rawbioassay rba, Sample s, Extract e, LabeledExtract le, HybridizedLabeled hl, Hybridization h, ImageAcquisition ia, sampletissue t WHERE rba.removed = 0 AND s.tissue = t.id AND rba."imageAcquisition" = ia.id AND ia.hybridization = h.id AND h.id = hl.hybridization AND hl.labeled = le.id AND le.extract = e.id AND e.sample = s.id AND rba."addedDate" < '2006-01-01' GROUP BY t.id

Alle hybridisierten Proben in Mehrfachnennung mit Treatments SELECT max(s.name) as "Sample name", max(s.descr) as "Sample description", s.id as "SampleId", max(sa.annotation) as "Cell system specifics", max(sa2.annotation) as "Cell system type", max(sa3.annotation) as "CellSystemName", max(sa4.annotation) as "CellSystemNameShort", max(st.name) as "Species", max(at.name) as "ArrayType", max(treat.treatnumber) as "TreatmentsCount", max(tr.id) as "TreatID", max(tr.treatment_no) as "TreatNo", max(tr.name) as "TreatName", max(tr.descr) as "TreatDescr", max(tr.name_short) as "TreatName_short", max(tr.concentration) as "TreatConc", max(tr.conc_unit) as "TreatConcUnit", max(tr."type") as "TreatType", max(tr.application_type) as "TreatAppType", max(tr.applic_period) as "TreatAppPeriod"

FROM SampleAnnotationType sat, SampleAnnotation sa2, SampleAnnotationType sat2, SampleAnnotation sa3, SampleAnnotationType sat3, SampleAnnotation sa4, SampleAnnotationType sat4, Extract e, LabeledExtract le, HybridizedLabeled hl, Hybridization h, ImageAcquisition ia CROSS JOIN sample s LEFT OUTER JOIN ( SELECT sa.id as id, max(trr.treatment_no) as treatnumber FROM mhh_treatments trr, sample sa WHERE sa.id = trr.sample GROUP BY sa.id ) as treat ON s.id = treat.id

CROSS JOIN RawBioAssay rba 7.4 Anhang 161

LEFT OUTER JOIN arraytype at ON rba."arrayType" = at.id LEFT OUTER JOIN sampletissue st ON st.id = s.tissue LEFT OUTER JOIN SampleAnnotation sa ON sa.sample = s.id LEFT OUTER JOIN mhh_treatments tr ON s.id = tr.sample

WHERE s.id = e.sample AND sa2.sample = s.id AND sa3.sample = s.id AND sa4.sample = s.id

AND e.id = le.extract AND le.id = hl.labeled AND hl.hybridization = h.id AND h.id = ia.hybridization AND ia.id = rba."imageAcquisition"

AND sat.id = sa."annotationType" AND sat2.id = sa2."annotationType" AND sat.removed = 0 AND sat.name = 'Cell system specifics' AND sat2.name = 'Cell system type' AND s."addedDate" < '2006-01-01' AND rba."addedDate" < '2006-01-01' AND s.removed = 0 AND rba.removed = 0 GROUP BY s.id, tr.id

Rohdatensaetze nur die beiden Kanäle mit kombinierten Behandlungen SELECT rba.id as "RawID", max(rba.name) as "RawName", max(rba.descr) as "RawDesc", hl.channel, max(s.name) as "Sample name", s.descr as "Sample description", s.id as "SampleId", sa.annotation as "Cell system specifics", max(sa2.annotation) as "CellSystemType", max(sa3.annotation) as "CellSystemName", max(sa4.annotation) as "CellSystemNameShort", max(st.name) as "Species", max(at.name) as "ArrayType", max(treated."Treatments") as "Treatments", max(treated."NumberTreats") as "NumberTreats" FROM SampleAnnotationType sat, SampleAnnotation sa2, SampleAnnotationType sat2, SampleAnnotation sa3, SampleAnnotationType sat3, SampleAnnotation sa4, SampleAnnotationType sat4, Extract e, LabeledExtract le, HybridizedLabeled hl, Hybridization h, ImageAcquisition ia CROSS JOIN sample s CROSS JOIN RawBioAssay rba LEFT OUTER JOIN arraytype at ON rba."arrayType" = at.id LEFT OUTER JOIN sampletissue st ON st.id = s.tissue LEFT OUTER JOIN SampleAnnotation sa ON sa.sample = s.id LEFT OUTER JOIN ( SELECT DISTINCT s.id as "SampleId", treat.maxnumber as "NumberTreats", (CASE WHEN tr.treatment_no = 1 AND tr.treatment_no = treat.maxnumber THEN '[1] '||tr.name ELSE (CASE WHEN tr2.treatment_no = 2 AND tr.treatment_no = 1 AND tr2.treatment_no = treat.maxnumber THEN '[1] '||tr.name||' [2] ' || tr2.name ELSE (CASE WHEN tr3.treatment_no = 3 AND tr2.treatment_no = 2 AND tr.treatment_no = 1 AND tr3.treatment_no = treat.maxnumber THEN '[1] '||tr.name||' [2] ' || tr2.name || ' [3] ' || tr3.name ELSE (CASE WHEN tr4.treatment_no = 4 AND tr3.treatment_no = 3 AND tr2.treatment_no = 2 AND tr.treatment_no = 1 AND tr4.treatment_no = treat.maxnumber THEN '[1] '||tr.name||' [2] ' || tr2.name || ' [3] ' || tr3.name ||' [4] ' || tr4.name ELSE '' END)END)END)END) as "Treatments" FROM mhh_treatments tr, mhh_treatments tr2, mhh_treatments tr3, mhh_treatments tr4 CROSS JOIN sample s LEFT OUTER JOIN ( SELECT sa.id as id, max(trr.treatment_no) as maxnumber FROM mhh_treatments trr, sample sa WHERE sa.id = trr.sample GROUP BY sa.id ) AS treat ON s.id = treat.id WHERE tr.sample = s.id 7.4 Anhang 162

AND tr2.sample = tr.sample AND tr3.sample = tr2.sample AND tr4.sample = tr3.sample AND (CASE WHEN tr.treatment_no = 1 AND tr.treatment_no = treat.maxnumber THEN 1 ELSE (CASE WHEN tr2.treatment_no = 2 AND tr.treatment_no = 1 AND tr2.treatment_no = treat.maxnumber THEN 1 ELSE (CASE WHEN tr3.treatment_no = 3 AND tr2.treatment_no = 2 AND tr.treatment_no = 1 AND tr3.treatment_no = treat.maxnumber THEN 1 ELSE (CASE WHEN tr4.treatment_no = 4 AND tr3.treatment_no = 3 AND tr2.treatment_no = 2 AND tr.treatment_no = 1 AND tr4.treatment_no = treat.maxnumber THEN 1 ELSE 0 END)END)END)END) = 1 ) AS treated ON treated."SampleId" = s.id

WHERE s.id = e.sample AND sa2.sample = s.id AND sa3.sample = s.id AND sa4.sample = s.id

AND e.id = le.extract AND le.id = hl.labeled AND hl.hybridization = h.id AND h.id = ia.hybridization AND ia.id = rba."imageAcquisition"

AND sat.id = sa."annotationType" AND sat2.id = sa2."annotationType" AND sat3.id = sa3."annotationType" AND sat4.id = sa4."annotationType" AND sat.removed = 0 AND sat.name = 'Cell system specifics' AND sat2.name = 'Cell system type' AND sat3.name = 'Cell system name' AND sat4.name = 'Cell system name short' AND s."addedDate" < '2006-01-01' AND rba."addedDate" < '2006-01-01' AND s.removed = 0 AND rba.removed = 0 GROUP BY sa.annotation, s.id, s.descr, rba.id, hl.channel