A Dai dati grezzi all’interpretazione biologica:

progettazione e analisi degli esperimenti di espressione genica

realizzati mediante microarray

AA

Dante Alighieri, Divina Commedia, Inferno canto XXVI, 116-120 Indice

Abstract ...... 1 INTRODUZIONE Introduzione ...... 3 METODI Capitolo 1 ...... 9 METODI PER LA PROGETTAZIONE DI ESPERIMENTI DI “CLASS COMPARISON” ...... 9 Capitolo 2 ...... 17 METODI DI ESTRAZIONE DEI DATI GREZZI...... 17 Capitolo 3 ...... 24 METODI DI VISUALIZZAZIONE DEI DATI ...... 24 A AA Capitolo 4 ...... 39 METODI DI SOTTRAZIONE DEL “BACKGROUND” ...... 39 subtract minimum Normexp + offset Capitolo 5 ...... 47 METODI DI NORMALIZZAZIONE DEI DATI ...... 47 LO(W)ESS lin-log scale 5.3.2 quantile Aquantile Capitolo 6 ...... 57 AUTOMATIZZAZIONE DEL PRE-TRATTAMENTO DEI DATI: IL SOFTWARE FEATURE EXTRACTION® ...... 57 AA A A A Capitolo 7 ...... 63 METODI DI ANALISI STATISTICA DEI DATI ...... 63 A a priori a priori AA Capitolo 8 ...... 84 METODI DI ESTRAZIONE DELL’INFORMAZIONE BIOLOGICA ...... 84

A A

RISULTATI E DISCUSSIONE Capitolo 9 ...... 93 APPLICAZIONE DEI METODI IN ESPERIMENTI DI ESPRESSIONE GENICA REALIZZATI MEDIANTE MICROARRAY: RISULTATI E DISCUSSIONE...... 93 A A A A

CONCLUSIONI Capitolo 10 ...... 116 CONCLUSIONI ...... 116 Ringraziamenti ...... 122 Bibliografia...... 122

A Abstract microarray A

Introduzione

A Haemophilus influenzae Saccharomyces cerevisiae A AAA A

A A A A A A

Figura I1: Ibridizzazione degli acidi nucleici

A A A A

Figura I2: Diagramma di flusso operativo di un esperimento di microarray A

Figura I3: SAM A LIMMA A MAANOVA A A A

Capitolo 1 Metodi per la progettazione di esperimenti di “class comparison” • • •

1.1. Necessità di replicare le osservazioni random random A A A A

A

1.2. Fattori di confondimento A A A AA A 1.3. Schemi di confronto dei campioni

1.3.1. “Reference Design” A

Figura 1.1: Schema del ”Reference Design” per quattro campioni appartenenti a due classi

indiretto   2 4 α +   z1− z1−β  n = 2  δ  2   σ  • • • •

• •

1.3.2. “Balanced Block Design”

Figura 1.2: A

  2  α +   z1− z1−β  n = 2  δ  2    τ  • •

1.3.3. Disegno sperimentale a “Loop”

Figura 1.3: Schema del disegno a “loop”.

Capitolo 2 Metodi di estrazione dei dati grezzi quantizzazione

2.1 Il processo di quantizzazione del dato

Figura 2.1: Schema del tubo fotomoltiplicatore di un laser

A A A A AA

Figura 2.2: Catena di generazione del segnale per eccitazione del fluorocromo con scanner laser.

spot spot

Figura 2.3: Immagini acquisite da ciascun canale dello scanner (sinistra e centro) e immagine prodotta dalla sovrapposizione dei due canali (destra)

spot • • •

4.1.1 “Gridding” dell’immagine spot

Figura 2.4: Sovrapposizione della griglia digitale all’immagine

spot spot

Figura 2.5: Parte del file contenente le informazioni relative a ciascun

spot spot spot spot

spot spot

4.1.2 Segmentazione spot spot spot “foreground” “background”

spot segmentazione spaziale

Figura 2.7: Segmentazione spaziale dello spot con griglia di forma prefissata.

spot segmentazione per intensità

Figura 2.8: Segmentazione per intensità con algoritmo SRG.

4.1.3 Estrazione delle intensità di “foreground” e di “background” spot spot spot spot A A AAA

A

Capitolo 3

Metodi di visualizzazione dei dati

3.1 Scatterplot scatterplot

Figura 3.1: Scatterplot di due aliquote dello stesso mRNA ibridizzate sullo stesso vetrino.

scatterplot scatterplot A scatterplot

scatterplot 3.2 MA plot ed RI plot A scatterplot    

Figura 3.2: Intervalli di rappresentatività dei “fold-change” (FC) e dei log-“fold-change”

Figura 3.3: Distribuzione “skewed” dei fold-change (in alto) e distribuzione gaussiana dei log-fold-change (in basso)

A A AA

Figura 3.4: MA plot di un esperimento

AA A

Figura 3.5: RI plot di un esperimento

3.3 M plot “diagnostici”

3.3.1 M-Mb plot

Figura 3.6: Grafici M- M b di due array con alta (sx) e bassa (dx) correlazione fra M e Mb

A A

Figura 3.7: Effetto ventaglio visualizzato su un grafico MA

3.4 Image-plot Image-plot

Figura 3.8: Image-plot del “background” di un array su canali separati

Image-plot

Figura 3.9: Image-plot dei due canali sovrapposti

Image-plot Image-plot Image-plot

Figura 3.10: Image-plot di un set di tre array prima (sopra) e dopo (sotto) l’eliminazione delle distorsioni lineari

3.5 Boxplot boxplot

Figura 3.11: Boxplot di un insieme di dati

Distanza o Range Inter-Quartile

Figura 3.12: Posizione dei quantili nel boxplot e identificazione degli outlier

A

Figura 3.13: Boxplot di quattro array

3.6 Density plot

Figura 3.14: Density plot dei segnali di intensità di 10 array

Figura 3.15: Density plot delle intensità corrette

3.7 Analisi delle Componenti Principali (PCA)

Figura 3.16: Matrice dei dati. Il quadrato rosso individua l’espressione del gene g nel campione s

A

Figura 3.17: Spazio dei geni

Figura 3.18: Spazio degli esperimenti

A A

Figura 3.19: Informazione spiegata dalle prime due componenti principali.

A A

Figura 3.20: Rappresentazione dell’espressione di 21 geni nello spazio degli esperimenti

Figura 3.21: Rappresentazione 3D dei dati standardizzati

A

Figura 3.22: Rappresentazione dell’insieme dei dati sulle prime due PC

A A A

Tabella 3.1: Matrice delle abbondanze

3.8 “Heatmap”: visualizzazione di somiglianze

Figura 3.23: Mappa in falsi colori o “heatmap” dei dati di espressione genica

A A

Capitolo 4

Metodi di sottrazione del “background” A A A LIMMA Bioconductor

4.1 Il “background” “Background” alto

Segnale debole

Figura 4.1: a) Microarray con “background” alto dovuto ad ibridizzazione fuori dallo spot. b) Microarray con “comete” dovute a deposizione non precisa delle sonde. c) Microarray con depositi irregolari della soluzione di buffer tampone per la deposizione. d) Microarray con spot sovrapposti e di diametro irregolare.

4.2 Stima del “background”

4.2.1 “Background” locale

Figura 4.2: Intorno dello spot per il calcolo del “background” in diversi software di analisi.

4.2.2 “Background” da sotto-griglie

Figura 4.3: Sotto-griglia dell’array sulla quale calcolare il “background”.

4.2.3 “Background” da un intorno ampio dello spot

Figura 4.4: Calcolo del “background” su un intorno ampio dello spot.

4.2.4 “Background” da aree dedicate del vetrino

Figura 4.5: Calcolo del “background” su aree vuote del microarray.

4.3 Metodi di sottrazione del “background”

4.3.1 Metodo subtract subtract AA A

Figura 4.6: MA plot di dati grezzi a cui è stato applicato il metodo subtract

4.3.2 Metodo minimum subtract subtract minimum

Figura 4.7: MA plot di dati grezzi a cui è stato applicato il metodo minimum

4.3.3 Metodo Normexp + offset Normexp Normexp Normexp offset offset

Figura 4.8: MA plot di dati a cui è stato applicato il metodo Normexp + offset

4.4 Controllo di qualità dei dati

Capitolo 5 Metodi di normalizzazione dei dati • • A • • • • •

5.1 Normalizzazione dei dati

Figura 5.1: Scatterplot di due aliquote dello stesso mRNA ibridizzate su un vetrino.

A A Figura 5.2: Grafico MA di un array su cui è stato ibridizzato lo stesso RNA marcato con entrambi i fluorocromi

within-array between-arrays. within-array between-array

• tutti i geni sull’array. • geni espressi in maniera costante. • controlli. spiked, (titration) spiked A A titration A A

5.2 Normalizzazione within-array

5.2.1 Normalizzazione globale

Figura 5.3: sx) Istogramma della distribuzione dei dati prima della normalizzazione (in rosso) e

dopo lo spostamento della media (in blu).

dx) Scatterplot dei dati prima della normalizzazione (in rosso) e dopo la

normalizzazione (in blu).

LIMMA median.

5.2.2 Normalizzazione intensità-dipendente: LO(W)ESS e rlowess A LO(W)ESS LOESS over-fitting LO(W)ESS LOESS l, 3  1− | x |3 |, x |<1 w(x) = ( ) 0 |, x |≥1 LIMMA LOESS.

Figura 5.4: Correzione dei dati con l’applicazione di una normalizzazione LO(W)ESS.

LO(W)ESS d q LO(W)ESS rlowess LO(W)ESS

5.2.3 Trasformazione lineare-logaritmica o lin-log di lin-log

i di

5.2.4 Correzione “paired-slide” o “self-normalization” lin-log ≅ 1 1 1 1 []log R/G -c- ()log R' /G'-c' ≅ []log R/G + log G' /R' = log RG' /GR' = ()M − M ' 2 2 2 2 2 2 2 2 2 ≅ ≅ 1 1 ≅ []log R/G + log R' /G' (M + M )' 2 2 2 2 A 1 LO(W)ESS (M + M )' 2 1 (A + A )' 2 LIMMA

5.3 Normalizzazione “multiple-slides” o “between arrays”

5.3.1 Normalizzazione scale between-arrays

Figura 5.5: Box-plot degli array prima (sx) e dopo (dx) la normalizzazione between-arrays

LOESS scale σ σ

MAD i aˆi = I I ∏ MAD i i=1 A A A

5.3.2 Normalizzazione quantile e Aquantile quantile quantile quantile

Figura 5.6: MA-plot di dati: a) non normalizzati,, b) normalizzati within-array

e c) normalizzati between-arrays.

A LOESS

quantile Aquantile A scale LOESS

A

Capitolo 6 Automatizzazione del pre-trattamento dei dati: il software Feature Extraction® A A

A

6.1 Algoritmo “FindSpots and SpotAnalysis”

Figura 6.1: ”Bright Corner” posizionati agli angoli dei microarray prodotti da Agilent

6.1.1 “Cookie Cutter”

Figura 6.2: Metodo “Cookie Cutter” per la definizione delle aree per il calcolo delle intensità (sx) e sovrapposizione di “cookie” adiacenti (dx) A 6.1.2 “Whole Spot”

Figura 6.3: Metodo “Whole Spot” per la definizione delle aree per il calcolo delle intensità

Figura 6.4: Selezione del raggio per il calcolo dell’intensità di “background”: spot-specifica (sx) e area-specifica (dx).

6.2 Algoritmo “PolyOutlierFlagger” A

A

Figura 6.5: Metodo Definizione dei limiti di rigetto per la selezione degli spot “outlier”.

A 6.3 Algoritmo “BGSubtractor”

A A A A A

6.4 Algoritmo “Dye Normalization” A • A • • • • ρ − ρ CS = R G N A

A A LO(W)ESS

Capitolo 7 Metodi di analisi statistica dei dati A A A AAAA A SAM A LIMMA A MAANOVA AA A

7.1 Analisi della significatività sui microarray A SAM SAM • Ipotesi nulla: • Ipotesi alternativa:

SAM Dati di espressione genica

Normalizzazione

Definizione e calcolo Generazione delle del punteggio d(i) permutazioni

Definizione e calcolo del punteg gio d p(i)

Identificazione dei geni potenzialmente significativi

Stima di FDR *

Scelta di ∆

Selezione dei geni differenzialmente espressi

Figura 7.1: Diagramma delle operazioni effettuate nell’analisi della significatività statistica.

*FDR (False Discovery Rate)

SAM SAM d(i) i x i)( − x i)( d i)( = C1 C 2 s i)( + s0 • • fudge factor”

1 1  +  n1 n2  s i)( =  n1 n2  [x i)( − x i)]( 2 + [x i)( − x i)]( 2    ∑ h C1 ∑ k C2  n1 + n2 − 2  h=1 k=1  • • • A d(i) s(i) d(i) so s0 d(i) s(i) s0 d(i) s(i). d(i); g g g d(i) p dp(i) i

xG1 i)( − xG2 i)( d p i)( = s i)( + s0 G

dp )1( ≥dp )2( ≥dp )3( ≥...≥dp(k)

dp(i)

n p d p (k ) d E (k) = ∑ n p p=1

Figura 7.2: Punteggi di permutazione e punteggio atteso su tutte le permutazioni

di(k) d(i) di(k) dE(k) SAM

Figura 7.3: “SAM plot”

di(k) ≅dE(k). ∆ d(i) t1 d(i) t2 i d (k) − d E (k) ≥ ∆ ≥

Figura 7.4: SAM plot con apposizione della soglia superiore t 1 e della soglia inferiore t 2

1 n p ∑ card {i | d p i)( ≥ t1 ∨ d p i)( ≤ t2} FDR ≈ n p p=1 card {i | d i)( ≥ t1 ∨ d i)( ≤ t2}

d p (k) − d E (k) < ∆ ∆ ∆

Tabella 7.1: ∆

7.2 Inferenza statistica classica e approccio bayesiano empirico Passo 1: Passo 2: A Passo 3: θ a priori θ

7.2.1 Scelta della distribuzione a priori e stimatori della media e della varianza a priori

Metodo bayesiano classico: a priori a priori Metodo bayesiano parametrico moderno a priori a priori Metodo bayesiano soggettivo: a priori a priori LIMMA

7.2.2 Metodo bayesiano parametrico moderno per la scelta delle distribuzioni a priori µ σ a priori σ σ a priori a priori a posteriori a priori a posteriori 2 ˆ ˆ µ µ µ µN(µ,σµ)

m y + −1 d 2 σ 2  1 n  ˆ 0 ˆ 2   µ = σ µ =  2 + 2  1 1  d σ 0  2 + 2 d σ 0 a priori a priori a priori Γ µ σ Γµ σ σ µ σ σ a posteriori a priori µσ Γµ σ ν σ

k0 n µi = µ0 + y k0 + kn k0 + ki

ki = k0 + n

vi = v0 + n

2 2 2 k0n 2 viσ i = v0σ 0 + (n − )1 s + (y − µ0 ) k0 + n i

7.2.3 Statistica “B” e modello gerarchico per i dati di espressione genica B

Rij M ij = log 2 Gij i j µ σ µ σ∼ µ σ ∀ g 0 I g =  1 g a posteriori a posteriori g

Pr( I g = |1 M ij ) Bg = log Pr( I g = |0 M ij ) A

p Pr(Mij | I g = 1) Bg = log 1−p Pr( Mij | I g = 0) Pr(M | I = 1) p Pr(Migg= | I = 1) ∏ ig ≠ i g = log 1−pMI Pr( | = 0) Pr( MI | = 0) igg= ∏i≠ g ig p Pr(M | I = 1) = log i= g g 1−p Pr( Mi= g | I g = 0) Mg p p Bg Mg|I g=1 Mg|I g=0 Mg Pr( M | I = )1 ≡ f (M ) i g Ii =1 i

Pr( M | I = )0 ≡ f (M ) i g Ii =0 i µ σ µ σ g   a+ s2 + M 2  p 1 g g .  Bg = log 2 1− p 1+ nc 2 M g.  a+ s g +  1+ nc  B ≥ Mg. a Mg. B A B

7.3 Fonti di variabilità sui dati di espressione genica e modellazione della varianza dei dati random” varietà trattato non-trattato controllo • AA • • • A • • • • A

A

Figura 7.5: Schematizzazione dell’effetto combinato DV

A A • •

Figura 7.6: Schematizzazione dell’effetto combinato AG

Figura 7.7: Schematizzazione dell’effetto combinato DG

Figura 7.8: Schematizzazione dell’effetto combinato VG

A A A A A A

7.3.1 Modelli additivi ANOVA per l’analisi dell’espressione

yijkg i j k g A bilanciato A Modelli additivi misti yijkg µ + A i + D j + V k + G g + (VG) kg + (AG) ig + (DG) jg + εijkg

• µ • ε σ A yijkg µ + A i + D j + AD k + x ijkg xijkg A A µ a posteriori A MAANOVA within-arrays A g xijkg µg+ (VG) kg + (AG) ig + (DG) jg + εijkg µ

A A A misto Modelli additivi fissi AA yijkg µ + A i + D j + V k + G g + (VG) kg + εijkg A yijkg µ + A i + D j + V k + G g + (VG) kg + (AG) ig + εijkg r yijkgr µ + A i + D j + V k + G g + (VG) kg + (AG) ig + (DG) jg + S r(ig) + εijkgr modello fisso 2 [y − µ − A − D − V − G − (VG) − (AG) − (DG) − S ] ∑ijkgr ijkgr i j k g kg ig jg r(ig)

A = D = V = G = (AG ) = (AG ) = (VG ) = (VG ) = (DG ) = (DG ) = S = 0 ∑ i ∑ j ∑ k ∑ g ∑g ig ∑i ig ∑gkg ∑ k kg ∑gjg ∑ jjg ∑ r r(ig )

VG kg = t.. kg . − t.. k.. − t... g. + t.....

7.3.2 “Nested” F-test e determinazione dei geni differenzialmente espressi

• ipotesi nulla o modello nullo: • ipotesi alternativa o modello alternativo: k ≠ K E(y) = β 0 + β1 x1 + β 2 x2 + β g xg E(y) K K E(y) = β 0 + β1 x1 + β 2 x2 + β g x g + β g +1 x g+1 + + β k xk K H 0 : β g+1 = β g+2 = = β k = 0 H a : almeno un parametro β a con a = g +1,... k è diverso da 0 (SSE reduced − SSE full ) (k − g) F = SSE full []n − ()k +1 k − g n − (k +1)

F > Fk−g ,n−()k+1

(rss 0 − rss 1 /() df 0 − df 1 ) F = rss 1 / df 1 rss df 2 σ pool

(rss 0 − rss 1 /() df 0 − df 1 ) F = 2 σ pool

(rss 0 − rss 1 /() df 0 − df 1 ) F = 2 (rss 1 / df 1 +σ pool 2/) scatterplot

Capitolo 8 Metodi di estrazione dell’informazione biologica A

8.1 Banche dati di annotazioni geniche

GenBank A A

UniGene

Entrez Gene (LocusLink)

Ensembl Genome Browser

KEGG Pathway

OMIM

HomoloGene

GeneOntology

8.2 Strumenti per “single-gene analysis”

8.2.1 GeneCards®

Figura 8.1: Interfaccia iniziale di GeneCards

A 8.3 Strumenti per l’analisi “pathway-level” A AA A

8.3.1 Pathway Explorer homo sapiens

Figura 8.2: Interfaccia iniziale di PathwayExplorer

Figura 8.3: Visualizzazione della posizione di sei geni differenzialmente espressi utilizzando PathwayExplorer

8.3.2 PathwayExpress A

Figura 8.4: Schematizzazione della propagazione del segnale genico

Figura 8.5: Risultati di un’analisi realizzata con PathwayExpress

A

8.4 Rendere i dati pubblici: standard MIAME A A A A A A

8.4.1 GEO Omnibus

8.4.2 ArrayExpress A A A A A A A A A

A

Capitolo 9 Applicazione dei metodi in esperimenti di espressione genica realizzati mediante microarray: risultati e discussione LIMMA MAANOVA SAM Genesis Pathway Express Pathway Explorer

A 9.1 Esperimento E1: analisi dell’espressione genica in tessuto cerebrale di ratti trattati con fenitoina [66]. A A A A A AAAAA A AA AA A A A A µ A A A AA

9.1.1 Esperimento E1: disegno sperimentale

A

Figura 9.1: Disegno dell’esperimento E1. Le frecce servono ad evidenziare il “loop”.

9.1.2 Esperimento E1: sottrazione del “background” subtract minimum normexp+offset scatterplot scatterplot

Figura 9.2: Scatterplot delle intensità del “foreground” dei due canali nell’array 1(sx) e ingrandimento alle basse intensità di segnale (dx) scatterplot A

Figura 9.3: Scatterplot del logaritmo delle intensità MA plot

Figura 9.4: MA plot dei dati grezzi (sx), dei dati ripuliti col metodo subtract (centro) e dei dati ripuliti col metodo minimum (dx) A

A

Figura 9.5: Scatterplot dei dati logaritmici di intensità del “background” dell’array 1 subtract minimum

9.1.3 Esperimento E1: normalizzazione MA plot LIMMA SAM within-array LOESS A

Figura 9.6: MA plot dell’array 1 normalizzato utilizzando il metodo LOESS

Figura 9.7: Boxplot dei docici array normalizzati con il metodo LOESS. A sinistra i sei array sui quali sono stati ibridizzati i campioni di ippocampo. A destra i sei array sui quali sono stati ibridizzati i campioni di corteccia frontale. between-array MAANOVA linlog rlowess

Figura 9.8: Applicazione della trasformazione lin-log (sx) e del metodo rlowess (dx) all’array 1 A rlowess

9.1.4 Esperimento E1: analisi statistica e risultati LIMMA SAM MAANOVA LIMMA SAM

Figura 9.9: Diagrammi di Venn della liste di geni differenzialmente espressi ricavate utilizzando i tre metodi statistici A

A A A

Figura 9.10: Prime due componenti principali dei profili di espressione di ippocampo e corteccia frontale A

9.1.5 Esperimento E1: Validazione in real time RT- PCR Akt1 Impa1 Mapk10 Fyn Rapgef4 Prkce Frap1 Cap1 Gad1 Grina Gclc, Rapgef4.

9.1.6 Esperimento E1: Analisi di “pathway” e interpretazione dei dati Pathway Express Pathway Explorer A AA Pathway Express) Pathway Express Pathway Explorer GeneCards® PubMed Gabra5

NEURONAL Gad1 EXCITABILITY Glud1 Glutamatergic Glutamatergic Modulation of of Modulation

GABAergic and and GABAergic Grina neurotransmission neurotransmission Akt1 Frap1 Prkce survival survival NEUROPROTECTIVE Junb proliferation and proliferation and

EFFECT Regulation cell of Mapk10

Gsr

action Gclc Antioxidant Rab5a Rab11b MEMBRANE TRAFFICKING Rasa2 Ap1s1

UNDEREXPRESSED IN Gfap MOOD DISORDERS Cap1

A Pdyn

Ube2g1

Uba5

Ubac1 MYO-INOSITOL REGULATION Impa1

Tabella 9.1: Riassunto dei geni interpretati e regolati dalla fenitoina nell’ippocampo AA A Frap1 Gsr Gfap Pdyn Cap1

9.2 Esperimento E2: Caratterizzazione dei profili di espressione di cellule di lievito trasfettate con cinque varianti missenso del gene BRCA1 [71]. A A S. cerevisiae A A A

A in silico A A A A AAA A A A A S. cerevisiae µ A A A AA

9.2.1 Esperimento E2: disegno sperimentale A A A

Figura 9.11: Disegno dell’esperimento E2

9.2.2 Esperimento E2: sottrazione del “background” subtract minimum scatterplot A density plot

Figura 9.12: Scatterplot delle intensità del “foreground” dei due canali nell’array 1(sx) e ingrandimento alle basse intensità di segnale (dx)

Figura 9.13: Scatterplot del logaritmo delle intensità (sx) e Density plot dei dati grezzi (dx) MA plot minimum subtract

A Figura 9.14: MA plot dei dati grezzi (sx), dei dati ripuliti col metodo subtract (centro) e dei dati ripuliti col metodo minimum (dx)

9.2.3 Esperimento E2: Normalizzazione LIMMA SAM LOESS

Figura 9.15: MA plot dei dati non normalizzati (sx), normalizzati con il metodo LOESS (centro) e con il metodo Aquantile (dx) per tre array utilizzati nell’esperimento E2 Aquantile MAANOVA linlog rlowess. MAANOVA between array

A 9.2.4 Esperimento E2: analisi statistica e risultati SAM LIMMA “wild-type” MAANOVA

Figura 9.16: Sovrapposizione fra le liste di geni differenzialmente espressi ricavate utilizzando SAM, LIMMA e MAANOVA per i gruppi fenotipici R (sx) e RP (dx) LIMMA SAM LIMMA LIMMA

A

Figura 9.17: Intersezione delle tre liste di geni differenzialmente espressi ricavate nell’esperimento E2 utilizzando LIMMA A heatmap

9.2.5 Esperimento E2: Validazione in real time RT- PCR RNR1, POL30, SKM1, HHF2 ADE1

9.2.6 Esperimento E2: analisi di “pathway” e interpretazione Pathway Explorer Pathway Express S.cerevisiae Pathway Explorer A A

A Induzione della ricombinazione omologa Recupero della proliferazione R P RP R P RP Up Down Up Down Up Down Up Down Up Down Up Down HHF2 HHF2 HTA2 HTA2 HTB2 Assemblaggio HTB2 HTB2 HAT1 della cromatina HIF1 HAT1 HAT1 ADE1 ADE13 ADE17 ADE1 ADE6 ADE13 ADE4 ADE4 RNR2 Metabolismo dei ADE17 URA3 RNR1 RNR1 RNR1 URA2 RNR4 nucleotidi ADE4 DUT1 URA3 DUT1 DCD1 PRS4 DUT1 CDC6 CLN1 CLB6 Ciclo cellulare CLNG1 RFC5 DRC1 DDC1 IPL1 FLO11 MEP2 Crescita invasiva GPA2 SKM1 DIG2 SKM1 e pseudo-ifale HMS1 ASH1 SKM1 ARP7 ARP7 Rimodellazione ARP9 ARP9 della cromatina SFH1 SFH1 Controllo del TOP2 TOP2 MSH2 MSH2 MSH2 MSH2 ciclo cellulare MSH2 MSH2 Tabella 9.2: Tabella riassuntiva dei geni coinvolti nei fenotipi analizzati nell’esperimento E2

9.3 Esperimento E3: Caratterizzazione dei profili di espressione di due varianti missenso di BRCA1 trasfettate in cellule HeLa A A

A A A A A A A A AAAAA A A AAA µ AAAA AA AAAA

9.3.1 Esperimento E3: disegno sperimentale A A A

Figura 9.17: Disegno dell’esperimento E3

9.3.2 Esperimento E3: sottrazione del “background” scatterplot

Figura 9.19: : Scatterplot delle intensità del “foreground” dei sue canali nell’array 1(sx) e ingrandimento alle basse intensità di segnale (dx)

A

Figura 9.20: Scatterplot dei dati logaritmici di intensità del “background” dell’array 1 A subtract

Figura 9.21: MA plot dei dati d’intensità dell’array 1 senza sottrazione del “background” (sx) e utilizzando per la sottrazione il metodo subtract (dx) minimum Normexp+offset

A Figura 9.22: MA plot dei dati d’intensità dell’array utilizzando il metodo minimum (sx) e il metodo Normexp+offset (dx)

9.3.3 Esperimento E3: normalizzazione Image-plot A

Figura 9.23: Image-plot prima(sx) e dopo (centro) dell’applicazione del metodo LOESS e MA plot (dx) dell’array 1 boxplot

Figura 9.24: Logaritmo dei dati di intensità relativi al canale rosso prima (sx) e dopo (dx) la normalizzazione su singolo canale. quantile A

Figura 9.25: Boxplot dei dati relativi alla classe di campioni di HeLa trasfettate con la mutazione M1775R prima (sx) e dopo (dx) la normalizzazione con il metodo quantile

9.4 Esperimento E4: analisi dell'espressione genica in tessuti di ratti trattati con T 1AM. A A AA A A A A A A A AAAAA A A AAA µ A A A AAA A AAA A

9.4.1 Esperimento E4: disegno sperimentale

A

Figura 9.19: Disegno sperimentale dell’esperimento E4

Capitolo 10 Conclusioni ad hoc a priori • • • •

a priori A M- A A

Normexp + offset A A LOESS between array MAANOVA between array LIMMA within between array LIMMA

SAM SAM SAM plot SAM SAM A LIMMA

SAM LIMMA

MAANOVA between array MAANOVA MAANOVA Pathway Express Pathway Explorer

Ringraziamenti

A A AA

Bibliografia A The Project: lessons from large-scale biology. 300 Importance of replication in microarray gene expression studies: statistical methods and evidence from repetitive cDNA hybridizations. AA 97 A Fundamentals of experimental design for cDNA microarrays. 32 Suppl Comparison of microarray designs for class comparison and class discovery. 18 Design of studies using DNA microarrays. 23 Design issues for cDNA microarray experiments. 3 Questions and answers on design of dual-label microarrays for identifying differentially expressed genes. 95 AStatistical issues in the design and analysis of gene expression microarray studies of animal models. 8 Statistical issues in cDNA microarray data analysis. 224 Microarray experimental design: power and sample size considerations. 16 Sample size determination in microarray experiments for class comparison and prognostic classification. 6 Design of microarray experiments for genetical genomics studies. 174 A Statistical design and the analysis of gene expression microarray data. 89 Optimal designs for 2-color microarray experiments. 10 AA Microarray data analysis: from hypotheses to conclusions using gene expression data. 26 A An assessment of recently published gene expression data analyses: reporting experimental design and statistical factors. 6 The microarray data analysis process: from raw data to biological significance. 3 Analysis and management of microarray gene expression data. Chapter 19 An evaluation framework for statistical tests on microarray data. 140 Significance analysis of microarrays applied to the ionizing radiation response. A A 98 Limma: linear models for microarray data. . Bioinformatics and Computational Biology Solutions using R and Bioconductor. MAANOVA: a software package for the analysis of spotted cDNA microarray experiments. The Analysis of Gene Expression Data: An Overview of Methods and Software. The efficiency of pooling mRNA in microarray experiments. 4 A Experimental design for gene expression microarrays. 2 Statistical design of reverse dye microarrays. 19 A Statistical tests for differential expression in cDNA microarray experiments. 4 When should one subtract background fluorescence in 2-color microarrays? 8 DNA microarrays. History and overview. 170 Microarray Biochip Technology A Microarray technologies -- an overview. The University of California San Diego Extension, Bioscience, Microarray Technologies -- an overview, March 13-15, 2002. 3 Image metrics in the statistical analysis of DNA microarray data. AA 98 Identification and removal of contaminating fluorescence from commercial and in-house printed DNA microarrays. A 31 Improved background correction for spotted DNA microarrays. 9 A comparison of background correction methods for two-colour microarrays. 23 Microarray background correction: maximum likelihood estimation for the normal-exponential convolution. 10 Limma: linear models for microarray data Bioinformatics and Computational Biology Solutions using R and Bioconductor Bioconductor: open software development for computational biology and bioinformatics. 5 Normalization strategies for cDNA microarrays. A 28 A Exploration, normalization, and summaries of high density oligonucleotide array probe level data. 4 Parameter estimation for the exponential-normal convolution model for background correction of affymetrix GeneChip data. A 5A Normalization for cDNA microarray data: a robust composite method addressing single and multiple slide systematic variation. A 30 Normalization for Two-color cDNA Microarray Data IMS Lecture Notes, Monograph Series A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. 19 A Analysis of variance for gene expression microarray data. 7 Sources of Variation in Microarray Experiments Computational and Statistical Approaches to Genomics A An Essay towards solving a Problem in the Doctrine of Chance. By the late Rev. Mr. Bayes, communicated by Mr. Price, in a letter to John Canton, M. A. and F. R. S. 53 Assessing gene significance from cDNA microarray expression data via mixed models. 8 The GenBank genetic sequence databank. A 14 IMAGE cDNA clones, UniGene clustering, and ACeDB: an integrated resource for expressed sequence information. 7 A MMDB: 's 3D structure database. A 27 The Ensembl genome database project. A 30 KEGG: Kyoto Encyclopedia of Genes and Genomes. A 27 A The GDB Human Genome Data Base: a source of integrated genetic mapping and disease data. A 81 Database resources of the National Center for Biotechnology Information. A 29 Creating the resource: design and implementation. 11 GeneCards: a novel functional genomics compendium with automated data mining and query reformulation support. 14 A The HUGO Database, 2006 updates. A 34 UniProtKB/Swiss-Prot. 406 PharmGKB: the Pharmacogenetics Knowledge Base. A 30 PathwayExplorer: web service for visualizing high- throughput expression data on biological pathways. A 33 A systems biology approach for pathway level analysis. 17 A Minimum information about a microarray experiment (MIAME)-toward standards for microarray data. 29 A Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. A 30 AArrayExpress--a public repository for microarray gene expression data at the EBI. A 31 A Genesis: cluster analysis of microarray data. 18 Effect of prolonged phenytoin administration on rat brain gene expression assessed by DNA microarrays. A Phenytoin as an antimanic anticonvulsant: a controlled study. A 157 A Prophylactic effect of phenytoin in bipolar disorder: a controlled study. 5 Controlled double-blind trial of phenytoin vs. fluoxetine in major depressive disorder. 66 Phenytoin: an anti-bipolar anticonvulsant? 9 Characterisation of gene expression profiles of yeast cells expressing BRCA1 missense variants. 45 AAA Evidence for a transcriptional activation function of BRCA1 C-terminal region. AA 93 A Determination of cancer risk associated with germ line BRCA1 missense variants by functional analysis. 67 A A yeast recombination assay to characterize human BRCA1 missense variants of unknown pathological significance. 30 Trace amine-associated receptors and their ligands. 149 Minireview: 3-Iodothyronamine (T1AM): a new player on the thyroid endocrine team? 150 3-Iodothyronamine is an endogenous and rapid- acting derivative of thyroid hormone. 10 Trace amine-associated receptor agonists: synthesis and evaluation of thyronamines and related analogues. 49 Modulation of Cardiac Ionic Homeostasis by 3- Iodothyronamine. Cardiac effects of thyronamines. Cardiac effects of 3-iodothyronamine: a new aminergic system modulating cardiac function. 21 3-Iodothyronamine: a novel hormone controlling the balance between glucose and lipid utilisation. 178 Pre-processing Agilent microarray data. 8 AComparison and evaluation of methods for generating differentially expressed gene lists from microarray data. 7