PART I Introducció

19 20 La primera part d’aquest treball fa referència al context històric en el qual es va situar l’inici d’aquesta tesi doctoral. Es pot considerar un exemple de l’importància i dels esforços invertits per la comunitat científica per a desxifrar el contingut gènic humà. A continuació es recullen els resultats obtinguts pel nostre laboratori com a membres del Consorci EuroImage. L’estratègia utilitzada i els resultats obtinguts han contribuït a avançar en el coneixement dels gens continguts en els genomes seqüenciats durant les últimes dècades.

I. Heretabilitat, trets genètics i genoma humà

La consciència de l’existència d’heretabilitat de trets físics i del comportament va sorgir en l’antiguitat. Aquest fet queda reflectit en l’àmbit de la ramaderia (cria i millora genètica dels animals domèstics) o en l’àmbit agrícola (obtenció de cultius més productius, més resistents…). L’herència de certes característiques fenotípiques era reconeguda com a familiar. Principalment l’estudi de l’herència d’anomalies fenotípiques i malalties va establir els fonaments per a una nova visió de la biologia i la medicina on s’incorporava un nou factor: l’herència i els antecedents familiars. En un primer moment, el coneixement i la definició de diferents modes d’herència es va descriure sense conèixer la base física d’aquesta herència. El coneixement de l’existència dels gens o del material genètic va esclatar quan es van recuperar els estudis de Mendel amb les plantes del pèsol. Aquests estudis i el descobriment de la naturalesa física i molecular de l’agent responsable d’aquesta heretabilitat, l’àcid desoxiribonucleic, DNA, va suposar l’inici d’una revolució en els camps de la medicina i la biologia. Va sorgir un especial interès pel coneixement de les bases moleculars de malalties d’herència mendeliana com per exemple la malaltia de Huntington o l’anèmia de Fanconi. És per això que actualment la majoria de les malalties o alteracions hereditàries estudiades i més conegudes són aquelles causades per un sol gen. En aquest cas un sol gen quan és anòmal és responsable de donar lloc a la malaltia (mutacions puntuals, repeticions…). Aquest tipus de trets són els anomenats monogènics. Actualment, un dels objectius principals de la biomedicina és aconseguir determinar el paper dels gens en caràcters amb patrons d’herència complexos o no mendelians. És el cas d’alteracions com la diabetis, els càncers o moltes malalties mentals. S’hi inclouen també trets fenotípics complexos com l’alçada,

21 el comportament, l’inteligència o la pigmentació de la pell. En aquests casos és probable que més d’un gen i més d’una mutació siguin presents per a que la malaltia o tret fenotípic es manifesti. És evident a més a més, que moltes d’aquestes variacions genètiques actuen com a factors de susceptibilitat no determinants i que l’influència de l’entorn és també un factor a tenir en consideració. Aconseguir discernir entre tots aquests agents i el seu paper en diferents alteracions fenotípiques ha esdevingut essencial per a la biologia i medicina actuals. Una de les eines principals per tal d’aconseguir identificar aquests factors i determinar la seva funció és l’obtenció de la seqüència genòmica humana i d’organismes model completa, acurada i disponible sense restriccions per a la comunitat científica. Amb aquest objectiu es va engegar el Projecte Genoma Humà, objecte de la següent secció, i en el context del qual es desenvolupa la recerca duta a terme en aquesta tesi.

II. Context històric: Projecte Genoma Humà

La primavera de l’any 2003 és considerada la data oficial de l’obtenció de la seqüència completa del genoma humà. Des del seu inici va ser evident que es tractava d’un esdeveniment que revolucionaria la biologia i obriria nous camps d’aplicació a nivell de la medicina molecular, la biotecnologia, el control ambiental, els recursos energètics o l’avaluació de riscs.

La primera publicació que menciona la possibilitat i importància d’obtenir la seqüència completa del genoma humà data de mitjans dels anys 80 (Dulbecco, 1986). La creixent innovació i l’optimització experimental (el clonatge amb cromosomes artificials de llevat (YAC), els mapes genètics d’alta resolució, la seqüenciació automàtica fluorescent, l’algoritme de BLAST per alinear seqüències) va permetre que l’any 1990 el Departament d’Energia (DOE) i els National Institutes of Health (NIH) dels Estats Units iniciessin oficialment el Projecte Genoma Humà (HGP, Human Genome Project) amb l’objectiu final d’obtenir la seqüència nucleotídica completa del genoma humà. La posterior incorporació del Wellcome Trust britànic optimitzant l’ús de cromosomes artificials de bacteris (BAC) per a mapatge i seqüenciació va permetre a finals de l’any 1992 l’obtenció dels mapes físics complets del cromosoma Y (Foote et al., 1992; Vollrath et al., 1992) i del cromosoma 21 (Chumakov et al., 1992). A partir d’aquest moment i durant els anys següents es van aconseguir generar

22 mapes genètics de baixa resolució humans i murins i es va obtenir la primera seqüència completa d’un organisme viu de vida lliure, el genoma del bacteri Haemophilus influenzae (Fleischmann et al., 1995). Al mateix temps es produia un augment significatiu en l’obtenció de dades de seqüència i expressió gràcies a projectes com l’iniciat per l’IMAGE Consortium (Lennon et al., 1996), el RIKEN (Wada, 1994) o el projecte genoma del llevat Saccharomyces cerevisiae (Dujon, 1996).

La competència declarada per part del sector privat (Celera Genomics) per a obtenir la seqüència completa del genoma humà va accelerar dràsticament la producció i alliberació de dades de seqüència i mapatge a la comunitat científica. El cromosoma 22 es considera el primer cromosoma humà en ser totalment seqüenciat (Dunham et al., 1999). A mesura que s’anaven obtenint, les seqüències genòmiques provisionals parcials (draft) es posaven a l’abast de la comunitat científica a les bases de dades públiques. Aquesta informació va resultar, i encara ho és avui dia, molt útil per a nombrosos projectes, entre els quals s’inclou aquesta tesi. És important tenir en compte la naturalesa provisional i canviant d’aquesta informació, especialment durant la fase més productiva i competitiva del projecte. En aquest context es situen la major part dels resultats obtinguts en les dues primeres parts d’aquest treball.

L’any 2001 es va publicar la seqüència provisional completa del genoma humà representant aproximadament el 90% de la seqüència eucromàtica, és a dir, la corresponent a DNA no repetitiu i, en principi, amb capacitat de transcriure’s (Lander et al., 2001; Venter et al., 2001). Es tractava de seqüència que no arribava a complir els criteris de qualitat establerts per a la seqüència final acabada i per tant, va ser necessari utilitzar les dades amb precaució. Tot i el seu grau de provisionalitat, aquestes dades han resultat molt útils tant a nivell d’estudis genòmics globals com a nivell d’anàlisi de gens particulars.

Des d’aquest moment i fins l’any 2003 es va anar obtenint el que s’ha considerat seqüència definitiva acabada. Aquestes dades cobreixen el 99% del DNA eucromàtic i es considera que actualment existeixen menys de 400 discontinuïtats o gaps. L’1% restant no seqüenciat correspón a DNA centromèric i repetitiu, la seqüenciació del qual no és tecnològicament factible actualment.

23 De forma paral.lela i complementària a l’obtenció de la seqüència crua del DNA humà, nombrosos avenços tecnològics s’han produït pel que fa a les eines per a la seqüenciació, aconseguint reduïr-ne el cost econòmic i augmentar el volum i la velocitat de producció de dades.

La disponibilitat de la seqüència genòmica humana ha permès començar a avançar en el coneixement de la variabilitat nucleotídica entre individus i en l’aplicació d’eines de genètica comparativa usant els genomes d’altres organismes model seqüenciats (ratolí, rata, Drosophila melanogaster o Caenorhabditis elegans). Paral.lelament, avenços significatius s’han produït en el camp de la bioinformàtica i biologia computacional, com és el desenvolupament d’eines per a la generació, captura i anotació de dades, el desenvolupament de programes per a la representació i anàlisi de similaritat i variació de seqüència, i les millores en el contingut i usabilitat de les bases de dades.

Algunes dades concretes obtingudes a partir de la seqüència publicada del genoma humà i algunes incògnites que encara queden per esbrinar es recopilen a les Taules 1 i 2.

Taula 1. Algunes dades obtingudes a partir de la seqüència completa del genoma humà. Conté 3 mil milions de parells de bases nucleotídiques. La mida mitjana d’un gen és de 3000 bases. La distrofina és dels gens coneguts el més gran, 2’4 megabases. Més del 50% dels gens identificats tenen funció desconeguda. El 99’9% de la seqüència genòmica és idèntica entre individus. Aproximadament el 2% del genoma conté informació per a codificar proteïna. Com a mínim el 50% del genoma és seqüència repetitiva no codificant. La seqüència repetitiva té un paper en l’estructura i dinàmica dels cromosomes. Són responsables de generar reorganitzacions genòmiques donant lloc a gens completament nous o a noves seqüències gèniques. El genoma humà conté una proporció de seqüència repetitiva major que altres organismes seqüenciats (Caenorhabditis elegans, Drosophila melanogaster o Mus musculus). Més del 40% de proteïnes predites comparteixen similaritat de seqüència amb proteïnes de Caenorhabditis elegans o Drosophila melanogaster. Es considera que l’elevat nombre de tipus de proteïnes humanes en comparació amb altres espècies es deu principalment a mecanismes de splicing alternatiu i de modificació post- traduccional.

24 La majoria de famílies de proteïnes són comuns entre humans, Caenorhabditis elegans o Drosophila melanogaster. La principal diferència recau en el número de membres, molt més elevat en humans. Els gens es troben concentrats en regions genòmiques a l’atzar separades per grans extensions de DNA no codificant. A les regions riques en gens predominen les bases G-C. Les regions pobres en gens presenten un percentatge més elevat de bases A-T. El cromosoma 1 és el més gran i conté el major nombre de gens. El cromosoma Y és el de tamany i contigut gènic menor. S’han identificat més de 3 milions de posicions nucleotídiques amb variabilitat entre humans.

Taula 2. Algunes incògnites i dades encara desconegudes sobre el genoma humà. El número exacte de gens, la seva posició i la seva funció. Els mecanismes de regulació gènica. L’organització i estructura dels cromosomes. Els tipus de DNA no codificant, la seva distribució i funció. La coordinació de l’expressió gènica, síntesi proteica i mecanismes post-traduccionals. El proteoma dels organismes: el conjunt de proteïnes i les seves funcions respectives. La conservació proteica entre organismes. Les correlacions entre les variacions nucleotídiques dels individus i trets fenotípics/malalties. Les variacions en la seqüència dels gens com a factor de susceptibilitat. Els gens implicats en l’herència de caràcters complexos i multigènics.

Els beneficis i les aplicacions de les dades de seqüència generades a partir del projecte Genoma Humà afecten àrees tan àmplies i diverses com la medicina molecular, la microbiologia, els estudis evolutius i antropològics, la medicina forènsica o l’agricultura. Algunes de les possibles aplicacions en cadascún d’aquests camps s’enumeren a la Taula 3.

25 Taula 3. Aplicacions futures de les dades fruit del Projecte Genoma Humà. Aplicacions futures inclouen millores en el diagnòstic de malalties, en la detecció precoç de possibles predisposicions Medicina molecular genètiques, en el disseny de fàrmacs, en la teràpia gènica i sistemes de control de l’acció de fàrmacs o en la síntesi de fàrmacs individuals (farmacogenòmica). S’usen els recursos i eines del projecte genoma humà per a iniciar la seqüenciació massiva de genomes de Microbiologia genòmica microorganismes. S’espera obtenir informació referent a noves fonts d’energia, eliminació segura de residus tòxics, detecció de productes contaminants ambientals i comprensió de les vulnerabilitats enfront malalties infeccioses. El coneixement de la variabilitat genètica i el seu paper en referència a la susceptibilitat està permetent avaluar el risc Avaluació de risc individual enfront agents tòxics com radiacions i substàncies mutagèniques o cancerígenes. De la mateixa manera permetrà reduïr la transmissió vertical de mutacions. La comparació de genomes ha de permetre l’estudi de Evolució i antropologia l’evolució dels organismes vius, establir els corrents migratoris al llarg de la història i determinar edats i dates concretes d’esdeveniments històrics. Conèixer la seqüència genòmica permetrà l’identificació d’individus concrets en un context criminal, en esdeveniments catastròfics o en l’establiment de relacions familiars. A nivell Genòmica forènsica ambiental permetrà l’identificació d’espècies protegides i la detecció d’agents contaminants. A nivell mèdic permetrà l’identificació de compatibilitats tissulars per a transplantaments d’òrgans. La genòmica de plantes i animals impulsarà la creació de Agricultura varietats resistents, més productives, més nutritives o amb incorporació de vacunes.

III. Anàlisi transcripcional del genoma humà

Un cop obtinguda la seqüència completa d’un determinat genoma el repte principal resideix en l’identificació de tots els gens presents. Especialment en el cas del genoma humà la dificultat principal per a assolir aquest objectiu es troba en l’extrema complexitat del nostre genoma. La major part dels gens humans acostumen a consistir de diversos exons petits separats per seqüències no codificants de longitud variable (introns) i que fins i tot poden arribar a contenir altres gens. És aquesta una característica que compromet greument la precisió amb la que les eines informàtiques de predicció de gens són capaces d’identificar seqüències gèniques (predicció de novo). L’ús d’eines informàtiques per a l’anàlisi de similaritat de seqüència i per a l’identificació de

26 seqüències específiques de gens (transicions exó-intró, seqüències promotores, dianes de poliadenilació o pautes de lectura oberta) es coneix amb el terme de clonatge in silico. El creixement exponencial de les bases de dades públiques de seqüència evidencia els nombrosos avantatges d’aquesta estratègia però cal tenir en ment que un dels desavantatges principals d’aquestes eines de predicció es troba en l’imprecisió i probabilitat d’error si se’n fa un ús exclusiu o independent. Indicacions i evidències sobre potencials seqüències gèniques poden també obtenir-se mitjançant genòmica comparativa. En aquest cas s’utilitza la comparació d’una seqüència genòmica, l’humana per exemple, amb altres genomes més petits, de menor complexitat i amb menys seqüència no codificant (fugu, llevat, ratolí) amb la finalitat d’identificar regions de conservació i els gens que hi estàn continguts.

Taula 4. Comparació i aplicacions de l’mRNA i del cDNA. mRNA cDNA

Cadena senzilla Doble cadena

Poca estabilitat Estable

Manipulació complexa Fàcil manipulació

Traducció a proteïna Transcripció a RNA i traducció a proteïna

Tot i els avantatges de les eines informàtiques per a l’anàlisi de la seqüència genòmica, és imprescindible obtenir evidència experimental directa sobre la naturalesa gènica d’una determinada seqüència. L’estratègia transcripcional per a l’identificació de seqüències gèniques utilitza com a punt de partida el producte en forma d’RNA missatger (mRNA) o de proteïna, dels gens expressats en una determinada cèl.lula, teixit, organisme o estadi de desenvolupament i permet demostrar empíricament que una determinada seqüència nucleotídica correspón a un gen (Figura 1). Es parteix de la producció de còpies en DNA de l’RNA missatger (cDNA) d’una cèl.lula, teixit o organisme (Taula 4). Els clons de cDNA poden ser aleshores amplificats i seqüenciats (Figura 2). Els avantatges principals de l’identificació de gens seguint aquesta estratègia resideixen en la seva rapidesa relativa per a identificar seqüències transcrites. A més a més, cada clon de cDNA aporta

27 DNA Doble cadena

exó

RNA precursor AAAAAAAAAAn Cadena senzilla intró

mRNA AAAAAAAAAAn Cadena senzilla Transcripció reversa

AAAAAAAAAAn

cDNA Doble cadena

Proteïna

Figura 1. Generació de còpies de DNA (cDNA) a partir del RNA missatger (mRNA) generat per la transcripció de gens en organismes eucariotes. informació adicional sobre aquell gen, com l’identificació de seqüència codificadora de proteïna (ja que no contenen introns), informació sobre el patró d’expressió (el teixit o cèl.lules o estat de desenvolupament d’on prové el cDNA analitzat dóna informació valuosa d’on s’expressa el gen corresponent), l’identificació de fenòmens de transcripció alternativa (clons de cDNA

Síntesi de la primera cadena de DNA

mRNA AAAAAAAAAAn TTTTTTTT Clon de cDNA

Tractament amb RNAsa H i síntesi de la segona cadena de DNA (DNA polimerasa I)

TTTTTTTT Lligació en vector adient (amb extrems roms o adaptadors)

Figura 2. Procediment de transcripció reversa i producció de clons de cDNA.

28 procedents d’un mateix gen que difereixen parcialment en la seva seqüència), i l’identificació de gens homòlegs en altres espècies (ja que només contenen la part del gen més conservada –codificadora- no tenen introns).

IV. Consorci IMAGE. Projecte EUROIMAGE

L’importància d’aconseguir identificar empíricament seqüències gèniques ha esdevingut cada vegada més evident a mesura que s’han anat obtenint dades de seqüència genòmica crua. El Consorci IMAGE (Integrated Molecular Analysis of Genomes and their Expression) es va iniciar l’any 1993 amb l’intenció de compartir recursos amb l’objectiu d’optimitzar la comprensió del genoma humà partint d’una estratègia d’anàlisi transcripcional (Lennon et al., 1996). Per assolir tal objectiu es va generar una col.lecció de clons de cDNA a partir de llibreries normalitzades pre-existents. Es van establir conjunts o arrays de clons representatius i es van caracteritzar parcialment a nivell de seqüència (ESTs, expressed sequence tags, seqüències de 500 nucleòtids aproximadament, corresponents als extrems dels clons) i mapatge de baixa resolució. L’anàlisi d’aquestes dades de seqüència va permetre agrupar els clons en funció del transcrit del qual provenien. Aquesta informació, els clons i les llibreries usades han estat a l’abast de tota la comunitat científica a través de les bases de dades públiques i dels centres distribuidors de clons. El consorci IMAGE ha contribuït molt notablement a l’identificació de nombrosos gens humans, així com a l’ensamblatge i l’anotació final de la seqüència del genoma humà.

Amb l’objectiu de consolidar el treball portat a terme i els recursos generats pel consorci IMAGE, l’any 1997 es va impulsar un nou subprojecte, l’EuroImage (European Integrated Analysis of and their Expression), finançat pel programa BIOMED2 de la Comunitat Europea (Biomed BMH4-CT97-2284). Entre els objectius proposats en el projecte destacaven els següents: • Generació d’una col.lecció mínima no redundant de clons de cDNA corresponents a la majoria dels transcrits humans. • Creació d’una col.lecció ‘master’ de clons de cDNA complets utilitzant els recursos establerts pel consorci IMAGE (llibreries i clons).

29 • Caracterització de la col.lecció ‘master’ de clons de cDNA mitjançant seqüenciació de qualitat, una fiabilitat mínima del 99.99% per a cada cadena i un mínim de tres lectures per cada base nucleotídica. • Mapatge d’alta resolució dels gens identificats en humans i organismes model. • Obtenció dels perfils d’expressió en humans i organismes model per tal d’aprofundir en el coneixement de transcrits específics d’especial interès pel grup de recerca responsable. • Integració de l’informació generada pel projecte en bases de dades públiques disponibles a tota la comunitat científica.

Per tal d’assolir els objectius proposats pel Consorci EuroImage es va establir una col.laboració entre vuit grups de recerca europeus complementant recursos, eines i resultats. Els laboratoris participants en el projecte són els llistats a continuació: • Centre National de la Recherche Scientifique, CNRS (Dr Auffray, França) • Max-Planck Institut fur Molekulare Genetik, MPI (Dr Lehrach, Alemanya) • Deutsches Krebsforschungszentrum Stiftung des offentlichen Rechts, DKFZ (Dr Poutska, Alemanya) • Kungl Tekniska Hogskolan, KTH (Dr Uhlen, Suècia) • European Molecular Biology Laboratory, EMBL (Dr Ansorge, Alemanya) • Human Genome Mapping Project Resource Centre, HGMP (Dr Gibson, Gran Bretanya) • Telethon Institute of Genetics and Medicine, TIGEM (Dr Ballabio, Itàlia) • Medical and Molecular Genetics Department, Institut de Recerca Oncològica, IRO (Dr Estivill, Espanya)

Enmarcats en el context del projecte EuroImage i com a membres del consorci, el nostre laboratori al Departament de Genètica Mèdica i Molecular de l’Institut de Recerca Oncològica es va centrar en l’anàlisi del contingut gènic de regions cromosòmiques considerades d’especial relevància biomèdica per al departament. Entre aquestes regions d’interès es troba la zona cromosòmica objecte d’anàlisi en la segona part d’aquest treball, la regió q24-q26 del cromosoma 15 humà.

30 V. Aïllament de gens in silico

L’obtenció de la seqüència completa crua del genoma humà i altres organismes ha comportat el desenvolupament de noves estratègies per a l’identificació de gens. En el cas de l’aïllament de gens in silico, s’obtè benefici de les eines i dades presents a les bases de dades públiques generades de forma sistemàtica, se n’obté el màxim d’informació, es comprova aquesta informació empíricament i es completa posteriorment en funció dels objectius de l’estudi corresponent (Figura 3).

GeneMap i Unigene

Mapatge ESTs Teixit Homologies

Identificació d’ ORF parcials d’interès

Obtenció de la seqüència codificant completa i patró d’expressió

Figura 3. Etapes principals de l’estratègia de clonatge i identificació de seqüències transcrites usada en aquest treball. ORF, pauta de lectura oberta; EST, expressed sequence tag.

S’acostuma a partir de les bases de dades d’ESTs, seqüències dels extrems dels clons de cDNA, per a identificar potencials seqüències expressades. A partir d’aquest punt els passos seguits per a l’identificació i aïllament del gen o gens corresponents s’esquematitzen tot seguit.

1/ Predicció de gens a partir d’ESTs

S’utilitzen dades de mapatge presents a les bases de dades públiques (Genemap, NCBI) per a definir grups d’ESTs representatius de gens no coneguts. S’usen programes bioinformàtics d’aliniament per homologia de

31 seqüència (CAP Assembly, Sequencher, BLAST) i la comparació posterior amb seqüències de les bases de dades públiques (dbEST, GenBank, Unigene). L’objectiu final d’aquest apartat és identificar clons corresponents a un únic gen, no quimèrics i del màxim número de parells de bases possible per tal que continguin el màxim de seqüència codificant del gen corresponent.

2/ Seqüenciació dels clons seleccionats

A partir dels clons sel.leccionats en el punt anterior se n’obté la seqüència completa mitjançant l’estratègia de primer walking. Això comporta dissenyar nous oligonucleòtids a partir de cada seqüència parcial obtinguda (500-700 nucleòtids). Es realitza aleshores la següent reacció de seqüència, es repeteix el procediment fins que es completa la seqüència de l’insert i s’obté seqüència

Grups d’ESTs sol.lapants

Construcció de la seqüencia consens

Selecció del clon/clons de major extensió

Secuenciació completa (primer walking)

cDNA parcial (amb pauta de lectura oberta incompleta) STOP Diseny d’oligos per a la extensió d’extrems de cDNA (RACE) mRNA aaaaaaa STOP RT y lligació d’adaptadors

Població enriquida en cDNAs STOP complets STOP

STOP

PCR1 PCR2

Lligació

Secuenciació

RACE+clon cDNA= AUG cDNA complet STOP Figura 4. Gràfic mostrant el procés de sel.lecció, seqüenciació i obtenció de clons de cDNA complets.

32 de vector, indicant així, que l’insert ha estat cobert d’extrem a extrem. Les dades de seqüència obtingudes per a cada reacció són processades i editades amb eines bioinformàtiques específiques per a l’ensamblatge i edició de seqüències nucleotídiques com Sequencher (GeneCodes). Per al disseny de seqüències oligonucleotídiques adients pel seu ús en reaccions de seqüenciació s’empren programes com OLIGO o GCG PRIMER (Figura 4).

3/ Detecció d’homologies

Les seqüències completes dels inserts dels clons de cDNA seleccionats poden ser analitzades per a detectar seqüències codificadores de proteïna (pautes de lectura oberta) completes o parcials (Sequencher). Tant la seqüència nucleotídica com la seqüència aminoacídica predita permeten cercar homologies a les bases de dades (FASTA, BLAST). En funció del grau d’homologia de seqüència els gens o proteïnes detectades a les bases de dades poden suggerir l’inclusió de la nova seqüència en una determinada classe de gens o proteïnes, així com la seva implicació en determinats processos cel.lulars i l’identificació de gens ortòlegs en altres espècies.

4/ Obtenció de la seqüència codificadora completa de cada gen

La gran majoria de clons de les llibreries contenen inserts corresponents a cDNAs parcials que no representen el total de la seqüència codificadora de proteïna del gen. Una vegada cercades les bases de dades amb la seqüència obtinguda en el pas anterior amb l’objectiu de detectar seqüències solapants, cal adoptar procediments moleculars per extendre els clons parcials fins a obtenir el cDNA complet amb una pauta de lectura oberta (ORF) sencera. Alguns d’aquests procediments estàn basats en l’amplificació mitjançant PCR, com és el cas dels experiments de RACE (extensió ràpida d’extrems de cDNA) o la transcripció reversa (RT-PCR), i altres es basen en la hibridació de llibreries de cDNA de teixits o d’òrgans específics.

5/ Predicció de l’estructura i dominis de proteïnes

Un cop predita la seqüència codificadora de proteïna a partir de la seqüència completa del cDNA poden identificar-se dominis proteics coneguts i conservats amb altres proteïnes de les bases de dades. S’usen programes de lliure accés com PROSITE (Sigrist et al., 2002), PFAM (http://pfam.wustl.edu/index.html),

33 SMART (Letunic et al., 2004; Schultz et al., 1998) o MOTIF (http://motif.genome.jp) per a identificar dominis proteics. Es pot predir l’estructura secundària de la proteïna putativa amb programes com GENEQUIZ (Andrade et al., 1999), PREDICTPROTEIN (http://cubic.bioc.columbia.edu/predictprotein) o PSIPRED (McGuffin et al., 2000), així com obtenir indicacions sobre la seva funció potencial.

6/ Predicció de l’estructura genòmica

La seqüència nucleotídica corresponent a un cDNA no conté seqüència intrònica. Gràcies a aquest fet, un aliniament amb la corresponent seqüència genòmica permet deduir l’estructura exònica-intrònica del gen. La presència de la seqüència genòmica humana completa a les bases de dades públiques facilita enormement aquest procés.

7/ Mapatge

De la mateixa manera que en el punt anterior la disponibilitat de tot el genoma humà a les bases de dades públiques permet determinar fàcilment la localització cromosòmica del gen seqüenciat. Un cop coneguda la seva situació cromosòmica és possible analitzar la presència en la regió d’interès de loci responsables de malalties per les quals el gen/gens responsables encara romanen desconeguts. D’aquesta manera és possible identificar gens candidats per a determinades característiques o patologies (McKusick). En el cas de no obtenir correspondència (per exemple per errors de mapatge o per discontinuïtats de seqüència) es pot confirmar experimentalment el mapatge mitjançant diversos mètodes (FISH (hibridació in situ fluorescent) o híbrids de radiació per exemple)

8/ Anàlisi de seqüències adjacents

L’anàlisi de les regions genòmiques flanquejants pot permetre identificar potencials seqüències reguladores i promotores. Es poden utilitzar eines de lliure accés com GENSCAN (Burge & Karlin, 1997) o NIX (http://www.hgmp.mrc.ac.uk/Registered/Webapp/nix).

34 9/ Eines i enllaços útils per l’anàlisi in silico (adreces web de setembre 2004)

GENERALS NCBI http://www.ncbi.nlm.nih.gov/ EBI http://www.ebi.ac.uk/ DDBJ http://www.ddbj.nig.ac.jp/ ExPASy http://www.expasy.ch/

PROJECTES GENOMA Genome http://www.ncbi.nlm.nih.gov/genomes/static/euk_g .html The Institute for http://www.tigr.org/tdb/mdb/mdb.html Genome Research (TIGR) Microbial Database Integrated http://www.genomesonline.org/ Genomics Inc. NHGRI List of http://www.nhgri.nih.gov/Data Genetic and Genomic Resources The Sanger Centre http://www.sanger.ac.uk Washington http://genome.wustl.edu University-St.Louis Ohlahoma http://www.genome.ou.edu/ University Microbial Genome http://mbgd.genome.ad.jp Database

ANÀLISI DE GENOMES MAGPIE http://genomes.rockefeller.edu/magpie GeneQuiz http://jura.ebi.ac.uk:8765/ext-genequiz/ http://www.cmbi.kun.nl/swift/genequiz/info_entry.ht ml PEDANT http://pedant.gsf.de/ Clusters of http://www.ncbi.nlm.nih.gov/COG Orthologous Groups of (COGs) Kyoto http://www.genome.jp/kegg/ Encyclopedia of Genes and Genomes (KEGG) What Is There http://wit.integratedgenomics.com/IGwit (WIT)

35 ANÀLISI D’ESTS dbEST home http://www.ncbi.nlm.nih.gov/dbEST/ page EST Projects http://genome.wustl.edu/est/ at Washington University The http://image.llnl.gov/ I.M.A.G.E. Consortium UniGene http://www.ncbi.nlm.nih.gov/UniGene/ The UniGene http://www.ncbi.nlm.nih.gov/UniGene/build.html build procedure UniGene http://www.ncbi.nlm.nih.gov/UniGene/query.cgi query engine HomoloGene http://www.ncbi.nlm.nih.gov/HomoloGene/ STACK http://www.sanbi.ac.za/Dbases.html TIGR http://www.tigr.org/tdb/tgi.html Indices TIGR http://www.tigr.org/tdb/tgi/ego/ Orthologous Gene Alignment database GeneMap http://www.ncbi.nlm.nih.gov/genemap/ dbSNP http://www.ncbi.nlm.nih.gov/SNP/ Cancer http://www.ncbi.nlm.nih.gov/ncicgap/ Genome Anatomy Project (CGAP) CGAP Digital http://www.ncbi.nlm.nih.gov/UniGene/ddd.cgi?ORG=Hs Differential Display (DDD) CGAP http://cgap.nci.nih.gov/Tissues/xProfiler xProfiler

ALINIAMENT DE SEQÜÈNCIES BLAST http://ncbi.nlm.nih.gov/BLAST/ CLUSTAL W http://www.ebi.ac.uk/clustalw/ dotter ftp://ftp.sanger.ac.uk/pub/dotter/ FASTA lalign http://www.ebi.ac.uk/fasta/ hmmer http://hmmer.wustl.edu/ RepeatMasker http://ftp.genome.washington.edu/RM/RepeatMasker.h tml seg ftp://ncbi.nlm.nih.gov/pub/seg/ sim4 http://globin.cse.psu.edu Wise package http://www.ebi.ac.uk/Wise2/

36 PREDICCIONS A PARTIR DE SEQÜÈNCIES DE DNA Banbury Cross http://igs-server.cnrs-mrs.fr/igs/banbury FGENEH http://www.softberry.com/berry.phtml?topic=fgenesh &group=programs&subgroup=gfind GeneID http://www1.imim.es/geneid.html GeneMachine http://genome.nhgri.nih.gov/genemachine GeneParser http://beagle.colorado.edu/~eesnyder/GeneParser.ht l GENSCAN http://genes.mit.edu/GENSCAN.html Genotator http://www.fruitfly.org/~nomi/genotator/ GRAIL http://compbio.ornl.gov/tools/index.shtml GRAIL-EXP http://compbio.ornl.gov/grailexp/ HMMgene http://www.cbs.dtu.dk/services/HMMgene/ MZEF http://www.cshl.org/genefinder PROCRUSTES http://www-hto.usc.edu/software/procrustes RepeatMasker http://ftp.genome.washington.edu/RM/RepeatMasker.h tml Sputnik http://rast.abajian.com/sputnik/

BASES DE DADES I EINES PER ANALITZAR DOMINIS PROTEICS ProDom http://protein.toulouse.inra.fr/prodom.html Pfam http://pfam.wustl.edu http://www.sanger.ac.uk/Software/Pfam/ SMART http://smart.embl-heidelberg.de CDD search http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi BLOCKS http://blocks.fhcrc.org PRINTS http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/PRINTS. html ProfileScan http://www.isrec.isb-sib.ch/software/PFSCAN

PREDICCIÓ DE PROPIETATS A PARTIR DE SEQÜÈNCIES D’AMINOÀCIDS Compute pI/MW http://www.expasy.ch/tools/pi tool.html MOWSE http://srs.hgmp.mrc.ac.uk/cgi-bin/mowse PeptideMass http://www.expasy.ch/tools/peptide-mass.html TGREASE ftp://ftp.virginia.edu/pub/fasta/ SAPS http://www.isrec.isb-sib.ch/software/SAPS form.html AACompIdent http://www.expasy.ch/tools/aacomp/ AACompSim http://www.expasy.ch/tools/aacsim/ PROPSEARCH http://www.embl-heidelberg.de/prs.html

37 PREDICCIÓ ESTRUCTURA PROTEICA Nnpredict http://www.cmpharm.ucsf.edu/~nomi/nnpredict.html PredictProtein http://www.embl-heidelberg.de/predictprotein/ SOPMA http://pbil.ibcp.fr/ Jpred http://www.compbio.dundee.ac.uk/~www-jpred/ PSIPRED http://bioinf.cs.ucl.ac.uk/psipred/psiform.html PREDATOR http://menu.hgmp.mrc.ac.uk/menu- bin/run?option=predator COILS http://www.york.ac.uk/depts/biol/units/coils/coi lcoil.html MacStripe http://www.york.ac.uk/depts/biol/units/coils/coi lcoil.html PHDtopology http://www.embl-heidelberg.de/predictprotein SignalP http://www.cbs.dtu.dk/services/SignalP/ TMpred http://www.ch.embnet.org/software/TMPRED_form.ht ml DALI http://www2.ebi.ac.uk/dali/ FSSP http://www2.ebi.ac.uk/dali/fssp/ SWISS-MODEL http://www.expasy.ch/swissmod/SWISS-MODEL.html TOPITS http://www.embl-heidelberg.de/predictprotein/

RECUPERACIÓ D’INFORMACIÓ A PARTIR DE LES BASES DE DADES Entrez http://www.ncbi.nlm.nih.gov/Entrez/ FlyBase http://flybase.bio.indiana.edu GDB http://www.gdb.org/ GeneCards http://bioinfo.weizmann.ac.il/cards/ HomoloGene http://www.ncbi.nlm.nih.gov/HomoloGene/ Kinemage http://www.umass.edu/microbio/rasmol/mage.htm LocusLink http://www.ncbi.nlm.nih.gov/LocusLink/ MIPS http://www.mips.biochem.mpg.de/ MMDB http://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.sht ml OMIM http://www.ncbi.nlm.nih.gov/Omim PDB http://www.rcsb.org/pdb/ Sacch3D http://www-genome.stanford.edu/Sacch3D/ SGD http://www.yeastgenome.org/ VAST http://www.ncbi.nlm.nih.gov/Structure/VAST/vast.sht ml YPD http://www.proteome.com/databases/index.html

38 PART I: Objectius

• Identificació de nous gens humans en el marc del Projecte Genoma Humà i del Consorci EuroImage a partir de llibreries de cDNA establertes i de les bases de dades i eines bioinformàtiques públiques

• Caracterització dels nous gens humans identificats a nivell de la seva seqüència nucleotídica, patró d’expressió, predicció de la proteïna codificada i determinació d’homologies amb altres espècies

39 40 PART I Resultats

41 42 Resultats

La participació del nostre grup de recerca en el projecte europeu EuroImage destinat a la seqüenciació de clons de cDNA humans ha permès l’identificació, l’obtenció de la seqüència completa i la caracterització de l’expressió de diversos gens humans desconeguts fins aleshores. Tots els casos presentats a continuació corresponen a gens novells no identificats anteriorment en humans i configuren un recull dels gens identificats i publicats com a resultat de la participació directa del nostre laboratori en el projecte EuroImage. Cadascún d’ells constitueix un exemple de l’estratègia usada per a l’aïllament, anàlisi de l’expressió i identificació d’homologies utilitzada per a la caracterització sistemàtica de gens nous a petita escala en el marc d’un projecte amb l’ambiciós objectiu d’identificar i caracteritzar tots els gens del genoma humà.

43 44 I. Identificació i caracterització del gen humà PDCD9

La publicació següent exposa de quina manera l’anàlisi de transcrits desconeguts permet l’identificació de PDCD9 (programmed cell death 9), un nou gen humà homòleg a la proteïna pro-apoptòtica p52 de Gallus. El nostre estudi va permetre refinar la seva localització cromosòmica a 5q11. Es van obtenir dades sobre el patró d’expressió en teixits humans i es va determinar el grau de conservació a nivell de seqüència proteica entre diferents espècies. La baixa conservació amb altres famílies de proteïnes va indicar que possiblement es tracta d’una nova família de proteïnes amb una funció potencial en processos apoptòtics. Aquestes dades constitueixen el cos principal de l’article publicat l’any 1999 pel nostre grup.

45 Cytogenet Cell Genet 87:85–88 (1999)

Cloning, expression, and mapping of PDCD9, the human homolog of Gallus gallus pro-apoptotic p52

L. Carim, L. Sumoy, M. Nadal, X. Estivill, and M. Escarceller Centre de Genètica Mèdica i Molecular, Institut de Recerca Oncològica, Hospital Duran i Reynals, Barcelona (Spain)

Abstract. We report the sequence, tissue distribution, and 50 kDa. The protein sequences of chicken, mouse, and human location of a novel gene, PDCD9 (programmed PDCD9 are remarkably conserved. PDCD9 mRNA is ex- cell death 9). PDCD9 is the mammalian counterpart of the Gal- pressed ubiquitously in adult tissues, displaying a stronger sig- lus gallus pro-apoptotic protein p52. The human cDNA has an nal in heart, skeletal muscle, kidney, and liver. PDCD9 was open reading frame of 1,314 nucleotides and was predicted to mapped to chromosome 5q11. encode a protein of 438 amino acids with a calculated mass of Copyright © 2000 S. Karger AG, Basel

To date, just a fraction of the entire human gene set has been presenting p52 as a new cell-death protein. Our results show a identified. Our laboratory, a member of the EUROIMAGE striking degree of similarity between PDCD9 and p52, which, Consortium, is engaged in the isolation and mapping of novel together with the lack of homology to other related protein fam- human genes. The EUROIMAGE Consortium was constituted ilies, suggests the possibility of PDCD9 being one of the pro- in 1997 with the objective of completing the cDNA sequence teins associated with apoptotic pathways that have yet to be and identifying genes involved in human biology and inherited identified. diseases by correlating precise map locations and gene expres- Apoptosis is a morphologically distinct form of program- sions with phenotypic data (Adams et al., 1991; Lennon et al., med cell death (for a review, see Steller, 1995). It is an active 1996; Schuler, 1997; Deloukas et al., 1998). process that plays a major role during cellular differentiation, We now report the cloning, tissue distribution, and chromo- development, tissue homeostasis, and metamorphosis, as well some location of PDCD9 (programmed cell death 9), the as in many diseases, including cancer, acquired immunodefi- human homolog of Gallus gallus pro-apoptotic protein p52. ciency syndrome, and neurodegenerative disorders (Thomp- Sun et al. (1998) reported the purification of protein p52 from son, 1995; Vaux et al., 1999). The basic machinery appears to chicken embryos and the cloning of its corresponding cDNA. It be present in essentially all mammalian cells at all times, but was also shown that p52 expression in mouse fibroblasts caused the activation of the cellular suicide program is regulated by apoptotic cell death, upregulation of the c-Jun transcription many different extracellular and intracellular signals. Numer- factor, and activation of the c-Jun N-terminal kinase (Jnk1), ous genes involved in apoptosis have been cloned, and many of them are highly conserved among different species (Jacobson et al. 1997).

Supported by EU Biomed Project No. BMH4-CT97-2284 to X.E. M.E. is funded by the Spanish Ministry of Education (CIDYT contract FPI-070-97) and L.S. by the Catalan autonomous government (RED contract 1998-64). Materials and methods Received 5 May 1999; revision accepted 30 July 1999. Cluster assembly and sequence analysis Request reprints from Dr. Mònica Escarceller, Centre de Genètica Mèdica i Molecular, Institut de Recerca Oncològica, Hospital Duran i Reynals, EST clusters were assembled using the EST CAP assembly program Autovia de Castelldefels km 2,7, L’Hospitalet de Llobregat, (http://www.tigem.it) and Sequencher software (GeneCodes) for the Macin- 08907 Barcelona (Spain); telephone: 34-93-260-7775; fax: 34-93-260-7776; tosh computer. Clones were obtained from the EUROIMAGE distribution e-mail: [email protected]. centers (DHGP and HGMP). Sequences were determined by primer walking

Fax + 41 61 306 12 34 © 1999 S. Karger AG, Basel Accessible online at: ABC E-mail [email protected] 0301–0171/99/0872–0085$17.50/0 www.karger.com/journals/ccg www.karger.com with custom-synthesized primers (LifeTech), using Perkin-Elmer BigDye stream of the deduced initiation codon. The 3)-UTR contained reagents, following the manufacturer’s instructions, on an ABI 377 auto- a consensus polyadenylation signal ATTAAA (1,441 nt) and a mated fluorescence sequence analyzer. For each clone, both strands were sequenced with at least three independent reads per base. PDCD9 nucleotide poly(A) sequence at the end (1465 nt). This cDNA sequence sequence is available from GenBank under accession number AF146192. was predicted to encode a protein of 438 amino acids with a Sequence comparisons were performed using ClustalW 1.7 (http://dot. calculated mass of 50 kDa. imgen.bcm.tmc.edu:9331/multi-align/multi-align.html). Boxed multiple se- BLAST homology searching against nonredundant data- quence alignments were obtained with the BOXSHADE 3.21 program (http: bases (NCBI) gave a single significant hit with the G. gallus pro- //www.isrec.isb-sib.ch/software/BOX_form.html). The protein pattern and domain databases Prosite, SMART, and Pfam (http://www.hgmp.mrc.ac.uk/ apoptotic protein p52 (GenBank AF029071; Sun et al., 1998). GenomeWeb/prot-domain.html) were searched for known motifs or func- Nucleotide sequence comparison between chicken p52 and tional domains. its human homolog showed 70% identity; this gene was there- fore designated PDCD9 (programmed cell death 9) after the G. Northern blot analysis Multiple-tissue Northern blots (MTN-12 blot, Clontech) were hybridized gallus gene. In the original report (Sun et al., 1998), a fragment with a 1-kb PCR product corresponding to the 3) region of the human of the human protein sequence was presented (amino acids 282 IMAGE clone 1368574 for detection of PDCD9 and with a commercial to 407) containing an erroneous stop codon at amino acid posi- (Clontech) 2-kb ß-actin cDNA as a control for quantification. Probes were tion 407, possibly due to the fact that a single EST sequence was labeled using a random primer DNA labeling kit (BioRad). Blots were considered. By determining the full-length cDNA spanning the hybridized overnight at 65 ° C in ExpressHyb hybridization solution (Clon- tech) and washed at 68 ° C in 0.2 × SSC, 0.5 % SDS. entire ORF, we have corrected this error. The deduced human and chicken amino acid sequences are 51% identical and 61% Fluorescence in situ hybridization (FISH) similar (Fig. 1). A previously described protocol (Nadal et al., 1997) was used with some Sun et al. (1998) also reported the partial C-terminal mouse modifications. Briefly, 2 Ìg of PAC clone 273D21 were labeled with bio- 16-dUTP (Boehringer Mannheim) in a standard nick-translation reaction. amino acid sequence derived from three ESTs. We extended Four hundred nanograms of the product were precipitated along with 1 Ìg of the coding sequence by performing a BLAST homology search Cot-1 DNA (GIBCO BRL) and 1 Ìg of salmon sperm DNA (Sigma) and the against mouse dbEST (NCBI), which revealed a collection of pellet resuspended in hybridization mix containing 50 % formamide and additional ESTs homologous to PDCD9. The cluster was 10 % dextran sulfate in 1.5 × SSC. Ten microliters of the hybridization mix assembled in a single contig comprising a unique sequence in was applied to each slide. Slides were incubated overnight in a humid cham- ber at 37 ° C. Post-hybridization washes were performed in three changes of mouse (UniGene Collection, Mm. 29109 (http://www.NCBI. 50 % formamide, 2 × SSC at 42 ° C, followed by three changes of 2 × SSC at nlm.nih.gov/UniGene/Hs.Home.html). None of the murine 42 ° C. For signal detection, slides were incubated at 37 ° C with avidin-FITC clones selected for sequencing were available because of yeast (Vector Laboratories) for 20 min and washed in three changes of 4 × SSC, contamination originating at the distribution sources. Nev- Tween 20 at 37 ° C. Slides were mounted with 40 Ìl of antifade solution (Vec- tor Laboratories) containing 150 ng/ml of DAPI. Slides were viewed with an ertheless, we obtained the complete putative amino acid se- Olympus AH-3 (VANOX) fluorescence microscope. Images were analyzed quence from the consensus of all ESTs (Fig. 1). Human and with the Cytovision system (Applied Imaging). mouse PDCD9 have 66% identity and 76% similarity at the protein level. Protein domain analysis of the PDCD9, murine Pdcd9, and chicken p52 proteins did not show any known Results and discussion motif or functional domain with significant probability. Northern blot analysis of poly(A) RNA isolated from var- In our effort to identify new genes, we constructed and ana- ious tissues (MTN Human 12-lane blot, Clontech), using a 1-kb lyzed in silico unique gene EST clusters on the basis of clone PCR product corresponding to the 3) region of the human size, chromosomal localization, and tissue expression. Among IMAGE clone 1368574 as a probe, revealed a ubiquitously all clusters studied, we isolated a partial human cDNA se- expressed 1.5-kb mRNA species (Fig. 2). A high steady-state quence with a single open reading frame (ORF). The EST- level of PDCD9 mRNA was observed in heart, skeletal muscle, derived sequence encompassed only nucleotide (nt) 570 to nt kidney, and liver and a lower level in placenta and peripheral 1465 of the definitive PDCD9 sequence. To obtain the com- blood leukocytes. A barely detectable level of expression was plete coding sequence, we selected cDNA clones by screening seen in the remaining tissues tested. In addition, three minor the Ïgt11 human cDNA library and by BLAST homology higher molecular weight forms (7.5, 6, and 4 kb) were detected, searching against dbEST (NCBI) (http://www.ncbi.nlm.nih. which might have resulted from alternate promoter or polyA gov/cgi-bin/BLAST/) (Altschul et al., 1997). From the results of site usage or from alternative mRNA splicing. The pattern of the search, two human IMAGE clones were chosen for sequenc- PDCD9 mRNA expression differed notably from that of its ing: 549763 (EST GenBank accession number AA101062) and homolog in chicken, which showed a wide distribution in 1368574 (EST GenBank AA836428). None of the Ïgt11 clones embryonic and adult tissues. In particular, p52 mRNA was obtained completed the coding sequence, the maximum size more abundant in embryonic chicken heart and liver, whereas clones spanning from nt 814 to nt 1465. Of the two IMAGE in the adult chicken, a high hybridization signal was detected in clones selected, one, 549763, also revealed a partial coding testis, brain, heart, kidney, and lung (Sun et al., 1998). sequence. Only clone 1368574 represented the full-length To assign the gene encoding PDCD9 to a human chromo- cDNA. some, FISH analysis was performed on metaphase chromo- The human cDNA had an ORF of 1,314 nucleotides (from somes prepared from peripheral blood lymphocytes. A suitable nt 40 to nt 1354). The 5) untranslated region (UTR) contained probe was obtained by screening of the RPCI[1,3-5] human an in-frame stop codon at nucleotide position 6, 27 bp up- PAC library using the full-length PDCD9 cDNA. Three posi-

86 Cytogenet Cell Genet 87:85–88 (1999) Fig. 1. Multiple sequence alignment of the human PDCD9, mouse Pdcd9, and chicken p52 polypeptides. Identical residues are printed in reverse type, and similar residues are shaded. Consensus sequence is shown at the bottom, with identical amino acids in uppercase symbols and similar amino acids in lowercase. Extents of partial amino acid sequences previously published by Sun et al. (1998) are bracketed by ! ... 1 for the human and by !! ... 11 for the mouse polypeptide.

Fig. 2. Multiple-tissue northern blot analysis of PDCD9. The 1-kb Fig. 3. Localization of PDCD9 to chromosome 5q11 by FISH using the PDCD9 PCR product was used as a probe, revealing a ubiquitously PAC clone 273D21 DNA as a biotinylated probe. The arrows point to the expressed 1.5-kb mRNA species. PDCD9 and ß-actin transcripts are indi- location of the signal on chromosome 5. cated with arrows.

tive clones were obtained, the clones corresponding to those homologs was observed in 22 (88%) of 25 metaphase spreads provided by the Resource Center of the Deutsches Humange- (Fig. 3). This result is in agreement with the previous mapping nomprojekt (DHGP) in Germany. Among them, PAC 273D21 to chromosome 5 of STS SHGC-186 in the Radiation Hybrid was chosen and confirmed to contain the PDCD9 gene by Stanford G3 panel. Marker SHGC-186 is contained in Uni- hybridization and PCR amplification. Using PAC clone Gene cluster Hs. 28555, in which the selected IMAGE clones 273D21 DNA as a probe for FISH, we were able to assign the are included. Searching OMIM (http://www.ncbi.nlm.nih.gov/ PDCD9 gene to the pericentromeric region (band 5q11) of htbin-post/Omim), we did not find any known hereditary con- human chromosome 5. A positive signal on both chromosome dition mapping to 5q11 that could be associated with PDCD9.

Cytogenet Cell Genet 87:85–88 (1999) 87 The syntenic region in mice, on chromosome 13, also lacks rele- PDCD9 in human and chicken. Further experiments should be vant mutations or phenotypes related to Pdcd9. undertaken to elucidate the putative apoptotic role of PDCD9 In summary, we have cloned, mapped, and studied the in humans. expression of the human homolog of the G. gallus pro-apoptotic protein p52. We have determined that the amino acid sequence is well conserved between human, mouse, and chicken, which Acknowledgements suggests the possibility of a similar pro-apoptotic role for We are grateful to Michael Lynch and Mònica Gratacòs for the screening PDCD9. The lack of homology with other protein families indi- of the Ïgt11 and PAC libraries. We also want to thank A. Puig and D. Otero cates that PDCD9s could constitute a novel class of apoptotic for their technical support with the DNA sequencing. We wish to thank the proteins involved in alternative cell-death pathways that have HGMP Resource Center in Hinxton, UK, and the DHGP in Berlin, Germa- not yet been defined. However, the differences in adult tissue ny, for supplying us with IMAGE cDNA and PAC clones. expression might represent the existence of distinct functions of

References

Adams MD, Kelley DIM, Gocayne JD, Dubnick M, im DK, Staples R,. Stein LD, Stewart EA, Suchard Nadal M, Moreno S, Pritchard M, Preciado MA, Esti- Polymeropoulos MH, Xiao H, Merril CR, Wu A, MA, Thangarajah T, Vega-Czarny N, Webber C, vill X, Ramos-Arroyo MA: Down syndrome: char- Olde B, Moreno RF, Kerlavage AR, McCombie Wu X, Hudson J, Auffray C, Nomura N, Sikela acterisation of a case with partial trisomy of chro- WR, Venter JC: Complementary DNA sequenc- JM, Polymeropoulos MH, James MR, Lander ES, mosome 21 owing to a paternal balanced transloca- ing: expressed sequence tags and human genome Hudson TJ, Myers RM, Cox DR, Weissenbach J, tion (15;21) (q26;q22.1) by FISH. J med Genet project. Science 252:1651–1656 (1991). Boguski MS, Bentley DR: A physical map of 34:50–4 (1997). Altschul SF, Maden TL, Schaffer AA, Zhang J, Zhang 30,000 human genes. Science 282:744–746 Schuler GD: Pieces of the puzzle: expressed sequence Z, Miller W, Lipman, DJ: Gapped BLAST and (1998). tags and the catalog of human genes. J molec Med PSI-BLAST: a new generation of protein database Jacobson MD, Weil M, Raff MD: Programmed cell 75:694–69 (1997). search program. Nucl Acids Res 25:3389–3402 death in animal development. Cell 88:347–354 Steller H: Mechanisms and genes of cellular suicide. (1997). (1997). Science 267:1445–1449 (1995). Deloukas P, Schuler GD, Gyapay G, Beasley EM, Sod- Lennon G, Auffray C, Polymeropoulos M, Soares MB: Sun L, Liu Y, Fremont M, Schwarz S, Siegmann M, erlund C, Rodriguez-Tome P, Hui L, Matise TC, The I.M.A.G.E. Consortium: an integrated molec- Matthies R, Jost JP: A novel 52 kDa protein McKusick KB, Beckmann JS, Bentolila S, Biho- ular analysis of genomes and their expression. Ge- induces apoptosis and concurrently activates c-Jun reau M, Birren BB, Browne J, Butler A, Castle AB, nomics 33:151–152 (1996). N-terminal kinase 1 (JNK1) in mouse C3H10T1/2 Chiannilkulchai N, Clee C, Day PJ, Dehejia A, fibroblasts. Gene 208:157–166 (1998). Dibling T, Drouot N, Duprat S, Fizames C, Fox S, Thompson CB: Apoptosis in the pathogenesis and Gelling S, Green L, Harrison P, Hocking R, Hollo- treatment of disease. Science 267:1456–1462 way E, Hunt S, Keil S, Lijnzaad P, Louis-Dit-Sully (1995). C, Ma J, Mendis A, Miller J, Morissette J, Muselet Vaux DL, Korsmeyer SJ: Cell death in development. D, Nusbaum HC, Peck A, Rozen S, Simon D, Slon- Cell 96:245–254 (1999).

88 Cytogenet Cell Genet 87:85–88 (1999) 46 II. Identificació, caracterització i mapatge del gen humà VPS33B

El treball següent descriu el procés d’aïllament i caracterització del nou gen humà VPS33B (vacuolar protein sorting 33B), ortòleg a l’identificat prèviament a rata. L’anàlisi de la seqüència aminoacídica va suggerir una implicació en l’organització i transport de proteïnes i vesícules a la cèl.lula. Es va estudiar el seu patró d’expressió i la seva posició en el genoma humà mitjançant mapatge per híbrids de radiació. Aquests resultats van ser publicats l’any 2000 i van refermar l’importància d’aquests treballs de caracterització preliminar de gens nous.

47 Cytogenet Cell Genet 89:92–95 (2000)

Cloning, mapping and expression analysis of VPS33B, the human orthologue of rat Vps33b

L. Carim, L. Sumoy, N. Andreu, X. Estivill and M. Escarceller Medical and Molecular Genetics Center, Institut de Recerca Oncològica, Hospital Duran i Reynals, L’Hospitalet de Llobregat, Barcelona (Spain)

Abstract. We have identified VPS33B, the human ortholog proteins involved in protein sorting and vesicular trafficking. of rat Vps33b. VPS33B encodes a transcript of 2482 nt with an Enriched expression of VPS33B was observed in testis. ORF of 617 amino acids and a predicted protein size of 70.6 VPS33B was positioned at chromosome 15q26.1 by radiation kDa. VPS33B contains a Sec-1 domain shared with a family of hybrid mapping. Copyright © 2000 S. Karger AG, Basel

Our laboratory, a member of the EUROIMAGE Consor- 1996) and are subdivided into six classes (A–E). Mutations in tium, is engaged in the isolation and mapping of novel human the so called fourth class C Vps, including Vps33p among oth- genes. We sequence cDNA clones corresponding to ESTs ers, result in the most severe vacuolar protein sorting and mor- selected on the basis of chromosome location on the long arm of phology defects. It is believed that Vps gene products physically chromosome 15. Using this approach we have identified and functionally interact to mediate a late step in protein trans- VPS33B, the human orthologue of rat Vps33b, a mammalian port to the vacuole (Rieder and Emr, 1997). homologue of yeast Slp1/vps33p (Pevsner et al., 1996). Slp1/Vps33p belongs to the Sec-1 domain family (Halachmi The sorting of vacuolar proteins in the yeast Saccharomyces and Lev, 1996). Members of this family are involved in protein cerevisiae has become an important genetic model system due sorting, synaptic transmission and general secretion. Some of to the insight it has given into lysosomal biogenesis in animal them are the yeast Sec1, Sly1, Slp1/Vps33p and Vps45; three cells (Conibear and Stevens, 1995; Wendland et al., 1998). To nematode proteins: Unc-18, and the C. elegans homologues of date, few human homologues of the so called vps (vacuolar pro- Sec1 and Sly1; the Drosophila rop and the rat Munc-18/nSec1, tein sorting) yeast genes have been described. mouse Munc18b and Munc18c, and bovine Munc18 and Sec1 Protein transport to the lysosome-like vacuole in yeast is (Halachmi and Lev, 1996 and references therein). The Sec1 mediated by more than 40 genes in S. cerevisiae. The yeast Vps proteins are mostly hydrophilic and lack a transmembrane mutants are implicated in Golgi-to-lysosome trafficking (Coni- domain but are membrane bound proteins. The Sec-1 proteins bear and Stevens, 1995; Wendland et al., 1998; Pevsner et al., play a positive role in exocytosis.

Materials and methods Supported by EU Biomed Project No. BMH4-CT97-2284 to X.E and by CICYT- IN95-0347. M.E. is funded by the Spanish Ministry of Education (CIDYT con- cDNA isolation and sequencing tract FPI-070-97) and L.S. by the Catalan autonomous government (CIRIT-RED Unigene cluster Hs. 26510 was built and analyzed in silico during the contract 1998-64). EUROIMAGE full-length cDNA sequencing project. It was shown to con- Received 1 December 1999; revision accepted 23 February 2000. tain a single open reading frame (ORF) and to share homology with vacuolar Request reprints from Mònica Escarceller, Medical and Molecular Genetics Center, protein sorting proteins. ESTs cluster Hs.26510 (http://www.NCBI.nlm. Institut de Recerca Oncològica, Hospital Duran i Reynals, Autovia de nih.gov/UniGene) was assembled using the EST CAP assembly program Castelldefels km 2,7, L’Hospitalet de Llobregat, 08907 Barcelona (Spain); (http://gcg.tigem.it/cgi-bin/uniestass.pl) and Sequencher (GeneCodes) se- telephone: 34-93-260-7775; fax: 34-93-260-7776; e-mail: [email protected] quence assembly software. Additional ESTs corresponding to VPS33B but

Fax + 41 61 306 12 34 © 2000 S. Karger AG, Basel Accessible online at: ABC E-mail [email protected] 0301–0171/00/0892–0092$17.50/0 www.karger.com/journals/ccg www.karger.com not included in the cluster were found by searching the dbEST database using AA074549), 2171628 (EST GenBank Acc. No. AI589203), the BLASTN program (Altschul et al., 1997). IMAGE cDNA clones whose 41400 (EST GenBank Acc. No. R56540) and 531649 (EST ESTs extended most 5) and 3) in the cDNA were chosen for sequencing: 531662, 2171628, 41400 and 531649. Clones were obtained from the GenBank Acc. No. AA074575). EUROIMAGE distribution centers. Sequence was determined by primer Of the four human clones selected, 2171628 and 531649 walking using the PerkinElmer BigDye reagents on an ABI PRISM-377 fluo- were unable to grow in standard conditions and clone 531662 rescent automated sequencer and custom synthesized sequencing primers was shown to be miss-assigned and corresponded to an uniden- (LifeTech). tified cluster of ESTs. Only clone 41400 was fully sequenced Full-length cDNA sequence was obtained using the rapid amplification of cDNA ends (RACE) method on Marathon-Ready cDNA from adult and extended the ORF obtained with the EST assembly. Since human heart (Clontech), according to the manufacturer’s instructions. The the clone did not cover the entire transcript, the full-length following primers were used: G1 (5) AGAGAGTGCTGAGAAGGTG- cDNA sequence was obtained by 5) RACE extension (see TAAGGC 3)), G2 (5) ATCCACATCAAGAGGCAGCAAAGAG 3)) and G3 Methods). The assembly of the different clones gave as a result (5) AGCCCTCAAAAGTTCTATGCGTGTG 3)) for 5) VPS33B extension. PCR extended products were subcloned into the pGEM-T-easy vector a total transcript length of 2482 bp (including the polyA tail), (Promega) and sequenced as above. We sought at least three independently with an ORF (from nt 304–2157) encoding a 617 amino acid generated fully extended clones to determine the cDNA ends. product with a calculated mass of 70.6 kDa. The 5) untrans- Sequence comparisons were performed using ClustalW 1.7 (http://dot. lated region (UTR) contained an in-frame stop codon at imgen.bcm.tmc.edu:9331/multi-align/multi-align.html). Boxed multiple se- nucleotide position 217. A polyadenylation signal (AATAAA) quence alignments were obtained with the BOXSHADE 3.21 program (http: //www.ch.embnet.org/software/BOX–form.html). To search for known mo- was observed at nt 2434 and a polyA tail at the end (2458 nt). tifs or functional domains, protein pattern and domain databases consulted A single hit was obtained after BLAST homology searching were Prosite, SMART and Pfam (http://www.hgmp.mrc.ac.uk/Genome- against non redundant nt databases (NCBI): r-vps33b, the “va- Web/prot-domain.html). cuolar protein sorting” homolog from Rattus norvegicus VPS33B nucleotide and protein sequences are available in GenBank under Acc. No. AF201694. The name has been approved by the Human (Pevsner et al., 1996). Nucleotide sequence comparison showed Committee (http://www.gene.ucl.ac.uk/nomenclature/). 90% identity between our gene and rat Vps33b. At the amino acid level, VPS33B showed homology to the Northern blot analysis family of proteins related to Sec1 (Halachmi and Lev, 1996): A multiple-tissue Northern blot (MTN II blot, Clontech) was hybridized after BLAST search, the best hit was r-vps33b with a 96% iden- to a 1.9-kb HindIII-PstI restriction product corresponding to the cDNA insert from IMAGE clone 41400; and to a 2-kb ß-actin cDNA supplied com- tity (97% similarity) between them (Fig. 1); the second most mercially (Clontech) as control for quantification. Probes were labeled using significant score was rat vps33a, with a 31% identity (50% sim- a random primer DNA labeling kit (Amersham Pharmacia). Blots were ilarity). The hits following were the “vacuolar protein sorting hybridized overnight at 65 °C in ExpressHyb solution (Clontech) and 33” homologues of yeast SLP1/vps33 in Drosophila, Arabidop- washed at 68 °C in 0.2 × SSC, 0.5 % SDS. sis, C. elegans and Aspergillus, as well as SLP1/vps33 itself. VPS33B radiation hybrid mapping Lower scores were observed for rop (Drosophila), vps45 (yeast) To precisely localize the VPS33B gene we used the Stanford TNG4 whole and unc-18 (C. elegans ). genome radiation hybrid panel (Stewart et al. 1997). Twopoint linkage analy- All these close homologues to VPS33B are known members sis was performed using the RHMAP-2.0 on the RH Server at the Stanford of the Sec-1 domain family and contain this motif (Halachmi Human Genome Center (http://www-shgc.stanford.edu/RH/index.html). We used primers F (5) CTCAGTGAGATGCAGGCATC 3)) and R (5) and Lev, 1996). Protein pattern analysis of VPS33B revealed TATCCTGGGAGCAGGAAGTG 3)) which amplify STS14369. The PCR the presence of the domain, extending from amino acid 105 to conditions were 1 cycle at 94 °C for 3 min; 35 cycles at 94°C for 30 s, 61 ° C 612, with a significant score of 3.6e-185 (SMART, http://www. for 30s and 72 °C for 1 min; and 1 cycle at 72 °C for 5 min. hgmp.mrc.ac.uk/GenomeWeb/prot-domain.html). It has been proposed that the evolution of this gene family parallels the spe- cialization of vesicle trafficking to distinct intracellular com- partments (Pevsner et al., 1996). Indeed, loss of function in the Results and discussion yeast genes Sec1, Sly1, Slp1/vps33 and Vps45 results in block- ing of protein transport between distinct subcellular compart- Cloning of VPS33B, the human orthologue of rat Vps33b ments, that is, Sly1 from endoplasmic reticulum to Golgi; Sec1 Within the EUROIMAGE full-length cDNA sequencing from Golgi to plasma membrane; Vps-45 from Golgi to preva- project underway in our laboratory (Lennon et al., 1998) we cuolar and Slp1/vps33 from pre-vacuolar to the vacuole sequence cDNA clones corresponding to ESTs from the same (Pevsner et al., 1996; Tellam et al., 1997; and references there- cluster to identify new genes. The EST contigs that we build in). Because of sequence identity with their yeast counterpart, it and analyze in silico represent unique genes and they are select- has been suggested that rat vps33a and rat vps33b might also ed on the basis of clone size, chromosome location and tissue participate in vesicular trafficking between the Golgi and the distribution. One of the partial human cDNA sequences, lysosome (Pevsner et al., 1996). Moreover, it is also possible belonging to Unigene cluster Hs.26510, contained a single open that rat vps33a and rat vps33b localize to distinct intracellular reading frame (ORF). Additional ESTs not included in the clus- compartments such as lysosomes, endosomes or peroxisomes. ter were found by searching the dbEST database using the Here we suggest, based on the striking amino acid homology BLASTN program at NCBI (http://www.ncbi.nlm.nih.gov/ shared between human and rat vps33b, that our protein could cgi-bin/BLAST/) (Altschul et al., 1997). IMAGE cDNA clones also be involved in this step in humans. In this context, it will corresponding to the ESTs that extended most 5) and 3) were be of great interest to determine the subcellular location of chosen for sequencing: 531662 (EST GenBank Acc. No. VPS33B in future experiments.

Cytogenet Cell Genet 89:92–95 (2000) 93 Fig. 1. Multiple sequence alignments of human VPS33B (VPS33B); rat vps33b (vps33b); rat vps33a (vps33a); the yeast Slp1/vps33b homologs in Drosophila melanogaster (D.mel), Aspergillus fumigatus (A.fum), Arabidopsis thaliana (A.thal) and Caenorhabditis elegans (C.el) and SLP1 yeast poly- peptide itself. Identical residues are printed in reverse type, and similar residues are shaded.

Expression of VPS33B Expression studies of VPS33B with Northern blots of hu- man tissues (MTN II blot, Clontech), were carried out by hybridizing with a specific probe (see Methods). In adult tis- sues, basal expression was largely ubiquitous (Fig. 2), showing an mRNA species migrating above the 2.4-kb marker. Remark- ably, VPS33B expression was highly enriched in testis. This contrasts with the broad tissue distribution of rat Vps33b, where an equal amount of a 2.8-kb transcript was seen in all rat tissues (Pevsner et al., 1996). We suggest that, even though both orthologs display a high degree of identity, the differences in the expression pattern indicate that the gene could hold a spe- cific and distinct role in humans, perhaps in protein trafficking from Golgi to the acrosome during spermatogenesis. This spec- ificity could be mediated through the interaction with other

Fig. 2. Multiple-tissue Northern blot analysis of VPS33B. The 1.9-kb HindIII-PstI restriction product was used as a probe revealing ubiquitous expression: (A) results after an overnight exposure and (B) after a 10 day exposure; (C) ß-actin control probe.

94 Cytogenet Cell Genet 89:92–95 (2000) proteins, the syntaxins and syntaxin-like proteins being good In summary, we have identified, characterized and finely candidates. The genetic interaction between the Sec1-1 family mapped, within the 15q26.1 region, a new human gene, members and genes encoding syntaxin and syntaxin homolo- VPS33B. Comparisons with previously described genes at the gues has been shown previously (Bennett et al., 1993; Tellam et protein and nucleotide level indicate that VPS33B is the al., 1997). human orthologue of rat Vps33b. The presence of the function- al Sec1 domain in the highly conserved amino acid sequence of Mapping of VPS33B human and rat vps33b suggests that VPS33B is holding a role in Chromosome location of the human VPS33B gene was vesicular protein trafficking to the lysosome. Localized expres- determined by radiation hybrid mapping using the Stanford sion of VPS33B in testis may account for a specific role of the TNG4 panel. The gene was linked to STS SHGC-83061 with a protein in humans. LOD score of 7.49 at an approximate distance of 128 kb. This STS is contained in RPCI-11 BAC 51D4 which in turn contains the alpha-mannosidase II isozyme gene (D15S1173). This is in Acknowledgments agreement with the previous mapping of STSs mp2120 and We are grateful to A. Puig and D. Otero for technical support with DNA WI-22047 using the Genebridge 4 panel (between D15S202 sequencing. We wish to thank the HGMP Resource Center in Hinxton, UK, and D15S157), which are located in 15q26.1 near the Bloom and the RZPD in Berlin, Germany, for supplying us with IMAGE cDNA syndrome locus (Deloukas et al., 1998). These STSs are con- clones. tained in UniGene cluster Hs. 26510, in which the selected IMAGE clones are included.

References

Altschul SF, Maden TL, Schaffer AA, Zhang J, Zhang Halachmi N, Lev Z: The Sec1 family: a novel family of Stewart EA, McKusick KB, Aggarwal A, Bajorek E, Z, Miller W, Lipman, DJ: Gapped BLAST and proteins involved in synaptic transmission and Brady S, Chu A, Fang N, Hadley D, Harris M, Hus- PSI-BLAST: a new generation of protein database general secretion. Review. J Neurochem 66:889– sain S, Lee R, Maratukulam A, O’Connor K, Per- search program. Nucl Acids Res 25:3389–3402 897 (1996). kins S, Piercy M, Qin F, Reif T, Sanders C, She X, (1997). Lennon G, Auffray C, Polymeropoulos M, Soares MB: Sun WL, Tabar P, Voyticky S, Cowles S, Fan JB, Bennett MK, Garcia-Arraras JE, Elferink LA, Peterson The I.M.A.G.E. Consortium: an integrated molec- Cox DR, et al: An STS-based radiation hybrid map K, Fleming AM, Hazuka CD, Scheller RH: The ular analysis of genomes and their expression. Ge- of the human genome. Genome Res 7:422–433 syntaxin family of vesicular transport receptors nomics 33:151–152 (1998). (1997). Cell 74:863–873 (1993). Pevsner J, Hsu SC, Hyde PS, Scheller RH: Mammalian Tellam JT, James DE, Stevens TH, Piper RC: Identifi- Conibear E, Stevens TH: Vacuolar biogenesis in yeast: homologues of yeast vacuolar protein sorting (vps) cation of a mammalian Golgi Sec1p-like protein, sorting out the sorting proteins. Review. Cell genes implicated in Golgi-to-lysosome trafficking. mVps45. J biol Chem 272:6187–6193 (1997). 83:513–516 (1995). Gene 183:7–14 (1996). Wendland B, Emr SD, Riezman H: Protein traffic in Deloukas P, Schuler GD, Gyapay G, Beasley EM, Sod- Rieder SE, Emr SD: A novel RING finger protein com- the yeast endocytic and vacuolar protein sorting erlund C, Rodriguez-Tome P, Hui L, Matise TC, plex essential for a late step in protein transport to pathways. Curr Opin Cell Biol 10:513–522. McKusick KB, Beckmann JS, Bentolila S, Bihor- the yeast vacuole. Mol Biol Cell 8:2307–2327 (1998). eau M, Birren BB, Browne J, Butler A, Castle AB, (1997). Chiannilkulchai N, Clee C, Day PJ, Dehejia A, Dibling T, Drouot N, Duprat S, Fizames C, Bent- ley DR, et al: A physical map of 30,000 human genes. Science 282:744–746 (1998).

Cytogenet Cell Genet 89:92–95 (2000) 95 48 III. Identificació i anàlisi de l’expressió del gen C15orf3

La publicació següent constitueix un exemple d’identificació de gens completament nous. Es tracta de seqüències amb pauta de lectura oberta sense homologia a cap seqüència coneguda en aquell moment que permetès inferir la seva funció o implicació en processos cel.lulars concrets. L’article descriu el mapatge de C15orf3 a 15q21.1-21.2, excloent-lo de la regió q24-q26 objecte d’estudi en la Part II d’aquesta tesi. Tot i no presentar similaritat amb cap família de gens ja coneguts, el patró d’expressió ubicu de C15orf3 suggeria un paper universal i general necessari a totes les cèl.lules humanes. Es van identificar els gens ortòlegs a rata i ratolí confirmant que C15orf3 és membre d’una nova família de proteïnes encara no caracteritzades.

49 Cytogenet Cell Genet 88:330–332 (2000)

Identification and expression analysis of C15orf3, a novel gene on chromosome 15q21.1→q21.2

L. Carim, L. Sumoy, N. Andreu, X. Estivill and M. Escarceller Medical and Molecular Genetics Center, Institut de Recerca Oncològica, Hospital Duran i Reynals, L’Hospitalet de Llobregat, Barcelona (Spain)

Abstract. We have isolated C15orf3, a novel human gene EST database searching revealed the presence of C15orf3 that lacks homology to any known gene family. The C15orf3 homologs in rat and mouse. C15orf3 was mapped to chromo- gene encodes a transcript of 1676 nt with an ORF of 187 amino some 15q21.1 →q21.2 using the Stanford G3 radiation hybrid acids and a predicted protein product size of 20.8 kDa. North- panel. ern blot analysis showed ubiquitous expression in adult tissues. Copyright © 2000 S. Karger AG, Basel

Identification of all human genes and construction of a Material and methods genome-wide transcript map are two major goals of the Human Cluster assembly and sequence analysis Genome Project. A large-scale public effort to isolate all human EST clusters were assembled using the EST CAP assembly program genes started in 1993, when the Integrated Molecular Analysis (http://www.tigem.it) and the Sequencher software for Macintosh (Gene- of Human Transcripts and their Expression (IMAGE) Consor- Codes Corporation). Clones were obtained from the EUROIMAGE distribu- tium was formed to create, collect and characterize cDNA tion centers. Sequences were determined by primer walking with custom syn- libraries from various tissues and different states of normaliza- thesized primers (LifeTech) using the Perkin-Elmer BigDye reagents on an ABI-377 fluorescent automated sequencer. C15orf3 nucleotide and protein tion (Adams et al., 1991; Lennon et al., 1996; Schuler et al., sequences are available in GenBank under Acc. No. AL109701. The name 1996; Schuler, 1997; Deloukas et al., 1998). In that context, the has been approved by the Human Gene Nomenclature Committee (http: EUROIMAGE Consortium was constituted in 1997 with the //www.gene.ucl.ac.uk/nomenclature/). objective to complete the sequence and to identify genes Sequence comparisons were performed using ClustalW 1.7 (http://dot. imgen.bcm.tmc.edu:9331/multi-align/multi-align.html). Boxed multiple se- involved in human biological processes and inherited diseases quence alignments were obtained with the BOXSHADE 3.21 program (http:/ by correlating precise map location and expression with pheno- /www.isrec.isb-sib.ch/software/BOX–form.html). To search for known mo- typic data. Our laboratory, a member of this Consortium, is tifs or functional domains, protein pattern and domain databases consulted engaged in the isolation and mapping of novel human genes. were Prosite, SMART and Pfam (http://www.hgmp.mrc.ac.uk/Genome- We report here the cloning, tissue distribution and chromosom- Web/prot-domain.html). al localization of the human gene C15orf3. Northern blot analysis Human multiple-tissue Northern blots (MTN blot, Clontech) were hy- bridized with a 1-kb HindIII restriction product corresponding to the 5) Supported by EU Biomed Project No. BMH4-CT97-2284 to X.E and by CICYT- region of the human IMAGE clone 45620 for detection of C15orf3; and to a IN95-0347. M.E. is funded by the Spanish Ministry of Education (CIDYT con- 2-kb ß-actin cDNA supplied commercially (Clontech) as control for quantifi- tract FPI-070-97) and L.S. by the Catalan autonomous government (CIRIT-RED cation. Probes were labeled using a random primer DNA labeling kit (Bio- contract 1998-64). Rad). Blots were hybridized overnight at 65 ° C in ExpressHyb hybridization Received 1 December 1999; manuscript accepted 4 January 2000. solution (Clontech) and washed at 68 °C in 0.2 × SSC, 0.5 % SDS. Request reprints from Mònica Escarceller, Medical and Molecular Genetics Center, Institut de Recerca Oncològica, Hospital Duran i Reynals, C15orf3 radiation hybrid mapping Autovia de Castelldefels km 2.7, L’Hospitalet de Llobregat, To precisely localize the C15orf3 gene we used the Stanford G3 whole 08907 Barcelona (Spain); telephone: 34-93-260-7775; fax: 34-93-260-7776; radiation hybrid genome panel (Stewart et al., 1997). Two point linkage anal- e-mail: [email protected] ysis was performed using the RHMAP-2.0 on the RH Server at the Stanford

Fax + 41 61 306 12 34 © 2000 S. Karger AG, Basel Accessible online at: ABC E-mail [email protected] 0301–0171/00/0884–0330$17.50/0 www.karger.com/journals/ccg www.karger.com Fig. 1. Multiple sequence alignments of the human C15orf3 polypeptide and its mouse and rat homologs. Identical residues are printed in reverse type, and similar residues are shaded. Consensus sequence is shown at the bottom with identical amino acids in the three species marked with asterisks and similar amino acids, or identical in only two species, noted as dots.

Human Genome Center (http://www-shgc.stanford.edu/RH/index.html). to a unique sequence in mouse. None of the murine clones We used primers F2 (5) GAATGAACCCAAAAGATAGC 3)) and R1 (5) selected for sequencing were available due to contamination GAGAAGACCCCGTTTGA 3)). The PCR conditions were 1 cycle at 94 ° C for 3 min; 35 cycles at 94 °C for 30 s, 54 ° C for 30 s and 72 °C for 1 min; and from the distribution sources. Nevertheless, we obtained the 1 cycle at 72 °C for 5 min. complete putative amino acid sequence derived from the EST consensus (Fig. 1). Blast search against other species ESTs, revealed one signifi- Results and discussion cant hit with the rat (EST GenBank Acc. No. H35510), how- ever, complete sequencing could not be achieved due to the fact A unique transcript named C15orf3 was identified during that the clone was not available since it was not included in the the analysis of EST clusters within the physical region in IMAGE collection. Fig. 1 shows the partial deduced amino acid 15q21.1→q21.2, near the Marfan syndrome gene. Through sequence of the putative rat gene homologue to C15orf3. assembly and analysis of ESTs corresponding to the UniGene Both rodent homologues showed a high degree of similarity cluster Hs.75847 we selected human cDNA clones for sequenc- in the carboxy terminus of the protein: 94% identity and 95% ing. The overlap of IMAGE clones 45620 (EST GenBank Acc. similarity. The same region in human C15orf3 was 80–82% No. H08232) and 222180 (EST GenBank Acc. No. H85350), identical and 88–90% similar to that of mouse and rat, respec- belonging to this cluster, generated the complete coding se- tively. Human and mouse products displayed good homology quence of C15orf3. at the most 5) portion of the protein as well. The overall identity The entire cDNA contained 1676 nt, with an ORF (from nt human/mouse was 61% and the similarity 69% due to a lesser 25 to 586) encoding a 187 amino acid product with a calculated conservation in the middle part of the proteins. We believe that mass of 20.8 kDa. The 5) untranslated region (UTR) contained we have found three homologous genes belonging to a new an in-frame stop codon at nt position 10. A polyadenylation family sharing novel functional motifs. The analysis with pro- signal (AATAAA) was observed at nt 1631 and a polyA tail at tein domain identification software did not reveal the presence the end (nt 1654). of any important feature in C15orf3. BLAST homology searching against non redundant data- Expression studies of C15orf3 with Northern blots of hu- bases (NCBI) (http://www.ncbi.nlm.nih.gov/cgi-bin/BLAST/) man tissues (MTN human blot, Clontech), were carried out by (Altschul et al., 1997) gave a single significant hit with an un- hybridizing with a specific probe, a 1-kb HindIII restriction characterized mRNA: human PTD014 (GenBank AF092135). product corresponding to the 5) region of the IMAGE clone Nucleotide sequence comparison showed 100% identity be- 45620. In adult tissues, expression was largely ubiquitous tween our gene and PTD014. Further bibliographic search gave (Fig. 2) showing a 1.7-kb mRNA species. A high steady state no more information about this gene. level of C15orf3 mRNA was observed in most tissues exam- To find putative homologues in other species, we performed ined: heart, brain, liver, skeletal muscle, kidney and pancreas. BLAST homology search against “mouse” and “other” dbEST A slightly lower level of expression was seen in placenta and (NCBI). Two significant hits were obtained: EST GenBank lung (Fig. 2). Acc. No. AI836529, included in the cluster Mm. 41921 and Chromosome location of the human C15orf3 gene was EST GenBank Acc. No. AA727412 belonging to Mm. 41906 determined by radiation hybrid mapping using the Stanford (UniGene Collection, http://www.NCBI.nlm.nih.gov/Uni- G3 panel. We determined that the gene was linked to Gene/Hs.Home.html). We assembled both clusters of mouse D15S1244 (STS SHGC-14276) with a lod score of 5.84, which ESTs homologous to C15orf3 in a single contig corresponding is located in 15q21.1→q21.2. This is in gross agreement with

Cytogenet Cell Genet 88:330–332 (2000) 331 the previous mapping of STSs stSG4057, sts-N93791, sts- R92213 and WI-21161 using the Genebridge 4 panel (between D15S146 and D15S209) (Deloukas et al., 1998). These STSs are contained in UniGene cluster Hs. 75847, in which the selected IMAGE clones are included. However our results using the higher resolution panel G3 panel positioned the C15orf3 gene a bit more distally, between D15S209 and D15S998. In summary, we have identified, characterized and finely mapped, within the 15q21.1→ q21.2 region, a new human gene, C15orf3. Comparison with previously described genes at protein and nucleotide levels indicated that C15orf3 is unique without significant homology to any other known gene family. The absence of functional domains in the protein gives no clues for predicting the function of C15orf3. Nevertheless, the fact that C15orf3 shows ubiquitous expression indicates that its function may be a general one, required in all human cells. Moreover, we have determined the putative amino acid se- quence of two homologous genes of C15orf3 in mouse and rat, Fig. 2. Multiple-tissue Northern blot analysis suggesting the existence of a new family of mammalian proteins of C15orf3. The 1-kb HindIII restriction product as yet uncharacterized. was used as a probe revealing a ubiquitously expressed 1.7-kb mRNA species. C15orf3 and ß- actin transcripts are labeled. Acknowledgments

We are grateful to A. Puig and D. Otero for technical support with DNA sequencing. We wish to thank the HGMP Resource Center in Hinxton, UK, and the RZPD in Berlin, Germany, for supplying us with IMAGE cDNA clones.

References

Adams MD, Kelley JM, Gocayne JD, Dubnick M, Deloukas P, Schuler GD, Gyapay G, Beasley EM, Sod- Schuler GD, Boguski MS, Stewart EA, Stein LD, Gya- Polymeropoulos MH, Xiao H, Merril CR, Wu A, erlund C, Rodriguez-Tome P, Hui L, Matise TC, pay G, Rice K, White RE, Rodriguez-Tome P, Olde B, Moreno RF, et al: Complementary DNA McKusick KB, Beckmann JS, Bentolila S, Bihor- Aggarwal A, Bajorek E, Bentolila S, Birre BB, Butl- sequencing: expressed sequence tags and human eau M, Birren BB, Browne J, Butler A, Castle AB, er A, Castle AB, Chiannilkulchai N, Chu A, Clee C, genome project. Science 252:1651–1656 (1991). Chiannilkulchai N, Clee C, Day PJ, Dehejia A, Cowles S, Day PJ, Dibling T, Drouot N, Dunham Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Dibling T, Drouot N, Duprat S, Fizames C, Bent- I, Duprat S, East C, Hudson TJ, et al: A gene map Z, Miller W, Lipman, DJ: Gapped BLAST and ley DR, et al: A physical map of 30,000 human of the human genome. Science 274:540–546 PSI-BLAST: a new generation of protein database genes. Science 282:744–746 (1998). (1996). search program. Nucl Acids Res 25:3389–3402 Lennon G, Auffray C, Polymeropoulos M, Soares MB: Stewart EA, McKusick KB, Aggarwal A, Bajorek E, (1997). The I.M.A.G.E. Consortium: an integrated molec- Brady S, Chu A, Fang N, Hadley D, Harris M, Hus- ular analysis of genomes and their expression. Ge- sain S, Lee R, Maratukulam A, O’Connor K, Per- nomics 33:151–152 (1998). kins S, Piercy M, Qin F, Reif T, Sanders C, She X, Schuler GD: Pieces of the puzzle: expressed sequence Sun WL, Tabar P, Voyticky S, Cowles S, Fan JB, tags and the catalog of human genes. J Mol Med Cox DR, et al: An STS-based radiation hybrid map 75:694–698 (1997). of the human genome. Genome Res 7:422–433 (1997).

332 Cytogenet Cell Genet 88:330–332 (2000) 50 IV. Identificació i caracterització del gen C15orf5

El gen C15orf5, descrit en l’article següent, constitueix un altre exemple d’identificació d’un gen novell sense similitud de seqüència a cap proteïna coneguda en el moment del seu aïllament. En aquesta publicació es presenta el clonatge de C15orf5. La comparació de la seqüència aminoacídica predita amb la d’altres gens ja coneguts va indicar que es tractava d’una nova família de gens. L’anàlisi del seu patró d’expressió en teixits humans indicava un enriquiment a nivell de cor. El mapatge mitjançant híbrids de radiació va confirmar la seva localització a 15q23-q24, quedant exclòs de a regió 15q24- q26 tractada en la següent part de la tesi (Part II).

51 Ref. DNA Seq. 2001 Jul;12(1):67-9

Title

Identification of C15orf5, a heart-enriched transcript on chromosome 15q23-q24

Running head title

Heart-enriched gene C15orf5

Laura Carim-Todd, Lauro Sumoy, Nuria Andreu, Xavier Estivill and

Mònica Escarceller

Medical and Molecular Genetics Center, Institut de Recerca Oncològica,

Hospital Duran i Reynals, Av. Gran Via s/n km 2,7

L'Hospitalet de Llobregat, 08907 Barcelona, Spain

Correspondence: Lauro Sumoy

Phone: 34-93-260-7775 2

Fax: 34-93-260-7776 e-mail: [email protected] 3

Abstract

We have isolated C15orf5, a novel human gene lacking homology to any known protein. The C15orf5 gene encodes a transcript of 1,519 nt with an ORF of 94 amino acids and a predicted protein size of 11.5 kDa. Northern blot analysis showed enhanced expression of C15orf5 in heart. C15orf5 was mapped to chromosome 15q23-q24 using the Stanford TNG4 Radiation Hybrid panel.

Keywords: C15orf5, EUROIMAGE, 15q23-q24.

4

The major goals of the Human Genome Project are the identification of all human genes and the construction of a genome-wide transcript map. The Consortium for Integrated Molecular Analysis of Human Transcripts and their Expression (IMAGE) was constituted in 1993 to create, collect and characterize cDNA libraries from various tissues (Adams et al. 1991; Lennon et al. 1996; Schuler et al. 1996; Schuler, 1997; Deloukas et al. 1998). Completion to full length of the sequences of unique cDNA clones represented in dbEST is a key step toward the characterization of all human genes. The EUROIMAGE Consortium was established in 1997 with the aim to complete the sequence and to identify genes involved in human biological processes and inherited diseases, by correlating precise map location and expression with phenotypic data. Our laboratory, as a member of this Consortium, is engaged in the isolation and mapping of novel human genes. We report here the cloning, tissue distribution and chromosomal localization of the human gene C15orf5.

Among all the clusters we assembled using the EST CAP assembly program (http://www.tigem.it) and the Sequencher software (GeneCodes Corporation), we isolated a partial human cDNA sequence belonging to Unigene cluster Hs.226016 which contained a single open reading frame (ORF). We fully sequenced, as a cluster representative, the IMAGE clone 137356 (EST GenBank Acc. No. R38027). Sequences were determined by primer walking with custom synthesized primers (LifeTech) using the Perkin-Elmer BigDye reagents on an ABI-377 fluorescent automated sequencer. Since the clone did not cover the predicted mRNA, the full-length cDNA sequence was obtained using the rapid amplification of cDNA ends (RACE) method on Marathon- Ready cDNA from adult human heart (Clontech). For 5’ extension the following primers were used: G1 (5’ TTCTCTGTGGTGATTTTTGGTTTTGC 3’), G2 (5’ GTTTTGCCCATCTCTTTCCATTTCC 3’) and G3 (5’ AGAGGCAAAGACATTAGATAGGAGACC 3’). We also performed 3’ RACE extension using primers G4 (5’ GAAATGGAAAGAGATGGGCAAAAC 3’), G5 (5’ GGCAAAACCAAAAATCACCACAG 3’) and G6 (5’ 5

TCACAGCACTTACGGGAGATTTC 3’). PCR extended products were subcloned into the pGEM-T easy vector (Promega) and sequenced as above. The assembly of all different clones gave as a result a total transcript length of 1,519 nt, with an ORF (from nt 345 to 629) encoding a 94 amino acid product with a calculated mass of 11.5 kDa and an estimated pI=8.3. The 5’ untranslated region (UTR) contained an in-frame stop codon at nt position 297. Two polyadenylation signals (AATAAA) were observed at nt 1,378 and nt 1,492 and a polyA tail at the end (1,503 nt).

The gene was designated C15orf5 following the Human Gene Nomenclature Committee instructions (http://www.gene.ucl.ac.uk/nomenclature/). C15orf5 nucleotide and protein sequences are available in GenBank under Acc. No. AF216224.

No significant hit after BLAST homology searching against non redundant databases was found (NCBI) (http://www.ncbi.nlm.nih.gov/cgi-bin/BLAST/) (Altschul et al. 1997). To find putative homologues in other species, we performed BLAST homology searches against “mouse” and “other” dbEST (NCBI), however, no significant scores were obtained. The analysis with protein domain identification software did not reveal the presence of any previously described relevant feature in C15orf5 (http://www.hgmp.mrc.ac.uk/GenomeWeb/prot-domain.html). We have concluded that C15orf5 could encode for a completely novel protein.

Expression studies of C15orf5 with human tissue northern blots (MTN Human blot, Clontech) were carried out by hybridization with a specific probe. In adult tissues, C15orf5 expression showed a 1.4 kb mRNA species (Fig. 1). A high steady state level of C15orf5 mRNA was observed in heart; and its presence was detected in skeletal muscle, liver and kidney (Fig. 1).

Chromosomal localization of the human C15orf5 gene was determined by radiation hybrid mapping using the Stanford TNG4 panel. We used primers F (5’ CTGTTCTTTTGTCTGATGG 3’) and R (5’ TTGGCTTATCTCTGTAGG 3’) 6 with the following PCR conditions: 1 cycle at 94ºC for 3 min; 35 cycles at 94ºC for 30 s, 53ºC for 30 s and 72ºC for 1 min; and 1 cycle at 72ºC for 5 min. The gene was linked to STS SHGC-100054 with a lod score of 5.71 at an approximate distance of 52 kb. Consistent with this result, by BLAST searching against “htgs” database at NCBI, we have found that the C15orf5 gene is present in the genomic sequence of RPCI-11 BAC clone 94P14 (AC016693) which contains SHGC-100054 (http://genome.wustl.edu/gsc/cgi- bin/ace/ctc_choices/ctc.ace). Both WI-17323 (belonging to Unigene cluster Hs.226016) and SHGC-100054 had been mapped previously on chromosome 15q23-q24 between D15S114-D15S115.

In summary, we have identified, characterized and finely mapped within the 15q23-q24 region, a new human gene: C15orf5. Comparison with previously described genes at the protein and nucleotide level indicated that C15orf5 is unique without significant homology to any other known gene family. The absence of functional domains in the protein gives no clues to predict the function of this gene. Nevertheless, the fact that C15orf5 shows an enhanced mRNA expression in heart suggests that it could hold a specific role in this tissue.

Acknowledgments

We are grateful to A. Puig and D. Otero for technical support with DNA sequencing. We wish to thank the HGMP Resource Center in Hinxton, UK, and the RZPD in Berlin, Germany, for supplying us with IMAGE cDNA clones. This work has been supported by EU Biomed Project No. BMH4-CT97-2284 to X. E and by CICYT-IN95-0347. M.E. is funded by the Spanish Ministry of Education (CIDYT contract FPI-070-97) and L.S. by the Catalan autonomous government (CIRIT-RED contract 1998-64). 7

References

Adams M.D., Kelley J.M., Gocayne J.D., Dubnick M., Polymeropoulos M.H., Xiao H., Merril C.R., Wu A., Olde B., Moreno R.F., et al. (1991). Complementary DNA sequencing: expressed sequence tags and human genome project. Science 252, 1651-6.

Altschul S.F., Maden T.L., Schaffer A.A., Zhang J., Zhang Z., Miller W., Lipman, D.J. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein database search program. Nucleic Acids Research 25, 3389-402.

Deloukas P., Schuler G.D., Gyapay G., Beasley E.M., Soderlund C., Rodriguez-Tome P., Hui L., Matise T.C., McKusick K.B., Beckmann J.S., Bentolila S., Bihoreau M., Birren B.B., Browne J., Butler A., Castle A.B., Chiannilkulchai N., Clee C., Day P.J., Dehejia A., Dibling T., Drouot N., Duprat S., Fizames C., Bentley D.R., et al. (1998). A physical map of 30,000 human genes. Science 282: 744-746.

Lennon G., Auffray C., Polymeropoulos M., Soares M.B. (1996). The I.M.A.G.E. Consortium: an integrated molecular analysis of genomes and their expression. Genomics 33, 151-2.

Schuler G.D. (1997). Pieces of the puzzle: expressed sequence tags and the catalog of human genes. Journal of Molecular Medicine 75, 694-69.

Schuler G.D., Boguski M.S., Stewart E.A., Stein L.D., Gyapay G., Rice K., White R.E., Rodriguez-Tome P., Aggarwal A., Bajorek E., Bentolila S., Birre B.B., Butler A., Castle A.B., Chiannilkulchai N., Chu A., Clee C., Cowles S., Day P.J., Dibling T., Drouot N., Dunham I., Duprat S., East C., Hudson T.J., et al. (1996). A gene map of the human genome. Science 274, 540-6.

Stewart E.A., McKusick K.B., Aggarwal A., Bajorek E., Brady S., Chu A., Fang N., Hadley D., Harris M., Hussain S., Lee R., Maratukulam A., O'Connor K., Perkins S., Piercy M., Qin F., Reif T., Sanders C., She X., Sun W.L., Tabar P., 8

Voyticky S., Cowles S., Fan J.B., Cox D.R. et al. (1997). An STS-based radiation hybrid map of the human genome. Genome Res 7:422-33 . 9

Figure legends.

Figure 1. Multiple-tissue northern blot analysis of C15orf5. The 0.7 kb EcoRI cDNA probe reveals an approximately 1.4 kb size mRNA species. C15orf5 and ß-actin transcripts are indicated. Human multiple-tissue northern blot (MTN blot, Clontech) was hybridized with a 0.7 kb EcoRI fragment from the insert of human cDNA IMAGE clone 137356 and to a 2 kb ß-actin cDNA supplied commercially (Clontech) as control for quantification. Probes were labeled using a random primer DNA labeling kit (Amersham Pharmacia). Blots were hybridized overnight at 65ºC in ExpressHyb hybridization solution (Clontech) and washed at 68ºC in 0.2XSSC/0.5%SDS.

Figura 1 (Carim-Todd et al, 2001) 52