PART I Introducció
Total Page:16
File Type:pdf, Size:1020Kb
PART I Introducció 19 20 La primera part d’aquest treball fa referència al context històric en el qual es va situar l’inici d’aquesta tesi doctoral. Es pot considerar un exemple de l’importància i dels esforços invertits per la comunitat científica per a desxifrar el contingut gènic humà. A continuació es recullen els resultats obtinguts pel nostre laboratori com a membres del Consorci EuroImage. L’estratègia utilitzada i els resultats obtinguts han contribuït a avançar en el coneixement dels gens continguts en els genomes seqüenciats durant les últimes dècades. I. Heretabilitat, trets genètics i genoma humà La consciència de l’existència d’heretabilitat de trets físics i del comportament va sorgir en l’antiguitat. Aquest fet queda reflectit en l’àmbit de la ramaderia (cria i millora genètica dels animals domèstics) o en l’àmbit agrícola (obtenció de cultius més productius, més resistents…). L’herència de certes característiques fenotípiques era reconeguda com a familiar. Principalment l’estudi de l’herència d’anomalies fenotípiques i malalties va establir els fonaments per a una nova visió de la biologia i la medicina on s’incorporava un nou factor: l’herència i els antecedents familiars. En un primer moment, el coneixement i la definició de diferents modes d’herència es va descriure sense conèixer la base física d’aquesta herència. El coneixement de l’existència dels gens o del material genètic va esclatar quan es van recuperar els estudis de Mendel amb les plantes del pèsol. Aquests estudis i el descobriment de la naturalesa física i molecular de l’agent responsable d’aquesta heretabilitat, l’àcid desoxiribonucleic, DNA, va suposar l’inici d’una revolució en els camps de la medicina i la biologia. Va sorgir un especial interès pel coneixement de les bases moleculars de malalties d’herència mendeliana com per exemple la malaltia de Huntington o l’anèmia de Fanconi. És per això que actualment la majoria de les malalties o alteracions hereditàries estudiades i més conegudes són aquelles causades per un sol gen. En aquest cas un sol gen quan és anòmal és responsable de donar lloc a la malaltia (mutacions puntuals, repeticions…). Aquest tipus de trets són els anomenats monogènics. Actualment, un dels objectius principals de la biomedicina és aconseguir determinar el paper dels gens en caràcters amb patrons d’herència complexos o no mendelians. És el cas d’alteracions com la diabetis, els càncers o moltes malalties mentals. S’hi inclouen també trets fenotípics complexos com l’alçada, 21 el comportament, l’inteligència o la pigmentació de la pell. En aquests casos és probable que més d’un gen i més d’una mutació siguin presents per a que la malaltia o tret fenotípic es manifesti. És evident a més a més, que moltes d’aquestes variacions genètiques actuen com a factors de susceptibilitat no determinants i que l’influència de l’entorn és també un factor a tenir en consideració. Aconseguir discernir entre tots aquests agents i el seu paper en diferents alteracions fenotípiques ha esdevingut essencial per a la biologia i medicina actuals. Una de les eines principals per tal d’aconseguir identificar aquests factors i determinar la seva funció és l’obtenció de la seqüència genòmica humana i d’organismes model completa, acurada i disponible sense restriccions per a la comunitat científica. Amb aquest objectiu es va engegar el Projecte Genoma Humà, objecte de la següent secció, i en el context del qual es desenvolupa la recerca duta a terme en aquesta tesi. II. Context històric: Projecte Genoma Humà La primavera de l’any 2003 és considerada la data oficial de l’obtenció de la seqüència completa del genoma humà. Des del seu inici va ser evident que es tractava d’un esdeveniment que revolucionaria la biologia i obriria nous camps d’aplicació a nivell de la medicina molecular, la biotecnologia, el control ambiental, els recursos energètics o l’avaluació de riscs. La primera publicació que menciona la possibilitat i importància d’obtenir la seqüència completa del genoma humà data de mitjans dels anys 80 (Dulbecco, 1986). La creixent innovació i l’optimització experimental (el clonatge amb cromosomes artificials de llevat (YAC), els mapes genètics d’alta resolució, la seqüenciació automàtica fluorescent, l’algoritme de BLAST per alinear seqüències) va permetre que l’any 1990 el Departament d’Energia (DOE) i els National Institutes of Health (NIH) dels Estats Units iniciessin oficialment el Projecte Genoma Humà (HGP, Human Genome Project) amb l’objectiu final d’obtenir la seqüència nucleotídica completa del genoma humà. La posterior incorporació del Wellcome Trust britànic optimitzant l’ús de cromosomes artificials de bacteris (BAC) per a mapatge i seqüenciació va permetre a finals de l’any 1992 l’obtenció dels mapes físics complets del cromosoma Y (Foote et al., 1992; Vollrath et al., 1992) i del cromosoma 21 (Chumakov et al., 1992). A partir d’aquest moment i durant els anys següents es van aconseguir generar 22 mapes genètics de baixa resolució humans i murins i es va obtenir la primera seqüència completa d’un organisme viu de vida lliure, el genoma del bacteri Haemophilus influenzae (Fleischmann et al., 1995). Al mateix temps es produia un augment significatiu en l’obtenció de dades de seqüència i expressió gràcies a projectes com l’iniciat per l’IMAGE Consortium (Lennon et al., 1996), el RIKEN (Wada, 1994) o el projecte genoma del llevat Saccharomyces cerevisiae (Dujon, 1996). La competència declarada per part del sector privat (Celera Genomics) per a obtenir la seqüència completa del genoma humà va accelerar dràsticament la producció i alliberació de dades de seqüència i mapatge a la comunitat científica. El cromosoma 22 es considera el primer cromosoma humà en ser totalment seqüenciat (Dunham et al., 1999). A mesura que s’anaven obtenint, les seqüències genòmiques provisionals parcials (draft) es posaven a l’abast de la comunitat científica a les bases de dades públiques. Aquesta informació va resultar, i encara ho és avui dia, molt útil per a nombrosos projectes, entre els quals s’inclou aquesta tesi. És important tenir en compte la naturalesa provisional i canviant d’aquesta informació, especialment durant la fase més productiva i competitiva del projecte. En aquest context es situen la major part dels resultats obtinguts en les dues primeres parts d’aquest treball. L’any 2001 es va publicar la seqüència provisional completa del genoma humà representant aproximadament el 90% de la seqüència eucromàtica, és a dir, la corresponent a DNA no repetitiu i, en principi, amb capacitat de transcriure’s (Lander et al., 2001; Venter et al., 2001). Es tractava de seqüència que no arribava a complir els criteris de qualitat establerts per a la seqüència final acabada i per tant, va ser necessari utilitzar les dades amb precaució. Tot i el seu grau de provisionalitat, aquestes dades han resultat molt útils tant a nivell d’estudis genòmics globals com a nivell d’anàlisi de gens particulars. Des d’aquest moment i fins l’any 2003 es va anar obtenint el que s’ha considerat seqüència definitiva acabada. Aquestes dades cobreixen el 99% del DNA eucromàtic i es considera que actualment existeixen menys de 400 discontinuïtats o gaps. L’1% restant no seqüenciat correspón a DNA centromèric i repetitiu, la seqüenciació del qual no és tecnològicament factible actualment. 23 De forma paral.lela i complementària a l’obtenció de la seqüència crua del DNA humà, nombrosos avenços tecnològics s’han produït pel que fa a les eines per a la seqüenciació, aconseguint reduïr-ne el cost econòmic i augmentar el volum i la velocitat de producció de dades. La disponibilitat de la seqüència genòmica humana ha permès començar a avançar en el coneixement de la variabilitat nucleotídica entre individus i en l’aplicació d’eines de genètica comparativa usant els genomes d’altres organismes model seqüenciats (ratolí, rata, Drosophila melanogaster o Caenorhabditis elegans). Paral.lelament, avenços significatius s’han produït en el camp de la bioinformàtica i biologia computacional, com és el desenvolupament d’eines per a la generació, captura i anotació de dades, el desenvolupament de programes per a la representació i anàlisi de similaritat i variació de seqüència, i les millores en el contingut i usabilitat de les bases de dades. Algunes dades concretes obtingudes a partir de la seqüència publicada del genoma humà i algunes incògnites que encara queden per esbrinar es recopilen a les Taules 1 i 2. Taula 1. Algunes dades obtingudes a partir de la seqüència completa del genoma humà. Conté 3 mil milions de parells de bases nucleotídiques. La mida mitjana d’un gen és de 3000 bases. La distrofina és dels gens coneguts el més gran, 2’4 megabases. Més del 50% dels gens identificats tenen funció desconeguda. El 99’9% de la seqüència genòmica és idèntica entre individus. Aproximadament el 2% del genoma conté informació per a codificar proteïna. Com a mínim el 50% del genoma és seqüència repetitiva no codificant. La seqüència repetitiva té un paper en l’estructura i dinàmica dels cromosomes. Són responsables de generar reorganitzacions genòmiques donant lloc a gens completament nous o a noves seqüències gèniques. El genoma humà conté una proporció de seqüència repetitiva major que altres organismes seqüenciats (Caenorhabditis elegans, Drosophila melanogaster o Mus musculus). Més del 40% de proteïnes predites comparteixen similaritat de seqüència amb proteïnes de Caenorhabditis elegans o Drosophila melanogaster. Es considera que l’elevat nombre de tipus de proteïnes humanes en comparació amb altres espècies es deu principalment a mecanismes de splicing alternatiu i de modificació post- traduccional. 24 La majoria de famílies de proteïnes són comuns entre humans, Caenorhabditis elegans o Drosophila melanogaster. La principal diferència recau en el número de membres, molt més elevat en humans.