Adnc : Les Incontournables
Total Page:16
File Type:pdf, Size:1020Kb
Chroniques génomiques ADNc : les incontournables par Bertrand JORDAN médecine/sciences 2001 ; 17 : 81-4 u tout début des années 1990, Redondant par principe (puisque l’on une exploitation informatique plus l’on peinait à séquencer une détermine les séquences partielles de sophistiquée, et surtout une prise de Aou deux centaines de kilobases clones pris au hasard dans des conscience de la nécessité de plani- d’ADN humain, et les résultats scien- banques d’ADNc), cet ensemble était fier une opération de « Très Grand tifiques de tels travaux apparaissaient analysé par des systèmes dénommés Séquençage » comme une entreprise assez minces par rapport aux efforts gene index* comparant toutes les sé- industrielle, aboutissaient, malgré et aux fonds investis [1]. quences afin de les regrouper en clus- l’absence d’une révolution technique ters censés représenter chacun un majeure, à rendre la lecture de méga- Les débuts des EST transcrit : c’est à partir de ces données bases d’ADN possible et presque qu’avait été faite l’estimation d’envi- abordable. Ces progrès devinrent évi- L’option des ADNc, leur déchiffrage ron 100 000 gènes humains dents pour tous avec l’obtention en partiel mais massif apparurent vite aujourd’hui très discutée [3]. L’utilité 1996 de la séquence complète de la comme une alternative réaliste au sé- des EST fut encore renforcée par la levure. Les 13 mégabases déchiffrées quençage intégral. Lancée en franc-ti- localisation d’un grand nombre constituaient de loin le plus important reur par Craig Venter [2], très large- d’entre eux sur notre génome : effec- ensemble jamais obtenu, et mon- ment médiatisée par le scandale que tuée massivement grâce à l’emploi des traient que de tels projets étaient de- soulevèrent les tentatives de brevets hybrides d’irradiation, celle-ci devait venus viables ; et l’utilité de ces don- sur ces séquences partielles, l’ap- aboutir en 1998 au positionnement de nées était attestée par la découverte proche des EST (expressed sequence plus de 30 000 étiquettes [4]. Ces EST de près de 3 000 gènes « nouveaux » tags) allait jouer un rôle central dans « pré-positionnés » devenaient ainsi (en plus des 3 000 déjà répertoriés) l’exploration de notre génome tout une source gratuite de gènes-candi- chez cet organisme que l’on croyait comme dans la mise au point de pro- dats pour les projets de génétique hu- pourtant très bien connaître après des duits nouveaux. L’accumulation de maine, une fois passée l’indispensable lustres d’études biochimiques et géné- ces étiquettes fut entreprise dans le étape de la localisation. tiques. La démonstration était faite secteur public, les données étant dé- que seul le séquençage intégral per- posées au fur et à mesure dans la base Le grand retour du séquençage mettait d’accéder à l’ensemble des ad hoc dbEST (http://www.ncbi. données géniques. Parallèlement, nlm.nih.gov/dbET/). Elle s’effectua Pendant ce temps les techniques de l’avancée rapide du séquençage du aussi au sein de groupes privés com- séquençage s’amélioraient progressi- nématode (100 mégabases) donnait me Human Genome Sciences ou Incyte, vement. Des réactifs plus stables, des confiance dans notre capacité à pas- qui gardaient ces résultats pour eux « séquenceurs » plus performants, ser une étape de plus et à aborder les ou en vendaient l’accès à des indus- 3 000 mégabases de l’ADN humain. triels de la pharmacie. D’autres entre- C’est ainsi que fut lancé à partir de prises, notamment Merck, choisirent * Il existe aujourd’hui plusieurs de ces systèmes, en 1997 le déchiffrage intégral de notre général accessibles sur le réseau. En voici une liste : de collaborer avec les laboratoires UNIGENE : http://www.ncbi.nlm.nih.gov/UniGe- ADN. Réalisé principalement en académiques et de financer l’obten- ne/index.html Grande-Bretagne et aux États-Unis tion de données publiques. Le TIGR : http://www.tigr.org/tdb/tgi.shtml (avec une participation minoritaire nombre d’EST répertoriés augmen- IMAGENE : http://image.llnl.gov/image/imagne/ de la France, du Japon et de l’Alle- current/bin/search tait rapidement, atteignant (pour STACK : http://www.sanbi.ac.za/Dbases.html magne), aiguillonné par la concur- dbEST) 325 000 en janvier 1996 et GENEXPRESS : http://idefix.upr420.vjf.cnrs.fr/ rence avec l’initiative privée de Craig CHRONIQUES 550 000 un an plus tard. IMAGE/Genexpress.html Venter et de l’entreprise Celera, il m/s n° 1, vol. 17, janvier 2001 81 donnait lieu en juin 2000 à l’annon- maines), bien plus qu’au cours des dbEST. Ce type d’effort est poursuivi, ce conjointe de la première séquence cinq premières années de cette base tant dans le cadre de CGAP que pour « brouillon » de notre génome. An- de données. En fait, les informations différents tissus spécialisés. L’équipe nonce plus politique que scienti- obtenues grâce aux ADNc jouent ac- de Bento Soares (Université d’Iowa, fique, et séquence dont les critères tuellement un rôle indispensable États-Unis), par exemple, effectue de qualité sont assez mal définis (à dans l’annotation de la séquence hu- des soustractions successives de l’exception des chromosomes 21 et maine : c’est bien souvent en compa- banques d’ADNc afin d’augmenter la 22 qui, eux, sont de qualité « finie »); rant les EST et la séquence géno- proportion de séquences nouvelles. il n’en reste pas moins qu’environ mique que l’on repère des exons, Et, bien que cet article soit centré sur 90 % de notre génome est d’autant plus que de telles comparai- les travaux portant sur l’homme, aujourd’hui déchiffré avec un taux sons s’accommodent assez bien de sé- n’oublions pas les nombreux projets d’erreur d’une fraction de pour cent, quences de qualité « brouillon ». De menés sur d’autres organismes pour et que toutes ces données sont acces- plus, l’analyse des ADNc met au- lesquels les EST sont souvent la prin- sibles à quiconque dispose d’un accès jourd’hui en évidence des phéno- cipale information génomique ac- Internet. Avancée considérable, dont mènes susceptibles de modifier pro- tuellement disponible... on pourrait attendre une explosion fondément la compréhension de de nouveaux résultats et la résolution notre matériel génétique et même La quête de l’ADNc full length de maintes controverses. Le moins celle de l’évolution. que l’on puisse dire est que ce n’est De très nombreuses séquences par- Depuis quelque temps, l’obtention pas toujours le cas, comme le montre tielles d’ADNc continuent à être ob- de jeux importants d’ADNc com- l’incertitude actuelle sur le nombre tenues dans le cadre de projets EST, plets, et leur séquençage, sont deve- de gènes humains dont l’estimation en ciblant le plus possible des tissus nus le but de nombreuses équipes. La varie de moins de 30 000 à plus de spécialisés dont les gènes spécifique- plupart des clones d’ADNc à partir 120 000 [3]... ment exprimés n’ont pas encore été desquels des EST ont été déterminés échantillonnés. De plus, un effort gé- sont en effet courts et peu représen- Les EST continuent néral est effectué pour obtenir et dé- tatifs de l’ARN messager dont ils déri- chiffrer des ADNc complets (full length) vent. La majeure partie des banques C’est que l’interprétation de la sé- représentant l’intégralité du trans- séquencées ont été construites par quence, et notamment la détection crit. Un point général de ces travaux l’équipe de Bento Soares, en utilisant des gènes, posent des problèmes re- a été récemment effectué lors du col- un amorçage sur la queue polyA de doutables dans le cas de l’homme (et loque « Transcriptome 2000 » tenu à l’ARN messager, suivi de deux traite- des mammifères en général). La l’Institut Pasteur début novembre ments d’égalisation pour augmenter complexité des structures géniques, 2000**. Il a fourni la plupart des in- la proportion de séquences peu ex- la multiplicité d’exons souvent très formations résumées dans cette chro- primées (parmi lesquelles se trouve petits, l’existence de nombreux pseu- nique – qui n’est pas pour autant un la plus forte proportion de séquences dogènes, le caractère relativement compte rendu de cette réunion, au « nouvelles »). Dans ces conditions la flou des signaux d’épissage et encore cours de laquelle bien d’autres taille moyenne des inserts, qui se si- plus des promoteurs... tout cela rend thèmes ont été abordés. tuent tous à l’extrémité 3’ du trans- actuellement impossible une inter- crit, est de l’ordre de la kilobase. Or prétation a priori fiable des données La nouvelle vague des projets EST beaucoup d’ARN messagers ont une humaines, même lorsqu’il s’agit de humains a débuté dès 1997, avec le longueur de plusieurs milliers de séquence « finie » : les difficultés d’an- programme CGAP du National Cancer bases, et la région 3’ non codante notation des chromosomes 21 et 22 Institute dont l’objectif était d’explo- mesure souvent plus d’une kilobase : le montrent très clairement [5, 6]. rer les tissus tumoraux en obtenant on pourra s’en persuader en exami- Du coup, loin d’être devenue ca- des banques d’ADNc à partir de tu- nant un jeu pris au hasard de grands duque, l’analyse des EST et plus gé- meurs ou de fragments microdissé- ADNc humains sur la base de don- néralement l’étude des ADNc conti- qués. La fraction de séquences « nou- nées du Kazusa Sequencing Institute nue de plus belle*. En témoigne velles » (non homologues à des (Japon) (http://zearth.kazusa.or.jp/ notamment la progression du séquences déjà contenues dans huge/). Les EST 3’ et 5’ obtenus à nombre de séquences nouvelles dans dbEST) s’est avérée importante dans partir d’un tel clone peuvent donc dbEST : 3 millions entre 1999 et 2000 ces données, et a permis d’accroître ne contenir aucune séquence codan- (dont 1 million de séquences hu- très nettement la représentativité de te.