Chroniques génomiques

ADNc : les incontournables

par Bertrand JORDAN

médecine/sciences 2001 ; 17 : 81-4

u tout début des années 1990, Redondant par principe (puisque l’on une exploitation informatique plus l’on peinait à séquencer une détermine les séquences partielles de sophistiquée, et surtout une prise de Aou deux centaines de kilobases clones pris au hasard dans des conscience de la nécessité de plani- d’ADN humain, et les résultats scien- banques d’ADNc), cet ensemble était fier une opération de « Très Grand tifiques de tels travaux apparaissaient analysé par des systèmes dénommés Séquençage » comme une entreprise assez minces par rapport aux efforts index* comparant toutes les sé- industrielle, aboutissaient, malgré et aux fonds investis [1]. quences afin de les regrouper en clus- l’absence d’une révolution technique ters censés représenter chacun un majeure, à rendre la lecture de méga- Les débuts des EST transcrit : c’est à partir de ces données bases d’ADN possible et presque qu’avait été faite l’estimation d’envi- abordable. Ces progrès devinrent évi- L’option des ADNc, leur déchiffrage ron 100 000 gènes humains dents pour tous avec l’obtention en partiel mais massif apparurent vite aujourd’hui très discutée [3]. L’utilité 1996 de la séquence complète de la comme une alternative réaliste au sé- des EST fut encore renforcée par la levure. Les 13 mégabases déchiffrées quençage intégral. Lancée en franc-ti- localisation d’un grand nombre constituaient de loin le plus important reur par Craig Venter [2], très large- d’entre eux sur notre génome : effec- ensemble jamais obtenu, et mon- ment médiatisée par le scandale que tuée massivement grâce à l’emploi des traient que de tels projets étaient de- soulevèrent les tentatives de brevets hybrides d’irradiation, celle-ci devait venus viables ; et l’utilité de ces don- sur ces séquences partielles, l’ap- aboutir en 1998 au positionnement de nées était attestée par la découverte proche des EST (expressed sequence plus de 30 000 étiquettes [4]. Ces EST de près de 3 000 gènes « nouveaux » tags) allait jouer un rôle central dans « pré-positionnés » devenaient ainsi (en plus des 3 000 déjà répertoriés) l’exploration de notre génome tout une source gratuite de gènes-candi- chez cet organisme que l’on croyait comme dans la mise au point de pro- dats pour les projets de génétique hu- pourtant très bien connaître après des duits nouveaux. L’accumulation de maine, une fois passée l’indispensable lustres d’études biochimiques et géné- ces étiquettes fut entreprise dans le étape de la localisation. tiques. La démonstration était faite secteur public, les données étant dé- que seul le séquençage intégral per- posées au fur et à mesure dans la base Le grand retour du séquençage mettait d’accéder à l’ensemble des ad hoc dbEST (http://www.ncbi. données géniques. Parallèlement, nlm.nih.gov/dbET/). Elle s’effectua Pendant ce temps les techniques de l’avancée rapide du séquençage du aussi au sein de groupes privés com- séquençage s’amélioraient progressi- nématode (100 mégabases) donnait me Sciences ou Incyte, vement. Des réactifs plus stables, des confiance dans notre capacité à pas- qui gardaient ces résultats pour eux « séquenceurs » plus performants, ser une étape de plus et à aborder les ou en vendaient l’accès à des indus- 3 000 mégabases de l’ADN humain. triels de la pharmacie. D’autres entre- C’est ainsi que fut lancé à partir de prises, notamment Merck, choisirent * Il existe aujourd’hui plusieurs de ces systèmes, en 1997 le déchiffrage intégral de notre général accessibles sur le réseau. En voici une liste : de collaborer avec les laboratoires UNIGENE : http://www.ncbi.nlm.nih.gov/UniGe- ADN. Réalisé principalement en académiques et de financer l’obten- ne/index.html Grande-Bretagne et aux États-Unis tion de données publiques. Le TIGR : http://www.tigr.org/tdb/tgi.shtml (avec une participation minoritaire nombre d’EST répertoriés augmen- IMAGENE : http://image.llnl.gov/image/imagne/ de la France, du Japon et de l’Alle- current/bin/search tait rapidement, atteignant (pour STACK : http://www.sanbi.ac.za/Dbases.html magne), aiguillonné par la concur- dbEST) 325 000 en janvier 1996 et GENEXPRESS : http://idefix.upr420.vjf.cnrs.fr/ rence avec l’initiative privée de Craig CHRONIQUES 550 000 un an plus tard. IMAGE/Genexpress.html Venter et de l’entreprise Celera, il m/s n° 1, vol. 17, janvier 2001 81 donnait lieu en juin 2000 à l’annon- maines), bien plus qu’au cours des dbEST. Ce type d’effort est poursuivi, ce conjointe de la première séquence cinq premières années de cette base tant dans le cadre de CGAP que pour « brouillon » de notre génome. An- de données. En fait, les informations différents tissus spécialisés. L’équipe nonce plus politique que scienti- obtenues grâce aux ADNc jouent ac- de Bento Soares (Université d’Iowa, fique, et séquence dont les critères tuellement un rôle indispensable États-Unis), par exemple, effectue de qualité sont assez mal définis (à dans l’annotation de la séquence hu- des soustractions successives de l’exception des chromosomes 21 et maine : c’est bien souvent en compa- banques d’ADNc afin d’augmenter la 22 qui, eux, sont de qualité « finie »); rant les EST et la séquence géno- proportion de séquences nouvelles. il n’en reste pas moins qu’environ mique que l’on repère des exons, Et, bien que cet article soit centré sur 90 % de notre génome est d’autant plus que de telles comparai- les travaux portant sur l’homme, aujourd’hui déchiffré avec un taux sons s’accommodent assez bien de sé- n’oublions pas les nombreux projets d’erreur d’une fraction de pour cent, quences de qualité « brouillon ». De menés sur d’autres organismes pour et que toutes ces données sont acces- plus, l’analyse des ADNc met au- lesquels les EST sont souvent la prin- sibles à quiconque dispose d’un accès jourd’hui en évidence des phéno- cipale information génomique ac- Internet. Avancée considérable, dont mènes susceptibles de modifier pro- tuellement disponible... on pourrait attendre une explosion fondément la compréhension de de nouveaux résultats et la résolution notre matériel génétique et même La quête de l’ADNc full length de maintes controverses. Le moins celle de l’évolution. que l’on puisse dire est que ce n’est De très nombreuses séquences par- Depuis quelque temps, l’obtention pas toujours le cas, comme le montre tielles d’ADNc continuent à être ob- de jeux importants d’ADNc com- l’incertitude actuelle sur le nombre tenues dans le cadre de projets EST, plets, et leur séquençage, sont deve- de gènes humains dont l’estimation en ciblant le plus possible des tissus nus le but de nombreuses équipes. La varie de moins de 30 000 à plus de spécialisés dont les gènes spécifique- plupart des clones d’ADNc à partir 120 000 [3]... ment exprimés n’ont pas encore été desquels des EST ont été déterminés échantillonnés. De plus, un effort gé- sont en effet courts et peu représen- Les EST continuent néral est effectué pour obtenir et dé- tatifs de l’ARN messager dont ils déri- chiffrer des ADNc complets (full length) vent. La majeure partie des banques C’est que l’interprétation de la sé- représentant l’intégralité du trans- séquencées ont été construites par quence, et notamment la détection crit. Un point général de ces travaux l’équipe de Bento Soares, en utilisant des gènes, posent des problèmes re- a été récemment effectué lors du col- un amorçage sur la queue polyA de doutables dans le cas de l’homme (et loque « Transcriptome 2000 » tenu à l’ARN messager, suivi de deux traite- des mammifères en général). La l’Institut Pasteur début novembre ments d’égalisation pour augmenter complexité des structures géniques, 2000**. Il a fourni la plupart des in- la proportion de séquences peu ex- la multiplicité d’exons souvent très formations résumées dans cette chro- primées (parmi lesquelles se trouve petits, l’existence de nombreux pseu- nique – qui n’est pas pour autant un la plus forte proportion de séquences dogènes, le caractère relativement compte rendu de cette réunion, au « nouvelles »). Dans ces conditions la flou des signaux d’épissage et encore cours de laquelle bien d’autres taille moyenne des inserts, qui se si- plus des promoteurs... tout cela rend thèmes ont été abordés. tuent tous à l’extrémité 3’ du trans- actuellement impossible une inter- crit, est de l’ordre de la kilobase. Or prétation a priori fiable des données La nouvelle vague des projets EST beaucoup d’ARN messagers ont une humaines, même lorsqu’il s’agit de humains a débuté dès 1997, avec le longueur de plusieurs milliers de séquence « finie » : les difficultés d’an- programme CGAP du National Cancer bases, et la région 3’ non codante notation des chromosomes 21 et 22 Institute dont l’objectif était d’explo- mesure souvent plus d’une kilobase : le montrent très clairement [5, 6]. rer les tissus tumoraux en obtenant on pourra s’en persuader en exami- Du coup, loin d’être devenue ca- des banques d’ADNc à partir de tu- nant un jeu pris au hasard de grands duque, l’analyse des EST et plus gé- meurs ou de fragments microdissé- ADNc humains sur la base de don- néralement l’étude des ADNc conti- qués. La fraction de séquences « nou- nées du Kazusa Sequencing Institute nue de plus belle*. En témoigne velles » (non homologues à des (Japon) (http://zearth.kazusa.or.jp/ notamment la progression du séquences déjà contenues dans huge/). Les EST 3’ et 5’ obtenus à nombre de séquences nouvelles dans dbEST) s’est avérée importante dans partir d’un tel clone peuvent donc dbEST : 3 millions entre 1999 et 2000 ces données, et a permis d’accroître ne contenir aucune séquence codan- (dont 1 million de séquences hu- très nettement la représentativité de te. Ils ne révèlent alors rien sur la na- ture de la protéine codée par le gène correspondant, et ne permettent au- * En tout état de cause, les EST sont aujourd’hui le cune prédiction fonctionnelle. Pen- réactif presque obligatoire pour la construction de ré- dant assez longtemps, la démarche seaux d’ADN sous forme de macroarrays ou de mi- généralement suivie a consisté à ob- croarrays. Je ne discute pas ici cet aspect qui est très ** Transcriptome 2000, organisé par Charles Auf- important, même si l’on peut penser que les réseaux fray, Bento Soares et Sumio Sugano à Institut Pas- tenir, «à l’unité», le clone d’ADNc seront à l’avenir fondés de plus en plus sur des oli- teur du 6 au 9 novembre 2000. Voir le site corres- complet à partir d’un EST jugé parti- gonucléotides de synthèse [7]. pondant http://www.vjf.cnrs.fr/transcriptome/ culièrement intéressant en raison de 82 m/s n° 1, vol. 17, janvier 2001 son profil d’expression et/ou de sa ailleurs, la lecture révèle souvent des étudiés dans le projet du DKFZ (Hei- localisation chromosomique. Cela amorçages internes qui, lors du clo- delberg, Allemagne), les séquences était réalisé en criblant des banques nage, ont eu lieu sur des régions in- complètes montrent que deux, trois d’ADNc spécialisées, et en pratiquant ternes riches en A et non sur la ré- ou même quatre clusters Unigene cor- différentes manœuvres d’extension gion polyA 3’ terminale. Enfin le respondent en fait au même gène (5’ RACE, par exemple) à partir du débrouillage des différents clones avec des exons alternatifs. Ce sont là clone existant et de l’ARNm d’un tis- d’ADNc correspondant aux épissages autant de gènes « en trop » dans les su judicieusement choisi. alternatifs (voir plus loin) demande dénombrements fondés sur ce type La nouvelle tendance, en cours de- beaucoup de temps. Les différents d’analyse... Plusieurs exemples mon- puis quelque temps déjà, consiste à projets annoncent avoir obtenu de trant cinq ou six épissages alternatifs s’efforcer d’obtenir des banques quelques centaines à près de du même gène ont été présentés, contenant une forte proportion 20 000 séquences de clones full length. sans que l’on sache si toutes les d’ADNc complets, puis à identifier Il existe certainement de nombreux formes sont biologiquement signifi- les clones correspondant à ce critère doublons dans ces travaux, d’autant catives. Cette question de la pertinen- grâce à un séquençage partiel, et en- plus que les séquences sont trans- ce biologique est évidemment capita- fin à déchiffrer intégralement celles mises aux bases de données avec un le, et les informations à ce sujet des séquences qui sont à la fois full certain retard, et en tous cas après la restent fragmentaires*. J’aurais per- length et nouvelles. Les méthodes em- fin du séquençage complet d’une sé- sonnellement tendance à penser que ployées sont variées. Certaines rie de clones. Il n’en reste pas moins la majorité de ces épissages ont un équipes effectuent une sélection sur que l’ensemble de ces travaux devrait rôle fonctionnel, et que ces phéno- la taille de l’ARNm et/ou sur celle de fournir rapidement la séquence com- mènes permettent de produire 2 ou l’ADNc après rétrotranscription plète des transcrits pour les 20 000 à 3xN protéines à partir de N gènes (Bento Soares, Université d’Iowa, 25 000 gènes humains les plus appro- (chacun donnera à N la valeur qui États-Unis ; Omahu Ohara, Kazusa chables (parce que exprimés dans lui convient**). Ces possibilités mon- DNA Research Institute, Japon ; Stefan des tissus accessibles). trent l’intérêt que peut présenter Wiemann, Deutsche Krebs Forschungs pour l’organisme une structure mor- Zenter, Heidelberg, Allemagne ; Ro- Généralité de l’épissage alternatif celée des gènes. Elles en constituent bert Strausberg, National Cancer Insti- peut-être une justification, qui s’ajou- tute, Bethesda, États-Unis). D’autres La fréquence et la complexité des te à l’habituel argument évolutif : la utilisent la « coiffe » présente à l’ex- phénomènes d’épissage alternatif res- construction facilitée de protéines trémité 5’ de l’ARN messager pour sortent de manière évidente à l’exa- multifonctionnelles par assemblage isoler les ARNm complets par un sys- men de ces résultats. Ils se présentent de domaines protéiques ayant évolué tème de capture (cap trapping) bioti- sous de nombreuses formes : variation indépendamment. N’oublions pas les ne/avidine (Judy Margolin, Baylor, de la limite des exons (extension ou modifications post-traductionnelles États-Unis ; June Kawai, Riken, Tsuku- raccourcissement), déplacement du qui, elles, peuvent donner naissance ba, Japon) ou pour procéder à la li- site d’initiation de la transcription ou à plusieurs entités à partir de chaque gation en 5’ d’un oligonucléotide qui du site de polyadénylation, exons ou séquence d’acides aminés... se retrouve ensuite dans l’ADNc introns cryptiques, saut d’exons, répé- (Sumo Sugano, Université de Tokyo, tition d’exons... L’obtention de sé- D’autres surprises ? Nedo cDNA project [MITI] Japon). quences d’ADNc full length révèle ces Notre Génoscope mène également phénomènes, dans la mesure où des Un dernier élément nouveau, encore un travail de ce type en utilisant des clones complets s’avèrent différents imprécis et qualitatif, ressort de ces banques d’ADNc produites par l’en- après séquençage tout en partageant travaux : il semble que les cas de treprise Lifetech. d’importantes zones homologues à gènes présents à plusieurs exem- Les équipes effectuent ensuite une 100 %. La comparaison avec la sé- plaires, sur le même chromosome ou séquence en 5’ et en 3’ afin de déter- quence « brouillon » du génome joue sur des chromosomes différents, miner si l’ADNc est complet ou un rôle important en permettant de soient en train de se multiplier. Ces presque (au minimum, présence montrer que ces formes correspon- indications résultent de la comparai- d’un ATG dans un contexte de sé- dent bien au même gène. Récipro- son entre les ADNc complets et la sé- quence approprié), et s’il est nou- quement, bien sûr, cette comparaison veau (en tant qu’ADNc complet), définit avec précision l’ensemble des avant de procéder à sa séquence exons. On parle maintenant de 50 % * Il semble – mais les indications sont encore frag- complète. Le rendement dépend de gènes présentant un épissage alter- mentaires – que les schémas d’épissage alternatifs diffèrent souvent entre l’homme et la souris. On peut beaucoup des projets et des tech- natif, et le comité de nomenclature en déduire que cela indique leur caractère artefac- niques : de quelques pour cent à la de Hugo (Human Genome Organisa- tuel... ou au contraire que cela démontre leur rôle moitié de clones obtenus s’avèrent tion) commence à attribuer des noms possible dans la différenciation des espèces ! être complets. Il n’est d’ailleurs pas spécifiques à ces différentes formes.... ** L’estimation faite par l’équipe du Génoscope à partir de la séquence « brouillon » couvrant près de toujours évident de le déterminer, le Dans de nombreux cas, l’épissage al- 90 % de notre génome confirme celle publiée en juin critère de l’ATG et de son environne- ternatif fausse les résultats des gene in- 2000 dans [8] et prenant en CHRONIQUES ment n’étant pas très restrictif ; par dexes. Pour plus du tiers des ADNc compte 42 % de cet ensemble : moins de 30 000 gènes. m/s n° 1, vol. 17, janvier 2001 83 quence brouillon du génome hu- 30 000 gènes « seulement » peuvent 6. Hattori M, Fujiyama A, Taylor TD, et al. main ; elles sont encore fragmen- rendre compte de la complexité de The DNA sequence of human chromosome 21. The chromosome 21 mapping and se- taires, et peuvent dans certains cas notre organisme... quencing consortium. Nature 2000 ; 405 : être liées à des erreurs dans ce 311-9. brouillon (séquences attribuées au 7. Jordan B. Jusqu’où iront les puces ? Med mauvais chromosome ou à la mauvai- Sci 2000 ; 16 : 950-3. se région) ; mais il se pourrait que le RÉFÉRENCES phénomène soit assez général et 8. Roest Crollius H, Jaillon O, Bernot A, et 1. Martin-Gallardo A, McCombie WR, Go- al. Estimate of human gene number provi- ajoute à la complexité de notre cayne JD, et al. Automated DNA sequencing ded by genome-wide analysis using Tetrao- génome – tout comme à la difficulté de and analysis of 106 kilobases from human chromosome 19q13.3. Nat Genet 1992 ; 1 : don nigroviridis DNA sequence. Nat Genet définir le résultat du sweepstake de Cold 34-9. 2000 ; 25 : 235-8. Spring Harbor! (Voir http://www.ensem- bl.org/Genesweep/). 2. Adams MD, Kerlavage AR, Fleischmann RD, et al. Initial assessment of human gene On le voit, la saga des EST n’est pas diversity and expression patterns based terminée. Loin de correspondre à upon 83 million nucleotides of cDNA se- Bertrand Jordan une étape désormais caduque dans quence. Nature 1995 ; 377 ; 3-174. l’analyse du génome humain, l’étude 3. Roest Crollius H, Jaillon O. Le nombre Marseille-Génopole, Parc scientifique de des ADNc s’avère aujourd’hui indis- de dans le genome humain : les paris Luminy, case 901, 13288 Marseille sont ouverts. Med Sci 2000 ; 16 : 988-90. pensable à la compréhension des Cedex 9, France. nouvelles données sur notre géno- 4. Deloukas P, Schuler GD, Gyapay G, et al. me ; combinée avec la séquence A physical map of 30 000 human genes. brouillon, elle est en train de chan- Science 1998 ; 282 : 744-6. ger l’image que nous nous faisons de 5. Dunham I, Shimizu N, Roe BA, et al. The TIRÉS À PART notre ADN et, sans nul doute, de DNA sequence of human chromosome 22. nous aider à comprendre comment Nature 1999 ; 402 : 489-95. B. Jordan.

À PARAITRE coordonnatrice : Odile Cohen-Haguenauer ix ans après le début des tentatives de transfert de gènes à visée thérapeutique Dchez l'homme et au lendemain de résultats parfois spectaculaires ou dramatiques, cet ouvra- ge établit un inventaire des progrès réalisés et LaLa ththéérapierapie dresse un panorama des technologies utilisées. Organisé en 51 chapitres, La thérapie génique synthétise l'expérience de 128 auteurs, étayée par près de 2 000 références bibliographiques. L'ouvrage est structuré en quatre parties, étu- diant les principaux champs d'investigation de la recherche et de ses applications cliniques : • la première partie est consacrée à la régulation de l'expression génique ainsi qu'à de nombreux ggééniquenique systèmes vecteurs et leur ciblage ; • la deuxième a pour objet les différentes cibles tissulaires et leurs applications dans plusieurs pathologies d'organes ou de tissus, tels que le tissu hématopoïétique, le foie, le poumon, le cer- veau, le système cardiovasculaire... ; • la troisième aborde les différentes approches ISBN : 2-7430-0347-2 de thérapie génique du cancer (antiangiogénèse, 744 pages gènes-suicides, immunothérapie) ; • enfin, la quatrième partie considère les aspects février 2001 successifs du développement des produits de 995 FF / 151,69 € thérapie génique : réglementa- 46 schémas tion, contraintes de produc- 52 photos NB tion, protection intellectuelle... 21 tableaux www.eminter.fr

84 m/s n° 1, vol. 17, janvier 2001