Une version provisoire initiale de ce Livre blanc a été préparée pour la réunion du 28 janvier. Elle a été révisée de manière substantielle depuis cette date, suite à des discussions pendant et après la réunion. La liste des contributeurs et des participants se trouve à la fin de ce document.

1 Sommaire Introduction...... 3 Chapitre 1. Présentation du contexte ...... 4 Pourquoi maintenant ? ...... 5 Impact potentiel sur la santé humaine...... 7 Encadré 1. Répondre aux besoins de l’écosystème biomédical dans son ensemble ...... 8 Recruter des parties prenantes ...... 9 Recruter des parties prenantes : attitudes du public envers le partage des données...... 9 Recruter des parties prenantes : prestataires de soins de santé ...... 11 Recruter des parties prenantes : secteur industriel...... 12 Recruter des parties prenantes : définition de normes...... 12 Une voie à suivre...... 13 Chapitre 2. Réglementation, déontologie et technologie ...... 15 Aspects réglementaires et déontologiques...... 16 Aspects techniques ...... 21 Encadré 2. Pourquoi envisager l'informatique dématérialisée ? ...... 22 Encadré 3. Efforts expérimentaux ...... 26 Chapitre 3. Prochaines étapes ...... 27 Lancement de la Global Alliance ...... 28 Encadré 4. Incitations au partage...... 31 Ébauche de déclaration de mission, objectifs et principes fondamentaux ...32 Participants, contributeurs et remerciements ...... 33 Bibliographie...... 36

2 Introduction Le coût du séquençage du génome a été divisé par un million au cours de ces dernières années, ce qui a conduit à une profusion d’informations sur la base génétique de la santé et des maladies humaines.

Cette richesse d’informations génomiques devrait en principe accélérer les progrès en biomédecine – en permettant d’intégrer les informations génomiques et cliniques afin d’identifier la base génétique du cancer, des maladies héréditaires, des maladies infectieuses et des réponses aux médicaments. En-delà de la recherche, l’interprétation de séquences individuelles de génome en pratique clinique serait transformée par la généralisation de la comparaison d’un génome à une collection de séquences et de données cliniques regroupées.

Nous ne sommes toutefois pas organisés dans la pratique pour saisir cette extraordinaire opportunité, et nous ne prenons pas non plus le chemin pour y parvenir. Les données sont essentiellement recueillies et étudiées de manière cloisonnée : par maladie, par établissement et par pays. Les procédures réglementaires en vigueur ne pouvaient pas et n’ont pas anticipé les développements technologiques et l’utilité du regroupement des données. Les outils et les méthodes d’analyse ne sont pas standardisés et ils sont incompatibles. Si nous poursuivons sur la voie actuelle, nous obtiendrons probablement un mélange confus de systèmes balkanisés – à l’exemple de ce qui a été développé aux États-Unis pour les dossiers médicaux électroniques – un système qui empêche l’apprentissage à partir des données accumulées en pratique clinique.

Le 28 janvier 2013, cinquante collègues venant de huit pays différents se sont rencontrés pour discuter de cette opportunité et de cette difficulté, et pour examiner les moyens de collaboration à mettre en œuvre pour créer des conditions favorisant l’apprentissage et une médecine génomique prospère. Inspirés par l’exemple d’Internet, du World Wide Web et du Projet Génome Humain, nous avons discuté des normes internationales et de l’infrastructure de technologies de l'information à développer pour partager et intégrer les données d’une manière sécurisée, contrôlée et interprétable, afin de libérer le potentiel de découverte tout en respectant l’autonomie et la confidentialité des patients. Le groupe est parvenu à la conclusion que les besoins du patient, des communautés de la recherche et de la clinique pouvaient être satisfaits en créant les entités suivantes.

Une Global Alliance de partenaires internationaux, ayant pour mission de favoriser des progrès rapides en biomédecine, et collaborant pour définir et maintenir l’interopérabilité des normes techniques de gestion et de partage des données génomiques dans les échantillons cliniques, pour élaborer des recommandations et harmoniser les procédures en matière de confidentialité et de déontologie, et pour inciter les parties prenantes dans tous les secteurs à partager les données et les procédés de manière responsable et volontaire.

Une Plateforme ouverte d’informations qui utilise des normes relatives au stockage sécurisé, aux protocoles de transfert pour le partage d’informations à plusieurs niveaux, au consentement centralisé du participant, aux outils de traitement des données prenant en charge les principales plateformes de séquençage, à un procédé de comparaison des résultats d’analyses entre les centres et les technologies et à une architecture de calcul et une interface de programmation d’application (API) prenant en charge des « applications » et des services innovants.

L’Alliance comprendra également des Entités opérationnelles qui instancient la Plateforme, s’engagent envers des principes communs, fournissent des services et regroupent les données pour les utilisateurs, développent des outils, suscitent l'innovation et font ainsi progresser la recherche et l’apprentissage, l’application et la pratique.

Un puissant effet de réseau sera induit par l’interopérabilité sécurisée et digne de confiance des données génomiques et des outils : plus les données et les procédés peuvent interagir sur une plateforme commune, plus ils deviendront précieux pour les patients, les chercheurs et les professionnels de la santé.

Ce document se concentre sur la création de l’Alliance et il se divise en trois chapitres : le Chapitre 1 présente le contexte, le Chapitre 2 examine les aspects déontologiques et techniques qui constitueront un axe majeur des travaux de l’Alliance, et le Chapitre 3 ébauche la voie pour créer la Global Alliance.

3 Chapitre 1. Présentation du contexte

4 Pourquoi maintenant ?

La médecine est en pleine révolution, alimentée par la possibilité de réunir à peu de frais des informations sur la séquence du génome de nombreux individus. Le coût du séquençage d’un génome individuel atteindra probablement 1 000 dollars dans les années qui viennent. Il semble par conséquent inévitable que le génome de millions de personnes soit séquencé dans les temps à venir. Les principales difficultés concerneront de plus en plus la gestion, l’analyse, l’intégration et l’interprétation des données, plutôt que leur génération.

L’opportunité. En principe, il devrait être possible d’accélérer drastiquement les progrès médicaux par l’utilisation des données mondiales sur les séquences de génome et les phénotypes cliniques, ce qui éclairera les bases biologiques du cancer, des maladies infectieuses, des maladies héréditaires et de la réponse aux médicaments. Le regroupement et l’analyse de grandes quantités de données génomiques et cliniques devrait permettre d’identifier des profils qui, dans le cas contraire, resteraient obscurs – par exemple, quelles sont les mutations identifiées dans une tumeur qui prédisent la réponse au traitement, ou quels sont les variants génétiques qui expliquent des maladies infantiles rares.

L’interprétation clinique de séquences individuelles de génome sera grandement améliorée en comparant celles-ci avec des données abondantes sur la variation de séquence du génome et le phénotype. À l’heure actuelle, il n’est en général pas possible de prédire les changements dans la séquence d’ADN qui entraînent des conséquences cliniques. Leur comparaison à un vaste référentiel d’autres données du même type devrait permettre d’identifier des profils et des relations fortes. Étant donné la grande variété des critères d’évaluation des maladies, la biogéographie variée et les fréquences faibles des variations de séquences, il sera nécessaire de recueillir les données issues de millions d'échantillons.

La difficulté. Malgré les avantages clairs de l’intégration des données, les communautés scientifiques et médicales ne sont pas encore organisées pour saisir cette opportunité – et elles ne prennent pas non plus le chemin pour y parvenir.

À l’heure actuelle, on analyse en général les données de manière isolée, et les tailles d’échantillon sont inadaptées aux découvertes solides. Les procédés incompatibles empêchent l’apprentissage en parallèle dans plusieurs ensembles de données. Les procédures réglementaires et déontologiques ne pouvaient pas anticiper, et par conséquent, elles n’ont pas été conçues pour permettre une comparaison généralisée entre les études et le partage des informations. Quelques investigateurs cliniques ont accès à l’infrastructure analytique nécessaire pour réaliser des analyses sur leurs patients. Même les centres médicaux les plus sophistiqués et disposant de ressources suffisantes considèrent qu’il est difficile de garder le rythme avec l’évolution rapide des outils et des pipelines. La cause de l’interopérabilité et du regroupement des données a été défendue lors de réunions récentes (comme au NHGRI en juin 2012) et par des individus pionniers et des organisations innovantes (par ex., le P3G et Sage Bionetworks). Internet et les réseaux sociaux offrent aux participants, chercheurs et hôpitaux de nouveaux moyens pour échanger d’une manière permanente et dynamique (par ex., le Consentement légal portable). Néanmoins, les problèmes essentiels n’ont pas encore trouvé de solution.

De plus, la fenêtre d’opportunité pourrait bientôt disparaître : relativement peu de données ont été recueillies pour le moment, et il faut encore définir des systèmes opérateurs. En l’absence d’une solution ouverte et interopérable, des systèmes fermés propriétaires seront créés par nécessité. Ceci constituerait un obstacle fondamental au bénéfice des avantages du regroupement des données et ralentirait la compréhension, le diagnostic et le traitement des maladies.

Une croisée des chemins. Ces dernières décennies, les choix ont alterné entre des systèmes fermés propriétaires et des réseaux ouverts compatibles. Dans le cas des dossiers médicaux, les États-Unis ont abouti à un système fragmenté, qui limite pour des décennies la qualité des soins au patient et entrave la capacité à apprendre de l’expérience. Aujourd’hui, avec les systèmes en place, le système américain de dossier médical est quasiment impossible à changer.

Par contre, Internet, le WWW et le Projet Génome Humain sont ouverts, en dépit des efforts menés pour créer des domaines privés. Des systèmes sécurisés permettent de transmettre des informations

5 privées par Internet (par ex., les transactions financières). L’abondance d’innovations qui en a résulté a transformé notre monde.

Alors que nous pénétrons dans l’ère du séquençage génomique généralisé, nous parvenons à un autre carrefour.

6 Impact potentiel sur la santé humaine

Ces développements créent de nouvelles opportunités pour mieux connaître les maladies, améliorer la prévention et la détection précoce, définir des catégories de diagnostic, rationaliser les essais cliniques et adapter le traitement au patient. L’effet peut être rapide (par ex., une thérapie ciblée basée sur la caractérisation génomique) ou à plus long terme (découverte de cibles moléculaires conduisant à de nouvelles thérapies plus efficaces).

Thérapie et pronostic du cancer. Les thérapies ciblées détiennent un formidable potentiel pour les patients atteints du cancer. En effet, plus de 800 médicaments ciblés contre le cancer sont actuellement testés en vue d’une homologation par la FDA. La personnalisation des médicaments pour les patients requiert le recueil généralisé et l’analyse des données génomiques d’une manière dynamique et permanente. Quand seules quelques personnes portent une mutation génétique particulière, il est nécessaire d’analyser de très grands nombres de patients, dépassant l’échelle d’un établissement unique.

Dans certains cas, l’efficacité d’une thérapie est limitée pour une majorité de patients, mais une petite proportion affiche des réponses remarquables. La capacité à analyser conjointement les données génomiques et cliniques de ces quelques répondeurs peut conduire à de nouveaux indicateurs de la réponse clinique, une information qui peut ensuite être utilisée pour associer les patients porteurs de ces indicateurs aux médicaments qui peuvent les aider.

Maladies génétiques rares. Plus d’un pour cent de tous les nouveau-nés sont atteints d’une maladie développementale ou génétique. L’association du séquençage génomique et du phénotypage clinique offre le plus sûr espoir de diagnostiquer les troubles dus à des syndromes génétiques connus et de découvrir les causes sous-jacentes d’un grand nombre des autres.

Cependant, ces troubles sont pour la plupart très rares d’un point de vue individuel, de telle sorte qu’aucun hôpital donné ne rencontrera jamais suffisamment de cas pour forger des liens convaincants entre les mutations génétiques et la maladie. Le diagnostic de ces troubles, rares du point de vue individuel, mais fréquents du point de vue collectif, deviendra possible uniquement par l’analyse des données regroupées. (voir l’étude Deciphering Developpmental Disorders (DDD) qui cherche à améliorer le diagnostic des troubles du développement, un exemple de projet innovant).

Affections médicales fréquentes. Le taux élevé d’échec lors des essais cliniques représente l’une des difficultés les plus pressantes dans le secteur pharmaceutique : seule une petite proportion des candidats médicaments qui entrent en étude clinique conduit à un médicament approuvé, sûr et efficace. La raison essentielle de ce taux élevé d’échec est liée à notre ignorance des causes sous-jacentes à l’origine de la plupart des maladies, et à la capacité limitée des modèles précliniques à prédire l’innocuité et l’efficacité chez les patients.

Les informations obtenues en génétique humaine offrent l’occasion d’améliorer le taux de réussite de la découverte des médicaments, en reliant directement les cibles des médicaments aux résultats cliniques chez l'homme, et en aidant à stratifier les patients pour le traitement en fonction des causes génétiques sous-jacentes.

Maladies infectieuses. Les technologies de séquençage peuvent être utilisées pour surveiller la dissémination des agents infectieux avec une résolution spatiale et temporelle sans précédents, pour réduire le délai du diagnostic, pour étudier des microorganismes ne pouvant pas encore être cultivés, pour déterminer la sensibilité ou la résistance aux antibiotiques et pour identifier les modifications de la flore cutanée ou intestinale associées à des conditions pathologiques.

Pour obtenir ces bénéfices, il est nécessaire de surmonter les nombreux obstacles au regroupement, au partage et à l’analyse conjointe des données génomiques et cliniques à une échelle et avec une qualité adéquates. Le résultat bénéficiera à l’ensemble de l’écosystème biomédical (voir l’encadré « Répondre aux besoins de l’écosystème biomédical dans son ensemble »).

7 Encadré 1. Répondre aux besoins de l’écosystème biomédical dans son ensemble De nombreux segments de l’écosystème biomédical sont affectés de manière défavorable par l’incapacité à partager d’une manière sûre, sécurisée et reproductible les données sur la séquence de génome, sur le phénotype clinique, sur le traitement et sur l'issue.

Les patients atteints de cancer et de maladies héréditaires souhaitent connaître les causes de leur maladie et identifier les traitements ciblés qui pourraient exister. Nombre d’entre eux choisiront de contribuer aux données pour aider à développer de meilleures solutions pour leurs familles et leurs communautés, dans la mesure où leurs souhaits et leur confidentialité sont respectés. À une époque de partage des données, les patients ont besoin d’une voie digne de confiance, notamment en ce qui concerne la gestion des consentements, pour partager de manière altruiste leurs informations génétiques personnelles dans le but d’accélérer les progrès.

Les chercheurs scientifiques recueillent des informations génétiques à une vitesse prodigieuse mais en général, ils n’ont pas accès aux outils logiciels et à l’infrastructure de calcul nécessaires pour gérer cette grande quantité de données. Les investigateurs qui travaillent sur chaque maladie sont confrontés au même ensemble de difficultés de calcul et de logiciel, et ils aboutissent souvent à des solutions non interopérables. Quelques-uns ont accès aux tailles d’échantillon nécessaires pour atteindre la puissance, et ainsi tisser des liens inattendus entre les maladies. Les chercheurs scientifiques ont besoin d'un stockage sécurisé des données, d’outils logiciels de pointe et d’informatique dématérialisée de haute performance. Des outils et des données interopérables valoriseront le travail de chaque scientifique et faciliteront le partage.

Les hôpitaux et les systèmes de soins de santé ont de plus en plus besoin de recueillir, stocker et interpréter des informations génétiques, mais la création individuelle d’outils logiciels et d’infrastructures est onéreuse pour chacun. Individuellement, aucun n’atteint la masse critique de données comparatives nécessaires pour soigner leurs propres patients. L’absence de normes pour partager et protéger les données ralentit l’adoption d’une médecine génomique dans les structures cliniques. Les hôpitaux ont besoin d’une solution digne de confiance pour gérer et traiter les données génomiques, d’outils et de services pour leur interprétation et d’un réseau de partenaires pour partager les connaissances et les informations afin d’aider les patients individuels.

Le secteur biopharmaceutique repose de plus en plus sur les informations génétiques, pour identifier de nouvelles cibles pour le traitement et pour stratifier les patients et concevoir les essais cliniques. Toutefois, les entreprises considèrent qu’il est difficile d’accéder aux informations génétiques et cliniques, que l’expertise interne et les infrastructures nécessaires pour réaliser les analyses sont insuffisantes, et les responsabilités associées aux données génétiques, concernant le consentement éclairé et la confidentialité, les inquiètent. Les entreprises biopharmaceutiques ont besoin de solutions logicielles et de ressources de calcul prêtes à l’emploi, d’un accès aux données publiques et aux collaborateurs potentiels, ainsi que de normes pour le consentement éclairé, afin de faciliter l’utilisation des données génétiques.

Les essais cliniques reposent sur un recrutement qui identifie les patients présentant des altérations génomiques spécifiques. La compréhension de leur histoire naturelle est une difficulté essentielle des essais sur les thérapies ciblées. Les responsables des essais cliniques ont besoin de mécanismes pour identifier les patients présentant des altérations génomiques spécifiques, pour les suivre au cours du temps, pour concevoir des essais efficaces et puissants et pour inviter les patients à les rejoindre dans les recherches. Les réseaux sociaux catalysés par le partage des données peuvent constituer de nouvelles voies d’accès aux patients pour la recherche et les essais.

Les gouvernements et les fondations souhaitent de plus en plus que les données obtenues grâce à leur financement soient largement diffusées. Cependant, ils ne disposent pas des mécanismes permettant de gérer le partage des données, et celles-ci sont pour la plupart en sommeil dans un lieu inaccessible. Ils sont souvent sollicités pour financer des projets redondants de développement de logiciels d’analyse génétique incompatibles. Les gouvernements et les fondations ont besoin d’une solution pour stocker et gérer l’accès aux données, pour partager les données et les procédés, et de s’assurer que les investissements gouvernementaux et philanthropiques produisent le meilleur rendement.

Les organisations de défense des droits en matière de maladie ont pour objectif de réunir les communautés de patients, de diffuser des informations et de stimuler la recherche. Nombre d’entre elles catalysent désormais des projets de recherche génétique pour lesquels leurs patients membres fournissent des échantillons et des informations cliniques. Elles sont toutes confrontées à la même difficulté, développer des plateformes pour les échanges entre patients et trouver une solution pour stocker et analyser les données qu’elles recueillent. Les organisations de défense des droits en matière de maladie ont besoin d’une plateforme à partir de laquelle développer des sites personnalisés pour échanger avec leurs membres et d’une solution prête à l’emploi et intégrée qui soit économique, fiable, sécurisée et qui préserve au besoin la confidentialité pour stocker et analyser les données cliniques et génétiques.

8 Recruter des parties prenantes

Le sous-chapitre suivant envisage cette question du point de vue de plusieurs parties prenantes : l’opinion publique, les prestataires de soins de santé, le secteur industriel et la définition de normes techniques.

Recruter des parties prenantes : attitudes du public envers le partage des données

Les études d’opinion publique sur la confidentialité et l’utilisation des informations génétiques suggèrent que le public pourrait être d’une manière générale favorable au partage accru des informations génétiques et cliniques. Elles donnent également un aperçu de la gouvernance et de l’organisation qui incitent l’engagement et la confiance du public. Parmi les thèmes essentiels, on peut citer les suivants.  L’attitude du public relative à la confidentialité et au recueil de données est très variable. Par conséquent, les approches devront être personnalisées par région et par nationalité1.  Une importante proportion du public exprime une volonté générale à participer au partage des informations génétiques.  L’attitude concernant la diffusion « publique » des données (sans restriction d’utilisation) varie de manière substantielle, et elle favorise les approches qui contrôlent le mieux l’accès et l’utilisation des données par les participants.  Les protections de l’utilisation des données, importantes aux yeux des citoyens, doivent être reconnues et prises en compte.

Les études mentionnées ci-dessous présentent d’importantes limites. La plupart s’est concentrée sur les « biobanques » plutôt que sur le partage des données issues d’autres sources, et sur la confidentialité des données personnelles plutôt que sur les utilisations sécurisées des données. L’attitude du public a pu évoluer depuis la réalisation de ces travaux.

Attitudes variées par rapport au partage des données

Lorsqu’elle est posée dans le contexte d’une biobanque, la volonté affichée de fournir des informations personnelles varie beaucoup entre les pays. En Islande, en Suède et en Norvège, une grande majorité répond à la question suivante par l’affirmative : « Seriez-vous prêt à fournir à une biobanque des informations vous concernant ? » Par contre, la situation est à l’inverse en Lettonie, en Grèce et en Lituanie, une majorité de personnes interrogées s’y opposant. Les opinions concernant le partage des données personnelles varient également fortement au sein de l’UE. Alors que la plupart des personnes interrogées sont globalement favorables à l’échange des données, avec notamment des majorités nettes dans des pays tels que Chypre, l’Islande et la Finlande, la proportion de personnes inquiètes est bien plus élevée dans des pays tels que l’Autriche et l’Allemagne2.

Divers facteurs jouent un rôle dans la décision de partager ses informations personnelles. Dans une étude, les personnes interrogées qui connaissaient déjà les biobanques étaient plus disposées à partager leurs informations que celles ne les connaissant pas auparavant. L’âge, le niveau de formation et la religion influencent l’attitude relative à la participation.

Tout effort international donnera lieu à des attitudes variables sur les questions spécifiques concernant le don, le partage et la détention des données personnelles. Par exemple, lorsqu’ils sont interrogés sur les institutions susceptibles de protéger leurs données, la majorité des Chinois et des Japonais fait confiance à leur gouvernement pour protéger leurs informations personnelles, par rapport à environ la moitié des Canadiens et seulement 20 % des Brésiliens3. Il faut donc éviter de généraliser les opinions publiques au travers des frontières, car les attitudes peuvent être relativement spécifiques aux pays ou aux régions.

Aux États-Unis, une majorité de personnes interrogées au cours de deux études différentes ont indiqué leur volonté de partager des données génétiques dans un but de recherche scientifique ou médicale. Une étude demandait : « En supposant que des protections de la confidentialité appropriées soient mises en place, seriez-vous prêt à partager vos informations personnelles de santé pour faire progresser la recherche médicale ? ». Les deux tiers ont répondu par l’affirmative4. Une autre étude a demandé aux participants s’ils « seraient prêts à donner un échantillon d’ADN à utiliser dans des

9 recherches scientifiques ou médicales actuelles ou futures ». Les trois cinquièmes ont répondu qu’ils étaient « plutôt d’accord » ou « d’accord »5.

Une majorité d’Européens a déclaré soutenir l’utilisation des données génétiques pour la recherche sur les maladies. Une étude a posé la question : « Seriez-vous d’accord … pour que vos informations génétiques soient conservées dans une banque de données nationale pour la recherche sur l’origine des maladies ? ». Les trois cinquièmes ont répondu « oui, absolument » ou « oui, probablement »6. Une autre étude a montré une faible majorité de personnes favorables en Europe, 46 % des Européens étant globalement d’accord pour fournir leurs informations personnelles à une biobanque et 44 % y étant opposés7.

Accès aux données et contrôle de celles-ci

Les résultats d’enquête montrent que les personnes répondent différemment en fonction des protections mises en place pour l’utilisation des données et des informations relatives au consentement. Aux États-Unis, une enquête commerciale a indiqué que dans le public, les trois principales inquiétudes relatives à la confidentialité étaient la protection de la sécurité, le partage des données uniquement avec le consentement et la capacité à effacer ses propres informations personnelles8. Une majorité significative d’Européens a affirmé qu’à leur avis, les données génétiques devaient bénéficier d’une protection particulière du même ordre que des informations telles que celles concernant la santé, les convictions religieuses ou l’origine ethnique9.

Dans le public américain, les recherches ont montré une volonté générale de partager publiquement les données génétiques, mais cette volonté était réduite si les participants étaient davantage informés et connaissaient mieux les possibilités d’utilisation des données. Dans une étude, 80 % des participants ont consenti au départ à la diffusion publique de leurs données, mais après une réunion d’information de suivi, seuls 53 % optaient pour la diffusion publique de leurs données10,11.

Des études ont demandé au public de citer les institutions considérées comme étant les plus dignes de confiance pour détenir ou partager les données. Une étude internationale a montré qu’une minorité de personnes interrogées faisait confiance à des entreprises privées ou au gouvernement pour protéger leurs données personnelles12. Aux États-Unis, les secteurs des soins de santé, des produits de consommation et les banques étaient considérés les plus dignes de confiance en ce qui concerne le respect de la confidentialité13. Dans certaines enquêtes, le partage des données avec des parties prenantes commerciales ou avec le gouvernement a fait l’objet d’inquiétudes, sans aller jusqu’à entraîner le retrait ou la rétention des données par les participants14. Aux États-Unis, la sécurité et le contrôle personnel des données sont des éléments plus importants que la présence de politiques claires15. En Europe, une majorité significative de personnes s’oppose à l’accès aux informations génétiques personnelles par les entreprises d’assurance privée.

Cette rapide vue d’ensemble des études existantes suggère plusieurs conclusions.

 Il existe des preuves d’une volonté générale de participer au partage des données.  On observe d’importantes différences en fonction de facteurs régionaux, nationaux et démographiques. Par conséquent, une approche de type « taille unique » a peu de chance de réussir.  Une grande partie du public exprime des inquiétudes à propos du contrôle de l’utilisation de leurs données, du consentement éclairé, de la confidentialité et de la sécurité. La solution devra tenir compte de ces inquiétudes pour réussir.  Les choix individuels dépendent des informations fournies, la transparence est donc essentielle.  L’opinion publique évolue avec les circonstances et elle est susceptible de changer rapidement.  Il sera nécessaire de réaliser des études d’opinion publique avec des délais de production relativement rapides pour identifier les inquiétudes des individus et des groupes et pour élaborer des approches qui restent d’actualité malgré l’évolution des points de vue au cours du temps.

10 Recruter des parties prenantes : prestataires de soins de santé

Jusqu’à présent, l’impact du séquençage du génome a été plus important en recherche qu’en médecine clinique, mais en anticipant l’avenir, il existe des applications claires et incontestables dans les domaines du diagnostic et de la stratification. Les établissements de soins de santé investissent déjà dans des infrastructures de laboratoire et de calcul pour effectuer le séquençage clinique du génome. Pour améliorer la santé humaine, les ressources de données et les capacités informatiques doivent être adaptées à l’utilisation en soins cliniques. En outre, au fur et à mesure que le séquençage du génome pénètrera dans la clinique, les soins de santé deviendront un lieu essentiel de recueil des données phénotypiques et génétiques nécessaires à la création de systèmes d’apprentissage pour la recherche et les soins cliniques.

Difficultés spécifiques au séquençage clinique

La médecine clinique est probablement plus exigeante que la recherche en matière d’exactitude et de reproductibilité du séquençage du génome. Pourtant, à ce jour, l’expertise et les procédés se concentrent dans les structures de recherche. La médecine clinique est réglementée, de telle sorte que les outils et les approches utilisés en soins cliniques doivent parfois être homologués ou certifiés par des organismes réglementaires nationaux ou locaux. Le séquençage du génome est inhabituel (pour un test clinique), dans le sens où les procédés et les données évoluent rapidement et ne sont souvent plus d’actualité au moment où l’évaluation d’homologation peut être réalisée.

Les systèmes de prestation de soins de santé peuvent appuyer l’application clinique du séquençage du génome par les mécanismes en place pour échanger avec les patients, interpréter les tests, rendre les résultats aux patients et effectuer des recherches cliniques. Cependant en général, les normes, les technologies et l’expertise, ainsi que les données comparatives nécessaires pour utiliser le séquençage du génome dans les soins cliniques font défaut.

Intégration des données cliniques et phénotypiques

Pour apprendre, il sera nécessaire d’analyser les séquences génomiques conjointement avec le phénotype clinique et les données sur les résultats thérapeutiques. En principe, plus les données phénotypiques sont étendues, plus l’occasion d'apprendre est importante. En pratique, l’accès aux données phénotypiques et cliniques dans la communauté varie considérablement, en raison de facteurs culturels, réglementaires, déontologiques, historiques et techniques. Par conséquent, le séquençage du génome en clinique entraînera nécessairement une grande hétérogénéité de quantité et de détail des données phénotypiques et cliniques disponibles, de sophistication des systèmes de dossiers médicaux et d’accessibilité de ces données à des fins de recherche, entre les systèmes de soins de santé.

En raison de cette hétérogénéité, il sera vraisemblablement approprié d’utiliser une approche variée par étape, favorisée par l’harmonisation réglementaire et les normes techniques communes. Quand des données cliniques étendues seront disponibles, leur valeur sera incontestée, l’expérience pourra être acquise et les capacités techniques développées. Mais même des données cliniques limitées peuvent être utiles, et les individus et les institutions peuvent souhaiter commencer par marcher avant de courir. Une approche par étape reconnaît la difficulté de l’harmonisation de la diversité des types de données cliniques, évite les retards jusqu’à ce que ces difficultés aient été surmontées, tout en maintenant l’attention sur l’importance d’une intégration complète des données génomiques et phénotypiques en temps voulu.

En outre, la diversité des environnements et des approches permettra à des entités différentes de résoudre des problèmes distincts et complémentaires. Par exemple, certains pays et systèmes intégrés ont mis en place des dossiers médicaux électroniques perfectionnés et un consentement approprié. De tels groupes seront bien placés pour perfectionner les procédés de gestion et d’harmonisation des données de phénotype, mais ils pourraient manquer d’expérience étendue en matière de technologies de séquençage du génome. D’autres groupes peuvent disposer d’une grande expérience des procédés techniques ou analytiques, mais manquer de données de phénotype. Un mécanisme d’apprentissage sur l’harmonisation des données cliniques en parallèle avec les procédés d’analyse du génome sera plus fructueux que si ces deux domaines restent indépendants, comme cela pourrait sinon être le cas.

11 Recruter des parties prenantes : secteur industriel

Un écosystème vivant et innovant aura besoin et tirera profit aussi bien des organisations à but non lucratif que de celles à but lucratif. Exactement comme le World Wide Web Consortium à but non lucratif a encouragé la création d’un nombre incalculable d’entreprises, une plateforme commune de génomique médicale créera les conditions pour que l’innovation privée puisse soutenir les progrès médicaux et le bénéfice public.

L’égalité de traitement doit être respectée entre le secteur à but non lucratif et le secteur lucratif, afin de permettre l’innovation et la concurrence dans un ensemble diversifié d’organisations. Une voix claire doit s’élever à propos des questions de déontologie et de réglementation, et un ensemble de normes techniques communes doit soutenir une diversité de plateformes de séquençage, de protocoles de transfert de données et de capacités d'informatique dématérialisée. Cette combinaison encouragera l’innovation permanente et les réductions de coût.

Il n’est ni nécessaire ni souhaitable de limiter la diversité des approches qui pourraient être développées par ces entreprises. Le World Wide Web est un écosystème ouvert qui permet et soutient des solutions à but non lucratif telles que Wikipédia aussi bien que des « domaine privés » comme Facebook ou eBay. Les individus doivent être libres de choisir comment leurs données sont utilisées et ils doivent pouvoir participer à des solutions déterminées par le marché proposées par des entreprises privées.

Néanmoins, de la même manière que le World Wide Web Consortium (W3C) maintient les normes qui favorisent l’interopérabilité, la concurrence et l’innovation sur Internet, il est nécessaire qu’un groupe faisant autorité agisse en permanence pour faire progresser les principes fondamentaux tels que la plateforme ouverte, la collaboration entre les secteurs et les juridictions, le respect de l’autonomie du patient et du participant, la conformité avec les cadres réglementaires et déontologiques concernés et la transparence.

Recruter des parties prenantes : définition de normes

La création de normes communes compatibles constitue la clé de voûte dans de nombreux domaines, mais elle a été moins typique dans celui des sciences de la vie. Récemment, le W3C, l’IEEE, l’Internet Society, l’IETF et l’IAB ont créé OpenStand, une « communauté internationale solidaire en faveur du Paradigme moderne pour les normes, un mouvement collectif ouvert pour améliorer radicalement la façon de développer, de déployer et d’adopter les technologies dans le monde entier pour le bénéfice de l’humanité ».

La description du Paradigme moderne comprend la coopération (entre les organisations), le respect des principes (tels que l’équité des procédures, le consensus, la transparence et l’équilibre), la disponibilité (accessible à tous), l’adoption volontaire (la réussite est déterminée par le marché) et la responsabilisation collective, ce qui signifie l’engagement à œuvrer pour des normes qui :

 sont choisies et définies en fonction de leur mérite technique ;  assurent l’interopérabilité mondiale, l’évolutivité, la stabilité et la flexibilité ;  permettent la concurrence internationale ;  servent de pierre d’assise pour de nouvelles innovations et  contribuent à créer des communautés mondiales, dans l’intérêt de l’humanité.

Au moment où les communautés de la génomique et de la clinique envisagent la création de normes communes et d’approches harmonisées, les exemples issus d’autres domaines peuvent être particulièrement utiles.

12 Une voie à suivre

Les progrès en connaissances médicales et l’amélioration des soins cliniques nécessiteront un accès étendu aux données génomiques et cliniques d’une manière sécurisée et fiable, afin de favoriser la comparaison des variants génétiques et des caractéristiques cliniques. Comme les réglementations et les attitudes concernant le partage des données varient au sein et entre les pays, et comme les besoins et les objectifs sont différents selon les secteurs, il est nécessaire d’assurer l'interopérabilité tout en préservant la diversité des approches et des applications.

Afin d’atteindre ces objectifs, une Global Alliance permettra de réunir les chercheurs, les prestataires de soins de santé, les financeurs, les groupes de défense des droits en matière de maladie, les entreprises spécialisées dans le domaine des sciences de la vie et de la technologie et les citoyens éclairés, afin de favoriser, soutenir et promouvoir le partage responsable des données génomiques et cliniques. Cette Global Alliance deviendra une voix digne de confiance qui s’efforcera de :

 promouvoir l’idée que les patients ont le droit de partager leurs informations génomiques et cliniques pour faire avancer la santé humaine, ainsi que de retirer ou de transférer leurs données comme ils le souhaitent ;  collaborer avec les gouvernements et les financeurs pour définir et promulguer des politiques et des réglementations qui permettent aux individus et aux organisations de choisir de partager leurs informations, tout en respectant et en répondant à leurs besoins et à ceux des communautés locales ;  soutenir le développement de normes technologiques ouvertes (conformes aux politiques et aux réglementations), la création de solutions de référence et un écosystème innovant qui fait avancer les connaissances et la santé en permettant le partage des informations du point de vue technique ;  constituer un forum pour évaluer et partager les meilleures pratiques et créer des projets collaboratifs afin d’accélérer l’impact positif en médecine des informations sur la séquence du génome ;  soutenir une égalité de traitement qui favorise l’innovation technologique et commerciale ;  favoriser les réseaux sociaux afin de rapprocher les patients et leurs familles des communautés génomiques et médicales, en facilitant l’accès aux outils, aux données et aux procédés.

La Global Alliance travaillera avec ses partenaires pour créer une Plateforme d’informations, ouverte et extensible, et elle définira des normes, des formats et des outils qui permettent aux parties prenantes :

 de stocker les données génomiques et les informations cliniques pertinentes d’une manière sécurisée et fiable ;  de partager entre les utilisateurs, tout en gérant le consentement éclairé, les réglementations et la confidentialité ;  de fournir des outils pour des initiatives centrées sur le participant (telles que le Consentement légal portable) afin de favoriser la portabilité entre les études et les centres ;  d’utiliser plusieurs plateformes de séquençage et de faire appel à plusieurs fournisseurs d’informatique dématérialisée ; d’encourager l’innovation ;  d’analyser les variants observés dans une étude donnée à la lumière de données comparatives considérables ;  de collaborer en tant qu’équipes, habilitées par provenance, suivi de fichier et attribution ;  de catalyser le développement et la distribution rapides d’applications et de services tiers qui prennent en charge l’analyse des données, l’interprétation clinique et la découverte des connaissances ; et  de fournir aux communautés d’utilisateurs (par ex., les chercheurs ou les familles travaillant sur une maladie donnée, ou les entreprises pharmaceutiques recherchant des sujets à inscrire dans leurs essais cliniques) des moyens de communication et de partage, notamment la constitution d’enclaves de « refuges sûrs » si nécessaire.

Pour donner vie à la Plateforme, plusieurs Entités opérationnelles seront nécessaires pour instancier la plateforme et répondre aux besoins d’utilisateurs particuliers comme la gestion, le stockage, le

13 traitement et l’analyse des données, la prise en charge des requêtes et la négociation des transactions. Ces entités, qui peuvent être une combinaison d’organisations existantes et nouvelles, réuniront les utilisateurs, les ensembles de données et les outils afin de créer de la valeur pour les individus et les organisations. Les Entités opérationnelles qui rejoignent la Global Alliance s’engageront par écrit à soutenir la Mission, les Principes fondamentaux et les normes définis par l’Alliance.

S’il aboutit, cet effort génèrera un puissant effet de réseau, avec des rendements d’échelle accrus : plus les utilisateurs seront nombreux, plus les données et les procédés analytiques deviendront interopérables et mis en réseau, plus chacun d’entre eux sera précieux pour les patients, les organisations de soins de santé, les fournisseurs de technologie, ainsi que l’objectif le plus important de faire avancer la connaissance médicale et la santé humaine.

14 Chapitre 2. Réglementation, déontologie et technologie

15 Aspects réglementaires et déontologiques

Contexte de l’action internationale

Pour discuter d’une collaboration internationale sur les données des participants aux recherches humaines, il faut commencer par comprendre les lois, les politiques et les procédures nationales et internationales se rapportant à la conduite déontologique de la recherche avec des participants humains, notamment le consentement éclairé, la confidentialité du patient, la protection des données de recherche, en particulier la confidentialité des données électroniques, et la surveillance de la recherche. Une Plateforme interopérable qui prend en charge le stockage, l’analyse et le partage des données génomiques et cliniques devra respecter les réglementations et normes en vigueur dans chaque juridiction. Dans la mesure où la Plateforme prend en charge les données utilisées pour les soins au patient, la Plateforme sera également soumise aux lois régissant les services de laboratoire clinique.

Les cadres juridiques et les exigences réglementaires diffèrent de manière substantielle au sein et entre les États-Unis, le Royaume-Uni, le Canada, l’Europe et les autres pays. Les protections de la confidentialité des données personnelles varient considérablement. Certaines politiques se rapportent de manière spécifique aux informations relatives à la santé ou à la génétique, alors que d’autres s’appliquent de manière générale aux informations personnelles, notamment celles de santé. De telles différences juridiques requièrent un effort organisé pour permettre des collaborations internationales pour un partage des données par delà les frontières.

Par conséquent, dans la mesure où les communautés scientifiques et médicales internationales sont convaincues que le partage des données sera essentiel pour les progrès à venir, il est urgent d’inciter les autorités publiques et gouvernementales concernées à un effort collaboratif d’harmonisation des politiques, procédures et réglementations au travers des juridictions. Ceci nécessitera un solide climat de confiance de la part des parties prenantes en ce qui concerne la protection de la vie privée, l’autonomie et les droits du sujet, le respect de la juridiction locale, la coordination de la recherche internationale sur les questions des implications déontologiques, juridiques et sociales16 et l’engagement envers la mission d’amélioration de la santé humaine et des soins au patient.

Une Global Alliance non gouvernementale, internationale et sans but lucratif aurait un impact majeur, en réunissant les parties prenantes de toutes les juridictions pour partager les informations et les meilleures pratiques et en soutenant les groupes locaux qui s’efforcent au niveau national d’aligner (dans la meilleure mesure possible) les règles, réglementations et procédures de gestion de ces données.

Vue d’ensemble du cadre déontologique et réglementaire existant

L’examen de documents internationaux tels que la Déclaration d’Helsinki17, le Rapport Belmont18, la Convention européenne des droits de l'homme et la Convention de biomédecine19 et la Déclaration universelle de l’UNESCO sur le génome humain et les droits de l’homme20 identifie un noyau de principes déontologiques communs : le respect des personnes, le droit à l’autodétermination et le droit de prendre des décisions éclairées. Bien que ces principes se traduisent par une supervision de la recherche propre à chaque pays, cette similitude de principes fondamentaux constitue le fondement du futur alignement des procédures. Les points communs notables comprennent le recours à des Comités d’éthique, des Conseils consultatifs institutionnels et des documents de Consentement éclairé. Par ailleurs, des consortia internationaux (tels que l’International Cancer Genome Consortium ou ICGC) ont traduit ces principes déontologiques fondamentaux en politiques, procédures, outils et gouvernance qui facilitent l’interopérabilité.

Le partage des données et des informations au niveau international exigera des relations avec un ensemble varié d’agences réglementaires nationales responsables du recueil, du stockage, de la confidentialité, de l’accès et de l’utilisation des données de soins de santé. Les Commissaires à la confidentialité sont généralement responsables de la surveillance des informations de santé personnelle, considérées hautement sensibles. Les agences réglementaires en matière de santé et de recherche sont particulièrement variées. On peut citer par exemple l’Office of Human Research Protection (OHRP) et la Food and Drug Administration (FDA) aux États-Unis, les Instituts de recherche

16 en santé au Canada, le Comité de protection des personnes (CPP), le Comité consultatif sur le traitement de l'information en matière de recherche dans le domaine de la santé (CCTIRS) ou la Commission nationale de l'informatique et des libertés (CNIL) en France, la Human Tissue Authority et la Health Research Authority qui vient d’être créée au Royaume-Uni, le Ministère de la Santé au Mexique, en Thaïlande, en Chine et en Malaisie ou l’agence d’assurance maladie en Corée du Sud et au Japon.

Étant donné la grande variété des agences, il est indispensable d’adopter une approche fédérée, dans laquelle un ensemble de principes communs (élaborés de concert, avec le soutien de la Global Alliance) sont soutenus au niveau local par les groupes vivant et travaillant dans le pays, et qui sont les mieux placés pour comprendre le contexte local.

Questions essentielles

Les questions essentielles à prendre en compte comprennent l’engagement du public, la protection de la confidentialité, les initiatives axées sur le participant, la réglementation de l’accès des participants, des chercheurs et autres aux données et aux résultats, le partage des données entre les établissements et les juridictions, la reprise de contact avec les participants aux recherches ainsi que la gouvernance et la gestion responsable des référentiels. Dans ces domaines, il existe des tensions inhérentes entre des principes importants. Pour obtenir et conserver la confiance du public, ces tensions devront être identifiées, abordées ouvertement, évaluées et gérées de manière responsable. Cet effort sensible et complexe doit finalement être guidé par les principes élémentaires d’une société civile et par le respect de la diversité des opinions et des valeurs entre les individus et les pays.

Engagement du public L’autonomie et l’autodétermination des personnes qui fournissent des données doivent constituer le fil conducteur. Ceci s’applique aux patients bénéficiant de soins cliniques ainsi qu’aux participants aux recherches pendant tout le cycle de recherche. Alors que d’autres considérations, telles que les progrès de la recherche et l’amélioration des soins au patient, jouent un rôle important, l’autonomie de l’individu doit être prioritaire. L’engagement du public sera nécessaire pour favoriser le recrutement, l’implication active et l’engagement de participants issus de populations différentes dans les recherches. Il comprendra une articulation nette entre l’intérêt public et les bénéfices potentiels qui dépendent de l’implication de la population à grande échelle et globale en faveur de la recherche. Une gouvernance appropriée, transparente et responsable, qui intègre la participation du public et qui est conviviale, améliorera et favorisera la confiance du public.

Protection de la confidentialité et initiatives axées sur le participant Actuellement, les questions de confidentialité jouent un rôle important. En effet, les progrès techniques posent de nouvelles difficultés de confidentialité et des réformes à ce sujet sont en cours à la fois en Europe21 et aux États-Unis. Ces réformes ont pour objectif de donner une meilleure visibilité à la protection de la confidentialité, mais elles pourraient réduire la portée des recherches et le partage des données. En même temps, des tendances sociétales plus vastes se traduisant par les réseaux sociaux, la génomique « de loisir » (par ex., les sites Internet de généalogie) et les groupes de défense des droits en matière de maladie, conduisent à un accès plus ouvert, en particulier dans le domaine des maladies rares.

Les initiatives centrées sur le participant utilisant les outils des réseaux sociaux offrent de nouveaux moyens pour engager le dialogue avec les participants aux recherches22. Grâce à la communication permanente, les individus peuvent donner leur consentement à la recherche, préciser les niveaux de confidentialité personnelle et devenir des partenaires dans le processus de la recherche. Ces initiatives, qui maintiennent le contrôle des informations personnelles et permettent de donner un consentement continu en temps réel, respectent les normes juridiques internationales de protection de la confidentialité. Des relations actives avec le public et les fonctionnaires gouvernementaux et réglementaires appropriés seront nécessaires pour encourager l’utilisation des initiatives axées sur le participant et promouvoir des recherches bénéfiques, tout en apportant les protections adéquates de la confidentialité. À long terme, il est nécessaire de prévoir une manipulation des données plus transparente, une sanction proportionnée en cas de manipulation inappropriée des données et une gouvernance transparente tenant compte des contributions publiques.

17 Accès aux données L’identification des personnes ayant accès aux données et la détermination de l’efficacité de cet accès sont deux questions essentielles et difficiles. Les considérations scientifiques sont en faveur d’un accès étendu et facilité des chercheurs à de vastes collections de données. Le respect des participants aux recherches requiert le respect strict des conditions d’accès qu’ils ont acceptées et de toutes les lois en vigueur. Un système de surveillance sera nécessaire pour garantir la conformité avec les consentements, avec la loi et avec les meilleures pratiques de déontologie, afin de respecter les souhaits exprimés par les participants aux recherches. Il est possible d’un point de vue technologique de développer une plateforme et une architecture réglementaire qui définisse et vérifie au niveau central l’authenticité du chercheur, ce qui permettrait un partage des données à la fois efficace et sécurisé. L’accès aux dossiers médicaux électroniques et aux bases de données administratives de santé fait apparaître un deuxième niveau de complexité.

Une autre question aborde la nature et le niveau d’accès des participants aux recherches à leurs propres données. Cette question se pose dans un contexte d’attentes changeantes du public en ce qui concerne la participation active du patient à ses propres soins et la planification de sa vie biomédicale. Dans les meilleures pratiques actuelles en recherche, les participants aux recherches et le public général peuvent accéder à une description des projets approuvés et des résultats publiés en langage simple. Les politiques autorisant le système de soins de santé à rendre des résultats individuels de recherche issus des études de génomique en respectant la déontologie sont actuellement en cours d’élaboration (comme par exemple le projet UK 10K) et cet échange d’informations pourrait être intégré aux approches des initiatives centrées sur le participant pour améliorer les pratiques existantes en matière de clinique et de recherche.

Partage international des données Même quand le consentement local et l’approbation déontologique permettent le partage des données, la diffusion des données à des chercheurs appartenant à d’autres établissements et situés dans d’autres pays nécessite souvent des approbations supplémentaires (même quand les chercheurs étrangers souhaitent utiliser les données dans le cadre d’un protocole approuvé par leur propre comité d’éthique local). Malgré des règles de « zone de sécurité », le problème est déjà critique dans les consortia internationaux de recherche. Il est possible d’un point de vue technologique de mettre en place des mécanismes d’accès centralisé qui vérifient l’authenticité du chercheur et les approbations institutionnelles l’accompagnant (notamment les mécanismes de sécurité). Ceux-ci permettent un partage sécurisé des données plus efficace.

Reprise de contact Recontacter des individus peut être envisagée pour obtenir des informations ou des tissus supplémentaires, ou dans le but de communiquer des résultats particuliers ou des découvertes fortuites. Chaque cas soulève des questions spécifiques.

Dans l’idéal, lors du recueil des échantillons et des données, on informe les participants ou on leur demande d’accepter d’être recontactés pour obtenir des informations supplémentaires et/ou recevoir des résultats. De nombreux recueils juridiques n’évoquent pas cette question.

En l’absence d’un consentement spécifique, le CCI ou le comité d’éthique doit examiner toute reprise de contact. Si la demande concerne le recueil d’informations supplémentaires et si le CCI n’autorise pas la reprise de contact, le CCI ou le comité d’éthique peut autoriser l’accès aux dossiers médicaux en vertu d’une renonciation au consentement éclairé. Pour les futurs recueils de données et d’échantillons, le formulaire et la procédure de consentement éclairé doivent intégrer des détails sur la possibilité, les modalités et l’objectif d’une éventuelle reprise de contact. Les initiatives centrées sur le participant devraient faciliter les relations suivies et la communication entre les participants et les chercheurs.

Gouvernance des collections/répertoires de données Alors que l’objectif du partage des données incite à réaliser des investissements en matière d’interopérabilité, il n’exige pas que les données se situent physiquement dans une seule base de données. Il est seulement nécessaire que les données soient traitées de manière comparable entre les répertoires, et communiquées à l’aide de procédures généralement comprises en ce qui concerne la sécurité, les formats, les modèles d’erreur, les annotations et autres.

18 Les membres de la Global Alliance et les Entités opérationnelles locales devront échanger avec les organismes réglementaires de chaque juridiction pour comprendre les responsabilités réglementaires (des individus, des établissements et des gouvernements) et transmettre à l’Alliance les exigences nécessaires pour respecter les règles locales. L’Alliance peut contribuer en partageant les informations provenant d’autres juridictions et en garantissant aux parties prenantes (quand c’est le cas) que les réglementations locales, nationales et internationales ont été prises en compte dans l’élaboration attentive des politiques et dans l’architecture du système. Toutes les parties prenantes doivent s’impliquer pour développer des structures de gouvernance et s’assurer qu’elles sont adaptées à l’objectif et qu’elles répondent aux préoccupations de chaque partie prenante.

Si la Plateforme technique est utilisée pour soutenir la pratique clinique, elle devra être conçue et administrée de telle manière qu’elle respecte les normes appropriées du laboratoire clinique. Par exemple, aux États-Unis, elle devra respecter les exigences des Clinical Laboratory Improvement Amendments (CLIA)23 ; au Royaume-Uni, les services médicaux de pathologie et de laboratoire doivent être enregistrés auprès d’un organisme d’accréditation de laboratoire approuvé basé au Royaume-Uni.

La gestion responsable et la gouvernance des répertoires constitués par les Entités opérationnelles au sommet de la Plateforme constitueront des questions essentielles, comme l’indique le rapport de la réunion du NHGRI sur le regroupement des données qui s’est déroulée en juillet 2012 :

Il est nécessaire de mettre en place de meilleurs procédés de gestion responsable des données et de gouvernance des répertoires de données. Comme la portée du partage des données augmente, on ne demande plus aux participants aux recherches de consentir à une seule étude, mais plutôt de mettre leurs données à disposition d’un grand nombre de chercheurs, issus vraisemblablement de plusieurs pays différents. La confiance du public envers les procédures utilisées pour conserver et accéder aux données est essentielle. Les procédés garantissant la sécurité des données, les politiques utilisées pour approuver l’accès aux données, les méthodes d’audit pour garantir le respect des politiques et les conséquences résultant de fausses manœuvres ou du non-respect doivent absolument faire preuve de transparence. Des procédés efficaces sont indispensables pour garantir les contributions publiques dans chacun de ces domaines critiques de gouvernance. En tant que composante de la transparence, la communication doit informer le public sur la valeur scientifique du partage étendu des données, sans créer de fausses attentes sur la vitesse à laquelle celui-ci se traduira en bénéfices pour la santé.

Le rôle de la Global Alliance

La Global Alliance doit se donner l’objectif de devenir une voix forte d’unification dans la tentative d’harmoniser les cadres réglementaires internationaux qui supervisent la recherche avec des participants humains. À l’heure actuelle, l’approche est fragmentée et l’absence d’action a peu de chances de comprendre à l’apprentissage entre les juridictions. En outre, l’Alliance (avec le P3G et d’autres) pourrait faciliter la coordination internationale de la recherche sur les aspects déontologiques, juridiques et sociaux de la génomique, telle que l’appellent Kaye, Meslin, Knoppers et Juengst (Développement d’une vision mondiale pour l’avenir de la recherche sur les implications déontologiques, juridiques et sociales).

La Global Alliance doit réunir et soutenir un Groupe de travail d’experts sur les questions réglementaires et déontologiques pour s’associer aux parties prenantes et élaborer des positions sur des questions telles que :

 l’harmonisation des politiques, des procédures, des normes et des codes de conduites pour le stockage, l’analyse et le partage des données génomiques dans les échantillons cliniques.  le développement de procédures prospectives de consentement qui engagent de manière responsable les patients, les participants et les chercheurs dans des voies qui aboutissent aux recherches les plus productives tout en respectant l’autonomie de chaque participant en ce qui concerne les données qu’il fournit.  le développement d’une stratégie d’engagement du public pour assurer le recrutement, l’implication active et l’engagement des participants aux recherches provenant de nombreuses populations différentes.

19  le développement des meilleures pratiques en matière de gouvernance et de transparence des référentiels de données, pour créer et conserver la confiance du public envers les procédures utilisées pour sécuriser et fournir l’accès aux données.  la rédaction de recommandations concernant le développement d’une architecture technique qui respecte les règles, les réglementations et les lois en vigueur régissant la conduite des recherches, ainsi que le soutien prospectif de nouvelles approches potentielles pour les initiatives centrées sur le participant.

20 Aspects techniques

La Plateforme ouverte d’informations sera un système sécurisé, évolutif, durable et ouvert qui constituera la base technologique (i) du téléchargement et du stockage évolutifs des données issues des plateformes de séquençage conjointement avec les données cliniques, (ii) du traitement rapide par des outils génériques et personnalisés de pointe, (iii) de la gestion de la sécurité, de la confidentialité et de l’accès des utilisateurs et (iv) du chargement et du partage des données et des résultats. La Plateforme atteindra ses objectifs en définissant des normes et des Interfaces de programmation d’application (API) pour échanger les données et les résultats de manière sécurisée, en permettant à une grande variété d’Entités opérationnelles de servir les utilisateurs, et aux développeurs d’écrire des applications tierces personnalisées pour des utilisations spécifiques. Comme pour le WWW, la Plateforme doit être distribuée au niveau mondial, disponible partout, définie précisément et suffisamment fiable pour que les organisations, qu’elles soient lucratives ou non, puissent s’appuyer sur elle en toute sécurité.

Contexte

Pour un centre médical ou de recherche individuel, les principaux obstacles à la constitution d’une plateforme pour stocker, analyser et partager les données de séquence génomique comprennent (i) le manque de clarté sur les normes réglementaires et politiques pour gérer ce type de données, (ii) le coût élevé du stockage requis par les grandes quantités de données brutes aux formats non compressés avec du code non optimisé, (iii) la demande fortement variable en ressources de calcul, (iv) l’expertise locale limitée en matière de calcul élastique de grande taille et de technologies de l'information pour des ensembles de données de ce type, (iv) la standardisation inappropriée des formats et des outils d’analyse pour les données génomiques et (v) l’absence d’accès local à un système physique de réseau et à la sécurité des données, avec la conformité réglementaire associée.

Plusieurs grandes entreprises de technologie, telles qu’Amazon, Google et Microsoft, ont déjà rencontré le même type de difficultés pour leurs propres activités. S’appuyant sur l’expertise qu’ils ont développée pour servir leurs propres besoins de calcul à grande échelle, ils proposent un stockage sécurisé et des calculs sous forme de service d’informatique dématérialisée ou en nuage, connu familièrement sous le nom le Cloud computing (voir l’encadré « Pourquoi l’informatique dématérialisée »). Les plateformes scientifiques et médicales telles que le projet Helix Nebula en Europe sont actuellement conçues pour bénéficier des services de plusieurs plateformes dématérialisées installées en Europe et aux États-Unis afin de gérer de grands ensembles de données scientifiques24. En réalisant des économies d'échelle considérables, les services dématérialisés ont réduit le coût des calculs, tout en permettant des efforts dynamiques de grande échelle tels que ceux requis par la Plateforme.

Ce chapitre est alimenté par de nombreuses discussions entre les participants à la réunion du 28 janvier 2013 et par des échanges avec d’autres experts, ainsi que par la réunion du 20 décembre 2012 à Santa Cruz, Californie, qui réunissait des chercheurs du Broad Institute, des sites de Berkeley, de San Francisco et de Santa Cruz de l’université de Californie ainsi des représentants techniques confirmés d’Amazon Web Services, de Google et de Microsoft. Les participants du secteur ont répondu avec enthousiasme à l’idée de la Global Alliance. Ils ont précisé que des normes communes et partagées d’informatique dématérialisée apparaissent et qu’elles pourraient favoriser l’interopérabilité. Ils ont suggéré que leurs progrès seraient grandement facilités s’ils pouvaient échanger avec une organisation s’exprimant avec autorité sur les normes, les formats, les API et les procédures réglementaires. Une entreprise s’est portée volontaire pour fournir des calculs et du stockage à prix fortement réduit si un organisme de ce type était créé.

Lors de la réunion du 28 janvier, il a été décidé qu’aucun fournisseur d’informatique dématérialisée ne serait engagé de manière exclusive. Les exigences seront plutôt définies de telle manière que la Plateforme puisse fonctionner avec plusieurs services dématérialisés sur plusieurs continents. En particulier, il a été convenu que le stockage dématérialisé devrait être décentralisé, pour que la Plateforme puisse respecter les réglementations interdisant à certaines données de franchir des frontières nationales spécifiques.

Nous aborderons ci-dessous les principales questions techniques issues des exigences indiquées ci-dessus : (1) stockage évolutif, rentable et distribué, (2) analyse rapide, (3) sécurité, (4)

21 confidentialité, (5) normes, API et évaluations comparatives, (6) manipulation des données cliniques, (7) efforts expérimentaux.

Stockage évolutif, rentable et distribué

Afin de soutenir les besoins de l’écosystème biomédical, la Plateforme doit permettre l’analyse et le stockage de centaines de milliers voire de millions de génomes, chacun étant associé à des informations cliniques. Un million de génomes entiers générés aujourd’hui, représente après compression environ 100 pétaoctets de données (1 pétaoctet = 1 million de gigaoctets). Il s’agit d’un chiffre élevé mais qui a des précédents : YouTube comporte plus de 1 000 pétaoctets de vidéo, et ce chiffre augmente de 100 pétaoctets tous les 2 mois.

Les discussions avec les fournisseurs d’informatique dématérialisée et des estimations indépendantes nous permettent de prévoir qu’avec un investissement en fonctionnalités de compression et de calcul, le coût du stockage des données actives pour les ensembles de données d’un million de génomes entiers pourrait se réduire à ~50 dollars/génome/an d’ici 201425. Avec l’utilisation du stockage dématérialisé des archives qui permet l’archivage rapide des données mais un délai plus long de récupération, le coût du stockage pourrait diminuer d’un facteur 10 et pourrait vraisemblablement encore être réduit. Par contre, les coûts actuels de stockage du Cancer Genomics Hub (CGHub), qui a élaboré sa propre infrastructure de stockage, représentent environ 100 dollars/génome/an pour le stockage primaire et la sauvegarde avec une capacité de 50 000 génomes (y compris les coûts de sécurité, de conformité, de développement, de maintenance et d’exploitation).

Le stockage dématérialisé est réparti pour des raisons d’efficacité, d’élasticité et de fiabilité. Les principaux fournisseurs d’informatique dématérialisée exploitent déjà des installations de stockage dans de nombreux pays différents, afin de fournir un service qui respecte les réglementations locales. Les normes de stockage sont largement adoptées, ce qui facilite les transferts entre les différents services dématérialisés proposés par les petits fournisseurs aussi bien que par les gros. Par conséquent, il est préférable d’utiliser une Plateforme décentralisée, et les approches existantes pourraient prendre en charge ce besoin.

En résumé, les principaux fournisseurs d’informatique dématérialisée peuvent facilement prendre en charge l’échelle des données nécessaire à la Plateforme. La collaboration avec ces fournisseurs offre des avantages majeurs en termes de coûts et d’évolutivité.

Encadré 2. Pourquoi envisager l'informatique dématérialisée ?

Coût réduit. Les fournisseurs d’informatique dématérialisée réduisent le coût (1) en utilisant du matériel informatique de base, (2) en achetant en vrac, (3) en construisant des entrepôts sécurisés pour les données dans des lieux bon marché et (4) en déployant un logiciel qui permet à une poignée de personnes de surveiller efficacement chaque entrepôt.

Stockage en vrac. Les systèmes récents de stockage d’archive proposés par plusieurs fournisseurs d’informatique dématérialisée peuvent réduire de 90 % les coûts internes de stockage d’un établissement.

Traitement efficace. En répartissant les données sur de nombreux ordinateurs bon marché, il est possible de réaliser un traitement efficace sans transférer les données sur le réseau. De cette manière, de grands volumes de données peuvent être traités par des moyens qui n’étaient pas envisageables auparavant.

Sécurité. Le cryptage, les pare-feu, les capacités étendues d’audit et les autres caractéristiques de l’informatique dématérialisée ont été développés pour prendre en charge un volume considérable de données de commerce en ligne. Ces fonctionnalités sont disponibles pour aider à sécuriser les données de santé et de génomique.

Élasticité. En raison de la variabilité et l’incertitude des besoins de calcul et de stockage de la Plateforme, une solution dématérialisée est la plus rentable. Le coût de l’informatique dématérialisée est proportionnel à son utilisation et évolue avec la demande sur des durées courtes.

22 Analyse rapide

La Plateforme devra permettre la génération rapide des résultats d’analyse (en particulier pour les échantillons cliniques) avec des calendriers qui peuvent être imprévisibles. Elle devra prendre en charge des travaux d’évaluation comparative et des comparaisons à grande échelle de plusieurs milliers de génomes en un délai raisonnable. La réalisation d’un ensemble varié de tâches de différentes sortes de ce type, dans un délai acceptable, tout en maintenant un coût raisonnable, nécessiteront un service élastique. Avec les services commerciaux d’informatique dématérialisée existant au niveau mondial, il est possible d’interroger un grand nombre d’ordinateurs sur une durée courte puis de les libérer, en payant uniquement pour leur utilisation. Pour bénéficier des avantages de l’informatique dématérialisée élastique, les pipelines actuels de traitement de séquence doivent être reconçus pour tirer parti des cadres existants, tels que MapReduce, Hadoop26 et Spark27 qui utilisent un grand nombre d’ordinateurs en parallèle sur le nuage. Nombre de ces outils ont été développés par les prestataires de services dématérialisés pour effectuer leurs propres tâches de calcul et ils ont ensuite été largement mis à disposition.

Les infrastructures proposées par les fournisseurs d’informatique dématérialisée sont bien adaptées aux besoins de calcul dynamique à grande échelle de la Plateforme.

Sécurité

Par-dessus tout, la Plateforme doit assurer la sécurité et engendrer la confiance. La protection des informations contre les accès non autorisés est une préoccupation essentielle pour les données des participants humains, qu’elles soient gérées dans un centre de données sur place ou qu’elles utilisent l’infrastructure hébergée sur le nuage. Ceci requiert des contrôles efficaces de sécurité à tous les niveaux d’un système de calcul, depuis le contrôle de l’accès physique jusqu’aux aspects de sécurité du réseau, du système et des données.

L’expérience montre que quelques centres de données internes sont aussi bien protégés que les installations commerciales d’informatique dématérialisée. La Cloud Security Alliance internationale propose les meilleures pratiques au niveau international en matière de sécurité de l’informatique dématérialisée, en participant par exemple en Europe au système scientifique dématérialisé Helix Nebula28.

Le gouvernement des États-Unis a préparé un ensemble de contrôles de sécurité basés sur le risque (loi FISMA29). Celui-ci sert de base pour évaluer la sécurité des systèmes informatiques30 autorisés pour les organisations gouvernementales. Amazon Web Service et Google App Engine sont accrédités au titre de la loi FISMA31.

Suite à l’engagement des fournisseurs d’informatique dématérialisée en faveur de la sécurité, de nombreuses organisations disposant de données à valeur financière élevée ont pris la décision de stocker leurs données de manière dématérialisée. Par exemple, la bourse américaine NASDAQ stocke les données privées concernant ses plus grands traders sur le nuage « Fin » d’Amazon Web Services32. Aux États-Unis, le responsable en chef de la technologie à la CIA (Central Intelligence Agency) a déclaré que les services dématérialisés pourraient constituer un référentiel qui serait encore plus sécurisé que le propre système de la CIA33.

Par conséquent, après avoir exprimé dans un premier temps des inquiétudes, de nombreuses organisations ont réalisé que le risque de sécurité le plus important est souvent de nature humaine et interne et qu’il peut être plus sûr de faire appel à une tierce partie de confiance et particulièrement expérimentée pour sécuriser les données à distance. En ce qui concerne la confidentialité des données personnelles, le secteur des cartes de crédit est parvenu à diffuser un ensemble de normes de sécurité des données qui répond spécifiquement au besoin de transmettre et de stocker des informations personnelles sensibles sur des systèmes connectés à l’Internet public. Ces normes sont à la base de l’essentiel de l’économie en ligne actuelle et elles sont compatibles avec l’informatique dématérialisée.

Les contrôles de sécurité mis en œuvre par les principaux fournisseurs d’informatique dématérialisée, s’ils sont assortis de contrôles tout aussi rigoureux pour le développement et le fonctionnement de la Plateforme elle-même, peuvent satisfaire aux exigences.

23 Confidentialité et contrôle d’accès

L’aspect probablement le plus critique en matière de sécurité dans le contexte des données génomiques, comme dans celui des dossiers médicaux, est la confidentialité. Le principal moyen de garantir la confidentialité est de restreindre l’accès aux données à des utilisateurs autorisés et d’auditer toutes les utilisations. Pour atteindre les objectifs de la Global Alliance, il sera nécessaire que les patients, les médecins, les investigateurs des essais cliniques, les chercheurs et les centres médicaux disposent d’un contrôle extrêmement précis de l’accès aux différentes parties des données, et qu’ils puissent modifier leurs choix à tout moment. Le contrôle d’accès extrêmement précis avec un audit exige la ventilation appropriée des données, le balisage, l’identification de la provenance et le suivi des versions. Par ailleurs, en raison de sa portée internationale, la Plateforme devra tenir compte de la diversité des réglementations internationales en matière de confidentialité des données comme cela a été abordé au chapitre précédent.

Les questions de confidentialité impliquent un effort considérable, mais d’un point de vue informatique, il existe des pratiques bien établies pour mettre en place à la fois un audit et un contrôle d’accès souple34.

Gestion des identités et du consentement pour les participants et les chercheurs

Les systèmes actuels de consentement éclairé agissent à un moment unique et dans un seul établissement. Afin de protéger la confidentialité des participants aux recherches, ils isolent de manière non intentionnelle les données de recherche derrière des cloisons de nature juridique et déontologique, ils créent des obstacles à la découverte de relations entre les maladies et les études, et ils empêchent de poser des questions qui n’avaient pas été imaginées au moment de la conception de l’étude.

Des initiatives centrées sur le participant (ICP) actuellement développées, telles que le Consentement légal portable, transforment le consentement à participer à une recherche en un état associé à un individu plutôt qu’un aspect d’une étude donnée. Une telle approche devrait en principe faciliter l’autonomie du participant, en permettant de transférer le consentement entre les organisations, de le mettre à jour en fonction de nouvelles informations et des souhaits du participant ou de le retirer.

Les approches d’ICP pourraient remarquablement favoriser un système interopérable et distribué pour partager les données génomiques et cliniques, mais l’atteinte de cet objectif nécessitera des capacités techniques spécifiques. Celles-ci pourraient inclure des approches normalisées pour permettre aux Conseils consultatifs institutionnels (CCI) de définir leurs propres formulaires de consentement tout en maintenant l’interopérabilité et de transférer ces informations entre les établissements. Afin que les participants restent associés à leurs données entre les sites de recherche, un système d’identifiants uniques pour les participants (équivalent aux adresses IP sur Internet) pourrait être nécessaire. De la même manière, afin de garantir que les conditions d’utilisation des données sont respectées en un modèle fédéré, un système d’enregistrement du chercheur et d’identifiants uniques, les parcours d’audit, sera vraisemblablement nécessaire. La transparence de la gouvernance pourrait être améliorée par un site Internet fournissant un résumé facilement accessible des utilisations passées et actuelles des données.

Normes, API et évaluations comparatives

La Global Alliance constituera un Groupe de travail technique dont les missions seront de définir et améliorer des normes telles que les formats BAM (http://samtools.sourceforge.net/SAM1.pdf) et VCF (outils VCF) pour le stockage et l’analyse de bas niveau du génome, d’élaborer et de promulguer des normes et une Interface de programmation d’applications (API) pour l’accès de niveau supérieur et organisé aux données des nombreux types différents d’utilisateurs et d’élaborer et de gérer une mise en œuvre de référence conjointement avec la définition des normes. Le partenariat rapproché avec un ensemble initial d’Entités opérationnelles acceptant d’être Partenaires de développement de la Plateforme et avec la communauté élargie sera essentiel, car il est préférable d’élaborer les normes en parallèle avec une mise en œuvre opérationnelle au cours d’un cycle souple de développement logiciel. Il sera important de ne pas prendre les données en otage pendant l’élaboration des normes.

24 La Plateforme devra se concentrer sur un petit nombre de tâches essentielles d’analyse de bas niveau du génome et elle ne devra pas tenter de définir des spécifications ou des mécanismes pour chaque type de cas d’interprétation et d’utilisation du génome. En constituant une API puissante, la Plateforme peut libérer la créativité d’un monde de développeurs pour résoudre les difficultés plus sophistiquées d’interprétation du génome et de traduction médicale. La Plateforme doit exister non pas pour s’approprier les processus d’innovation en matière d’ingénierie et de découverte scientifique mais plutôt pour les favoriser.

L'évaluation comparative sera essentielle pour développer des systèmes robustes, pour identifier les meilleurs produits logiciels et pour encourager le développement logiciel et les améliorations techniques rapides. Aux États-Unis dans le secteur automobile, le développement d’une norme par l’EPA sur la consommation d’essence a conduit à des améliorations régulières de l’efficacité des véhicules. En médecine, le développement de normes de soins par la Commission conjointe permet l’amélioration des soins dans tous les centres médicaux américains35. De la même manière, l’élaboration de normes appropriées pour l’analyse des séquences et l’interprétation des données cliniques contribuera à identifier les algorithmes et les procédures qui conduisent aux résultats les plus précis et qui apportent le plus d’informations à partir des données de cette plateforme.

La Plateforme prendra en charge le stockage et l’analyse des données issues de tous les grands fabricants de technologie de séquençage. Par conséquent, des efforts particuliers seront requis pour définir les normes en consultation avec un ensemble varié de fabricants et pour gérer la compatibilité. Des normes liées à l’accès aux données, à l’audit et à la provenance des données seront nécessaires pour comprendre et gérer l’impact de la qualité des données (par ex., des séquenceurs en dysfonctionnement) et pour améliorer les techniques de recueil et d’analyse des données. La mise en œuvre d’API de norme ouverte, de ressources à version et de configurations matérielles standardisées encouragera le développement des meilleures pratiques et une communauté open source comme cela a été le cas dans d’autres secteurs de l’informatique.

Les normes, les API et l’évaluation comparative ont pour objectif de s’épauler les uns des autres plutôt que de se marcher sur les pieds.

Informations provenant des essais cliniques et des soins cliniques

La Plateforme aura besoin d’approches distinctes pour prendre en charge les données utilisées dans les essais cliniques ou celles des soins cliniques. Par exemple, les données des essais cliniques peuvent devoir rester confidentielles au titre des réglementations régissant l’essai jusqu’au moment où celui-ci est diffusé. Pour prendre en charge ce cas d’utilisation, la Plateforme pourrait allouer une attribution et une provenance électroniques aux données génétiques et cliniques qui y sont stockées. De nombreux groupes s’efforcent de fédérer les données provenant des dossiers médicaux électroniques et de s’adapter aux nombreux formats différents des données cliniques. L’Alliance s’associerait à ces efforts plutôt que de les dupliquer. Elle pourrait ouvrir la voie en créant par exemple une norme internationale unique pour les données génomiques et collaborer avec les autres pour ajouter les informations cliniques à cette norme. Cette voie prendra un temps considérable et exigera une base de données de conception souple. À court terme, la plupart des données cliniques ne seront pas structurées. Comme les référentiels contenant de grandes quantités de données non structurées sont abondants, il sera fortement souhaitable d'utiliser les procédés informatiques perfectionnés des autres secteurs, en général dénommés techniques de « Big data », pour exploiter les données cliniques non structurées.

La Plateforme devra tirer parti des techniques de Big data les plus récentes pour gérer les données cliniques, et non pas attendre que ces données soient totalement standardisées.

En résumé, la constitution de la Plateforme permettant de répondre aux besoins de la Global Alliance à un coût acceptable présente une difficulté technique considérable mais pas insurmontable. Les solutions d’informatique dématérialisée qui ont réussi dans d’autres secteurs peuvent être adaptées à cette tâche comme pour les autres problèmes de Big data. Les moteurs économiques garantiront l’amélioration continue de l’informatique dématérialisée mondiale, et les ressources utilisées pour ces développements dépassent de loin les fonds que nous pourrions espérer obtenir pour développer une plateforme alternative. Par conséquent, nous devons tirer parti de la méthodologie, de l’expertise et de l’infrastructure existantes pour l’analyse des Big data et l’informatique dématérialisée.

25 Encadré 3. Efforts expérimentaux

Plusieurs groupes ont développé des systèmes qui démontrent le côté pratique de certains des concepts proposés ci-dessus pour la Plateforme.

L’Institut européen de bio-informatique a développé un nuage interne pour le référentiel public de séquences. Ses utilisateurs peuvent accéder à de grands ensembles de données sans effectuer de téléchargements volumineux. Pour les ensembles de données à accès restreint comme l'European Genome-Phenome Archive (EGA), il utilise la gestion fédérée d’identité. En outre, il dispose d’une grande expérience de travail dans une structure plurilingue et multinationale.

Le US National Center for Biotechnology Information gère la base de données dbGaP pour stocker les génomes générés en recherche biomédicale. Comme l’EGA, celle-ci est abondamment utilisée en recherche biomédicale. Le centre étudie la possibilité de mettre en œuvre l’informatique dématérialisée.

L’Institut de génomique de Pékin a développé cinq centres de bio-informatique dématérialisée en différents lieux qui stockent et traitent les génomes.

Le CGHub est le système de stockage des données génomiques générées par les grands projets de l’US National Cancer Institute. Il est conçu pour répondre à des besoins étendus de stockage mais pour l’instant, il n’est pas mis en œuvre de manière dématérialisée.

Bionimbus expérimente une infrastructure collaborative pour travailler avec les données génomiques au sein de l’Open Science Data Cloud.

Le Broad Institute a instancié son pipeline d’analyse des lignées germinales et des données somatiques sur le cancer dans des environnements commerciaux d’informatique dématérialisée, et il a intégré à ces outils la gestion de l’accès pour assurer la surveillance des accès utilisateur et des CCI.

L’AMP Lab de l’université de Californie à Berkeley a développé son pipeline d’analyse du génome et il le déploie actuellement dans les environnements dématérialisés commerciaux.

Illumina a créé un environnement de type dématérialisé appelé Basespace pour l’analyse de séquence, et ses instruments téléchargent directement les données vers le nuage.

D’autres entreprises de séquençage et de nombreuses start-ups en informatique proposent des outils d’analyse de séquence dans un environnement dématérialisé.

26 Chapitre 3. Prochaines étapes

27 Prochaines étapes

Les chapitres qui précèdent permettent de tirer un certain nombre de conclusions. D’abord, l’intégration de la séquence du génome avec le phénotype clinique offre un vaste potentiel d’amélioration des connaissances médicales et de la santé humaine. Ensuite, des points de vue variés et divers protocoles réglementaires imposent une approche souple plutôt qu’une approche de type « taille unique ». Enfin, les avantages du partage et de l’intégration des données peuvent être amplifiés par le soutien du public basé sur l’harmonisation des procédures réglementaires et une plateforme de technologie commune.

Afin d’atteindre ces bénéfices, nous proposons la création d’une Global Alliance, une organisation sans but lucratif composée des diverses parties prenantes, réunissant des groupes de travail pour élaborer des politiques et des procédures communes, s’exprimant clairement auprès du public à propos des bénéfices et des difficultés du partage des données, présentant un fonctionnement efficace et disposant d’une portée internationale.

Afin d’élaborer des normes de technologie et de maximiser l’interopérabilité, la Global Alliance travaillera avec des Partenaires de développement de la Plateforme et avec la communauté élargie pour créer, puis pour gérer une Plateforme ouverte d’informations. Les utilisations et les utilisateurs de la Plateforme seront nombreux et variés, mais pour garantir l’interopérabilité, des normes communes doivent être définies rapidement, largement utilisées et gérées de manière efficace.

Une grande variété d’Entités opérationnelles donnera vie à la Plateforme en développant les composantes et les services nécessaires et en travaillant avec les utilisateurs pour regrouper et analyser les données et pour améliorer la médecine et les soins cliniques. Il s’agira d’organisations spécialisées, existantes ou nouvellement créées, qui contribuent et démontrent la valeur de la Plateforme, en apportant leurs compétences techniques de niveau international et leur efficacité opérationnelle pour satisfaire les besoins des communautés de la recherche et de la clinique.

La Global Alliance sera internationale et sans but lucratif, et elle apparaîtra comme une voix de confiance et faisant autorité qui garantit que la médecine génomique se développe pour (a) servir les besoins de la société plutôt qu’uniquement des intérêts commerciaux ou universitaires, (b) soutenir les technologies actuelles et futures de génération de données et d’informatique dématérialisée, (c) encourager l’innovation et la diversité en associant les parties prenantes à but lucratif ou non et (d) demeurer une ressource ouverte à la communauté de la recherche et de la clinique, plutôt que de servir les besoins d’une entité spécifique.

Exactement comme le World Wide Web et le Projet Génome Humain ont encouragé la création d’applications innombrables et non anticipées, une Plateforme ouverte de partage des données conduira à la croissance d’un écosystème basé sur l’information pour les sciences biomédicales.

Lancement de la Global Alliance

Objectif : la Global Alliance réunit un large éventail d’organisations partenaires et d’experts qui ensemble développent, évaluent et in fine approuvent les solutions politiques qui équilibrent la l’intégration facilitée des données avec la protection de la confidentialité et l’autonomie des individus. L’Alliance apparaîtra comme une voix de confiance dans la communauté internationale sur les questions de partage et de confidentialité des données génomiques et cliniques. L’Alliance utilisera son rôle d’organisateur et la confiance publique qu’elle engendre pour garantir le respect des normes les plus strictes en matière de comportement déontologique et le développement et le déploiement de normes techniques ouvertes. La Global Alliance favorisera l’harmonisation des cadres réglementaires entre organisations et juridictions.

La Global Alliance constituera un organisme expert digne de confiance qui accélère les progrès en biomédecine en facilitant l’intégration responsable et efficace des données génomiques et cliniques.

Composition : une fois créée, la Global Alliance sera composée d’organisations partenaires ainsi que d’individus. Les organisations seront lucratives ou non, et proviendront des secteurs concernés, notamment la biomédecine (comme les prestataires de soins de santé, les universités, les groupes de défense des droits en matière de maladie, la recherche et développement pharmaceutique, les

28 financeurs), la technologie génomique (comme les entreprises de plateforme de séquençage) et la technologie de l'information (comme le stockage des données, les protocoles et les normes de sécurité sur Internet, l’informatique dématérialisée élastique à grande échelle, la recherche et l’exploitation des données, les réseaux sociaux).

Au cours de l’hiver et du printemps 2013, la conceptualisation de l’Alliance a été pilotée par un Comité organisateur, avec l’implication étroite et la contribution des participants à la réunion du 28 janvier. Ces participants provenaient de secteurs à but non lucratif (recherche, prestataires de soins de santé, financeurs) même si des discussions informelles ont recueilli les contributions d’un certain nombre d’entités commerciales. À mi-2013, nous envisageons une phase au cours de laquelle les organisations intéressées issues de tous les secteurs se verront proposer l’opportunité de signer une Lettre d’intention de devenir Membres fondateurs de l’Alliance. Enfin un Protocole d’accord, qui fonde l’Alliance, précise les relations et les responsabilités des parties et définit une approche claire et transparente pour que d’autres parties intéressées s’y joignent à l’avenir, sera signé.

Structure : nous recommandons que la Global Alliance soit constituée (au moins au départ) en alliance à but non lucratif plutôt que sous la forme d’une entreprise autonome. Cette structure permet à l’Alliance d’être créée rapidement et évite de devoir s’engager prématurément dans la complexité et la rigidité exigées par une structure d’entreprise. Des précédents sont en faveur de ce modèle : des organisations non constituées en société telles que le World Wide Web Consortium (W3C) et l’International Cancer Genome Consortium (ICGC) sont parvenues à coordonner leurs activités entre juridictions et secteurs, la mise en œuvre étant réalisée par les organisations partenaires impliquées et soutenant les principes fondamentaux. Les membres de l’Alliance seront liés par un Protocole d’accord et d’autres formes d’engagement qui définissent les devoirs et les obligations entre les diverses parties (organisations partenaires, établissement(s) d’accueil, entités opérationnelles, fournisseurs de technologie, etc.).

Gouvernance : pendant la phase de planification et de lancement, la Global Alliance sera dirigée par un Comité transitoire de pilotage, issu du Comité d’organisation de la réunion du 28 janvier. Une fois le Protocole d’accord esquissé et signé, nous prévoyons que les Organisations associées fondatrices constitueront un Comité exécutif, dont les membres seront issus des organisations partenaires dans différents secteurs (par ex., des agences de financement, des établissements de recherche, des organisations de soins de santé, des groupes de défense des droits en matière de maladie et des organisations communautaires, des entreprises spécialisées en sciences de la vie et en technologie). Le Comité exécutif sera suffisamment réduit (entre 8 et 12 membres) pour être efficace et il sera composé d’individus ayant des points de vue différents et engagés en faveur de la mission de l’Alliance. Le Comité exécutif définira les procédures de sélection d’un président, ainsi que la durée du mandat, le renouvellement des membres, etc.

Organisation et administration : l’Alliance comprendra un petit nombre de salariés à temps complet et un certain nombre de Groupes de travail d’experts. Une ou plusieurs organisations « hébergeantes » seront choisies pour fournir une domiciliation administrative à l’Alliance (ce type d’organisation prend exemple sur le W3C qui dispose de quatre organisations d’accueil : le MIT, l’ERCIM, l’université Keio et l’université Beihang). La ou les organisations « hébergeantes » fourniront des services administratifs et financiers sur une base contractuelle.

La gestion quotidienne sera déléguée à un directeur exécutif à plein temps qui rendra compte au président du Comité exécutif et qui assistera aux réunions en tant que membre sans droit de vote. Le directeur exécutif supervisera un bureau et le personnel chargé des fonctions de l’Alliance telles que l’organisation de réunions, la procédure de définition de norme, la communication entre les partenaires et avec la communauté élargie.

La Global Alliance comportera des divisions distinctes, chacune avec du personnel dédié :

 Réglementation, loi et déontologie  Normes technologiques et Plateforme  Données cliniques et phénotypiques  Engagement du public

29 Ces fonctions doivent faire partie de la même organisation, mais leur personnel et leur expertise sont distincts et elles nécessiteront chacune un dirigeant incontestable et un personnel identifiable. L’Alliance réunira des Groupes de travail d’experts (nommés par le Comité exécutif) composés d’experts internationaux dans chacun de ces domaines. Ces Groupes travailleront en étroite collaboration avec le personnel de l’Alliance qui les aidera à élaborer des points de vue, des politiques, des normes et des activités dans leur domaine. D’autres Groupes de travail d’experts seront constitués selon les besoins.

Développement de la Plateforme : l’une des fonctions cruciales de la Global Alliance sera de s’assurer que la Plateforme Ouverte d’Informations est rapidement développée, avec une mise en œuvre de référence initiale, qu’elle est largement utilisée et mise en place à grande échelle et qu’elle fait d’objet d’évolutions et de soutien selon les besoins technologiques et scientifiques. Elle y parviendra en réunissant un Groupe de travail d’experts sur les normes techniques, qui travaillera en étroite collaboration avec des Partenaires de développement de la Plateforme issus des Entités opérationnelles initiales et les autres experts nécessaires pour créer une API et une mise en œuvre de référence.

La Global Alliance gèrera une procédure qui favorise le développement de normes ouvertes de grande qualité et elle promulguera ces normes pour une utilisation volontaire par les groupes intéressés.

Relations avec les Entités opérationnelles : la Global Alliance publiera ses Principes fondamentaux, ses politiques et ses normes, les Entités opérationnelles se chargeant de la mise en œuvre et de la fourniture de services. Comme la Plateforme sera ouverte, et comme elle a pour objectif de susciter l’innovation, il est prévu que de nombreux types d’organisations (qu’elles existent déjà ou soient nouvellement constituées) pourront développer des outils ou proposer des services. L’Alliance peut décider de surveiller si les Entités opérationnelles utilisent la plateforme et comment elles procèdent, et de publier des avis sur les Entités qui respectent les pratiques recommandées. Par ailleurs, seules les Entités opérationnelles qui rejoignent l’Alliance et acceptent de soutenir ses principes, politiques et normes auront la possibilité de participer à la gouvernance, à la définition des normes et à la réalisation de la politique de l’Alliance. Au cours de la première année, il sera essentiel que l’Alliance travaille de concert avec les premières Entités opérationnelles (ainsi qu’avec les autres parties prenantes) pour développer les normes et la plateforme en parallèle avec la première mise en œuvre de référence.

Comme la Plateforme est localisée sur plusieurs juridictions, et en raison du besoin et du souhait de gestion et de contrôle au niveau local, il est probable que de nombreuses Entités opérationnelles seront in fine requises. Les Entités opérationnelles devront être des entreprises bien gérées et pourvues de ressources, proposant tout ou une partie des éléments suivants : (a) des compétences techniques en matière de stockage, traitement, analyse et/ou partage des informations, (b) des ensembles de données fournis par leurs partenaires et utilisateurs, (c) une gestion de l’accès aux données et la conformité avec le consentement éclairé local et les conditions d’utilisation des données, (d) une interface entre les utilisateurs, les fournisseurs d’informatique dématérialisée et les développeurs externes de logiciel, (e) l’hébergement de portails permettant aux utilisateurs (chercheurs, cliniciens, patients) d’accéder aux données et aux résultats, (f) la gestion des retraits de données (selon la demande).

Alors que chaque partie aura la liberté d’adopter les politiques et les normes promulguées par l’Alliance, l’Alliance aura la responsabilité de s’assurer que les Entités opérationnelles respectent parfaitement et soutiennent l’ensemble intégral des Principes fondamentaux, des conseils en matière de politique et des normes techniques. Pour promouvoir cet objectif, les organisations seront autorisées à rejoindre l’Alliance en tant qu’Entités opérationnelles uniquement si elles acceptent un ensemble de principes fondamentaux et de normes techniques et de se soumettre à un contrôle de la part de l’Alliance.

Financement : la Global Alliance sera financée par un ensemble varié de moyens qui peuvent inclure le soutien philanthropique, des subventions provenant de la recherche et d’autres agences de financement et/ou les cotisations des membres.

30 Encadré 4. Incitations au partage

S’il est possible de résoudre les difficultés techniques et d’harmoniser les procédures réglementaires, les participants, les chercheurs et les prestataires de soins de santé déposeront-ils des données, développeront-ils des outils et partageront-ils des informations ? Pour créer un écosystème vivant et en croissance, la participation volontaire sera essentielle.

L’altruisme peut et doit être une incitation majeure : le souhait des parties prenantes de faire progresser les connaissances médicales pour leurs familles, leurs communautés et leurs patients. L’Alliance doit favoriser et faire progresser le partage altruiste des données tout en protégeant les droits de ceux qui choisissent de partager. Un deuxième moteur pourrait être l’intérêt personnel, car un référentiel comportant de plus en plus d’informations accessibles et de procédés analytiques créera un effet de réseau, son utilité augmentant avec le nombre des utilisateurs. Les incitations économiques pourraient comprendre une tarification préférentielle (rendue possible par les dons philanthropiques et les contributions en nature) à ceux qui contribuent et qui partagent leurs données.

Une réflexion attentive sera nécessaire pour encourager le partage par une grande variété de parties prenantes tout en évitant de contraindre ou désavantager un segment de l’écosystème.

31 Ébauche de déclaration de mission, objectifs et principes fondamentaux

Mission

Nous sommes une alliance internationale de prestataires de soins de santé, d’établissements de recherche, d’organisations de défense des droits en matière de maladie, d’entreprises spécialisées dans les sciences de la vie et dans les technologies de l'information, s’efforçant d’améliorer la santé humaine en maximisant le potentiel lié à l’intégration des séquences de génome et des informations cliniques, tout en respectant et en favorisant l’autonomie des participants.

Afin de remplir cette mission, nous

 saisirons l’occasion d’apprendre de l’intégration des données génomiques et cliniques, rendue possible par la réduction du coût du séquençage de génome ;  soutiendrons la capacité des patients, des cliniciens et des chercheurs à choisir de partager leurs informations afin d’augmenter les connaissances et d’améliorer les résultats thérapeutiques pour le patient ;  piloterons l’élaboration et l’adoption de normes technologiques pour gérer, protéger, analyser et partager volontairement d’une manière efficace les données génomiques, les informations cliniques et les outils d’analyse ;  favoriserons l’harmonisation des cadres réglementaires, aplanirons les obstacles au partage des données en élaborant des politiques pour les consentements éclairés, alignerons les recommandations entre les juridictions, tout en respectant la confidentialité et en associant les individus, les familles et les communautés ;  travaillerons en étroite collaboration avec les Entités opérationnelles qui mettent en œuvre des plateformes de technologie de l’information interopérables, pour garantir un partage et un regroupement des informations génomiques et cliniques en toute sécurité ;  montrerons l’exemple, en démontrant comment la communauté internationale peut collaborer pour partager la technologie et les données et en apprenant à faire des découvertes qui font progresser la santé humaine et le bien-être qui seraient impossibles autrement.

Nos Principes fondamentaux sont les suivants.

 Collaboration – partage de données et d’informations pour faire progresser la santé humaine.  Innovation – écosystème vivant qui s’appuie sur les découvertes et les avancées technologiques pour accélérer les progrès en sciences de la vie et en médecine clinique.  Agilité – action rapide pour permettre le regroupement des données génomiques et cliniques pour le bénéfice des personnes touchées par le cancer et les maladies héréditaires.  Respect – respect des préférences en matière de partage des données, notamment la confidentialité et le droit de partager ses données, ainsi que l’autonomie des partenaires de recherche.  Transparence – maintien d’une gouvernance et d’un fonctionnement transparents et communication avec les participants aux recherches et les partenaires.  Responsabilité – développement, évaluation, communication et mise en œuvre des meilleures pratiques en matière de technologie, de déontologie et de portée publique.  Intégration – partenariat, partage et instauration de la confiance entre les parties prenantes.

32 Participants, contributeurs et remerciements

Participants à la réunion du 28 janvier à New York

Comité organisateur David Altshuler Broad Institute of Harvard and MIT, MGH Peter Goodhand Institut de l’Ontorio pour la recherche sur le cancer HHMI/Université de Californie, Santa Cruz Thomas Hudson Institut de l’Ontorio pour la recherche sur le cancer Brad Margus A-T Children's Project Betsy Nabel* Brigham and Women's Hospital Charles Sawyers HHMI/Mémorial Sloan-Kettering Michael Stratton* Institut Sanger

Participants Wylie Burke* Université de Washington Martin Bobrow Université de Cambridge Michael Boehnke Université du Michigan Greg Brandeau Ancien responsable en chef de la technologie, Disney and Pixar Fabien Calvo Institut National du Cancer Vicki Chandler Fondation Gordon & Betty Moore Lynda Chin Centre anticancéreux MD Anderson Dr. Guy Cochrane EMBL-EBI Francis Collins National Institutes of Health (États-Unis) Bob Darnell Université Rockefeller, centre génomique de New York Université d’Oxford Sue Desmond-Hellmann Université de Californie, San Francisco James R. Downing Hôpital de recherche pédiatrique St Jude Michael Dunn Wellcome Trust Sean Eddy HHMI, Janelia Farm Research Campus Tom Freedman Freedman Consulting, LLC Stephen Friend Sage Bionetworks Richard A Gibbs Baylor College of Medicine Todd Golub Broad Institute of Harvard and MIT, DFCI Hank Greely Faculté de droit de l’université Stanford Leif Groop Université de Lund Mark Guyer National Human Genome Research Institute (États-Unis) Karin Jegalian Rédactrice scientifique indépendante Jane Kaye* Université d’Oxford Karen Kennedy Institut Wellcome Trust Sanger Bartha Knoppers Université McGill Eric Lander Broad Institute of Harvard and MIT David J. Lipman National Center for Biotechnology Information Pierre Meulien Genome Canada Nicky Mulder Université du Cap Arcadi Navarro CRG (Centre de Regulacio Genomica) Pearl O'Rourke* Partners Healthcare Andy Palmer Koa Lab Aarno Palotie Institut Wellcome Trust Sanger Dave Patterson Université de Californie, Berkeley Anthony Philippakis Brigham and Women's Hospital Herman A. Taylor, Jr Étude cardiaque Jackson Sharon Terry Alliance génétique Marc Tessier-Lavigne Université Rockefeller Harold Varmus National Cancer Institute (États-Unis) Wellcome Trust John Wilbanks Sage Bionetworks Barbara Wold Caltech

33 *N’a pas pu assister en personne (certains ont participé par téléphone).

Remerciements

Les personnes dont les noms suivent ont contribué aux idées et aux suggestions qui ont façonné la proposition décrite ci-dessus. Richard Barker Centre for Advancement of Sustainable Medical Innovation Université d'Oxford Tim Berners-Lee World Wide Web Consortium Ewan Birney Institut européen de bio-informatique Carlos Bustamante Université Stanford Don Chalmers Université de Tasmanie Stephen Chanock National Cancer Institute (États-Unis) Mark Daly Hôpital général du Massachusetts, Broad Institute Mark DePristo Broad Institute of Harvard and MIT Mark Diekhans Université de Californie à Santa Cruz Peter Donnelly Université d’Oxford Richard Durbin Institut Wellcome Trust Sanger Paul Flicek Institut européen de bio-informatique Gaddy Getz Hôpital général du Massachusetts, Broad Institute Ted Goldstein Université de Californie à Santa Cruz Eric Green National Human Genome Research Institute (États-Unis) Institut Wellcome Trust Sanger George Komatsoulis National Cancer Institute (États-Unis) Kazuto Kato Université d’Osaka Zak Kohane Hôpital pédiatrique, Boston Dominic Kwiatkowski Université d’Oxford Daniel MacArthur Hôpital général du Massachusetts, Broad Institute Elaine Mardis Université de Washington à St Louis David Margulies Hôpital pédiatrique, Boston Mark McCarthy Université d’Oxford Jill Mesirov Broad Institute of Harvard and MIT Jeff Murray Université de l’Iowa / Fondation Gates Margaret Sleeboom-Faulkner Université du Sussex Taylor Sittler Université de Californie à San Francisco Louis Staudt National Cancer Institute John Todd Université de Cambridge Matthew Trunnell Broad Institute of Harvard and MIT Henry Yang (Yang Huanming) BGI

34 Contributions des auteurs

Chapitre 1. Présentation du contexte

David Altshuler, John Bell, Todd Golub, Peter Goodhand, Tom Hudson, David Haussler, Karen Kennedy, Eric Lander, Todd Golub, Brad Margus, John Wilbanks, Charles Sawyers, Anthony Philippakis, Martin Bobrow, Lynda Chin, Sharon Terry, Tom Freedman, Kyra Jennings, Sarah Olinger, Jane Kaye et Bartha Knoppers

Chapitre 2. Aspects réglementaires, déontologiques et techniques

Wylie Burke, Hank Greely, Jane Kaye, Bartha Knoppers, Pearl O'Rourke, Barbara Wold, Stacey Donnelly, Elizabeth Lawler, David Altshuler, Peter Goodhand, John Wilbanks

David Haussler, Gaddy Getz, David Patterson, Taylor Sittler, Matthew Trunnell, David Altshuler, Bill Bolosky, Mark DePristo, Mark Diekhans, Ted Goldstein, Jamie Kinney, Anthony Philippakis, Paul Flicek

Chapitre 3. Prochaines étapes

Tom Hudson, David Altshuler, Peter Goodhand, Brad Margus, Betsy Nabel, Charles Sawyers, Martin Bobrow, Karen Kennedy, Eric Lander, Todd Golub, Francis Collins, Harold Varmus, Sharon Terry, David Patterson, Kay Davies, Pearl O'Rourke et Pierre Meulien

Édition et intégration globales

Peter Goodhand, Marian Orfeo et David Altshuler

35 Bibliographie

36 37