<<

#69 NOVEMBRE 2019

L’INTELLIGENCE ARTIFICIELLE

CONTEXTE − TECHNOLOGIES − DOMAINES D’APPLICATION − PERSPECTIVES POINT DE VUE L’IA, nouveau « graal » de l’informaticien ? Par Rodolphe Gelin, expert IA (Renault Paris)

© DR « Si le Cro-Magnon informatique des années 90 pouvait se dire que la loi de Moore allait régler ses problèmes de performance, le geek contemporain ne peut plus trop y compter, la physique des micro-processeurs ayant déjà pratiquement atteint ses limites. »

e retour en grâce de l’intelligence artificielle et surtout des nouvelles valeurs des paramètres qui, en une dizaine d’itérations, lui techniques basées sur l’apprentissage a été rendu possible permettent de bien reconnaître les 80 000 exemples. Les perfor- par l’explosion du nombre de données disponibles et l’ac- mances de ce réseau fraîchement formé sont ensuite testées sur les 20 croissement exponentiel des puissances de calcul. Ces 000 images restantes. Comme la « vérité terrain » est connue pour ces Lnouveaux ordres de grandeur permettent de mettre en œuvre des images, la qualité de l’apprentissage est automatiquement évaluée. Si algorithmes et des méthodes inenvisageables il y a une trentaine d’an- le réseau en reconnaît correctement 99 %, on peut commencer à le nées. À la fin des années 80, ce qu’on appelait une explosion combi- faire travailler réellement. Mais généralement, ce type de perfor- natoire ne semble plus aujourd’hui qu’un pétard combinatoire mouillé ! mances n’est pas obtenu du premier coup. L’apprentissage est donc recommencé selon les mêmes modalités et peut être répété une di- Un des domaines où l’évolution a été la plus spectaculaire est le trai- zaine de fois, le tout en moins de 10 minutes, grâce aux ressources de tement d’images. Comparons ainsi le même exercice réalisé par un calcul actuelles. L’étudiant de 2019 a effectué en quelques minutes étudiant à 30 ans d’intervalle : reconnaître la présence d’une voiture plus de calculs que celui de 1990 en aurait fait dans toute sa vie (si la sur une photo. A la fin du XXe siècle, son programme recherchait explicitement, parmi les pixels formant l’image, des éléments carac- technologie s’était arrêtée là). térisant une voiture : des bords (zones de couleurs différentes), des Le travail de l’informaticien du XXIe siècle serait-il donc beaucoup bords vaguement circulaires (roues) puis plus rectilignes (toit, portes, plus facile que celui de son collègue du XXe ? Peut-être... Mais les vitres…) en envisageant toutes les orientations et positions possibles nouvelles contraintes industrielles sur la protection des données ou dans l’image dont il fallait ensuite vérifier la cohérence géométrique. « l’embarquabilité » du logiciel qui doit, par exemple, tourner sur une Après plusieurs dizaines de minutes de calcul, l’ordinateur rendait son voiture n’ayant pas toujours un accès rapide à des moyens de calcul verdict sur la présence ou non d’une voiture dans l’image. Aujourd’hui, distants ou les ressources pour faire tourner ces calculs en local, in- un système de reconnaissance d’images basé sur de l’apprentissage utilise une base de données déjà labellisée de 100 000 photos, cha- duisent de nouveaux problèmes. Si le Cro-Magnon informatique des cune y étant décrite. Grâce à celles-ci, il apprend lui-même ce qui années 90 pouvait se dire que la loi de Moore allait régler ses pro- caractérise la présence d’une voiture dans une image en essayant tous blèmes de performance, le geek contemporain ne peut plus trop y les motifs possibles dans un paquet de pixels. Lors de la phase d’ap- compter, la physique des micro-processeurs ayant déjà pratiquement prentissage, le système utilise 80 000 de ces images pour entrainer atteint ses limites. D’où l’émergence de nouvelles expertises en atten- un réseau composé de centaines de milliers de neurones : ce dernier, dant la prochaine rupture technologique. A la façon de ceux qui, au- dont les paramètres (les « poids » des neurones) sont initialisés à des trefois, étaient capables de coder des routines en assembleur pour valeurs quelconques, traite les images et indique, pour chacune, ce « gagner du temps de cycle », les experts en conception d’architectures qu’il y a reconnu. Les paramètres ayant été choisis au hasard, ses ré- de réseaux de neurones et en adéquation « hardware-software » sont ponses sont généralement fausses. Une moyenne des erreurs faites mis à rude épreuve pour que l’IA devienne réalité dans notre quoti- sur ces 80 000 exemples est alors calculée puis utilisée pour corriger dien. Hier comme aujourd’hui, être informaticien reste un beau mais la valeur des poids des neurones. Le processus est relancé avec les dur métier !

2 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs SOMMAIRE

DANS CE NUMÉRO

LE POINT DE VUE DE RODOLPHE GELIN 2 L’INTELLIGENCE SOMMAIRE 3 DÉFINITION 4 ARTIFICIELLE CONTEXTE 6

LES TECHNOLOGIES 12 LES INFRASTRUCTURES 13 L’IA EMBARQUÉE 14 L’IA DE CONFIANCE 22 L’ALGORITHMIQUE 26

LES DOMAINES D’APPLICATION INTRODUCTION 31 30 ÉNERGIE 28 RECHERCHE FONDAMENTALE 34 Biologie / santé 35 Climat et environnement 37 Astrophysique 38 Physique nucléaire 40 CALCUL 42

PERSPECTIVES 4 questions à Yann LeCun 45 par Étienne Klein

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 3 L’INTELLIGENCE ARTIFICIELLE

• PAR ALEXEI GRINBAUM (Direction de la recherche fondamentale)

DÉFINITION

Alexei Grinbaum est physicien et philosophe. Il travaille au Laboratoire Vous avez (bien) dit de recherche sur les sciences de la matière (Institut de recherche sur les lois fondamentales de l’Univers du CEA). intelligence artificielle ?

Selon les fondateurs de la cybernétique, dont John McCarthy and Marvin Minsky, le terme « intelligence artificielle » désigne un comportement produit par une machine dont on peut raisonnablement estimer que, s’il avait été le fruit d’une action humaine, il aurait exigé de l’intelligence de la part de l’agent concerné. Trait saillant à retenir, cette définition s’appuie sur la comparaison entre la machine et l’homme. En effet, bien avant les ordinateurs jouant aux échecs ou les traducteurs automatiques, Alan Turing soulignait déjà que le concept même de « machine intelligente » ne pouvait être défini qu’à travers sa confrontation « Trois types d’algorithmes avec un comportement humain. fondent les systèmes d’IA : apprentissage dit supervisé, ette définition recouvre un spectre très toute description mathématique rigoureuse de ce qui large : par exemple, elle inclut la capacité à se passe pendant l’apprentissage profond. apprentissage non supervisé, trouver des erreurs d’orthographe dans un La technique d’apprentissage supervisé présuppose apprentissage par texte, ce qui nous paraît aujourd’hui tout à Cfait automatisable. Comme d’habitude, le développe- que les systèmes informatiques élaborent leur renforcement. ment du numérique exige en permanence qu’on révise fonctionnement en suivant des lois ou des indications les définitions historiques, y compris celle de l’IA. Dans dictées ou « étiquetées », par les hommes. À l’inverse, Chacune de ces méthodes un premier sens, « intelligence artificielle » désigne un la technique non supervisée permet à la machine peut être réalisée seule, domaine de recherche autour des machines dotées d’explorer ses données sans qu’aucune « grille de d’une capacité d’apprentissage et dont le comporte- lecture » ne lui soit imposée. Souvent, elle y trouve des mais des algorithmes dits ment complexe ne peut être entièrement décrit ni com- régularités qui ne ressemblent guère à des notions pris par le concepteur humain. Le fonctionnement familières à l’homme : c’est la marque d’un élément d’apprentissage profond d’un tel système ne se réduit pas au choix d’action dans non-humain dans le comportement de ces machines () les emploient un catalogue écrit au préalable, aussi long soit-il. que, par ailleurs, on mesure toujours à l’homme. C’est Du point de vue de l’histoire de l’informatique, aussi l’élément qui procure aux systèmes d’IA leur à des niveaux différents l’apprentissage machine n’est qu’un outil d’IA parmi incroyable efficacité. Dans le cas de l’apprentissage au sein d’un seul système. » d’autres mais, en pratique, ces deux termes sont de non supervisé, celle-ci peut aller jusqu’à mettre l’utili- plus en plus fréquemment synonymes. sateur dans la situation d’indistinction : en 2019, la Trois types d’algorithmes fondent les systèmes d’IA : génération non supervisée de textes a été capable apprentissage dit supervisé, apprentissage non d’écrire plusieurs paragraphes tout à fait identiques à supervisé, apprentissage par renforcement. Chacune la production humaine ; dans le domaine visuel, le de ces méthodes peut être réalisée seule, mais des recours au non-humain et au non-explicable est encore algorithmes dits d’apprentissage profond (deep lear- plus fondamental : la reconnaissance des images est ning) les emploient à des niveaux différents au sein beaucoup plus efficace si les règles de fonctionnement d’un seul système. Cette imbrication contribue ne sont pas dictées d’emblée par l’homme mais davantage à rendre inconcevable, au moins à ce jour, « découvertes » par le système.

4 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs L’INTELLIGENCE ARTIFICIELLE

La troisième méthode d’apprentissage, dite « par renforcement », consiste à identifier, en une suite 3 d’étapes d’évaluation successives, puis à établir avec une force croissante, des corrélations pertinentes entre Instabilité de l’apprentissage les données. Les dernières recherches montrent que le succès de cette méthode, très répandue dans le Les techniques actuelles ne résistent pas bien à domaine des jeux, dépend souvent de la « curiosité » plusieurs types d’attaques adversariales. Pour une de la machine : sa capacité à attribuer un poids bonne protection des systèmes d’IA, de nouvelles Alan Mathison Turing (1912-1954), conséquent à l’exploration des scénarii inconnus ou recherches et solutions techniques restent nécessaires. imprédictibles. mathématicien et informaticien britannique, est considéré comme Bien que l’efficacité des systèmes d’IA, déjà 4 l’« inventeur » de l’ordinateur. impressionnante, augmente chaque année, Problème de spécification Il a également contribué au débat cinq facteurs contribuent à l’émergence, sur l’intelligence artificielle, en proposant pendant leur utilisation, des tensions, ou même Les notions humaines ne peuvent être ni traduites le test qui porte son nom, fondé des conflits, de éthique et/ou juridique : dans le code informatique ni apprise mécaniquement sur la faculté d’une machine à imiter la conversation humaine. avec une précision absolue. Ainsi, si une règle 1 préconise de « protéger l’homme », le système doit Présence de biais savoir ce que signifie « l’homme », sinon une erreur dans les données d’apprentissage dans l’identification ou dans la catégorisation se produira tôt ou tard. Par exemple, un système de reconnaissance faciale ne doit pas être entraîné sur les visages des personnes ayant la même couleur de peau. 5 Absence de compréhension mathématique 2 satisfaisante du fonctionnement des systèmes Apprentissage sans compréhension d’apprentissage profond Contrairement à l’homme, un système informatique Sans elle, il reste impossible de démontrer rigou- ne comprend pas le sens de ses actions, ce qui peut avoir des conséquences néfastes, comme des injures reusement que leur comportement ne sortira jamais générées automatiquement. du périmètre autorisé. Pour aller plus loin La commission d’éthique de l’alliance Allistène (Cerna) : http://cerna-ethics-allistene.org Rapport sur les questions éthiques posées par l’apprentissage machine : http://cerna-ethics-allistene.org/ Publications%2bCERNA/ John McCarthy (1927-2011) apprentissage/index.html et Marvin Lee Minsky (1927-2016) ont organisé ensemble, en 1956, la conférence Avis du Groupe d’experts de haut niveau de Dartmouth, considérée comme l’acte de de la Commission Européenne : naissance de l’intelligence artificielle en tant https://ec.europa.eu/digital- que domaine de recherche autonome. single-market/en/high-level- John McCarthy a reçu, en 1971, le prix Turing expert-group-artificial-intelligence pour ses travaux dans ce domaine. Rapport du même groupe d’experts : https://ec.europa.eu/newsroom/ dae/document.cfm?doc_id=60427

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 5 CONTEXTE L’IA AU CEA

© DR • CONTRIBUTEURS

(Direction de la recherche technologique) Christian Gamrat est responsable scientifique du Département architecture, conception et logiciels embarqués (DACLE) du CEA / List.

Fig. 1 - Pierre Peretto (DRF) devant la machine neuronale analogique MIND-128 en 1988 (Direction des applications militaires) Gilles Defaux est chercheur au Département de conception et de simulation des armes (DAM Ile-de-France) du CEA. [Flashback]

(Direction de l’énergie nucléaire) « A l’aube d’une nouvelle ère du calcul électronique, Jean-Marc Martinez est chercheur au Service de thermohydraulique et de l’architecture neuronale semble être promise à un mécanique des fluides (Direction des brillant avenir. Aujourd’hui, MIND-128 fonctionne activités nucléaires de Saclay) du CEA. parfaitement. L’heure des démonstrations est arrivée et tout le monde veut voir “La machine de Peretto”. Il est vrai que les problèmes soumis jusqu’à présent donnent des résultats assez spectaculaires. Voir évoluer en “temps-réel” les spins du réseau vers une configuration stable, soumettre le modèle à de l’agitation thermique, jouer librement avec la (Direction de la recherche fondamentale) température puis provoquer de brusques trempes Valérie Gautard est chercheure au donne une idée concrète de la physique. Il faut savoir Département d’électronique des détecteurs et d’informatique pour la physique que pour ce problème particulier, un calculateur (Institut de recherche sur les lois classique ne saurait être suffisamment rapide Cahier de labo fondamentales de l’Univers) du CEA. pour calculer toutes les interactions et permettre IRF/DRF le 12 février 1987 une visualisation en temps-réel. La machine neuronale MIND-128, le peut ! »

6 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs L’IA AU CEA CONTEXTE

Fig. 2 : MIND-1024, neuro-ordinateur numérique construit au CEA en 1990 © DR et utilisé pour le développement d’algorithmes d’apprentissage et la simulation de systèmes physiques (verres de spins, repliement de protéines).

L’IA au CEA Une longue histoire ! Le CEA s’est intéressé à l’IA dès les années 80 sous l’impulsion de quelques chercheurs et de leurs doctorants. Il n’a cessé depuis lors d’investir ce domaine prometteur tant au niveau des technologies que des applications. Domaine qui suscite un intérêt grandissant dans le monde.

[1] H. L. Dreyfus, “Alchemy and Artificial u tout début des années 1980, le domaine d’algorithmes d’apprentissage nouveaux ainsi que de Intelligence”, 1965. de l’IA était encore dans les frimas de leurs potentielles applications pratiques. La recherche son premier hiver résultant d’une prise sur les réseaux de neurones et l’IA prit une importance [2] M. L. Minsky et S. A. Papert, : de conscience, autant philosophique [1] grandissante aussi bien au niveau national qu’interna- An Introduction to Computational Geometry, queA mathématique [2], de ses limites par rapport à tional. Rares étaient les organismes de recherche, Expanded Edition, Exp Sub. The MIT Press, 1970. l’intelligence humaine. C’est alors qu’une publication académiques ou industriels, de l’époque qui n’avaient [3] J. J. Hopfield, “Neural Networks and issue du monde de la physique statistique [3] vint pas un programme de R&D sur l’IA, les réseaux Physical Systems with Emergent Collective sortir le domaine de sa torpeur. Le double message neuronaux ou les systèmes experts. de cette contribution était simple : Computational Abilities”, Le CEA y prit pleinement sa part, sous l’impulsion de PNAS, vol. 79, no 8, p. 2554‑2558, avr. 1982. 1. C’est l’aspect collectif du réseau de neurones qui est quelques chercheurs et de leurs doctorants. Ainsi, [4] J.-P. Changeux, L’homme neuronal. Fayard, 1983. important. « Dans le réseau, chaque neurone possède inspiré par les publications de Hopfield et Changeux, des propriétés élémentaires et le réseau est peu structuré. [5] P. Peretto, “Collective properties of neural Pierre Peretto, physicien à l’IRF (aujourd’hui DRF), networks: A statistical physics approach”, Néanmoins, des propriétés de calcul collectives se initia une recherche sur les réseaux de neurones qui Biol. Cybern., vol. 50, no 1, p. 51‑62, févr. 1984. sont spontanément manifestées. » (3, p. 2558) ; donna très rapidement de premiers résultats [5]. Bientôt rejoint par Jean-Jacques Niez (IRDI/Leti, aujourd’hui [6] P. Peretto et J. Niez, “Stochastic Dynamics of 2. Les outils et méthodes issus de la physique statistique DRT), ces travaux s’étendirent depuis le domaine de la Neural Networks”, IEEE Trans. Syst. Man permettent d’étudier les propriétés de ces compor- compréhension des dynamiques neuronales [6] aux Cybern., vol. 16, no 1, p. 73‑83, janv. 1986. tements collectifs. techniques d’apprentissage, à la mise en œuvre de [7] C. Gamrat, A. Mougin, P. Peretto, et O. Ulrich, Puis, en 1983, un ouvrage important, « L’homme calculateurs neuronaux [7] et aux applications [8]. “The architecture of MIND neurocomputers ”, in neuronal » de Jean-Pierre Changeux [4], donna un Parmi les réalisations notables de la période, la famille MicroNeuro Int. Conf. on Microelectronics for Neural des neuro-ordinateurs - c’était le terme choisi à éclairage fondateur issu des neurosciences. C’est dans Networks, Munich, Germany, 1991, p. 463–469. le contexte de ce « printemps » que se développèrent de l’époque - MIND. D’abord avec une petite machine nouvelles recherches sur l’IA, les réseaux de neurones analogique à 128 neurones (MIND-128) sans aucune [8] C. Parey, « Logique majoritaire trivalente et les systèmes experts. L’état des technologies capacité d’apprentissage (voir Fig. 1) puis avec une et réseaux neuronaux : application à l’analyse matérielles et logicielles de l’époque rendait alors machine numérique comprenant 1024 neurones de fiabilité », Paris Sud, Orsay, 1988. possible le développement de machines spécialisées et entièrement connectés (voir Fig. 2).

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 7 CONTEXTE L’IA AU CEA

Un PAN d’histoire

Afin de structurer l’activité autour de l’IA, un groupe de Très soutenue jusqu’en 1994, l’activité du PAN s’est chercheurs pionniers issus de toutes les directions du poursuivie jusqu’au début des années 2000. De CEA prit alors l’initiative de proposer une action de nombreuses applications ont été développées recherche coordonnée sur le sujet. Leur « proposition notamment par l’intermédiaire de différentes thèses. À de plan d’action sur les Réseaux de Neurones au CEA » la Direction de l’énergie nucléaire (DEN), au DMT « Aujourd’hui encore, [9] pour une durée de 3 ans fut formalisé par le Plan (aujourd’hui Département de modélisation des d’Action Neuronal (PAN) du CEA au début de l’année systèmes et structures), c’est dans le domaine de la des réseaux de neurones 1990. Le PAN comportait trois volets : simulation numérique que les réseaux de neurones ont sont mis en œuvre pour été largement utilisés comme méta-modèles pour FONDAMENTAL réduire les temps de calcul de certaines études. Une des améliorer certains applications en collaboration avec EdF a porté sur modèles qui s’avèrent Dont l’objectif était de mener des recherches théoriques l’apprentissage de modèles en neutronique nécessaire sur les réseaux de neurones formels, les algorithmes à l’optimisation du rechargement du combustible des toujours très d’apprentissage et leur utilisation en optimisation REP. Aujourd’hui encore, des réseaux de neurones sont approximatifs pour combinatoire et en intelligence artificielle ; mis en œuvre pour améliorer certains modèles qui s’avèrent toujours très approximatifs pour des des physiques TECHNOLOGIQUE physiques complexes comme en mécanique des fluides complexes comme en Avec pour objectifs la définition et la conception de (voir p.32). machines massivement parallèles pour mettre en œuvre mécanique des fluides. » On peut citer également une thèse co-encadrée avec le des modèles neuro-mimétiques et développer les Service hospitalier Frédéric Joliot (SHFJ) où la technologies nécessaires aussi bien dans les domaines variabilité de l’anatomie corticale cérébrale a été analogiques, numériques et logiciels ; analysée par un réseau de neurones artificiels ! Une APPLICATIF seconde application médicale en collaboration avec deux médecins de l’hôpital Robert Debré a porté sur [9] J.-J. Niez et al., « Proposition Dans lequel les méthodes et instruments proposés sont l’analyse du mélange des signaux cardiaques du fœtus de plan d’action sur les réseaux testés sur des problèmes en vrai grandeur d’optimisation, et de la future maman par des techniques « neuronales » de neurones au CEA », D.LETI de contrôle-commande de processus et de vision de traitement du signal (DMT, Lauréat du Concours DSYS / SESIN / 89-83 / JJN / JR, mars 1989. artificielle. d’Idées à l’Innovation organisée par la DRT en 1998).

Fig. 3 : bobine supraconductrice du détecteur ALEPH Une longue expérience en recherche fondamentale © DR

Les équipes de recherche fondamentale du CEA se de données et l’augmentation de la puissance des servent également, depuis très longtemps, des ordinateurs et leur mise en réseau, l’IA connaît un essor techniques d’IA. Dans les années 90, au LEP, le grand très important en recherche fondamentale, dans tous collisionneur électron-positron du CERN, avec les les domaines : dans celui de la biologie et de la santé, expériences ALEPH et DELPHI (voir Fig. 3), des par exemple, on se sert de ces méthodes pour des réseaux de neurones étaient utilisés pour reconstruire applications cliniques (voir p. 34) ou encore pour la des objets de physique et réaliser certaines analyses. prédiction de structure de protéines (voir p. 37). En Il en a été ainsi dans d’autres expériences de physique astrophysique, la reconnaissance d’image est très utilisée des hautes énergies, jusqu’à, plus récemment, la pour la caractérisation des galaxies (voir p. 39). recherche et l’étude du boson de Higgs au LHC. Concernant le climat, ces techniques informatiques permettent aussi de s’affranchir du caractère chaotique Ces mêmes méthodes ont également été mises en œuvre et de le projeter (voir p. 38). dans des activités plus techniques où il y a parfois des régulations complexes à organiser pour des équipe- Ces activités sont soutenues, depuis 2016, par le groupe ments à disposition peu de temps ou des phénomènes InTheArt (voir p. 31) dont l’objectif est de renforcer et difficilement modélisables. développer l’expertise IA des équipes mais aussi de croiser les idées et faire émerger de nouveaux sujets Aujourd’hui, avec la disponibilité d’un grand nombre d’études.

8 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs L’IA AU CEA CONTEXTE

T (eV) Indices de Sobol 1

160 inter angle a1 a3 a2 0.8 20 P2 0.6

80 P1 0.4 60

40 t3 Fig. 4 : exemple d’analyse de sensibilité 0.2 20 t1 aux variations de paramètres de la 0 0 1 2 3 4 0 1 2 3 4 simulation numérique d’une expérience Laser. t (ns) t (ns) À gauche : type d’expérience concernée et

moyenne des sinus Tmoy experience simulation numérique correspondante.

Tmoy ± 2σsinus exp ± 2σexp Un laser de puissance éclaire une cible en or (millimétrique) qui va se détendre en rayonnant. Au centre : comparaison de l’évolution de la température au cours du temps (t) dans la cible, Simulations et aide à la décision expérimentale (en vert) avec son incertitude de mesure (bandeau vert), issue de la simulation (en À la Direction des applications militaires (DAM) du CEA, l’IA est vue comme la rouge) avec sa confiance associée (bandeau rouge). permettant d’apprendre de simulations numériques par À droite : explication de la confiance (ML) pour fournir des outils d’aide à la décision (où la décision est du ressort de associée à la simulation au cours du temps. Le rôle des paramètres d’entrées dans l’utilisateur) ou faire prendre directement une décision par un algorithme. l’explication de cette confiance évolue au cours du temps. Cette quantification est le résultat l s’agit de remplacer un code de simulation d’incertitude de simulations. La pertinence de ce d’échantillonnages Monte-Carlo, nécessitant coûteux en termes de ressources (temps de réglage dépend de la capacité de la base d’expériences plusieurs milliers d’appels à la simulation, donc calcul, processeur, chaînage de codes...) par à expliquer/couvrir le fonctionnement des nouvelles inaccessible sans utilisation de ML. un algorithme capable de reproduire le/les expériences ; Irésultat(s) du code sans réaliser les calculs et, si réaliser des analyses de sensibilités globales, permet- possible, en fournissant une confiance sur son tant d’identifier notamment à quoi les simulations aptitude à restituer une expérience passée ou future. numériques sont sensibles et à quoi l’incertitude de Cette technique peut être utilisée pour analyser un simulation est due (voir Fig. 4) ; très grand nombre de situations non envisageables optimiser des systèmes et des expériences, en inté- par la simulation et évaluer des critères/outils afin grant le concept d’optimisation robuste (stabilité de la de décider. La plupart du temps, on reproduit donc performance si on s’écarte de la configuration optimale) ; un comportement vu dans un ensemble simulations détecter de manière automatique des simplifications pour d’autres simulations du même ensemble : on à réaliser dans des CAO pour améliorer la qualité des « Cette technique parle alors de prédiction en interpolation. maillages correspondant, en prédisant l’amélioration peut être utilisée pour Deux cas se distinguent en fonction de la espérée alors qu’elle n’est pas encore réalisée ; taille de la base de simulations disponibles: modéliser des équations de fermetures qu’on arrive analyser un très grand pas à expliciter dans la résolution de problèmes Si la taille de cette base est conséquente (big data), complexes ; nombre de situations on utilise le plus souvent des réseaux de neurones optimiser des systèmes HPC (voir p. 42), par exemple profonds ; en prédisant, pendant la réalisation de calculs, ceux qui non envisageables si elle est faible (small data), on se sert généralement ne vont pas se terminer correctement pour décider par la simulation et d’autres techniques comme la régression par processus éventuellement de les arrêter au plus tôt ; gaussien (ou krigeage) quand la dimension des entrées optimiser les paramètres de compilation des codes évaluer des critères / est raisonnable (au maximum 20) ou les approxima- (par exemple les valeurs de paramètres MPI pour tions de faible rang quand elle est plus grande. réduire le temps d’exécution de codes développés en outils afin de décider. » interne) ; Toutes ces méthodes sont utilisées reconstruire des interfaces dans des simulations ALE par les équipes de la DAM pour : (Arbitrary Lagragian Eulerian) faisant intervenir dans régler des chaines de simulation multi-physiques et les mailles divers matériaux se mélangeant ; leur associer une confiance pour prédire des classifier la qualité de restitution de simulations expériences nouvelles à partir d’une base de données numériques par rapport à une expérience, où la finies d’expériences représentatives : on parle alors quantité d’intérêt est une image (voir p. 43).

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 9 CONTEXTE L’IA AU CEA

Technologies de pointe

Dans la foulée du développement des neuro-ordina- capacité d’apprentissage ont été démontrés [10]. teurs expérimentaux MIND, le CEA a exploré Dans le même ordre d’idée, un transistor organique d’autres pistes pour la réalisation de calculateurs dont le comportement impulsionnel mime celui neuro-mimétiques. Au début des années 2000, une d’une synapse naturelle [11] a été mis au point collaboration étroite entre la DRF et la DRT s’est au sein d’une collaboration avec le CNRS. Cette développée sur l’idée d’utiliser des composants issus technologie de synapse artificielle a été exploitée des nanotechnologies pour réaliser des neurones expérimentalement dans un circuit qui reproduit le artificiels. Ainsi, des circuits neuronaux à base de comportement d’association de concepts dit du nanotubes de carbone (voir Fig. 5) et dotés d’une « chien de Pavlov » [12].

A B

[10] G. Agnus et al., “Two-Terminal Carbon U1 R1 W X1 1 Nanotube Programmable Devices for Adaptive Architectures”, Adv. Mater., U2 R2 X W vol. 22, no 6, p. 702‑706, 2009. 2 2 S Y [11] F. Alibart et al., “An Organic Nanoparticle S=∑ii ∑ U3 R3 W Transistor Behaving as a Biological Spiking X3 3 Synapse”, Adv. Funct. Mater., vol. 20, no 2, p. 330‑337, 2010. U4 R4 X W [12] O. Bichler et al., “Pavlov’s Dog Associative 4 4 Learning Demonstrated on Synaptic-like Organic Transistors”, Neural Comput., 2012.

Fig. 5 : un neurone artificiel à quatre entrées réalisé à partir d’une structure à base de nanotubes de carbone. Les quatre “synapses” du dispositif sont matérialisées par les résistances programmables du composant. (Agnus et al. [10], DRF/IRAMIS) Depuis la dynamique impulsée par les pionniers du domaine et fort de l’héritage de son PAN, le CEA poursuit aujourd’hui ses travaux sur les technologies de l’IA dans les domaines des composants pour l’IA embarquée, des logiciels pour une IA de confiance, des infrastructures de calcul et des applications comme le montrent les pages qui suivent.

Réseau de neurones artificiel. Nœud de neurones, reliés par des synapses dans un cyberespace

© Sergey Tarasov - Fotolia.com © Sergey Tarasov électronique. Vue d’artiste.

10 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs L’IA AU CEA CONTEXTE

• PAR CHRISTOPHE CALVIN ET FRANCE BOILLOD-CERNEUX (Direction de la recherche fondamentale) © Cyril Fresillon / IDRIS CNRS Photothèque Fresillon © Cyril

Christophe Calvin est responsable du Secteur informatique, simulation numérique et calcul intensif L’IA en Europe (Direction des programmes et des et dans le monde partenariats publics) au CEA / DRF. Le domaine de l’IA a franchi un cap majeur durant les années 2000, grâce à trois facteurs : la disponibilité de très grandes bases de données et de processeurs adaptés à bas coût ainsi que l’introduction d’algorithmes plus robustes. France Boillod-Cerneux travaille ur la scène internationale, les GAFAM (, Dans ce contexte, l’Europe se rassemble pour organiser à la Direction des programmes et Apple, Facebook, Amazon, Microsoft) se sa stratégie. Elle accorde notamment une attention des partenariats publics du CEA / DRF. sont rapidement imposés, possédant à la fois particulière à la gestion et l’appartenance des données, les données, les ressources humaines et de point central pour l’industrie de l’IA. Scalcul. Les Etats-Unis ont donc pris une avance À la différence des États-Unis et de la Chine, l’Europe considérable, boostés par une industrie précurseur en met au centre de ses réflexions les enjeux liés à la matière. Cette avance a été également largement l’éthique, associés aux enjeux industriels. C’est dans favorisée par un investissement massif du cet esprit que s’est constituée l’initiative EOSC gouvernement dans ce domaine, concrétisé par les (European Open Science Cloud) pour fédérer les supercalculateurs SUMMIT et SIERRA basés sur des architectures convergés HPC/IA, offrant respectivement acteurs européens autour des données scientifiques. Il une capacité de 148 et 94 Pflop/s. existe d’autres initiatives et appels à projets mais dans « À la différence le contexte du HPC cette fois. La Chine a également fait de l’IA une cause nationale des États-Unis et et dispose d’atouts indéniables pour qu’elle se Enfin, La France a récemment pris une position forte développe très rapidement : une forte capacité vis-à-vis de l’IA, en investissant massivement dans une de la Chine, l’Europe industrielle, des ressources humaines importantes et plateforme de calcul dédiée à la recherche académique, met au centre de matures dans le domaine du numérique. Enfin, la Jean Zay, offrant une puissance de calcul de 14 Pflop/s. population chinoise est habituée à être confrontée à Cette annonce se double de la volonté de s’équiper ses réflexions les l’IA dans son quotidien, ce qui permet également à d’une plateforme Cloud dédiée à l’IA, ainsi que de l’industrie de s’étendre vite et efficacement. diverses initiatives visant à fédérer les instituts de enjeux liés à l’éthique, De même, le Japon a mis au centre de ses activités la recherche autour des sujets de l’IA (initiatives 3IA, associés aux thématique de l’IA, en équipant son centre de calcul appels ANR dédiés…). La France investit également RIKEN de deux supercalculateurs, le premier massivement pour offrir une formation avancée sur enjeux industriels. » atteignant une performance en apprentissage profond l’IA auprès des grands instituts de recherches et de 54 Pflop/s et le second (ABCI) spécialement conçu universitaires, en proposant notamment des pour l’IA, offrant une capacité de 19 Pflop/s. financements pour des thèses autour de l’IA.

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 11 LES TECHNOLOGIES L’IA EMBARQUÉE

LES TECHNOLOGIES Avec la disponibilité d’un très grand nombre de données et la puissance croissante des moyens de calcul, les technologies d’IA connaissent un essor sans précédent, auquel le CEA prend toute sa part.

12 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs LES INFRASTRUCTURES LES TECHNOLOGIES

• PAR CHRISTINE MÉNACHÉ (Direction des applications militaires) © CEA / DAM Le supercalculateur Cobalt, du CCRT a été mis en service au printemps 2016 Christine Ménaché est responsable du Très Grand Centre de calcul du CEA et du De l’intelligence dans Centre de Calcul Recherche et Technologie. les infrastructures de calcul Fort de sa maîtrise de la simulation numérique et du calcul haute performance, TGCC le CEA investit dans des technologies IA au service des utilisateurs de ses Très Grand Centre de calcul du CEA, supercalculateurs. situé à Bruyères-le-Châtel (91) www-hpc.cea.fr/fr/complexe/tgcc.htm

uand on parle de grandes infrastructures D’autre part avec le calculateur COBALT du CCRT qui GENCI informatiques pour les technologies d’IA, dispose depuis début 2019 de plusieurs nœuds hybrides. Grand Équipement National de Calcul Intensif on pense immédiatement à la machine Cet environnement permet à différentes équipes du www.genci.fr Jean Zay installée en 2019 à l’Idris, le CEA et à ses 19 partenaires industriels d’explorer le Q centre de calcul du CNRS à Orsay [1]. potentiel des technologies deep learning. En parallèle, HPDA plusieurs sessions de formation ont été organisées, High Performance Data Analytics Cependant, les technologies issues de l’IA, dont le par le CCRT en partenariat avec Nvidia, pour faciliter deep learning, sont diffusées et utilisées dans tous les la prise en main des utilisateurs. CCRT domaines de l’informatique scientifique : de la simu- Centre de Calcul Recherche et Technologie : lation numérique à l’analyse de très grands volumes Au-delà de ces environnements matériels, le CEA a www-ccrt.cea.fr de données. Ces techniques sont de plus en plus également développé des outils pour faciliter l’usage des environnements logiciels de type deep learning finement imbriquées avec les algorithmes de simula- PCOCC sur les supercalculateurs. Il s’agit en particulier tion numérique, décuplant ainsi leur efficacité. Aussi Private Cloud On a Compute Cluster de PCOCC qui est une couche logicielle permettant, le CEA s’est-il investi dans la mise en œuvre, de façon sécurisée et efficace, d’utiliser des machines au TGCC , de plusieurs infrastructures informatiques virtuelles ainsi que des conteneurs sur un calculateur permettant d’expérimenter ces technologies. haute performance. Avec PCOCC, les utilisateurs [1] Pour la présentation de Jean-Zay : disposent ainsi d’un contrôle complet de leur envi- www.idris.fr/annonces/annonce-jean-zay.html D’une part avec le calculateur Joliot-Curie, financé ronnement d’exécution et peuvent le personnaliser par GENCI et qui disposera à partir de 2020 d’une [2] Pour la description précise de Joliot-Curie : selon leurs besoins. L’outil [3] s’intègre au gestionnaire www-hpc.cea.fr/fr/complexe/tgcc-JoliotCurie.htm partition dite HPDA . Avec cette partition, les utilisa- de ressources de façon à pouvoir héberger les teurs de Joliot-Curie pourront mettre en œuvre des machines virtuelles sur les nœuds du calculateur en [3] PCOCC est disponible en open source : techniques de type deep learning sur les données concurrence avec les autres tâches de calcul. Il s’agit https://github.com/cea-hpc/pcocc relatives à leurs simulations, en positionnant les trai- là d’une fonctionnalité indispensable pour ceux qui tements au plus près de ces données. Cette partition ont l’habitude d’utiliser des environnements Autres outils open source : comprend 32 nœuds dits hybrides intégrant, chacun, spécifiques souvent disponibles sur étagère (comme www-hpc.cea.fr/fr/red/opensource.htm 2 processeurs Intel X86 et 4 GPU Nvidia-V100 [2]. Caffe, Torch , Tensorflow …).

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 13 LES TECHNOLOGIES L’IA EMBARQUÉE

Plateforme N2D2, qui permet de concevoir, entrainer et évaluer des réseaux de neurones profonds mais aussi de tester automatiquement une version optimisée de ces réseaux sur différentes solutions matérielles d’exécution

• PAR FRÉDÉRIC HEITZMANN, MARC DURANTON ET MARINA REYBOZ (Direction de la recherche technologique) © CEA Se rapprocher Frédéric Heitzmann est responsable du programme Intelligence Artificielle Embarquée au CEA / Leti. des utilisateurs

L’essor renouvelé de l’IA, en particulier des techniques de machine learning et de deep learning, a pris sa source dans le cloud, là où les données et les moyens de calcul intensif étaient disponibles. Aujourd’hui cette tendance reste extrêmement forte, avec la prééminence des grands acteurs du numérique, qui tirent parti de leurs énormes Marc Duranton est expert international bases d’utilisateurs et des quantités de données astronomiques qu’ils y puisent. dans le domaine de l’IA au CEA / List.

e cloud reste donc le lieu de l’IA, tant pour permet de conserver les données en local. Cela est l’apprentissage (créer un modèle d’IA à critique pour toutes les applications qui manipulent partir de bases de données) que pour l’in- des données personnelles confidentielles, en particulier férence (analyser des données nouvelles). pour la santé, le droit à la vie privée, le droit à une LD’où une séparation nette entre l’endroit où les information non biaisée, etc. données sont capturées (une voiture, un téléphone, Marina Reyboz est ingénieure-chercheure, un capteur), celui où ces données sont analysées et où Le temps de décision spécialiste en IA et en développement une décision peut être prise (dans le cloud) et éven- tuellement le lieu où cette analyse produit des effets. de liens entre intelligences naturelle et Le temps d’échange de données entre un capteur et artificielle au CEA / Leti. Si on veut remettre en question ce découpage, il faut un serveur situé dans le cloud n’est pas négligeable : sortir l’IA du cloud et la rapprocher de ses utilisateurs. 10 ms pour un serveur situé à 1500 km, sans compter Quatre besoins majeurs sont associés à ce changement le temps de traitement lui-même. Ce délai peut s’avérer de paradigme : trop long pour des applications nécessitant une forte réactivité, comme la réalité augmentée, la réalité La confidentialité virtuelle, ou encore la traduction de la parole. À fortiori, si ce temps de décision conditionne la productivité L’IA embarquée, c’est-à-dire la capacité pour un système d’une usine ou la sécurité d’un moyen de transport d’exécuter localement des algorithmes évolués d’IA, autonome, cela devient inacceptable.

14 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs L’IA EMBARQUÉE LES TECHNOLOGIES

La consommation énergétique

On considère que plus de 90% des données envoyées dans le cloud ne sont jamais relues. Il y a donc un enjeu d’efficacité énergétique à ne partager via le cloud que des données pertinentes voire seulement l’information extraite de ces données brutes, et ce faisant réduire le coût énergétique du transfert des données. L’autonomie de décision

Les CyberPhysical Systems (CPS) se déploient dans des environnements de plus en plus variés, sans avoir la garantie d’une connectivité permanente et fiable. Dans le même temps, les exigences de continuité de fonctionnement augmentent. Par exemple, un dispo- sitif médical porté sur soi, capable de dispenser un traitement en continu, doit pouvoir prendre des dé- cisions complexes sans dépendre d’une intelligence distante dans le cloud. © CEA

Circuit Spirit

Les systèmes embarqués Les mémoires résistives ou systèmes sous contraintes Grâce aux mémoires non volatiles, des mémoires qui conservent leur contenu même quand l’alimentation Ils doivent intégrer des contraintes spécifiques, en électrique est coupée, on peut stocker les paramètres particulier la sobriété énergétique, mais également du réseau - on parle de « poids synaptiques » ou l’encombrement, la dissipation thermique, sans oublier « poids » - dans un circuit, en une seule fois, pour le coût. Si aucune de ces contraintes n’est spécifique éviter ensuite de les charger depuis une mémoire à l’IA, il faut bel et bien en tenir compte dans les externe. On gagne ainsi plusieurs ordres de grandeurs solutions qui restent encore à imaginer. en énergie sur l’accès aux poids. Le CEA développe de nombreux matériaux pour les mémoires non Les travaux sur l’IA embarquée se concentrent à ce volatiles, en particulier dans la famille des mémoires jour sur un domaine en évolution constante, à la fois résistives OxRAM. En modulant la résistance du ma- au niveau des algorithmes et du matériel : les réseaux tériau, on peut ainsi stocker des valeurs différentes « Le CEA développe de neurones artificiels. Cette famille d’algorithmes dans chaque point mémoire. pose des problèmes spécifiques aux architectes de nombreux matériaux systèmes qui cherchent à en améliorer l’efficacité Cette technologie mémoire a l’avantage d’être compa- pour les mémoires globale en repensant les choix technologiques à tible avec les technologies CMOS classiques utilisées pour assembler les transistors et réaliser les fonctions différents niveaux. non volatiles, en logiques du circuit. Les points mémoires OxRAM particulier dans la Un réseau de neurones artificiels est une collection sont intégrés directement au-dessus de la couche de d’opérateurs extrêmement simples, principalement logique, donc sans augmentation de la taille du cir- famille des mémoires des additions et des multiplications, utilisés à très cuit. Le CEA développe également une approche pour intégrer au-dessus du point mémoire (le back-end) un grande échelle (i.e. des dizaines de millions de résistives OxRAM. » sélecteur qui permettra de réaliser des plans mémoires neurones) et avec un très grand parallélisme. Cela se complets de type « crossbar », sans surcoût pour la traduit par l’utilisation massive de mémoires pour couche de logique. stocker les paramètres du réseau, et de grands flux de données entre neurones. Sachant que tout déplacement En alliant densité de stockage et consommation éner- d’une donnée dans un circuit coûte en énergie, il existe gétique réduite, les mémoires OxRAM sont une des différentes façons de minimiser ces mouvements de technologies clés pour les futurs accélérateurs matériels données. de calcul de réseaux de neurones.

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 15 LES TECHNOLOGIES L’IA EMBARQUÉE

Fig. 1 : Architecture PNeuro

Neural Processing Elements

CLUSTER CONTROLLER NEURO CORES O ... NEURO CORES J

Ext I/O Cluster Interconnect

CPU Neural Processing Elements IP TOP INTERCONNECT IP TOP SYSTEM INTERCONNECT SYSTEM SUBSYSTEM GLOBAL + DMA CONTROLLER CLUSTER CONTROLLER NEURO CORES O ... NEURO CORES J

Cluster Interconnect

neurones biologiques. C’est le cas des circuits neuro- Les accélérateurs numériques morphiques qui encodent l’information sur des pour le calcul neuronal impulsions électriques - des « spikes » - à l’image des neurones biologiques. Afin d’augmenter l’efficacité du calcul neuronal, le CEA a développé dès 2013 différents accélérateurs NeuroSpike [3] est une architecture de réseaux de matériels. Par exemple, l’accélérateur programmable neurones convolutionnels à codage impulsionnel, PNeuro [1], dont l’architecture (Fig. 1) a été spécifiée, synthétisée en technologie FDSOI 28 nm et capable conçue et validée dans le cadre d’un laboratoire com- d’implémenter 30k neurones pour une surface de mun avec la startup Global Sensing Technologies (GST). 2.46 mm2 et une consommation moyenne estimée de 153 mW. L’efficacité des implémentations impulsion- PNeuro a été porté sur FPGA avec des performances nelles reste cependant aujourd’hui limitée par [1] A. Carbon et al., “PNeuro: A scalable multipliées par 5 en efficacité énergétique par rapport l’absence de repliement temporel pour les calculs. energy-efficient programmable hardware à des processeurs multi-cœurs avancés. Une instance Cela implique de stocker l’état de tous les neurones accelerator for neural networks”, in 2018 du PNeuro a aussi été intégrée à un chip en technologie en mémoire à chaque instant, ce qui augmente signi- Design, Automation Test in Europe Conference FDSOI 28nm de STMicroelectronics. Ce prototype ficativement la quantité de mémoire nécessaire à ce Exhibition (DATE), 2018, p. 1039 1044. fonctionnel atteint une efficacité énergétique de type d’architecture par rapport à un réseau de neurones classique. [2] Soit 700 milliard d’opérations consistant en 700GMACS/s/W [2] et une efficacité surfacique de 54 GMACS/s/mm² à 500 MHz pour une consomma- une multiplication et une addition par seconde On peut pousser plus loin le parallèle avec le vivant, et par watt. tion d’énergie de seulement 3,6mW. et reproduire les opérations de base du neurone [3] V. Lorrain, « Étude et conception de circuits biologique, en exploitant les propriétés des composants de base de la microélectronique, comme les transistors innovants exploitant les caractéristiques des Les architectures en rupture CMOS et les points mémoire OxRAM, à l’échelle de nouvelles technologies mémoires résistives », la dizaine de nanomètres, par du calcul analogique. Si la technologie mémoire utilisée pour le stockage Thèse, Université Paris-Saclay, 2018. Les multiplications sont obtenues en modulant le des informations est importante, le choix de la [4] On reconnaitra la loi d’Ohm courant dans des mémoires résistives, et les additions bonne organisation des calculs l’est tout autant. Le et la loi des nœuds (loi de Kirchoff) en reliant des fils [4]. savoir-faire des concepteurs de circuits est justement [5] Une publication est prévue lors de trouver le meilleur agencement (architecture) des Le circuit Spirit démontre ces concepts, il est capable de l’International Electron Devices Meeting opérateurs de calcul et des éléments de stockage. Les de reconnaître des chiffres écrits à la main via un (IEDM) en décembre 2019. réseaux de neurones artificiels appellent des architec- « Spiking Neural Network », avec une consommation tures en rupture, par exemple en s’inspirant des électrique réduite à son minimum [5].

16 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs L’IA EMBARQUÉE LES TECHNOLOGIES

Le FDSOI pour Capteur intelligent la flexibilité énergétique ou système sensitif

L’IA embarquée, c’est donc à la fois une question de Comme tous les systèmes embarqués, une IA embarquée technologie et d’intégration sur silicium. Or, plusieurs est couplée à des capteurs, voire des actionneurs. technologies silicium existent, chacune avec ses L’intégration entre les capteurs et la partie calcul « Comment un système points forts et faibles. Les circuits les plus puissants (neuromorphique) est également un enjeu technolo- intelligent va-t-il du moment, utilisés intensivement dans le cloud, gique, avec des approches multiples. s’appuient sur des technologies silicium très avancées, Pour les capteurs très basse consommation (tempé- s’adapter et apprendre telles que le FINFET. Mais l’IA embarquée doit rature, pressions vibration…), on vise une intégration répondre à des besoins beaucoup plus variés que les dans un environnement de bout en bout, avec des chaines de perception-dé- applications du cloud : il faut assurer une grande cision intégralement par impulsions, afin d’atteindre en perpétuelle évolution ? sobriété énergétique tout en couvrant une grande le mW de consommation électrique. variété de scénarii d’utilisation. Sur une échelle de Pour y répondre, consommation énergétique, les applications Pour d’autres capteurs, par exemple les imageurs ou une voie possible s’étendent du milliWatt pour l’IoT jusqu’à la dizaine les LIDAR, qui produisent de grands volumes de données de watts pour l’automobile ou l’industrie. - typiquement de l’ordre du Mo par seconde - et est l’apprentissage en réclament des algorithmes très puissants et très Le FDSOI répond à ces 2 critères. Cette technologie évolutifs, le CEA étudie des architectures numériques, continu ou incrémental. » souveraine, maîtrisée par des acteurs français (Soitec, très flexibles du point de vue du logiciel, afin de STMicroelectronics et le CEA), permet d’utiliser un supporter toutes les évolutions des réseaux de même circuit dans des plages de tensions et de neurones artificiels. Dans ce contexte, on recherche fréquence très larges, s’adaptant ainsi aux exigences l’efficacité énergétique maximale, à défaut de trop de fonctionnement de l’embarqué. contraindre la consommation absolue.

L’intégration 3D

L’intégration des éléments de calcul et de mémoire sur une base FDSOI ne s’arrête pas là. À la différence de celle des autres circuits (modems, microproces- seurs…) conçus jusqu’alors, la performance globale d’un accélérateur matériel pour des réseaux de neurones - qui ne contient des opérateurs très simples - ne vient pas de la vitesse intrinsèque de calcul mais plutôt de l’efficacité d’accès aux données : plus on rapproche les éléments de calcul et de mémorisation, plus on raccourcit des fils, plus on économise en énergie.

Dans le même ordre d’idées, on cherche également à rapprocher d’autres types de mémoires, en particulier © CEA celles qui stockent temporairement les données ou encore celles utilisées pour l’apprentissage. C’est là que les technologies d’empilement 3D prennent tout N2D2 : un environnement leur sens, avec une diminution d’un facteur 100 du de génération et d’exploration Plateforme N2D2 coût de transfert d’une donnée dans le cas d’un empilement 3D haute densité. de réseaux de neurones

À l’aune de la biologie qui considère qu’un neurone Un défi important pour l’IA est d’être particulièrement est à la fois un élément de mémorisation et de calcul, efficace sur les systèmes embarqués à faible coût ou on explore la possibilité de réaliser une telle structure faible consommation mais cette optimisation n’est en silicium. C’est l’objet du programme ERC MyCube pas une considération essentielle des environnements qui vise à atteindre une densité de connexion de développement des réseaux de neurones profonds extrême, en 3D, à l’échelle du transistor, afin de qui sont couramment proposés (Tensorflow, , réaliser un cube hybride, à la fois calcul et mémoire. etc). Pour répondre aux besoins des industriels, le

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 17 LES TECHNOLOGIES L’IA EMBARQUÉE

CONSIDERED CRITERIA SW DNN LIBRARIES COTS Les besoins d’apprentissage  Many-core CPUs  Accuracy (approximate computing...)  OpenCL, OpenMP, spécifiques pour l’IA embarquée  Memory need CuDNN, CUDA, TensorRT (MPPA, P2012, ARM...)  Computational Complexity  P-Neuro, ASMP  GPUs, FPGAs Comment un système intelligent va-t-il s’adapter et HW DNN LIBRARIES HW ACCELERATORS Learning P-Neuro apprendre dans un environnement en perpétuelle & Test databases DNeuro, C/HLS Optimisation évolution ? Pour y répondre, une voie possible est l’apprentissage en continu ou incrémental. Il s’agit, Trained pour un réseau de neurones artificiels qui possède DNN Data conditioning Modeling Learning Test Code Generation Code Execution déjà un socle de connaissances, de le compléter en fonction de l’environnement dans lequel il évolue. Jusqu’à très récemment, un réseau de neurones artificiels qui apprenait une nouvelle information oubliait les connaissances précédemment acquises. Les réalisations les plus récentes en matière de classification d’image, de traduction du langage, etc. CEA a développé un environnement appelé N2D2 [6] souffrent encore de ce défaut majeur. capable de générer du code optimisé pour différentes Fig. 2 : l’environnement N2D2 pour cibles matérielles allant des systèmes embarqués for- Il existe trois grandes voies bio-inspirées pour remé- l’exploration et la conception de réseaux tement contraints en énergie aux GPU installés dans dier à cet « oubli catastrophique » : la consolidation neuromorphiques embarqués des serveurs de calcul [7]. Cet environnement (Fig. 2) synaptique, la neurogénèse et le rafraîchissement, ces permet de concevoir, entrainer et évaluer des réseaux deux dernières étant explorées au CEA. La méthode Grâce à l’ensemble de ses fonctions, N2D2 de neurones profonds optimisés, et d’explorer l’es- dite de rafraîchissement repose sur un modèle de permet de prototyper simplement et rapidement pace de conception de manière à sélectionner la so- mémoire humaine, développé en psychologie cogni- des systèmes embarqués à base de réseaux de lution matérielle la plus adaptée aux contraintes des tive par le Laboratoire de Psychologie et NeuroCogni- neurones et d’évaluer leurs performances. systèmes embarqués. N2D2 accompagne les déve- tion à Grenoble [8]. Ce modèle propose de réap- Il a été utilisé avec succès par différents loppeurs et architectes de bout en bout, de la concep- prendre conjointement l’ensemble des informations industriels. Afin de couvrir les différentes options tion du réseau de neurones jusqu’à son intégration (anciennes et nouvelles), en utilisant deux réseaux de offertes pour les matériels, N2D2 intègre un dans le système final. Il intègre de manière unifiée la neurones artificiels. Le premier apprend les nouveaux simulateur impulsionnel complet ainsi que des chaîne complète de traitement de données, de l’ac- concepts, épaulé par le second qui lui « rafraîchit » la quisition et la mise en forme des données jusqu’à modèles de dispositifs memristifs pour l mémoire, le tout sans avoir à stocker dans une l’apprentissage, la simulation et le traitement, per- mémoire externe la base de données d’apprentissage a simulation de réalisations matérielles. mettant in fine à l’utilisateur final de visualiser les initiale. Il s’agit de présenter au premier réseau une Des modèles de réseaux impulsionnels avec de résultats de performances. alternance de vrais exemples (correspondant au nou- l’apprentissage non supervisé neuro-inspiré vel apprentissage) et de « pseudo exemples », générés Grâce à l’ensemble de ses fonctions, N2D2 permet de (Spike Timing Dependent Plasticity) ainsi qu’avec par le second et représentatifs de ce qui a déjà été prototyper simplement et rapidement des systèmes de l’apprentissage basé sur la rétro-propagation appris, sans être forcément proches des anciennes embarqués à base de réseaux de neurones et d’éva- du gradient en impulsionnel sont également informations. Ce dernier point est déterminant : des luer leurs performances. Il a été utilisé avec succès pseudo exemples qui ressemblent moins aux données disponibles. par différents industriels. d’entrée permettent de mieux transférer l’informa- Afin de couvrir les différentes options offertes pour tion que des pseudo exemples qui leur ressemblent les matériels, N2D2 intègre un simulateur impulsion- davantage ! C’est vrai chez l’humain comme dans les nel complet ainsi que des modèles de dispositifs réseaux de neurones artificiels. Avantages : ne pas memristifs pour la simulation de réalisations maté- limiter la plasticité du réseau ni recourir à de la mé- rielles. Des modèles de réseaux impulsionnels avec moire supplémentaire, tout en restant totalement [6] Bichler et al. “Design exploration de l’apprentissage non supervisé neuro-inspiré (Spike « agnostique » par rapport à ce qui a été appris pré- methodology for -based Timing Dependent Plasticity) ainsi qu’avec de l’ap- cédemment. Les résultats sont très prometteurs, spiking neuromorphic architectures prentissage basé sur la rétro-propagation du gradient ouvrant des perspectives dans le domaine des with the Xnet event-driven simulator”, en impulsionnel sont également disponibles. systèmes autonomes. Proceedings of the 2013 IEEE/ACM International Symposium on Nanoscale Architectures, NANOARCH 2013, New York CONCLUSION [7] La plateforme N2D2 est en distribuée en open source sur : Vers une IA collective et sûre https://github.com/CEA-LIST/N2D2 Ainsi de nombreuses pistes sont à l’étude pour étendre l’IA hors du cloud, aussi bien par les moyens de [8] Présentation du Laboratoire de calcul, les outils de développement et de déploiement, que par des algorithmes spécifiques. Pour les Psychologie et NeuroCognition (LNPC) : chercheurs, l’étape suivante consiste à trouver comment collecter l’intelligence apprise par des agents https://lpnc.univ-grenoble-alpes. distribués, multiples, comment la fusionner et la partager. Cette IA collective devra être robuste, fr/Presentation-generale,258 équitable et sûre. Avec tous ces défis à relever, le prochain hiver de l’IA n’est pas pour demain !

18 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs L’IA DE CONFIANCE LES TECHNOLOGIES

• CONTRIBUTEURS (Direction de la recherche technologique)

Huascar Espinoza est ingénieur-chercheur au Laboratoire conception des systèmes embarqués et autonomes (Département IA de confiance : ingénierie logiciels et systèmes) du CEA / List. un engagement stratégique du CEA

n janvier 2015, Stephen Hawking, Elon lesquels la déception engendrée conduirait à un Musk et une douzaine d’experts de l’IA nouvel hiver de l’IA. signaient une lettre ouverte appelant à la Chokri Mraidha est chef du Laboratoire nécessaire prise en compte de l’impact C’est pour lever ce verrou que le CEA vient d’initier le conception des systèmes embarqués et Esociétal de l’IA. Plusieurs organisations (OpenAI, programme « IA de confiance », porté principalement par autonomes (Département ingénierie logiciels Future of Life Institute, Partnership on AI, …) ont le List, et décliné selon trois principaux axes d’action : et systèmes) du CEA / List. été créées dans la foulée, dont la mission est de la confiance vue des utilisateurs par la mise en place s’assurer que l’IA demeure bénéfique à la société. de modèles et mécanismes de compréhension globale Depuis, si les promesses de l’IA continuent à motiver du fonctionnement d’une IA et d’explication des de nombreux développements, ses défaillances sont résultats qu’elle produit dans son contexte d’usage et de plus en plus mises au-devant de la scène : erreurs celui des utilisateurs ; de reconnaissance de personnes soulevant des la confiance par des méthodes outillées d’assurance problèmes d’éthique et de biais dans l’apprentissage, de la conformité des IA à des processus et référentiels accidents graves causés par un défaut de performance de développement et de certification ; François Terrier est chef du Département du système ou une inadéquation de son usage. la confiance par l’exemple via la conception et ingénierie logiciels et systèmes du CEA / List. l’évaluation de cas applicatifs de référence. Au niveau national, le sujet de la confiance, la fiabilité et la certification des IA [1] est identifié comme un Cette activité de recherche et d’innovation, dont verrou majeur du développement de filières l’objectif est d’assurer un transfert industriel rapide d’excellences et la capacité à déployer l’IA dans le de solutions pour la mise sur le marché d’IA de monde industriel, les systèmes embarqués (CPS) et confiance, s’appuie sur une plate-forme technologique distribués (IoT). Cela va des véhicules autonomes aux (voir schéma page suivante) hébergée à Teratec, réseaux de surveillance (pollution, sécurité, etc.) en Factory-IA [2]. Elle permet l’expérimentation et la passant par la robotique manufacturière et les validation des différentes technologies sur des cas systèmes pour la santé. Assurer la « confiance » des industriels ; le développement des applications [1] www.aiforhumanity.fr/ intelligences embarquées, c’est assurer à la fois stratégiques ainsi que la capitalisation et l’intégration l’acceptabilité des nouveaux systèmes par les usagers des résultats méthodologiques et technologiques du [2] www.universite-paris-saclay.fr/fr/ et un haut niveau de qualité, sûreté et sécurité sans domaine. recherche/equipement/plateforme-saclay-ia

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 19 LES TECHNOLOGIES L’IA DE CONFIANCE

CONCEPTION CERTIFICATION IMPLÉMENTATION Fig. 1 : Factory-IA, une plate-forme ouverte CONFIGURATION EXPLICABILITÉ OPTIMISATION IA EMBARQUÉE et sécurisée pour la recherche industrielle en IA

Chaîne d’outils Préparation Analyses Configuration de conception des données des algorithmes

Compilateurs pour Vérification Modèles (Annotations) Visualisation différents HW

Modèles et outils Apprentissage Évaluation Évaluation pour l’explicabilité Évaluation et intégration des composants et algorithmes SECURITÉ DONNÉES (Partenaires industriels...) Développement applications et solutions

La dynamique « Des orateurs de premier rang de Google, IBM, DeepMind, Uber ou encore internationale et nationale du DARPA, tous ont reconnu la nécessité de capitaliser sur l’IA de confiance et structurer le partage d’une vision commune Fort de son expertise dans l’ingénierie de systèmes rang de Google, IBM, DeepMind, Uber ou encore du critiques, le CEA-List a, dès 2017, identifié que la DARPA. Tous ont reconnu la nécessité de capitaliser par la construction d’un confiance dans l’IA constituait un frein majeur à son et structurer le partage d’une vision commune par la corpus de connaissance adoption et nécessitait de repenser l’ensemble des construction d’un corpus de connaissance sur la méthodes et standards de sûreté et de sécurité jusque sûreté de l’IA. Portée par Huascar Espinoza, cette sur la sûreté de l’IA.» là appliqués dans l’ingénierie système. Inédite, cette initiative s’est concrétisée par l’organisation du « AI démarche consiste à identifier les défis à relever et Safety Landscape » [3] qui rassemble des acteurs établir une feuille de route qui tienne compte de la européens, asiatiques et nord-américains. diversité des domaines d’application et des acteurs. Parallèlement, le CEA-List s’est également impliqué à [3] www.ai-safety.org/ai-safety-landscape D’où le rôle central joué par le CEA-List qui a organisé mobiliser l’écosystème de la recherche du plateau de des ateliers à succès dans les conférences Saclay en initiant, au sein de DATAIA et en [4] dataia.eu/actualites/premiere-journee- internationales majeures de l’ingénierie de la sûreté collaboration avec CentraleSupElec et Inria, un dataia-days-le-theme-la-surete-de-lia et du domaine de l’IA, autour d’orateurs de premier groupe de travail « IA et sûreté » [4].

Fig. 2 : table ronde DATAIA Safety & AI Industriels et institutionnels (IBM, Agence de l’Innovation pour la Défense, Secrétariat Général Pour l’Investissement, Renault, Thales, CEA / List) © DR

20 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs L’IA DE CONFIANCE LES TECHNOLOGIES

Vers une compréhension • PAR MOHAMED TAMAAZOUSTI de l’apprentissage profond ET PATRICK SAYD (Direction de la recherche technologique) Les progrès récents de l’IA s’appuient sur les méthodes d’apprentissage exploitant les réseaux de neurones profonds. Or, les fondements théoriques de ces outils manquent pour envisager leur usage dans des applications critiques. La communauté scientifique aborde ce sujet complexe sous différents angles, sans encore être parvenue à une réponse unifiée et définitive. Mohamed Tamaazousti est ingénieur- n résultat majeur a été de démontrer l’uni- de données que le nombre de paramètres. Cette chercheur au Laboratoire vision pour la versalité des réseaux de neurones garan- propriété de généralisation est d’une part associée à la modélisation et la localisation (Département tissant leur capacité à approximer toute présence d’un terme de régularisation dans la fonction intelligence ambiante et systèmes interactifs) fonction d’intérêt, qui permet d’interpréter de coût utilisée dans l’apprentissage, d’autre part liée du CEA / List. Udes données en IA. Mais cette fonction est-elle à l’architecture qui apporte une stabilité vis-à-vis des atteignable en appliquant un algorithme d’optimisation déformations de la donnée : un réseau est bon si sa inclus dans l’apprentissage, et en exploitant des sortie est invariante aux déformations non significatives données en quantité finie ? Des recherches essaient que subirait la donnée d’entrée. de répondre à cette question notamment, en étudiant les propriétés de l’algorithme d’optimisation ou en Bien que prometteuses, ces approches théoriques sont quantifiant les données nécessaires à l’approximation encore loin d’aboutir. Une prochaine avancée de ces de cette fonction [1]. études théoriques pourrait reposer sur un modèle réaliste des données (le modèle gaussien ne convient Autre problématique : pour que la fonction obtenue Patrick Sayd est chef du Service intelligence évidemment pas pour des images). Ainsi nous étudions par apprentissage soit exploitable, il ne suffit pas de artificielle pour le langage et la vision modéliser exactement les données d’apprentissage, le formalisme de la concentration de la mesure parti- (Département intelligence ambiante et culièrement adapté aux données complexes. Il est mais il est important de généraliser (être performant systèmes interactifs) du CEA / List. sur de nouvelles données). Des résultats théoriques [2] notamment démontré que les images réalistes générées montrent que le nombre d’exemples d’apprentissage par un réseau de neurones (Fig. 1) sont des données nécessaires à une bonne généralisation augmente de concentrées [3]. Modéliser les images réelles par des manière polynomiale avec la taille du réseau et donc vecteurs concentrés, est peut-être une clé importante avec le nombre de paramètres le caractérisant. Or, en pour construire une théorie de l’apprentissage pratique, les réseaux sont appris avec beaucoup moins profond.

Generateur Discriminateur Fig. 1 : les images en (a) sont générées à Réel / Faux partir d’un réseau de neurones profond qui peut être globalement modélisé comme un vecteur aléatoire Gaussien auquel est Opération de Lipschitz appliqué un ensemble d’opérations Lipschitz (a) (b) (b). On peut alors démontrer que l’image générée est un vecteur dit concentré. Le réalisme de ces sorties montre la pertinence de considérer les vecteurs concentrés comme [1] Aubin B., Maillard, A., Krzakala F., Macris N., & Zdeborová L. (2018). The committee machine: Computational to statistical gaps in learning un modèle pour les images : ce peut être une a two- neural network. In Advances in Neural Information Processing Systems (NeurIPS). - [2] Bartlett, P. L. & Maass W. (2003). clé importante pour avancer dans la Vapnik-Chervonenkis dimension of neural nets. The handbook of brain theory and neural networks, 1188-1192. - [3] Seddik M. E. A., Tamaazousti M. compréhension de l’apprentissage profond via & Couillet R. (2019). Kernel Random Matrices of Large Concentrated Data: the Example of GAN-Generated Images. In IEEE International une approche théorique. Conference on Acoustics, Speech and Signal Processing (ICASSP).

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 21 LES TECHNOLOGIES L’IA DE CONFIANCE

Projet Romeo2 - un assistant robot humanoïde Projet SESNA - expérimentation de navettes autonomes et un compagnon pour la vie quotidienne. au CEA Paris-Saclay par le groupe RATP. • CONTRIBUTEURS (Direction de la recherche technologique)

Nataliya Yakymets est ingénieure- chercheure au Laboratoire exigences et conformité des systèmes (Département ingénierie logiciels et systèmes) du CEA / List. © SoftBank Robotics © RATP Une approche Gabriel Pedroza est ingénieur-chercheur au Laboratoire exigences et conformité des systèmes (Département ingénierie logiciels et systèmes) du CEA / List. de conception sûre

es performances des systèmes IA soulèvent construction des modèles d’environnement et évolutif, des questions notamment en matière de nécessaires pour l’acquisition d’une couche d’intelli- sûreté et de sécurité. Outre l’intégrité gence adaptable et résiliente [3]. De nouvelles stratégies physique, la sûreté des IA est liée à des sont également étudiées pour la certification des IA Lcritères éthiques et juridiques tels que le respect de la notamment l’évaluation des écarts entre exigences et vie privée et le risque de déshumanisation programmée référentiels, documentés lors de la conception, et les Morayo Adedjouma est ingénieure- (voir p. 4). Différentes expérimentations utilisent déjà évolutions du système tout au long de son exploitation. chercheure au Laboratoire exigences et des IA : l’Autopilot de Tesla, l’EZ d’Easymile avec le Objectifs : inférer des principes minimaux et suffisants conformité des systèmes (Département projet SESNA [1] sur le site CEA de Saclay- ou encore pour maintenir l’évidence de la sûreté de manière ingénierie logiciels et systèmes) du CEA / List. les robots humanoïdes comme Romeo [2]. Si des progressive ; et assurer une reconfiguration dyna- normes comme ISO/IEC 23053 et ISO 21448 ont été mique des IA pour prendre en compte une situation élaborées pour fournir un cadre, elles ne sont pas opérationnelle inconnue en adéquation avec les applicables à tous les domaines et ni facilement exigences de sûreté. assimilables aux processus de développement conventionnels, notamment à cause des spécificités des IA : nature heuristique d’algorithmes, limites des capteurs, complexité d’analyse des situations opéra- tionnelles, etc.

Afin de répondre aux défis de sûreté, de sécurité et d’éthique des systèmes basés sur l’IA, le CEA-List [1] www.usinenouvelle.com/article/ développe des approches intégrées de conception sûre des-navettes-autonomes-easy-mile-testes- en s’appuyant sur son expertise et ses outils en sûreté sur-le-site-du-cea-de-saclay-par-la-ratp. et sécurité. Celles-ci combinent activités de concep- N659889 tion système et analyse de sûreté en adaptant des méthodes classiques d’analyse de risques avec pour [2] www.projetromeo.com objectif le traitement des exigences à travers le cycle de développement. Notre approche propose une [3] Gabriel Pedroza, Morayo Adedjouma. architecture de référence et une méthode de dévelop- Safe-by-Design Development Method for pement générique et itératif permettant l’intégration Artificial Intelligent Based Systems. SEKE des bases de connaissances, utilisées pour l’apprentis- 2019, Jul 2019, Lisbon, Portugal.pp.391-397 sage et la validation des algorithmes d’IA, ainsi que la

22 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs L’IA DE CONFIANCE LES TECHNOLOGIES

• CONTRIBUTEURS (Direction de la recherche technologique)

François Bobot est ingénieur-chercheur au Laboratoire sûreté et sécurité des logiciels (Département ingénierie logiciels et systèmes) du CEA / List.

Bernard Botella est ingénieur-chercheur au Laboratoire sûreté et sécurité des logiciels (Département ingénierie logiciels L’IA symbolique et systèmes) du CEA / List. de confiance

oujours en sourdine par rapport aux ap- collaborations à la fois académiques et industrielles. proches connexionnistes, l’IA symbolique Compte tenu des besoins de confiance dans les IA Zakaria Chihani est ingénieur-chercheur s’intéresse à la formalisation des connais- symboliques, et s’appuyant sur cette expertise, une au Laboratoire sûreté et sécurité des sances à partir de différentes représentations procédure de résolution de contraintes formellement logiciels (Département ingénierie logiciels T(logique binaire, modale, floue ou encore graphes prouvable a été développée. et systèmes) du CEA / List. conceptuels) et à l’étude des processus de raison- nement. Les technologies de systèmes experts et de L’environnement Why3, développé par Inria, qui résolution de contraintes demeurent de première permet de mettre au point des logiciels formellement importance, notamment pour les applications de prouvés, a été utilisé pour encoder, d’une part le planification et d’aide à la décision. Les aspects critiques solveur lui-même, d’autre part les propriétés qu’il de ce type d’applications imposent des exigences de doit garantir : fournir une solution, s’il en existe une ; sûreté que les méthodes formelles peuvent satisfaire. ne fournir que des solutions correctes ; garantir que Bruno Marre est ingénieur-chercheur Le CEA-List bénéficie d’une longue expérience dans s’il n’en trouve pas c’est qu’il n’en existe effectivement au Laboratoire sûreté et sécurité des le développement et l’utilisation de technologies aucune. Ce solveur prouvable permet également logiciels (Département ingénierie logiciels reposant sur des méthodes formelles et de résolution d’extraire un code efficace vers des langages pour le et systèmes) du CEA / List. de contraintes, impliquées dans de nombreuses critique tels que le langage C.

Pour aller plus loin http://why3.lri.fr https://www.harvardmagazine.com/2019/09/neural-network- pioneer-yann-lecun-on-ai-and-physics Planification de trajectoire à https://www.zdnet.fr/actualites/machine-learning-le-droit-a-l- base de règles et de contraintes : explication-de-l-utilisateur-a-l-epreuve-du-rgpd-39873853.htm

© DR un système de confiance

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 23 LES TECHNOLOGIES L’IA DE CONFIANCE

• PAR Expliquer les décisions JEAN-PHILIPPE POLI Un des leviers pour développer une IA de confiance concepts liés aux perceptions humaines et aux est de fournir à l’utilisateur une explication de la capacités, par exemple, de déduction, permet de (Direction de la recherche technologique) décision qui vient d’être prise. C’est particulièrement retracer le cheminement effectué par les algorithmes vrai pour les applications centrées sur l’humain, en pendant la prise de décision. Tirant parti des progrès médecine par exemple, où l’explicabilité s’impose d’autres domaines de l’IA autour du langage naturel, comme une nécessité vis-à-vis des utilisateurs les explications deviennent plus précises et leur (médecins, patients…). Très tôt, tout un sous-domaine formulation plus efficace. Il reste néanmoins des de l’IA s’est construit autour de cette notion questions difficiles comme la sélection des éléments d’explicabilité et de transparence. pertinents de l’explication et l’évaluation des décisions Cette modélisation symbolique du monde par des accompagnées d’explications. Jean-Philippe Poli est ingénieur-chercheur au Laboratoire intelligence artificielle et apprentissage automatique (Département métrologie, instrumentation et information) ™ du CEA / List. ExpressIF Basée sur les connaissances, ExpressIFTM est une intelligence artificielle symbolique développée au CEA-List. Ce système permet d’une part de saisir des connaissances obtenues à partir d’interviews d’experts ou de les extraire d’un jeu de données, d’autre part de reproduire des raisonnements déductifs ou de résoudre des problèmes, tout en fournissant des explications aux décisions. Appliqué à de nombreux domaines, comme la physique des particules, l’ergonomie des interfaces, la création de matériaux, la médecine, le nucléaire, la sécurité et le domaine bancaire, il fait toujours l’objet de recherches pour • améliorer son expressivité, tant au niveau des connaissances qui peuvent être représentées qu’au niveau des textes d’explication qu’il peut produire. PAR © Petrovitch12 - Fotolia © Petrovitch12 RAFAËL PINOT ET CÉDRIC GOUY-PAILLER (Direction de la recherche technologique) Attaques adversariales Atténuer les risques

Rafaël Pinot est doctorant au Laboratoire Que sont les attaques adversariales ? Que permettent-elles ? intelligence artificielle et apprentissage Les véhicules autonomes ou les assistants à En pratique, les techniques de conception d’attaques automatique (Département métrologie, commande vocale utilisent des réseaux de neurones adversariales tentent d’optimiser le compromis entre instrumentation et information) du CEA / List. pour effectuer des tâches telles que la reconnaissance la discrétion et la robustesse des attaques. Par d’images ou la reconnaissance vocale. Si les exemple, dans le cas d’un système de reconnaissance performances atteintes ces dernières années visuelle d’une voiture autonome, un attaquant peut sont impressionnantes, ces réseaux utilisent vérifier que l’ajout de quelques stickers sur un panneau « Stop » suffit à tromper le système d’énormes volumes de données pour paramétrer le embarqué. Cette simple attaque est relativement fonctionnement du système complexe engendré par robuste aux conditions de luminosité mais s’avère peu les couches successives de fonctions mathématiques. discrète. À l’opposé, la production d’attaques discrètes Ceci conduit à une fonction de décision qui peut place l’attaquant devant certaines difficultés Cédric Gouy-Pailler est ingénieur-chercheur exhiber des comportements chaotiques. Or des pratiques : par exemple, des phénomènes tels que la au Laboratoire intelligence artificielle techniques ont été mises au point il y a environ cinq variabilité de la luminosité ambiante ou encore le et apprentissage automatique (Département ans pour exploiter très efficacement ce chaos. C’est bruit introduit par un microphone rendent souvent métrologie, instrumentation et information) ainsi que sont nés les exemples adversariaux : ils fragiles les attaques imperceptibles. Si des attaques consistent en une perturbation, la plus minime et du CEA / List. discrètes et relativement robustes ont été démontrées imperceptible possible, permettant de troubler ou dans le domaine de la vision artificielle, celui du son même d’orienter la décision du réseau de neurones. est moins vulnérable. Mais les performances des

24 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs L’IA DE CONFIANCE LES TECHNOLOGIES attaques s’améliorant rapidement, on doit se préparer, naturels ; ce qui est coûteux en termes de calcul et [1] Pinot, R., Meunier, L., Araujo, A., Kashima, par exemple, à des attaques sonores consistant à n’offre qu’un niveau de sécurité limité. Des travaux H., Yger, F., Gouy-Pailler, C., Atif, J., 2019. envoyer des commandes vocales dissimulées dans des récents, menés notamment au CEA [1], ont proposé Theoretical evidence for adversarial robustness annonces de gare. d’utiliser des techniques aléatoires comme mécanisme through randomization, in: NeurIPS 2019. de protection, ouvrant la voie à des défenses plus Peut-on s’en prémunir ? sûres et moins coûteuses. Les recherches continuent L’état de l’art des techniques de défense consiste à dans ce domaine et nécessitent encore des utiliser des exemples adversariaux pendant investissements importants pour aboutir à des l’entraînement du réseau plutôt que des exemples innovations technologiques tangibles. La perception d’une machine, construite par exemple à l’aide d’un réseau de neurones artificiels, peut s’avérer très Attaquant différente de la perception d’un être humain. À gauche, en contexte non-adversarial, l’humain et la machine Image initiale Image perturbée reconnaissent un chat à partir de l’image fournie. Cependant à droite, une perturbation

= +0.006 volontaire produite par un attaquant engendre une mauvaise reconnaissance de la machine, alors que la modification est quasiment imperceptible pour l’humain et ne perturbe CONTEXTE NON-ADVERSARIAL CONTEXTE ADVERSARIAL pas son interprétation. Perception humaine et perception machine Perception humaine et perception machine

• De la blockchain PAR ÖNDER GÜRCAN ET SARA TUCCI pour la confiance (Direction de la recherche technologique)

out le monde, ou presque, utilise au- transactions) et garantit la cohérence et la confiance. jourd’hui en permanence des appareils Elle permet à tous les participants d’effectuer des tran- technologiques interconnectés. L’in- sactions entre eux sans avoir à se faire confiance ni à ter-connectivité peut être établie par des faire confiance à un tiers, chacun validant les données Tserveurs tiers de confiance ou avec des technologies diffusées et conservant une réplique de la blockchain avancées comme Bluetooth et Wi-Fi. Bien que nous complète (historique immuable et vérifiable des tran- contrôlions ces dispositifs, ils prennent parfois des sactions). Cette solution soulève toutefois des pro- Önder Gürcan est ingénieur-chercheur au décisions à notre place en utilisant à la fois leur base blèmes d’équité [1], de performance, de consommation Laboratoire systèmes d’information de de connaissances locale et les informations recueillies et même de fiabilité [2]. confiance, intelligents et auto-organisants auprès des autres. Depuis 2018, le CEA-List élabore des solutions théo- (Département ingénierie logiciels et systèmes) Mais, comment cette IA prend-elle des décisions en riques et pratiques innovantes pour établir une décision du CEA / List. toute confiance ? Comment sait-elle que les informa- de confiance distribuée pour des applications indus- tions déclarées par d’autres sont fiables ? On pourrait trielles immédiates, comme la traçabilité de la chaîne répondre : « en utilisant une technologie de décision alimentaire [3] ou la gestion de contrats de performance distribuée de confiance, comme la blockchain ». énergétique. Elles incluent des analyses formelles (via, Née il y a seulement une dizaine d’années avec l’arrivée notamment, la théorie des jeux) et des preuves de pro- de Bitcoin [1], la technologie blockchain est un système tocoles innovants permettant une meilleure utilisation transactionnel décentralisé : il s’agit d’un système dis- des ressources et une meilleure équité. Ces dernières tribué, social et technique qui traite et stocke les flux incluent des analyses quantitatives (la simulation basée d’informations échangés entre deux parties ou plus (les agents) et le prototypage des protocoles. Sara Tucci est cheffe du Laboratoire systèmes d’information de confiance, intelligents et auto-organisants (Département ingénierie [1] Ö. Gürcan, A. D. Pozzo, and S. Tucci Piergiovanni, On the Bitcoin Limitations to Deliver Fairness to Users, in OTM 2017 Conferences - logiciels et systèmes) du CEA / List. Confederated International Conferences: CoopIS, C&TC, and ODBASE 2017, Rhodes, Greece, October 23-27, 2017, Proceedings, Part I, 2017, pp. 589–606. - [2] Y. Amoussou-Guenou, A. Del Pozzo, M. Potop-Butucaru, and S. Tucci-Piergiovanni, Dissecting Tendermint, International Conference on Networked Systems (NETYS 2019), pp 166-182, 2019. - [3] Connecting Food, https://connecting-food.com

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 25 LES TECHNOLOGIES L’ALGORITHMIQUE

• CONTRIBUTEURS (Direction de la recherche technologique)

Hervé Le Borgne est chercheur au Laboratoire d’analyse sémantique texte et image (Département intelligence ambiante et systèmes interactifs) du CEA / List.

Romain Dupont est chercheur au Laboratoire vision pour la modélisation et la localisation Deep MANTA estime conjointement le type d’un véhicule, sa pose et les éléments qui en sont visibles. (Département intelligence ambiante et systèmes interactifs) du CEA / List. Comment doper Aurélien Mayoue est chercheur au Laboratoire sciences des données et de la décision (Département de métrologie, instrumentation et l’intelligence artificielle information) du CEA / List.

L’apprentissage profond a permis un accroissement significatif des performances des technologies d’IA dans le domaine du traitement de l’information multimédia et de l’aide à la décision. Il nécessite néanmoins un besoin massif de données annotées coûteuses à produire et engendre des problèmes de confidentialité. Renaud Sirdey est directeur de recherche au Laboratoire composants logiciels pour la sécurité & n nombre croissant de briques technolo- médical ou appréhender les réactions du public à une la sûreté des systèmes (Département architecture giques transférées par le CEA à l’industrie campagne publicitaire. conception et logiciels embarqués) du CEA / List. intègrent des composants basés sur le deep learning [1], voire en constituent la Un réseau de neurones contient des millions de Upart innovante majeure. L’adoption massive de ce paramètres initialisés aléatoirement et structurés paradigme dans de nombreux domaines du traitement selon une architecture contraignant la manière dont de l’information (vision, traitement des langues, aide ils peuvent se combiner. Les paramètres sont affinés à la décision) a accru significativement leurs perfor- progressivement durant une phase dite « d’appren- mances. L’apprentissage profond utilise des réseaux tissage » en étant nourris de données brutes et en vue de neurones pour modéliser des phénomènes com- d’optimiser un objectif quantitatif simple, qui reflète Quoc-Cuong Pham est chef du Laboratoire de plexes, dont le fonctionnement ne peut être entière- au mieux la tâche à accomplir. Le défi le plus important vision et d’apprentissage pour l’analyse de ment décrit par un humain, comme reconnaître ou de l’apprentissage est que le modèle satisfasse encore scène (Département intelligence ambiante et suivre un objet dans une vidéo, surveiller une machine l’objectif lors du fonctionnement, une fois les systèmes interactifs) du CEA / List. pour prédire une panne, comprendre l’évolution d’un paramètres fixés et alors que de nouvelles données processus physiques, aider à établir un diagnostic brutes lui sont soumises.

26 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs L’ALGORITHMIQUE LES TECHNOLOGIES

Ces images sont générées par un réseau profond en contrôlant la position de l’oiseau bleu horizontalement et verticalement. Comprendre l’organisation des espaces latents permet de mieux interpréter les décisions proposées par les réseaux de neurones.

Le succès de l’apprentissage profond est généralement L’apprentissage des nombreux pa- attribué à la conjonction d’avancées théoriques durant ramètres nécessite une grande les années 2000 et à la baisse du coût de la production, quantité de données, typiquement du recueil et du traitement des données dans le de l’ordre du million. Elles doivent domaine multimédia (image, texte, vidéo, parole) ou généralement être annotées, ce qui provenant de capteurs variés (thermomètre, baromètre, est aussi primordial pour évaluer lidar, GPS...). Des architectures classiques, de type les performances des modèles. La « convolutives » et « récurrentes », répondent aisé- complexité des annotations varie ment à des tâches ayant pour objectif l’évaluation de quantitativement (depuis une grandeurs continues (régression) ou discrètes (clas- décision binaire jusqu’à un choix sification). Pour réaliser des tâches plus complexe, les d’un grand nombre d’entiers ou chercheurs ont conçu des modules additionnels de réels pour chaque donnée) et spécifiques. Les premiers progrès ont été obtenus au qualitativement : elle peut être effectuée par un uti- lisateur naïf ou nécessiter de recourir à une expertise prix d’un accroissement de la taille des réseaux, en- rare et pointue selon le cas d’usage. gendrant des coûts en termes de temps de calcul pour l’apprentissage, de vitesse d’exécution en déploiement, Plusieurs communautés de l’IA fournissent une quan- et de consommation énergétique dans les deux cas. tité appréciable de données annotées généralistes et La mise au point de réseaux moins énergivores et des modèles pré-entraînés sur ces données. Le transfert plus rapides a ouvert la possibilité d’embarquer cette d’apprentissage utilise une partie de tels modèles et algorithmie. Les gains proviennent parfois du matériel, leur adjoint des modules propres à une tâche d’in- Illustration de l’apprentissage fédéré mais cela peut nécessiter une adaptation des mé- térêt, pouvant être appris avec un nombre restreint thodes. L’utilisation conjointe de données provenant de données. La même approche permet de travailler réalisé au CEA pour la maintenance de médias ou de capteurs hétérogènes est un défi à la sur une tâche identique, mais dans un domaine d’une flotte de véhicules. L’analyse des fois pratique - accroître les performances - et fonda- moins pourvu en données, comme c’est le cas de cer- vibrations de chaque véhicule est effectuée à mental car il oblige à comprendre les interactions entre taines langues en comparaison de l’anglais, ou quand l’aide d’un capteur Accéléromètre 3-axes placé différentes descriptions d’un même phénomène. on souhaite reconnaître des objets en milieu industriel dans l’habitacle.

ÉTAPE 0 ÉTAPE 1 ÉTAPE 2 ÉTAPE 3 INITIALISATION DÉPLOIEMENT APPRENTISSAGE AGRÉGATION

Serveur Serveur Serveur Base de données K ni Ө Ө Hi ∑N i=1

Le serveur initialise un modèle aléatoirement Les K véhicules de la flotte reçoivent une copie Chaque véhicule i utilise ses données locales Les mises à jour sont renvoyées au serveur, où elles ou à l’aide d’une base de données des paramètres 0 du modèle partagé pour produire une mise à jour H i du modèle partagé sont agrégées pour améliorer le modèle partagé

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 27 LES TECHNOLOGIES L’ALGORITHMIQUE

La localisation et cartographie simultanées (ou SLAM : simultaneous localization and mapping) fournit un modèle 3D texturé à partir d’une vidéo sans intervention humaine

à partir de modèles entraînés en laboratoire. sont récoltées automatiquement sur internet ou que les L’apprentissage joint de plusieurs tâches permet annotateurs font des erreurs ou manquent d’expertise. également une économie appréciable en données tout en maintenant ou en améliorant les performances sur Au-delà du coût de l’annotation, la confidentialité des « Le CEA procure chaque tâche : Deep MANTA est ainsi une approche données est aussi un verrou critique, un partenaire des outils d’ouverture multitâches développée au CEA qui permet l’estima- ne pouvant ou ne souhaitant pas toujours les mettre tion simultanée de quatre types d’informations sur à disposition d’un tiers. Pour répondre à cette attente, à l’apprentissage un véhicule [2]. le CEA procure des outils d’ouverture à l’apprentis- sage comme Semfeat et CLIVA, avec lesquels un comme Semfeat et Même restreinte, la quantité de données reste impor- utilisateur apprend ses objets d’intérêt sans l’inter- tante. Le CEA développe donc des outils ergono- vention d’un tiers. Un réseau élargi à l’apprentissage CLIVA, avec lesquels miques d’aide à l’annotation qui effectuent une partie de nouvelles tâches ou de nouveaux concepts sur une un utilisateur apprend du travail automatiquement. Pour l’apprentissage par tâche donnée est toutefois sujet à un « oubli catastro- renforcement, un simulateur peut faire office d’agent phique » se manifestant par une baisse de ses perfor- ses objets d’intérêt intelligent évoluant dans un environnement donné. mances sur les tâches préalablement apprises. Le CEA propose aussi des réseaux plus « universels », L’apprentissage incrémental peut pallier ce problème, sans l’intervention qui affichent de bonnes performances en transfert sur particulièrement saillant quand les données une grande variabilité de tâches cibles et nécessitent d’apprentissage sont fournies en flux. d’un tiers. » peu d’exemples annotés [3]. Il est même possible d’apprendre des attributs génériques (aile, roue...) Les données d’apprentissage sont traditionnellement pour décrire n’importe quel objet sans disposer d’un stockées sur un serveur central qui entraîne le mo- seul exemple d’apprentissage [4]. D’autres approches dèle, ce qui compromet la vie privée des utilisateurs se contentent de données imparfaitement labellisées devant céder leurs données. Pour éviter la collecte ou partiellement fausses, notamment quand elles centralisée de données, l’apprentissage fédéré [5]

Modèle Totalement connecté Convolution Totalement connecté d’avion Avion F15 F15 F14

Voiture Avion 17 000

Le transfert d’apprentissage utilise un réseau pré-appris sur une tâche généraliste et adjoint des modules spécialisés sur une tâche d’intérêt qui peuvent être appris avec moins de données.

28 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs L’ALGORITHMIQUE LES TECHNOLOGIES

[1] Le Cun et al. “Deep Learing”, Nature 521, pages 436–444, 2015 [2] Chabot et al. “Deep MANTA: A Coarse-to-fine propose que les utilisateurs d’un service collaborent dentialité est alors préservée sur le serveur central. Many-Task Network for joint 2D and 3D vehicle au moyen d’une architecture décentralisée pour Ce paradigme est particulièrement adapté aux scénarios analysis from monocular image” CVPR 2017 apprendre le modèle. Celui-ci est initialisé sur un de mobilité ou d’internet des objets, où les données sont [3] Tamaazousti et al. “Learning More serveur puis déployé sur chaque terminal client où il sensibles et les utilisateurs variés [6]. Universal Representations for Transfer-Learning”, est amélioré localement à partir des données utilisa- IEEE T PAMI, 2019 teur. Seules les mises à jour du modèle sont transmises Un utilisateur humain peut aussi s’inquiéter de déci- au serveur central, après avoir été chiffrées. Elles sont sions qui lui sont proposées par ce qui est souvent [4] Le Cacheux et al. “Modeling Inter alors agrégées pour obtenir un modèle optimisé, à considéré comme une « boîte noire ». Un réseau peut and Intra-Class Relations in the Triplet Loss son tour déployé puis de nouveau amélioré sur les cependant justifier synthétiquement ses décisions en for Zero-Shot Learning” ICCV 2019. terminaux clients. Le chiffrement homomorphe, qui montrant à l’utilisateur des données d’apprentissage [5] H.B. McMahan et al., “Federated Learning permet de calculer sur des données chiffrées, est trop congruentes avec la décision et qui soient semblables of Deep Networks using Model Averaging”, coûteux pour effectuer un apprentissage complet à son cas. L’interprétation est plus générale et ouvre IEEE T. Industrial Informatics Feb. 2016 dans le domaine chiffré. L’apprentissage fédéré limite la voie à une compréhension fine des mécanismes néanmoins le besoin de calculs homomorphes à la d’apprentissage et de l’organisation des espaces [6] https://ai.googleblog.com/2017/04/ seule agrégation des modèles successifs, dont la confi- latents appris. federated-learning-collaborative.html

ELISE reconnaît les objets, personnes, lieux et logos / drapeaux pour retrouver des images à grande échelle.

L’outil CLIVA permet de configurer les entités à reconnaître sans intervention d’un tiers.

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 29 LES DOMAINES D’APPLICATION

LES DOMAINES D’APPLICATION Fort d’une expertise reconnue dans la production et la maîtrise de données de qualité comme dans la reconstitution d’informations sur des données parcellaires ou par le croisement et l’intégration de données hétérogènes, le CEA met en œuvre différentes techniques d’IA dans une multiplicité de domaines.

30 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs INTRODUCTION LES DOMAINES D’APPLICATION

• PAR CHRISTOPHE CALVIN Les données ET FRANCE BOILLOD-CERNEUX sont le moteur de l’IA (Direction de la recherche fondamentale) Au-delà des technologies qu’il développe pour l’IA, le CEA y fait de plus en plus appel pour contribuer à la réalisation de ses propres objectifs scientifiques et techniques. Quelques illustrations de ces utilisations dans différents domaines de recherche sont présentées dans les pages qui suivent. Christophe Calvin est responsable du Secteur informatique, simulation numérique il y a un point commun et fondamental Cette expertise concerne également la reconstitution et calcul intensif (Direction des partenariats à toutes ces utilisations de l’IA d’ap- d’informations sur des données parcellaires ou, plus et des programmes) au CEA / DRF. prentissage, c’est bien la source d’infor- important encore, par le croisement et l’intégration de mation. Une donnée abondante et de données hétérogènes. Ce dernier point est fondamen- S’qualité est, en effet, la condition nécessaire pour tal pour la médecine personnalisée : c’est grâce à l’ana- obtenir un résultat fiable. lyse croisée de multiples sources de données de santé (génomiques, cliniques, imagerie…), rendues cohé- Dans ce contexte, le CEA occupe une position parti- rentes et donc interprétables, qu’il sera possible de culière. Sur de nombreux sujets, il produit (ou contri- personnaliser les diagnostics et les traitements. bue à la production) des données et dispose d’une Et c’est cette expertise sur les données manipulées qui France Boillod-Cerneux travaille expertise reconnue dans la production et la maîtrise permet au CEA d’utiliser l’intelligence artificielle de à la Direction des programmes et des de données de qualité : données observationnelles manière efficace et appropriée, dans une multiplicité partenariats publics du CEA / DRF. spatiales, environnementales, de santé, de physique de domaines, comme l’énergie (p. 32), la recherche fondamentale, résultats de simulations numériques… fondamentale (p. 34) et le calcul (p. 41).

Krigeage • Valérie Gautard est chercheure au Département Technique géostatistique d’interpolation PAR d’électronique des détecteurs et d’informatique spatio-temporelle utilisée dans diverses VALÉRIE GAUTARD pour la physique (Institut de recherche sur les lois disciplines dont la géologie et la météorologie. (Direction de la recherche fondamentale) fondamentales de l’Univers) du CEA Elle permet d’estimer des valeurs inconnues à des endroits précis, compte tenu des valeurs disponibles à d’autres endroits. MOOC Acronyme de Massive Open Online Course InTheArt, au cœur de l’IA (en français, formation en ligne ouverte à tous). Il s’agit d’une formation à distance, capable Il y a deux ans, un groupe dédié à l’IA s’est constitué au learning en imagerie radio-isotopique, sont régulièrement d’accueillir un grand nombre de participants. sein de la Direction de la recherche fondamentale (DRF) organisés ainsi que des formations, notamment sous forme IN2P3 du CEA. Il rassemble une centaine de spécialistes de la de MOOC . Plusieurs actions sont à venir, notamment un Institut national de physique nucléaire physique et de la biologie, mais aussi de l’informatique et atelier en partenariat avec l’ IN2P3 en 2020. des mathématiques, issus du CEA et du CNRS : c’est le et de physique des particules du CNRS. Deux thèmes sont actuellement plus avancés : le premier groupe InTheArt [1]. Son objectif : former une communauté https://in2p3.cnrs.fr/ active d’échanges autour de l’IA, afin d’acquérir concerne les projections climatiques (méthodes collectivement une meilleure maîtrise de ses outils. permettant de nous affranchir du chaos) et le second porte sur les détecteurs de particules, avec un sujet sur Des séminaires, par exemple sur l’utilisation du krigeage l’étude des calorimètres gamma ultra-rapide à haute pour la validation de modèles numériques ou du machine résolution spatiale pour l’imagerie médicale fonctionnelle. [1] https://indico.in2p3.fr/event/17858/

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 31 LES DOMAINES D’APPLICATION ÉNERGIE

• PAR PIERRE-EMMANUEL ANGELI ET JEAN-MARC MARTINEZ Apprentissage machine (Direction de l’énergie nucléaire) en simulation numérique Dans le domaine de la simulation numérique, l’apprentissage machine à partir Pierre-Emmanuel Angeli est de données simulées ou de mesures expérimentales permet d’améliorer certains chercheur au Service de modèles qui s’avèrent encore très approximatifs pour des physiques complexes, thermohydraulique et de mécanique des fluides (Direction des activités par exemple en mécanique des fluides. nucléaires de Saclay) du CEA.

l ne s’agit pas ici de calibrer des modèles fortement non linéaires, représente un défi depuis « phénoménologiques » proposés par avis l’apparition des premiers ordinateurs : elle nécessite d’experts, mais d’utiliser des structures un maillage extrêmement fin, de sorte que la taille fonctionnelles comme les réseaux de neurones des mailles soit au moins aussi petite que celle des Ibeaucoup plus « flexibles » et capables de s’adapter plus petites structures tourbillonnaires présentes à de nombreuses relations ou corrélations. Compte dans l’écoulement. Cette taille minimale, en dessous Jean-Marc Martinez est chercheur au tenu de leur flexibilité fonctionnelle, des méthodes de laquelle les tourbillons sont instantanément dis- Service de thermohydraulique et de statistiques de validation doivent être utilisées pour sipés par la viscosité moléculaire, est appelée échelle mécanique des fluides (Direction des les rendre plus robustes en limitant le risque de de Kolmogorov. Ce type de simulation, qui ne fait activités nucléaires de Saclay) du CEA. sur-apprentissage. Néanmoins un tel apprentissage, donc intervenir aucun modèle de turbulence, est fondé exclusivement sur des données, présente un appelé simulation numérique directe ou DNS : elle inconvénient majeur : produire ou inférer des modèles fournit une solution « exacte » des équations de Na- qui peuvent ne pas être conformes aux lois de la vier-Stokes (aux erreurs numériques près) et donne DNS LEVM TBNN physique simulée. Leurs prédictions ne seront donc accès en chaque point et en chaque instant aux com- pas garanties en dehors du domaine d’apprentissage. posantes du vecteur vitesse. Elle fournit donc une information extrêmement riche, de laquelle on peut En simulation numérique, une IA de « confiance » extraire des informations statistiques (moyenne, doit donc inférer des modèles assurant un certain écarts-types…). Cependant, son coût de calcul ex- nombre de lois physiques. En mécanique des fluides, traordinairement élevé la cantonne pour l’instant à ces lois imposent plusieurs invariances : galiléenne, des situations physiques « simples », dans des do- d’échelle, de rotation. La structure fonctionnelle doit maines restreints où les écoulements sont faible- donc assurer ces invariances, indépendamment des ment ou modérément turbulents. données. C’est sans doute l’un des défis de l’application e de l’apprentissage machine à la simulation numérique. Vers la fin du XIX siècle, Osborne Reynolds eut l’idée de modifier les équations de Navier-Stokes en leur appliquant un opérateur de moyenne statistique : Apprentissage machine il obtint de cette façon de nouvelles équations, très des modèles de turbulence similaires, qui seront désignées plus tard par l’acronyme RANS . Contrairement à la DNS, le Au CEA, la simulation numérique des écoulements formalisme RANS se limite donc au calcul des turbulents des transferts thermiques dans les moyennes statistiques de la turbulence et permet de assemblages de réacteurs nucléaires est menée par simuler numériquement les tendances des écoule- le Service de thermohydraulique et de mécanique ments sur des cas réels complexes. Il donne accès à des fluides (STMF), qui assure notamment la Fig. 4 : Champs du tenseur de Reynolds une information beaucoup moins riche que la DNS, conception et le développement des outils de calcul mais parfois suffisante et pour un coût de calcul de calculés par DNS (valeurs de référence), scientifique dédiés à ces simulations. À l’échelle l’ordre de mille fois plus faible. Les équations RANS estimés par LEVM et TBNN dans le cas d’une locale, cette activité est assurée par le biais d’un ne sont cependant pas fermées, dans le sens où elles géométrie carrée. L’apprentissage machine logiciel de CFD appelé TrioCFD [1]. Elle repose présentent davantage d’inconnues que d’équations, de TBNN a été réalisé sur la géométrie sur la résolution approchée des équations de en raison de l’apparition d’un nouveau tenseur rectangle. On note une nette amélioration Navier-Stokes qui régissent les écoulements. La appelé tenseur des contraintes de Reynolds. On est par rapport au modèle LVEM de Boussinesq. résolution numérique des équations de Navier-Stokes, donc face à un problème de fermeture, auquel Joseph

32 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs ÉNERGIE LES DOMAINES D’APPLICATION

Base tensorielle Champ de vitesse (DNS) Invariants Réseau Tenseur de de neurones Reynolds Produit Fig. 1 : vitesse axiale dans la Fig. 2 : vitesse axiale moyenne Fig. 3 : Tensor Basis Neural Network : à partir du tenseur des contraintes du champ moyen, section du canal, à un instant dans la section du canal : une base de tenseurs et des invariants sont calculés. Le tenseur de Reynolds est approché dans donné, calculée par une simulation elle est obtenue par moyenne sur la base « physique » (TB) via des coefficients calculés par le réseau de neurones (NN). numérique de type DNS : un temps très long de la vitesse le champ présente des fluctuations instantanée, est indépendante du spatiales et temporelles temps, présente un aspect lisse et caractéristiques de la turbulence. des propriétés de symétrie. CFD Computational Fluid Dynamics

DNS Boussinesq sera le premier à proposer une solution, turbulence « chaotique » (Fig. 1) vers une turbulence Direct Numerical Simulation vers 1900. L’idée générale, encore actuelle, est de « moyennée » (Fig. 2) se fait par apprentissage sta- relier linéairement le tenseur de Reynolds au tenseur tistique des corrélations entre le tenseur des des contraintes du champ moyen par le biais d’un contraintes du champ moyen et le tenseur de RANS coefficient de viscosité turbulente ne dépendant que Reynolds. En outre, l’intérêt d’une cette approche est Reynolds-Averaged Navier-Stokes du niveau de turbulence, et non des propriétés du de bénéficier d’une structure fonctionnelle proposée fluide : dans ce modèle de turbulence, tout se passe par S.B. Pope en 1975 [3], permettant d’assurer l’en- LEVM donc comme si la turbulence agissait de manière semble des invariances sur le tenseur de Reynolds Linear Eddy Viscosity Model analogue à des effets visqueux. La relation linéaire et de bénéficier des capacités d’apprentissage d’un proposée par Boussinesq est dite LEVM , mais au fil réseau de neurones. L’association de la base des TBNN des décennies, une multitude d’autres relations de tenseurs et d’un réseau de neurones est dénommée Tensor Basis Neural Network fermeture non linéaires (NLEVM) ont été proposées. TBNN (Fig.3). Malheureusement, ces modèles ne sont pas suffi- [1] Site internet du logiciel TrioCFD : samment génériques pour garantir l’universalité de L’entraînement des TBNN a été réalisé sur des bases l’approche RANS. d’exemples issues de calculs DNS sur des configura- http://triocfd.cea.fr/ tions pour l’instant académiques, comme celle de [2] J. Ling, A. Kurzawski and J. Templeton, Reynolds Des travaux récents [2] ont proposé une alternative l’écoulement turbulent dans des canaux infiniment averaged turbulence modelling using deep neural à ces lois de fermeture postulées par expertise « phy- longs à section carrée et rectangulaire. Les résultats networks with embedded invariance, J. Fluid Mech. sique ». L’idée consiste à analyser les résultats d’un obtenus en comparaison avec les modèles LEVM et (2016), vol. 807. calcul DNS afin d’inférer par apprentissage machine NLEVM sont prometteurs (Fig. 4) et laissent augurer des relations de fermeture plus conformes à la « réalité » un nouvel axe de R&D sur la modélisation du tenseur [3] S.B. Pope, A more general effective-viscosity simulée par DNS. La remontée d’échelle de la de Reynolds en CFD. hypothesis, J. Fluid Mech. (1975), vol. 72.

Osborne Reynolds (1842-1912) Ingénieur et physicien irlandais, il fit d’importantes contributions à l’hydrodynamique Joseph Boussinesq (1842- 1929) et à la dynamique des fluides. Hydraulicien et mathématicien français, La plus notable est l’introduction du nombre S.B. Pope il a apporté une contribution importante de Reynolds en 1883 qui caractérise un Stephen B. Pope est professeur émérite en mathématiques, mécanique des fluides, écoulement, en particulier la nature de son à l’Université de Cornell aux Etats-Unis. mécanique des sols et génie civil. régime (laminaire, transitoire, turbulent).

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 33 LES DOMAINES D’APPLICATION RECHERCHE FONDAMENTALE

• PAR ÉDOUARD DUCHESNAY (Direction de la recherche fondamentale)

BIOLOGIE & SANTÉ

Édouard Duchesnay est chercheur dans l’Unité d’analyse et de Identifier précocement traitement de l’information de NeuroSpin (Institut Joliot du CEA). la schizophrénie Une collaboration internationale de chercheurs en psychiatrie [1], pilotée par une équipe de NeuroSpin, a démontré qu’il est possible d’identifier une signature neuro-anatomique de la schizophrénie, reproductible dans les différents sites d’acquisition des images et pour les différentes étapes d’évolution de la maladie, avec des algorithmes de machine learning.

L R L R 2e-05

2e-05

0

-1e-05

y=-13 x=-1 z=14 -2e-05

Fig. 1 : La signature de l’anatomie cérébrale prédictive de la schizophrénie implique des atrophies de la matière grise dans les régions des gyri cingulaires, des gyri pré et post-centraux, du pôle temporal, des hippocampes, des amygdales et des thalami.

Schizophrénie imagerie par résonance magnétique Ces limitations pourraient être levées par les algo- La schizophrénie est un trouble mental (IRM) structurelle est utilisée pour rithmes de machine learning qui « apprennent du passé chronique caractérisé par une variété de identifier les changements de l’anatomie pour prédire l’avenir». À partir d’une cohorte de patients symptômes tels que des hallucinations et cérébrale associés au développement de pour lesquels on dispose à la fois de l’imagerie initiale et des déficiences des fonctions cognitives. L’la schizophrénie. Mais les statistiques classiques ne de l’évolution clinique, ces algorithmes apprendraient permettent pas de détecter, à partir des images, des un motif cérébral global, ou « signature » pronostique Présentation de NeuroSpin « patterns » globaux d’anomalies, ni de fournir une pré- de cette évolution. La signature serait ensuite appliquée http://joliot.cea.fr/drf/joliot/Pages/ diction à l’échelle individuelle, ce qui constitue une limite à l’imagerie d’un nouveau patient afin d’obtenir une Entites_de_recherche/NeuroSpin.aspx dans la perspective d’une médecine personnalisée. prédiction de son évolution, à prendre en compte dans

34 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs RECHERCHE FONDAMENTALE LES DOMAINES D’APPLICATION

la stratégie thérapeutique du clinicien. Jusqu’à présent, de quatre sites de recrutement, cet algorithme a démontré cependant, ces algorithmes avaient encore une portée la possibilité de prédire le diagnostic des patients avec limitée car conduisant à des signatures peu interpré- 68 % d’exactitude. Les chercheurs ont évalué la validité tables et peu reproductibles. En outre, ni le stade de la de cette signature selon la durée de la maladie et des maladie et ni l’effet de traitements n’étaient pris en traitements, avec 73 % d’exactitude sur une base de compte. 43 patients au premier épisode psychotique. « Cette étude ouvre des Dans le travail piloté par une équipe de NeuroSpin [1], Cette étude démontre l’existence d’une signature neuro- perspectives de détection les chercheurs ont utilisé ses récents développements anatomique commune à une majorité de patients et de prise en charge précoces en machine learning [2] pour intégrer un a priori biologique dans l’identification de la signature souffrant de schizophrénie, qui est déjà présente dès le de personnes à risque prédictive afin d’améliorer son interprétabilité et sa début de la maladie. Elle ouvre ainsi des perspectives de de transition psychotique reproductibilité. Appliqué à l’un des plus larges détection et de prise en charge précoces de personnes à échantillons internationaux (276 patients avec risque de transition psychotique et d’évolution vers la et d’évolution schizophrénie chronique et 330 contrôles), provenant schizophrénie. vers la schizophrénie. »

[1] de Pierrefeu, A., Löfstedt, T., Laidi, C., Hadj-Selem, F., Bourgin, J., Hajek, T., Spaniel, F., Kolenic, M., Ciuciu, P., Hamdani, N., Leboyer, M., Fovet, T., Jardri, R., Houenou, J., Duchesnay, E., 2018. Identifying a neuroanatomical signature of schizophrenia, reproducible across sites and stages, using machine learning with structured sparsity. Acta Psychiatrica Scandinavica 0. - [2] Hadj-Selem, F., Lofstedt, T., Dohmatob, E., Frouin, V., Dubois, M., Guillemot, V., Duchesnay, E., 2018. Continuation of Nesterov’s Smoothing for Regression with Structured Sparsity in High-Dimensional Neuroimaging. IEEE Transactions on Medical Imaging 37, 2403–2413.

• PAR CATHY PHILIPPE ET BIOLOGIE & SANTÉ VINCENT FROUIN (Direction de la recherche fondamentale) Mieux prendre en compte la maladie d’Alzheimer Vincent Frouin est chercheur dans l’Unité Des approches intégratives in-silico sont développées au CEA pour rechercher d’analyse et de traitement de l’information les fonctions biologiques qui sont altérées dans le processus de neurodégéné- de NeuroSpin (Institut Joliot du CEA). rescence conduisant à la maladie d’Alzheimer.

ujourd’hui, la maladie d’Alzheimer est de son entourage ; diagnostiquée après l’apparition des 2) l’identification de biomarqueurs prédictifs et/ou premiers symptômes, comme les troubles pronostics ; de la mémoire et des fonctions exécutives. 3) la compréhension des mécanismes biologiques de la Cathy Philippe est chercheure dans l’Unité CeA diagnostic repose sur des tests des fonctions maladie pour en traiter les causes. d’analyse et de traitement de l’information cognitives, l’imagerie cérébrale TEP et IRM et, de NeuroSpin (Institut Joliot du CEA). éventuellement, la recherche de marqueurs biologiques Si l’âge est le premier facteur de risque, vient ensuite la comme la protéine bêta-amyloïde et la protéine tau dans génétique. Les études d’association à l’échelle du des ponctions lombaires assez invasives. Il n’existe à ce génome [1] ont permis d’identifier plusieurs variants jour aucun test de dépistage simple. Les principaux génétiques associés à la maladie d’Alzheimer. Néanmoins, enjeux de la recherche sont au nombre de trois : les effets individuels de chaque variant sur la maladie étant faibles, il est probable que l’approche GWAS, de 1) le développement d’une détection précoce de la nature essentiellement univariée, ne suffira pas pour maladie pour une prise en charge adaptée du patient et identifier les grandes voies biologiques en cause.

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 35 LES DOMAINES D’APPLICATION RECHERCHE FONDAMENTALE

Maladie d’Alzheimer Elle touche, en France, environ 4 % des plus de 65 ans et 15 % des plus de 80 ans. Maladie neurodégénérative évolutive et incurable à ce jour, elle est le type de démence le plus répandu dans la population.

Phénotype Ensemble des traits caractéristiques d’un organisme.

Génotype Composition génétique d’un individu.

Les méthodes de machine learning offrent des outils termes de voie biologique est original : à l’heure actuelle, multivariés pour mettre en œuvre des stratégies de les sorties des autres méthodes ne permettent pas une recherche de ces voies biologiques altérées et qui sont interprétation à ce niveau. en plus capables d’intégrer des connaissances a priori sur le fonctionnement des gènes et leur collaboration. Des données abondantes sont nécessaires pour mettre [1] Genome Wide Association Study ou GWAS Le principe est de considérer tous les variants regroupés en œuvre ces approches de machine learning et nous par gènes et de modéliser les interactions de ces avons profité de cohortes construites au niveau interna- [2] Alzheimer’s Disease Neuroimaging Initiative derniers par un réseau afin de construire un modèle tional comme la cohorte ADNI [2] . Pour 406 sujets nous avons construit trois blocs constitués du génotype , Référence prédictif du phénotype . Pour répondre à l’enjeu de détection précoce, des données d’imagerie sont du statut clinique (malade, contrôle, troubles cognitifs Guigui, N., Philippe, C., Gloaguen, A., Karkar, S., légers avec ou sans conversion à la maladie) et des Guillemot, V., Löfstedt, T., & Frouin, V. (2019). introduites dans le modèle, comme l’épaisseur corticale régionale, car certaines modifications structurales sont mesures régionales d’épaisseur corticale. Avec ces Network regularization in imaging genetics visibles en IRM avant même l’apparition de symptômes. données, nous avons montré l’intérêt de notre improves prediction performances and model approche multi-bloc pour expliquer les données interpretability on Alzheimers’s disease. L’Analyse Canonique des Corrélations Généralisée et ADNI. Le processus d'optimisation correspondant In ISBI 2019 - Proceedings of the IEEE Régularisée (ACGR) a été utilisée pour apprendre le produit une solution qui rassemble des gènes International Symposium on Biomedical meilleur modèle d’imagerie-génétique prédictif de la concourant à la formation des fibres amyloïdes Imaging. Venice, Italy. maladie d’Alzheimer, en tenant compte de la structure (pathway HSA 977225) associée à des réseaux par- en réseau des gènes, ce qui a permis de retrouver des ticuliers d’altération de la matière grise. Cette solution Retrieved from https://hal-cea.archives- fonctions biologiques, comme la formation de fibres présente non seulement de bonnes performances de ouvertes.fr/cea-02016625 amyloïdes. Ce n’est pas nouveau en soi, mais le fait que prédiction de la conversion, mais elle est également notre méthode propose directement un résultat en interprétable en termes de biologie.

Cohorte ADNI1 : 406 sujets

A B

Fig.1A : les trois blocs de données sur lesquels ont été superposés des réseaux résument les fonctions biologiques connues sous la forme classique bio-informatique, neuro-informatique ou les réseaux de régions du cerveau connues.

Fig.1B : GN-CCA illustration du fait que les solutions retenues par la méthode ont sélectionné des gènes liés entre eux, appartenant à des cliques du réseau général. De même, seules certaines régions connexes du cerveau ont été sélectionnées. Model Selection

36 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs RECHERCHE FONDAMENTALE LES DOMAINES D’APPLICATION

BIOLOGIE & SANTÉ

Prédire la structure des • PAR macromolécules biologiques JESSICA ANDREANI ET RAPHAËL GUEROIS Des réseaux de neurones profonds sont utilisés pour prédire les mécanismes (Direction de la recherche fondamentale) d’assemblage et les propriétés des macromolécules (protéines et acides nucléiques) impliquées dans le maintien de l’intégrité des génomes.

Coévolution des séquences DNN Carte de contacts Prédiction de structure 3D 1 1

51 51 Jessica Andreani est chercheure au Laboratoire de biologie structurale 101 101 et radiobiologie (Institut Joliot du CEA). 151 151 201 201 251 251 301 301 1 51 101 151 201 251 301 1 51 101 151 201 251 301

Fig. 1 : l’essor de la génomique a produit une quantité énorme de séquences de macromolécules biologiques. À partir des alignements de Raphaël Guerois est chercheur au ces séquences et de l’apprentissage par des réseaux de neurones profonds, il est désormais possible de prédire les structures tridimensionnelles Laboratoire de biologie structurale des macromolécules ab initio. et radiobiologie (Institut Joliot du CEA).

epuis plusieurs années, la bio-informatique les processus de coévolution dans un grand nombre de structurale met en œuvre, avec succès, des séquences protéiques pour en déduire des contraintes stratégies d’apprentissage et d’IA pour spatiales et (ii) l’utilisation d’architectures de réseaux prédire l’organisation des protéines et des de neurones profonds (DNN) de type convolutif. CASP DARN à partir de leurs séquences, disponibles en grande quantité et à un coût réduit grâce à l’essor des pro- La combinaison de ces deux approches a ainsi placé Critical Assessment of techniques grammes de génomique. Ces stratégies sont particu- DeepMind (filiale de Google) et sa méthode AlphaFold for Structure Prediction lièrement bien adaptées car ces macromolécules pos- en tête du classement des approches de prédiction de (Concours international de prédiction sèdent des niveaux d’organisation clairement repliement ab initio lors de CASP 2018. de structure tridimensionnelle). hiérarchisés allant de la structure primaire (briques www.predictioncenter.org/index.cgi élémentaires composant les polymères protéiques ou Parmi les prochains défis de la bio-informatique struc- turale : la prédiction et la modélisation de l’organisation nucléiques) à la structure quaternaire (assemblage et Ab initio interaction des macromolécules entre elles) en passant quaternaire des macromolécules biologiques. Pour que par les structures secondaires (structures locales en les architectures à réseaux de neurones profonds soient Sans information structurale préexistante coudes, brins et hélices) et tertiaires (repliements tri- performantes, il faudra accumuler davantage de don- ni données biologiques complémentaires. dimensionnels résultant de l’assemblage des structures nées pour l’apprentissage ou exploiter les potentialités secondaires). des stratégies d’apprentissage par transfert, par exemple Réseaux de neurones en migrant les règles apprises sur les repliements profonds de type convolutif tertiaires vers l’organisation quaternaire. Autre défi ma- Dès la fin des années 90, les algorithmes les plus Systèmes d’apprentissage inspirés des performants utilisés pour la prédiction des structures jeur : l’application au design et à l’ingénierie de macro- réseaux de neurones biologiques, possédant secondaires reposaient sur des architectures simples molécules à des fins biotechnologiques. Là encore, les de réseaux de neurones. Récemment, des structures données requises pour un apprentissage efficace restent de multiples couches et utilisant une tertiaires ont été prédites grâce à deux avancées en nombre limité et une alliance entre la génération opération mathématique pour assembler des majeures (voir Fig. 1) : (i) l’émergence de méthodes, expérimentale de données et l’apprentissage constituera motifs de plus en plus complexes en tirant issues de la physique statistique, permettant d’analyser probablement une des clés des succès à venir. parti de la structure hiérarchique des données.

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 37 LES DOMAINES D’APPLICATION RECHERCHE FONDAMENTALE

CLIMAT & ENVIRONNEMENT Peut-on faire confiance à l’IA pour • prévoir la météo et faire des PAR DAVIDE FARANDA (CNRS) projections climatiques ? ET VALÉRIE GAUTARD (Direction de la recherche fondamentale) Le calcul haute performance a ouvert la voie aux analyses avancées de jeux de données de grande dimension. Et les techniques d’apprentissage sont particulièrement utiles pour reconnaître des modèles et catégoriser des informations dans des systèmes complexes. Serait-il donc possible d’apprendre le comportement dynamique d’un système sans simuler les équations d’évolution sous-jacentes ?

Davide Faranda est chercheur Fig. 1 : exemple de prévision de pression au niveau de la mer à échéance de 24 heures réalisé en utilisant des réseaux de neurones récurrents. au Laboratoire des sciences du climat a) champ de pression observé et b) champ de pression prévu avec une simulation initialisée 24 heure à l’avance. et de l’environnement (CEA / CNRS). A B hPa 1040 1020 1000 980 960 Valérie Gautard est chercheure au Département d’électronique des détecteurs et d’informatique pour la physique (Institut de recherche sur les lois et intérêt est motivé par le fait que de turbulence et l’intermittence limitent considérablement fondamentales de l’Univers) du CEA. nombreux systèmes complexes manquent l’applicabilité des réseaux de neurones récurrents, encore d’équations universellement aussi bien pour les prévisions à court terme que pour acceptées, dont la dynamique de l’atmos- la reconstruction de longues séries temporelles Cphère et l’océan. D’un point de vue mathématique, d’observables climatiques. les équations de Navier-Stokes, qui sont la pierre angulaire de la dynamique des flux turbulents, sont Pour surmonter ces limitations, nous avons mis en œuvre une stratégie basée sur la séparation de la difficiles à simuler, de sorte que des approximations dynamique à grande échelle des caractéristiques et des paramétrisations lourdes sont nécessaires intermittentes / turbulentes. Comme premier test de pour représenter les écoulements géophysiques dans l’applicabilité de ce cadre, nous avons e reproduit le les applications météorologiques et climatiques. Des comportement à court et à long terme des données techniques de machine learning capables d’ap- de pression au niveau de la mer (Fig. 1) et obtenu de prendre la dynamique des flux physiques pourraient bonnes reconstructions, en filtrant le bruit aux petites éviter de faire des simulations coûteuses basées sur échelles avec une moyenne mobile sur une fenêtre de les solutions d’équations de Navier-Stokes. 12 heures.

D. Faranda, M. Vrac, P. Yiou, F.M.E. Pons, Des progrès récents dans ce domaine ont ouvert la Ce domaine de recherche reste à explorer. À l’avenir, A. Hamid, C.G., G. Carella, Ngoungue Langue, possibilité de prévoir le comportement de systèmes nos efforts seront concentrés sur la possibilité d’uti- S. Thao, V Gautard. “Boosting performance chaotiques, en utilisant des réseaux de neurones liser les techniques de machine learning pour simuler in Machine Learning of Turbulent récurrents. Nos recherches ont actuellement pour but des processus à petite échelle dans les modèles clima- and Geophysical Flows via scale separation”, d’étudier l’applicabilité de ce cadre aux écoulements tiques et détecter des phénomènes météorologiques en cours de soumission, 2019. géophysiques, connus pour être intermittents et extrêmes dans les simulations climatiques ainsi que turbulents. Nos premiers résultats ont montré que la dans les bases des données d’observations.

38 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs RECHERCHE FONDAMENTALE LES DOMAINES D’APPLICATION

Vue d’artiste du satellite EUCLID

EN CHIFFRES

Mission Caractérisation de la nature de l’énergie sombre Date de lancement 2020 Partenaire ESA Instruments VIS, NISP Position En orbite au point de Lagrange L2 (situé à 1,5 millions de km de la Terre) Durée de vie 6 ans et 3 mois © ESA

ASTROPHYSIQUE

• PAR Du machine learning JEAN-LUC STARCK dans l’espace (Direction de la recherche fondamentale) En astrophysique, à l’instar de nombreux autres domaines scientifiques, le machine learning est devenu incontournable ces dernières années, et pour un très large éventail de problèmes : restauration d’images, classification et caractérisation des étoiles ou des galaxies, séparation automatique des étoiles des galaxies dans Jean-Luc Starck est directeur de recherche et chef du laboratoire CosmoStat au sein les images, simulation numérique d’observations ou de distribution de matière du Département d’astrophysique (Institut dans l’Univers… de recherche sur les lois fondamentales de l’Univers) du CEA. e laboratoire CosmoStat est très actif en l’art. Nous cherchons actuellement à préserver certaines machine learning (ML), en poursuivant propriétés morphologiques des galaxies qui sont trois objectifs différents : améliorer les légèrement altérées par le traitement non linéaire du pipelines de traitement des données astro- réseau de neurones. Ceci peut être réalisé en [1] F. Sureau, A. Lechat, J.-L. Starck, Lphysiques, en particulier pour le relevé de galaxies du modifiant la manière d’entraîner le réseau, pour tenir “Deep Learning for space-variant deconvolution projet franco-canadien CFIS et pour la mission spa- compte des informations qui sont les plus pertinentes in galaxy surveys”, submitted, 2019 tiale Euclid de l’ESA ; améliorer l’exploitation scien- pour des astrophysiciens. tifique (l’extraction d’informations cosmologiques à [2] N. Jeffrey, F. Lanusse, O. Lahav, J.-L. Starck, partir des données) ; et accélérer certains algorithmes L’exploitation scientifique des données cosmologiques “Learning dark matter map reconstructions nécessitant beaucoup trop de temps de calcul. peut être grandement améliorée grâce au ML. Nous from DES SV weak lensing data”, MNRAS avons montré qu’il peut être utilisé pour reconstruire Letters, 2019 - https://arxiv.org/abs/1908.00543 En ce qui concerne les pipelines, nous avons récem- une carte de masse de matière noire et donne de bien ment proposé une nouvelle architecture de réseaux meilleurs résultats que les méthodes de pointe les [3] Peel et al, “A machine learning approach U-Net [1], qui utilise des blocs denses, pour la dé- plus récentes [2]. Nous avons également constaté [3] to breaking degeneracies in modified convolution d’images astrophysiques. Ceci a conduit que le ML est extrêmement puissant pour distinguer gravity with massive neutrinos”, à une amélioration significative par rapport à l’état de différents modèles cosmologiques. Physical Review D, 100, 2, id.023508, 2019.

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 39 LES DOMAINES D’APPLICATION RECHERCHE FONDAMENTALE

[4] F. M. Ngolè Mboula, J.-L. Starck, Ainsi, nous avons pu différencier dans des données est encore long avant que nous disposions de méthodes “PSF field learning based on Optimal simulées des modèles incluant une gravité modifiée fiables qui pourraient être proposées dans des projets Transport Distances”, SIAM Journal du modèle cosmologique standard, ce qui était tels qu’Euclid : de nombreux développements restent of Imaging Sciences, 2017 impossible avec les techniques précédentes. à faire et plusieurs questions fondamentales doivent https://arxiv.org/abs/1703.06066 être résolues. Par exemple, si nous sommes capables Certains algorithmes sont parfois très précis et très de reconstruire de belles cartes de masse de matière utiles, mais nécessitent un temps de calcul bien trop noire avec le ML, nous n’avons aucune barre d’erreur grand pour qu’ils soient appliqués en pratique sur un sur celles-ci et nous ne gérons pas encore correcte- grand volume de données. C’est par exemple le cas ment le bruit non gaussien. Autre aspect important : d’un algorithme que nous avons développé pour l’impact des modèles cosmologiques choisis pour reconstruire des images d’Euclid [4] et qui est basé l’entraînement sur les paramètres cosmologiques sur une technique de transport optimal. Nous étudions estimés à partir de la carte de masse de matière noire actuellement comment apprendre le transport optimal reconstituée. En d’autres termes, pouvons-nous dé- à l’aide de techniques de ML. En cas de succès, le couvrir quelque chose qui n’est pas prévu ou qui n’est temps de calcul serait considérablement amélioré. pas suffisamment compris pour le simuler correcte- ment lorsque nous utilisons une stratégie d’appren- Si de beaux résultats ont déjà été obtenus, le chemin tissage avec ML ?

« Le ML est donc en voie de devenir l’outil indispensable pour une première caractérisation des données stellaires, vues leur quantité considérable et leur variété. »

Vue d’artiste du satellite TESS

• Space Flight Center Goddard © NASA’s PAR RAFAEL A. GARCIA (Direction de la recherche fondamentale) À la recherche de nouveaux soleils Nous avons récemment utilisé des algorithmes de machine learning (ML) pour l’analyse en masse des données astéro-sismiques obtenues par les satellites Kepler et TESS de la NASA. Ce dernier observe chaque année plusieurs millions d’étoiles, parmi lesquelles la recherche d’astres similaires au Soleil est rendue très difficile et très longue par les méthodes classiques. Le ML est donc en voie de devenir l’outil indispensable pour une première caractérisation des données stellaires, vues leur quantité considérable et leur variété. Nos algorithmes de ML nous permettent déjà de classifier rapidement les étoiles selon leur type de pulsation, de déterminer leur état évolutif qui est relié à leur âge, et même de détecter les traces d’une forte rotation ou la Rafael A. Garcia est astrophysicien au présence de champs magnétiques à l’intérieur des étoiles. Laboratoire dynamique des étoiles des exoplanètes et de leur environnement (Département d’astrophysique) du CEA. Pour aller plus loin CosmoStat : www.cosmostat.org CFIS (Canada-France Imaging Survey) : www.cfht.hawaii.edu/Science/CFIS La mission Euclid : www.euclid-ec.org TESS (Transiting Exoplanet Survey Satellite) : www.nasa.gov/tess-transiting-exoplanet-survey-satellite

40 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs CALCUL LES DOMAINES D’APPLICATION

Vue artistique d’un proton et de ses trois quarks de valence © CEA - Animea 2011

• CONTRIBUTEURS (Direction de la recherche fondamentale)

PHYSIQUE NUCLÉAIRE

Noélie Cherrier est doctorante au Département de physique nucléaire Mieux comprendre (Institut de recherche sur les lois fondamentales de l’Univers) du CEA. la structure de la matière En physique expérimentale, les techniques d’IA peuvent être exploitées pour l’analyse de données à condition que le modèle induit soit compréhensible a posteriori. Mais les performances de ces modèles dépendent grandement du Maxime Defurne est chercheur au choix des variables d’entrée. Deux instituts du CEA se sont associés pour développer Département de physique nucléaire (Institut de recherche sur les lois des approches de construction automatique de variables d’entrée pertinentes. fondamentales de l’Univers) du CEA.

elon le modèle standard, l’Univers est consti- et d’opérateurs mathématiques, avec une contrainte tué de particules élémentaires (électrons, supplémentaire de respect des unités physiques. quarks…) et composites (protons, neutrons…) Cet algorithme dit évolutionnaire (car inspiré du liées entre elles par des interactions de mécanisme de sélection naturelle) fait évoluer une Sdifférentes natures. Ainsi, le proton, présent dans les population d’individus représentant des variables noyaux atomiques, est au premier ordre composé de candidates. Le processus est adapté afin de respecter trois quarks dont la masse ne représente que 7 % de sa Franck Sabatié est chercheur au les unités et dimensions des variables de base lors de masse totale; les 93 % restants étant fournis par Département de physique nucléaire la construction des nouvelles variables. Une fois l’interaction forte qui lie les quarks ensemble. Cette (Institut de recherche sur les lois construites, celles-ci sont évaluées selon leur capacité fondamentales de l’Univers) du CEA. interaction est activement étudiée dans des collisions de à bien séparer les événements d’intérêt du bruit de particules, notamment au Jefferson Lab où un faisceau fond dans les données. d’électrons est envoyé pour sonder la structure interne d’un proton tel un gigantesque microscope électronique On obtient finalement un modèle de classification [1]. Le machine learning peut aider à améliorer l’analyse transparent et performant, exploitable pour analyser des données issues de ces expériences afin d’isoler les les données issues du détecteur de particules et recon- événements d’intérêt, à condition que le modèle final naître les événements d’intérêt. Les physiciens peuvent soit transparent et interprétable par les experts. vérifier l’adéquation du modèle induit avec les données réelles en analysant les modèles de classification Jean-Philippe Poli est ingénieur- Certains modèles reconnus pour leur interprétabilité, produits. L’ultime étape de ces travaux menés conjoin- chercheur au Laboratoire intelligence comme les arbres de décision, réalisent généralement tement par des équipes de la Direction de la recherche artificielle et apprentissage automatique une succession de tests sur les caractéristiques d’un évé- fondamentale (Irfu) et de la Direction de la recherche (Département métrologie, instrumentation nement afin de le classer. Ils sont donc très dépendants technologique (List) est de comparer cette approche et information) du CEA / List. des variables choisies en entrée. Afin d’automatiser le interprétable aux méthodes d’analyse standard en processus de sélection de ces variables, on utilise un physique et aux approches basées sur des réseaux de algorithme de construction automatique de variables neurones adaptés au passage des données simulées « haut-niveau », à partir d’une liste de variables de base aux données réelles. [1] https://www.jlab.org/research/hall-b

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 41 LES DOMAINES D’APPLICATION CALCUL

• PAR JEAN-CHRISTOPHE WEILL Optimiser le calcul haute (Direction des applications militaires) performance et ses moyens

Les supercalculateurs s’avèrent parfois indispensables pour calculer les phases d’apprentissage et d’inférence des méthodes d’apprentissage automatique. À l’inverse, les algorithmes d’apprentissage peuvent être mis à profit dans la Jean-Christophe Weill est chercheur au Département des sciences de la simulation et gestion des supercalculateurs. En voici quatre illustrations sur des études menées de l’information (DAM Ile-de-France) du CEA. au centre de Bruyères-le-Châtel.

fin d’optimiser la consommation d’un son nom complet. L’objectif : optimiser les mécanismes supercalculateur, il est souhaitable de de migration de fichiers, ceux dont on prédit une durée prévoir le comportement d’une tâche de vie courte n’ayant pas vocation à être transférés vers Le supercalculateur Jolliot-Curie avant que celle-ci ne lui soit soumise. les systèmes de sauvegarde. A Pour effectuer cette prévi- sion, le système de gestion Par ailleurs, les algorithmes d’apprentissage peuvent des soumissions de tâches également s’avérer utiles pour la maintenance prédictive ne dispose que de peu de des supercalculateurs. En effet, les pannes sont systé- données sur la tâche à matiquement précédées par des dysfonctionnements accomplir : en général, le mineurs qui laissent des traces infimes dans les journaux nom de l’utilisateur, celui systèmes. Ces journaux - qui se présentent la plupart du programme de lance- du temps sous la forme d’un fichier texte classique - ment, un temps maximum sont augmentés de 15 000 à 900 000 lignes par jour pour le déroulement de la et par nœud de calcul. Or, un supercalculateur est tâche et des caractéris- composé de plusieurs milliers de nœuds : il y a donc de tiques de parallélismes plusieurs millions à quelques milliards de lignes de comme le nombre de pro- texte à surveiller chaque jour ! La détection des signaux cessus MPI et le nombre faibles, un des cas d’application typique de l’appren- de threads par processus tissage automatique, appliquée à ces journaux sert à MPI. Si ces informations repérer les dysfonctionnements et ainsi remplacer ne suffisent pas à un expert préventivement les composants matériels ou logiciels pour anticiper la consom- avant des pannes plus importantes. © CEA mation d’une tâche, un algorithme d’apprentissage statistique - qui se fonde Enfin, l’équipe qui gère les infrastructures du TGCC va sur les données précédemment observées - est capable, utiliser l’apprentissage automatique pour optimiser les comme dans le cas du supercalculateur COBALT au infrastructures des servitudes des supercalculateurs CCRT, de conjecturer finement la puissance moyenne hébergés par le centre. Des systèmes de mesures vont consommée de la tâche de calcul. Cette prédiction per- récolter des données qui serviront à entraîner des Pour aller plus loin met au système de soumission des tâches d’optimiser algorithmes d’apprentissage. Le résultat permettra la puissance consommée totale du calculateur. Néan- d’affiner les différentes consignes et leurs durées de CCRT - Centre de Calcul Recherche moins, le résultat de l’algorithme est dépendant des validité qui s’appliquent aux équipements constituants et Technologie : www-ccrt.cea.fr données en entrées et ce qui sera appris sur COBALT ces infrastructures. En ligne de mire : réaliser des Tera1000 n’est pas généralisable pour l’exploitation d’autres économies et améliorer les indicateurs d’efficacité www-hpc.cea.fr/fr/complexe/tera.htm supercalculateurs comme Tera1000 ou Joliot-Curie : énergétique du centre de calcul. il faut refaire une rapide phase d’apprentissage pour Joliot-Curie adapter les prédictions à l’usage et aux caractéristiques Ces différents exemples illustrent bien l’apport de www-hpc.cea.fr/fr/complexe/ propres de chaque calculateur. l’apprentissage machine et, plus largement, de l’intel- tgcc-JoliotCurie.htm ligence artificielle dans l’optimisation des supercalcu- Dans le même ordre d’idée, on peut utiliser un réseau lateurs. Ils s’inscrivent naturellement dans les travaux TGCC - Très Grand Centre de calcul du CEA profond de neurones à pour prédire pré- que nous menons dans le cadre de la chaire « Industrial www-hpc.cea.fr/fr/complexe/tgcc.htm cisément la durée de vie d’un fichier (le temps entre sa Data Analytics & Machine Learning » hébergée au sein création et sa destruction), en connaissant uniquement de l’ENS Paris-Saclay.

42 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs données géophysiques Voyage aucœurdes réparties sur tout le globe. Ces signaux sont analysés analysés sont signaux Ces globe. le tout sur réparties sismiques stations de réseau d’un provenant signaux les notamment d’informations, milliers des reçoit DASE du données de national Centre le jour, Chaque de formaliser a besoin priori un modèle ou des règles. le avoir sans et prévisionnelles, ou décisionnelles fins des à souvent données, des partir à directement l’information extraire à consistent qui approches l’activité sismique, a rapidement pris la mesure de ces de surveillance la est missions des une dont (DASE), Environnement Surveillance Analyse Département leCEA, du militaires applications des Direction la À learning. machine le artificielle, l’intelligence de entière part à d’étude champ d’un l’objet faire jusqu’à incontournables, devenues progressivement sont permettantautomatiquement ’exploiter les de Clefs -#69Les voix de larecherche apprendre àexplorer. ces donnéesaccumulées aufildesannéessontunemined’orqu’ilfaut sanscesse enregistrent les pluspetits mouvements dusol,desocéans etdel’atmosphère. Toutes Le CEAprend encontinu le poulsdelaTerre àl’aide d’unréseau decapteurs qui À Fig. 1 : Fig. Institutions for Seismology) Institutions for Seismology) (Incorporated Research disposition parl’IRIS données sismiquesmisesà GSN Évolution des des Évolution et stockées, et les méthodes statistiques statistiques méthodes les et stockées, et de données ont été générées exponentielle quantitéune informatiques, moyens des progrès le avec 90, années des fin la Portable (PASSCAL, SEIS-UK,OBSIP, SISMOB 100 200 300 400 500 600 Tebibytes 0

92 93 94 95 EarthScope 96 97 98 99 FDSN gramme du signal enregistré (puissance à chaque à (puissance enregistré signal du gramme les différentes ondes sismiques en utilisant le spectro- L’objectif était alors de reconnaître automatiquement 1995. à remonte applications premières des L’une du machinelearning. pour mettre en activement œuvre des traitements issus engagés’est DASE le numériques, signaux de ans 40 de plus et sismiques événements 000 500 de plus aujourd’hui regroupant données de base sa de Fort pertinentes. informations les extraire pour pensable detraitements indis- devenu donc est automatiques développement Le accomplir. à mission la complexe plus en plus de rendant 1), (Fig. traiter à données de augmentation forte une provoqué a surveillance de réseau du densification la années, des fil Au base dedonnées. une dans sauvegardés sont puis nucléaires, d’essais ou tsunamis de séismes, forts de cas en autorités lesrapidement d’alerter afin systématiquement 00

01 IRIS DMTArchive asof1September2019-557.3tebibytes (TiB) 02 03 International 04 05 06 07

US Regional 08 09 10 11 12

Engineering 13 14 15 16 17 Other

18 CALCUL 19

Source : http://ds.iris.edu/files/stats/data/archive/Archive_Growth.jpg environnement) duCEA. surveillance, et aléas(Départementanalyse, au Laboratoire étudesgéophysiques Clara Duverger estingénieure-chercheure environnement) duCEA. surveillance, (Département analyse, simulation deseffets danslagéosphère mathématiques appliquéesauLaboratoire Christophe Milletestexpert senioren environnement) duCEA. surveillance, géophysiques (Départementanalyse, détection etexpertise desévénements Pierre Gaillard estingénieurauLaboratoire (Direction desapplicationsmilitaires) • CLARA DUVERGER CLARA CHRISTOPHE MILLET ET PIERRE GAILLARD, PAR LES DOMAINES D L’intelligence artificielle-

’ APPLICATION

43 LES DOMAINES D’APPLICATION CALCUL

Pn Sn Sg fréquence en fonction du temps). Pour répondre à ce méthodes d’apprentissage avec la physique des problème de classification, le DASE a développé modèles développés par les experts du domaine. un réseau de neurones similaire à celui proposé par Un exemple récent concerne les modèles climatiques Y. LeCun en 1990 pour la reconnaissance de chiffres utilisés au DASE pour connaître l’état de l’atmosphère dans une image (Fig. 2). Après avoir réalisé l’appren- à un instant donné - une information essentielle tissage du réseau en utilisant la base de données lorsqu’on cherche à simuler les effets d’événements sismiques, celui-ci a obtenu un taux de réussite de atmosphériques (explosions, météorites...). Ces 70 %, ce qui était déjà très encourageant ! Plus tard, modèles requièrent des ensembles de paramètres des architectures plus modernes de réseaux, dits choisis a priori pour représenter certains phénomènes convolutionnels, ont été mises en œuvre afin d’améliorer aléatoires, comme l’effet de la turbulence. En collabo- Pn Sn ... les performances. ration avec l’École normale supérieure de Paris, le DASE propose ainsi d’utiliser un réseau de neurones Dès lors, le DASE n’a eu de cesse d’imaginer des outils convolutionnel pour déterminer leurs paramétrisations pour exploiter toute la richesse de sa base de données. (Fig. 3). Ces derniers sont entraînés à partir des Fig. 2 : à partir du foyer, les ondes sismiques Ainsi, un système opérationnel a été développé en signaux d’événements infrasonores détectés, caracté- se propagent dans toutes les directions, 2006 afin d’aider les analystes à classer les événements risés et sauvegardés dans la base de données du DASE. mais à des vitesses différentes en fonction des sismiques selon leur nature (tremblement de terre, couches terrestres rencontrées. Ainsi, un seul explosion nucléaire, tir de carrières…). Ce système Suivant cette nouvelle méthodologie, de nombreux outils de simulation (utilisés pour l’aléa sismique, la événement sismique génère un signal complexe d’aide à la décision fusionne un ensemble de classifieurs tomographie de la Terre ou la propagation et les effets formé d’un « train d’ondes » dont la automatiques (réseau de neurones, machines à support de vecteurs…) pour proposer une classe des ondes) pourraient être prochainement revisités à caractérisation permet de renseigner sur d’événement (97 % de bonne classification) et mettre l’aide de l’intelligence artificielle et aboutir ainsi à une la nature et la localisation de l’événement. également en avant les événements d’intérêt les plus bénéfique synergie entre les connaissances retrans- Le signal enregistré (haut) est converti difficiles à analyser. crites dans les modèles physiques et celles extraites en spectrogramme (milieu) et celui-ci automatiquement des bases de données de plus en est utilisé comme entrée d’un réseau Désormais, le défi à relever est de combiner ces plus riches. de neurones (bas) entraîné pour reconnaître l’onde sismique présente (Pn, Sn...).

LMDz, moyenne LMDz, moyenne LMDz, quantiles LMDz, quantiles

270 260 250 Pour aller plus loin 240 230 CHOCS, Détection des essais nucléaires

- À l’écoute du globe / N°50 - (K) Température 220 Décembre 2019, (à paraître) 210 http://www-physique-chimie.cea. fr/science-en-ligne/chocs.html 200 Apprentissage statistique : Christopher 190 M. Bishop. 2006. 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 and Machine Learning (Information Mois Mois Science and Statistics). Springer- Verlag, Berlin, Heidelberg, https://www.microsoft.com/en-us/ research/uploads/prod/2006/01/ Fig. 3 : Évolution de la température au point de latitude 80° (Nord), à l’altitude de 40 km intégrée le long de la longitude. Les observations Bishop-Pattern-Recognition-and- sont indiquées par les lignes noires et les tendances simulées avec le modèle LDMz sont en couleur: (gauche) en utilisant la paramétrisation Machine-Learning-2006.pdf a priori du modèle (droit) en utilisant celle obtenue par un réseau de neurones entraîné sur les données observées. Lorsque la simulation et l’IA sont combinées, les résultats s’en trouvent améliorés.

44 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs PERSPECTIVES

• YANN LECUN

Yann LeCun, lauréat du prix Turing 2018, est vice-président et Chief AI Scientist de Facebook. Il enseigne également à l’Université de New York (NYU).

• ÉTIENNE KLEIN (Direction de la N’ayons pas peur recherche fondamentale) du Terminator ! Étienne Klein est philosophe Quatre questions à Yann LeCun (Facebook) par Étienne Klein des sciences. Il dirige le Laboratoire de recherches sur les sciences de la matière On dit souvent de l’intelligence qu’elle est « l’ensemble des et sort de la salle », vous êtes capable de visualiser la (Institut de recherche sur les lois processus de pensée d’un être vivant qui lui permettent de séquence - il tend le bras pour prendre son sac, s’en saisit, comprendre, d’apprendre ou de s’adapter à des situations marche vers la porte, ouvre la porte et sort ; les machines, fondamentales de l’Univers) du CEA. nouvelles ». Quelle est votre propre définition de l’intelli- non ! Elles n’ont aucune connaissance du monde réel mais gence ? Et est-elle identique selon qu’on parle d’intelligence elles en disposeront un jour. Nous arriverons à ce qu’on humaine ou d’intelligence artificielle ? appelle l’Artificial General Intelligence, c’est-à-dire des machines égales à l’homme, aussi intelligentes que lui. Il n’existe pas de très bonne définition de l’intelligence mais on pourrait dire qu’il s’agit de la capacité d’acquérir Justement, doit-on en avoir peur ? et d’appliquer des connaissances et des compétences pour atteindre un but précis. Ce n’est pas l’intelligence On peut en avoir peur ou pas mais si vous parlez de prise elle-même qui nous dicte ce but, elle nous en donne de contrôle du monde par les machines, je crois que nous “Don’t fear seulement les moyens. De même, on peut parler dramatisons ! Nous avons tendance à confondre the Terminator” d’intelligence pour les espèces biologiques et animales intelligence et domination, ce qui est compréhensible car, qui s’adaptent du mieux qu’elles peuvent aux variations au cours du temps, les humains ont utilisé leur intelligence Anthony Zador & Yann LeCun, Scientific de leur environnement. pour asseoir leur domination sociale ; de même que des American, Sept. 26, 2019 cornes, des griffes acérées ou encore des ailes facilitent la https://blogs.scientificamerican.com/ Plutôt que d’intelligence artificielle, expression qui a survie de bien des espèces animales. Les systèmes IA observations/dont-fear-the-terminator/ intégré le langage commun aujourd’hui, je préfère parler n’étant pas confrontés à l’épreuve de la sélection naturelle, d’intelligence machine ou d’intelligence des machines. ils n’auront pas besoin d’élaborer de stratégie de survie. Et Aujourd’hui, celles-ci peuvent être entraînées à effectuer comme intelligence et survie ne sont pas liées, l’intelligence des tâches très précises mais elles n’ont pas l’intelligence se concentrera sur les objectifs que nous lui aurons de faire autre chose ; autrement dit, elles n’ont pas de sens assignés. commun et ne relient pas ce qu’elles font à la réalité du monde. Par exemple, si je vous dis « Pierre prend son sac Donc je l’affirme : n’ayons pas peur du Terminator !

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 45 POSTFACE

En sommes-nous loin aujourd’hui ? tout en réduisant drastiquement le nombre de calculs. C’est le cas, par exemple, en chimie pour prédire les Pour l’instant, nous en sommes très loin, à la fois propriétés de certaines molécules ou en physique pour scientifiquement et technologiquement ! Même si des simuler les premiers mois de l’Univers. Mais ils ne se machines peuvent déjà créer des compositions de sons substituent en rien à la théorie, qui reste un pilier de ou d’images (ces dernières n’étant, après tout, qu’un la science. assemblage de pixels), elles restent incapables de manipuler et a fortiori de créer des concepts ! Si, comme vous le dites, les ordinateurs, un jour, sont aussi intelligents que nous, pensez-vous qu’ils Autre exemple, celui d’AlphaZero : s’il peut battre le éprouveront également de la douleur, de la joie, de meilleur joueur de go du monde, c’est parce qu’on a l’empathie… Bref, des émotions humaines ? « Les machines ne seront entraîné ses réseaux de neurones avec des milliers et des milliers de parties, bien plus qu’un être humain Absolument ! Les machines ne seront plus prédétermi- ne pourrait en jouer durant sa vie entière ! C’est sa nées comme aujourd’hui. En éprouvant des émotions plus prédéterminées capacité à traiter très rapidement un volume ou de l’empathie, elles gagneront en autonomie et vertigineux de données qui lui confère son efficacité, comme aujourd’hui. disposeront d’une liberté d’action qui est aujourd’hui donc sa « maîtrise » du jeu. En éprouvant des une des pierres angulaires de l’intelligence humaine. Dans le domaine de la recherche, on utilise déjà de Si vous aviez un assistant virtuel pour gérer votre émotions ou de l’empathie, grandes quantités de données pour dégager des vie, ne serait-il pas plus efficace en éprouvant des modèles phénoménologiques qui aident à identifier émotions, par exemple de l’inquiétude lorsque vous elles gagneront en les descriptions les plus proches de ce qu’on observe, êtes vraiment en retard ? autonomie et disposeront d’une liberté d’action qui est aujourd’hui une des pierres angulaires de l’intelligence humaine. »

46 - L’intelligence artificielle Les voix de la recherche - #69 - Clefs INFORMATION / ABONNEMENTS

#70

À DÉCOUVRIR EN MARS 2020 #69 NOVEMBRE 2019 SACREES MATHEMATIQUES !

Clefs CEA N° 69 - Novembre 2019

Revue éditée par le CEA Direction de la communication Bâtiment Siège 91 191 Gif-sur-Yvette Cedex - FR Tél. : (+33) 1 64 50 10 00

Directeur de la publication Marie-Ange Folacci

Rédacteur en chef Laetitia Baudin [email protected]

Comité éditorial Cécile Castille, Étienne Klein, Sophie Martin, Éric Proust, Yves Samson Gérard Sanchez

Iconographie Thinkstock, Getty Images, Wikipedia « Intelligence artificielle et imitation Abonnement humaine » : suivez en ligne L’abonnement à la revue Clefs CEA la masterclass de Cédric Gouy-Pailler ! (version papier) est gratuit. Les demandes d’abonnement Cette masterclass a été enregistrée à l’École Polytechnique le 12 novembre 2019 doivent être adressées, de préférence http://bit.ly/masterclass-IA par Internet, à l’aide du formulaire disponible à l’adresse : www.cea.fr ou en adressant un mail à [email protected]

À l’exclusion des illustrations, la reproduction totale ou partielle des informations contenues dans ISSN 0298-6248 ce numéro est libre de tous droits, sous réserve de l’accord de la rédaction et de la mention d’origine. Dépôt légal à parution

Abonnement gratuit ou commande au numéro : [email protected] Réalisation Cet exemplaire ne peut être vendu. Agence Heidi www.agence-heidi.fr © 2019 CEA RCS Paris B 775 685 019 Impression Siège social : Bâtiment Le Ponant D, Imprimerie de la Centrale - Lens 25 rue Leblanc, 75015 Paris Imprimé sur papier recyclé.

Clefs - #69 - Les voix de la recherche L’intelligence artificielle - 47 Pour en savoir plus ou retrouver tous les dossiers thématiques

www.cea.fr

Abonnez-vous ! http://newsletters.cea.fr/contact