Annonce

Ce document regroupe la partie de recherche académique réalisée dans le cadre de mon mémoire de recherche appliquée. Cette version est anonymisée à l’égard de l’entreprise avec laquelle j’ai collaboré, vous ne retrouverez pas d’informations relatives à cette dernière au sein des écrits suivants.

2 Remerciements

Avant d’entamer ce mémoire, je tiens à remercier sincèrement l’ensemble des personnes m’ayant aidé à réaliser ces écrits qui concluent mon parcours académique au sein de emlyon .

Dans un premier temps, je souhaite remercier Teresa COOPER - professeur à et directrice de mon mémoire – pour son investissement, son suivi, sa confiance et son implication dans la rédaction de ce projet.

Je tiens tout particulièrement à remercier les universitaires et professionnels, que j’ai pu interviewer au cours de ce mémoire, pour leurs éclairages avisés qui ont fortement contribué à développer ma réflexion à l’égard de ma problématique et plus important encore, d’enrichir mes connaissances personnelles du sujet.

Un grand merci à Alexandra RUILLIER (consultante chez Wavestone), Clément LEVALLOIS (professeur à emlyon business school), Guillaume SORLIN (consultant chez Pramana), Léa BORY (data insight strategist chez 65db), Robert REVAT (professeur à emlyon business school) et Taha ZEMMOURI (data scientist et fondateur de data genius) pour la richesse de nos échanges.

Je remercie également l’équipe du makers’ lab de emlyon business school et plus précisément les professeurs de la spécialisation « Creative technologist » pour leur influence positive sur mon parcours académique et leur passion universitaire. Je leur suis très reconnaissant de m’avoir fait (re)découvrir le milieu des hautes technologies, secteur dans lequel je poursuivrai mon parcours académique l’an prochain à ESCP business school.

3 Sommaire exécutif

Les organisations sont aujourd’hui confrontées à un déluge de données. Ces dernières sont « augmentées » en termes de volumétrie, de variété, de vélocité et finalement plus difficile à valoriser. L’enjeu principal de cette abondance informationnelle tient dans la capacité des institutions à pouvoir créer de la connaissance à partir d’ensembles de données toujours plus complexes.

L’objectif de ce mémoire de recherche appliquée est de fournir au lecteur une introduction (conceptuelle et relativement peu technique) à la discipline permettant d’exploiter ces flux informationnels, à savoir la science des données et plus précisément d’identifier les cas d’usages possibles de cette science au sein des départements marketing. Ma problématique de recherche vise à déterminer « la mesure dans laquelle la science des données et plus particulièrement la branche de l’intelligence artificielle (I.A) entraîne une refonte de la discipline du marketing ».

L’exploration académique que j’ai menée et synthétisée dans ma revue de littérature m’a permis de conceptualiser la science des données et ses sous-disciplines – dont l’I.A fait partie. Il en ressort qu’il s’agit d’une discipline académique et plus précisément d’une science visant à apprendre à partir d’ensembles de données. Au-delà de cette définition « théorique », cette science est un agrégat de compétences articulées autour des mathématiques/statistiques, des expertises métiers et du « hacking » dans le sens de la dextérité informatique.

Concernant la branche de l’I.A, mon exploration académique a mis en lumière le fait que le monde universitaire considère, aujourd’hui, ces entités comme étant spécialisées. En d’autres termes, l’I.A ne dispose pas d’une intelligence généralisable, mais bien plus d’une expertise de haut niveau dans un domaine donné.

Les travaux que j’ai étudiés dans ma revue de littérature m’ont permis d’établir un état de l’art des synergies existantes entre science des données et marketing. Il en ressort une tendance clairement identifiable : La combinaison de ces deux disciplines vise à générer de la connaissance client à grande échelle, et ce de façon individualisée. En somme, la science des données et donc l’I.A permettent d’atteindre un marketing « augmenté » où la prise de décision peut être automatisée et individualisée.

Pour répondre à ma question de recherche, j’ai enrichi mon exploration académique avec une étude qualitative (entretiens semi-directifs) et quantitative (étude documentaire). J’ai eu l’opportunité d’explorer mon sujet avec des experts de la science des données et du marketing. Lors de l’extraction des observations récoltées au cours de ces deux phases, j’ai pu constater que les données se corroboraient et que les milieux académiques et professionnels attribuent à la science des données un objectif commun : celui de la création de connaissances et finalement de l’aide à la prise de décisions. Dans une optique plus orientée marketing, cet objectif se traduit par une personnalisation de l’ensemble des variables du marketing mix et une amélioration de l’expérience client.

Une dimension prépondérante de ce mémoire tient dans l’éthique de la science des données et plus particulièrement de sa combinaison avec la discipline marketing. J’utilise le néologisme de « datasagesse » pour me référer à cette idée conductrice de mon mémoire. À nouveau, les

4 différentes observations auxquelles j’ai été confrontées convergent puisque l’éthique s’est révélée être omniprésente dans les travaux académiques que j’ai consultés et au cours des entretiens que j’ai menés. Plus précisément, les enjeux de liberté individuelle, de sécurité des données et de vie privée se sont manifestés être les défis les plus considérables.

5 Table des matières

REMERCIEMENTS ...... 2 SOMMAIRE EXECUTIF ...... 4 TABLE DES MATIERES...... 6 INTRODUCTION ...... 8 I. REVUE DE LITTERATURE : SCIENCE DES DONNEES ET MARKETING, QUELLES SYNERGIES ? ...... 10

1. DELUGE DE DONNEES ET SUPERORDINATEURS : LES FONDEMENTS DE LA SCIENCE DES DONNEES ?...... 10 1.1. Une approche historique ...... 10 1.2. La science des données : la réunion des statistiques et de l’informatique ...... 11 1.3. L’abondance des données : L’origine de la science des données ? ...... 12 1.3.1. Les données sont-elles réellement le nouvel or noir ? ...... 13 1.3.2. Typologie des données et 5V du « big data » ...... 13 1.3.3. Infrastructures de stockage et de traitement des données ...... 18 1.3.4. La science des données et l’I.A sont-elles possibles avec la frugalité des données et de la puissance ? .. 19 1.4. Intelligence artificielle : Le fantasme (actuel) de la généralisation ...... 19 1.5. L’intelligence artificielle aujourd’hui : Une « entité » spécialisée...... 20 1.5.1. Intelligence Artificielle « faible » ...... 21 1.5.2. Intelligence Artificielle « hybride »...... 21 1.6. Taxonomie de l’intelligence artificielle : De l’input vers l’output ...... 21 1.6.1. Machine learning ...... 22 1.6.1.1. Apprentissage supervisé ...... 22 1.6.1.2. Apprentissage non supervisé ...... 23 1.6.1.3. Apprentissage semi-supervisé ...... 25 1.6.1.4. Apprentissage par renforcement...... 25 1.6.1.5. Apprentissage profond ...... 25 1.6.2. Vision par ordinateur ...... 27 1.6.2.1. Classification ...... 28 1.6.2.2. Détection / segmentation d’objets ...... 29 1.6.2.3. Segmentation sémantique...... 30 1.6.3. Traitement du langage naturel ...... 32 1.7. L’intelligence artificielle : De simples outils de classification et de régression ? ...... 33 1.7.1. Les approches les plus exploitées : Classification et régression ...... 34 1.7.2. L’intelligence artificielle devient créative...... 35 1.8. Une définition claire de la science des données ?...... 36 1.8.1. État de l’art de la discipline ...... 36 1.8.2. Un potentiel prométhéen...... 38 2. LA PUISSANCE DE LA SCIENCE DES DONNEES AU SERVICE DES MARKETEURS...... 39 2.1. L’intelligence artificielle et le marketing : État des synergies entre ces deux domaines ...... 39 2.2. Comment collecter les données nécessaires à l’activité marketing ?...... 43 2.2.1. Collecte directe et indirecte ...... 43 2.2.2. Data broker ...... 44 2.2.3. Les données : un actif identifiable ? ...... 44 2.3. Les cas d’usages et les outils de la science des données associés : comprendre et prédire ...... 45 2.3.1. Empathie marketing : comprendre le marché et le consommateur...... 45 2.3.1.1. Social Listening : NLP ...... 46 2.3.2. Analyse du parcours client ...... 46 2.3.2.1. IOT ...... 47 2.3.2.2. Vision par ordinateur ...... 47 2.3.2.3. Analyse « online » ...... 49 2.3.3. Développer la relation marque-consommateur ...... 49 2.3.3.1. Chatbots ...... 49 2.3.3.2. Assistants virtuels : NLP / NLU / NLG ...... 50 2.3.4. Comprendre sa marque : analyser son image ...... 51 2.3.4.1. NLU, analyse de sentiment et speech recognition ...... 51

6 2.3.4.2. Vision par ordinateur ...... 53 2.3.5. La science des données appliquée au marketing mix ...... 54 2.3.5.1. Produit ...... 54 2.3.5.2. Prix ...... 55 2.3.5.3. Communication ...... 55 2.3.5.4. Distribution ...... 57 2.4. Science des données actuelles et marketing de demain : où concentrer nos efforts ? ...... 59 2.4.1. Créativité, empathie et stratégie ...... 59 2.4.2. Formation des marketeurs à la science des données ...... 60 2.4.3. Considérer les limites de la science des données ...... 61 2.4.3.1. Prérequis : Une certaine volumétrie et qualité de données ...... 61 2.4.3.2. Besoins : Éviter de faire de l’I.A pour faire de l’I.A, les cas d’usages ...... 62 2.4.3.3. Éviter un nouvel « hiver de l’I.A » : les précautions à prendre...... 64 2.5. La science des données, le marketing, ses synergies : quelle éthique ? ...... 65 2.5.1. Un marketing chirurgical, moins accablant, mais plus intrusif ...... 65 2.5.2. Influence ou manipulation : une frontière floue ...... 66 2.5.3. Garantir la sécurité des données, garantir la sécurité des individus ...... 68 2.5.4. Les biais en science des données : « I-methodology »...... 70 METHODOLOGIE...... 71

1. DESCRIPTION GENERALE DE LA METHODOLOGIE ...... 71 2. LES OUTILS SERVANT CETTE METHODOLOGIE DE COLLECTE DE DONNEES ...... 71 2.1. Étude qualitative ...... 71 2.1.1. Population interviewée ...... 72 2.2. Étude quantitative ...... 72 2.2.1. Étude documentaire ...... 72 RESULTATS ...... 73

1. PRESENTATION DES RESULTATS DES ENTRETIENS SEMI-DIRECTIFS ...... 73 1.1. Dimension marketing...... 73 1.2. Dimension science des données ...... 78 2. PRESENTATION DES RESULTATS DE LA RECHERCHE DOCUMENTAIRE ...... 85 2.1. État de l’adoption de l ‘I.A ...... 85 2.2. La valeur ajoutée de l’I.A pour la discipline marketing...... 87 CONCLUSION ...... 91 BIBLIOGRAPHIE ...... 92 ANNEXES...... 101

7 Introduction

Nous sommes entrés dans l’ère de l’information exponentielle. Selon IBM, l’année 2020 devrait être marquée par un taux de doublement de nos « connaissances » toutes les douze heures. Pour appréhender cette croissance gigantesque, il suffit de la comparer avec celle qu’avait estimé R. Buckminster en 1945. Selon ce dernier, les connaissances doublaient en accord avec un cycle de vingt-cinq ans. Nos capacités à produire des données, qui, rappelons-le, ne peuvent pas toujours être considérées comme des connaissances, se sont donc retrouvées multipliées au-delà du raisonnable.

Dès lors, nos nations, entreprises, chercheurs et plus trivialement nos concitoyens se retrouvent submergés par des ressources infinies lorsqu’elles sont prises à l’échelle individuelle. Il devient très vite tentant de conduire des projets d’ampleur prométhéens dans les domaines constituant nos sociétés. Pour autant, la greffe prendra-t-elle entre ces systèmes et sociétés - nés de périodes où la quantité d’information était à dimension humaine - et ces nouvelles ressources ? Plus important encore, si cette « union » aboutie, quels en sont et seront les coûts ?

Il serait incongru d’approcher cette révolution de la connaissance avec pessimisme et inquiétude, toutefois, il demeure important de (re)créer des garde-fous adaptés à l’ « âge de la connaissance » (Idriss ABERKANE). Pour reprendre les dires de Isaac ASIMOV, relayés par Idriss ABERKANE (Docteur en neuroscience), « Une civilisation qui produit beaucoup de connaissance et peu de sagesse est vouée à l’extinction. ». L’idée même de cette citation ainsi que son sous-jacent prennent une importance cruciale dans une période où la science des données et plus vulgairement l’Intelligence Artificielle connaissent un regain d’intérêt pour des entités gouvernementales et privées. Comme l’a souligné Vladimir POUTINE lors d’une intervention télévisée, la nation qui deviendra le leader en termes d’intelligence artificielle, sera maître du monde.

Au-delà des propos, somme toute légèrement catastrophistes, prononcés par le dirigeant russe, nous percevons que la science des données représentent un réel enjeu et ce sur de nombreux plans (santé, militaire, industries et bien d’autres). Les opportunités sont et seront nombreuses, tout comme les menaces.

Le sujet de la science des données et plus largement de la connaissance sont bien trop large et mouvant pour être pleinement exploités dans ce mémoire. C’est pourquoi je concentrerai ce travail sur la mesure dans laquelle la science des données et plus particulièrement la branche de l’intelligence artificielle entraîne une refonte de la discipline du marketing. Ce mémoire s’inscrit dans un sujet où les connaissances évoluent de jour en jour. Mon ambition est donc de partager avec vous un « état de l’art », si éphémère soit-il, des apports de technologies de science des données au sein de la discipline du marketing. J’insiste sur le fait que ce devoir s’inscrit dans un contexte dynamique dans la mesure où comme le souligne le célèbre chercheur en intelligence artificielle (I.A) Yann LECUN, les experts dans ce domaine seront amenés à changer radicalement de paradigme pour maintenir la pérennité de l’I.A. En somme, les « connaissances » exposées dans ce mémoire ainsi que les travaux sur lesquelles je m’appuie sont le fruit d’un paradigme donné qui, je l’espère pour le dynamisme de la recherche en I.A, évoluera.

8

La construction de mon devoir se veut simple et vise à fournir une définition claire de la science des données, à explorer les technologies utilisées dans ce domaine et enfin à appréhender les différents cas d’usages possibles de ces dernières en marketing. Bien entendu, ce mémoire explore également une composante primordiale de la science des données : La question de l’Homme. En effet, au-delà de la découverte du « Marketing à l’ère de l’I.A » (Harvard Business Review, 2019) et de ses avantages indéniables, nous explorerons les questions éthiques soulevées par ces disciplines et découvrirons les écueils à éviter et les chemins souhaitables d’emprunter.

En somme, vous pouvez considérer, pragmatiquement, ces écrits comme une initiation, non technique, à la science des données et à ses applications possibles au sein de la discipline du marketing. Toutefois, le fil rouge de ce devoir réside dans l’objectif de créer, pour reprendre le néologisme « neurosagesse » mis en en avant par I. ABERKANE, un mémoire de « datasagesse ».

9 I. Revue de littérature : Science des données et marketing, quelles synergies ?

Cette partie dédiée à la revue de littérature a pour objectif de garantir au lecteur une compréhension relativement exhaustive (à un instant t) de la discipline de science des données et des liens établis entre cette discipline et le marketing. Plus précisément, j’ai subdivisé la partie de ce devoir en deux grands ensembles s’intéressant respectivement à l’ « ontologie » de la science des données et aux cas d’usages possibles au sein de l’univers marketing. Bien entendu, comme évoqué dans mon introduction, les découvertes en science des données sont légion, par conséquent, « l’assemblage » de connaissances que vous retrouverez dans les paragraphes suivants n’est en aucun cas immuable.

1. Déluge de données et superordinateurs : Les fondements de la science des données ?

Dans un premier temps, il me semble nécessaire de nous intéresser à l’avènement de la science des données. Certaines théories relèguent l’existence des mathématiques à la simple découverte « naturelle », en d’autres termes, les maths seraient une discipline de la nature, non développée par l’Homme (Eugene WIGNER, 1960) voire le langage de l’univers. La science des données, au contraire, présente tous les attributs d’une expertise inhérente à l’activité humaine. Il est alors légitime de s’interroger sur les racines mêmes de la discipline.

1.1. Une approche historique

Les fondements de la science des données s’appuient sur des « sciences dures », plus précisément, sur des mathématiques et des statistiques comme nous le verrons dans la partie suivante. Dès lors, l’origine de la science des données trouverait son origine dans des disciplines découvertes plusieurs millénaires avant notre ère.

Toutefois, le terme de « Data Science » a été révélé au monde très récemment à l’échelle de l’humanité. En effet, cette discipline a émergé une première fois au sein du milieu universitaire français en 1992, plus précisément lors d’un colloque Franco-Japonais dédié aux statistiques se tenant à l’université Montpellier II. Ce premier événement notable a été le premier pas vers une définition du paradigme de la science des données.

L’appellation « Data Science » prit une réelle importance théorique en 2001 lorsque William Cleveland prit la décision de publier un article intitulé « Data Science : An Action Plan for Expanding the Technical Areas of the Field of Statistics ». Cet article modélise essentiellement la transition du monde des statistiques et du « data mining » vers celui de la « Data Science ». Plus précisément, cet article souligne le fait que cette nouvelle discipline est avant tout analytique et doit permettre de dégager des connaissances des données.

Toujours dans une optique historique, il est aisé de remarquer que l’avènement du paradigme de la science des données suit l’émergence du WEB 2.0, dès lors, il devient légitime de s’interroger sur la corrélation entre l’évolution technologique de nos infrastructures et le développement de la « Data Science ».

10

1.2. La science des données : la réunion des statistiques et de l’informatique

L’avènement de la science des données s’est paradoxalement accompagné d’une « marginalisation » voire d’une opposition entre les statistiques que l’on pourrait classifier de « classiques » et les nouvelles méthodes statistiques « dopées » à la puissance algorithmique. On peut illustrer cette opposition grâce à l’article de Leo BREIMAIN, statisticien américain de renom, qui oppose frontalement les modèles statistiques ordinaires (stochastiques) et les modèles algorithmiques dans son article fondateur « Statistical Modelling : The two culture », 2001. Pour Leo BREIMAN, les statistiques doivent concentrer leurs efforts sur les données et les questions soulevées par ces mêmes données et non pas sur les « modèles » qui peuvent conduire nos analyses à être erronées. En somme, cet article souligne le fait qu’à l’origine des statistiques et plus largement des sciences, on retrouve la confrontation entre données et théories. Les outils doivent évoluer, embrasser les évolutions technologiques et ce y compris si l’interprétabilité s’en retrouve réduite.

Les schémas ci-dessous, tirés de l’ouvrage de BREIMAN, illustre cette volonté de passer de modèles statistiques « connus » et éprouvés pour transformer les « input » en « output » à des modèles plus complexes dont les décisions semblent difficilement interprétables, mais plus efficaces.

1

Dès lors, l’émergence de la science des données et le chemin que la recherche suit dans ce domaine semblent donner raison aux thèses de BREIMAN. La discipline des statistiques a retrouvé ses racines et a su recentrer ses efforts sur les challenges offerts par les quantités de données exponentielles disponibles. Plus précisément, les approches algorithmiques se sont imposées comme les fleurons de la science des données de par leur capacité à générer des résultats extrêmement précis. Cette domination et sa faisabilité s’expliquent notamment par le fait que la puissance de calcul à disposition des individus a explosé, nous disposons désormais de CPU (central processing unit) et GPU (graphics processing unit) très puissants permettant de construire des superordinateurs, dont la puissance, se mesure en exaFLOPS (gigaFLOPS = 109, exaFLOPS = 1018). Parallèlement à cette augmentation de nos capacités de traitement des données, s’est développé notre capacité de stockages et la chute des prix associée ces mêmes technologies.

1 Leo BREIMAN (2001), Statistical modelling : the two culture, Statistical Science, Vol. 16, No. 3

11 Il est permis de s’interroger sur la « légitimité » de la popularité de la science des données face aux statistiques « classiques ». L’article de David DONOHO intitulé « 50 years of Data Science »2 souligne cet aspect en comparant les définitions de statistiques et de « data science ».

« “Data Scientist” means a professional who uses scientific methods to liberate and create meaning from raw data. » (David DONOHO, 2017)

« “Statistics” means the practice or science of collecting and analyzing numerical data in large quantities. » (David DONOHO, 2017)

Il apparaît des similarités évidentes entre ces deux disciplines, et ce notamment en termes d’objectifs. Toutefois, réduire la science des données à un « rebranding » des statistiques serait une erreur de simplification voire de la malhonnêteté académique. En effet, cette nouvelle science englobe un ensemble très large de sous disciplines – dont les statistiques - plus complexes les unes que les autres. Nous explorerons ces particularismes dans une partie dédiée à la taxonomie de la science des données.

À ce stade du mémoire, nous pouvons définir partiellement la science des données comme étant un paradigme émergeant de l’union des statistiques et de techniques informatiques. La « data science » prend tout son sens grâce à nos volumes de données qui ont été démultipliés au cours des dernières années. IBM estimait en 2012 que 90% de l’ensemble des données disponibles avait été généré sur une période de 2 ans (cette tendance ne fait que s’accentuer). La science des données découle donc en partie de l’avènement du « big data » et des révolutions technologiques qui lui sont associées. L’objectif de cette science nouvelle demeure le même que celui des statistiques, à savoir, extraire des connaissances à partir d’un ensemble de données. La différence principale entre statistiques « classiques » et science des données tient dans la capacité de cette dernière d’extraire des connaissances d’ensembles de données complexes dont nous analyserons la typologie dans la partie suivante.

1.3. L’abondance des données : L’origine de la science des données ?

Les pensées les plus populaires à l’égard de la science des données et plus précisément de « l’intelligence artificielle » considérèrent ces mêmes technologies comme corollaire de l’avènement du « big data ».

Tout d’abord, je tiens à insister sur le fait que le concept même de « big data » n’est pas universel, en effet, il s’agit d’un concept lié à la situation et à la structure même d’une organisation. Pour aller plus loin, le professeur Clément LEVALLOIS, responsable de la chaire Implid à emlyon business school estime que ce concept est relatif au temps et à l’industrie.

Le concept de « mégadonnées » peut-être considéré comme le seuil à partir duquel une entité (entreprise, gouvernement, individu) n’est plus en mesure de gérer la quantité de données

2 David Donoho (2017) 50 Years of Data Science, Journal of Computational and Graphical Statistics

12 générée par son activité. Au-delà de cette dimension quantitative, le sous-jacent de ce concept implique le développement des capacités de traitement et de stockage des données générées.

Le lien entre le développement de la science des données et l’explosion des volumes d’informations est indéniable, toutefois, il est tout à fait pertinent de s’interroger sur la dépendance de cette nouvelle science à l’égard des volumes gargantuesques de données disponibles.

1.3.1. Les données sont-elles réellement le nouvel or noir ?

Fréquemment, le sujet de la science des données est mis en avant dans les médias. La simplification retrouvée dans de nombreux articles veut que l’on parle d’ « Intelligence Artificielle » alimentée par « le nouvel or noir ». Cette analogie est trompeuse, en effet, les volumes de données dont nous disposons ne possèdent en aucun cas les mêmes attributs que l’énergie fossile qu’est le pétrole. Le simple fait de vouloir traiter ces ressources de la même manière reviendrait à exploiter de manière sous optimale les données.

Tout d’abord, il me semble nécessaire d’aborder le concept de finitude. Comme le souligne le professeur Jean-Marc JANCOVICI, les nations atteindront sans l’ombre d’un doute un pic dans leur production de pétrole et tendrons vers une production se rapprochant de zéro. À l’inverse, la production de données semble actuellement suivre une tendance inverse et ne présente pas de limites « naturelles » à sa production. Par ailleurs, contrairement au pétrole, les données ne sont pas à usage unique, elle représente un bien immatériel dont la finitude n’est pas encore perceptible. Comme le souligne Idriss ABERKANE, « Quand on partage un bien matériel, on le divise, quand on partage un bien immatériel, on le multiplie » (Libérez votre cerveau, I. Aberkane, 2016).

Interviennent ensuite les grandes disparités des données disponibles. Contrairement au pétrole qui présente un nombre de formes « limitées », les données générées par les activités humaines se présentent sous des formats extrêmement variés (nous explorerons ces derniers dans la partie suivante). Les ensembles de données dont disposent les organisations peuvent être bruts, analysés, exhaustifs, lacunaires et conduisent donc à une définition toute relative de la valeur de ces données.

Finalement, la donnée n’est que de la donnée, il ne s’agit pas du nouvel « or noir », mais d’un tout nouveau type de ressource. C’est ce que souligne Stu HIGGINS dans un article rédigé pour Cisco3, selon cet expert en internet des objets (IOT) et villes connectées, les données, contrairement au pétrole ne représentent aucune valeur intrinsèque. Les processus de collecte et d’analyse de ces ressources sont les procédés permettant de rendre « l’insignifiant, signifiant » (Stu HIGGINS, 2018) et donc de générer de la valeur.

1.3.2. Typologie des données et 5V du « big data »

Comme évoqué dans la partie précédente, les formats de données dont nous disposons aujourd’hui sont multiples. Pour appréhender cette grande variété, il suffit de retracer le

3 https://gblogs.cisco.com/uki/data-is-neither-the-new-oil-nor-the-new-gold/

13 parcours d’une journée type d’un individu. Vous retrouverez ci-dessous la typologie de données générées (approximativement) par un étudiant au cours d’une journée :

4

Il est facile de constater que l’ensemble des points de contact auxquels un individu est confronté peut potentiellement générer des données. Ces dernières apparaissent également comme étant très variées (Données de Log, historique de navigation, GPS, audio, RFID etc.) et porteuses de « richesses » à exploiter. Par ailleurs, selon les estimations de domo.com, le rythme de génération de donnée s’établirait en 2020 à 1.7mb/s/personne ce qui revient à 143,43 Gigabyte par jour et par personne. À titre indicatif, le simple stockage de cette quantité de données impliquerait de débourser en 1981 – pour un disque dur Apple - 100 406 250$5.

Deux grandes catégories regroupent les données générées par l’activité humaine, il s’agit respectivement des « données structurées » et « non structurées ». Il arrive qu’une troisième catégorie s’immisce entre ces deux ensembles, on parle alors de données « semi- structurées ».

La première catégorie, à savoir, les données structurées représentent tout ce qui se réfère aux données respectant un modèle d’organisation précis que l’on retrouve généralement dans les bases de données relationnelles. Un fichier Excel ou une base de données fonctionnant avec un système de type SQL (Structured Query Language) organisé avec des colonnes représentant des catégories et des lignes des observations restent le meilleur moyen de se représenter ce qui constitue des données structurées.

Ensuite, la catégorie dite de données non structurées se réfère à l’ensemble des données ne suivant pas un schéma de collecte et de stockage strict (Ne suit pas un modèle lignes-

4 Approximation des données générées par un étudiant au cours d’une journée, Roméo LÉON, 2020 5 https://mkomo.com/cost-per-gigabyte

14 colonnes), ces données sont généralement réunies dans des « data lake »6. Il s’agit généralement de données textuelles (mail, sms, livres, contenu web), de contenu vidéo, d’images ou encore de fichiers audio7. Ces données représentent la plus grande partie des informations disponibles dans notre monde, leur valeur relative s’est démultipliée grâce à l’avènement de technologies analytiques capable d’appréhender des schémas informationnels non structurés.

Enfin, les données semi-structurées correspondent à un format hybride de données. Trop flexibles dans leur méthode de catégorisation pour être considérées comme structurées, ces dernières demeurent toutefois interprétables et facilement analysable grâce à des « tags ». En d’autres termes, les informations y sont organisées à la façon d’un « dictionnaire » ou plus précisément de « key-value pair ». Les formats que l’on retrouve généralement derrière ces appellations sont le XML (Extensible Markup Language) et le JSON (JavaScript Object Notation). Pour appréhender l’organisation de type semi-structurée, je vous invite à vous référer au schéma représentatif de données au format JSON ci-dessous :

8

Le continuum issu de l’article « Unstructured Data in Marketing » (Bitty BALDUCCI, Detelina MARINOVA, 2017), que vous retrouverez ci-après, permet de se figurer l’étendue de la typologie de données disponibles aujourd’hui. (Cf également l’annexe 1 page 101).

6 https://fr.wikipedia.org/wiki/Lac_de_données 7https://www.forbes.com/sites/bernardmarr/2019/10/18/whats-the-difference-between-structured-semi-structured- and-unstructured-data/#729433112b4d 8 Roméo LÉON, Structure d’un objet JSON, 2020

15 9

Traditionnellement, la définition du « big data » comprend une dimension faisant référence aux 5V des données, à savoir, « Volume, Vélocité, Variété, Véracité, Valeur ». On attribue les fondements de ce concept au cabinet-conseil Gartner qui en 2001 déclare les enjeux les plus substantiels relatifs à l’avènement du « big data » comme étant les trois premiers V (Volume, Vélocité, Variété). Plus tard, des institutions comme IBM enrichirons cette définition en y ajoutant les notions de Véracité et de Valeur.

Volume Le concept de mégadonnées fait référence au volume puisqu’il s’agit finalement de la raison même de l’existence de cette discipline. À titre indicatif, la quantité de données générées entre le début de l’humanité et les années 2000 correspondait à ce que l’on produisait chaque minute en 201510. L’objectif est de pallier la croissance exponentielle des données et plus précisément les enjeux de stockage et analytique posés par ces volumes. Nous explorerons dans la partie suivante les technologies de « Big Data » permettant la gestion « distribuée » de ces grands volumes de données.

Vous retrouverez ci-dessous les résultats d’une étude menée par Statista indiquant la croissance des volumes de données générés à l’échelle mondiale sur la période s’étendant de 2010 à 2025. La conclusion que nous pouvons retirer de cette étude soutient le fait que la dimension « volume » est une composante essentielle du « big data » et que cette dernière risque de devenir un enjeu d’autant plus critique à l’avenir. Il devient même légitime de s’interroger sur notre approche actuelle de cette discipline (infrastructures et software), nos données deviendront-elles « too big » pour le « big data » ?

9 Balducci, B., & Marinova, D. (2018). Unstructured data in marketing. Journal of the Academy of Marketing Science, 46(4), 557-590. 10 https://www.ibmbigdatahub.com/blog/why-only-one-5-vs-big-data-really-matters

16

Vélocité La notion de vélocité avancée au sein de la définition se réfère à la vitesse à laquelle nos activités produisent des données. Comme évoqué précédemment, le développement du web 2.0 et la possibilité pour chaque individu de créer, partager et d’interagir avec du contenu a démultiplié la génération de données. L’enjeu des technologies de « Big Data » vise à optimiser la gestion de ce contenu, et ce en temps réel. Toutefois, à l’instar de la dimension du volume, il est permis de s’interroger sur la capacité de nos infrastructures à gérer un flux de données toujours plus intense.

Variété La dimension de variété fait référence à ce que nous avons analysé en amont, à savoir la typologie de données structurées, semi-structurées et non structurées. Aujourd’hui, ces dernières représentent approximativement 80% du volume de données générées par nos activités (Bernard Marr, Why only one of the 5 Vs of big data really matters, IBM Big Data & Analytics Hub, 2015). L’enjeu est donc crucial, d’autant que les technologies de « big data », associées avec la science des données, permettraient d’exploiter ces nouvelles ressources.

Véracité Comme je l’ai évoqué dans mon introduction, les données ne sont pas nécessairement synonymes de connaissances. C’est d’autant plus vrai à l’ère de la démesure des données. Ces dernières peuvent être lacunaires, endommagées, falsifiées ou tout simplement ne pas contenir d’informations pertinentes. La notion de véracité fait référence à la fiabilité des données qui doit être l’un des objectifs les plus importants de la discipline puisque des informations seront retirées de ces mêmes données.

Valeur Finalement, toutes les dimensions précédentes ne sont que des prérequis à l’objectif ultime du « big data », celui de générer de la valeur. Engager des processus lourds de traitement de données doit servir un objectif. Bien que la « sérendipité » soit possible grâce aux technologies

17 de « big data » et de science des données actuelles, il semble nécessaire de garder à l’esprit qu’une donnée ne représente pas de valeur en soit et que l’objectif est de la transformer en connaissance.

1.3.3. Infrastructures de stockage et de traitement des données

Comme évoqué précédemment, toutes les implications inhérentes à l’émergence des « mégadonnées » imposent aux organisations de revoir leurs systèmes de gestion et de traitement des données.

À l’instar de la science des données, le panorama de la gestion des mégadonnées évolue très rapidement. Toutefois, un concept central demeure, celui des systèmes de fichiers distribués. L’idée principale derrière ce type d’infrastructure logicielle vise à paralléliser des ordinateurs et plus précisément à répartir des « bouts » de fichiers entre différents nœuds (ordinateurs), par ailleurs, les données sont répliquées pour plus de sécurité. Le système dominant ce « marché » est Hadoop, l’avantage principal de ce dernier réside dans le fait qu’il peut être utilisé sur du matériel « commun » et pas uniquement des superordinateurs.

Pour mener à bien l’analyse et la restitution de synthèses des données stockées sur des clusters d’ordinateurs, Hadoop fait appel au modèle de programmation « Map Reduce »11 développé par Google. En résumé, ce programme permet dans un premier temps de « mapper » (lire) les données stockées sur les différents nœuds et de les réunir sous forme de « key-value pair » puis de « réduire » (consolider) les résultats12. Le schéma ci-dessous permet d’appréhender visuellement cette opération sur des données textuelles.

13

11 https://www.lebigdata.fr/mapreduce-tout-savoir 12 Hiba, Jasim & Hadi, Hiba & Hameed Shnain, Ammar & Hadishaheed, Sarah & Haji, Azizahbt. (2015). BIG DATA AND FIVE V'S CHARACTERISTICS. 2393-2835. 13 https://www.lebigdata.fr/mapreduce-tout-savoir

18 1.3.4. La science des données et l’I.A sont-elles possibles avec la frugalité des données et de la puissance ?

Dans cette partie intitulée « L’abondance des données : L’origine de la science des données ? », j’ai pu mettre en avant le fait que les « mégadonnées » sont inexorablement associées à la discipline de la science des données.

Cette approche peut porter à confusion et conférer l’image d’une « baguette magique » à la science des données. Plus précisément, cette approche visant à considérer les données comme le seul prérequis pour faire fonctionner une « I.A » est extrêmement réductrice et revient à ne pas prendre en compte la complexité et l’entièreté d’un processus de « data science ».

Se pose alors la question de la frugalité et par-dessus tout de la créativité au sein de la discipline de science des données14. Comme le souligne Laurent CERVONI dans son article intitulé « Puissance et créativité en Intelligence Artificielle », il devient de plus en plus tentant de remettre le sort de la science des données à la puissance de calcul et aux volumes de données gargantuesques. Toutefois, ce docteur en informatique souligne le fait que la « généralisation » de l’I.A, que l’on peut considérer comme une « singularité technologique », risque de ne pas être atteignable en reposant seulement sur la puissance de calcul et les données.

Finalement, l’auteur préconise d’adopter des approches « esthétiques », à savoir des algorithmes plus efficaces et optimisés en termes de consommations de ressources (énergétique et informationnelles) pour se rapprocher de l’apprentissage humain, paroxysme de la généralisation.

1.4. Intelligence artificielle : Le fantasme (actuel) de la généralisation

La singularité technologique que j’ai évoquée dans la partie précédente se réfère à l’hypothèse de l’émergence d’une I.A dont l’intelligence dépasserait celle de l’être humain, et ce de manière exponentielle dans le temps15. La possibilité de voir émerger de tels types d’I.A est grandement contestée dans le monde universitaire, son caractère dystopique ainsi que l’état actuel de la recherche en I.A relègue même ce fantasme au rang de science-fiction.

En termes académiques, cette singularité est appelée « Intelligence Artificielle Générale » (AGI). Comme le souligne James CANNELLA dans sa thèse « Artificial Intelligence in Marketing »16, la complexité de la nature humaine et notre connaissance trop peu exhaustive dans ce domaine nous limitent dans la création d’une telle singularité technologique.

Toutefois, des philosophes et informaticiens comme Nick BOSTROM et Vincent C. MÜLLER demeurent « confiants » dans l’avènement rapide, à l’échelle de l’humanité, d’une « Superintelligence » défini comme étant « Toute intelligence qui surpasse grandement les capacités cognitives de l’homme dans pratiquement tous les domaines d’intérêt. » (Bostrom,

14 https://www.actuia.com/contribution/laurent-cervoni/puissance-et-creativite-en-intelligence-artificielle/ 15 https://fr.wikipedia.org/wiki/Singularité_technologique#L'explosion_de_l'intelligence 16 Cannella, J. (2018). Artificial Intelligence In Marketing [Honors Thesis for Barrett, The Honors College at Arizona State University]

19 2014)17. Plus précisément, ces deux professeurs ont publié un article académique intitulé « Future Progress in Artificial Intelligence: A Survey of Expert Opinion » (Nick BOSTROM ,Vincent C. MÜLLER, 2016)18 dans lequel ces derniers ont retranscrit la vision des plus grands experts en « intelligence des machines de haut niveau ». Les conclusions exposées sont extraordinaires et « alarmantes » si l’on se réfère aux risques potentiels évoqués par ces deux auteurs. En effet, la « superintelligence » serait à nos portes puisque l’étude suggère que 50% des experts estiment une arrivée de cette singularité entre 2040 et 2050, le taux passe à 90% pour un développement de l’AGI d’ici à 2075.

À l’heure où j’écris ce mémoire, l’AGI demeure un fantasme, l’état actuel de nos compétences en science des données ne nous permet pas de construire une intelligence aux capacités comparables à celle d’un être humain. Nos algorithmes sont efficaces dans des tâches très précises et surpassent bien entendu l’homme dans une myriade de domaines donnés. Cependant, l’AGI et plus important encore, la « superintelligence » (évolution de l’AGI) ne peuvent être ignorées, tout particulièrement leurs conséquences éventuelles sur l’humanité. En accord avec l’évolution rapide de nos technologies, la science des données s’affranchit peu à peu des contraintes de puissance, de mémoire et d’algorithmie. Le fantasme d’aujourd’hui pourrait très bien de devenir la réalité technologique de demain.

1.5. L’intelligence artificielle aujourd’hui : Une « entité » spécialisée

Avant de plonger dans les grandes catégories d’I.A dont nous disposons aujourd’hui, il semble important de définir la notion d’intelligence. Selon le CNRTL, il s’agit d’un « Ensemble des fonctions psychiques et psychophysiologiques concourant à la connaissance, à la compréhension de la nature des choses et de la signification des faits; faculté de connaître et de comprendre. »19. Le terme dérive du latin « intellĕgō » qui fait référence au discernement et plus largement à la compréhension.

Souvent, la notion d’I.A renvoie à l’image de la machine « pensante », Norbet WIRTH souligne dans son article « Hello marketing, what can artificial intelligence help you with ? »20 que les caractéristiques nécessaires pour qualifier l’intelligence d’une I.A sont ses capacités d’apprentissage, de représentation des connaissances, de raisonnement et de prédiction/planification (Norbert WIRTH, 2018).

En prenant en compte la définition même de l’intelligence et les éléments permettant de caractériser l’intellect d’une I.A, il semblerait que les machines dont nous disposons aujourd’hui ne remplissent pas les conditions de « l’intelligence », telle que nous l’avons caractérisé. Tout du moins, l’I.A doit être considérée comme une « intelligence » parcellaire, spécialisée et pour le moment dépourvu d’une capacité de généralisation ; de compréhension globale. Toutes ces raisons font que je considère le terme d’Intelligence Artificielle comme un « abus de langage », toutefois, pour les parties à suivre, je me conformerai au vocable de la discipline.

17 Bostrom, N. (2014). Superintelligence: Paths, dangers, strategies. Oxford: Oxford University Press. 18 Müller, V. C., & Bostrom, N. (2016). Future progress in artificial intelligence: A survey of expert opinion. In Fundamental issues of artificial intelligence (pp. 555–572) 19 https://www.cnrtl.fr/definition/intelligence 20 Wirth, N. (2018). Hello marketing, what can artificial intelligence help you with? International Journal of Market Research, 60(5), 435-438.

20

1.5.1. Intelligence Artificielle « faible »

Comme évoqué dans la conclusion de la partie « Intelligence artificielle : Le fantasme (actuel) de la généralisation », nous disposons aujourd’hui d’entités spécialisées appelées I.A faibles. Il s’agit de la forme la plus répandue de cette branche de la science des données. Norbert WIRTH définit cette forme d’I.A comme étant « adaptée à un problème ou une tâche spécifique et ne pouvant pas gérer d’autres problèmes sans être réentraînée et/ou modifiée. » (Norbert WIRTH, 2018). La caractéristique principale de l’I.A faible est sa capacité incontestable à surpasser l’homme dans des tâches bien définies. Les exemples les plus parlant (les plus médiatisés) demeurent la victoire de Google Deepmind au jeu de Go en 2016 ou encore la victoire historique de IBM Deep Blue en 1996 contre le champion du monde d’échec Garry Kasparov. Bien entendu, l’I.A faible dépasse aujourd’hui le simple programme d’échec, comme le souligne James CANELLA dans sa thèse21, ces I.A peuvent maintenant conduire des voitures, faire de l’analyse prédictive ou encore réaliser de la reconnaissance d’image.

La caractéristique principale de l’I.A faible est également son talon d’Achille. En effet, la « surspécialisation » en fait un très bon élève dans un nombre de domaines très restreint (voire unique), mais rend son intelligence toute relative puisque son agilité « intellectuelle » est très faible comparativement à celle d’un humain. C’est tout le problème d’une intelligence faible, cette dernière n’est pas généralisable.

1.5.2. Intelligence Artificielle « hybride »

Il existe une approche de l’I.A dépassant la dichotomie « AGI (I.A forte) - I.A faible » que l’on retrouve au sein de la discipline. Il ne s’agit pas d’une discipline radicalement nouvelle puisque cette approche vise à combiner des I.A de type faible pour les rendre plus agiles et aptes à gérer des situations multiples. Norbert WIRTH souligne le fait qu’il ne s’agit toujours pas d’I.A forte, mais que ce type de technologies demeure bien supérieur aux I.A faible, « Appelez ça de la sémantique, mais je ne souhaite pas mettre dans le même panier IBM Watson ou les moteurs d’I.A d’entreprise comme Google avec des ordinateurs d’échecs sous stéroïdes. »22.

En somme, cette partie permet de se figurer ce que représente réellement l’I.A aujourd’hui, il s’agit d’une intelligence relativement « faible » en termes de généralisation. Toutefois, si nous modérons nos attentes à l’égard de ce type de technologies, les avancées réalisées demeurent très impressionnantes. L’appellation d’I.A faible prend donc tout son sens lorsqu’on la met en parallèle avec l’intelligence humaine.

1.6. Taxonomie de l’intelligence artificielle : De l’input vers l’output

L’intelligence Artificielle est une notion complexe à définir comme nous avons pu le constater dans la partie intitulée « L’intelligence artificielle aujourd’hui : Une « entité »

21 Cannella, J. (2018). Artificial Intelligence In Marketing [Honors Thesis for Barrett, The Honors College at Arizona State University] 22 Wirth, N. (2018). Hello marketing, what can artificial intelligence help you with? International Journal of Market Research, 60(5), 435-438.

21 spécialisée ». Toutefois, l’application générale de l’I.A vise à transformer des données d’entrées « brutes » en données de sorties « actionnables », c’est ce que soutient Léo BREIMAN dans son article intitulé « Statistical Modelling : The Two Cultures » (Breiman, 2001). En somme, il s’agit de la discipline permettant d’exploiter les mégadonnées.

1.6.1. Machine learning

Le machine learning est aujourd’hui la branche incontournable de l’I.A. Selon une étude menée par le McKinsey Global Institute, cette partie de l’I.A concentre aujourd’hui près de 60% des investissements au sein des entreprises spécialisées en I.A.23

Le « machine learning » se réfère à la capacité d’un programme d’apprendre et d’améliorer ses résultats engagés en s’entraînant sur des bases de données, l’aboutissement de cette phase est l’émergence d’un « modèle » qui peut être considéré comme la « compréhension » des données (i.e. Cette donnée d’entrée doit être associée à cette donnée de sortie).

Plus précisément, ce type d’I.A s’oppose à la programmatique traditionnelle visant à définir des systèmes de règles et donc à réaliser une modélisation humaine. Cette approche est inhérente à l’émergence de données toujours plus complexes et difficilement appréhendables par des systèmes de programmatique classique. Comme le souligne le cahier de veille publié par l’institut Mines-Telecom24, l’objectif du machine learning était de créer des systèmes capables de généraliser leur expertise sur des exemples jamais rencontrés auparavant et surtout de développer une I.A capable de s’améliorer « continuellement avec l’expérience »(Institut Mines-Telecom, 2016).

Les algorithmes de machine learning - que nous évoquerons de manière « simplifiée » puisque ce mémoire n’a pas vocation à explorer les modèles mathématiques sous-jacents – sont multiples, tout comme les méthodes d’apprentissage développées pour entraîner un système d’apprentissage automatique que j’explorerai dans les paragraphes suivants.

1.6.1.1. Apprentissage supervisé

Le monde de la recherche est unanime, l’apprentissage supervisé est l’approche dominante en termes de développement de modèles de Machine Learning (ML). C’est ce que soutient l’article universitaire intitulé « From data to action : How marketer can levearge AI »25 ainsi que le cahier de veille de l’institut Mines-Telecom.

Cette approche par apprentissage supervisé consiste à « nourrir » un système apprenant avec des données dites « labélisées ». Plus concrètement, il s’agit de fournir un ensemble de données comportant des « catégories » - qui correspondent à des variables déterminantes (predictors variables) – et des caractéristiques « cibles » que l’on considère comme étant le « résultat » (output) desdites catégories. Comme le souligne l’institut Mines-Telecom, le système de ML va ensuite affiner son modèle en modifiant ce que l’on appelle ses « hyper

23 McKinsey Global Institute, ARTIFICIAL INTELLIGENCE THE NEXT DIGITAL FRONTIER?, 2017 24 Les cahiers de veille de la Fondation Télécom // Cahier n°8, 2016 25 Campbell, C., Sands, S., Ferraro, C., Tsao, H.-Y. (Jody), & Mavrommatis, A. (2019). From data to action : How marketers can leverage AI. Business Horizons

22 paramètres »26 pour développer une capacité de généralisation et ne pas commettre d’ « overfitting »27.

Pour vous donner un exemple, on peut considérer une base de données contenant des variables (colonnes) « longueur de cheveux », « taille » et « poids » et une colonne de type booléenne (Contenant soit 0 soit 1 ) intitulé « sexe ». Une méthode d’apprentissage supervisée reviendrait pour l’algorithme à apprendre que telle longueur de cheveux, telle taille et tel poids correspondent à tel sexe.

L’efficacité du modèle de ML dans cette optique est intimement liée à la qualité et la quantité des données disponibles. L’aspect relatif à la qualité des données semble problématique dans la mesure où, malgré la disponibilité de sources de données fiables, la probabilité d’utiliser des données erronées demeure possible (Falsification, données mal collectées etc).

1.6.1.2. Apprentissage non supervisé

Le cœur de l’apprentissage non supervisé tient dans son approche consistant à entraîner un modèle de ML sur des données non labélisées. Cette méthode pousse l’instance de ML à « comprendre les propriétés structurelles sous-jacentes d’un ensemble de données dans l’objectif de découvrir des observations clés au sein des données d’entrées sans avoir recours à des données labélisées. » (From Data to Action : How can marketers levarage A.I ?, 2019). Cette approche se révèle très intéressante et donne tout son sens au terme de « machine apprenante » dans la mesure où le système de ML va chercher à catégoriser lui-même de la manière la plus judicieuse possible les données d’entrées.

Le ML semble donc faire preuve de « débrouillardise » et présente un raisonnement « pseudo- humain » fondé sur l’essai-erreur. James CANELLA soutient cette thèse de la pseudo- humanité de cette méthode d’apprentissage associée au ML, “Unsupervised learning is the form of ML that gives AI “common sense”, it is what would allow for General AI, and is how humans interact with the world.” (James CANNELLA, 2018)

Je m’intéresse depuis plus d’un an et demi à la discipline de la science des données, j’essaye d’équilibrer mes connaissances théoriques et pratiques pour obtenir une vision relativement « exhaustive » de ce domaine si dynamique. Pour vous permettre d’appréhender la puissance d’un algorithme de ML associé à l’apprentissage non supervisé, je vous propose de découvrir ci-dessous un modèle que j’ai développé spécifiquement pour enrichir cette partie de mon mémoire. Il s’agit d’un modèle de ML reposant sur un algorithme de type KMeans28 et la bibliothèque open source ScikitLearn29, l’objectif de ce système est de définir le sexe d’un individu en fonction de son poids, de sa taille et de sa longueur de cheveux.

Première étape : importations des modules et définitions des données

26 https://en.wikipedia.org/wiki/Hyperparameter_(machine_learning) 27 https://fr.wikipedia.org/wiki/Surapprentissage 28 https://towardsdatascience.com/understanding-k-means-clustering-in-machine-learning-6a6e67336aa1 29 https://scikit-learn.org/stable/

23

Seconde étape : Création du modèle de machine learning et « feeding » des données

Troisième étape : Création graphique des clusters (homme-femme) et de la base de données

Quatrième étape : Récupération des résultats

24 Comme vous pouvez le constater, malgré la quantité de données très limitée, le système de ML reste très performant puisque le taux d’erreur est de 8,3% avec seulement 12 données d’entrées. Par ailleurs, l’accessibilité au type de technologies utilisées en fait une très bonne initiation au domaine du machine learning.

1.6.1.3. Apprentissage semi-supervisé

Il existe un format hybride d’apprentissage appelé « semi-supervisé ». Il s’agit pour l’instance de ML de s’entraîner sur des ensembles de données avec des parties labélisées et non labélisées. Ce type d’apprentissage aboutit à la création d’« ensemble model » (From Data to action : How can marketers leverage A.I ?, 2019) qui permettent de dégager des performances accrues en termes de prédiction/classification.

1.6.1.4. Apprentissage par renforcement

La méthode d’apprentissage par renforcement est totalement différente des autres approches évoquées précédemment. En effet, ce système ne s’appuie pas sur des données d’entrées pour construire et affiner son modèle (From Data to action : How can marketers leverage A.I ?, 2019). Il s’agit d’une approche fondée sur l’essai-erreur où l’instance de ML effectue des actions dans un cadre donné puis évalue les performances de ces dernières. Plus précisément, l’environnement dans lequel évolue le système de ML peut récompenser ou pénaliser ledit système, ce dernier cherche alors les à maximiser une fonction de récompense. La recherche de cette récompense amène le modèle à devenir de plus en plus performant.

Il est facile de remarquer que cette méthode d’apprentissage est similaire à celle que l’on pourrait retrouver lors de « l’éducation » d’un enfant voire même d’un animal de compagnie (Exemple : Si tu réussis ton exercice de maths, je te donne un bonbon.).

1.6.1.5. Apprentissage profond

L’apprentissage profond ou « deep learning » est une branche du machine learning fondée sur l’utilisation de nombreux réseaux de neurones (Institut Mines-Telecom, 2016). C’est une des branches de la science des données les plus en vogue actuellement notamment grâce à ces résultats stupéfiants et variés dans l’analyse de données visuelles, textuelles et audio.

Le deep learning, est une évolution des premières formes de réseaux neuronaux appelés « perceptrons ». Ces derniers étaient des réseaux de neurones artificiels « monocouches » capables de réaliser des classifications binaires, il s’agissait alors d’un classificateur linéaire30. Vous retrouverez ci-dessous le schéma d’un réseau de neurones monocouche dont nous analyserons les différentes composantes.

30 https://www.lebigdata.fr/perceptron-machine-learning

25 31

L’apprentissage profond pour résumer grossièrement son approche revient à complexifier un perceptron en ajoutant des « couches cachées » qui sont simplement des « neurones » supplémentaires. Cette complexification permet d’exploiter pleinement la puissance de ce type d’approche et d’effectuer des opérations qui ne sont pas seulement linéaires. Par ailleurs, grâce au développement de la puissance des cartes graphiques, nos réseaux de neurones sont devenus beaucoup plus rapides dans leur traitement. Ci-dessous vous retrouverez la représentation d’un réseau de neurones profond.

32 Le fonctionnement d’un réseau de neurones est relativement facile à comprendre (dans sa forme théorique). En effet, sous sa forme la plus simple, le réseau de neurone profond dispose d’une couche de neurones d’entrée, de couches cachées et enfin d’une couche de sortie. Tous les neurones sont interconnectés via des poids qui pourront être ajustés afin d’affiner les résultats fournis par ledit réseau de neurone (les résultats sont d’ailleurs fournis sous forme de probabilité). Le perceptron dispose de la même forme à l’exception des couches cachées.

En accord avec le schéma du perceptron, le réseau de neurones prend en entrée des données 푋푛 qu’il multiplie par un poids 푊푛, avant de procéder à la somme de ces inputs pondérés, soit ∑ 푊푛 ∗ 푋푛 + 푊푛+1 ∗ 푋푛+1. Cette somme sera ensuite considérée comme valeur d’entrée du neurone suivant, cette valeur sera modifiée pour être définie comme la fonction de 푛 préactivation soit 푝(푥) = ∑푖 (푤푖 ∗ 푥푖) + 푏 qui correspond aux inputs pondérés auquel on a ajouté un biais nommé 푏. Enfin, la fonction d’activation, dont on omettra les modèles mathématiques (fonctions sigmoïdes, tanh et bien d’autres), sera utilisée pour déterminer si le

31 https://nl.wikipedia.org/wiki/Perceptron 32 https://fr.wikipedia.org/wiki/Fichier:MultiLayerNeuralNetworkBigger_english.png

26 neurone doit s’activer et donc être pris en compte pour la génération du résultat. La fonction d’activation prend en paramètre la fonction de préactivation notée 푝33.

L’objectif est d’obtenir un résultat dont le coût (La différence entre le résultat obtenu et le résultat attendu) est optimisé (minimisé), pour réduire cette fonction d’erreur, il suffit de faire varier les poids notés 푊푛 dans le schéma du perceptron.

L’article universitaire « From Data to action : How can marketers leverage A.I? » fournit une définition du deep learning qui à mes yeux résume bien la présentation « logique » que je viens de vous exposer, « A form of neural network that develops understanding by building successively more abstract representations of a data set. This occurs by separating a data set into different layers of abstraction or transformation and then searching for patterns, first within each layer and then between them. » (From Data to action : How can marketers leverage A.I?, 2019).

Mon analyse des réseaux de neurones profonds est théorique et a pour but de vous garantir une bonne compréhension du fonctionnement de cette branche de l’I.A. Je me pencherai dans les parties suivantes sur des disciplines de l’I.A mettant à profit la puissance des réseaux de neurones. Il s’agira d’une exploration plus concrète et imagée.

1.6.2. Vision par ordinateur

La quantité de données non structurée dont nous disposons est exponentielle, notamment les données visuelles. Comme le souligne Deloitte dans un article intitulé « Computer vision : une révolution qui ne fait que commencer »34 (Deloitte, 2019), ce type de données fait preuve d’une véracité très élevée et la vision par ordinateur serait « un eldorado, où tout reste encore à inventer. ».

La vision par ordinateur est une branche de l’intelligence artificielle (Cf. Annexe 3 page 102), celle-ci utilise des technologies d’apprentissage profond et plus précisément des réseaux de neurones convolutifs (CNN35) dont la structure s’inspire de celle du cortex cérébral. L’objectif de la vision par ordinateur pour m’appuyer sur l’ouvrage fondateur Richard SZELISKI intitulé « Computer Vision: Algorithms and Applications »36 consiste à modéliser sous forme mathématiques la représentation tridimensionnelle de la forme et de l’apparence des objets présentés sous forme d’images. En d’autres termes, de donner aux ordinateurs la capacité de « voir » grâce aux mathématiques. Par ailleurs, comme le souligne Richard SZELISKI, la vision est un sens particulièrement complexe, dont les humains et animaux peuvent jouir sans fournir d’efforts particuliers. Toutefois, dans une optique mathématique, le problème est bien plus subtil, en effet, il s’agit d’un processus de déconstruction et de reconstruction de l’information. Plus clairement, l’auteur de cette bibliothèque d’Alexandrie de la vision par ordinateur expose cette approche de la façon suivante : « In computer vision, we are trying to […] describe the world that we see in one or more images and to reconstruct its properties, such as shape, illumination, and color distributions. » (Richard SZELISKI, 2010).

33 https://www.supinfo.com/articles/single/7923-deep-learning-fonctions-activation 34 https://blog.deloitte.fr/computer-vision-une-revolution-qui-ne-fait-que-commencer/ 35 https://fr.wikipedia.org/wiki/Réseau_neuronal_convolutif 36 Szeliski, R. (2011). Computer vision algorithms and applications Springer

27 Au-delà de cette capacité à percevoir le monde visuel, la vision par ordinateur vise à rendre une I.A capable d’appréhender ce qu’il voit et finalement de pouvoir prendre des décisions (fournir un output) dans un contexte donné. Nous analyserons cette dimension analytique dans les paragraphes suivants.

1.6.2.1. Classification

La classification d’images se réfère aux tâches réalisées par des I.A visant à assigner un « label » (un output) pour une image dans son ensemble. Très concrètement, si la caractéristique dominante identifiée dans une image est « chat », l’intégrité de l’image se verra attribuer la classe « chat ».

Ce type de technologie fonctionne en accord avec les méthodes de « training set » et « test set », les modèles de classification sont nourris avec des exemples labélisés puis leurs performances sont testées sur une base de données non labélisée.

Vous retrouverez ci-dessous un modèle que j’ai créé via « Teachable Machine » pour illustrer le processus de classification d’image.

Entraînement du modèle sur 3 classes

Au cours de cette étape, j’ai entraîné un modèle sur trois classes (Iphone, Lunettes, Orange) en lui fournissant un nombre d’images par classe compris entre 60 et 99, chaque image est donc labélisée avec l’une des trois valeurs cibles (Iphone, Lunettes, Orange).

Récupération des résultats (classification)

28

Comme vous pouvez le constater, le modèle attribue un « label » à chaque image lorsqu’il reconnaît un élément sur lequel il a été entraîné. Les performances du modèle (99,6% de précision) sont excellentes malgré un training set de taille très réduite. Par ailleurs, le modèle semble « généralisable » dans la mesure où les images utilisées lors classification (output) sont relativement différentes à celles utilisées dans le training set, en d’autres termes, le fait que je sois présent sur l’image ne perturbe pas le modèle.

1.6.2.2. Détection / segmentation d’objets

La détection d’objet renvoie aux opérations visant à détecter et à labéliser sur une seule et même image plusieurs classes. La différence majeure avec la catégorie de vision par ordinateur explorée précédemment tient dans le fait que l’on peut obtenir des résultats très précis quant aux entités constituant une image. Comme le souligne le docteur en I.A Jason Brownlee37, cette approche de la vision par ordinateur est bien plus complexe que la simple classification d’image puisque cela revient à multiplier cette même opération par le nombre d’objets identifiable.

Les réseaux de neurones convolutifs utilisés dans cette optique sont appelés « Region based convolutional neural network »38, ces derniers permettent de pallier la demande accrue de puissance de calcul pour classifier une multitude d’objets.

Vous retrouverez ci-dessous un modèle de détection d’objet préentraîné intitulé « YOLACT » que j’ai utilisé via l’application Runway39.

37 https://machinelearningmastery.com/applications-of-deep-learning-for-computer-vision/ 38 https://heartbeat.fritz.ai/the-5-computer-vision-techniques-that-will-change-how-you-see-the-world- 1ee19334354b 39 https://runwayml.com

29

Les informations fournies par des modèles de détection d’objets sont généralement présentées sous la forme d’un rectangle englobant l’objet détecté, du label associé à ce dernier et enfin d’une probabilité estimant la confiance du modèle dans sa détection, la segmentation quant à elle rajoute une « couche » d’identification en surlignant l’objet identifié avec une certaine couleur. Dans le cas présenté, le modèle a identifié 5 classes (Téléphone, table, ordinateur portable, livre, clavier) avec un taux de confiance allant de 38% à 99%.

1.6.2.3. Segmentation sémantique

La segmentation sémantique se réfère à la technologie permettant de découper une image pixel par pixel puis de labéliser les groupes identifiés. Il s’agit en somme d’une classification d’image très précise dont l’objectif est de comprendre sémantiquement une scène donnée et de la diviser. Vous retrouverez ci-dessous des exemples de ce type de segmentation fournis par le leader du calcul en I.A (calcul sur GPU), Nvidia.

30 40

Une évolution de la segmentation sémantique est la segmentation d’instance. Cette technologie va plus loin dans la mesure où la compréhension du contenu visuelle est « systémique ». En effet, les réseaux neuronaux derrière cette technologie vont coloriser les différentes classes de manière différentes (y compris si ces dernières sont identiques, exemple : Deux voitures peuvent être colorisées différemment) en fonction de leur « rôle » dans l’image et de leur relation à l’égard des autres instances41.

Ces technologies sont souvent utilisées dans le développement de voitures autonomes pour que ces dernières puissent se figurer de manière précise un environnement routier. Par ailleurs, pour entraîner les modèles implémentés dans ces véhicules, il est possible d’utiliser des exemples virtualisés, en d’autres termes, d’entraîner le modèle sur des vidéos.

Ci-dessous vous pouvez retrouver un schéma explicatif des différences entre détection d’objets, segmentation sémantique et segmentation d’instances. Ce schéma a été présenté par Kaiming He, chercheur pour Facebook AI Research, lors d’un cours à Princeton University.

42

Il existe bien entendu de nombreuses autres technologies de deep Learning appliquées à la vision par ordinateur, les cas d’usages de ces innovations semblent être infinis, c’est ce que j’explorerai dans la seconde grande partie de ce mémoire. L’objectif n’étant pas ici de citer l’ensemble des technologies de computer vision, je vous invite à les découvrir sur le site du professeur James BROWNLEE43.

40 https://github.com/NVIDIA/semantic-segmentation/blob/master/images/vis.png 41 https://heartbeat.fritz.ai/the-5-computer-vision-techniques-that-will-change-how-you-see-the-world- 1ee19334354b 42 https://www.cs.princeton.edu/courses/archive/spring18/cos598B/public/outline/Instance%20Segmentation.pdf 43 https://machinelearningmastery.com/applications-of-deep-learning-for-computer-vision/

31

1.6.3. Traitement du langage naturel

Le traitement du langage naturel (NLP), est une branche de l’I.A dont l’objectif est de permettre aux ordinateurs d’appréhender le langage humain, son sens et sa complexité. Pour Daniel Jurafsky et James H. Martin, respectivement professeurs à l’université de Stanford et l’université du Colorado, le traitement du langage naturel permet d’enseigner à la machine la structure du langage et les différents niveaux d’interactions entre les composants d’une phrase (James CANNELLA, 2018). Par ailleurs, ces deux professeurs exposent le fait que les prérequis pour traiter des données textuelles sont complexes et répartis entre trois étapes, la tokénisation (segmentation des mots), la normalisation (choix d’un format) et la segmentation des phrases (définition des limites d’une phrase)44.

Comme le souligne François YVON, chercheur au CNRS en NLP, le traitement du langage naturel représente un enjeu de taille notamment, car il s’agit pour les chercheurs de modéliser une compétence complexe (le langage) et d’autre part, car nous disposons d’un volume d’informations « naturelles » conséquent (François YVON, Une petite introduction au Traitement Automatique des Langues Naturelles, 2007)45.

Le NLP connaît une (ré)évolution avec le développement du NLU (« Natural Language Undertsanding ») cette technologie s’intéresse à la compréhension « profonde » du langage naturel. Selon un article paru dans LeMagIT46, « Le NLP s'attache à interpréter littéralement ce que les humains disent ou écrivent, là où le NLU tâche d'identifier les intentions et la signification profonde de ce qui est dit ou écrit. ». En somme, NLP et NLU sont complémentaires dans la mesure où le premier capte les données et leur attribue un « sens » primaire et le second s’intéresse aux richesses cachées contenues dans le langage naturel (Cf. annexe 4 page 102). Poussée à l’extrême, cette compréhension reviendrait à doter nos machines d’un « Common sense » pour reprendre les termes de Yann LECUN.

Une dimension importante quant à ces deux disciplines tient au fait que les technologies sous- jacentes peuvent être appliquées sur du langage naturel sous forme audio ou textuelle.

Pour illustrer cette partie sur le traitement du langage naturel, je vous propose de vous référer aux illustrations ci-dessous qui représentent un test que j’ai effectué avec l’API « Natural Language »47 disponible sur Google Cloud. Pour des raisons d’efficacité, les données textuelles exposées à l’API sont rédigées en Anglais.

Découpage de la phrase et mise en avant des entités

44 Jurafsky, D., & Martin, J. H. (2016), Speech and Language Processing An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition 45 Yvon, François. (2007). Une petite introduction au Traitement Automatique des Langues Naturelles. 46 https://www.lemagit.fr/conseil/Intelligence-Artificielle-quelle-difference-entre-NLP-et-NLU 47 https://cloud.google.com/natural-language/

32

Cette étape découpe la phrase en entités pour lui attribuer une « classe », dans notre cas : personne, organisation, lieu et nombre. Puis la technologie de NLP attribue un degré d’importance dans la France.

Compréhension de la phrase (NLU)

Ici, l’API de google effectue une analyse de sentiment et attribue un score (représentant le degré de formalité des termes utilisés) global et par phrase.

Analyse syntaxique et définition d’une catégorie

Finalement, la technologie « Natural Language » de Google peut formuler une analyse syntaxique de la phrase et proposer une catégorie à laquelle rattacher cette dernière. Dans le cas présenté, l’API a identifié que le sujet principal faisait référence à la « littérature » (« bachelor thesis »).

1.7. L’intelligence artificielle : De simples outils de classification et de régression ?

Comme j’ai pu l’évoquer dans la partie « La science des données : la réunion des statistiques et de l’informatique », les statistiques font partie de la discipline de la science des données et par conséquent de l’I.A. La puissance informatique et les statistiques ont permis l’avènement d’une discipline appelée « analyse exploratoire des données » (AED) qui vise à décrire les données, ce au travers de représentations graphiques ou de description statistiques. Deux dimensions particulièrement importantes de ce domaine, à savoir la régression et la classification font partie intégrante des challenges auxquels l’I.A doit faire face.

33 1.7.1. Les approches les plus exploitées : Classification et régression

Les problèmes dits de classification visent à attribuer une classe (un label) à une catégorie présente dans une base de données. En somme, cela revient à rassembler des entités similaires dans une même catégorie. Ce terme de catégories est important puisqu’il définit le type de variable (de classes) que les approches de classification peuvent traiter, à savoir, des variables discrètes (Exemple : Valeurs booléennes 0 ou 1).

Appliqué à l’intelligence artificielle, ce type de méthode est souvent intitulé « classement automatique » et se définit comme la classification algorithmique d’objets48. Les algorithmes de classification sont nombreux et peuvent faire appel à des méthodes d’apprentissage supervisées (Exemple : K-NN) ou non supervisées (Exemple : K-MEANS). Je vous invite à consulter la partie « Apprentissage non supervisé » pour voir un exemple de classification automatique.

Le second problème auquel s’intéresse l’AED est la régression. Il s’agit d’une approche visant à étudier des valeurs continues (Exemple : 131,63 ou 20) et plus précisément la relation de ces dernières par rapport à d’autres variables49. Comme le souligne le professeur Julien Ah- Pine dans son cours « Apprentissage automatique » dispensé à l’université Lumière Lyon 2, dans l’optique de l’apprentissage automatique, la régression s’intéresse à la prédiction d’une valeur continue et se différentie donc de la classification qui vise à prédire une catégorie (valeur discrète).

Les méthodes les plus connues en termes de régression sont la régression linéaire, la régression linéaire multiple ou encore la régression polynomiale50. Une régression vise à approximer de la meilleure manière possible la relation entre deux variables au sein d’un ensemble de données.

Vous pouvez vous référer à l’exemple ci-dessous pour découvrir la différence entre une régression linéaire de degré 1 et une régression polynomiale de degré 2.

51 Il est facile de remarquer ici qu’une régression linéaire (à gauche) n’est pas le bon modèle puisque son approximation est grossière, une régression d’ordre 2 (à droite) est beaucoup plus adaptée et représentative des données exposées grâce à sa forme concave.

48 https://fr.wikipedia.org/wiki/Classement_automatique 49 https://fr.wikipedia.org/wiki/Analyse_des_données#Classification_automatique 50 https://fr.wikipedia.org/wiki/Régression_(statistiques) 51 Julien Ah-Pine, 2019, Apprentissage automatique, http://eric.univ-lyon2.fr/~jahpine/cours/m2_dm-ml/cm.pdf

34 1.7.2. L’intelligence artificielle devient créative

L’I.A est effectivement une création algorithmique complexe comme nous avons pu le souligner dans les parties précédentes. Ses performances en termes de classification et de régression sont excellentes et finissent même par dépasser les capacités cognitives de l’être humain. C’est ce que Google Health et l’Imperical College ont réussi à prouver en entraînant un réseau de neurones sur des données issues de mammographies. Les résultats sont stupéfiants puisque cette I.A réduit le taux de faux négatifs de 9,4% et le taux de faux positifs de 5,7% dans la détection du cancer du sein aux États-Unis52.

Il est difficile de considérer les modèles d’I.A comme autre chose que des formalisations algorithmiques. Toutefois, lorsque l’on prend du recul et que l’on considère les cas d’usages possibles de ces technologies, il devient légitime de se demander si notre créativité peut-être modélisée et par conséquent si une I.A peut devenir créative. Comme le souligne IBM, « Creativity may be the ultimate moonshot for artificial intelligence.» (IBM, 2016)53. Des prouesses créatives ont déjà été réalisées par des I.A, vous pouvez vous référer à l’œuvre ci- dessous qui a entièrement été créée par Google AI.

54

52 https://towardsdatascience.com/google-ai-for-breast-cancer-detection-beats-doctors-65b8983352e0 53 https://www.ibm.com/watson/advantage-reports/future-of-artificial-intelligence/ai-creativity.html 54 https://www.businessinsider.com.au/13-incredible-pieces-of-art-created-by-googles-ai-2016-2

35 Le débat sur la créativité de l’I.A est complexe. L’attribution d’une telle capacité dépendra donc de notre définition même de celle-ci et des objectifs que nous fixons aux systèmes d’I.A. IBM avait récolté les avis de 30 experts en I.A quant à leur vision de la créativité appliquée à l’I.A, ce qui en ressort est très contrasté. Toutefois, l’idée selon laquelle nous avons à peine gratté la surface de la créativité en I.A fait l’unanimité, par conséquent, la marge de progression dans ce domaine est substantielle. Comme le soulignent les experts, la façon d’enseigner la créativité à un programme est encore expérimentale, les machines peuvent recevoir des « paramètres » relatifs à la créativité comme le caractère aléatoire par exemple. Pour ces experts, il est encore trop tôt pour savoir si une « I.A peut développer sa propre vision de la créativité. » (IBM, 2016). Jason TOY, CEO chez Somatic, entreprise spécialisée dans le deep learning appuie cette idée au travers d’une citation qui remet en cause la capacité « infinie » de modélisation : « Can we take what humans think is beautiful and creative and try to put that into an algorithm? I don't think it's going to be possible for quite a while. » (IBM, 2016).

La conclusion de cette étude menée par IBM tient dans le fait que l’I.A, aujourd’hui, peut-être considérée non pas comme un sujet créatif, mais bien plus comme un assistant permettant la « créativité augmentée ».

Finalement, nous attribuons les caractéristiques que nous souhaitons à nos créations. Certains considéreront l’I.A comme de simples outils de régression et de simplification tandis que d’autres iront au-delà de cette vision « utilitariste » pour appréhender les enjeux sous- jacents à la création de machines complexes.

1.8. Une définition claire de la science des données ?

L’ensemble des points de vue et « connaissances » exposés dans cette grande partie intitulée « Déluge de données et superordinateurs : Les fondements de la science des données ? » vous permet d’avoir une vision conceptuelle et pratique de la science des données. Toutefois, je n’ai pas encore caractérisé synthétiquement ce que représente cette discipline, les paragraphes suivants apportent cette vision résumée.

1.8.1. État de l’art de la discipline

Comme j’ai pu l’évoquer dans les parties précédentes, la data science n’est pas uniquement une évolution des statistiques. Il s’agit d’une combinaison de disciplines dont les synergies ont permis l’émergence d’une « science » nouvelle au service de la création de connaissances par l’analyse d’ensembles de données. On peut se représenter cette combinaison via le célèbre diagramme de Venn exposé par le data scientist Drew Conway :

36 55 La science des données est une discipline faisant appel à une méthodologie cadrée, cette dernière a été caractérisé par Microsoft au travers d’un concept intitulé « Team Data Science Process » (TDSP), la schéma ci-dessous permet de se figurer ce modèle d’organisation dédié aux projets de science des données :

56

55 http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram 56 https://docs.microsoft.com/fr-fr/azure/machine-learning/team-data-science-process/overview

37

L’article de David DONOHO intitulé « 50 years of data Science »57 reprend à mes yeux les fondements essentiels pouvant mener à une définition claire de la science des données. Selon ce dernier, le « data science moment » (Donoho, 2017), à savoir notre paradigme actuel à l’égard de cette science dispose d’une connotation trop commerciale et risque de ne pas mener au développement intellectuel – au sens pur- de cette discipline.

Donoho fonde son analyse sur les pères fondateurs de la discipline de science des données, que nous avons évoqués précédemment, à savoir Léo BREIMAN, ou William S. CLEVELAND. Il présente sa vision de la science des données comme étant une discipline académique et plus précisément une science visant à apprendre à partir d’ensembles de données. Celle-ci va au-delà du « data science moment » qu’il définit comme étant une « Lesser data science » (Donoho, 2017). En somme, Donoho repense la science des données pour élever cette dernière au rang de discipline véritablement académique, il cherche à établir la « Greater data science » (Donoho, 2017) et s’intéresse à la dimension épistémologique de la science des données.

L’approche académique et scientifique apportée par Donoho revêt à mes yeux une certaine sagesse - vertu que je considère de la plus haute importance en science des données. En (re)donnant à cette discipline ses racines académiques, Donoho attribue une certaine « hauteur » à la science des données puisque l’objectif n’est plus uniquement utilitariste, mais bien plus celui du développement des connaissances dans ce domaine.

1.8.2. Un potentiel prométhéen

L’ensemble des exemples présentés dans la partie « Taxonomie de l’intelligence artificielle : De l’input vers l’output », pris isolément, représentent de belles prouesses technologiques et scientifiques. Je conçois parfaitement que la généralisation de ces dernières aux activités humaines peut paraître complexe, cependant, le potentiel de l’I.A sur le développement économique de nos activités est éprouvé.

Selon une étude menée par McKinsey et relayée par Statista, une dimension apparaît inéluctable, les ambitions de la science des données et plus particulièrement de l’I.A sont ubiquitaires et prométhéennes (Cf. Annexe 5 page 103). Comme vous pouvez le constater sur le graphique ci-dessous, les secteurs les plus essentiels de nos économies verront leur potentiel de création de valeur démultiplié. L’impact des technologies d’I.A se chiffrerait en trillions de dollars, soit en milliard de milliards de dollars.

57 David Donoho. (2017) 50 Years of Data Science. Journal of Computational and Graphical Statistics 26:4, pages 745-766.

38 58

Bien entendu, l’étude de l’ensemble de ces secteurs d’activité se révélerait très intéressante, mais dépasserait amplement le cadre de ce mémoire. J’analyserai en détail dans la seconde grande partie de cette revue de littérature l’avènement et l’impact de la science des données au sein de la discipline marketing.

2. La puissance de la science des données au service des marketeurs

Comme je l’ai exposé dans la partie « Déluge de données et superordinateurs : Les fondements de la science des données ? », la science des données représente une révision profonde de notre paysage technologique et donc économique. Désormais, il s’agit pour moi de vous dépeindre l’état actuel des synergies entre marketing et I.A ainsi que la potentielle valeur ajoutée de cette collaboration disciplinaire. Bien entendu, j’inscrirai mon analyse dans un contexte dynamique pour fournir une analyse englobant le court et moyen terme.

2.1. L’intelligence artificielle et le marketing : État des synergies entre ces deux domaines

Le marketing a toujours eu pour objectif le développement de produits et de services en accord avec les besoins exprimés par des prospects ainsi que la commercialisation adéquate de ces mêmes biens et services. Le sous-jacent est évident, l’activité marketing ne peut se passer de « données », la taxonomie de ces dernières (Cf les 5V d’IBM) a été bouleversée ces dernières années. Le postulat sur lequel je m’appuie soutient le fait que la science des données et le marketing sont des disciplines complémentaires, c’est d’ailleurs ce que souligne l’article

58 McKinsey. (April 30, 2018). Potential aggregate economic impact of artificial intelligence worldwide in the future (in trillion U.S. dollars) [Graph]. In Statista. Retrieved May 03, 2020, from https://www-statista-com.ezp.em- lyon.com/statistics/940664/potential-value-of-ai-by-sector-in-the-future/

39 « Marketing and Data Science, together the future is ours » (Chintagunta, P., Hanssens, D. M., & Hauser, J. R. 2016)59.

La complémentarité de ces deux disciplines ne fait aucun doute, toutefois, le rythme d’implémentation des technologies d’I.A au sein des services marketing est encore relativement inégal bien que l’intérêt pour l’imbrication de ces deux disciplines s’accentue. Comme le souligne James CANNELLA dans sa thèse, sur une population de marketeurs sondés, 98% d’entre eux déclaraient être intéressés par une implémentation rapide de technologies d’intelligence artificielle au sein de leur service. Toutefois, il demeure toujours une différence substantielle entre le désir d’adopter ce type de technologies et l’implémentation de ces dernières.

Dans un premier temps, à l’échelle globale, Statista souligne dans son étude « AI use in marketing (Statista, 2019) le fait que seules 22% des entreprises estiment avoir implémenté à l’échelle de leur organisation des solutions orientées I.A, vous pouvez retrouver le rythme d’adoption sur le schéma ci-après. Les chiffres présentés par le cabinet-conseil McKinsey dans son rapport intitulé « Artificial Intelligence the next digital frontier » (McKinsey, 2017) corroborent l’étude de Statista puisque le McKinsey Global Institute estime à 20% le nombre d’entreprises utilisant des technologies d’I.A.

60

Lorsque l’on concentre l’analyse sur le domaine du marketing, on peut remarquer l’ampleur du différentiel entre le taux avancé par James CANNELLA (98% des marketeurs intéressés par l’implémentation de l’I.A) et le taux d’adoption constaté par Statista qui s’élève à 26,5% en 2019. Bien qu’il s’agisse d’études croisées, cette comparaison permet de se figurer l’incertitude voire l’incompréhension encore existante autour de l’intelligence artificielle, de tout l’écosystème de technologies associées et surtout des moyens d’implémenter celle-ci.

59 Chintagunta, P., Hanssens, D. M., & Hauser, J. R. (2016). Marketing and Data Science : Together the Future is Ours. GfK Marketing Intelligence Review, 8(2), 18-23. 60 « AI use in marketing (Statista, 2019), https://www-statista-com.ezp.em lyon.com/study/57404/artificial- intelligence-use-in-marketing/

40 Toutefois, les données avancées par Statista restent prometteuses dans la mesure où 21% de la population étudiée évaluait en 2019 l’implémentation de technologies de science des données et 35% déclaraient vouloir probablement utiliser ces dernières dans un futur proche. Vous pouvez retrouver le taux de déploiement sur le graphique ci-dessous.

Désormais, l’implémentation de l’I.A au sein des organisations et plus précisément des services marketing n’est plus entièrement conditionnée par les moyens financiers ou l’expertise technique. On peut assister à une démocratisation des technologies « contenant » des algorithmes appartenant à la famille de l’I.A. Comme j’ai pu le prouver dans la partie dédiée à la science des données, l’accessibilité de ces technologies et le coût minime que représente leur utilisation peuvent permettre à un grand nombre d’individus de développer leurs connaissances de ce milieu.

L’adoption de ces technologies et leur application au sein des services marketing restent bien entendu plus complexes qu’à l’échelle individuelle puisque des défis organisationnels émergent avec l’implémentation de nouvelles solutions, cependant, l’entrée dans le monde de la science des données peut se faire graduellement comme le souligne James CANNELLA (Artificial Intelligence in marketing, James CANNELLA, 2018). Ce dernier évoque l’existence de cinq niveaux d’implication de l’I.A :

- Implication faible - Implication faible-moyenne - Implication moyenne - Implication moyenne-forte - Implication forte

Cette division permet selon moi de catégoriser « l’ensemble » des solutions d’I.A disponible aujourd’hui sur le marché, par ailleurs, cela permet d’identifier les approches les plus efficaces pour une organisation donnée. C’est la raison pour laquelle je m’appuierai sur ce concept développé par James CANNELLA pour vous offrir une vision organisée des dynamiques

41 d’adoption de l’I.A à l’échelle organisationnelle. J’ai pris la liberté de la réduire à une dimension tripartite qui me semble plus adaptée.

Implication faible

L’implémentation de solutions orientées « data science » au sein d’une organisation et dans notre cas d’un service marketing vise à gagner en efficacité et à optimiser l’allocation des ressources. Il est souvent inutile de vouloir « réinventer la roue », les solutions d’I.A dédiées au marketing sont légion, parmi ces dernières, il y a de fortes chances de trouver un outil répondant partiellement ou complètement à un besoin donné.

L’implication faible est synonyme d’externalisation optimisée. Il s’agit pour une organisation d’utiliser des solutions - développées par d’autres entreprises- dont le coût, en termes de prix et d’expertise, est relativement faible. L’idée derrière ce type d’implication n’est pas de faire de l’adoption de l’I.A un facteur « différenciant » comparativement aux organisations concurrentes, il s’agit simplement d’un plus permettant d’optimiser une activité précise.

Plus concrètement, ce type d’implication pourrait être l’utilisation des algorithmes publicitaires de Goolge Ads pour optimiser le ROI d’une campagne marketing.

Implication moyenne

Les technologies dont l’implication est qualifiée de moyenne renvoient aux « outils » d’I.A dont l’importance au sein de la stratégie marketing d’une organisation est primordiale. Ces technologies ont un spectre d’utilisation assez large qui va de l’optimisation de tâches spécifiques au « raisonnement » holistique à l’égard d’un ensemble de tâches données.

Pour illustrer ce niveau d’implication en restant dans l’optique de la publicité digital, l’utilisation de solution comme Albert (une plateforme de gestion holistique des campagnes publicitaires digitales) dépasse le niveau d’implication faible de Google Ads dans la mesure où l’organisation qui fait appel aux solutions d’Albert va externaliser dans sa quasi-intégrité la gestion de son activité publicitaire. Un autre exemple, exposé par James CANNELLA est celui de la gestion de la relation client, un niveau d’implication moyen reviendrait à agréger les différentes composantes de la gestion de la relation client au sein d’un même « customer management system » fondé sur des technologies d’I.A (Exemple : Salesforce).

Implication forte

Enfin, l’implication forte désigne l’utilisation des technologies d’I.A dans son aspect le plus complexe. Dans cette optique, les organisations utilisent des solutions spécialisées pour leurs objectifs, voire même développées en interne. Ce degré d’implication, contrairement à l’implication faible, nécessite des investissements élevés en termes capitalistique, temporel et par-dessus tout en termes d’expertise.

Ce type de solutions « sur-mesure » sont utilisées dans des organisations dont le cœur de métier et le processus de création de valeur ajoutée sont intrinsèquement liés au développement technologique et dans notre cas aux gains fournis par l’I.A.

42 J’ai retrouvé à titre personnel ce type d’implication fort au cours de mon premier stage au sein d’une start-up spécialisée en I.A appliquée au traitement d’image. La valeur ajoutée de cette organisation résidait dans le développement de technologies propriétaires.

Les trois niveaux d’implémentations présentés dans cette partie fournissent tous, à leur échelle, de la valeur ajoutée aux organisations. Cette approche graduelle de l’implication de l’I.A permet aux entreprises d’identifier les points « optimisables » au sein de leurs services marketing et par conséquent d’allouer leurs ressources efficacement. Les solutions existantes et disponibles sous forme de SAAS (Service as a software) le plus souvent permettent non seulement une meilleure gestion des données et des ressources disponibles pour une organisation, mais ces technologies permettent également une distribution de la valeur plus judicieuse pour les « cibles » marketing (prospects). Nous explorerons la façon dont la science des données génère de la valeur pour ces deux entités plus tard dans le mémoire.

2.2. Comment collecter les données nécessaires à l’activité marketing ?

Comme expliqué précédemment, l’I.A peut permettre à tout type d’organisation d’optimiser l’allocation de ses ressources dans un contexte large et dans notre sujet d’étude une allocation optimale des ressources marketing. Les prérequis d’un « marketing efficace » sont multiples, mais peuvent être réunis sous l’égide de la « connaissance » (sujet que nous explorerons dans la partie 2.3). Comme je l’ai évoqué dans mon introduction, nous vivons à l’ère de l’information exponentielle, les points de contact disponibles entre les organisations et les individus sont innombrables, il convient donc de collecter et de traiter ces données le plus rigoureusement possible pour en extraire de la connaissance (Le principe même de la science des données). De fait, les données conditionnent, dans une certaine mesure, l’efficacité d’une stratégie marketing. Je vais m’intéresser dans les parties suivantes aux méthodes de collectes de ces dernières ainsi qu’à la façon dont on peut les valoriser/considérer.

2.2.1. Collecte directe et indirecte

J’ai eu l’opportunité d’échanger avec Clément LEVALLOIS - professeur à emlyon business school et responsable de la chaire Implid dont l’objectif est la valorisation des données en entreprise – dans le cadre de son cours « IoT for Entrepeneurs »61. Au-delà du concept même de l’IOT, ce professeur spécialisé en gestion des données a mis en avant l’importance de la taxonomie existante des données. Plus concrètement, l’origine de ces dernières peut-être classifiée entre trois catégories :

- Les données primaires - Les données secondaires - Les données tertiaires

Dans cette partie intitulée « Collecte directe », je vais analyser la dimension des données primaires et secondaires, je m’intéresserai à la catégorie toute particulière des données tertiaires dans la partie suivante.

Données primaires

61 https://seinecle.github.io/IoT4Entrepreneurs/

43 Lorsque l’on se réfère aux données dites primaires, on parle de collecte directe dans la mesure où aucun intermédiaire ne se pose entre une organisation et l’individu dont on récolte les données. Il s’agit de la forme de données la plus « valorisable », car cette dernière est représentative d’une typologie de personne dont la relation à une organisation est avérée et également, car le coût pour obtenir cette dernière est infinitésimal. En somme, ces données sont généralement précises, abordables et par conséquent génératrices de valeurs.

Les données primaires sont généralement collectées grâce aux interactions directes entre un individu et une organisation. Dans le cadre d’un internaute, il est possible d’utiliser un « pixel » (Un script directement implémenté dans le code source d’une page web) pour collecter des données relatives aux utilisateurs. Dans un cadre non lié au « web », la collecte de données primaires peut se via un sondage ou des objets connectées par exemple.

Données secondaires Les données secondaires quant à elles renvoient aux données primaires d’une organisation tierce. L’acquisition de ce type de données revient à acheter, sans l’aide d’un intermédiaire, les données primaires d’une entreprise externe à votre organisation. L’avantage de ce type d’agrégat informationnel tient dans l’enrichissement d’une base de données et au développement de connaissances nouvelles. Par ailleurs, comme il s’agit de données primaires, la véracité des conclusions que l’on peut en retirer est optimale.

La collecte de ce type de données nécessite un certain degré de « collaboration » entre les organisations pour créer un échange « gagnant-gagnant ». Plus concrètement, une organisation peut définir qu’une entreprise tierce dispose de données intéressantes pour étendre son niveau de connaissances et peut entamer des négociations quant à l’acquisition d’un jeu de données. Des solutions existent pour faciliter la relation entre deux éventuels partenaires, les plateformes Lotame ou Dawex permettent de mettre en relation deux parties dans ce type d’échange.

2.2.2. Data broker

Enfin, le professeur Clément LEVALLOIS avait évoqué l’existence d’un « marché » de la donnée tertiaire. Ce marché est dominé par des courtiers en information ou « data broker » dont l’activité consiste essentiellement à acheter et à revendre des jeux de donnés. Les plateformes proposant ce genre de services acquièrent des données primaires auprès d’innombrables acteurs puis agrègent et organisent ces dernières avant de les proposer en vente libre sur un marché. Les avantages de ce type de collecte de données résident dans le volume disponible, la véracité des données et enfin la vélocité d’acquisition.

L’idée derrière ces trois méthodes de collectes de données est de dégager des connaissances à l’égard d’un ensemble d’individus, de comprendre leurs interactions avec une organisation voire même de définir ce qui pourrait conduire un individu à interagir avec une entreprise. Dans le cadre d’une activité marketing, il peut être intéressant de combiner ces méthodes pour croiser des données pour en dégager une véritable compréhension (élargie) d’un public cible.

2.2.3. Les données : un actif identifiable ?

44 Finalement, ces méthodes de collecte de données et les échanges qui en découlent soulèvent une question importante, celle de la valorisation des données, non pas uniquement dans l’optique marketing (car cette valeur est indéniable), mais dans une optique organisationnelle large.

C’est le sujet traité au cours du webinaire intitulé « Valorisation des données en entreprise »62 organisé par Clément LEVALLOIS au nom de la chaire Implid. Cet événement rassemblait des personnes aux expertises variées passant par le juridique, la science de gestion ou encore la valorisation des données en entreprises. Les sujets évoqués au cours de ce webinaire sont encore au stade de la recherche, toutefois, une conclusion unanime peut-être dégagée de ce « cours », les données devraient être des actifs valorisés au sein des entreprises, et ce au niveau technique, comptable et juridique. Je vous invite à consulter l’annexe 6 (page 104) pour découvrir les techniques de monétisation présentées par le professeur LEVALLOIS.

Pour reprendre l’expression employée par ce dernier lors de son cours « IoT for Entrepeneurs »63, les techniques de valorisation des données ont pour objectif d’atteindre une « fair value », une mesure de la valeur des données, et ce malgré des visions divergentes quant à la valorisation de ces dernières.

2.3. Les cas d’usages et les outils de la science des données associés : comprendre et prédire

Les jeux de données possèdent un potentiel valorisable, c’est indéniable. Ces derniers peuvent être croisés et donc enrichis comme nous l’avons vu précédemment, et ce afin de maximiser la valeur potentielle que l’on pourrait en retirer lors des phases de traitement. Ces étapes « analytiques » représentent le cœur de la richesse marketing puisqu’il s’agit d’en retirer de la connaissance à l’égard d’individus et/ou d’organisations.

2.3.1. Empathie marketing : comprendre le marché et le consommateur

Comme le souligne l’article “From Data to action : How can marketers leverage A.I ?”64, deux composantes principales émergent de l’utilisation d’I.A en marketing. L’analyse de l’environnement actuel et l’appréhension du marché combinée à la compréhension du consommateur. Dans l’optique d’un marketing « traditionnel », des outils d’analyse comme la matrice SWOT, l’analyse PESTEL, les « persona » et d’autres analyses quantitatives/qualitatives classiques sont généralement utilisés.

Les technologies d’I.A représentent des « compléments » à ces techniques déjà existantes et comme le soulignent les auteurs de cet article, leur rôle serait – dans un premier temps- analytique et permettrait la gestion rapide et précise de grands volumes de données. Il s’agirait d’un réel outil d’aide à la décision, « In this context, data can be analyzed and feedback provided in real time, allowing decisions and actions to be taken immediately. » (From Data to action : How can marketers leverage A.I ?, 2019).

62 https://emlyon.github.io/chaire-implid/webinaire-23-avril-2020.html 63 https://seinecle.github.io/IoT4Entrepreneurs/ 64 Campbell, C., Sands, S., Ferraro, C., Tsao, H.-Y. (Jody), & Mavrommatis, A. (2019). From data to action : How marketers can leverage AI. Business Horizons

45 2.3.1.1. Social Listening : NLP

Ce processus de compréhension peut-être facilité par des initiatives de « social listening », que de nombreux groupes, experts en communication et marketing ont déjà mis en place. On peut notamment citer la filiale du groupe TBWA « 65db ». Le concept de « social listening » se réfère à « l’écoute » et plus particulièrement à l’analyse du contenu que l’on peut retrouver sur les réseaux sociaux et plus largement le web. Les technologies d’I.A sous-jacentes permettent d’analyser l’état d’un marché, les consommateurs et plus particulièrement le comportement de ces derniers (satisfaction, comportement d’achat ou encore des demandes spécifiques).

Nous ne traiterons pas ici des techniques de NLP et de NLU puisque j’ai analysé ces dernières dans la partie « Traitement du langage naturel ». Toutefois, il me semble important de rappeler que le social listening s’intéresse aux données non structurées qui représentent 80 à 95% de toutes les données générées par les organisations comme le rappellent les auteurs de l’article « Uniting the Tribes : Using Text for Marketing Insight. Journal of Marketing »65, ce qui représente un potentiel incroyable de « connaissances ». L’article souligne également que les applications du social listening suivent les deux grands mouvements de science des données, à savoir, « compréhension » et « prédiction ».

La richesse du social listening et plus largement des technologies de NLP / NLU est parfaitement résumé par les auteurs de cet article sur l’analyse textuelle appliquée au marketing : « For marketing practitioners, textual analysis unlocks the value of unstructured data and offers a hybrid between qualitative and quantitative marketing research. Like qualitative research, it is rich, exploratory, and can answer the “why,” but like quantitative research, it benefits from scalability, which often permits modeling and statistical testing. » (Uniting the Tribes : Using Text for Marketing Insight, 2020). Le social listening et les technologies qui lui sont associées permettent donc de comprendre un marché et l’ensemble de ses parties prenantes tout en palliant la contrainte des volumes de données gargantuesques.

Je m’intéresserai à la perception des marques par les consommateurs dans une partie dédiée aux technologies de NLU et d’analyse de sentiments qui représentent le degré le plus élevé de compréhension des parties prenantes (dans l’optique de l’analyse textuelle).

2.3.2. Analyse du parcours client

Toujours dans une optique de compréhension et de connaissance d’un public cible, l’analyse de son parcours dans un contexte donné apparaît comme essentielle. Ce type d’analyse permet de dégager des modèles comportementaux d’individus dans un environnement prédéfini. L’objectif sous-jacent est simple, il s’agit d’influencer les comportements d’acteurs dans un milieu contrôlé. Dans un article intitulé « L’expérience-client : quels apports des technologies de l’Intelligence Artificielle » (Souad MAGHRAOUI, Esma BELGHITH, 2019)66,

65 Berger, J., Humphreys, A., Ludwig, S., Moe, W. W., Netzer, O., & Schweidel, D. A. (2020). Uniting the Tribes : Using Text for Marketing Insight. Journal of Marketing, 84(1), 1-25. 66 MAGHRAOUI, S., & BELGHITH, E. (2019). L’expérience-client : quels apports des technologies de l’Intelligence Artificielle. Revue Internationale d’Economie & de Gestion Stratégique de Processus d’Affaires, 15, 7‑14. Consulté à l’adresse http://www.ipco-co.com/ESMB/vol15/Issue1/2.pdf

46 les auteurs définissent le mapping du parcours client comme étant une technique consistant à « Retracer le parcours client à travers des points de contact physiques et numériques, en fonction de ses tendances de comportement » (Souad MAGHRAOUI, Esma BELGHITH, 2019). Cet article met également en lumière le fait que l’I.A est en passe de totalement repenser la manière dont les marketeurs conçoivent l’expérience client.

2.3.2.1. IOT

L’internet des objets (IOT) représente à mes yeux l’un des vecteurs les plus importants en termes de révolution de l’expérience et d’analyse du parcours client. Cette importance tient dans le fait qu’un grand nombre d’individus sont désormais connectés à internet via un ou plusieurs objets connectés. Les régions les plus connectées (États-Unis, Europe) atteignent un taux de pénétration d’internet supérieur ou égal à 94% (Les échos, 2019)67.

Cette ubiquité de la connexion permet aujourd’hui d’établir des liens, générateurs de données exploitables entre organisations et individus, c’est ce que souligne l’article susmentionné, « devenu aujourd’hui incontournable, Internet constitue une partie intégrante de ce bouleversement en permettant de créer des connexions invisibles, permanentes et pertinentes avec ces cibles. Grâce à la multiplication des points de contact via le web, les entreprises sont désormais en mesure de pérenniser ladite expérience en optimisant le parcours client dans des contextes d’usage très spécifiques. » (Souad MAGHRAOUI, Esma BELGHITH, 2019).

L’un des secteurs les plus enclin à utiliser ce genre de technologies dans une optique marketing est celui du « retail ». L’article intitulé « The Internet of Things (IoT) : What is the potential of Internet of Things Applications for Consumer Marketing? »68, soutient cette hypothèse en exposant à la première place d’un classement de la valeur marketing en IOT le secteur du “retail”. Dans l’optique de l’analyse du parcours client, l’auteur met en lumière le fait que l’IOT peut garantir un suivi précis du comportement des consommateurs au sein des magasins et donc aboutir à l’optimisation du lieu. Par ailleurs, l’IOT serait également un bon moyen de créer des promotions personnalisées en fonction de la localisation d’un client et de son historique d’achat (j’étudierai cette composante du marketing mix plus tard dans le mémoire).

Les technologies les plus prometteuses dans la mesure où ces dernières sont « embarquées » et relativement peu coûteuses sont le bluetooth et le RFID. Le potentiel de ces dernières reste aujourd’hui encore grandement sous-exploité à l’égard du mapping du parcours client et donc à l’égard des possibilités marketing qui lui sont inhérentes. Bien entendu, il existe des technologies plus complexes permettant un « tracking » et une optimisation de l’expérience client encore plus avancée, c’est ce que j’analyserai dans la partie suivante.

2.3.2.2. Vision par ordinateur

Aujourd’hui, la quintessence dans le mapping et l’optimisation du parcours client se fait via la combinaison de la vision par ordinateur et l’IOT. Pour vous remémorez les fondements de cette technologie, veuillez-vous référer à la partie « Vision par ordinateur ».

67 https://www.lesechos.fr/tech-medias/hightech/lusage-dinternet-dans-le-monde-en-cinq-chiffres-963228 68 Maier, M. V. (2016). The Internet of Things (IoT) : What is the potential of Internet of Things Applications for Consumer Marketing?

47 Le cabinet-conseil Deloitte souligne le fait que ce type de technologie se révélerait bien plus efficace que l’IOT dans la mesure où sa précision est accrue et le risque de collecter des données « bruyantes » (impropres) est grandement diminué. Ce big four du conseil a notamment développé une solution de vision par ordinateur intitulée « IVI » dont l’objectif est le développement de la connaissance consommateur via l’analyse des variables suivantes69 :

- Démographiques : âge, sexe, identification - Comportementales : temps de visite, chemin parcouru, émotions

La filiale-conseil du groupe Orange expose les mêmes conclusions quant à l’importance de la vision par ordinateur pour la compréhension, l’optimisation du parcours client et le secteur du « retail » en général. Selon le groupe français, 30% des commerçants souhaitent s’équiper d’outils de vision par ordinateur (Orange Business Services, 2020)70.

L’étude menée par le groupe va plus loin dans son explication en soulignant le fait que cette technologie va agir sur une multitude de leviers dont 2 ressortent particulièrement, la personnalisation du parcours client et le processus de paiement.

Concernant ce premier aspect, le traitement en temps réel d’un flux vidéo permettrait d’analyser le parcours d’un individu dans un magasin, d’identifier les moments clés (achats, hésitation) pour à l’avenir personnaliser le parcours d’achat de ce même individu, et donc d’influencer ses choix. Malgré l’évidence de dérives possibles, je ne traiterai pas ici des questions éthiques soulevées par ce type de technologies, je consacrerai une partie entière à ce sujet à la fin de mon mémoire.

Le second aspect mis en avant par orange, à savoir, la révolution dans les méthodes de paiement est également très intéressante, car il s’agit d’éliminer un « pain point », en d’autres termes, un point de contact sans valeur ajoutée pour l’organisation et le client. Deux possibilités se présentent, la gestion des flux d’individus souhaitant effectuer un paiement ou la suppression de l’étape physique du paiement.71

À ce jour, l’exemple le plus concret et le plus abouti qui me vient à l’esprit en termes d’optimisation du parcours client et des synergies entre « retail », I.A et IOT est Amazon Go. L’avènement de ce type de magasin est une révolution puisque le concept vise l’autogestion dans la mesure où seul le réapprovisionnement des stocks nécessite une intervention humaine (bien que la gestion des stocks soit appuyée par de la vision par ordinateur). Le processus de paiement est complètement repensé, et ce grâce à des centaines de caméras scrutant les faits et gestes des clients (Exemple : Placer un article dans son sac est perçu comme un achat). Le paiement s’effectue automatiquement lorsque le client quitte l’enseigne. La firme de Jeff BEZOS a intitulé cette technologie Amazon « Just Walk Out » et insiste sur le fait qu’il s’agit d’une innovation optimisant l’expérience client, pour reprendre leur terme il s’agit d’une « Effortless experience ».72

69 https://blog.deloitte.fr/computer-vision-une-revolution-qui-ne-fait-que-commencer/ 70 https://www.orange-business.com/fr/magazine/computer-vision-usages-retail 71 https://www.orange-business.com/fr/magazine/computer-vision-usages-retail 72 https://www.justwalkout.com

48 Je vous invite à consulter l’annexe 7 (page 106) pour découvrir comment Amazon a implémenté cette technologie au sein de ses enseignes. Pour aller plus loin et découvrir l’intégralité du fonctionnement de Amazon Go, vous pouvez également consulter cet article tiré du célèbre blog « Towards Data Science ».

2.3.2.3. Analyse « online »

Finalement, l’analyse du parcours client la plus « évidente » par essence est celle qui se déroule en ligne. Contrairement aux secteurs « IRL » (in real life) comme le retail, les données générées sont plus facilement collectables et utilisables dans la mesure où l’activité web produit des données ne nécessitant pas l’utilisation de technologies supplémentaires comme l’IOT.

Par ailleurs, comme le souligne l’article « Artificial Intelligence in Advertising »73, la richesse pour les marketeurs lors de l’analyse « online » réside dans le fait que les données peuvent être croisées et qu’un ensemble de technologies d’I.A peuvent être utilisées pour optimiser le parcours client dans son ensemble et finalement maximiser les chances de convertir un prospect en client.

Les auteurs de l’article susmentionné exposent par ailleurs le fait que les technologies d’I.A peuvent être et devraient-être utilisées sur l’ensemble du spectre du parcours client, à savoir de la reconnaissance du besoin jusqu’à l’étape post-achat (Cf. annexe 8 page 1079), dès lors, l’I.A serait également un moyen pour une organisation de créer du lien avec ses clients, c’est ce que j’analyserai dans la partie suivante.

2.3.3. Développer la relation marque-consommateur

L’objectif d’un marketeur est d’accompagner un prospect au travers des étapes du « marketing funnel », c’est à dire de l’étape de découverte d’une marque jusqu'à l’étape d’achat et plus important encore, à l’étape où le client se fait « défenseur » de ladite marque (Advocacy). Pour parvenir à cette étape cruciale, une organisation doit établir une relation authentique avec ses clients. Les nouvelles formes – toujours plus humanisées- d’interfaces hommes-machines peuvent permettre la création et le maintien de ce lien et ce à moindre coût. C’est ce que souligne le docteur en marketing Dominika KACZOROWSKA-SPYCHALSKA dans son article paru en 2019 intitulé « How chatbots influence marketing »74.

2.3.3.1. Chatbots

Le marché des « chatbots » est en pleine explosion, c’est ce qu’expose une étude menée par Grand View Research relayée par Statista. Selon le cabinet-conseil, d’ici 2025, la valeur de ce marché, à l’échelle mondiale, représenterait 1250 milliards de dollars soit 655% de plus qu’en 2016 (Statista, 2017)75. Selon Accenture, cette augmentation soudaine serait lié à l’utilisation

73 Kietzmann, J., Paschen, J., & Treen, E. (2018). Artificial Intelligence in Advertising. Journal of Advertising Research, 58(3), 263–267. https://doi.org/10.2501/jar-2018-035 74 Kaczorowska-Spychalska, D. (2019). How chatbots influence marketing. Management (1429-9321), 23(1), 251- 270. https://doi.org/10.2478/manment-2019-0015 75 Grand View Research. (August 30, 2017). Size of the chatbot market worldwide, in 2016 and 2025 (in million U.S. dollars) [Graph]. In Statista. Retrieved May 07, 2020, from https://www-statista-com.ezp.em- lyon.com/statistics/656596/worldwide-chatbot-market/

49 exponentielle des plateformes de messagerie instantanée et au développement des technologies d’I.A (Accenture Interactive, 2016). Une étude supplémentaire relayée par l’auteur de l’article « How chatbots influence marketing » (Kaczorowska-Spychalska, D. , 2019) souligne le fait que Gartner estimait qu’en 2020 un individu utilisant Facebook messenger serait plus en contact avec un robot qu’avec un humain, ce taux s’élève à 85% dans le cadre d’une conversation entre une entreprise et un individu.

L’ensemble de ces études mettent en avant le fait que les chatbots sont des éléments indispensables dans la discipline marketing actuelle, mais que représentent vraiment ces entités ? La définition du docteur Kaczorowska-Spychalska est concise et permet de se figurer ce que représentent aujourd’hui ces robots et les technologies sous-jacentes : « A chatbot […] is a computer program which conducts a conversation in natural language via auditory or textual methods, undertsands the intent of the user, and sends a response based on business rules and data of the organizations. » (Kaczorowska-Spychalska, D., 2019). L’auteur de l’article va plus loin en soulignant le fait que nous disposons aujourd’hui majoritairement de « chatbots » construits sur un ensemble de règles et dont la généralisation est impossible. Il existe également des chatbots fondés sur des technologies d’I.A comme le NLP, le NLU et le NLG dont les capacités permettent d’émuler des interactions humaines. La richesse de ces interfaces conversationnelles tient dans les concepts de compréhension et de génération du langage naturel.

Pour les marketeurs, cette forme d’agents conversationnels « humanisé » et plus largement « l’humanisation des technologies digitales » (Kaczorowska-Spychalska, D., 2019) représente une opportunité incroyable pour établir des liens « authentiques » sans contrainte de volume, de temps ou encore de lieu. Les marques peuvent établir des relations beaucoup plus horizontales, informelles, voire collaboratives, avec les individus. « Using chatbots in that process enables companies/brands to intensify consumer’s diverse emotions and experiences while increasing their involvement and satisfaction. » (Kaczorowska-Spychalska, D., 2019).

2.3.3.2. Assistants virtuels : NLP / NLU / NLG

À mes yeux, les interfaces conversationnelles ont été « augmentées » ces dernières années avec l’arrivée d’IOT comme les enceintes connectées. Tout comme dans la partie précédente, ces interfaces conversationnelles permettent des interactions hommes-machines très humanisées et permettent de créer des liens entre les marques et les individus.

Toutefois, l‘avènement de ce genre d’objet va bien au-delà du simple chatbot puisqu’il s’agit pour un individu de laisser rentrer une marque au sein de son domicile, d’où l’utilisation du terme « augmentée ». Ce type d’objets -pouvant être considéré comme un véritable cheval de Troie - garanti aux marques la collecte de données extrêmement personnalisées et ouvre la voie à un marketing chirurgicale. Les prix très bas pratiqués par les marques (Amazon et Google) traduisent la volonté d’implémenter ces outils marketing au sein des foyers.

Au-delà de la forme « d’assistant» que prennent ces objets, ils peuvent être utilisés comme de véritables vendeurs à domicile. Amazon Alexa, l’enceinte du groupe de Jeff BEZOS représente pour moi l’exemple le plus abouti en termes de nouveau canal marketing. Chaque personne possédant cette enceinte peut effectuer des commandes par le biais de cette dernière au simple son de sa voix.

50

En somme, à l’instar des chatbots, ces interfaces conversationnelles permettent de développer le lien entre marques et consommateurs, et ce de manière augmentée dans la mesure où un individu peut « humaniser » ces technologies faisant partie de son domicile comme le souligne le docteur Kaczorowska-Spychalska. Par ailleurs, le potentiel « marketing » de ces technologies reste pour le moment grandement inexploité, notamment en ce qui concerne la diffusion de publicités comme le souligne James CANNELLA dans sa thèse76. Le véritable enjeu derrière l’émergence de ce genre de technologies est avant tout celui de la sécurité. Il s’agit de garantir la liberté individuelle et la vie privée des utilisateurs afin de ne pas basculer dans une dystopie technologique.

2.3.4. Comprendre sa marque : analyser son image

Le fait de dégager une image positive est essentiel pour une organisation. Les activités marketing menées à cet effet ont pour objectif d’aboutir à la création d’une « identité de marque », à savoir la manière dont une organisation souhaite être perçue. Toutefois, comme le souligne Joonas ROKKA dans son cours « Introduction to marketing communication » (Joonas ROKKA, emlyon business school, 2017), il existe un différentiel entre la vision désirée par une organisation et la vision qu’ont les individus d’une organisation donnée. On parle alors « d’image de marque » qui reflète la perception réelle.

Les marketeurs ont pour objectif de réduire ce différentiel et donc d’atteindre leurs objectifs stratégiques. Pour mener à bien cette mission, ceux-ci peuvent aujourd’hui mettre à profit la grande quantité de données non structurées générée par des individus. Plus précisément, comme le souligne l’article de recherche « Marketing Research : The role of Sentiment Analysis »77, le contenu utilisateur (UGC) peut désormais être traité grâce aux technologies d’I.A disponibles. En somme, les marketeurs disposent désormais de données véridiques, volumineuses et donc valorisables permettant d’appréhender « l’image de marque » et d’agir en conséquence.

2.3.4.1. NLU, analyse de sentiment et speech recognition

Comme je l’ai souligné dans la partie « Traitement du langage naturel », le NLU s’intéresse à la compréhension « profonde » du langage naturel, en d’autres termes, au sens (implicite ou explicite) des données textuelles. Je m’intéresserai à la manière dont cette technologie garantit la création de connaissances à partir de contenu utilisateur non structuré et finalement permet de comprendre la perception d’une organisation à l’égard d’un public.

L’article de recherche « Marketing Research : The role of Sentiment Analysis » met en avant le fait qu’il est désormais possible pour les marketeurs de combiner – relativement facilement - deux aspects de recherche, à savoir, la dimension quantitative et qualitative. Cette combinaison est possible grâce à l’avènement des techniques de collecte et de traitement de données (Big Data et I.A).

76 Cannella, J. (2018). Artificial Intelligence In Marketing [Honors Thesis for Barrett, The Honors College at Arizona State University]. 77 Rambocas, M., & Gama, J. (2013). Marketing Research : The Role Of Sentiment Analysis (No 489; FEP Working Papers). Universidade do Porto, Faculdade de Economia do Porto.

51 Ce développement permet un renouveau de la discipline de « l’analyse de sentiments » présentée comme « Opinion mining or the voice of the customer, sentiment analysis is an approach to determine a person’s affective state with respect to a given topic through NLP, computational linguitsics and other forms of text analysis. Marketing literature commonly asseses sentiment analysis by polarity, or the degree to which one expresses positive, negative or neutral feedback.» (Balducci, B., & Marinova, D., 2018).

En accord avec cette définition, il est facile d’identifier les enjeux ayant attrait au marketing opérationnel, d’autant plus que l’analyse peut désormais se faire en temps réel sans compromettre la fiabilité, la véracité et la généralisation des données (Rambocas, M., & Gama, J. , 2013). Plus concrètement, au sein de leur article, ces derniers exposent quatre dimensions ayant attrait à l’usage de l’analyse de sentiment dans une optique marketing :

- Le « tracking » des avis et notations clients - La surveillance à l’égard des problèmes que rencontre l’organisation (gérer les effets de viralité) - Évaluer les buzz de marché, l’activité concurrentielle et les tendances des consommateurs - Mesurer la réponse du public à une décision organisationnelle

Dès lors, les enjeux de l’analyse de sentiment dans une optique marketing sont avant tout descriptifs, toutefois, la finalité des connaissances créées est d’affiner la gestion d’une organisation sur l’ensemble des variables du marketing mix.

Le NLU et l’analyse de sentiment s’intéressent au contenu textuel, toutefois, une autre dimension importante demeure, il s’agit de l’audio. C’est ce que souligne l’article de recherche « Sentiment Analysis on Speaker Specific Speech Data »78. Les auteurs de ce dernier fondent leur méthode sur le développement d’algorithme permettant d’identifier les interlocuteurs et les sentiments au sein d’une conversation (Speech and speaker recognition). Plus précisément, l’objectif est de convertir le flux audio en texte pour ensuite réaliser de l’analyse de sentiment « classique », en d’autres termes, textuelle. Le schéma ci-dessous permet de se figurer la méthodologie développée par les auteurs.

79

78 S, Maghilnan & M, Rajesh. (2018). Sentiment Analysis on Speaker Specific Speech Data. 79 S, Maghilnan & M, Rajesh. (2018). Sentiment Analysis on Speaker Specific Speech Data.

52

Les technologies présentées dans cette partie représentent une avancée majeure que ce soit dans le monde de la recherche ou encore dans la simple dimension marketing. Le fait de pouvoir dégager des connaissances d’ensembles de données textuels ou audio permet d’appréhender une grande partie du spectre des données non structurées générées pas nos activités et dans une optique marketing par des utilisateurs. J’explorerai dans la partie suivante un format qui représente sans l’ombre d’un doute la majorité des données non structurées (en termes volumétrique, (Cf. annexe 9 page 107) : Le contenu imagé.

2.3.4.2. Vision par ordinateur

Le contenu photo/vidéo est de plus en plus favorisé par les marketeurs, notamment en termes de marketing digital. C’est le résultat d’une préférence accrue des publics cibles pour un contenu facile d’accès et visuel (Cannella, 2018). Le fait que cet attrait pour le contenu imagé se trouve des deux côtés du spectre marketing (consommateur et marketeurs) permet de combiner de meilleures interactions individus-organisations et une analyse efficace des consommateurs.

Le développement des réseaux de neurones profonds et plus précisément des CNNs (Cf. partie « Vision par ordinateur ») permet aujourd’hui aux organisations de dégager plus de connaissances de l’UGC et donc de comprendre l’image que dégage une activité.

Pour reprendre l’un de mes échanges avec Robert REVAT (professeur de marketing à emlyon business school) l’une des activités du marketing consiste à créer des segments. C’est exactement ce que la vision par ordinateur peut apporter en termes de valeur ajoutée : une segmentation des perceptions de marques au travers de l’analyse de sentiments et des usages. La vision par ordinateur se révèle être particulièrement efficace dans l’analyse du contenu disponible sur les réseaux sociaux. Cette technologie permet effectivement de dégager la façon dont les individus interagissent avec une marque/organisation en traitant des images.

Très concrètement, une marque comme Coca-Cola pourrait très bien lancer une opération visant à identifier sur un jeu de données exporté depuis Instagram le nombre de photos où le logo de la marque apparaît, la typologie de photos et enfin les sentiments associés à ces images (reconnaissance faciale, analyse de sentiment, analyse de l’environnement (vacances, travail etc)).

L’analyse de sentiment au travers de la reconnaissance faciale demeure pour moi l’un des objectifs les plus ambitieux à l’égard de la vision par ordinateur appliquée au marketing. Il s’agit d’un projet avec des contraintes ubiquitaires, notamment en termes de protection de la vie privée mais au potentiel de création de valeur substantielle. Atteindre une telle étape permettrait d’entrer dans une ère de la connaissance marketing personnalisée et profonde. À ce jour, le meilleur moyen pour les marketeurs de dégager un degré de connaissances accrue à partir d’UGC est de combiner les approches analytiques textuelles, audio et imagées dans la mesure où elles se complètent et peuvent même aboutir à la création de données semi-structurées (Exemple : Hashtag sur les photos).

53 2.3.5. La science des données appliquée au marketing mix

Le mot « connaissance » est récurrent dans ce mémoire. Ces « répétitions » ne sont pas le fruit d’inadvertances, mais traduisent bien plus ma croyance profonde que la science des données (DS) est vectrice de connaissances. Dans l’optique du marketing mix, ces dernières sont à l’origine de la création de valeur. Si l’on se réfère à la définition de l’American Marketing Association, « Marketing is the activity, set of institutions, and processes for creating, communicating, delivering, and exchanging offerings that have value for customers, clients, partners, and society at large. » (« What is marketing ? The définition of marketing – AMA », 2020). En accord avec cette définition, il est facile de comprendre en quoi la connaissance d’un individu constitue le cœur de l’activité marketing, je traiterai dans les parties suivantes de l’apport de la science des données à l’égard des « quatre P » du marketing mix.

2.3.5.1. Produit

J’ai eu l’opportunité d’échanger avec avec Robert REVAT (professeur de marketing à emlyon business school), sur la dimension « produit » du marketing mix (MM) et de la façon la plus juste de distribuer la valeur à l’individu au bout de la « chaîne marketing ». La vision de ce professeur corrobore mes hypothèses dans la mesure où ce dernier considère qu’aujourd’hui un individu ne perçoit pas « le bon produit au bon moment », mais bien plus le produit le moins loin de ses attentes.

Cette dimension du « produit le moins faux » soulève un enjeu particulièrement intéressant pour la science des données, celui de la personnalisation. Ce défi sera l’un des plus complexes dans la mesure où il s’agira de passer d’un paradigme de consommation de masse fondé sur le « one size fits all » à une politique produit dont le « sur-mesure » sera la finalité.

Les articles universitaires « From Data to Action : How can marketers levarage A.I ? » (Campbell, C., Sands, S., Ferraro, C., Tsao, H.-Y. (Jody), & Mavrommatis, A., 2019) et « Marketing and Artificial Intelligence » (Jarek, K., & Mazurek, G., 2019) mettent en lumière le fait que l’I.A a les capacités de jouer un rôle prépondérant en termes de stratégie produit. Plus précisément, l’agrégation de données croisées et leur analyse permettraient de dégager des connaissances et d’agir sur les leviers suivants :

- Développement de nouveaux produits/services et identification des niches non exploitées - Production de biens/services ultras personnalisés (Cet enjeu demeure pour le moment difficilement atteignable en accord avec les coûts associés) - Recommandations automatisées - Identification des biens/services à inclure/exclure de son portfolio (Concept de la matrice BCG appliquée à l’I.A : Analyse des tendances, demandes, coûts, bénéfices)

Pour résumer cette partie dédiée à la dimension produit, une analogie entre marketing et science des données me semble être parfaitement adaptée. Comme je l’ai évoqué précédemment, les réseaux de neurones profonds ou d’autres modèles mathématiques comme la régression linéaire visent à réduire une fonction de « coût » ou « d’erreur », cette minimisation est synonyme de précision pour ces technologies. Il en va de même pour la discipline marketing et sa dimension produit, l’objectif des experts de cette discipline est de

54 réduire « l’erreur » entre le désir d’un consommateur et la valeur qu’il percevra. Ces deux disciplines sont donc intimement liées du fait de leur objectif intrinsèque commun : la précision.

2.3.5.2. Prix

Toujours dans une optique de précision et de personnalisation, les prix font l’objet d’une évolution stratégique avec l’avènement de l’I.A. C’est ce que souligne PWC dans son article intitulé « Artificial intelligence may be a game changer for pricing »80 paru en 2019. Le cabinet- conseil souligne le fait que le prix de revente est conditionné par des données « exogènes ». Ces dernières étant en pleine explosion, l’identification d’un prix optimisé devient de plus en plus complexe, l’I.A permettrait de pallier cette difficulté grâce à ses capacités analytiques.

Cet article met en avant trois cas d’usages relatifs au « pricing » :

- L’optimisation des prix : Rationalisation de la politique de prix grâce à l’agrégation de données. Les processus itératifs peuvent être exploités (Fondation sur l’essai-erreur)

- Optimisation des réductions : Évaluation de l’efficacité d’une « promotion » grâce aux données de ROI. Aide à la construction de politique de promotion par la segmentation (clustering Cf. partie Apprentissage non supervisée) client.

- Optimisation du rendement d’un portfolio produit : Identification des combinaisons produits (cross sell et up sell) permettant de dégager le plus de marge.

L’article « From Data to action – How can marketers levarage A.I ? » (Campbell, C., Sands, S., Ferraro, C., Tsao, H.-Y. (Jody), & Mavrommatis, A., 2019), apporte un éclairage économique à la fois théorique et concret. Les auteurs mettent en lumière le fait que l’I.A permet de développer une stratégie de prix fondée sur la connaissance et plus précisément la compréhension de la sensibilité au prix et des prix de marché.

L’article met en avant le fait que les technologies d’I.A peuvent être de véritables outils décisionnels du fait de leur capacité à estimer l’élasticité prix de la demande, à identifier les anomalies de prix (vente à perte etc) ou encore à automatiser l’établissement dynamique des prix. Cette analyse rejoint celle que l’on retrouve dans l’article « Marketing and artificial intelligence » (Jarek, K., & Mazurek, G., 2019) dans la mesure où les auteurs identifient les principaux bénéfices de l’I.A appliquée au pricing comme étant le « Price management and dynamic price matching to customer profile ».

En somme, l’I.A appliquée aux stratégies de prix permet aux entreprises et plus précisément aux marketeurs de tirer pleinement parti des ensembles de données internes et externes à leur organisation. Plus précisément, ces dernières peuvent désormais offrir des prix compétitifs, personnalisés et optimisés dans le temps.

2.3.5.3. Communication

80 https://www.pwc.be/en/news-publications/2019/artificial-intelligence-may-be-game-changer-for-pricing.html

55 Une stratégie de communication optimisée est à mes yeux caractérisée comme la diffusion du bon message, au bon moment, au bon endroit, à la bonne personne. L’ensemble de ces variables rendent les stratégies de communication très complexes et sujettes aux erreurs de par les données croisées devant être traitées. À nouveau, l’I.A peut se révéler être un outil décisionnel d’une grande aide dans la mesure où la modélisation d’une telle situation ne devrait pas être un problème pour ce type de technologie apprenante.

Au-delà de cette dimension stratégique faisant attrait au « bon message, au bon moment », la politique de communication doit avoir pour objectif de créer de la notoriété de marque en vue d’accompagner un prospect au bout du « marketing funnel », à savoir l’achat. L’article « From Data to action – How can marketers leverage A.I? », met en avant le fait que l’I.A permet d’atteindre cet objectif tout en personnalisant l’expérience d’un individu et en réduisant les coûts de communication. Les exemples exposés se réfèrent au marketing digital et plus précisément à la publicité (Dans une optique d’optimisation grâce à l’I.A) : Publicités ciblées, retargeting, test A/B.

L’article « Understanding the Role of Artificial Intelligence in Personalized Engagement Marketing »81 va plus loin dans l’appréhension des synergies entre I.A et politique de communication. Pour les quatre professeurs ayant rédigé cet article, la personnalisation serait à l’origine du renforcement de la relation marque-client. L’I.A étant vectrice de personnalisation, l’exploitation de ces technologies permettrait donc d’optimiser la relation client. Aujourd’hui, l’I.A traite des données de plus en plus riches, personnalisées et « privées », cela représente une opportunité de taille pour les marketeurs ce que soulignent les auteurs de cet article : « When technology works on a personal level, it creates an endearing bond with the users. Furthermore, when marketers tap into such a bond, the potential for customer value creation is enormous.» (Kumar, V., Rajan, B., Venkatesan, R., & Lecinski, J., 2019).

Le point clé à retenir de cet article réside dans le concept de « content curation » à l’ère de l’I.A. Plus concrètement, cela se réfère à la « liberté » des algorithmes de sélectionner l’ensemble des variables nécessaires (produit, prix, pub, emplacement etc) à la constitution d’une stratégie de communication, voire de marketing, personnalisée et par conséquent à une expérience client optimisée.

Je vous invite à vous référer au cadre de réflexion exposé par les auteurs de cet article, ce schéma permet de comprendre le fonctionnement de la personnalisation marketing à l’ère de « l’économie de la connaissance » et de l’I.A (Kumar, V., Rajan, B., Venkatesan, R., & Lecinski, J., 2019) :

81 Kumar, V., Rajan, B., Venkatesan, R., & Lecinski, J. (2019). Understanding the Role of Artificial Intelligence in Personalized Engagement Marketing. California Management Review, 61(4), 135-155.

56 82

2.3.5.4. Distribution

La stratégie de distribution du marketing mix, dont on pourrait définir l’objectif comme étant de rendre disponible un produit/service à individu au bon endroit et au bon moment peut également être grandement « augmentée » par les technologies d’I.A disponibles aujourd’hui. La valeur ajoutée de ces synergies réside dans le caractère ubiquitaire et l’accessibilité permanente attribuée aux stratégies de distribution « dopées » à l’I.A.

Comme le souligne l’article « From data to action : How marketers can leverage AI »83, les marketeurs disposent désormais des outils analytiques nécessaires pour satisfaire les désirs de temporalité et de lieux éprouvés par les clients. Plus concrètement, en se fondant sur les données historiques, en temps réel ou encore sur des projections, les technologies d’I.A peuvent permettre aux marketeurs de mieux gérer les stocks, les coûts et donc la distribution en général. Un cas d’usage très concret exposé sur le blog CMO d’Adobe84 est l’utilisation par Walmart de technologies d’I.A pour adapter son inventaire aux évènements exogènes à l’organisation (Prise en compte des données météorologique pour les prévisions de vente par exemple).

82 Kumar, V., Rajan, B., Venkatesan, R., & Lecinski, J. (2019). Understanding the Role of Artificial Intelligence in Personalized Engagement Marketing. California Management Review, 61(4), 135-155. 83 Campbell, C., Sands, S., Ferraro, C., Tsao, H.-Y. (Jody), & Mavrommatis, A. (2019). From data to action : How marketers can leverage AI. Business Horizons 84 https://cmo.adobe.com/articles/2018/11/3-ai-driven-strategies-for-retailers-in-2019.html#gs.5qklua

57 Au-delà de cette gestion améliorée, l’I.A permet d’explorer de nouveaux canaux de distribution, d’où l’appellation « ubiquitaire » utilisée précédemment. Les approches ne sont plus « mono » ou « cross » canal, mais bien plus intégrées et omnicanales. Dès lors, le processus d’optimisation de la distribution menée par l’I.A doit se faire sur les dimensions « online » et « offline ».

Les avantages stratégiques de l’I.A sur la dimension de « distribution » du MM sont indéniables. Il en est de même pour les consommateurs dont l’expérience est modifiée au travers des points suivants (Jarek, K., & Mazurek, G., 2019) :

- Praticité du processus d’achat - Processus d’achat rapide - Service client permanent - Nouveaux canaux de distribution

Pour conclure cette partie, toutes les catégories de technologies en lien avec la science des données peuvent avoir une utilité dans le cadre du marketing mix. C’est ce que soulignent les auteurs de l’article « Marketing and Artificial Intelligence »85 en mettant en avant le rôle des technologies de reconnaissance d’images, de traitement de texte ou encore d’aide à la prise de décision. Par ailleurs, l’article détaille les « bienfaits » de l’I.A pour les deux parties, à savoir consommateur et marketeurs (Jarek, K., & Mazurek, G., 2019) :

- Pour les consommateurs :

o Processus d’achat plus simple et plus rapide o Nouvelles expériences consommateur (hyperpersonnalisation, service après- vente) o Nouvelle relation marque-consommateur (Cf. partie « Développer la relation marque-consommateur »

- Pour les marketeurs

o Automatisation des tâches redondantes et laborieuses o Valorisation des tâches stratégiques et créatives o Valorisation du design (Repenser la distribution de valeur) o Développement de nouvelles compétences (Des équipes plus data-driven) o Un nouvel « écosystème » marketing

Je vous invite à vous référer à l’annexe 10 (page 108) pour découvrir de manière synthétique l’impact de l’I.A sur l’ensemble des variables du marketing mix.

Les nouveaux outils apportés par la science des données permettent de créer et de distribuer de la valeur avec plus de précision et moins de « frictions/pain points ». La dimension clé à retenir, de par sa transversalité à l’égard de la DS appliquée au MM, est celle de la personnalisation/précision. Ces bouleversements de la discipline marketing soulèvent de

85 Jarek, K., & Mazurek, G. (2019). Marketing and Artificial Intelligence. Central European Business Review, 8(2), 46–55. https://doi.org/10.18267/j.cebr.213

58 nombreux enjeux ; me viennent à l’esprit les questions éthiques et organisationnelles. J’analyserai dans un premier temps la dimension organisationnelle qui implique de repenser l’allocation des ressources des services marketing et par-dessus tout la formation à ces métiers.

2.4. Science des données actuelles et marketing de demain : où concentrer nos efforts ?

L’intelligence artificielle nous rendra plus humains. C’est la thèse que soutient Garry KASPAROV, l’ancien champion du monde d’échec vaincu par IBM Deep Blue en 1997, dans son livre intitulé « Deep Thinking »86. À mes yeux, la science des données peut permettre aux individus d’échapper à ce que Carl MARX qualifiait « aliénation du travail », à savoir des tâches mortifiantes pour le corps et l’esprit. Dans l’optique de la discipline marketing, cette « aliénation » réside dans les tâches analytiques, redondantes et volumineuses. L’avènement de solutions d’I.A peut permettre aux marketeurs de se détacher des tâches aliénantes et de se recentrer sur leur expertise proprement humaine, leurs softs skills. Sujet que j’explorerai dans les paragraphes suivants.

2.4.1. Créativité, empathie et stratégie

Un concept récurrent lorsqu’on se réfère aux impacts positifs de l’utilisation de l’I.A au sein de la discipline marketing est celui « d’augmentation ». Le sous-jacent de cette idée veut que l’I.A soit au service de l’homme et non l’inverse. C’est l’un des enjeux principaux qui s’offre à l’humanité en cette période de révolution technologique, à savoir, garder le contrôle sur nos créations, la société Neuralink87 créée par Elon MUSK suit cette ligne directrice en souhaitant « augmenter » l’être humain pour le maintenir au-dessus de ses créations.

Le CEO d’Adobe, Shantanu Narayen expose la vision de l’augmentation dans un cadre marketing en soulignant le fait que l’I.A peut-être considérée comme un assistant dont l’objectif serait de prendre le relais sur les tâches les moins créatives dans l’optique de libérer les individus des tâches les plus redondantes. Le dirigeant de la firme américaine met en avant le fait que cette augmentation permettrait aux marketeurs de se concentrer sur ce qui leur est propre, à savoir, la créativité et la stratégie. « Even at its most powerful, AI doesn’t replace human intelligence, it simply helps people do what they love better and faster […] » (Shantanu Narayen, Amplifying human creativity with artificial intelligence, Adobe)88.

La prépondérance des softs-skills à l’ère du marketing dopé à l’I.A est également mise en avant par James CANNELLA dans son excellente thèse « Artificial Intelligence In Marketing » (Cannella, J., 2018). Selon lui, la combinaison d’une culture d’entreprise orientée « data » et de softs skills comme l’empathie, la créativité ou encore la stratégie se révèle être vecteur de valeur ajoutée voire même d’avantages compétitifs. L’auteur met également en avant une taxonomie des avantages de l’I.A au sein de la discipline marketing, vous pouvez retrouver cette dernière ci-dessous :

86 http://www.kasparov.com/garry-kasparov-says-ai-can-make-us-more-human-pcmag-interview-march-20th- 2019/ 87 https://neuralink.com 88 https://www.adobe.com/nz/insights/amplifying-human-creativity-with-artificial-intelligence.html

59 - Des informations plus claires permettant d’améliorer les décisions créatives et stratégiques - Le développement de la créativité comme avantage compétitif et facteur différenciant - Automatisation des tâches répétitives dans le processus créatif

Enfin, cette vision optimiste de l’I.A est relayée, dans un cadre plus général cette fois-ci, par le cabinet-conseil EY et plus précisément par son CTO Nicola Morini Bianzino. Dans cet article intitulé « Is AI the start of the truly creative human ? »89, le concept « d’augmentation » est à nouveau exploré, les bienfaits de l’I.A sont répartis entre trois dimensions :

- Libération de temps pour que les individus travaillent sur l’innovation - Développement d’opportunités pour utiliser de manière créative les technologies - Augmentation du processus décisionnel humain en combinant analyse orientée data et choix créatifs

L’idée fondamentale derrière cet article réside dans le fait que les technologies d’I.A permettent aux individus de se concentrer sur des tâches à forte valeur ajoutée dépourvues de redondances. Cette publication repense l’organisation du travail, notamment - de manière implicite - les fonctions associées au back-office, en valorisant les soft-skills et dans une certaine mesure la maîtrise des technologies de science des données. Il est donc légitime de se demander si les marketeurs se verront « contraints » de se former à la science des données pour trouver un équilibre entre hard et soft skills.

2.4.2. Formation des marketeurs à la science des données

L’implémentation de solutions de science des données à l’échelle organisationnelle nécessite des investissements en termes capitalistiques sur les dimensions matérielles et immatérielles (Blancheton,B., 2020)90. Plus concrètement, dans l’optique d’utilisation de technologies de science des données au sein d’un service marketing, l’investissement dans le capital humain est indispensable.

Le développement d’une « intelligence collective » articulée autour de synergies entre les expertises métiers constitue le prérequis pour mener à bien un projet de DS. Comme évoqué dans l’article « From Data to action : How can marketers leverage AI ? », le simple fait d’engager des « data scientists » n’est pas suffisant pour dégager toute la richesse potentielle de l’I.A. Les auteurs de cet article universitaire soulignent l’importance de combiner les connaissances d’experts en science des données avec celles des managers dont la vision est teintée d’une « profonde connaissance business et stratégique » (Campbell, C., Sands, S., Ferraro, C., Tsao, H.-Y. (Jody), & Mavrommatis, A., 2019). Au-delà de cette combinaison des expertises, les auteurs préconisent le développement d’une culture d’entreprise orientée « I.A », cette conduite du changement passe par la formation des individus aux fondements de ces technologies. L’objectif est de leur permettre d’appréhender, dans l’optique de leur expertise métier, les cas d’usages offerts par la science des données.

89 https://www.ey.com/en_gl/ai/is-ai-the-start-of-the-truly-creative-human 90 Blancheton, B. (2020). Sciences économiques (3rd ed.). , France: Dunod.

60 Dans le cadre de la discipline marketing, les outils de science des données sont majoritairement des « assistants » analytiques optimisant les processus décisionnels. De fait, individus et machines travaillent concomitamment sur des projets opérationnels et stratégiques. Le facteur humain étant toujours présent, le risque d’erreur (voire de biais) n’est pas exclu. Cette collaboration homme-machine rend nécessaire l’investissement dans la formation des marketeurs aux technologies d’I.A. Ceux-ci doivent être capables d’interpréter et de restituer de manière intelligible les données traitées par les technologies de DS et plus important encore, de déceler d’éventuelles erreurs quant à ce même traitement (mauvais paramétrage etc).

En somme, la formation des marketeurs à la science des données est un véritable travail de conduite du changement visant à rendre les individus « data literate ». En d’autres termes, de faire en sorte qu’un individu soit capable d’identifier, de collecter, de traiter, d’analyser et d’interpréter des données91.

2.4.3. Considérer les limites de la science des données

Comme je l’ai évoqué dans la partie « Une définition claire de la science des données ? », la DS est « une discipline académique et plus précisément une science visant à apprendre à partir d’ensemble de données ». Par ailleurs, comme le souligne Clément LEVALLOIS, « Big data is a mess » (Clément LEVALLOIS, Big data x business, 2017). Dès lors, la DS est une science visant à étudier le « chaos » informationnel ambiant. Bien entendu, ce sujet d’étude ne vient pas sans son lot de complexité. L’objectif de cette partie est de démystifier le côté « baguette magique » trop souvent attribué à la discipline de la science des données.

2.4.3.1. Prérequis : Une certaine volumétrie et qualité de données

Développer un projet de science des données repose sur de nombreuses variables, dans cette partie, je vais m’intéresser à ce qui constitue l’essence même de la discipline : la quantité et la qualité des données.

Concernant cette première dimension, il ne s’agit pas de la plus problématique dans la mesure où comme je l’ai étudié dans la partie « Comment collecter les données nécessaires à l’activité marketing ? », les organisations disposent aujourd’hui de solutions accessibles, tant en termes financiers que techniques, pour agréger des jeux de données internes et externes. Clément LEVALLOIS dans son cours « Big data x business » souligne le fait qu’un projet ayant attrait à la discipline de la science des données n’est pas uniquement conditionné par la volumétrie de données, finalement, tout dépendra de l’usage qu’une organisation souhaite retirer de son projet et de l’ampleur de ce dernier. Toutefois, les algorithmes les plus fréquemment utilisés, notamment, ceux de machine learning sont « dataphage ». En somme, l’enjeu de volumétrie des données n’est pas le plus grand défi auquel la science des données est confrontée. Bien entendu, l’optimisation algorithmique en vue d’atteindre une certaine frugalité quant aux prérequis volumétriques est tout à fait pertinente et permettrait de résoudre des enjeux écologiques notamment.

91 https://en.wikipedia.org/wiki/Data_literacy

61 La seconde dimension à savoir l’aspect qualitatif des données est un enjeu complexe pour la science des données. Une enquête menée par Harvard Business Review en collaboration avec Hugo Bowne-Anderson - docteur en statistiques et Data Scientist de renom pour la plateforme DataCamp – met en avant le fait qu’un expert de la science des données passe approximativement 80% de son temps à préparer et nettoyer les ensembles de données sur lesquels il doit travailler (Hugo Bowne-Anderson, 2018)92. Pour ce Data Scientist, ce pourcentage est très peu probable de perdurer dans le temps, car les experts de ce domaine développent pléthores de solutions open source palliant cette partie très chronophage de leur métier. Au-delà de cette dimension temporelle, les conséquences financières sont également lourdes pour les organisations, Gartner estime (en moyenne pour une entreprise) à 9.7 millions de dollars le coût annuel des données « inadéquates » (James CANNELLA,2018). Le sous- jacent est le suivant : Il est impossible de générer de la connaissance et de la valeur à partir de données « sales », l’étape de prétraitement est indispensable et par conséquent, la qualité des données est une « pierre angulaire » en science des données.

Désormais, considérons que les prérequis « techniques » exposés précédemment soient atteints, une organisation peut désormais, théoriquement, mettre en place un projet de science des données. C’est là qu’intervient la partie la plus essentielle d’un projet de science des données, à savoir définir le pourquoi et trouver des cas d’usages. Je traiterai de ce processus dans la partie suivante.

2.4.3.2. Besoins : Éviter de faire de l’I.A pour faire de l’I.A, les cas d’usages

Le processus d’implémentation de solutions orientées science des données doit suivre un objectif principal, celui d’apporter de la valeur à une organisation. Bien entendu, la valeur intrinsèque de cette science demeure substantielle du fait de sa dimension encore « lacunaire » et des possibilités pléthoriques d’innover dans ce domaine. D’où cette tentation de faire de l’I.A sans objectif clairement définis.

Un écueil à éviter à l’égard de la science des données et plus particulièrement du « Machine Learning » est de se laisser envouter par la « hype » de la discipline et de vouloir « faire de l’I.A pour faire de l’I.A » (Taha ZEMMOURI, 2019). Le cabinet-conseil Gartner résume parfaitement cette approche en identifiant chaque année le niveau d’attente (associé à une dimension temporelle) à l’égard des technologies les plus en vogue (Cf. Schéma ci-dessous).

92 Hugo Bowne-Anderson, What Data Scientists Really Do, According to 35 Data Scientists, Harvard Business Review, 2018, https://hbr.org/2018/08/what-data-scientists-really-do-according-to-35-data-scientists

62

J’ai eu l’opportunité de suivre un module de spécialisation dispensé par la prestigieuse Johns Hopkins University et plus précisément par les docteurs en science des données et bio- statistiques Jeff LEEK, Brian CAFFO et Roger D. PENG93. À l’égard du sujet traité, leurs recommandations convergent sur un point, préalablement au déploiement - souvent coûteux- d’un projet de science des données, une organisation doit s’interroger sur les impacts organisationnels et plus précisément la valeur ajoutée que peut potentiellement dégager un tel projet.

Le sous-jacent est de considérer, dans une optique « business », la science des données comme étant un simple moyen permettant de dégager les richesses endormies des organisations. J’apprécie tout particulièrement l’expression de « richesses endormies », car ce dernier met en avant le fait que l’ensemble des ressources nécessaires à un projet de science des données se trouvent – la plupart du temps- « sous les yeux » de l’entreprise. Cette hypothèse est par ailleurs corroborée par le bureau d’étude IDC dont une enquête a révélé que le pourcentage de traitement des données générées par une organisation est inférieur à 1% (IDC Digital Universe, 2020)94.

93 Executive Data Science, Johns Hopkins University, Coursera, 2019 94 https://www.em-lyon.com/fr/faculte-recherche-enseignement-superieur/faculte-recherche-emlyon/recherche- entrepreneuriat/Chaires-et-projets/segeco-emlyon

63

Il s’agit donc dans un premier temps de qualifier les besoins analytiques d’une organisation, d’identifier les questions auxquelles on souhaite répondre et enfin de caractériser les données à exploiter.

Les techniques complexes de « Machine Learning » ne sont pas toujours les solutions les plus adaptées aux problèmes organisationnels. Une entreprise peut très bien se contenter de mettre en place des processus d’analyse de données exploratoires (EDA)95 combinés avec des résumés statistiques des jeux de données. Il s’agit de processus de science des données efficaces, « accessibles » et interprétables. En somme, ces « simples » techniques statistiques remplissent les prérequis d’un projet de science des données, à savoir créer de la connaissance à partir de jeux de données. Vous pouvez retrouver ci-dessous la cartographie d’un projet de science des données exposée par les docteurs J. LEEK, B. CAFFO et R. D. PENG :

96

Pour revenir au concept de « hype » technologique parfaitement résumé par la courbe de Gartner, il est légitime de s’interroger sur la fin de l’I.A telle que nous la connaissons aujourd’hui. Plus précisément, il convient de modérer nos attentes à l’égard de ces technologies, de ne pas les considérer comme des « baguettes magiques » et par-dessus tout de continuer à financer la recherche dans ce domaine. Seule la considération de ces trois facteurs et la sagesse des individus permettront d’éviter un nouvel hiver de l’I.A, sujet dont je traiterai dans la partie suivante.

2.4.3.3. Éviter un nouvel « hiver de l’I.A » : les précautions à prendre

J’ai eu la chance de pouvoir assister à une conférence intitulée « Intelligence Artificielle : Mythes et Réalités ». Cette table ronde organisée à emlyon business school réunissait des professionnels et des professeurs spécialisés en science des données. Je m’appuie sur cet évènement notamment, car Amélie CORDIER - directrice scientifique chez Hoomano et docteur en I.A – a exposé le concept d’hiver de l’I.A.

95 https://en.wikipedia.org/wiki/Exploratory_data_analysis 96 Executive Data Science, Johns Hopkins University, Coursera, 2019

64

Plus précisément, la chercheuse soulignait le fait que le spectre historique des progrès en I.A alterne entre des phases d’accélération et de décélération brutales. Depuis l’invention du terme d’I.A par John McCarthy en 1956 à la conférence de Darthmouth, la discipline a connu deux périodes de « marasme » quant à l’investissement, la recherche et finalement au développement de la discipline. Ces deux hivers de l’I.A ont eu lieu respectivement en 1970 et 1980. En accord avec le cycle de Gartner, le Machine Learning, à savoir la partie capturant la majeure partie des investissements en I.A, est en passe de basculer dans la phase de désillusion. Comme le souligne l’article de Forbes intitulé « Are We Heading For Another AI Winter Soon? »97, il n’est pas exclu que la discipline se dirige à nouveau vers une période de désintérêt. À l’instar de ce que j’ai souligné dans la partie précédente, l’article met en avant le fait que les attentes à l’égard de l’I.A sont trop élevées et les résultats trop peu convaincants, une conséquence possible et particulièrement regrettable serait un retrait progressif des investissements dans la discipline.

Les solutions permettant d’éviter l’avènement d’un nouvel hiver de l’I.A tiennent à la « constance » des investissements dans la recherche. Il s’agit d’aller au-delà de la simple dimension commerciale de ces technologies bien que les cas d’usages soient primordiaux pour garantir la « perceptibilité » de l’I.A par le grand public. Par ailleurs, nous devons apprendre à modérer nos attentes et ne pas céder aux comportements moutonniers pour reprendre l’expression de John Manyard Keynes.

En somme, pour prévenir (ou repousser) la venue d’un troisième hiver de l’I.A, il faut prévenir la spéculation – financière, universitaire et intellectuelle – à l’égard de la science des données.

2.5. La science des données, le marketing, ses synergies : quelle éthique ?

La quantité de données grandissante- et la manière dont nous traitons ces dernières soulèvent de nombreux enjeux. Le célèbre mathématicien Cédric VILLANI – titulaire de la Médaille Fields – met en avant ces défis dans son rapport intitulé « donner un sens à l’intelligence artificielle »98. Ce recueil très exhaustif donne les points clés à suivre pour aboutir à une stratégie européenne à l’égard de l’I.A ; une stratégie efficace, juste et éthique. Le mathématicien préconise d’ « ouvrir la boîte noire » de l’I.A et d’assurer la transparence, l’audibilité et l’explicabilité des technologies de science des données (Cédric VILLANI, 2018). Dans les paragraphes suivants, j’entrouvrirai la boîte noire de l’I.A dans sa dimension globale tout en apportant un éclairage à l’égard de la discipline marketing.

2.5.1. Un marketing chirurgical, moins accablant, mais plus intrusif

J’ai déjà utilisé le terme de « marketing chirurgical » à plusieurs reprises dans ce mémoire. Ce néologisme représente à mes yeux la manière la plus adaptée pour décrire les nouvelles synergies entre I.A et marketing. En effet, la combinaison de ces deux disciplines, comme je l’ai déjà évoqué précédemment, permet de développer des stratégies non plus dédiée à une masse (segment de marché/population), mais à un individu. À terme, l’ensemble des points

97 https://www.forbes.com/sites/cognitiveworld/2019/10/20/are-we-heading-for-another-ai-winter- soon/#6e50e2aa56d6 98 Cédric VILLANI, Donner un sens à l’intelligence artificielle, 2018

65 de contact entre une organisation et un client ainsi que les variables du marketing mix feront l’objet d’une « hyperpersonnalisation ». Dans une optique optimiste, faire tendre la discipline du marketing vers du sur-mesure ne semble pas être pernicieux dans la mesure où cela pourrait garantir une réduction de la pression publicitaire omniprésente (4000-10000 pubs visionnées par jour et par personne selon Forbes) et la satisfaction parfaite du besoin en termes de produit, de prix ou encore d’accessibilité.

Toutefois, se contenter de percevoir le seul côté positif de ce marketing chirurgical revient à négliger les coûts associés. Le développement de la personnalisation et donc d’un marketing adapté à l’individu (et non plus au groupe) n’est possible qu’au prix d’un sacrifice d’une partie de notre « anonymat » et de notre vie privée. Par ailleurs, les données que nous concédons aux organisations peuvent nous paraître dérisoires – c’est notamment le cas des métadonnées- d’autant plus que ces dernières ne disposent pas de valeur intrinsèque. Toutefois, ces mêmes organisations à qui nous confions des volumes astronomiques de données sont en mesure de les traiter, de les agréger et d’en retirer de la connaissance. Le danger quant à ce consentement désinformé, à savoir à la cession de nos données, tient dans le lègue d’une partie de notre souveraineté et de notre liberté individuelle. Plus important encore, nous concédons, par ignorance le plus souvent, de la connaissance.

L’exemple le plus marquant me venant à l’esprit quant à cette cession de connaissance est celui des infrastructures de Data Mining mis en place par l’enseigne Target. La chaîne de magasins dispose d’un système complexe de recommandation produit reposant sur un système de scoring lui-même développé grâce aux comportements d’achat des individus. Ce même système a été capable de déceler la grossesse d’une cliente avant même que cette dernière ne soit au courant (Forbes, 2012). Cet exemple met en exergue la crainte que j’éprouve quant à la cession de connaissances, plus précisément, les organisations en mesure de collecter et de traiter convenablement des données peuvent finir par mieux nous connaître que nous même.

Finalement, au-delà des simples « manipulations » commerciales dont nous pouvons faire l’objet, la science des données soulève des enjeux plus « profonds » dans la mesure où l’influence voire la manipulation peuvent s’enraciner au sein de domaines plus cruciaux et donc globalement remettre en cause notre libre arbitre voire notre liberté individuelle. Je vous invite à vous référer à l’annexe 11 (page 109) pour identifier de manière synthétique les enjeux éthiques de l’I.A associée au marketing.

2.5.2. Influence ou manipulation : une frontière floue

La science des données est la discipline consistant à créer des connaissances en traitant des ensembles de données. Par ailleurs, une stratégie d’influence et plus précisément son degré d’efficacité sont conditionnés par le degré de connaissance que l’on a de l’entité sur laquelle on souhaite exercer son influence. De fait, il est légitime de considérer la science des données comme une discipline vectrice d’un certain pouvoir d’influence voire de manipulation. Bien entendu, il convient ici de distinguer sémantiquement ces deux notions qui respectivement renvoient à une dimension « neutre » pour l’influence et pernicieuse pour la manipulation.

66 Le recueil académique de l’université de Stanford intitulé « Stanford Encyclopedia of Philosophy » et plus particulièrement l’article « Ethics of Artificial Intelligence and Robotics »99 met en avant le potentiel de l’I.A dans le domaine de la manipulation comportementale. Plus précisément, selon l’auteur Vincent C. MÜLLER, les enjeux des technologies de science des données vont bien au-delà de la simple collection de données, pour lui tout l’enjeu réside dans la façon dont nous traitons ces dernières. L’utilisation des jeux de données peut aboutir à une manipulation tout à la fois digitale et physique des individus, le danger est simple, les organisations peuvent « porter atteinte aux choix rationnels d’individus autonomes » ( Müller, Vincent C., 2020). Cet article met en lumière la crainte que j’évoquais dans la partie précédente, à savoir, l’atteinte aux libertés individuelles, sujet qui me tient à cœur depuis mon exploration du livre de Milton FRIEDMAN, Capitalisme et Liberté.

Le professeur de philosophie ayant rédigé cet article souligne le fait que la manipulation comportementale n’est bien entendu pas nouvelle, mais que de nouveaux risques émergent du fait de nos capacités accrues à collecter, stocker et analyser des données. Désormais, une organisation peut opérer des manipulations plus précises en fondant ses décisions sur des modèles algorithmiques dont l’output sera vraisemblablement dépourvu de notions éthiques et concentré sur l’efficacité (à moins que des garde-fous « éthiques » aient été implémentés dans ces mêmes algorithmes, Cf. partie suivante).

Avant d’apporter un éclairage à l’égard des manipulations possibles dans la discipline marketing, je souhaite me concentrer sur un cadre plus général où les conséquences se révèlent être plus « dramatiques ». L’événement le plus représentatif du pouvoir de la science des données en termes de manipulation est indéniablement le scandale impliquant Facebook et Cambridge Analytica dans le cadre de l’élection du président des États-Unis, Donald J. TRUMP. Il est difficile de qualifier l’ontologie de cet événement sur le spectre s’étendant de l’influence à la manipulation, cependant, une chose est certaine, le libre arbitre d’une partie du peuple américain a fortement été altéré par du contenu ultra-personnalisé jouant sur des leviers comportementaux propres à chaque individu. Le documentaire intitulé « The great hack » (Netflix, 2019) souligne par ailleurs le fait que plus de 5000 points de contact – à savoir des points de connaissances potentiels – avaient été identifiés pour chaque citoyen américain en capacité de voter. Ce « scandale » met en exergue le pouvoir « caché » de la connaissance et le devoir de tout un chacun de protéger sa souveraineté numérique de ces nouvelles forces invisibles.

Cette notion d’invisibilité est exposée par William Ammerman dans son livre intitulé « The Invisible Brand: Marketing in the Age of Automation, Big Data, and Machine Learning »100. L’auteur « travestit » l’expression de « Main invisible » que l’on retrouve chez Adam SMITH dans son ouvrage « La richesse des nations » pour souligner le fait que l’I.A est aujourd’hui une nouvelle force économique cachée dont l’impact sur les choix individuels de chacun est substantiel.

99 Müller, Vincent C., "Ethics of Artificial Intelligence and Robotics", The Stanford Encyclopedia of Philosophy (Summer 2020 Edition), Edward N. Zalta (ed.), forthcoming URL = . 100 Ammerman, W. (2019). The Invisible Brand: Marketing in the Age of Automation, Big Data, and Machine Learning. New York, United States: McGraw-Hill Education.

67 L’auteur expose le fait que chaque individu renonce à de la richesse, à savoir des données pour obtenir en contrepartie des biens et services répondant à ses attentes – concept que j’ai exposé dans la partie précédente. Lors d’une interview101, l’auteur exposait le fait que la cession de ces données doit être fondée sur la transparence, la confiance et un comportement éthique de la part des deux parties. Par ailleurs, William Ammerman souligne le fait que la relation organisation-individu dont la dimension est fortement augmentée par l’I.A doit être équilibré « It’s about persuasion, not coercion or deception » (Ammerman, W, 2019). Finalement, cet expert en I.A nous livre un « guide » éthique aux pratiques du marketing à l’ère de l’I.A. Son approche optimiste demeure toutefois limitée dans la mesure où la tentation reste grande pour les organisations de tirer parti des volumes gargantuesques de données à leur disposition.

La question de l’éthique se pose donc dès la conception des technologies de science des données. Je m’intéresserai dans la partie suivante à la dimension constitutive de ces dernières ainsi qu’aux possibilités de régulation.

2.5.3. Garantir la sécurité des données, garantir la sécurité des individus

J’ai eu l’opportunité de découvrir l’importance du concept de « privacy by design » au cours de mon premier stage au sein d’une entreprise spécialisée en I.A appliquée aux images. Plus récemment, au cours de mon année de master à emlyon business school, j’ai pu approfondir ma connaissance dans ce domaine grâce à ma spécialisation « creative technologist » et plus précisément au travers des enseignements de Ilann ADJEDJ dispensés dans son cours « Processing with A.I ».

Le concept du « privacy by design » renvoie au processus de construction de biens et services et plus particulièrement à l’intégration de notions éthiques ayant attrait au respect de la vie privée des utilisateurs. Dans le cadre de l’I.A, les enjeux sont nombreux, notamment sur les processus de collecte et de traitement des données (anonymat, consentement, outputs et bien d’autres).

Le mathématicien Cédric VILLANI expose, dans son rapport cité précédemment, le fait qu’en termes d’I.A, il faut « Penser l’éthique dès la conception » (Cédric VILLANI, 2018). Il ne s’agit plus de se comporter comme Épiméthée, à savoir de réfléchir après-coup, les enjeux que représente l’I.A nous ôtent cette marge d’erreur. Les impacts sociaux économiques, sanitaires, voire militaires, sont trop important pour ne pas penser l’éthique lors de la construction de ces technologies. Pour illustrer très concrètement le danger à l’égard d’une conception imperméable à l’éthique, il suffit d’imaginer un système « d’armes létales autonomes » (Cédric VILLANI, 2018), le danger de ces technologies d’I.A réside dans leur capacité à prendre des décisions de façon autonome. Sans plonger dans des débats sur l’ontologie de la morale, il est indispensable d’inculquer des « limites » et des fondements « éthiques » aux algorithmes capables d’effectuer des choix pouvant entraîner la survie ou la mort d’un individu. Pour recentrer mon explication du cadre éthique de l’I.A sur la dimension de la sécurité des données, il me semble nécessaire de traiter de la souveraineté des données. Il existe deux

101 https://bombbomb.com/blog/ai-ethics-in-marketing-william-ammerman-the-invisible- brand/#Ethical_Considerations_of_Technology_for_Businesses

68 niveaux de souveraineté à l’égard de l’utilisation des données : La souveraineté individuelle et nationale.

J’ai eu la chance d’échanger sur ce sujet lors du cours « Connecting with IOT » dispensé par Clément LEVALLOIS à emlyon business school. Plus précisément, après avoir fait un état de l’art des solutions disponibles en termes de stockage et de traitement des données, il est apparu sans surprise que l’hégémonie américaine importunait notre souveraineté informationnelle et digitale. La situation monopolistique occupée par les GAFAM et plus particulièrement le côté « grand public » de leurs solutions entraîne une dépendance des peuples à l’égard de leurs solutions. Il ne serait pas erroné de dire que nous avons perdu notre souveraineté de la connaissance. Bien entendu l’avènement de régulations à l’échelle européenne comme le RGPD pourrait être perçu comme une initiative forte quant à la protection des données, ce qui est le cas puisque notre souveraineté individuelle en est légèrement augmentée. Toutefois, la souveraineté nationale en demeure inchangée, preuve en est, le CLOUD Act ( Clarifying Lawful Overseas Use of Data Act)102 adopté en 2018 suite à l’instauration du RGPD. Cette loi fédérale autorise le gouvernement américain à saisir des données appartenant à des entreprises et individus (de toutes nationalités) si ces dernières sont stockées sur des serveurs américains, tout ceci sans le consentement des individus/organisations concernés.

Cette question de la souveraineté pose des enjeux colossaux en termes d’infrastructures, de cadre juridique et finalement d’indépendance des individus. Il est également clair que « l’attirail » développé par les institutions gouvernementales ne suffit pas à garantir la sécurité des données de leurs concitoyens. Dès lors, la sécurité informationnelle devient, de fait, un enjeu individuel où les personnes en situation d’information incomplète se voient lésés et arrachés une partie de leur liberté/propriété.

Les enjeux les plus importants à l’égard des technologies de science des données sont exposés de manière synthétique dans le graphique suivant (Benkert, C.M., 2019), c’est sans surprise que nous retrouvons l’enjeu de la vie privée en haut de ce classement :

103

102 https://fr.wikipedia.org/wiki/CLOUD_Act 103 Benkert, C.M. (2019). Ethics & AI: Identifying the ethical issues of AI in marketing and building practical guidelines for marketers.

69

2.5.4. Les biais en science des données : « I-methodology »

La science des données et plus particulièrement l’I.A n’entraîne pas de nouvelles formes de « mauvais comportement » ni de nouveaux biais. C’est ce qu’avance Toby WALSH – Docteur et professeur en I.A – dans un TedTalk intitulé « AI and Ethics »104. L’idée avancée par cet expert en I.A tient dans le fait qu’aujourd’hui, nos biais, nos erreurs et finalement nos comportements pernicieux sont « augmentés » par le développement de technologies plus puissantes, « New technology makes us behave badly, faster, cheaper, quicker, easier. » (Toby WALSH, 2018)105. Finalement, le sous-jacent de cette conférence veut que les technologies de science des données soient neutres. Bien qu’il s’agisse d’une vision « discutable » - qui nécessiterait un mémoire de recherche complet – je vais considérer ce postulat comme acceptable pour me pencher sur une composante éthique importante de ces technologies, à savoir la manière dont nous les construisons et dont nous altérons leur neutralité.

Lors de mon échange universitaire à York University, j’ai suivi le cours du docteur Kamilla PETRICK intitulé « Digital discourse and design »106, le sujet d’étude principal de ce cours visait à appréhender la dimension éthique au sein du processus de construction des technologies digitales. Une dimension particulièrement importante mise en avant dans ce cours était celle des biais algorithmiques que l’on retrouve dans les systèmes informatiques en règle générale. Le docteur PETRICK met en exergue l’omniprésence du concept de « I- methodology » dans les technologies de science des données et notamment d’I.A. Cette méthodologie de « design » se réfère à la situation dans laquelle le développeur d’un bien ou d’un service se considère comme représentatif des utilisateurs potentiels. En d’autres termes, il s’agit d’un design « égocentrique ».

Il est facile de comprendre qu’une méthode de développement fondée sur la « I-methodology » peut entraîner des biais conséquents, notamment en termes d’I.A. On peut notamment penser aux technologies de computer vision dont l’efficacité et la généralisation dépendent fortement des données sur lesquelles celles-ci ont été entraînées. Un biais inhérent à cette méthodologie serait d’entraîner un modèle de détection de sentiment sur des images d’individus d’une seule et même ethnie (sa propre ethnie). L’importance de prévenir l’utilisation de « I-methodology » est d’autant plus importante aujourd’hui, car les technologies de science des données opèrent un rôle accru dans des processus décisionnels impactant directement la vie des individus.

Les États-Unis utilisent par exemple des systèmes d’I.A pour évaluer les probabilités de récidives des délinquants. L’entrée de ces technologies dans le système judiciaire est un choix fort prouvant que l’I.A pénètre les couches fondatrices de nos sociétés. Le degré de confiance que nous attribuons à ces technologies peut également se révéler être dangereux dans la mesure où, dans le cadre judiciaire, les technologies de science des données sous estimaient le risque de récidive des personnes blanches tout en surestimant ce même risque pour les

104 https://www.ted.com/talks/toby_walsh_ai_and_ethics 105 Walsh, T. (2018). AI and Ethics, https://www.ted.com/talks/toby_walsh_ai_and_ethics 106 Petrick K. (2018). Digital Discourse and Design, York University

70 personnes noires (Jackson, M., & Shelly, M., 2020)107. Des biais discriminatoires similaires ont pu être recensés dans des domaines comme la santé, le financement ou encore à l’embauche.

Finalement, l’objectif en I.A est avant tout de ne pas pérenniser nos biais individuels au sein de ces technologies. En somme, de penser l’éthique dès la conception comme le préconise Cédric VILLANI. Cette réflexion préliminaire doit se concentrer sur trois variables principales, à savoir, la qualité des données utilisées durant les périodes d’entraînement d’un modèle, l’explicabilité des décisions de ce dernier et enfin l’enseignement des notions d’éthiques en science des données (Pour les individus développant ces solutions).

Méthodologie

Synthèse

La méthodologie que j’ai mise en place consiste à combiner une étude qualitative et quantitative. Plus précisément, je souhaite contacter des experts du marketing et de la « data science » pour obtenir des données riches ,fiables et diversifiées. Concomitamment à cela, je souhaite enrichir cette méthodologie en faisant appel à de la recherche documentaire pour assurer un volume de données substantiel.

1. Description générale de la méthodologie

La problématique de mon mémoire, à savoir, « Déterminer la mesure dans laquelle la science des données et plus particulièrement la branche de l’intelligence artificielle entraîne une refonte de la discipline du marketing » se révèle être un sujet très niche faisant appel à des expertises sectorielles. C’est une des raisons pour lesquelles je souhaite fonder ma méthodologie de collecte de données sur une enquête qualitative et une « étude documentaire » afin de garantir l’exhaustivité, la diversité et finalement la véracité de mon ensemble de données.

Fonder mon approche uniquement sur une méthodologie quantitative développée individuellement risque de conduire mon analyse vers du « bias samplig » et de rendre cette dernière non représentative de la population que je souhaite étudier. En d’autres termes, je souhaite garder le contrôle de la population que je vais étudier dans l’optique de collecter des données peu « bruyantes » et « véridiques ».

En somme, combiner des études quantitatives de grande ampleur avec une étude qualitative que j’ai modélisée me semble être le meilleur moyen d’accéder à la fois à des informations précises et ce dans un volume substantiel.

2. Les outils servant cette méthodologie de collecte de données

2.1. Étude qualitative

107 Jackson, M., & Shelly, M. (2020). Legal Regulations, Implications, and Issues Surrounding Digital Data. Melbourne, Australia: IGI Global.

71 J’ai mis en place une méthodologie qualitative fondée sur des entretiens exploratoires. Au cours de ces derniers, j’interroge une population d’experts provenant du milieu de la data science et du marketing. L’objectif est de conduire l’échange en suivant une méthode « semi- directive » pour garantir une collecte de données relativement cadrée tout en mettant en exergue la richesse des expériences des interlocuteurs. Les questions posées sont toutes « ouvertes ».

2.1.1. Population interviewée

L’objectif de ma méthodologie est d’interroger des profils complémentaires dans les deux disciplines mentionnées précédemment. Plus précisément, je souhaite orienter ces entretiens sur deux volets :

• Académique • Professionnel

J’ai établi une liste de candidats potentiels pour ces entretiens. Pour constituer cette liste, je me suis appuyé sur les rencontres que j’ai pu effectuer au cours de mon parcours académique et professionnel. La richesse de ce bassin de candidat tient dans le fait que cette population provient de milieux académiques variés, à savoir, l’ingénierie, le management et l’administration des entreprises.

J’ai constitué cette liste sur le concept d’hybridation, en effet, nous pouvons retrouver au sein de cette dernière des profils d’universitaires/docteurs, de marketeurs, de « data scientists » ou encore de consultants.

Au fur et à mesure des entretiens que j’ai menés, j’ai pu affiner les besoins informationnels nécessaires à la rédaction de mon mémoire. Après avoir mené six entretiens exploratoires d’une durée moyenne de 37 minutes, j’ai pu atteindre un point d’équilibre dans la mesure où les individus que j’avais interrogés étaient parfaitement répartis entre profils « marketing » et « data scientist » et par-dessus tout, car la richesse desdits entretiens m’a permis d’atteindre une redondance informationnelle. J’ai donc décidé de conclure cette phase qualitative de recherche.

Je vous invite à consulter ce lien pour découvrir la plateforme web que j’ai mise en place pour mener mes entretiens semi-directifs. Il s’agit d’un cadre de travail interactif développé à l’aide de l’outil Notion.

2.2. Étude quantitative

Comme évoqué dans la description générale de ma méthodologie, je souhaite combiner des données qualitatives et quantitatives pour construire un ensemble de connaissances exhaustif. L’objectif principal de cette partie quantitative sera de recueillir des données pertinentes (avec une dimension substantielle) en provenance d’observations réalisées par des experts en études de marché.

2.2.1. Étude documentaire

72 Pour mener cette étude documentaire, je me suis appuyé sur la typologie d’organisation et de supports ci-dessous :

• Cabinets-conseils • Bureau d’études statistiques / sectorielles • Organisations spécialisées en marketing et/ou data science • Mémoires de recherches • Publications académiques • Conférences / Webinaires

Bien entendu, au-delà de l’utilisation de ce type de ressources pour ma méthodologie quantitative, je me suis également appuyé sur ce type de support pour la rédaction de ma revue de littérature.

À l’instar de la population que j’ai interviewée dans mon étude qualitative, cette étude documentaire est fondée sur une dimension « académique » et « professionnelle ».

Mon objectif est de transformer ces données en connaissance concrètes, c’est l’une des raisons pour laquelle je souhaite que celles-ci respectent plusieurs conditions, que l’on retrouve notamment en big data, à savoir :

• Le volume • La véracité • La variété • La valeur

Résultats

Pour présenter les résultats de mes recherches qualitatives et quantitatives, je m’appuierai sur une approche « synthétique » des questions évoquées dans mon guide d’entretien (disponible ici). En d’autres termes, les résultats présentés dans les paragraphes ci-dessous reflètent les « tendances » observées au cours des interviews, ceux-ci représentent des « connaissances » agrégées. Bien entendu, j’approfondirai ce contenu synthétique en y ajoutant des « verbatims » et des éclairages tirés d’interviews précises.

1. Présentation des résultats des entretiens semi-directifs

Pour faciliter la retranscription des entretiens et finalement optimiser l’appréhension des connaissances dégagées au cours de ceux-ci, j’ai mis en place une méthode d’entretien dite « semi-supervisée ». J’ai articulé ces séances autour de deux expertises (marketing et science des données) et de cinq questions principales. J’utiliserai cette « trame » - fondée sur le principe de « datasagesse » - pour présenter les résultats obtenus.

1.1. Dimension marketing

Les personnes interviewées pour cette partie dédiée au marketing sont :

73 Alexandra RUILLIER : Consultante chez Wavestone, Ingénieure de formation (Diplômé de l'ENSEEIHT et de HEC)

Léa BORY : Data insight strategist chez 65db, diplômée Paris en communication

Robert REVAT : Professeur à emlyon business school et consultant chez NOVA7, docteur en science de gestion et diplômé emlyon

Question 1 : Quelle est votre définition de la science des données (et plus précisément de l’I.A) ?

Ce qui ressort de ces trois interviews – menées dans le cadre de la dimension marketing – à l’égard de la définition de la science des données est assez convergeant dans la mesure où la dimension attribuée à cette discipline est avant tout orientée « outil » et « gestion ». La grande tendance que j’ai pu déceler tient dans la dimension analytique et la façon dont les organisations peuvent exploiter leurs données brutes. Un éclairage particulièrement intéressant que le professeur Robert REVAT a mis en avant est celui de volumétrie et d’automatisation. Pour cet expert en marketing, la science des données vise à tirer profit des flux de données « énormes et continus » dont disposent les organisations, et ce de manière automatique.

Cette notion de l’automatisation m’amène vers la seconde partie de la question à savoir l’appréhension de la notion d’I.A. Deux dimensions fondatrices de ce type de technologies ont été mise en avant au cours des entretiens : Automatisation et Apprentissage. Tout d’abord le terme d’automatisation se réfère selon les interviewés aux techniques permettant d’automatiser certaines tâches du travail humain et dans notre cas la gestion « analytique » des données. La dimension « d’apprentissage » quant à elle renvoie au concept de machine apprenante et d’auto-alimentation algorithmique grâces aux jeux de données.

Un autre point important soulevé par deux des interviewés concerne l’existence de l’I.A. Pour ces deux personnes, l’I.A relèverait aujourd’hui plus du rêve que de la réalité. Les technologies d’I.A ne correspondraient pas à de l’intelligence « pure ».

Voici quelques verbatims synthétisant les points de vue sur cette première question :

« Le truc ultime, c'est de prendre des décisions de manière automatique pour retirer quelque chose de la connaissance que l'on vient de créer. Ça, c'est l'I.A. » (Robert REVAT, 2020)

« L'I.A et finalement l'informatique au sens large c'est faire plus rapidement et dans un volume plus large ce que pourrait faire un humain. » (Léa BORY, 2020)

« L’objectif de l’intelligence Artificielle c’est de créer un système qui va s’autoalimenter et auto apprendre avec les informations qu’il collecte au fur et à mesure. » (Alexandra RUILLIER, 2020)

Question 2 : En tant que marketeur, où réside pour vous la valeur ajoutée de la science des données ?

74 À nouveau, les éclairages que j’ai pu obtenir sur cette question convergent. La dimension de la compréhension du client et plus précisément de la personnalisation reviennent systématiquement. Ce processus de décision plus informé est également enrichi par Robert REVAT qui met en avant la dimension de l’instantanéité décisionnelle apportée par la science des données.

L’ensemble de ces observations confirment par ailleurs mon hypothèse de notre entrée dans l’ère du marketing chirurgicale. Léa BORY évoque cette dimension en soulignant l’impact de la science des données sur le marketing mix notamment en ce qui concerne le passage de l’intuition à la réalité chiffrée.

En somme, la tendance que j’ai pu percevoir au travers de cette seconde question touche grandement à la connaissance du client et tous les avantages marketing qui en découlent. Au- delà de cette dimension, l’importance de la science des données dans le processus décisionnel est également substantielle comme le souligne Robert REVAT. Les verbatims ci- dessous synthétisent les éclairages apportés par les interviewés :

« La valeur ajoutée ultime c'est la prise de décision et l'action rapide, de façon individualisée. » (Robert REVAT, 2020)

« Notre objectif c'est de permettre aux organisations de s'immerger dans les pensées des consommateurs. » (Léa BORY, 2020)

« La puissance de la data science c'est de pouvoir connaître tes clients. » (Alexandra RUILLIER, 2020)

Question 3 : Percevez-vous des changements quant aux fondations mêmes de la discipline du marketing ? Un changement de paradigme ?

Les trois personnes que j’ai eu l’opportunité d’interviewer sont unanimes quant au fait que la science des données influence la discipline du marketing sur le plan quantitatif. J’ai collecté la majorité des éclairages quant à la révolution du paradigme marketing lors de mon entretien avec Robert REVAT. Ce dernier dispose d’un point de vue académique qui se révèle très adapté à l’égard de cette question interrogeant les fondements de la discipline marketing.

Pour exposer synthétiquement la vision de ce professeur, la science des données serait à l’origine du renforcement « scientifique » et « chiffré » du marketing. Les décisions se fondent désormais sur des observations de grande ampleur, précises et individualisées. Les conséquences de ce changement se traduisent par un marketing augmenté avec des performances (ROI) très élevées. Ce spécialiste du marketing souligne par ailleurs le fait qu’au fur et à mesure que les pratiques mutent, l’enseignement doit lui aussi changer et embrasser les technologies de science des données.

L’impact de ce nouveau paradigme marketing agit sur les usages, les enseignements et finalement la dimension métier, on peut résumer ces évolutions au travers des verbatims suivants :

75 « La meilleure connaissance des comportements clients permet d'avoir un marketing plus efficace. » (Robert REVAT, 2020)

« On peut encore plus influencer les clients qu'auparavant. » (Robert REVAT, 2020)

« Pour moi, le paradigme "data centric" est un acquis. Mais il y a un réel enjeu d'évangélisation sur ce côté "data" dans le marketing. » (Léa BORY, 2020)

Question 4 : Quelles technologies, appartenant au monde de la data science, représentent pour vous la plus grande opportunité ?

Les personnes que j’ai interrogées dans cette partie de mon enquête qualitative ne sont pas des datas scientists, toutefois, ces derniers ont pu identifier des technologies dont la valeur ajoutée se révélera substantielle pour la discipline marketing. Les quatre catégories identifiées sont le NLP/NLU, l’IOT, la vision par ordinateur et plus largement la branche du machine learning.

À nouveau, le spectre allant du processus de collecte vers le traitement de la donnée est au premier rang. Les marketeurs peuvent par exemple utiliser l’IOT pour collecter des données précises sur les consommateurs (Robert REVAT, 2020) pour ensuite les traiter avec les technologies susmentionnées afin de dégager de la connaissance à l’égard des individus.

Comme le souligne Robert REVAT, « Tout ce qui nous permet de mieux comprendre le client nous permet de faire un marketing plus efficace. » (Robert REVAT, 2020), dès lors – dans une optique de non « technicien » - peu importe la technologie de science des données utilisées, cette dernière sera génératrice de valeur pour le marketing à partir du moment où elle permet de générer de la connaissance client.

Question 5 : Quelles limites pour la science des données ?

Cette partie de l’interview est la plus « éclairante » dans la mesure où les différents points de vue se complètent et les personnes interviewées n’abordent pas le sujet sous le même angle. De manière synthétique, les enjeux évoqués au cours des entretiens étaient ceux de la sécurité, de la liberté individuelle, du juridique, des limitations technologiques et finalement de l’éthique au sens large.

L’éclairage le plus important et le plus transverse que j’ai pu relever concerne celui de la liberté individuelle. La cession des données qu’effectuent quotidiennement les internautes doit-être informée et consentie de manière explicite. Léa BORY souligne le fait que le cadre juridique Européen apparaît relativement complet à cet égard, pour elle, un enjeu plus approfondi est celui de la monétisation des données personnelles, symbole de liberté individuelle (Cf. Gaspard KOENIG). Cette interviewée souligne également l’importance des méthodes de construction des solutions de science des données, il faut pour elle éviter d’implémenter ses biais personnels dans ce type de technologies (Cf. Partie « Les biais en science des données : « I-methodology » »).

La dimension de la limite technologique et plus précisément de la modération de nos attentes à l’égard des technologies est également un point important. C’est l’un des points soulevés

76 par Alexandra RUILLIER qui souligne le fait que nos limitations computationnelles se révèlent être un frein à l’égard de la science des données et qu’il faut raisonner nos attentes actuelles à l’égard de ces technologies. Toutefois, cette consultante demeure confiante quant à l’avènement – plus ou moins rapide - d’une singularité informatique (une I.A pure).

Dans une optique très orientée marketing, Robert REVAT met en avant le fait que la science des données peut devenir l’instrument de pérennisation d’un système de surveillance servant le productivisme et le consumérisme. Ce professeur met en garde contre les usages de ces nouveaux outils et préconise de déterminer les intentions sous-jacentes lors de l’utilisation des technologies de science des données.

Pour résumer, cette question soulève des enjeux majeurs que l’on pourrait catégoriser en deux grands ensembles, la liberté individuelle et l’éthique, les verbatims ci-dessous corroborent cette taxonomie :

« Dès que tu touches à l'informatique, il faut penser sécurité derrière. » (Alexandra RUILLIER, 2020)

« Je pense qu’aujourd’hui la question de l’éthique a bien été prise en charge par le juridique. » (Léa BORY, 2020)

« Si la personne qui collecte les données ne pense qu’à sa personne, on ne peut pas avancer. » (Léa BORY, 2020)

« Pour moi, le Big Data et l'I.A soulèvent des interrogations éthiques d'une ampleur inégalée. On peut faire le mieux comme le pire avec ces technologies. » (Robert REVAT, 2020)

« Le gros risque c'est l'atteinte à la liberté individuelle. » (Robert REVAT, 2020)

« Il s'agit de savoir si l'usage d'une technologie est libérateur ou liberticide. » (Robert REVAT, 2020)

Synthèse

Pour conclure cette partie, je vous propose de vous référer au nuage de mots ci-dessous permettant d’approximer les sujets principaux ayant été évoqués au cours des entretiens. Les 45 mots avec l’occurrence la plus élevée sont présentés dans ce schéma.

77 108

1.2. Dimension science des données

Les personnes interviewées pour cette partie dédiée à la science des données sont :

Clément LEVALLOIS : Professeur à emlyon business school, expert en valorisation des données en entreprise, docteur en sciences économiques

Guillaume SORLIN : Consultant chez Pramana en architecture informatique d’entreprises, ingénieur de formation (diplômé de l’ECAM)

Taha ZEMMOURI : Dirigeant de Data Genius, data scientist et ingénieur de formation (Mines Saint-Étienne et emlyon)

Question 1 : Quelle est votre définition de la science des données (et plus précisément de l’I.A) ?

Les éclairages que j’ai pu obtenir de la part des interviewés à l’égard de cette première question étaient répartis en deux gros ensembles : une dimension « académique » et « professionnelle ». Plus précisément, j’ai pu déceler deux visions de la discipline, une orientée « science » et une orientée « gestion ».

Dans l’optique de Taha ZEMMOURI et Clément LEVALLOIS, la science des données correspond à un agrégat de disciplines académiques (statistiques, mathématiques) et de compétences (expertise métier, expertise informatique) résumé par le diagramme de Drew CONWAY. Pour le dirigeant de Data Genius, la science des données est également une

108 Nuage de mots, Roméo LÉON, 2020

78 « course technologique » menée sur trois dimensions : Sur les techniques (infrastructures), sur l’ingénierie informatique (parallélisation de calculs) et enfin sur l’algorithmie.

Quant à l’I.A, ces deux experts s’accordent également sur le fait qu’il s’agit d’une branche de la science des données. Plus précisément, Taha ZEMMOURI souligne le fait qu’il s’agit de technologies dont le cœur a attrait à l’automatisation de tâches humaines et Clément LEVALLOIS LEVALLOIS souligne le fait qu’il s’agit d’une discipline allant de la réalisation de simple système de programmatique à la machine dotée de capacités cognitives profondes.

Dans l’optique de Guillaume SORLIN, appartenant au deuxième grand ensemble de la « gestion », la science des données est beaucoup plus orientée vers le « management des données ». Ce consultant à une vision plus opérationnelle de la discipline, toutefois, l’objectif qu’il accorde à la science des données est similaire à celui implicitement évoqué par les deux autres interviewés, à savoir, la gestion du flux informationnel pour mener des décisions éclairées.

Les verbatims ci-dessous retranscrivent la diversité des éclairages observés, la dimension métier des interviewés influence leur approche des concepts de science des données et d’I.A :

« Pour moi la data science s'intéresse à la manière dont on peut analyser des données. » (Taha ZEMMOURI, 2020)

« Le terme d'I.A est très vieux. L'idée principale réside dans l'automatisation de tâches humaines en utilisant des machines avec un côté un peu cognitif. » (Taha ZEMMOURI, 2020)

« On s’intéresse à une partie de la science des données, le management des données. » (Guillaume SORLIN, 2020)

« On essaye de se focaliser sur le cycle des vies des données de nos clients et la façon dont elles doivent être utilisées à des fins opérationnelles. » (Guillaume SORLIN, 2020)

« L'I.A c'est la branche de la data science se définit au travers de trois dimensions : Les systèmes experts, le machine learning et enfin l'AGI que l’on n’a pas encore. » (Clément LEVALLOIS, 2020)

Question 2 : En tant que Data Scientist / expert en gestion de données, comment pensez- vous créer de la valeur ajoutée ?

L’idée principale et transverse que j’ai pu relever au cours des entretiens veut que la valeur ajoutée de la science des données réside dans la possibilité de générer de la connaissance à partir des données et finalement de « monétiser » ces dernières (Clément LEVALLOIS, 2020), en d’autres termes de leur conférer une utilité opérationnelle ou stratégique. Une autre dimension primordiale – soulignée par Taha ZEMMOURI – veut que la valeur ajoutée d’un projet de science des données soit fortement conditionnée par les objectifs et les attentes d’une entreprise.

79 L’approche avancée par le dirigeant de Data Genius quant à la valeur ajoutée de la science des données met en avant le fait que la maximisation des revenus et la minimisation des coûts représentent les deux grandes composantes des projets associés à cette discipline scientifique. Bien entendu, ces deux finalités sont inhérentes à l’essence même de la DS, à savoir la création de connaissance et la compréhension d’une situation donnée.

Dans l’optique métier de Guillaume SORLIN, la valeur ajoutée réside dans la compréhension des données et plus précisément dans leur utilisation pour mener une amélioration continue des processus en entreprise (Exemple : La maintenance prédictive). Au-delà de cet aspect « opérationnel », ce consultant soulève le fait que la gestion des données est également un enjeu organisationnel surtout lors des périodes de restructuration d’entreprise.

Finalement, Clément LEVALLOIS, apporte un éclairage académique quant à ce concept de valeur ajoutée en évoquant le terme de « valorisation des données ». Pour ce professeur à emlyon, les moyens de « monétiser » des données et donc de créer de la valeur ajoutée sont multiples (Cf. Annexe 6 page 104). Toutefois, en restant dans l’optique du Data Scientist, la valeur ajoutée réside dans sa capacité de transformer « de la data brute en information », c’est-à-dire de passer de l’étape de collecte à la restitution d’informations interprétables et utiles pour une organisation. Une dimension importante mise en avant par cet expert en valorisation des données est le fait que le Data Scientist apporte de la valeur dans une optique « métier », c’est à dire avec des objectifs identifiables et propres à une entreprise.

Les verbatims ci-dessous soulignent la valeur ajoutée opérationnelle et stratégique que représente la science des données et plus largement la capacité de cette science à créer de la valeur grâce aux connaissances :

« Souvent, ce que recherchent les entreprises c'est de maximiser les revenus et minimiser les coûts. » (Taha ZEMMOURI, 2020)

« Un aspect qui revient souvent c'est notre capacité à quantifier des intuitions pour les affirmer ou infirmer. » (Taha ZEMMOURI, 2020)

« Les restructurations d'entreprises entraînent des évolutions de processus métiers et d'usage des données. Nous essayons, au travers des datas, de faire émerger de nouvelles façons de fonctionner. » (Guillaume SORLIN, 2020)

« La valeur d'un data scientist c'est d'être la personne capable de transformer la donnée brute en information utile aux métiers sur les dimensions "indirectes, directes ou en licencing". » (Clément LEVALLOIS, 2020)

« Le Data Scientist prend commande des métiers. » (Clément LEVALLOIS, 2020)

Question 3 : Percevez-vous chez vos clients ou dans les cas d'usages de la data science en général des demandes grandissantes / récurrentes ? (Optique marketing, mais pas uniquement)

Au cours des entretiens, cette question a révélé le consensus relatif à l’importance de la connaissance client et de l’approfondissement que peut apporter la science des données à

80 cet égard. Plus précisément, en accord avec les différents témoignages, l’analyse comportementale occupe une place importante dans le milieu de la science des données appliquées aux sciences sociales. Clément LEVALLOIS, introduit par ailleurs une dimension temporelle à cette question en soulevant le fait que le paradigme du marketing à l’ère de la DS est relativement stable.

Taha ZEMMOURI m’a fait part du fait que la plupart des projets réalisés par ses équipes sont majoritairement du sur-mesure, avec peu de redondance. Toutefois, ce dernier a su identifier deux ensembles de demandes souvent évoquées par ses clients, à savoir l’analyse comportementale – à des fins de prédiction de ventes, de recommandations et de communication – et l’analyse massive de documents. La science des données est donc un instrument de compréhension individualisé et ce à grande échelle.

À l’instar des conclusions exposées par le dirigeant de Data Genius, Guillaume SORLIN a également identifié – dans une optique marketing - l’analyse comportementale et plus largement les projets visant à augmenter la connaissance des organisations à l’égard des clients comme étant la demande la plus récurrente. Ce consultant a par ailleurs souligné le fait que la spécialisation métier de son entreprise est orientée vers l’analyse de données « organisationnelles » (Des SI) et que le traitement de données pour des projets orientés marketing ne représente pas la majeure partie des projets de Pramana.

Enfin, Clément LEVALLOIS expose un point de vue universitaire fondé sur des observations académiques et professionnelles. Pour ce professeur, les demandes concernant l’utilisation de la science des données dans une optique marketing restent relativement stables. Le paradigme reste fidèle aux objectifs du marketing, à savoir, connaître son client pour satisfaire ses besoins de la manière la plus juste possible. Malgré une certaine stabilité des demandes, ce professeur met en avant le fait que les technologies de traitement de données s’affinent et deviennent plus performantes sur trois secteurs clés : Le texte, l’image et la vidéo. L’idée exposée est simple, les demandes des marketeurs demeurent intrinsèquement stables et les technologies s’améliorent sans connaître de révolution spectaculaire (au moins sur ces cinq dernières années).

En somme, les réponses à cette question s’articulent autour de la dimension de la connaissance client et du paradigme technologique liant marketing et science des données, les verbatims suivants soulignent cette taxonomie :

« En marketing, l'analyse des comportements clients est une demande récurrente. » (Taha ZEMMOURI, 2020)

« Les demandes qui reviennent concernent l'utilisation de la data pour mieux connaître les clients. Et ce notamment dans une optique de communication. » (Guillaume SORLIN, 2020)

« Concernant le marketing, on reste sur la même idée visant à connaître tout le monde pour présenter le meilleur produit, à la meilleure personne, au meilleur moment et au meilleur endroit. » (Clément LEVALLOIS, 2020)

« Il y a des cycles d'innovations qui raffinent nos approches, mais on reste sur le même paradigme. » (Clément LEVALLOIS, 2020)

81

Question 4 : Quelles sont pour vous les technologies orientées « Data Science » à l’impact business le plus important ?

Les éclairages que j’ai pu collecter et agréger à l’égard de cette réponse prennent la forme d’un processus dans la mesure où les interviewés ont apporté des visions complémentaires et articulées traitant des technologies de collecte de données, de traitement de ces dernières et enfin aux nouvelles techniques permettant la génération de données.

Dans l’optique métier de Taha ZEMMOURI, les technologies dont l’impact organisationnel est le plus important dépend bien entendu du type de projet qu’une entreprise souhaite mener. Toutefois, en accord avec les projets développés par ce Data Scientist, il est facile de voir émerger trois grands ensembles de technologies dominantes, à savoir, le machine learning (ML), le NLP/NLU et la vision par ordinateur. Par ailleurs, le dirigeant de Data Genius met en avant le fait qu’au sein même des technologies de ML la classification et la régression sont très importantes même s’il s’agit de techniques « simples ».

À l’instar de l’interviewé susmentionné, Clément LEVALLOIS, considère les technologies de science des données orientées « traitement/analyse » comme étant les plus prometteuses pour les organisations. Pour ce professeur, la taxonomie des technologies que l’on retrouve aujourd’hui est similaire à celle qui existait il y a de cela cinq ans. Plus précisément, cet expert de la science des données estime que les technologies dont on dispose aujourd’hui vont atteindre leur « full potential » dans les années à venir. Clément LEVALLOIS considère que cette taxonomie comprend les technologies de machine learning et toutes ses sous-branches. Par ailleurs, il soutient le fait qu’il est très complexe de déterminer les technologies futures qui auront un impact organisationnel substantiel, toutefois, ce dernier évoque l’importance qu’occuperont les technologies capables de générer du contenu « ex nihilo » (image, texte, son).

Enfin, l’éclairage apporté par Guillaume SORLIN est différent puisqu’il se situe à une étape antérieure à celles évoquées par les deux autres interviewés. En effet, pour ce dernier, les nouvelles technologies de stockage et de compilation des données représentent un avantage substantiel pour la discipline de la science des données et finalement des organisations. Ces dernières permettent d’optimiser la volumétrie de données à stocker, l’accessibilité et finalement le traitement des données.

En somme, les technologies de science des données peuvent être situées sur un spectre allant de la collecte de donnée à la génération de données, l’impact de ces dernières est conditionné par la typologie de projet à mener en entreprise, toutefois, le machine learning semble tirer son épingle du jeu de par son caractère généralisable. Je vous invite à découvrir les verbtims synthétisant les points de vue sur cette question :

« La classification et la régression sont des classiques. » (Taha ZEMMOURI, 2020)

« Le Deep Learning est indispensable pour le traitement d'images. Il y a beaucoup de sujets où ces technologies ne sont pas applicables ni nécessaires. » (Taha ZEMMOURI, 2020)

82 « Je vois les mêmes familles de technologies fondées sur le machine learning fournir des résultats toujours plus époustouflants sur les mêmes domaines à savoir le texte, l'image et la vidéo. » (Clément LEVALLOIS, 2020)

« Ce qui est en train de se développer - j'ignore si cela va donner des choses hallucinantes - ce sont les technologies capables de générer du contenu totalement nouveau. » (Clément LEVALLOIS, 2020)

« Les technologies de collecte, de regroupement et de compilation des données sont importantes. Elles permettent par la suite de traiter facilement ces données. » (Guillaume SORLIN, 2020)

Question 5 : Quelles limites pour la science des données ?

Cette question relative aux « limites » de la science des données fait émerger des éclairages distincts notamment sur le plan conceptuel de la discipline, sur les attentes que l’on peut avoir des technologies inhérentes à cette science et plus important encore sur la liberté individuelle des individus et de fait la sécurité de ces derniers.

Taha ZEMMOURI s’est intéressé à la dimension des limites « techniques » auxquelles peuvent faire face les individus. Plus précisément, ce data scientist met en avant l’importance pour les individus de bien cerner les capacités de la science des données afin d’établir des objectifs – organisationnels – en accord avec les capacités des technologies actuelles. Plus précisément, le dirigeant de Data Genius appelle à « modérer » les attentes que l’on peut avoir à l’égard de la science des données bien que son efficacité ne soit plus à démontrer.

Pour Guillaume SORLIN, les limites de cette science sont inhérentes aux données elles- mêmes. En effet, les organisations déterminent leur financement sur une base rationnelle où de l’investissement en science des données doit-être équilibré par un gain au moins égal au coût initial. La richesse que l’on peut retirer des données (traitées) est alors une des limites de la science des données. Au-delà de cette dimension ayant attrait à la valeur, ce consultant met en avant le fait que la sécurité des données est un point crucial de cette discipline. Plus précisément, la nature des données exploitées entraîne des contraintes en termes d’infrastructures (Cloud VS serveurs propriétaires par exemple) et de logiciel. L’objectif est avant tout de garantir la sécurité des données analysées.

Enfin, l’éclairage apporté par Clément LEVALLOIS est orienté sur l’éthique de la science des données. Pour ce professeur – comme pour de nombreux chercheurs - c’est la limite la plus importante et un sujet de recherche qui doit être prépondérant au sein de la science des données. L’utilisation détournée de cette science constitue une réelle menace pour nos démocraties, la liberté individuelle et finalement l’autonomie des individus. En somme, la connaissance dégagée par les organisations (privées et gouvernementales) représente un levier de pouvoir substantiel. De fait, la science des données est un outil de pouvoir puisque son objectif est de créer de la connaissance.

Les verbatims ci-dessous synthétisent les éclairages variés à l’égard des limites de la science des données, il est facile d’identifier trois piliers de ces limites : La technique, la valeur et enfin l’éthique.

83 « Les limites de l'I.A apparaissent si au départ nous ne partons pas sur la bonne définition de la discipline. » (Taha ZEMMOURI, 2020)

« Plus les données sont « riches », plus les financements sont importants et plus les limites sont repoussées. » (Guillaume SORLIN, 2020)

« La limite c'est le gain qui peut être dégagé par une entreprise à l'égard de ses données. » (Guillaume SORLIN, 2020)

« C'est l'éthique directement, la limite est énorme et flippante. Le risque c'est la réduction de la liberté individuelle. » (Clément LEVALLOIS, 2020)

« La capacité des organisations et des états à connaître les individus de façon intime est grandissante, cela constitue un risque majeur en termes d'autonomie. » (Clément LEVALLOIS, 2020)

« Le danger c'est de mener une vie où nos choix sont modelés et contraints par des entreprises privées ou par l'état. Voire les deux. » (Clément LEVALLOIS, 2020)

Synthèse À l’instar de la conclusion des entretiens dédiés au marketing, je vous propose de découvrir le nuage de mots ci-dessous comprenant une approximation des 45 termes les plus représentatifs du sujet traité.

84 109

2. Présentation des résultats de la recherche documentaire

Cette partie s’appuie sur une « recherche documentaire » et s’inscrit donc - en toute logique - dans la suite de ma revue de littérature et bien entendu de ma recherche qualitative. J’apporterai dans les parties suivantes une réponse « quantitative » à ma problématique, à savoir, « La mesure dans laquelle la science des données et plus précisément la branche de l’I.A entraîne une refonte de la discipline du marketing. »

2.1. État de l’adoption de l ‘I.A

L’implémentation de solutions de science des données et plus précisément d’I.A au niveau organisationnel est exponentielle. C’est ce qu’atteste la société Gartner, dans une étude, le cabinet-conseil révèle qu’en 2019, 37% des organisations avaient mis en place des solutions fondées sur des technologies d’I.A. Le taux d’évolution sur 4 ans du rythme d’adoption de ces technologies est d’autant plus impressionnant, en effet, selon Gartner ce dernier s’établit à 270%110.

Dès lors, l’I.A est adoptée, et ce de manière accrue au sein des organisations. Les services marketing quant à eux, ne sont actuellement pas les plus gros « utilisateurs » (en volume) des solutions de science des données comme le souligne l’étude croisée menée par Statista. Selon le cabinet expert en étude de marché, seuls 26,5% des services marketing utilisaient

109 Nuage de mots, Roméo LÉON, 2020 110 https://www.gartner.com/en/newsroom/press-releases/2019-01-21-gartner-survey-shows-37-percent-of- organizations-have

85 des technologies de science des données en 2019. Ce taux est donc inférieur au niveau d’implémentation global évoqué dans le paragraphe précédent. Vous retrouverez ci-dessous les taux d’adoption de technologies d’I.A en entreprise par fonctions.

111

Une étude menée par Brightedge (entreprise spécialisée en SEO et I.A) sur les tendances technologiques au sein de la discipline marketing démontre qu’en dépit d’un taux d’adoption « faible », les marketeurs considèrent les solutions d’I.A comme étant un enjeu majeur. Le schéma ci-dessous illustre cette conclusion puisque l’on constate que 75,6% des répondants soutiennent que les technologies d’I.A seront la prochaine grande tendance.

112

111 « AI use in marketing (Statista, 2019), https://www-statista-com.ezp.em lyon.com/study/57404/artificial- intelligence-use-in-marketing/ 112 Brightedge research, Future of Marketing and AI Survey, 2018, http://videos.brightedge.com/research- report/brightedge-2018-future-of-marketing-and-ai-survey.pdf

86 Pour revenir à une dimension plus générale quant à l’adoption de l’intelligence artificielle, les études statistiques soulignent le fait que les technologies de machine learning, de vision par ordinateur et de NLP font parties du top 10 des investissements en termes d’I.A. Ces dernières représentent respectivement 28.5, 7.4 et 6,7 milliards de dollars d’investissement en 2019. Vous pouvez découvrir synthétiquement l’étude grâce à l’infographie ci-dessous :

113

Au-delà de fournir une vision synthétique de l’environnement actuel de la science des données, cette taxonomie des investissements converge avec les témoignages que j’ai pu recueillir à l’égard de l’importance des technologies d’I.A dans une vision marketing.

2.2. La valeur ajoutée de l’I.A pour la discipline marketing

Une étude menée par McKinsey et relayée par Statista démontre que la valeur ajoutée dégagée par les synergies entre marketing et science des données est proportionnellement bien plus importante que dans les autres « activités primaires » d’une entreprise. Je vous invite à découvrir le graphique synthétique ci-dessous pour appréhender l’augmentation du chiffre d’affaires – répartie entre les différentes fonctions de l’entreprise - inhérente à l’implémentation de systèmes d’I.A.

113 Feldman, S. (May 10, 2019). Machine Learning Tops AI Dollars [Digital image]. Retrieved May 22, 2020, from https://www-statista-com.ezp.em-lyon.com/chart/17966/worldwide-artificial-intelligence-funding/

87 114

Une dimension prépondérante dans l’implémentation de solutions de science des données au sein de la discipline marketing tient dans l’amélioration de l’expérience client et la personnalisation. Ces conclusions exposées par Adobe et relayées par Statista corroborent les tendances que j’ai pu dégager au cours de mon enquête qualitative. Plus précisément, sur la population de marketeurs étudiée, Adobe estime que 82% d’entre eux implémenteraient des technologies d’I.A pour améliorer l’expérience client, concernant l’optimisation de la personnalisation, ce taux s’élève à 34%. Vous pouvez retrouver ci-dessous le schéma récapitulatif de l’étude.

115

114 « AI use in marketing (Statista, 2019), https://www-statista-com.ezp.em lyon.com/study/57404/artificial- intelligence-use-in-marketing/ 115 « AI use in marketing (Statista, 2019), https://www-statista-com.ezp.em lyon.com/study/57404/artificial- intelligence-use-in-marketing/

88 Comme je l’ai exposé à plusieurs reprises dans ce mémoire, la science des données est un outil capable d’aider les individus à générer des connaissances. Les entretiens que j’ai pu mener avec des experts du marketing et de la science des données confirment cette « définition ». Par ailleurs, ces experts soulignaient, pour la grande majorité, le rôle que peut jouer l’I.A dans la compréhension d’un client. À nouveau, ma recherche documentaire m’a permis d’effectuer une validation « croisée » de cette hypothèse, plus précisément, l’entreprise Brightedge a publié une étude soutenant le fait que la compréhension client est considérée par les marketeurs comme l’enjeu principal associé aux technologies d’I.A.

116

Les études présentées par « The CMO Survey » ont pour objectif de collecter les opinions des leaders du marketing afin d’émettre des conjectures sur le futur de la discipline et de réaliser un état de l’art de cette matière. En 2019, Deloitte, l’université de DUKE et l’American Marketing Association ont mené pour le compte de CMO Survey une étude de grande ampleur au sein d’entreprises Américaines.

Le sujet de l’I.A est bien entendu central dans le rapport présenté par les trois institutions. Les conclusions exposées soutiennent à la fois mes hypothèses personnelles, les points de vue de mes interviewés et enfin les études quantitatives que j’ai présentées précédemment. Plus précisément, l’étude souligne le fait que les entreprises utilisent majoritairement les technologies de science des données pour des tâches de personnalisation, d’analyse prédictive dédiée à la connaissance consommateur et enfin pour les décisions de ciblage. De plus, cette étude fournit une dimension complémentaire en mettant en lumière le fait que les activités B2C sont plus enclines que les activités B2B à utiliser les technologies d’I.A dans leur activité marketing. Le tableau récapitulatif ci-dessous permet de se figurer l’utilisation de ces technologies par les services marketing au travers de la dimension B2C et B2B et d’un panel de cas d’usages :

116 Brightedge research, Future of Marketing and AI Survey, 2018, http://videos.brightedge.com/research- report/brightedge-2018-future-of-marketing-and-ai-survey.pdf

89 117 Finalement, la taxonomie de la valeur ajoutée de l’I.A au sein de la discipline marketing est facilement reconnaissable. La majorité des sources d’information sur lesquelles je me suis appuyé pour construire ma revue de littérature, mon enquête qualitative et enfin mon exploration quantitative, convergent. Plus concrètement, l’amélioration de la connaissance consommateur, la personnalisation de l’offre/du contenu et finalement l’optimisation du processus décisionnel concentrent la valeur ajoutée des technologies de science des données appliquées au marketing. Par ailleurs, l’ensemble des résultats que j’ai pu collecter et donc les trois points susmentionnés corroborent mon hypothèse de l’avènement futur d’un « marketing chirurgical ».

117 The CMO Survey: Highlights and Insights Report, February 2019. Duke University, Deloitte and American Marketing Association. https://cmosurvey.org/wp-content/uploads/sites/15/2019/02/The_CMO_Survey-Highlights- and_Insights_Report-Feb-2019.pdf

90 Conclusion

Pour conclure ce devoir, nous pouvons affirmer, sans l’ombre d’un doute, que le marketing est entré dans l’ère de la science des données, termes que je préfère à celui d’intelligence artificielle de par sa nature plus transparente et moins encline à déchaîner les « passions ». Comme exposé dans le corps de ce mémoire, l’adoption des technologies de science des données au sein des départements marketing est en pleine accélération. Les gains de productivité, l’amélioration de la précision des stratégies menées et enfin la (re)valorisation des « activités » proprement humaine comme la créativité, l’empathie et la stratégie - toutes inhérentes à l’implémentation de ces technologies - ouvrent la voie à un marketing dont la valeur est décuplée. La science des données représente à mes yeux l’opportunité de repenser les fondements du marketing et de laisser poindre un nouveau paradigme, celui du marketing chirurgical. En d’autres termes, une discipline à forte valeur ajoutée, très technique, data- centric, personnalisée et finalement aux enjeux substantiels.

Bien entendu, ces nouveaux « outils » et donc l’adoption de ce nouveau paradigme rendent nécessaire le développement de nouveaux savoir-faire et surtout l’acquisition de nouveaux savoir-être. En effet, l’utilisation de la science des données représente des avantages considérables, mais également des menaces auxquelles les entreprises et les peuples doivent faire face. C’est pourquoi il est nécessaire d’aller au-delà de la vision « utilitariste » de cette science et d’enseigner aux marketeurs et plus globalement à tous ceux qui seront exposés à ces technologies les notions éthiques (et les dangers) rattachées à cette discipline (atteinte aux libertés individuelles, à la vie privée, biais discriminatoires et bien d’autres).

Dès lors, il est aisé de comprendre que la science des données va bien au-delà des enjeux « lucratifs » que l’on pourrait lui attribuer et donc dans notre cas des activités marketing. Cette discipline est le reflet de notre évolution technologique rapide et soulève des enjeux sociétaux, philosophiques et plus importants encore, de souveraineté. Il convient de palier l’avènement d’une « dystopie technologique ».

Le vrai « challenge de l’I.A » pour paraphraser Ian GOODFELLOW ne serait-il pas d’atteindre la sagesse des connaissances dans une ère de la démesure ?

À mes yeux, le « challenge de l’I.A » consisterait à maintenir une croissance soutenable, où la science des données, en plus de servir les organisations lucratives, permettrait d’accéder à une forme « d’économie du bien commun » pour reprendre les termes du prix Nobel d’économie Jean TIROLE. En d’autres termes, de faire face aux défis environnementaux, sociétaux (éducation, santé) et enfin financiers.

Pour résumer cette approche et finalement honorer ce que j’ai nommé « le fil rouge » de mon mémoire dans mon introduction, je souhaite évoquer le fait que la science des données sera pleinement exploitée et prendra son sens en adoptant le modèle de la pyramide « DIKW ». À savoir passer du stade de la donnée à l’information, puis à la connaissance et enfin à la sagesse.

91 Bibliographie

Abramovich, G. (s. d.). 3 AI-Driven Strategies For Retailers In 2019. CMO.Adobe.Com.

Consulté le 26 mai 2020, à l’adresse https://cmo.adobe.com/articles/2018/11/3-ai-

driven-strategies-for-retailers-in-2019.html

Adobe. (s. d.). Amplifying human creativity with artificial intelligence to transform digital

experiences. Consulté le 26 mai 2020, à l’adresse

https://www.adobe.com/nz/insights/amplifying-human-creativity-with-artificial-

intelligence.html

Ah-Pine, Julien. (2019). Apprentissage automatique, Université Lumière Lyon 2. Consulté

le 26 mai 2020, à l’adresse http://eric.univ-lyon2.fr/~jahpine/cours/m2_dm-ml/cm.pdf

Ammerman, W. (2019). The Invisible Brand : Marketing in the Age of Automation, Big

Data, and Machine Learning. McGraw-Hill Education.

Google-Books-ID: FHIAvQEACAAJ

Amsili, S., & Maussion, F. (2019, février 9). L’usage d’Internet dans le monde en cinq

chiffres. Les Echos. https://www.lesechos.fr/tech-medias/hightech/lusage-dinternet-

dans-le-monde-en-cinq-chiffres-963228

Analyse des données. (2020). In Wikipédia.

https://fr.wikipedia.org/w/index.php?title=Analyse_des_donn%C3%A9es&oldid=1662

26833

Page Version ID: 166226833

Balducci, B., & Marinova, D. (2018). Unstructured data in marketing. Journal of the

Academy of Marketing Science, 46(4), 557-590. https://doi.org/10.1007/s11747-018-

0581-x

92 Benkert, C.-L. M. (2019, juin 26). Ethics & AI : Identifying the ethical issues of AI in

marketing and building practical guidelines for marketers [Info:eu-

repo/semantics/bachelorThesis]. https://essay.utwente.nl/78303/

Berger, J., Humphreys, A., Ludwig, S., Moe, W. W., Netzer, O., & Schweidel, D. A.

(2020). Uniting the Tribes : Using Text for Marketing Insight. Journal of Marketing,

84(1), 1-25. https://doi.org/10.1177/0022242919873106

Blancheton, B. (2020). Sciences économiques (4e éd.). Dunod.

Bostrom, N. (2014). Superintelligence : Paths, Dangers, Strategies. Oxford University

Press.

Google-Books-ID: 7_H8AwAAQBAJ

Bowne-Anderson, H. (2018, août 15). What Data Scientists Really Do, According to 35

Data Scientists. Harvard Business Review. https://hbr.org/2018/08/what-data-

scientists-really-do-according-to-35-data-scientists

Breiman, L. (2001). Statistical Modeling : The Two Cultures (with comments and a

rejoinder by the author). Statistical Science, 16(3), 199-231.

https://doi.org/10.1214/ss/1009213726

Zbl: 1059.62505

Brownlee, J. (2019, mars 12). 9 Applications of Deep Learning for Computer Vision.

Machine Learning Mastery. https://machinelearningmastery.com/applications-of-

deep-learning-for-computer-vision/

Bughin, J., Hazan, E., Ramaswamy, S., Chui, M., Allas, T., Dahlström, P., Henke, N., &

Trench, M. (2017). ARTIFICIAL INTELLIGENCE THE NEXT DIGITAL FRONTIER?

McKinsey Global Institute.

https://www.mckinsey.com/~/media/McKinsey/Industries/Advanced%20Electronics/O

93 ur%20Insights/How%20artificial%20intelligence%20can%20deliver%20real%20value

%20to%20companies/MGI-Artificial-Intelligence-Discussion-paper.ashx

Campbell, C., Sands, S., Ferraro, C., Tsao, H.-Y. (Jody), & Mavrommatis, A. (2019).

From data to action : How marketers can leverage AI. Business Horizons.

https://doi.org/10.1016/j.bushor.2019.12.002

Cannella, J., Department of Marketing, Department of Management and

Entrepreneurship, & Barrett, The Honors College. (2018). Artificial Intelligence in

Marketing. In A. Ostrom, Barrett, The Honors College Thesis/Creative Project

Collection. http://hdl.handle.net/2286/R.I.48368

Cervoni, L. (s. d.). Puissance et créativité en Intelligence Artificielle. Actu IA. Consulté le

26 mai 2020, à l’adresse https://www.actuia.com/contribution/laurent-

cervoni/puissance-et-creativite-en-intelligence-artificielle/

Chintagunta, P., Hanssens, D. M., & Hauser, J. R. (2016). Marketing and Data Science :

Together the Future is Ours. GfK Marketing Intelligence Review, 8(2), 18-23.

https://doi.org/10.1515/gfkmir-2016-0011

Classement automatique. (2018). In Wikipédia.

https://fr.wikipedia.org/w/index.php?title=Classement_automatique&oldid=153667998

Page Version ID: 153667998

CLOUD Act. (2020). In Wikipédia.

https://fr.wikipedia.org/w/index.php?title=CLOUD_Act&oldid=168014936

Page Version ID: 168014936

Conway, D. (s. d.). The Data Science Venn Diagram. Drew Conway. Consulté le 26 mai

2020, à l’adresse http://drewconway.com/zia/2013/3/26/the-data-science-venn-

diagram

94 Cottenie, S., & de Liedekerke, L. (s. d.). Artificial intelligence may be a game changer for

pricing. PwC. Consulté le 26 mai 2020, à l’adresse https://www.pwc.be/en/news-

publications/2019/artificial-intelligence-may-be-game-changer-for-pricing.html

Data literacy. (2020). In Wikipedia.

https://en.wikipedia.org/w/index.php?title=Data_literacy&oldid=951191278

Page Version ID: 951191278

Deloitte. (2019, mars 1). Computer vision : Une révolution qui ne fait que commencer.

Deloitte. https://blog.deloitte.fr/computer-vision-une-revolution-qui-ne-fait-que-

commencer/

Dominika, K.-S. (2019). How chatbots influence marketing. Management, 23(1), 251-270.

Donoho, D. (2017). 50 Years of Data Science. Journal of Computational and Graphical

Statistics, 26(4), 745-766. https://doi.org/10.1080/10618600.2017.1384734

Exploratory data analysis. (2020). In Wikipedia.

https://en.wikipedia.org/w/index.php?title=Exploratory_data_analysis&oldid=9565778

91

Page Version ID: 956577891

Garbade, D. M. J. (2018, septembre 12). Understanding K-means Clustering in Machine

Learning. Medium. https://towardsdatascience.com/understanding-k-means-

clustering-in-machine-learning-6a6e67336aa1

Hiba, J., Hadi, H., Hameed Shnain, A., Hadishaheed, S., & Haji, A. (2015). BIG DATA

AND FIVE V’S CHARACTERISTICS. 2393-2835.

Higgins, S. (s. d.). Data is neither the new oil nor the new gold…. Consulté le 26 mai

2020, à l’adresse https://gblogs.cisco.com/uki/data-is-neither-the-new-oil-nor-the-

new-gold/

95 Hyperparameter (machine learning). (2020). In Wikipedia.

https://en.wikipedia.org/w/index.php?title=Hyperparameter_(machine_learning)&oldid

=949510909

Page Version ID: 949510909

IBM. (2015, septembre 11). The quest for AI creativity. IBM Cognitive - What’s next for AI.

http://www.ibm.com/watson/advantage-reports/future-of-artificial-intelligence/ai-

creativity.html

Intelligences Artificielles : Quelles promesses ? Quels défis ? (No 8; Les cahiers de veille

de la Fondation Télécom). (2016). https://www.fondation-mines-telecom.org/wp-

content/uploads/2016/01/CahierDeVeille-IntelligenceArtificielle-FondationTelecom-

2016-VF.pdf

Jackson, M., & Shelly, M. (1apr. J.-C.). Legal Regulations, Implications, and Issues

Surrounding Digital Data. IGI Global. www.igi-global.com/book/legal-regulations-

implications-issues-surrounding/240169

Jarek, K., & Mazurek, G. (2019). Marketing and Artificial Intelligence. Central European

Business Review, 8, 46-55. https://doi.org/10.18267/j.cebr.213

Jurafsky, D., & Martin, J. (2008). Speech and Language Processing : An Introduction to

Natural Language Processing, Computational Linguistics, and Speech Recognition

(Vol. 2).

Kietzmann, J., Paschen, J., & Treen, E. (2018). Artificial Intelligence in Advertising : How

Marketers Can Leverage Artificial Intelligence Along the Consumer Journey. Journal

of Advertising Research, 58(3), 263-267. https://doi.org/10.2501/JAR-2018-035

Komorowski, M. (s. d.). A history of storage cost. Consulté le 26 mai 2020, à l’adresse

https://mkomo.com/cost-per-gigabyte

96 Kumar, V., Rajan, B., Venkatesan, R., & Lecinski, J. (2019). Understanding the Role of

Artificial Intelligence in Personalized Engagement Marketing. California Management

Review, 61(4), 135-155. https://doi.org/10.1177/0008125619859317

L, +Bastien. (2017, octobre 13). MapReduce : Tout savoir sur le framework Hadoop de

traitement Big Data. LeBigData.fr. https://www.lebigdata.fr/mapreduce-tout-savoir

L, +Bastien. (2019, mars 28). Perceptron – Tout savoir sur le plus vieil algorithme de

Machine Learning. LeBigData.fr. https://www.lebigdata.fr/perceptron-machine-

learning

Lac de données. (2020). In Wikipédia.

https://fr.wikipedia.org/w/index.php?title=Lac_de_donn%C3%A9es&oldid=16783087

4

Page Version ID: 167830874

Le, J. (2020, janvier 29). The 5 Computer Vision Techniques That Will Change How You

See The World. Medium. https://heartbeat.fritz.ai/the-5-computer-vision-techniques-

that-will-change-how-you-see-the-world-1ee19334354b

Leek, J., Caffo, B., & Peng, R. (s. d.). Science des données exécutive. Coursera.

Consulté le 26 mai 2020, à l’adresse

https://www.coursera.org/specializations/executive-data-science

Levallois, C. (s. d.-a). Big data for business. Consulté le 26 mai 2020, à l’adresse

https://emlyon.github.io/mk99/

Levallois, C. (s. d.-b). Internet of Things for Entrepreneurs. Consulté le 26 mai 2020, à

l’adresse https://seinecle.github.io/IoT4Entrepreneurs/

Maghraoui, S., & Belghith, E. (2019). L’expérience-client : Quels apports des technologies

de l’Intelligence Artificielle. 8.

97 Maier, M. V. (2016, juin 22). The Internet of Things (IoT) : What is the potential of Internet

of Things applications for consumer marketing? [Info:eu-

repo/semantics/bachelorThesis]. https://essay.utwente.nl/70001/

Marr, B. (s. d.-a). What’s The Difference Between Structured, Semi-Structured And

Unstructured Data? Consulté le 26 mai 2020, à l’adresse

https://www.forbes.com/sites/bernardmarr/2019/10/18/whats-the-difference-between-

structured-semi-structured-and-unstructured-data/#6be671fd2b4d

Marr, B. (s. d.-b). Why only one of the 5 Vs of big data really matters. IBM Big Data &

Analytics Hub. Consulté le 26 mai 2020, à l’adresse

https://www.ibmbigdatahub.com/blog/why-only-one-5-vs-big-data-really-matters

Microsoft. (s. d.). Qu’est-ce que le processus Team Data Science Process ? Consulté le

26 mai 2020, à l’adresse https://docs.microsoft.com/fr-fr/azure/machine-

learning/team-data-science-process/overview

Morini Bianzino, N. (s. d.). Is AI the start of the truly creative human ? | EY - Global.

Consulté le 26 mai 2020, à l’adresse https://www.ey.com/en_gl/ai/is-ai-the-start-of-

the-truly-creative-human

Müller, V. C. (2020). Ethics of Artificial Intelligence and Robotics. In E. N. Zalta (Éd.), The

Stanford Encyclopedia of Philosophy (Summer 2020). Metaphysics Research Lab,

Stanford University. https://plato.stanford.edu/archives/sum2020/entries/ethics-ai/

Müller, V. C., Bostrom, N., & Müller, V. C. (2016). Future Progress in Artificial

Intelligence : A Survey of Expert Opinion. In Fundamental Issues of Artificial

Intelligence (p. 555-572). Springer International Publishing.

https://doi.org/10.1007/978-3-319-26485-1_33

Perceptron. (2020). In Wikipedia.

https://nl.wikipedia.org/w/index.php?title=Perceptron&oldid=56154185

98 Page Version ID: 56154185

Petrick, K. (2018). Digital discourse and design, York University.

Régression (statistiques). (2020). In Wikipédia.

https://fr.wikipedia.org/w/index.php?title=R%C3%A9gression_(statistiques)&oldid=16

6952307

Page Version ID: 166952307

Réseau neuronal convolutif. (2020). In Wikipédia.

https://fr.wikipedia.org/w/index.php?title=R%C3%A9seau_neuronal_convolutif&oldid

=166794123

Page Version ID: 166794123

Retail en 2020, les usages du computer vision à la loup. (s. d.). Orange Business

Services. Consulté le 26 mai 2020, à l’adresse https://www.orange-

business.com/fr/magazine/computer-vision-usages-retail

Silverio, M. (2020, janvier 3). Google AI for breast cancer detection beats Doctors.

Medium. https://towardsdatascience.com/google-ai-for-breast-cancer-detection-

beats-doctors-65b8983352e0

SIMON, S. (s. d.). Deep Learning, les fonctions d’activation | SUPINFO, École Supérieure

d’Informatique. Consulté le 26 mai 2020, à l’adresse

https://www.supinfo.com/articles/single/7923-deep-learning-fonctions-activation

Singularité technologique. (2020). In Wikipédia.

https://fr.wikipedia.org/w/index.php?title=Singularit%C3%A9_technologique&oldid=17

0893084

Page Version ID: 170893084

Szeliski, R. (2011). Computer Vision : Algorithms and Applications. Springer-Verlag.

https://doi.org/10.1007/978-1-84882-935-0

99 Villani, C., Schoenauer, M., Bonnet, Y., Berthet, C., Cornut, A.-C., Levin, F., &

Rondepierre, B. (2018). Donner un sens à l’intelligence artificielle : Pour une stratégie

nationale et européenne.

Walch, K. (s. d.-a). Are We Heading For Another AI Winter Soon? Forbes. Consulté le 26

mai 2020, à l’adresse https://www.forbes.com/sites/cognitiveworld/2019/10/20/are-

we-heading-for-another-ai-winter-soon/

Walch, K. (s. d.-b). Intelligence Artificielle : Quelle différence entre NLP et NLU ?

LeMagIT. Consulté le 26 mai 2020, à l’adresse

https://www.lemagit.fr/conseil/Intelligence-Artificielle-quelle-difference-entre-NLP-et-

NLU

Walsh, T. (s. d.). AI and Ethics. Consulté le 26 mai 2020, à l’adresse

https://www.ted.com/talks/toby_walsh_ai_and_ethics

Wirth, N. (2018). Hello marketing, what can artificial intelligence help you with?

International Journal of Market Research, 60(5), 435-438.

https://doi.org/10.1177/1470785318776841

Yvon, F. (2007). Une petite introduction au Traitement Automatique des Langues

Naturelles.

100 Annexes

1 Hiba, Jasim & Hadi, Hiba & Hameed Shnain, Ammar & Hadishaheed, Sarah & Haji, Azizahbt. (2015). BIG DATA AND FIVE V'S CHARACTERISTICS. 2393-2835.

2 McKinsey Global Institute, ARTIFICIAL INTELLIGENCE THE NEXT DIGITAL FRONTIER?, 2017

101

3 Difference between computer vision and image recognition, Agathe Padiolleau, 2017, Computer Vision Basics

4 Zakraoui, Jezia & Moutaz, Saleh & Ja’am, Jihad. (2019). Text-to-picture tools, systems, and approaches: a survey. Multimedia Tools and Applications. 10.1007/s11042-019-7541-4.

102

5 AI adoption is occurring faster in more digitized sectors and across the value chain, McKinsey Global Institute AI adoption and use survey; Digital Europe: Pushing the frontier, capturing the benefits, McKinsey Global Institute, June 2016; Digital America: A tale of the haves and have- mores, McKinsey Global Institute, December 2015; McKinsey Global Institute analysis

103

6 Clément LEVALLOIS, Webinaire «Valorisation des données en entreprise», Valoriser les données, Les différentes facettes managériales (2020), https://github.com/emlyon/chaire- implid/tree/master/docs/download

104

105

7 Devin Coldewey, Inside Amazon’s surveillance-powered, no checkout convenience store, Techcrunch, 2018, https://techcrunch.com/2018/01/21/inside-amazons-surveillance-powered- no-checkout-convenience-store/

106

8 Kietzmann, J., Paschen, J., & Treen, E. (2018). Artificial Intelligence in Advertising. Journal of Advertising Research, 58(3), 263–267. https://doi.org/10.2501/jar-2018-035

9 Cisco Systems. (February 27, 2019). Consumer internet data traffic worldwide by application category from 2016 to 2022 (in EB per month)* [Graph]. In Statista. Retrieved May 08, 2020,

107 from https://www-statista-com.ezp.em-lyon.com/statistics/454951/mobile-data-traffic- worldwide-by-application-category/

10 Jarek, K., & Mazurek, G. (2019). Marketing and Artificial Intelligence. Central European Business Review, 8(2), 46–55. https://doi.org/10.18267/j.cebr.213

108 11 Benkert, C.M. (2019). Ethics & AI: Identifying the ethical issues of AI in marketing and building practical guidelines for marketers.

109