Master

L'impact de l'ironie sur la traduction automatique : Étude sur un corpus de commentaires

FUETER, Marie-Zoé

Abstract

Ce mémoire cherche à définir dans quelle mesure l'ironie présente dans des commentaires Amazon peut porter préjudice à la qualité de la traduction automatique (TA) ainsi qu'à la compréhension de celle-ci. Pour ce faire, nous avons sélectionné trois systèmes de TA disponibles en ligne (Google Traduction, DeepL et Bing) à qui nous avons fait traduire 100 commentaires Amazon dont la moitié est ironique et l'autre standard. Afin de pouvoir les juger, nous avons mobilisé plusieurs méthodes d'évaluations humaines (annotations relatives à la qualité de la TA et relatives à la polarité des commentaires) et automatiques (score BLEU et systèmes d'analyse des sentiments). Nos résultats montrent que, dans le cadre de notre corpus, l'ironie n'a d'influence ni sur la qualité ni sur la compréhension de la TA. Nous avons également constaté que DeepL (neuronal) a obtenu les meilleurs scores et que Bing (statistique) a obtenu les plus mauvais.

Reference

FUETER, Marie-Zoé. L'impact de l'ironie sur la traduction automatique : Étude sur un corpus de commentaires Amazon. Master : Univ. Genève, 2019

Available at: http://archive-ouverte.unige.ch/unige:123912

Disclaimer: layout of this document may differ from the published version.

1 / 1 Marie-Zoé Fueter

L’impact de l’ironie sur la traduction automatique Étude sur un corpus de commentaires Amazon

Directrice : Pierrette Bouillon Jurée : Johanna Gerlach

Mémoire présenté à la Faculté de traduction et d’interprétation pour l’obtention de la Maîtrise universitaire en traduction, mention Traduction et technologie.

Université de Genève

Août 2019

Déclaration attestant le caractère original du travail effectué

J’affirme avoir pris connaissance des documents d’information et de prévention du plagiat émis par l’Université de Genève et la faculté de traduction et d’interprétation (notamment la Directive en matière de plagiat des étudiant-e-s, le Règlement d’études de la Faculté de traduction et d’interprétation ainsi que l’Aide-mémoire à l’intention des étudiants préparant un mémoire de Ma en traduction).

J’atteste que ce travail est le fruit d’un travail personnel et a été rédigé de manière autonome.

Je déclare que toutes les sources d’information utilisées sont citées de manière complète et précise, y compris les sources sur Internet.

Je suis conscient-e que le fait de ne pas citer une source ou de ne pas la citer correctement est constitutif de plagiat et que le plagiat est considéré comme une faute grave au sein de l’Université, passible de sanctions.

Au vu de ce qui précède, je déclare sur l’honneur que le présent travail est original.

Marie-Zoé Fueter

Genève, le 10 août 2019.

I

REMERCIEMENTS

Avant tout, je tiens à remercier les personnes sans qui la rédaction de ce mémoire n'aurait pas pu arriver

à son terme.

Tout d'abord, merci à ma directrice de mémoire Pierrette Bouillon, pour m'avoir donné la chance de travailler sur un sujet aussi intéressant et de m'avoir guidée dans la rédaction de ce mémoire. Merci à elle pour sa disponibilité, ses conseils et sa patience.

Merci à ma jurée, Johanna Gerlach, d’avoir accepté de de juger mon travail.

Je tiens également à remercier Chantal et David pour m'avoir soutenue durant ces (longues) années et dont la confiance est restée infaillible.

Merci également à Joseph, Ulysse, Chantal, Anna, Elodie, Olivier, Julia, Marie J, Camille, Louise, Marie

L, Ella, Lisa, Dominic, Simon, Maëlle, Justin, Mark, qui ont passé bien des heures à annoter les diverses traductions.

Finalement, je tiens à remercier particulièrement Joseph ainsi que la Communauté pour leur soutien inestimable durant tout le processus.

II

TABLE DES MATIÈRES

REMERCIEMENTS ...... II TABLE DES MATIÈRES ...... III LISTE DES FIGURES ...... VI LISTE DES TABLEAUX ...... VII LISTE DES ABRÉVIATIONS ...... VIII 1.INTRODUCTION ...... 1 1.1 Motivation ...... 1 1.2 Question de recherche ...... 2 1.3 Démarche...... 3 1.4 Plan ...... 4 2.LA TRADUCTION AUTOMATIQUE ...... 6 2.1 Introduction ...... 6 2.2 Architectures ...... 6 2.2.1 Définition de la traduction automatique ...... 7 2.2.2 Les systèmes de traduction automatique ...... 8 2.3 Historique ...... 22 2.4 L’évaluation de la traduction automatique ...... 24 2.4.1 Les annotations humaines...... 25 2.4.2 Le score BLEU ...... 26 2.5 Conclusion ...... 29 3. L’IRONIE ET LE SARCASME ...... 31 3.1 Introduction ...... 31 3.2 Traduction automatique et littérature ...... 31 3.3 Définition de l’ironie et du sarcasme ...... 33 3.4 Traduction humaine et ironie...... 39 3.5 Traduction automatique et ironie...... 41 3.6 L’analyse de sentiment ...... 43 3.7 Détection et gestion de l’ironie...... 46 3.8 Conclusion ...... 48 4. METHODOLOGIE ...... 50 4.1 Introduction ...... 50 4.2 Corpus ...... 51 4.3 Outils mobilisés pour la TA et l’analyse de sentiments ...... 51 4.3.1 Amazon et ses commentaires ...... 51

III

4.3.2 Outils de traduction automatique ...... 55 4.3.3 Outils d’analyse de sentiment ...... 58 4.4 Mise en place de l’expérience ...... 60 4.5 Évaluation humaine ...... 61 4.5.1 Répartition des commentaires ...... 61 4.5.2 Évaluation 1 : La qualité de la TA ...... 62 4.5.3 Évaluation 2 : La polarité des commentaires ...... 63 4.6 Évaluation automatique ...... 63 4.6.1 Le score BLEU ...... 63 4.6.2 Analyse de sentiments ...... 63 4.7 Conclusion ...... 63 5. RESULTATS ...... 65 5.1 Introduction ...... 65 5.2 Qualité de la traduction automatique 1 – Evaluations humaines ...... 65 5.2.1 Score Kappa ...... 65 5.2.2 Moyenne des résultats et écart type ...... 67 5.2.3 Médianes et répartition des notes ...... 68 5.2.4 Score du Chi2 ...... 76 5.2.5 Intention des commentaires ...... 77 5.3 Qualité de la traduction automatique 2 – Score BLEU ...... 78 5.3.1 Moyenne des résultats ...... 79 5.3.2 Médianes ...... 80 5.3.3 Conclusion ...... 82 5.4 Compréhension de la traduction automatique 1 – Evaluation humaine ...... 83 5.4.1 Polarités ...... 83 5.4.2 Estimation des étoiles ...... 86 5.5 Compréhension de la traduction automatique – Analyse de sentiment automatique ...... 88 5.6 Conclusion ...... 90 6. CONCLUSION ...... 92 6.1 Introduction ...... 92 6.2 Synthèse et résultat du travail ...... 92 6.3 Limites de l’étude ...... 97 6.4 Conclusion ...... 99 RÉFÉRENCES ...... 101 ANNEXES ...... 107 Annexe 1 : Instructions pour les annotateurs chargés de noter la qualité de la TA ...... 107 Annexe 2 : Exemples de commentaire à annoter pour les annotateurs chargés de la qualité ...... 109

IV

Annexe 3 : Instructions pour les annotateurs chargés de noter la polarité de la TA ...... 110 Annexe 4 : Exemples de commentaires à annoter par les annotateurs chargés de la polarité ...... 112 Annexe 5 : Résultats du score BLEU (Extraits) ...... 113 Annexe 6 : commentaires problématiques vis-à-vis de la polarité (extrait) ...... 115 Commentaire 1 ...... 115 Commentaire 2 ...... 116 Commentaire 3 ...... 116 Commentaire 4 ...... 116 Annexe 7 : Commentaires problématiques pour l’estimation des étoiles (extrait) ...... 117 Commentaire 1 ...... 117 Commentaire 2 ...... 117 Commentaire 3 ...... 118 Commentaire 4 ...... 119 Commentaire 5 ...... 120

V

LISTE DES FIGURES

Figure 1 : Le triangle de Vauquois (Trujillo, 1999)……………………………………………………..8 Figure 2 : Le triangle de Vauquois – Les systèmes directs (Saers, 2011)………………………………10 Figure 3 : Le triangle de Vauquois – Les systèmes de transfert (Saers, 2011)………………………….11 Figure 4 : Le triangle de Vauquois – Les systèmes par interlangue (Saers, 2011)……………………...12 Figure 5 : Le triangle de Vauquois – Les systèmes statistiques (http://blog.systransoft.com/how-does- neural-machine-translation-work/, consulté le 05 avril 2019)………………………………………….14 Figure 6 : Fonctionnement d'un système neuronal pour la reconnaissance d'images. (Goodfellow et al., 2016) …………………………...……………………………………………………………………...18 Figure 7 : Un plongement lexical projeté en 2D (Koehn, 2017)………………………………………..20 Figure 8 : Exemple d’un compliment ironique……………………………………………………...…35 Figure 9 : Exemple d’une critique ironique……………………………………………………………36 Figure 10 : Exemple de commentaire dont la typographie est un marqueur d’ironie………………….38 Figure 11 : Exemple de commentaire sarcastique sur Reddit avec le marqueur sarcastique /s…………38 Figure 12 : Exemple d’antiphrase……………………………………………………………………...40 Figure 13 : Classement des sites Internet les plus visités depuis un ordinateur en France en décembre 2018, selon le nombre de visiteurs uniques par mois (en milliers)……………………………………..52 Figure 14 : Exemple d'analyse de sentiment effectuée avec Microsoft Text Analytics……………….59 Figure 15 : Exemple d'analyse de sentiment avec Lexalytics………………………………………….60 Figure 16 : Interprétation du score Kappa de Fleiss…………………………………...……………….66 Figure 17 : Valeurs critiques du score chi2……………………………………………………………..77 Figure 18 : Exemple de commentaire ironique dont les résultats divergent…………...……………...86

VI

LISTE DES TABLEAUX

Tableau 1 : Récapitulatif des marqueurs possibles d’ironie…………………………………………...48 Tableau 2 : Répartition des annotateurs et des systèmes de TA………………………………………..61 Tableau 3 : Score Kappa – Qualité des traductions automatique………………………………………67 Tableau 4 : Moyenne des scores des trois systèmes (1 à 5)……………………………………………68 Tableau 5 : Récapitulatif des médianes (1 à 5)…………………………………………………..……..70 Tableau 6 : BoxPlot de la répartition des notes………………………………………………..……….70 Tableau 7 : BoxPlot des commentaires ironiques……………………………………………………..71 Tableau 8 : BoxPlot des commentaires standards……………………..………………………………71 Tableau 9 : Récapitulatif des notes « 5 » attribuées aux systèmes…………………………...... 72 Tableau 10 : Récapitulatif des notes « 4 » attribuées aux systèmes ……………...….…………..…....73 Tableau 11 : Récapitulatif des notes « 3 » attribuées aux systèmes ……………...………………….....74 Tableau 12 : Récapitulatif des notes « 2 » attribuées aux systèmes ……………………...…….….…...74 Tableau 13 : Récapitulatif des notes « 1 » attribuées aux systèmes …………………………………...75 Tableau 14 : Récapitulatif des moyennes obtenues avec le score BLEU ……………………………..80 Tableau 15 : BoxPlot des résultats du score BLEU……………………………………………………81 Tableau 16 : BoxPlot des résultats du score BLEU – Les commentaires ironiques……………………82 Tableau 17 : BoxPlot des résultats du score BLEU – Les commentaires standards…………………....82 Tableau 18 : Récapitulatif des scores kappas pour la compréhension de la TA……………………….84 Tableau 19 : Pourcentages des notes qui ont été attribuées de la même manière ou différemment que celles des anglophones………………………………………………………………………………....84 Tableau 20 : Récapitulatif des erreurs liées aux étoiles……………………………………………..…87 Tableau 21 : Récapitulatif des évaluations liées à la qualité ……………….…………………………93 Tableau 22 : Récapitulatif des scores assignés au sentiment des commentaires….………...……...…94 Tableau 23 : Récapitulatif des scores des systèmes automatiques d’analyse de sentiment...………....96

VII

LISTE DES ABRÉVIATIONS

TA : Traduction automatique RBMT : Rule-based Machine Translation TAS : Traduction automatique statistique SMT : Statistical Machine Translation TAN : Traduction automatique neuronale NMT : Neural Machine Translation TAAH : Traduction automatique assistée par l’humain TEAHQ : Traduction entièrement automatique de haute qualité TH : Traduction humaine CGU : Contenu généré par les utilisateurs DL : DeepL GT : Google Traduction LS : Langue source LC : Langue cible MTA : Microsoft Text Analytic

VIII

1.INTRODUCTION

« Все счастли́ вые се́мьи похо́ жи друг на дру́га, ка́ ждая несчастли́ вая семья́ несчастли́ ва

по-сво́ ему. »

Il y a 20 ans, cette phrase aurait laissée perplexe bien des internautes francophones. En effet, lorsqu’Internet en était à ses débuts et que les systèmes de traduction automatique en ligne n’existaient pas encore, comprendre une locution étrangère était pratiquement impossible. Cela est bien différent aujourd’hui. Il suffit de faire quelques clics pour découvrir quasi instantanément que cette phrase russe est l’incipit du roman de Tolstoï : Anna Karénine et qu’elle veut dire – selon Google Traduction - :

« Toutes les familles heureuses se ressemblent, chaque famille malheureuse est malheureuse à sa manière. » Ainsi, grâce aux nombreux systèmes de traduction automatique présents sur Internet, les utilisateurs ne sont plus contraints à ne fréquenter que les sites qui partagent leur langue.

Cet état de fait, conjugué à l’avènement du Web 2.0 et à la propagation du contenu généré par les utilisateurs qu’il implique, nous permet de nous questionner sur la pertinence de la traduction de ce type de contenu. Il est assurément utile de pouvoir traduire une recette de cuisine ou la critique d’un film, mais – et cela est inhérent à l’essence même d’Internet – il arrive que les utilisateurs masquent leur propos derrière des filtres linguistiques. Grossièreté, raccourcis, orthographe non-canonique et ironie sont autant de procédés qui peuvent participer à rendre leurs intentions opaques et ainsi potentiellement nuire à un utilisateur de langue étrangère.

1.1 Motivation

Livres, films, voyages, restaurants… Rien n’y échappe : sur Internet, l’on trouve des informations sur tous types de services. Cela est pratique : il suffit d’une part de connaître le nom d’un produit, d’une activité ou d’un lieu et d’autre part d’avoir accès à une connexion internet pour obtenir un grand nombre d’informations à son sujet. Or, l’anglais étant la langue la plus présente sur Internet1, la plupart de ces informations sont rédigées dans cette langue. Il paraît ainsi tout à fait possible qu’un utilisateur, face à un commentaire en anglais, décide de faire traduire celui-ci par un système de traduction automatique

1 https://www.internetworldstats.com/stats7.htm [consulté le 11.07.2019]

1 en ligne afin d’avoir une idée de son contenu. Ce postulat se vérifie par les chiffres : en 2011, déjà, les internautes traduisaient 50 millions de page web par jour (Koehn, 2011). Toutefois, le corolaire qui résulte de ces commentaires écrits par des anonymes est le suivant : une grande partie de ces critiques sont bien souvent des amateurs et non des professionnels. Ceux-ci auront donc tendance à ne pas rédiger leurs messages dans une langue canonique. En effet, il n’existe pas de « règles » de rédaction sur le

Web. Certes, des codes de conduite peuvent exister selon les plateformes mais l’on est loin d’une norme qui serait valable partout. Les utilisateurs jurent, écrivent en langage SMS et s’expriment, somme toute, naturellement. Parmi ces moyens naturels de l’expression humaine, l’on retrouve la notion d’ironie. Ce procédé consiste à dire l’inverse de ce que l’on pense et masque ainsi l’intention du locuteur. Le domaine de l’analyse de sentiment, qui cherche justement à trouver le sentiment – positif ou négatif – d’un commentaire, s’intéresse beaucoup à l’ironie puisque celle-ci rend la compréhension de ce sentiment plus difficile et qu’elle est très présente dans tous les types de contenu créés par les utilisateurs du Web.

L’on peut donc se demander dans quelle mesure un internaute francophone ayant recours à la traduction automatique peut comprendre l’ironie d’un commentaire.

1.2 Question de recherche

Nous l’avons mentionné plus tôt, la traduction automatique est une excellente ressource pour obtenir des informations, surtout lorsque celles-ci n’ont pas besoin d’être précises. Un utilisateur aura ainsi envie de savoir si un produit a été jugé satisfaisant ou non. Or, et on le constate facilement en lisant des commentaires, l’ironie et le sarcasme sont des procédés souvent utilisés lorsqu’un critique décide de donner son avis. Le problème c’est que l’un comme l’autre créent une scission entre ce qui est dit et ce qui est pensé. Ainsi, dans un commentaire ironique, un discours positif sera utilisé pour dénigrer le produit dont il fait état. Un utilisateur francophone utilisant un logiciel de traduction automatique afin d’obtenir des informations sur un produit quelconque risque donc de ne pas être en mesure de comprendre le fond d’un commentaire et donc d’être induit en erreur.

Cela résume bien le but de notre projet : dans notre mémoire, nous essayerons de définir dans quelle mesure la présence de l’ironie et de son dérivé : le sarcasme, peuvent nuire à la compréhension de la

2 traduction automatique. Notre question de recherche principale peut donc être formulée de la façon suivante :

Dans le cadre de commentaires rédigés par des utilisateurs anglophones, quel est l’impact de l’ironie sur la traduction automatique ?

Cette question plutôt large est le point d’ancrage de notre mémoire et le motif principal de toutes nos démarches. Afin de tenter de trouver une réponse à cette question, nous tâcherons de répondre à deux autres sous questions – plus spécifiques. La première concerne la qualité de la traduction automatique :

1) Quel est l’impact de l’ironie sur la traduction automatique des commentaires sélectionnés ?

La deuxième question sous-jacente concerne la relation entre le texte cible et son interprétation par un locuteur francophone. En effet, nous tâcherons de mesurer l’élément suivant :

2) Un utilisateur francophone peut-il comprendre l’intention d’un commentaire ironique traduit automatiquement ?

Ces deux questions nous permettrons donc d’établir si l’ironie a une influence néfaste sur les systèmes de traduction automatique. C’est grâce à ces deux sous questions que nous pourrons essayer d’estimer plus globalement s’il y a des conséquences quant à l’utilisation de l’ironie lorsque celle-ci est confrontée

à la traduction automatique, et s’il y en a effectivement, à quel point ces conséquences sont négatives.

Tout cela nous permettra également de voir si la prise en charge de l’ironie est mieux gérée par un système de traduction automatique en particulier, puisque nous avons décidé d’en sélectionner plusieurs.

1.3 Démarche

La section précédente était dédiée à l’explicitation de nos questions de recherche. Le but de celle-ci est de présenter la démarche que nous avons suivie afin de mener à bien notre projet.

La première chose que nous avons faite a tout d’abord été de choisir un corpus composé de commentaires

Amazon standards et ironiques/sarcastiques. Celui-ci a été mis en place pour une étude menée par Elena

Filatova (2012) et est disponible gratuitement en ligne2. Une fois le corpus trouvé, nous avons sélectionné aléatoirement 50 commentaires normaux et 25 commentaires ironiques. Nous avons ensuite demandé à un francophone de choisir 25 autres commentaires ironiques qui lui paraissaient intéressants.

2 https://github.com/ef2020/SarcasmAmazonReviewsCorpus/wiki [Consulté le 03 Août 2019]

3 Ensuite, nous avons fait traduire ces 100 commentaires par trois systèmes de traduction automatique disponibles en ligne : Google Traduction, Bing et DeepL. Par la suite, nous avons jugé deux éléments : le premier concerne la qualité de la traduction automatique ; nous les avons donc soumises à des annotateurs humains et au score BLEU afin de pouvoir jauger s’il existe des corrélations entre systèmes de traduction automatique et qualité, ou types de commentaires (standards ou sarcastiques) et qualité.

Le deuxième élément que nous avons décidé de mesurer concerne la compréhension de la traduction.

Nous avons donc soumis les commentaires traduits automatiquement à une autre série d’annotateurs humains chargés de noter leur ressenti (positif ou négatif) vis-à-vis de ceux-ci. Nous avons également décidé de soumettre ces commentaires à des systèmes d’analyse des sentiments afin de voir s’ils sont capables de relever l’ironie dans la langue source et, après la traduction, dans la langue cible. Ces trois types d’évaluation (humaine, score BLEU et analyse de sentiment) nous permettront de voir si, après la traduction automatique, l’intention d’un commentaire est préservée, si la qualité change selon le type de commentaire et finalement de voir si l’un des systèmes de traduction automatique se prête mieux à la traduction de commentaires ironiques qu’un autre.

1.4 Plan

Afin de rendre ce mémoire le plus digeste et compréhensible possible, nous avons décidé de le diviser en deux parties. La première partie sera théorique et concernera toutes les notions intervenant dans notre mémoire, alors que la seconde sera pratique et concernera d’une part la présentation de nos outils et d’autre part l’analyse de nos données ainsi que nos résultats.

Nous commencerons donc d’abord par une présentation de la traduction automatique (Chapitre 2). Nous nous arrêterons d’abord sur les différents systèmes existants puis nous nous pencherons sur son historique. Nous nous intéresserons également aux différents moyens d’évaluation de la traduction automatique : les annotations humaines et le score BLEU. Dans le chapitre suivant (Chapitre 3), nous expliciterons les problèmes liés à la traduction automatique et à la littérature avant de nous pencher plus en avant sur les notions théoriques de l’ironie et plus largement à la traduction de celle-ci. Nous terminerons cette section en présentant l’analyse de sentiment – domaine que nous avons sélectionné

4 pour évaluer la réception des traductions automatiques générées – puis par un survol des problèmes liés

à l’ironie et à l’automation.

Une fois ces bases théoriques posées nous passerons à la seconde partie qui, elle, sera consacrée aux

éléments pratiques de notre mémoire. Ainsi nous présenterons notre méthodologie (Chapitre 4) en nous arrêtant d’abord sur les différents outils que nous avons utilisés : le corpus, puis d’une part les systèmes de traduction automatique, et d’autre part les systèmes d’analyse de sentiment. La partie suivante

(Chapitre 5), elle, sera consacré à l’analyse des données recueillies pour répondre à notre question de recherche et aux questions sous-jacentes que nous avons détaillés dans la section 1.2. Nous essayerons ainsi de déterminer si l’ironie a une influence sur la qualité de la traduction automatique et dans quelle mesure, puis si les traductions ont été comprises par les francophones s; nous tenterons aussi d’établir si les systèmes d’analyse de sentiment ont réussi à gérer les commentaires ironiques et finalement quel système a été le plus performant pour ce travail. Cela nous permettra de conclure notre travail (Chapitre

6) en établissant si d’une part l’un des systèmes s’illustre plus qu’un autre pour ce qui est de la qualité de la traduction automatique et d’autre part de mesurer si l’utilisation de l’ironie ou du sarcasme rend la traduction automatique impuissante.

5 2.LA TRADUCTION AUTOMATIQUE

2.1 Introduction

Il devient de plus en plus difficile d’imaginer que jusqu’à récemment, le contact entre les êtres humains

était limité par la distance qui séparait une personne d’une autre et que leur langue respective pouvait

être un obstacle insurmontable. En effet, depuis la naissance d’Internet il y a une vingtaine d’années, les différentes barrières qui pouvaient rendre les échanges, quels qu’ils soient, difficiles, se sont progressivement effondrées. Et aujourd’hui, devant un texte en langue étrangère, peu d’internautes se sentent démunis : les systèmes de traduction automatique en ligne permettent de comprendre (avec plus ou moins de facilité) le contenu d’un texte rédigé dans une langue étrangère.

C’est donc sur ce domaine au cœur de notre mémoire, la Traduction Automatique (ou TA), que nous nous arrêterons en premier en y consacrant notre deuxième chapitre. Nous tâcherons d’abord de proposer des définitions ainsi que de présenter les principaux systèmes qui ont jalonné le domaine (Section 2.2).

Nous présenterons ensuite brièvement son histoire (Section 2.3). Nous nous intéresserons ensuite aux différents moyens d’évaluation de la TA que nous avons sélectionnés pour notre travail (Section 2.4).

Nous clôturerons ce deuxième chapitre en proposant une conclusion (Section 2.5) qui ouvrira notre discussion sur un élément essentiel de notre travail, la présentation de l’ironie ainsi que des problématiques qui entourent son utilisation.

2.2 Architectures

Afin de faciliter la compréhension de la suite de notre travail, de même que pour poser des bases théoriques qui auront leur importance lorsque nous comparerons les différents outils de traduction automatique que nous avons utilisés, il nous paraît important de proposer des définitions explicites concernant les notions clés de notre étude de même qu’expliciter le fonctionnement des divers systèmes de traduction automatique :

6 2.2.1 Définition de la traduction automatique

La traduction automatique est définie de la façon suivante par Jurafsky: « [Machine Translation is] the use of computers to automate translation from one language to another. » (Jurafsky et al., 2009, p.895)

Yvon, lui, écrit dans son article pour les Oxford Bibliographies :

« Machine translation (MT) is an interdisciplinary scientific field that brings together linguists,

lexicologists, computer scientists, and translation practitioners in the pursuit of a common goal: to design

and develop electronic resources and computer software capable of automatically translating a document

in a source language (SL) into an equivalent text in a target language (TL). » (Yvon, 2014)

Ces définitions mettent en exergue le but absolu de la traduction automatique : traduire informatiquement et sans intervention humaine un texte de langue source en un texte de langue cible.

Toutefois, bien qu’il existe de nombreux programmes et logiciels qui permettent effectivement de passer d’une langue à une autre, l’efficacité de ceux-ci est actuellement relative. En effet, une intervention humaine est encore nécessaire - et à différents niveaux - pour que la qualité d’une telle traduction puisse

être considérée comme équivalente à celle d’un être humain. Cela est exprimé dans la citation ci-dessus par l’utilisation des termes « pursuit of a common goal », l’objectif final de la TA n’est pas encore atteint. Le but d’obtenir des traductions entièrement automatiques de haute qualité (TEAHQ ou HQMT en anglais) n’est donc possible pour l’instant que lorsque certaines conditions sont réunies : la présence d’un domaine restreint, par exemple, dont les textes en langue source sont soit rédigés dans un sous- langage soit rédigés avec une langue contrôlée.

Si d’un côté il existe les traductions entièrement automatiques d’une qualité irréprochable (possibles actuellement uniquement sous certaines conditions) et de l’autre côté des traductions effectuées par des traducteurs humains, il existe également un entre deux qui n’est toutefois pas englobé dans la TA puisque le terme « n’inclut pas les outils informatiques d’aide à la traduction ou aides informatisées à la traduction qui s’inscrivent dans le cadre de la traduction humaine assistée par ordinateur (THAO) »

(Bouillon, 1993).

7 Cela concerne toutes les aides informatiques (comme les mémoires de traduction) auxquelles un traducteur humain peut faire appel lorsqu’il travaille, de même que tout ce qui concerne la TAAH, la traduction automatique assistée par l’humain. L’on peut par exemple mentionner la post-édition qui est la correction d’une traduction obtenue automatiquement par un traducteur humain.

Tous les programmes et logiciels de traduction automatique ne fonctionnent pas selon la même architecture. Certains s’appuient sur des connaissances linguistiques alors que d’autres reposent sur des corpus (Quah, 2006). Nous tâcherons de présenter les systèmes principaux ci-dessous puisque l’architecture d’un système témoigne souvent d’une certaine idéologie ou du moins de certaines priorités.

2.2.2 Les systèmes de traduction automatique

Afin de faciliter l’illustration des différents systèmes de TA, il nous paraît pertinent de nous arrêter un instant sur une représentation visuelle du procédé de la traduction automatique. Le triangle de Vauquois

(Figure 1) est un schéma imaginé par Bernard Vauquois, mathématicien et informaticien français, représentant les différents niveaux d’analyse que peut effectuer un système pour passer d’une langue source à une langue cible (Trujillo, 1999).

Figure 1 : Le triangle de Vauquois (Trujillo, 1999).

La première chose que nous pouvons constater est que d’une part et de l’autre du triangle se trouvent la langue source (SL) et la langue cible (TL). La seconde est que le triangle est composé de plusieurs

8 éléments qui sont tous accompagnés de flèches. Ceux-ci représentent les trois étapes nécessaires, selon

Vauquois, à la traduction automatique. La première étape étant l’analyse (analysis), la deuxième étant le transfert (transfer) et la dernière étant la génération (generation). Dans ce triangle, l’analyse et la génération ne sont présentes qu’une seule fois alors qu’il présente quatre sortes de transferts différents

(si l’on prend en compte l’interlangue). Cela s’explique par le fait que le triangle ne fait pas que représenter les trois étapes de la traduction automatique, il présente aussi les différents niveaux d’analyse qu’un système peut effectuer. Nous présenterons ces différents systèmes dans la section ci-dessous mais il nous paraît tout de même pertinent de relever que ce schéma illustre une conception importante : plus on analyse finement la langue source, plus la phase de transfert sera facile – concept explicité par la longueur des flèches.

2.2.2.1 Les Systèmes Linguistiques (RBMT) : Il s’agit des premiers systèmes de traduction automatique

(dont l’apogée est les années 90) qui ont réussi à prouver leur efficacité et sont actuellement les seuls capables – pour les systèmes indirects - de faire de la traduction automatique de haute qualité (TAHQ).

Comme leur nom l’indique, ceux-ci ont été conçus comme étant linguistiques, c’est-à-dire que la grammaire d’une langue ainsi que son vocabulaire en sont une partie intégrante. Ceux-ci sont décrits par le triangle de Vauquois (Figure 1). Il existe deux types de systèmes linguistiques. Les systèmes directs et les systèmes indirects.

Les systèmes directs (ou minimalistes), pionniers de la traduction automatique, effectuent les traductions assez simplement (Bouillon, 1993).

9

Figure 2 : Le triangle de Vauquois : les systèmes directs (Saers, 2011).

En effet, comme représentés dans le triangle de Vauquois (Figure 2), leur niveau d’analyse est placé au plus bas puisque dans les faits, ils n’en font tout simplement pas. Composés uniquement d’un dictionnaire bilingue qui servira à effectuer la transformation, il n’y a ni une intervention de structures intermédiaires ni une analyse du texte source. La traduction sera donc uniquement basée sur ce dictionnaire bilingue et les informations qu’il contient. Pour reprendre les termes de Jurafsky, chaque entrée lexicale peut être considérée comme un petit programme informatique dont la seule fonction est de traduire « son » mot. Une fois qu’ils auront tous été traduits, ceux-ci pourront néanmoins être réorganisés aux moyens de règles simples afin, par exemple, d’organiser correctement les mots dans la phrase (Jurafsky et al., 2009). Ces systèmes directs sont devenus obsolètes pour plusieurs raisons. La plus évidente est que les résultats qu’ils proposent sont loin d’être satisfaisants. En effet, s’ils sont certes capables de réagir à des conditions simples le fait qu’ils n’aient aucune connaissance des structures grammaticales de la langue source ou de la langue cible les rend très vite impuissants (Jurafsky et al.,

2009). De plus, il faut non seulement faire preuve d’une exhaustivité exemplaire, voire impossible, au moment d’entrer les mots dans le dictionnaire ; mais, en plus, les ressources demandées ne sont pas anodines : l’énergie et le temps nécessaire à la préparation de ces systèmes n’est pas négligeable et les rendent peu rentables. Finalement leur application à une seule paire de langue les rend moins intéressants actuellement. Il faut toutefois noter que l’idée de « transformation » est un concept qui est resté important dans les systèmes de traduction postérieurs.

10 Les systèmes indirects (ou maximalistes), quant à eux, sont l’évolution des systèmes directs puisqu’ils tentent de pallier aux défauts des précédents : plutôt que de munir le système d’un seul dictionnaire bilingue, celui-ci est désormais également équipé de connaissances contrastives (contrastive knowledge) entre les langues qu’il sera chargé de traduire. Les systèmes indirects peuvent se découper en deux types.

Figure 3 : Le triangle de Vauquois : les systèmes de transfert (Saez, 2011).

Le premier concerne les systèmes de transfert représentés ci-dessus dans le triangle de Vauquois

(Figure 3). Ceux-ci suivent parfaitement les concepts sous-jacents de ce triangle puisqu’ils sont munis des trois phases qui le caractérisent. En effet, contrairement aux systèmes directs, les systèmes de transfert, comme leur nom l’indique, passeront après l’analyse du texte source par une phase de transfert avant la génération du texte cible. Cela est rendu possible grâce à l’ajout de deux éléments capitaux : les dictionnaires monolingues et les grammaires. En effet, en plus d’un dictionnaire bilingue – déjà présent dans les systèmes directs – les systèmes de transfert possèdent tous des dictionnaires monolingues respectivement pour la langue source et la langue cible. Ces dictionnaires permettent donc au système de ne plus passer directement d’une langue à une autre mais d’avoir une étape supplémentaire avant la génération de l’énoncé traduit en langue cible. Après avoir analysé le texte source, une procédure de transfert représente la phrase en langue source d’une manière abstraite (en arbre syntaxique). Ensuite, grâce à ses connaissances concernant la langue cible, le programme pourra finalement générer une traduction. En résumé, le programme passe donc d’abord du texte en langue source à une représentation de celui-ci, qui est ensuite convertie en une représentation de la langue cible.

11 Finalement, le programme génère le texte cible (Quah, 2006). Ces trois étapes utilisent une base de données lexicales et grammaticales sur lesquelles le système peut s’appuyer pour générer une traduction.

Ces deux approches, directes et indirectes avec transfert, sont donc résolument linguistiques, puisqu’elles mettent un accent considérable sur la grammaire et le vocabulaire des langues source et cible qu’elles essayent de représenter – bien que la syntaxe ne soit réellement présente que dans les systèmes de transfert. La solution la plus efficace est cependant de combiner les deux approches que nous venons de présenter, en munissant les systèmes de transfert de dictionnaires bilingues très riches

(Jurafsky et al., 2009).

Ces systèmes, comme tous les systèmes actuels de traduction automatique, ont tout de même des limites : le vocabulaire est circonscrit à celui que les utilisateurs auront entré dans le programme ; quant

à la grammaire, il est difficile (voire impossible) d’en rédiger une suffisamment exhaustive pour qu’elle couvre toutes les possibilités phrastiques de l’expression humaine. Finalement, l’un des problèmes majeurs de ces systèmes vient du fait qu’ils seront incapables de générer une phrase si la phase de transfert est mise à mal par une erreur dans les règles entrées.

La deuxième catégorie de systèmes indirects est dite par interlangue. Le concept de l’interlangue est qu’au moment de la phase de transfert, plutôt que de passer à une représentation en arbre syntaxique spécifique à la langue, de recourir à une représentation « universelle » et abstraite du langage - en excluant donc la langue en tant que telle.

Figure 4 : Le triangle de Vauquois : les systèmes par interlangue (Saers, 2011).

Cette idée prend sa source dans les recherches linguistiques des années 60 où les chercheurs tentaient d’identifier les points communs entre chaque langue (Quah, 2006). Le texte source est donc converti en

12 une représentation complètement abstraite qui capture toutes les informations syntaxiques et sémantiques essentielles du texte. Cela se constate dans le triangle de Vauquois ci-dessus (Figure 4) puisque la transformation de la langue en une abstraction universelle pendant la phase d’analyse supprime le besoin d’une phase de transfert. Cette abstraction est très utile puisque le texte peut ensuite

être traduit dans un grand nombre de langues - contrairement aux approches citées précédemment qui sont limitées par les systèmes grammaticaux propres à chaque langage (Quah, 2011). Le problème de cette approche est justement de réussir à développer cette interlangue afin qu’elle puisse ensuite être déployée pour un maximum de langues. Il n’existe actuellement pas de méthodologie qui parvienne à la construction d’une véritable représentation non-langagière (Quah, 2011), bien que les systèmes neuronaux s’en rapprochent, comme nous le verrons lorsque nous tenterons de présenter ces systèmes.

2.2.2.2 Les systèmes basés sur les corpus : Il s’agit de systèmes de TA les plus récents : ils commencent

à prendre de l’ampleur à la fin des années 90 mais sont réellement démocratisés à l’aube du 21ème siècle.

Ceux-ci ont une approche très différente des systèmes que nous avons évoqués précédemment puisque ceux-ci : « rejettent, partiellement ou totalement, l’approche basée sur les règles. » (Somers, 1993).

Ainsi, leur idéologie sous-jacente est plus de se baser sur le résultat que sur le processus (Jurafsky et al.,

2009). L’on abandonne ainsi l’idée de donner des connaissances monolingues et contrastives au système.

D’après la classification de Quah (2006), il existe deux catégories de systèmes basés sur des corpus. Les systèmes statistiques et les systèmes basés sur les exemples. Nous tâcherons de définir les premiers avant de nous intéresser aux seconds. Son livre datant de 2006, Quah ne fait pas mention d’une troisième catégorie proposée en 2014 par Cho et al. : les systèmes neuronaux. Ceux-ci fonctionnent également avec des corpus mais au vu des différences notables dans leur architecture, nous leur réservons une partie à part à la fin de cette section.

Les systèmes statistiques (SMT), comme leur nom l’indique, ne s’appuient pas sur des connaissances linguistiques mais fonctionnent en recherchant les occurrences des mots qu’ils ont à traduire ainsi que leur contexte dans des corpus souvent composés de traduction de référence, sur lesquels ils se seront

13 entraînés au préalable. C’est en comparant les divers résultats qu’ils auront obtenus qu’ils essayeront ensuite de définir quelle est la phrase qui sera la plus probable d’un point de vue statistique :

« Statistical MT is the name for a class of approaches that do just this [maximize some value function that represents the importance of both faithfulness and fluency] by building probabilistic models of faithfulness and fluency and then combining these models to choose the most probable translation» (Jurafsky et al., 2009).

Figure 5 : Le Triangle de Vauquois - les systèmes statistiques3.

Ces approches sont résolument éloignées de la proposition théorique de Vauquois (Figure 5). Toutefois, celle-ci est tout de même utile pour faciliter la compréhension de ces systèmes, par contraste. En effet, l’on peut d’ores et déjà constater que ces systèmes n’ont pas de phase d’analyse. Cela s’explique

évidemment par le fait qu’il n’y ait plus de connaissances linguistiques. Quant à la phase de transfert, celle-ci ne sert pas à la création d’un squelette syntaxique de la phrase en langue source puis cible, mais trouvera plusieurs possibilités de traductions parmi lesquelles le système sera chargé de choisir. Pour cela, c’est à dire pour qu’un système statistique soit capable de faire ce choix, celui-ci doit être entraîné.

Cet entraînement est composé de deux phases (qui ne sont pas effectuées conjointement). La première est l’alignement du corpus qui consiste à faire correspondre à chaque phrase du texte source sa traduction en texte cible. Afin de maximiser l’efficacité du système, ce corpus devrait être aussi grand que possible.

La deuxième phase est une phase de construction des deux modèles qui forment le système. Il s’agit du modèle de langue et du modèle de traduction ainsi que de leurs séquences.

3 SYSTRAN : http://blog.systransoft.com/how-does-neural-machine-translation-work/ [Consulté le 08 Avril 2019]

14 Après l’entraînement, le système sera en mesure de « prédire » (à l’aide de la théorie de Bayes) une traduction en se basant sur les deux modèles que celui-ci aura pu établir. En effet, celui-ci représentera la phrase en N-gramme. Le fonctionnement est le suivant : le programme va découper le texte source en

N-grammes qui seront ensuite comparés au modèle de traduction. Le programme pourra ensuite tenter de choisir statistiquement, parmi les phrases qu’il aura générées, la phrase qui a la plus haute probabilité d’être correcte. Ce choix est rendu possible par la deuxième caractéristique des systèmes statistiques : en plus de la capacité du système à découper un texte et à générer grâce à un corpus différentes traductions possibles, ceux-ci possèdent un modèle de langue où sont stockées toutes les informations quant à celle-ci. Ce modèle sert à attribuer un score aux différentes possibilités de traduction pour trouver la plus probable parmi les possibilités qu’il aura extraites en utilisant les n-grammes (Koehn, 2011).

Finalement, les systèmes statistiques sont aussi pourvus d’une « table de réordonnencement »

(reordering table) qui indique au système dans quel ordre les mots doivent être placés. Ce genre de systèmes est encore utilisé notamment sur Internet bien que ceux-ci se fassent petit à petit supplanter par les derniers systèmes basés sur les corpus en date : les systèmes neuronaux.

Les autres systèmes de traduction basés sur des corpus sont dits basés sur les exemples (example-based)

Les éléments principaux de ces types de systèmes sont d’une part un corpus bilingue constitué de segments en langue source et en langue cible et d’autre part d’un algorithme qui sera capable de trouver, dans ce corpus bilingue, le segment le plus proche (l’exemple) du texte source et de le faire correspondre

à son segment de texte cible. C’est sur cet exemple que sera basé la traduction. Le postulat de base est donc plutôt simple : afin de traduire une phrase, l’on cherchera d’anciennes traductions composées de phrases similaires à celle que l’on tente de traduire. L’idée sous-jacente est que beaucoup de traductions ne sont que des modifications d’anciennes traductions (Trujillo, 1999). La traduction sera donc opérée de la façon suivante : premièrement, le système cherchera à faire correspondre aux segments du nouveau texte d’autres paires bilingues et similaires existant déjà dans son corpus, puis, après avoir aligné les traductions de ces segments, il les combinera afin de générer une traduction. Le problème qui émerge de ces systèmes est celui que Jurafsky & Martin évoquent dans leur chapitre sur les N-grammes :

« language is creative; new sentences are created all the time, and we won’t always be able to count entire sentences. » (Jurafsky et al., 2018). Il est difficile pour ces systèmes de trouver les « exemples

15 parfaits » afin de générer la traduction. Ils ont donc tendance à devoir séparer les phrases en des fragments trop courts, ce qui, comme le note Harold Somers (Somers, 1999), affecte la qualité des traductions.

En conclusion, ces deux systèmes sont donc intéressants dans la mesure où ils permettent une plus grande flexibilité que les systèmes linguistiques puisque ceux-ci sont capables de s’adapter. Qui plus est, puisqu’ils se basent sur des corpus et donc des textes déjà existants, les traductions qu’ils produisent auront tendance à être plus idiomatiques. Toutefois, pour qu’elles puissent réellement être jugées comme

étant satisfaisantes, elles doivent venir d’un système qui aura été entraîné - si possible – sur un sujet très spécifique et avec des corpus gigantesques, ce qui peut être un problème informatique en tant que tel.

Toutefois, s’ils nécessitent un matériel informatique puissant, les phases d’entraînement, elles, ne demandant que peu d’intervention humaine : ces systèmes sont donc moins couteux en termes d’énergie humaine que les systèmes linguistiques que nous avons présentés plus tôt.

Systèmes hybrides : Bien que nous ayons présenté les systèmes précédents séparément comme s’ils

étaient des entités incompatibles les unes avec les autres, la réalité est bien différente. En effet, les approches linguistiques sont souvent coûteuses et ne parviennent parfois à ne produire que des résultats peu probants quand de nouvelles règles sont ajoutées. Quant aux approches statistiques, elles sont suffisamment flexibles pour parvenir à un résultat et ce même si l’énoncé n’a pas été prévu par le système. Ce résultat, néanmoins, pourra contenir des erreurs. Quah note que la recherche bornée d’une approche en éliminant les autres peut être une mauvaise idée et que la meilleure manière d’avancer dans la recherche est de combiner ces approches en systèmes hybrides (Quah, 2006). Ceux-ci permettraient de combiner des approches « corpus » (quelles soient statistiques ou basées sur des exemples…ou les deux) avec des connaissances linguistiques qui permettraient de prévenir des séries d’erreurs et qui amélioreraient la qualité des traductions (Koehn, 2011).

Les système neuronaux : Très récents et très complexes puisqu’ils se basent sur les théories de l’« apprentissage profond » (deep learning en anglais), ces systèmes sont actuellement sous le feu des

16 projecteurs4 grâce à leurs résultats dépassant ceux des systèmes évoqués précédemment. Nous tenterons donc d’expliquer leur fonctionnement et les principes qui les animent. Mais avant de pouvoir nous arrêter sur leurs particularités, il nous paraît pertinent de présenter d’abord le deep-learning qui est à la base de ces systèmes.

Nous le verrons plus en détail dans le bref historique mais, tout comme pour l’histoire de la Traduction

Automatique, l’idée théorique du deep learning est née peu après la Seconde Guerre mondiale alors que les premiers « ordinateurs » voyaient le jour. L’idée de base est de créer une machine capable d’apprendre automatiquement et sans intervention humaine, afin que celle-ci puisse utiliser seule ses nouvelles connaissances. Ainsi, les ordinateurs seraient capables d’analyser des données et d’en ressortir des schémas qu’ils pourraient ensuite utiliser pour effectuer des prédictions (Hao, 2016). Comme nous l’avons déjà exposé plus tôt, c’est comme cela que les systèmes statistiques fonctionnent. Toutefois, à l’inverse des systèmes neuronaux, les systèmes statistiques (qui sont appelés des shallow models) ne possèdent qu’une seule « couche cachée » (hidden layer) d’analyse. Ces couches cachées multiples (et donc deep)– cœur des réseaux neuronaux – ne sont théorisées qu’en 2006 dans un article de Geoffrey

Hinton qui pave la voie pour les réseaux dits neuronaux et donc le Deep Learning. Celui-ci déclare que, pour passer à une étape supérieure de l’intelligence artificielle, il faut tout d’abord donner aux machines plusieurs « niveaux d’analyses » et que ces différents niveaux d’analyse doivent pouvoir être entraînés afin d’aider la machine à apprendre. Ces deux postulats sont ceux qui ont permis à l’intelligence artificielle de faire un bond en matière de qualité, et ce dans de nombreux secteurs : la reconnaissance vocale, la reconnaissance d’images et, bien entendu, la traduction automatique. En résumé le deep learning utilise une cascade de niveaux d’unités de traitement non-linéaires, c’est-à-dire que les données peuvent se croiser ou s’influencer rétroactivement. La figure ci-dessous (Figure 6) est une représentation d’un réseau neuronal classique qui permet d’extraire - et à terme d’exploiter - les particularités des différentes couches (Hao, 2016). Cela permet aux ordinateurs d’apprendre grâce à une représentation hiérarchique des données où les particularités d’un niveau élevé seront dérivées de particularités des niveaux plus bas et plus abstraits (Goodfellow et al, 2016). Les outputs seront donc

4 https://omniscien.com/state-neural-machine-translation-nmt/ [Consulté le 11 Avril 2019]

17 dérivés par la computation des couches cachées ce qui est censé ressembler au processus neuronal des

êtres vivants.5

Figure 6 : Fonctionnement d'un système neuronal pour la reconnaissance d'images. (Goodfellow et al.,2016).

Les systèmes neuronaux fonctionnent donc sur ces bases : ils sont composés de milliers d’unités artificielles qui ressemblent à des neurones humains, dans le sens que leur activation (qu’elle soit positive ou négative) dépend du stimulus qu’ils reçoivent. De plus, ces neurones sont groupés en couches cachées (et donc opaques à l’analyse) afin qu’ils puissent passer d’un input en langue source (dans le cas de la traduction automatique) à un output en langue cible. Nous tenterons dans les paragraphes qui suivent d’expliquer plus en détail le fonctionnement de ces systèmes.

Comme les systèmes statistiques mentionnés plus tôt, les systèmes neuronaux sont basés sur des questions de probabilités (Forcada, 2017) ; ainsi, tous deux doivent s’entraîner sur des corpus afin de pouvoir acquérir des connaissances. Ces corpus sont composés de paires de segments en langue source et de leurs traductions. Contrairement à l’entraînement des systèmes statistiques qui se fait étape par

étape et partie par partie, les systèmes neuronaux, eux, entraînent leurs deux parties en même temps ; qui plus est, aucun modèle n’est extrait de cet entraînement. Les deux parties qui les constituent sont appelées l’encodeur et le décodeur qui sont deux réseaux neuronaux récurrents. L’encodeur analysera l’input et le décodeur transformera cet input en output de langue cible. La plupart des systèmes actuels sont également munis d’un système d’attention qui permet au décodeur d’affiner ses prédictions et de

5 http://blog.systransoft.com/how-does-neural-machine-translation-work/ [Consulté le 16 Avril 2019]

18 prendre en compte les éléments les plus pertinents de la phrase source afin de produire les mots du texte cible.

Ce bref schéma n’est pas suffisant pour décrire la complexité et les différents mécanismes de ces systèmes. Nous essayerons donc de donner un bref exemple qui nous permettra non seulement de proposer une définition sans doute plus exhaustive mais également de mentionner les outils utilisés par les réseaux neuronaux.

La première étape, lorsque l’on veut déployer un système de TA neuronal est donc de l’entraîner sur un corpus. Cela peut prendre plusieurs jours et demande des appareils très performants. En effet, l’une des particularités de cet entraînement est que le système sera capable de créer des plongements de mots

(embedded distributional representations) qui formeront une représentation des mots que le système pourra ensuite utiliser. Ce terme vient d’une théorie de Firth qui postule que « des mots qui se trouvent dans des contextes d’apparitions similaires tendent à avoir des sens similaires » (Kris et al., 2016) ou en langue originale : « You shall know a word by the company it keeps » (Firth, 1957). Afin de mettre en place cette représentation distributionnelle, le programme utilisera des vecteurs qui faciliteront celle-ci.

En effet, les mots étant des unités discrètes et symboliques (une voiture veut dire une voiture, un taxi veut dire un taxi) représenter chacun d’entre eux traditionnellement demanderait des ressources informatiques beaucoup trop grandes. De plus, il est impossible de « faire comprendre » à la machine qu’une voiture et un taxi sont sémantiquement proches. Ces problèmes expliquent l’intérêt d’utiliser une représentation distributionnelle : « the distributed representation achieves a level of generalization that is not possible with classical n-gram languages models ; whereas a n-gram model works in terms of discrete units that have no inherent relationship to one another, a continuous space model works in terms of word vectors where similar words are likely to have similar vectors. » (Mikolov et al., 2013) Utiliser les n-grammes traditionnels, c’est-à-dire considérer chaque mot comme une unité existant dans son contexte de n-mot, voudrait dire devoir multiplier chaque mot unique du corpus de langue source par lui-même. Une représentation distributionnelle à l’aide de vecteurs continus permet de séparer chaque mot selon son contexte et ainsi le reformaliser en une série de chiffre. En reprenant notre exemple précédent, une voiture pourrait être représentée par les valeurs (0.12, 1.23, 0.34) et un taxi par les valeurs

(0.12, 1.23, 0.33). Cela permet une classification plus pertinente et demandant moins de ressources.

19 Nous pouvons également souligner que ces vecteurs transforment chaque mot en une unité multi- dimensionnelle. Après avoir décomposé-recomposé les noms en vecteur (aussi appelés contextes), le système les déploiera dans un plongement lexical (word embedding) (Figure 7) qui lui permettra de tisser des liens entre chaque occurrence de mots.

Figure 7 : Un plongement lexical projeté en 2D (Koehn, 2017). Ces représentations sont dites « profondes », elles ne sont pas construites en une fois mais étapes par

étapes (comme nous l’évoquions précédemment) à partir de couches plus « profondes » (shallower)

(Forcada, 2017).

Une fois l’entraînement terminé, il sera possible de passer au déploiement du système. Celui-ci est composé de l’encodeur et du décodeur. Avant de tenter d’expliquer plus en détail leur fonctionnement, il est pertinent de préciser que ceux-ci sont des réseaux neuronaux récurrents (recurrent neural network

/ RNN) c’est-à-dire : « a recurrent neural network (RNN) works on variable lenght sequence by maintaining a hidden state (h) over time. At each timestep the hidden state is updated » (Cho et al., 2014

- a) c’est cette couche cachée qui est la particularité de ces systèmes. En effet, lors de l’analyse du segment source, l’encodeur gardera pour chacun des mots des informations concernant les mots précédents, informations qui seront actualisées après chaque mot. Le résultat de cet encodage permettra au décodeur de produire une traduction. Pour reprendre l’expression de Cho : « The encoder extracts a fixed-lenght vector representation from a variable lenght input sentence and the decoder generates a correct variable-lenght target translation from this representation » (Cho et al., 2014 - a). Ainsi, le

20 premier réseau neuronal récurrent encode une séquence de symboles en une représentation vectorielle dont la longueur est déterminée et l’autre réseau neuronal décode cette représentation dans une autre séquence de symboles (Cho et al., 2014 – b). Tout ce processus permet de maximiser la probabilité d’une séquence en langue cible sans pour autant demander d’informations linguistiques extérieures. Ainsi les systèmes neuronaux permettent de s’éloigner de la « phrase » et des séquences (Cho et al., 2014 – b).

Toutefois ces systèmes ne sont pas encore parfaits, comme le constate Cho et al. Dans leur article, leurs performances étaient au départ plus faibles que les systèmes statistiques conventionnels. En effet, leurs résultats étaient bons mais perdaient dramatiquement en qualité dès que les phrases devenaient plus longues. C’est précisément ce que note Bahdanau :

« This approach means that the neural network needs to be able to compress all the necessary info of a

source sentence into a fixed-length vector. This may make it difficult for the neural network to cope with

long sentences especially for those longer than those in the training corpus » (Bahdanau, 2014).

C’est à cause de ces problèmes qu’il a proposé d’inclure un autre élément : l’attention. Ce dispositif est placé au niveau du décodeur qui « fait attention » (ou qui répond) non seulement à la dernière représentation construite par le décodeur mais aussi à la séquence complète des différentes représentations construites durant l’encodage (Forcada, 2017). Donner à l’encodeur un mécanisme d’attention, c’est enlever à l’encodeur la responsabilité de devoir inclure toutes les informations dans un vecteur à la taille déterminée (Bahdanau, 2014). C’est grâce à ce dispositif que les systèmes neuronaux ont pu se démocratiser puisque cela leur permet de réagir adéquatement à des phrases plus longues. À terme, l’attention leur a permis de surpasser les systèmes statistiques traditionnels : « the neural approach

(NMT) has emerged as a new paradigm in MT systems, raising interest in academia and industry by outperforming phrase-based statistical systems (PBSMT) based largely on impressive results in automatic evaluation » (Castilho et al., 2017).

Ces systèmes sont donc efficaces et il est facile de comprendre l’enthousiasme que ceux-ci suscitent, même si Koehn (2018) met en garde qu’il y a encore du chemin à parcourir avant que la traduction neuronale (NMT) puisse détrôner définitivement les systèmes linguistiques (RBMT) et les systèmes

21 statistiques (SMT) : en effet, ceux-ci ne fonctionnent bien que lorsque les corpus qu’ils ont à dispositions sont énormes. Si les corpus sont restreints, ils auront tendance à produire de plus mauvais résultats que tous les autres types de systèmes. Cela s’explique par le fait que pour qu’ils puissent être efficaces - tant les encodeurs que les décodeurs - il faut que leurs critères de sélection puissent être nombreux ce qui est impossible avec un corpus restreint. Il sera donc intéressant, dans la suite de notre travail, de voir s’il existe une corrélation entre le type de système utilisé et la qualité de la traduction ou de compréhension de la traduction.

2.3 Historique

La traduction automatique est née dans les années 50 aux Etats-Unis où, selon Maurice Gross, elle a connu un « départ brillant » (Gross, 1972). L’on comprend bien sûr, après la Deuxième Guerre mondiale et alors que le rideau de fer divisait l’occident en deux entités antinomiques, l’intérêt qu’a pu susciter l’idée de pouvoir confier à des machines la tâche de la traduction. C’est pourquoi de nombreux chercheurs, qu’ils soient linguistes ou informaticiens, se sont penchés sur la question appuyés par d’énormes subventions émanant principalement des États-Unis. Dès 1955 l’intérêt est tel qu’est publié

Machine Translation of language : Fourteen essays de William Locke et Donald Booth qui est le premier livre dédié à la traduction automatique. Cependant, après des années de recherches intensives et globales, dix-huit pays possèdent des centres de traduction automatique, les premières expériences s’avèrent infructueuses. Chan le souligne dans The Routledge Encyclopaedia of Translation Technology, l’un des problèmes majeurs de cette première tentative est que : « Unfortunately, most of them set out to pursue a mistaken and unattainable goal of MT research which is called ‘fully automatic high quality

(FAHQ) translation.» (Chan, 2015). Les causes sont d’une part liées aux limites informatiques de l’époque qui ne permettaient pas encore l’utilisation de base de données dont la taille aurait été suffisante et d’autre part à des concepts théoriques qui n’étaient pas encore pertinents pour que la traduction automatique puisse prendre son essor (Bouillon, 1993). En effet, le concept selon lequel les mots ne peuvent pas être traduits correctement si on les considère comme des entités isolées et indépendantes les unes des autres n’avait pas encore fait son chemin (Quah, 2006).

22 Ainsi, la traduction automatique après avoir été la source d’un tel engouement se trouve laissée de côté : le plus grand projet de recherche aux États-Unis ferme ses portes en 1963, témoin du désintérêt croissant qu’elle subit. En 1966, le rapport ALPAC (Automatic Language Processing Advisory Committe), mis en place pour juger les progrès du domaine, tranche : « there is no immediate or predictable prospect of useful machine translation. » (ALPAC, 1966). Les effets de ce rapport sont désastreux et la traduction automatique est délaissée après que la plupart des subsides ont été coupés. Les programmes heurtant tous un mur infranchissable ont vite fini par faire passer la traduction automatique pour une illusion.

L’abandon du domaine est tel que Maurice Gross, en 1972, écrit : « Il semble difficile de justifier le maintien d'une activité de Traduction automatique. » (Gross, 1972) Le constat est le suivant : dans les années 70, après avoir enthousiasmé la recherche pendant une quinzaine d’années, la traduction automatique passe pour quelque chose de pratiquement chimérique. Pourtant, c’est peu avant les années

60 que Noam Chomsky, célèbre linguiste, théorise sur les grammaires formelles et sur la syntaxique des langues (Bouillon, 1993). Ce sont ses idées qui permettront de changer de paradigme en ce qui concerne la traduction automatique et qui donneront lieu à la fin des années 70 à la création des premiers systèmes de traduction automatique performants, les systèmes directs puis indirects (voir section 2.2.2.1). En effet, pour des raisons évidentes de multiculturalisme, le Canada et l’Europe reprennent le flambeau que tenait jusqu’à présent les États-Unis (Chan, 2015). C’est donc à cette époque que naissent des logiciels tels que Météo (1976), un système de traduction automatique indirect qui, comme son nom l’indique sert à traduire les bulletins météorologiques de l’anglais vers le français, ou encore SYSTRAN. Tous les systèmes de traduction automatique des années 70 jusqu’à la fin des années 80 n’étaient que des variations de ces systèmes linguistiques. Ce n’est qu’à l’orée des années 90 que : « the dominance of linguistic rules-based approaches [is] broken by the appearance of new corpus-based methods and strategies. First, an IBM research group purely based on statistical methods developed MT system, which carved out the way to statistical machine translation (SMT) » (Chan, 2015). C’est à ce moment- là de l’histoire de la traduction automatique que la création des systèmes de traduction automatique statistique (Section 2.2.2.2). D’abord avec des systèmes dits « Word-based » qui fonctionnent en proposant un « attribut-x » constitué du nombre de mots sources qu’un mot cible pouvait générer (a fertility) pour permettre à un mot cible de se connecter à plusieurs mots sources (Xiong et al., 2015)

23 (Section 2.2.2.2). Ces systèmes ont ensuite été remplacés par des systèmes dits « Phrase-based » qui ne se concentrent plus sur les mots mais, comme leur nom l’indique, sur les phrases. Dans ces systèmes, une phrase source est divisée en segments qui sont ensuite traduits puis réordonnés afin de former une phrase cible (Xiong et al., 2015)

Après un règne d’une vingtaine d’année, entre les années 90 et les années 2010, où les systèmes statistiques et linguistiques se sont partagé l’intérêt académique et le marché, les systèmes neuronaux voient le jour et bousculent le paradigme en place, d’abord en intégrant les systèmes statistiques (avec les propositions de Cho et al., par exemple) puis en devenant un type de système à part entière.

Aujourd’hui tous les systèmes que nous avons mentionnés précédemment restent pertinents même si, comme nous l’avons souligné plus tôt, les systèmes neuronaux suscitent un intérêt global et que la recherche se concentre sur leur amélioration, comme le prouve l’article de Bengio et al. pour l’amélioration du mécanisme d’attention (Bengio et al., 2018) (Section 2.2.2.2). Nous les présenterons plus tard dans notre travail, mais parmi les trois systèmes de traduction automatique que nous avons sélectionnés pour mener à bien notre étude, deux sont neuronaux (Google Traduction et DeepL) et le dernier (Bing) est statistique.

2.4 L’évaluation de la traduction automatique

Nous l’avons introduit dans la première partie de notre travail (Chapitre 1) : celui-ci porte sur la traduction automatique de commentaires Amazon ironiques ; ainsi, afin de pouvoir mesurer si ceux-ci peuvent être un problème pour les systèmes de traduction automatique, cela sous-entend nécessairement une forme d’évaluation. Il existe plusieurs façons d’évaluer des traductions automatiques qui ont toutes leurs avantages et leurs inconvénients. Dans la plupart des cas, les traductions sont évaluées selon deux critères : la fidélité (fidelity en anglais) au texte source ou l’idiomaticité (fluency en anglais) du texte cible. Pour notre travail, nous avons décidé d’évaluer les traductions que nous avons obtenues avec

Google Traduction, Bing et DeepL de deux manières différentes, ce qui nous permettra de nuancer nos résultats puisque les méthodes sélectionnées ne répondent pas à la même demande. La première est une

évaluation humaine que nous présenterons en premier lieu (Section 2.4.1). La seconde est une évaluation automatique que l’on appelle BLEU (Section 2.4.2).

24 2.4.1 Les annotations humaines

La méthode la plus fiable pour évaluer la qualité des traductions automatiques consiste à faire appel à des annotateurs humains qui seront chargés de qualifier celle-ci (Jurafsky et al., 2009). Nous mentionnions plus tôt que les évaluations peuvent porter soit sur la fidélité soit sur l’idiomaticité du texte cible.

Dans le cas de l’idiomaticité, il est possible, grâce aux annotateurs humains, de leur demander s’ils considèrent le texte comme étant compréhensible, naturel ou lisible. Selon Jurafsky & Martin (Jurafsky et al., 2009), nous pouvons utiliser des échelles spécifiques telles que la clarté, le naturel ou le style du texte cible. Pour cela, il s’agit de présenter aux annotateurs la traduction effectuée et de leur demander de mettre une note (allant de 1 à 5, par exemple) vis-à-vis du critère demandé. La deuxième manière dont on peut utiliser des annotateurs humains consiste à prendre en compte les données annexes à l’annotation, comme le temps qu’ils prennent pour lire une traduction : l’idée sous-jacente est qu’une mauvaise traduction demandera plus d’effort et donc plus de temps pour être comprise, par exemple.

La seconde dimension que nous avons citée est celle de la fidélité au texte source. L’on cherche souvent

à mesurer deux dimensions, la première est le degré dans lequel une traduction peut être considérée comme étant adéquate (adequacy en anglais). C’est-à-dire mesurer si celle-ci contient toutes les informations présentes dans le texte source. Si les annotateurs sont bilingues, ceux-ci pourront avoir accès au texte source et au texte cible afin de comparer. Si les annotateurs sont monolingues, par contre, il s’agira de leur présenter une traduction humaine de référence en plus de la traduction effectuée automatiquement. Le deuxième aspect que l’on peut chercher à mesurer concerne l’informativité

(informativeness) d’un texte. Pour cela, l’on demandera aux annotateurs d’effectuer une tâche annexe vis-à-vis de la traduction. L’on pourrait, par exemple, leur soumettre un questionnaire à choix multiple.

Le dernier cas de figure où les êtres humains peuvent être utiles afin de déterminer la qualité d’une traduction est lorsqu’il est question de mesurer toutes les modifications ainsi que le temps nécessaire à un humain pour corriger le texte cible afin de le rendre acceptable. L’idée, ici, est que plus les changements auront été nombreux, plus la traduction effectuée par le système aura été mauvaise. Quoi qu’il en soit, les buts principaux de l’évaluation seraient d’obtenir des notes qui soient consistantes - avec un bon accord inter-annotateur -, peu coûteuses en temps et en énergie et, surtout, qu’elles soient

25 pertinentes. Bien entendu, il existe un certain nombre d’inconvénients à utiliser des annotateurs humains.

Le premier est que cela demande des ressources temporelles : annoter un document, quel qu’il soit, n’est pas l’affaire de quelques minutes. L’autre problème est que les annotateurs risquent de donner des scores très différents aux mêmes phrases. L’échelle 1 à 5, pourtant pratique, est utilisée – selon Koehn – très différemment selon l’individu (Koehn, 2011). L’utilisation des annotateurs humains est donc à double tranchant puisque d’un côté les notes obtenues seront le produit d’une réflexion, mais d’un autre celle- ci ne sera pas objective.

Pourtant, l’évaluation humaine a une place très importante dans notre travail puisque c’est celle que nous utiliserons le plus lorsqu’il sera question d’évaluer les traductions. En effet, nous avons non seulement décidé de l’utiliser du point de vue de l’idiomaticité, en demandant à des experts de qualifier la qualité de la traduction (en utilisant une échelle de 1 à 5) mais avons également demandé à ces experts de donner leur avis quant au fond. En effet, dans la problématique de l’ironie et du sarcasme, il nous a paru pertinent de leur demander s’ils jugeaient que l’intention du texte source était présente dans le texte cible. Nous avons également utilisé l’annotation humaine pour qualifier l’informativité (pour reprendre les termes de Jurafsky) (2009, 930-931) des traductions. Pour ce faire, puisque notre objectif est – notamment - de mesurer si des annotateurs non-experts sont capables de sentir ou non les subtilités ironiques, nous leur avons demandé d’annoter le ressenti qu’ils ont éprouvé vis-à-vis de la traduction.

Nous présenterons plus en avant la métrique d’évaluation humaine que nous avons mis en place dans notre partie méthodologique (Chapitre 4).

2.4.2 Le score BLEU

Le score BLEU (Bilingual Evaluation Understudy) proposé par Papineni et al., est né en 2002 alors que les modèles statistiques commençaient à se démocratiser. Il devenait de plus en plus capital d’être en mesure d’appréhender efficacement les résultats des systèmes de traduction automatique et cela, sans devoir mobiliser des êtres humains à chaque fois. Même s’il est évident – selon Jurafsky & Martin (2009,

930-931) – que les annotations humaines offrent des notes plus pertinentes, celles-ci contiennent les défauts que nous avons évoqués plus haut. C’est pourquoi l’idée de créer un score automatique plus rapide et moins couteux a séduit la recherche. Le score BLEU n’est pas la première ni la seule méthode

26 d’évaluation automatique, mais elle est toutefois l’une – si ce n’est la - plus répandue. L’on peut citer la métrique METEOR dérivée du score BLEU, par exemple, qui remporte également un certain succès.

Cela dit, si elles ne fonctionnent pas toutes exactement de la même manière, ces méthodes trouvent leur origine dans un principe proposé par Miller et Beebe-Center (1956), qui stipule que pour qu’une traduction automatique soit bonne, celle-ci doit être très similaire à une traduction humaine. Cette idée a inspiré la recherche et permis de développer différentes mesures qui sont toujours d’actualité. Afin de mesurer cette similarité entre les traductions automatiques et humaines, l’on utilise le « taux d’erreur de mots » (ou Word error rate / WER en anglais). Ce taux marque l’écart qui existe entre la traduction proposée par le système de traduction automatique (qu’on appellera le candidat) et une traduction de référence effectuée par un humain. Jurafsky & Martin (2009) soulignent que l’établissement de cette traduction peut prendre du temps – alors que justement les métriques automatiques étaient supposées en gagner – mais comme cette traduction peut ensuite être réutilisée pour comparer de nouvelles traductions automatiques, cela semble être un « sacrifice » judicieux.

Le score BLEU, donc, est une sorte de WER amélioré. Il s’agit d’une méthode d’évaluation automatique qui classe chaque traduction obtenue grâce à une moyenne pondérée qui prend en compte le nombre de

N-grammes qui se recoupent avec la traduction de référence. Ce score a été imaginé spécifiquement pour la TA. Le nombre de N-gramme le plus courant est de 4 – et c’est le nombre qui est considéré comme donnant les résultats les plus fiables (Poibeau, 2017) - quoique le score puisse aussi être établi en utilisant des tri-grammes ou des bi-grammes. Puisque la métrique cherche à trouver les suites de mots présents dans les deux traductions, le score BLEU est basé sur la précision. Mais, afin d’éviter que les résultats soient biaisés si un mot apparaît plusieurs fois dans la traduction candidate, le score BLEU utilise une métrique de précision n-gramme modifiée. Si cela n’était pas le cas, les résultats iraient, par exemple, en faveur d’une traduction qui répèterait plusieurs fois un mot présent et dans la phrase source et dans la phrase cible. L’exemple que présentent Papineni et al. est le suivant : en admettant une phrase traduite automatiquement « the the the the the» et que l’une des traductions de référence est « the cat is on the mat », une métrique de précision non-modifiée considèrerait que puisque chacun des mots « le » apparaissant dans la traduction candidate sont également présents dans la traduction de référence, le score de précision unigram serait de 5/5 (Papineni et al., 2002).

27 La métrique de précision modifiée permet d’éviter ce problème : elle ne prend pas en compte les mots qui apparaissent plus dans la phrase traduite automatiquement que dans la phrase de référence. En effet, la première chose effectuée par la métrique est de compter le maximum d’instances dans lesquelles un mot est utilisé dans toutes les traductions de référence. Le nombre de mots des traductions automatiques est ensuite coupé par cette référence maximum. Ainsi, avec l’exemple que nous avons présenté ci-dessus et en gardant le même système d’unigramme, le résultat serait de 2/5 puisque la référence « the cat is on the mat » n’a que deux « the ». Afin d’obtenir un score global, BLEU commence par calculer toutes les compilations de n-gramme pour chaque phrase et additionne les totaux réduits vis-à-vis de toutes les phrases traduites automatiquement, puis divise cela par le nombre de candidats n-grammes dans la référence. Le résultat sera un score entre 0 et 1, 0 signifiant que la traduction sera très mauvaise et 1 indiquant qu’elle est identique en tout point à la référence.

Un autre élément contrastif du score BLEU est qu’il pénalise les traductions qui sont trop courtes par rapport à la référence. Cela permet d’éviter de favoriser les traductions incomplètes. Afin d’y parvenir,

BLEU calcule une pénalité de brièveté (ou de concision) sur tout le corpus. Il calculera une référence de longueur pour le corpus en additionnant, pour chaque phrase traduite automatiquement, la longueur des phrases qui lui correspondent le plus.

Finalement, le BLEU a la particularité d’utiliser plusieurs traductions de référence plutôt qu’une seule, ce qui permet d’obtenir des résultats plus fiables. En effet, lorsque deux humains traduisent la même phrase, il est très rare que ceux-ci produisent exactement la même phrase. Permettre au score BLEU de tirer ses résultats de plusieurs références, plutôt qu’une seule, lui permet donc d’admettre qu’une phrase peut être traduite de plusieurs façons.

Le score BLEU possède aussi un certain nombre de limites. Par exemple, puisqu’il prend en compte les n-grammes, des phrases n’ayant aucun sens général mais possédant une suite de mots se reflétant dans les phrases de référence peuvent recevoir un score meilleur que si la même phrase avait été annotée par un humain (Gerlach, 2015). De même, il semblerait que le score n’est utile que s’il peut être comparé avec un score émanant de conditions semblables en tout point. Qui plus est, le score BLEU n’est, toujours selon Jurafsky & Martin (2009, 932), pas très efficace pour comparer des systèmes ayant des architectures différentes. Ainsi le score BLEU aura tendance à défavoriser les systèmes neuronaux.

28 2.5 Conclusion

Afin d’éviter de répéter ce que nous avons brièvement introduit dans les définitions des différents systèmes de même que dans l’historique, nous ne reviendrons pas sur l’apogée récente des systèmes neuronaux et de la qualité de plus en plus satisfaisante des traductions effectuées automatiquement.

Toutefois, et nous l’avons mentionné à plusieurs reprises, il nous paraît important de souligner que le but suprême de la traduction automatique est, qu’un jour, celle-ci puisse remplacer complètement les traducteurs humains. À l’heure actuelle, il est tout simplement impossible d’imaginer (sauf dans les quelques cas que nous avons mentionnés plus tôt) pouvoir confier sans révision un texte source à un ordinateur et que celui-ci produise une traduction dont la qualité serait équivalente à celle d’un être humain. Ainsi, même si les résultats de la TA progressent indiscutablement, la post-édition ou la pré-

édition sont toujours nécessaires pour contrôler les résultats. Cela veut dire que, plutôt que d’être une dangereuse rivale, la TA est actuellement plutôt un outil qui fait partie intégrante du quotidien d’un nombre croissant de traducteurs. La machine s’intègre petit à petit dans le travail des traducteurs humains, même si celle-ci est encore loin de les remplacer. Nous ne reviendrons pas sur ces notions qui touchent à la traduction automatique et au monde professionnel. En effet, la traduction automatique au cœur de notre travail n’a de fins ni commerciales ni théoriques. Ainsi, il nous paraît indispensable de souligner la différence notable entre les années 2000 et aujourd’hui. En effet, il est désormais possible pour toute personne possédant une connexion Internet d’avoir accès à la traduction automatique de l’énoncé de son choix. Les systèmes ne sont plus uniquement destinés à une utilisation commerciale ou

à une utilisation académique. Si les précédents systèmes de traduction automatique relevaient justement de la recherche, de domaines hermétiques (la météorologie, les forces militaires), ou alors étaient des programmes couteux destinés à un cadre professionnel, aujourd’hui la traduction automatique est accessible par tout un chacun. N’importe qui peut profiter des outils disponibles en ligne et peut les utiliser, gratuitement, sans contrainte. Cet aspect est d’ailleurs une partie intégrante de notre travail puisque nous nous bornerons à n’utiliser que des logiciels gratuits et disponibles sur Internet.

La traduction automatique est donc largement répandue que ça soit pour les entreprises, le monde académique ou pour les particuliers. L’utilisation de celle-ci peut avoir des buts économiques (assister la traduction humaine et donc rendre celle-ci moins coûteuse) ou par exemple, des buts académiques

29 puisque les théories sous-jacentes touchent notamment les domaines de la linguistique, de l’informatique et de l’intelligence artificielle. Toutefois nous nous concentrerons sur les buts « humains » de la TA qui sont énumérés par Quah : la dissémination, l’assimilation, l’échange d’information ainsi que l’accessibilité (Quah, 2006). Elle permet en effet à des particuliers d’acquérir des informations dans leur quotidien sans qu’il n’y ait d’autre intérêt qu’un intérêt personnel. Nous avons également présenté les différentes méthodes d’évaluation que nous utiliserons dans la suite de notre travail. L’autre partie théorique importante de notre travail concerne la problématique de l’ironie. C’est pourquoi la troisième partie de notre mémoire (Chapitre 3) sera donc consacrée à la présentation de celle-ci, de ses enjeux et des problématiques qu’elle soulève.

30 3. L’IRONIE ET LE SARCASME

3.1 Introduction

Jusqu’à présent, lorsque nous avons évoqué la traduction automatique d’un énoncé, celle-ci concernait principalement la traduction automatique de registres restreints et techniques. L’on peut dès lors se poser la question de la prise en charge d’autres registres par la traduction automatique comme la littérature ou le contenu généré par les utilisateurs. En d’autres termes, la langue dans laquelle les êtres humains

écrivent lorsqu’ils ne sont pas soumis à des contraintes. C’est la raison pour laquelle nous nous concentrerons dans cette partie à la présentation des différentes problématiques sous-jacentes de notre travail. Ainsi, dans la première section, nous commencerons par présenter les enjeux liés à la traduction automatique lorsque celle-ci est confrontée à la littérature dans la section 3.2. Nous continuerons en proposant une définition des concepts de l’ironie et du sarcasme dans la section 3.3. Ensuite, nous nous concentrerons sur les difficultés de la traduction de l’ironie lorsqu’elle est effectuée par un humain dans la section 3.4 puis lorsqu’elle est effectuée automatiquement dans la section 3.5.Puis, nous présenterons le domaine de l’analyse de sentiment dans la section 3.6 que nous lierons ensuite à l’ironie dans la section 3.7 en nous intéressant à sa détection par les systèmes d’analyse de sentiment. La section 3.8 sera consacrée à une brève conclusion qui permettra de clôturer la partie purement théorique de notre mémoire.

3.2 Traduction automatique et littérature

Il paraît aujourd’hui impossible d’imaginer confier une œuvre littéraire à un système de traduction automatique et d’être satisfait du résultat. Comme le dit Jurafsky dans Speech and Language processing,

« Translation of this sort [literary translations] requires a deep and rich understanding of the source language and the input text and a poetic and creative command of the target language » (Jurafsky et al.,

2009). En effet, la littérature n’est pas soit une question de fond ou une question de forme, mais un assemblage des deux afin que le sens soit magnifié par la forme. Les mots peuvent en cacher d’autres et, contrairement à des manuels d’utilisation, une œuvre littéraire, quelle qu’elle soit, ne semble pas pouvoir être traduite sans une certaine sensibilité dont les machines sont – pour l’instant- dépourvue.

Toral et al. (2018) déclarent dans leur étude que pour ce qui est des systèmes statistiques, il est

31 impossible pour eux d’être utiles pour ce qui concerne la traduction littéraire, même lorsqu’il s’agit plus d’aider un traducteur humain que de le remplacer. Toutefois, avec l’avènement des systèmes neuronaux et leurs bons résultats, la recherche s’est demandé quels pouvaient être les résultats de ces systèmes face aux œuvres littéraires. Dans la même étude les chercheurs ont fait traduire des textes littéraires à un système neuronal. En ce qui le concerne, l’article démontre qu’entre 17 et 34% des traductions effectuées par le système neuronal de leur étude, qui avait été au préalable entraîné sur un corpus littéraire pertinent, ont été perçues par des locuteurs de la langue cible comme étant d’une qualité

équivalente aux traductions effectuées par des humains (Toral et al., 2018). Cela démontre que même si les systèmes neuronaux ne sont certes pas encore capables de remplacer des humains, ceux-ci peuvent prendre en charge des énoncés qui n’appartiennent pas à une langue contrôlée ou à un sous-langage.

Mais si la littérature est un pan intéressant de la langue naturelle des êtres humains, elle n’est toutefois pas réellement comparable à une représentation authentique (c’est-à-dire non-codifiée) de l’expression humaine. Il est donc intéressant de se demander ce qu’il en est de la traduction automatique d’une langue qui ne serait en aucun cas codifiée. En effet, si la littérature est l’expression de l’imagination d’un être humain sans contrainte autre que celle que l’auteur a voulu s’imposer, celle-ci n’est pas représentative de la manière dont un locuteur quelconque s’exprime. Il suffit de s’intéresser aux différents messages présents sur Internet pour constater que la langue est revêtue d’un potentiel expressif pratiquement infini.

Ainsi, parmi la myriade d’articles, de commentaires et d’avis en tout genre qui circulent – et ce, dans la plupart des langues – tous ne suivent pas les mêmes règles. Certains tenteront de donner à leur message une qualité journalistique, voire littéraire, alors que d’autres ne feront que peu de cas de l’orthographe ou de la syntaxe. Nous l’avons déjà mentionné, grâce aux logiciels de traductions automatiques disponibles en ligne, il devient de plus en plus facile pour quiconque possède un ordinateur et une connexion de connaître le sens des informations qu’il a pu trouver sur le net : « Information acquisition on the Web is the kind of task for which a rough translation is useful » (Jurafsky et al., 2009). La recherche d’information sur Internet est, c’est indéniable, l’un des intérêts principaux de la plateforme.

Cela dit, cet aspect-là n’est plus l’unique possibilité offerte sur le Web. En effet, depuis l’avènement du web 2.0 qui « has changed the way users create, share, search for and collect online information, [it] offers new and more efficient ways of communication by enabling users to make their ideas and opinions

32 available to a potential audience of millions of people » (Chaves et al., 2012). Il n’est ainsi plus question que d’une recherche d’information mais également de la dissémination d’informations de chaque utilisateur. Lorsque l’on réalise que le Web est fréquenté quotidiennement par des milliards de personnes6, l’on peut imaginer la pluralité des énoncés qui sont chaque jour écrits puis potentiellement traduits. Tout cela explique l’intérêt de s’interroger quant à la pertinence de la traduction automatique lorsqu’elle est confrontée au contenu généré par les utilisateurs. Loin d’être un simple accessoire superflu, la traduction automatique permet de rendre accessibilité un contenu qui, sans elle, demeurerait opaque. La question qui se pose, justement, concerne cette opacité – due à la langue - dont les internautes peuvent espérer s’extraire lorsqu’ils utilisent un système de traduction automatique. La première couche de cette opacité est évidemment la langue, problème en partie résolu grâce aux systèmes qui peuvent justement se montrer efficaces pour accéder au contenu. La deuxième couche, en revanche, concerne l’intention véhiculée par n’importe quel énoncé. En effet, il arrive dans certains cas que l’intention sous- jacente d’un énoncé ne soit pas en accord avec la forme de celui-ci. L’ironie et le sarcasme sont justement deux procédés qui subvertissent le discours. Le locuteur dira une chose que son interlocuteur sera chargé de décoder correctement afin d’avoir accès à l’intention réelle du message. Ces deux procédés– intrinsèquement liés à l’humanité et surtout à ses moyens d’expressions - sont bien

évidemment omniprésents dans le contenu que l’on trouve sur Internet. Une traduction automatique

étant par définition effectuée sans intervention humaine, la machine n’est pas capable de mener une réflexion quant au sens réel d’un message. Celle-ci se bornera donc à produire une traduction des mots en tant que tels. L’on peut donc se demander si la compréhension supposée des locutions en langue

étrangère est rendue caduque par le sarcasme et l’ironie.

3.3 Définition de l’ironie et du sarcasme

« I will refrain from engaging in the vain attempt to define irony » (Bara, 2010). Si la recherche semble s’accorder sur le fait qu’il est très difficile de définir ce qu’est l’ironie, il nous paraît toutefois justifié de présenter quelques pistes qui permettraient, à défaut de la définir, au moins de mettre en place un cadre qui nous sera utile pour notre expérience. L’ironie, donc, consiste généralement en une locution orale

6 https://www.internetworldstats.com/stats.htm [Consulté le 20 Mai 2019]

33 ou écrite qui présente une position intellectuelle, une attitude ou une description à propos de la réalité qui est d’une manière ou d’une autre, contraire à cette réalité (Herbert, 2017). Toujours selon la définition proposée par Herbert, l’ironie permet d’exprimer d’une manière acceptable une position négative. Le sarcasme, selon lui, est une forme d’ironie qui est associée à cette négativité. Moncelet, quant à lui, définit le sarcasme comme étant la forme la plus acerbe de l’ironie (Moncelet, 2006). Mateo, en revanche, postule que la grande différence entre l’ironie et le sarcasme est que l’ironie représente faussement l’intention du message afin de présenter la contradiction entre ce qui est dit et ce qui est pensé comme étant normale (tout en restant compréhensible pour le lecteur), alors qu’avec le sarcasme, le message semble être parfaitement sincère et ne fait état d’aucune contradiction visible (Mateo, 1995).

La différence qui existe entre ces deux notions est donc plutôt compliquée à définir, d’autant plus que la recherche ne s’accorde pas à utiliser un terme plutôt qu’un autre. Le corpus que nous avons utilisé pour notre recherche est qualifié de « sarcastique » par Filatova. Or, dans l’article de Buschmeier et al

(2014) ceux-ci parlent de commentaires ironiques. Il précise ensuite que le corpus est composé de commentaires sarcastiques et ironiques sans pour autant expliciter ce qui différencie les deux termes.

Po-Ya Angela (2013), elle, a tenté dans son étude – à l’aide d’un autre corpus composé de tweets- de souligner les différences entre les énoncés qui étaient taggués « #irony » et les énoncés qui étaient taggués « #sarcasme » sur Twitter. Sa conclusion est que le sarcasme est toujours conscient alors que l’ironie peut arriver malgré le locuteur. De même, l’ironie peut aussi être utilisée pour parler d’un

événement alors que le sarcasme aura toujours une cible définie. Elle déclare ensuite que l’ironie et le sarcasme sont interchangeables dès lors que le locuteur est conscient de son propre discours et qu’il fait preuve d’une certaine agressivité.

Ironie et sarcasme sont donc étroitement liés et nous ne prétendrons pas parvenir à les différencier d’une manière catégorique. C’est pourquoi nous nous rallions à l’école qui affirme que sarcasme et ironie définissent le même phénomène : c’est-à-dire premièrement un discours dans lequel il y a un schisme entre ce qui est dit et la véritable intention, et deuxièmement un discours qui a été mis en place sciemment par le locuteur. Nous utiliserons donc les deux termes ironie et sarcasme comme étant synonymes l’un de l’autre.

34 Nous mentionnions que dans notre définition de ces deux concepts, l’ironie et le sarcasme sont introduits intentionnellement par le locuteur. Celui-ci peut le faire selon deux façons différentes qui auront pour but soit de dévaloriser quelque chose soit de le valoriser. Ainsi, la première façon est la critique ironique et la deuxième consiste en un compliment ironique. Lorsqu’un locuteur dit : « Quelle belle veste ! » d’une manière ironique, cela consiste à dire qu’il ne considère pas ladite veste comme étant réellement belle. Au contraire, lorsque dans une locution ironique le locuteur déclare : « Quelle horrible veste ! » celui-ci exprimera le fait que la veste lui plaît. Notre corpus est constitué majoritairement de compliments ironiques quoiqu’on puisse trouver des exemples des deux types :

Figure 8 : Exemple d'un compliment ironique Dans le cas de la Figure 8, il s’agit d’un compliment ironique puisque le commentaire n’est pas réellement positif. En effet, la personne se moque de l’artiste et de son album CD. Un consommateur face à ce commentaire devra donc comprendre que l’album n’est en réalité, pas si « fantastique ».

Au contraire, la Figure 9 ci-dessous représente un exemple d’une critique ironique. Ce qui semble être négatif ne l’est pas en réalité :

35

Figure 9 : Exemple d'une critique ironique La personne prétend être déçue vis-à-vis de son achat : alors qu’elle s’attendait à recevoir un lapin entier elle a reçu un lapin dépecé. L’on comprend bien ici que c’est un jeu et que le locuteur s’amuse du produit plus qu’il ne le critique réellement.

Le problème qui se pose, et qui est sans doute évident à la lecture du paragraphe précédent et des deux exemples, est donc le suivant : face à la phrase « quelle belle veste ! » comment un lecteur peut-il identifier s’il s’agit bien d’ironie ou si, au contraire, la phrase est tout à fait sincère et qu’il ne faut pas comprendre autre chose qu’un compliment ? Dans leur chapitre sur les marqueurs humoristiques,

Christian Burgers et Margot Van Mulken notent que cette ambiguïté entre ironie et sincérité est précisément le but de l’ironiste. Mais cela présente un risque, puisque l’ironie risque à tout moment de passer inaperçue (Burgers et al., 2017). Toujours selon les mêmes auteurs, l’ironie est donc toujours accompagnée d’un certain nombre d’éléments qui rendront son identification possible, ce qui – comme nous le verrons dans la section 3.7 – peut permettre aux systèmes d’analyse de sentiment de la reconnaître. Ceux-ci sont appelés des facteurs ironiques par Burgers et Van Mulken (2017), et permettent au lecteur de comprendre qu’il ne faut pas qu’il interprète littéralement le sens de la locution.

Ces facteurs interviennent à différents moments du discours. En effet, ils peuvent être oraux – selon le ton qui est utilisé, par exemple – ou écrits.

Au vu du sujet de notre travail, nous nous bornerons à énumérer quelques-uns de ces facteurs écrits qui peuvent servir à l’identification de l’ironie. Le premier que nous pouvons citer consiste en des conflits factuels situés dans l’œuvre. Cela intervient lorsque l’auteur se contredit, par exemple. Le deuxième

36 sont des chocs stylistiques, lorsque l’auteur utilise une manière très peu idiomatique pour exprimer un

événement ou un fait. Finalement, et c’est le marqueur qui nous intéresse le plus, il s’agit des conflits d’idéologie. Ce facteur survient lorsque l’idéologie présentée par l’énoncé est inverse à celle que nous, lecteurs, imputons à l’auteur. En d’autres termes, les lecteurs remarquent qu’il y a un conflit entre ce qui est dit et ce que l’auteur pense réellement. C’est le cas, par exemple, des deux commentaires (Figures 1 et 2) présents plus haut : il nous est difficile de croire à ce que dit le locuteur lorsque l’on lit son choix lexical « most bomb diggity album ever » ou « I would do anything for this man ». Tout cela ajouté au fait qu’il s’agisse d’un album de musique pop dont l’artiste – issu d’une émission de téléréalité – n’est pas considéré comme étant un artiste « digne de ce nom », l’on peut imaginer que l’auteur du commentaire ne pense pas réellement que cet album soit d’une qualité extraordinaire. De même, à la lecture du commentaire en Figure 2, il paraît évident que l’auteur du commentaire ne souhaite pas être pris au sérieux : il est tout à fait conscient que le lapin vendu n’était pas un lapin vivant, mais de la viande. Le sens des deux commentaires ne correspond donc pas aux valeurs que nous imputons aux deux auteurs.

Quoi qu’il en soit, l’un des éléments principaux à retenir est que pour comprendre une locution ironique, celle-ci doit être inscrite dans un contexte vis-à-vis duquel elle entre en conflit. C’est précisément le cas du commentaire en Figure 8 ; la connaissance du chanteur et de son public cible est essentielle à la compréhension du commentaire.

Toujours selon les auteurs que nous avons cités précédemment, il existe également des marqueurs qui peuvent servir à identifier l’ironie. Ceux-ci peuvent être typologiques ou méta-discursifs. Un marqueur typologique, typiquement, consiste à ajouter un nombre de points d’exclamation supérieur au nombre de points d’exclamation que l’on peut attendre dans un texte standard – en d’autres termes, à s’écarter des normes orthographiques comme nous pouvons le voir dans le commentaire ci-dessous (Figure 10).

37

Figure 10 : Exemple de commentaire dont la typographie est un marqueur d'ironie Quant aux marqueurs méta-discursifs, ils consistent, par exemple au hashtag #sarcasme que l’on peut trouver sur Twitter ou le /s, que l’on peut trouver sur Reddit en exemple dans la Figure 11, et qui expriment l’un comme l’autre, que la locution est en réalité ironique/sarcastique.

Figure 11 : Exemple de commentaire sarcastique sur Reddit avec le marqueur sarcastique /s7 En guise de conclusion pour cette brève section sur l’ironie et le sarcasme, nous tenons à souligner que l’un des points principaux de ces deux notions est de relever qu’elles sont considérées comme étant

« flottantes » et que celle-ci, pour être employées correctement, doivent être comprises par le lecteur.

Nous reviendrons plus tard à la question de l’ironie et de la Traduction Automatique, mais il paraît pertinent, afin d’expliciter en quoi celle-ci peut être problématique de présenter d’abord les problèmes liés à la traduction humaine du sarcasme et de l’ironie.

7https://www.reddit.com/r/Wellthatsucks/comments/bwehnb/my_mom_accidentally_left_her_mirror_in_front_o f/ [Consulté le 10 juin 2019]

38 3.4 Traduction humaine et ironie

Les notions que nous avons présentées précédemment permettent de réaliser à quel point l’ironie est un procédé discursif inséparable de son contexte. Or, ce contexte peut être propre à une culture et donc impossible à comprendre pour un individu émanant d’une autre. L’on comprend donc que la traduction de l’ironie soit quelque chose qui a éveillé l’intérêt des traducteurs. En effet, non seulement le traducteur doit être capable de la détecter, mais, en plus, de réussir à la transmettre à son public de langue cible.

Delia Chiaro énumère quelques stratégies qui peuvent servir aux traducteurs humains lorsque ceux-ci sont confrontés à de l’humour. Afin d’illustrer ces différents procédés, nous utiliserons les mêmes exemples que Chiaro (2017), c’est-à-dire une phrase tirée du film Le fabuleux destin d’Amélie Poulain :

« Tenez, allez voir ma mère, elle a une mémoire d’éléphante de mer ! »

La première stratégie, donc, est de ne pas tenter une modification quelconque et de traduire presque littéralement l’énoncé : « You’d better go and see my mother, she has a memory like an elephant. She’s an elephant seal. » La deuxième est de remplacer le trait humoristique de la langue source par un trait humoristique différent de langue cible : « You’d better go and see my mother. She’s got a memory like an elephant. Mum-ephant. » La troisième est de remplacer le trait d’humour par une expression idiomatique en langue cible. « Go and see my mother. An elephant. Never forgets. » et finalement les traducteurs peuvent décider d’ignorer complètement l’humour dans la langue source (Chiaro, 2017).

Cette théorie concerne plutôt l’humour en général que l’ironie et le sarcasme en particulier. Toutefois ces quatre stratégies peuvent être employées par le traducteur pour appréhender ceux-ci. L’on remarque le lien que l’on peut tisser avec la théorie du Skopos de Vermeer (Schäffner, 1998) : dans un cas comme celui-là, où une certaine subjectivité est de mise, l’intention est plus importante que la fidélité. Ainsi, le traducteur humain serait parfaitement justifié s’il lui prenait l’envie d’adapter son texte afin que l’ironie soit comprise par le lecteur cible. Un autre élément important à relever reste que l’ironie ne se construit pas « seule », son but n’est pas d’être plus subtile que son lecteur et donc une traduction de l’ironie devrait toujours être capable de signaler sa présence. Sa traduction est donc un défi qui repose sur plusieurs éléments tels que le type de texte, les conventions sociales, culturelles et traductologies de la langue source, les destinataires prévus par le traducteur, la mise en place de l’ironie dans la culture cible, etc. Tous ces facteurs, selon Marta Mateo (1995), ont un effet sur la communication et la perception de

39 l’ironie entre deux locuteurs. Encore une fois, il est nécessaire de souligner que la traduction de l’ironie devrait – selon les différentes sources mentionnées – être le fruit d’une réflexion et d’une stratégie : l’ironie implicite du texte source devrait devenir explicite dans le texte cible pour que les lecteurs puissent comprendre ce sens. Toutefois, et il est important de le noter, la stratégie de ne pas modifier le jeu de mot peut s’avérer une technique pertinente pour la traduction de l’ironie. Dans son analyse sur la traduction de l’ironie littéraire, July de Wilde note qu’un grand nombre de traducteurs restent les plus littéraux possible lorsque cela ne modifie pas l’intention du texte (De Wilde, 2012). Birkelund, elle, mentionne que dans le cas de l’anglais et du français, l’utilisation d’une antiphrase – procédé rhétorique courant dans les deux cultures qui ne « fait porter la contradiction que sur un vocable ou une expression »

(Birkelund, 2016) – et ne demande pas d’adaptation à un autre contexte culturel. L’Antiphrase est représentée maintes fois dans notre corpus comme en témoigne la Figure 12 ci-dessous

Figure 12 : Exemples d’antiphrases

Comme l’on peut le constater, le critique exprime l’inverse de ce qu’il veut dire réellement ce qui est précisément la définition de l’antiphrase.

40 En conclusion, la traduction de l’ironie et du sarcasme entre dans le domaine de la traduction littéraire puisqu’il ne s’agit plus de retranscrire des faits mais de reconstruire un procédé humoristique ou critique afin de permettre au lecteur de langue cible d’appréhender le sens réel du message. Si celle-ci doit d’abord être repérée efficacement et comprise par le traducteur, celui-ci peut ensuite envisager plusieurs moyens afin de la rendre accessible au lecteur cible.

3.5 Traduction automatique et ironie

Nous avons conclu la section précédente en soulignant que la traduction de l’ironie tient de la traduction littéraire. Or, et c’est ce que nous avancions plus tôt, le langage que l’on trouve sur le Web est souvent loin d’une quelconque littérarité. Pourtant, la présence de l’ironie et du sarcasme y est prépondérante.

Cela peut s’expliquer par l’avènement du Web 2.0. Le Web 2.0, dans lequel nous évoluons aujourd’hui, peut-être appréhendé par opposition à son prédécesseur : le Web 1.0. Celui-ci était constitué de pages internet statiques et était défini par notre capacité à y accéder. En effet, Internet était jadis plutôt utilisé pour la recherche d’information. La relation entre utilisateur et administrateur était donc unilatérale. Le propriétaire d’un site Internet le modelait à sa guise et les utilisateurs qui accédaient à cette page n’avaient, pour ainsi dire, par la possibilité d’insérer leur discours dans celle-ci. Aujourd’hui, le Web

2.0 est décrit comme donnant la possibilité aux utilisateurs d’interagir dynamiquement les uns avec les autres ; ceux-ci ont donc une part active dans les pages internet qui exposent leurs interventions et le contenu d’une page peut être construit par les utilisateurs et leur dialogue (Weitz. 2017).

Ainsi, la présence de l’ironie et du sarcasme peut s’expliquer par la capacité des utilisateurs d’exprimer leur point de vue sur des événements, des produits ou des services et cela d’une manière totalement anonyme. Toutes ces locutions sont regroupées sous le terme de contenu généré par les utilisateurs

(CGU) (User generated content en anglais ou UGC), qui peut être défini ainsi : « User-Generated content refers to media content created or produced by the general public rather than by paid professionals and primarily distributed on the Internet » (Daugherty et al., 2008).

L’OECD, considère que le contenu généré par les utilisateurs peut se définir selon trois critères : le premier est que ce contenu doit être disponible publiquement sur Internet. Le deuxième est qu’il doit témoigner d’un certain effort créatif et finalement, il doit être créé d’une manière non professionnelle

41 (OECD, 2007). L’on voit donc aisément en quoi ce contenu est étroitement lié au web 2.0: il n’est possible que grâce au nouveau paradigme d’Internet qui permet de communiquer, d’influencer, ou tout simplement de s’exprimer librement. Au vu du nombre d’opinions diverses qui sont exprimées chaque jour sur Internet, il est facile d’imaginer l’intérêt que la recherche et les entreprises émettent pour tous ces avis divers qui sont librement disséminés. En effet, un produit ou un service ne sera plus jugé que par des spécialistes, mais par toute personne disposant d’une connexion Internet et ayant envie de s’exprimer.

Dès lors, l’on peut se demander ce qu’il en est lorsque l’ironie est confrontée à la traduction automatique.

Roturier et Bensadoun (2011) considèrent que le contenu généré par les utilisateurs peut être très ardu pour la traduction automatique et ce pour différentes raisons. Premièrement, celui-ci sera écrit par des utilisateurs qui ne sont pas des professionnels. Cela est problématique puisqu’ils n’utiliseront sans doute pas les conventions liées au milieu et ne respecteront peut-être pas la terminologie. Qui plus est, rien ne garantit qu’ils écrivent dans leur langue maternelle. Deuxièmement, même si le contenu est écrit, celui- ci est souvent similaire à du contenu oral. L’on peut citer l’orthographe et la syntaxe peu canonique de certains utilisateurs de même que leurs « orthographiques ». Troisièmement, le fait que tous les utilisateurs n’ont pas le même degré de connaissances ni la même visibilité selon le mode de fonctionnement des sites et finalement la dernière difficulté est que tout ce contenu est très vite périssable (Roturier et al., 2011). Il existe plusieurs solutions pour faire face à cet état de fait : adapter les systèmes de TA afin qu’ils soient capables de faire face à ce genre de contenu ou en pré-éditant les

énoncés pour les rendre plus canoniques (Gerlach, 2015). Quoi qu’il en soit, puisqu’il n’existe, par définition, pas réellement de « règles » à caractère obligatoire sur Internet, il n’est pas rare – et notre corpus en est la preuve -, que les utilisateurs aient recours à l’ironie et au sarcasme afin d’exprimer leurs sentiments. La traduction automatique de l’ironie et du sarcasme entre ainsi également dans ce champ d’étude. En effet, Peled et Reichart (2017) proposent un système de traduction automatique monolingue capable de traduire un énoncé ironique en une version standard. Cela pourrait être une manière de gérer des énoncés ironiques en les faisant traduire au préalable par un système de ce type.

42 Mais pour ce qui concerne la traduction automatique « bilingue », celle qui nous intéresse dans notre travail, celle-ci reste problématique puisque le système ne sera pas capable d’émettre une réflexion vis-

à-vis du texte qu’il cherche à traduire. Jurafsky dit, après avoir déclaré qu’une traduction automatique approximative peut être utile lorsque l’on cherche à obtenir des informations sur le web, que « While there are still lots of confusion in this translation [un exemple sur une recette de cuisine traduite automatiquement] it’s probably enough » (Jurafsky et al., 2009, 897). Il est vrai que dans son exemple, il n’est pas très important de saisir toutes les informations puisqu’il n’y a pas de nuances au niveau de l’intention. Mais la question se pose évidemment quant aux commentaires ironiques puisqu’il s’agit là d’un énoncé où la forme et le fond ne s’accordent pas. En effet, l’on pourrait arguer qu’un utilisateur quelconque n’a pas besoin d’une traduction idiomatique et correcte dans sa totalité pour comprendre le sens du message. Mais lorsque l’on réalise qu’un utilisateur risque de ne pas être capable de percevoir, et ce même dans sa langue natale, l’intention sarcastique ou ironique d’un texte, l’on comprend que la tâche devient d’autant plus ardue pour le système de traduction automatique.

Les énoncés seront donc traduits « littéralement » dans le sens que, contrairement au traducteur humain qui pourra tenter de mettre en place une stratégie afin de les appréhender, la traduction automatique rendra le message tel quel. Notre question est donc de savoir si un être humain ou une machine peut réussir à détecter l’ironie dans les traductions automatique ironiques et si oui, dans quelle mesure. Une

étude a démontré que dans le cas de l’arabe et de l’anglais, les annotateurs humains chargés de donner une polarité étaient rendus plus confus par les erreurs de la traduction automatique que les systèmes de détection automatique de sentiment qui arrivaient mieux à appréhender ces erreurs de traduction

(Kiritchenko et al., 2015). Nous chercherons, dans la partie pratique de notre travail, à vérifier si ce résultat est également valable pour l’anglais et le français.

3.6 L’analyse de sentiment

« Sentiment analysis, also called opinion mining, is the field of study that analyses people’s opinions,

sentiments, appraisals, attitudes, and emotions toward entities and their attributes expressed in written

text » (Liu, 2015).

43 L’analyse de sentiment (ou opinion mining) est un outil important pour toute entreprise ayant une présence sur le Web et ayant envie d’avoir accès à la réception de ses produits. Terme apparu pour la première fois en 2003 dans une proposition de Nasukawa et Yi, le domaine s’intéresse à l’analyse des divers discours présents sur Internet lorsque ceux-ci peuvent être exploités à des fins, par exemple, commerciales. Si le domaine est si récent, c’est justement grâce à la naissance du web 2.0 qui a permis la création des données nécessaires pour son déploiement. Puisque la recherche se focalise essentiellement sur le contenu écrit qui se trouve en ligne, ce domaine est lié au traitement automatique des langues (TAL), et, concernant le sarcasme et l’ironie, l’on y trouve les mêmes problématiques, telles que l’identification et l’exploitation des données. Lorsque l’on parle d’opinion, l’on se réfère au concept des sentiments, des évaluations, de l’attitude ou des informations annexes, tel que la cible de l’opinion, la personne qui la formule, le moment où l’opinion a été formulée et au sentiment qui émane de celle- ci. Le terme de sentiment, lui, se réfère au sentiment positif ou négatif qui émane de l’opinion. L’on considère généralement qu’il y a trois types de sentiments : les sentiments positifs, les sentiments négatifs et les sentiments neutres. Les phrases qui expriment des sentiments sont souvent subjectives avec des marqueurs de sentiments clairs mais peuvent aussi être objectives lorsqu’elles présentent des faits : « je me suis acheté un téléphone hier et il est déjà cassé. » présente un fait objectif, par exemple.

L’on peut toutefois inférer que le locuteur exprime un sentiment négatif vis-à-vis du téléphone. Il existe plusieurs façons de classer les sentiments. Selon une approche linguistique, selon une approche psychologique et selon une approche basée sur la relation avec le consommateur. Traditionnellement, l’analyse de sentiment s’intéresse à cette dernière. Pour parvenir à effectuer un tri pertinent, l’on cherchera à analyser le type de sentiment (s’il est rationnel et peu porteur d’émotion ou s’il est émotif), l’orientation de ce sentiment (s’il est positif, négatif ou neutre) et finalement l’intensité de ces sentiments.

Nous n’avons mentionné l’utilité de l’analyse de sentiment qu’à des fins commerciales jusqu’à présent, car c’est cet aspect-là qui est le plus pertinent dans notre travail. Il nous paraît toutefois intéressant de souligner qu’elle peut aussi être mise à profit de la politique, par exemple, ou des relations internationales. Un candidat pourra juger de la réception d’un de ses discours ou de sa campagne, grâce

44 aux différentes opinions qu’auront exprimées les internautes, et il est possible de mesurer l’impact que peuvent avoir des décisions au-delà des frontières de son propre pays.

Pour ce qui est du fonctionnement des systèmes d’analyse de sentiment, ceux-ci peuvent fonctionner en se focalisant sur trois différents niveaux. Le premier est au niveau du document, le but sera de déterminer si l’opinion d’un commentaire, par exemple, exprime un sentiment négatif ou positif. Le deuxième est au niveau de la phrase et finalement au niveau de l’aspect. L’analyse au niveau de l’aspect est plus fine que les deux autres puisque le programme sera chargé d’analyser l’opinion ainsi que sa cible. Cela est utile lorsque la phrase exprime deux polarités différentes. L’exemple cité par Liu est assez parlant concernant l’utilité d’analyser l’aspect : « Although the service is not great, I still love this restaurant. » un tel énoncé pourrait faussement être considéré comme positif. Or, il fait état de deux polarités différentes. L’on pourra donc, grâce à une analyse de l’aspect, conclure que le restaurant est considéré comme bon alors que son service n’est pas considéré comme étant un point positif. L’élément le plus important pour l’analyse de sentiment est sans aucun doute les mots porteurs de sentiment (sentiment words) tels que « bon », « génial », « mauvais », « horrible », etc. L’on peut également citer des phrases et des idiomes, tels que par exemple : « bonne chance ». Tout cela peut être regroupé dans un lexique de sentiment qui est la base de certains systèmes. Toutefois, ce lexique peut poser des problèmes s’il est la seule source de connaissance. En effet, le sens d’un mot peut dépendre de son contexte, une phrase contenant un mot évoquant une polarité peut être neutre (dans le cas d’une interrogation par exemple), une phrase peut avoir une polarité sans pour autant être constituée d’un mot positif ou négatif et finalement les phrases sarcastiques peuvent rendre l’analyse impossible. Tous ces problèmes sont présents dans notre corpus et nous aurons le loisir de constater qu’effectivement, ceux-ci peuvent fausser les résultats de l’analyse de sentiments. Pour ce qui est du classement automatique des sentiments, le système peut avoir recours à plusieurs techniques. L’on utilise traditionnellement la classification naïve de Bayes ou une machine à vecteur de support, tous deux des algorithmes de classification des données

(Liu, 2015). Si ces deux manières de procéder sont assez classiques, la recherche a essayé par la suite d’intégrer d’autres fonctionnalités au système. Bing Liu cite les suivantes : la détection de la présence de certains termes ainsi que de leur fréquence au moyen de n-grammes et de leur indice de fréquence ; la détection d’élément du discours, par exemple la recherche d’adjectifs qui sont des indices importants

45 de sentiment, la détection de mots porteurs de sentiments, les règles d’opinion qui recherchent les traits syntaxiques caractéristiques de locutions ; et finalement une fonction qui permet de détecter les termes qui provoquent un changement de polarité dans une opinion. Il existe donc plusieurs approches qui permettent l’analyse de sentiment. Cependant, et nous le mentionnions plus tôt, certains éléments peuvent nuire à la classification d’un sentiment. Puisque notre corpus est composé à moitié de commentaires sarcastiques, il nous paraît pertinent de présenter plus en avant la problématique de l’analyse de sentiment et du sarcasme qui peuvent empêcher le système de remplir son but.

3.7 Détection et gestion de l’ironie

Nous avons terminé la section précédente en nous interrogeant sur la problématique de l’ironie face aux systèmes d’analyse de sentiment. Actuellement, la détection du sarcasme et de l’ironie – dans le cadre de l’analyse de sentiment - est devenue un champ d’étude particulièrement apprécié par les chercheurs

(Burgers et al., 2017). En effet, puisque ce champ cherche à établir la polarité d’une opinion (c’est-à- dire si elle est positive ou négative), le problème de l’ironie et le sarcasme semble évident. Comme nous l’avons défini précédemment, ceux-ci consistent justement à énoncer une polarité tout en souhaitant en exprimer une autre. Généralement, les modèles de détection de l’ironie ou du sarcasme fonctionnent soit grâce aux n-grammes, soit grâce aux polarités, soit grâce à l’ « émotionnalité », ou finalement par la détection des marqueurs explicites d’ironie que nous avons introduits plus tôt (Drover, 2015). La difficulté, pour ceux-ci, est donc de détecter l’implicite du message afin de l’interpréter. La tâche est ardue et l’est d’autant plus lorsque l’on sait que même l’être humain n’est pas capable de détecter l’ironie et le sarcasme parfaitement (Burgers et al., 2017).

De nombreux chercheurs ont toutefois tenté de trouver une solution à ce problème. Il nous paraît donc intéressant de mentionner plus en détail les différentes stratégies (Tableau 1) proposées afin de permettre sa détection. Dans la plupart des cas, le système tentera de trouver des marqueurs qui permettront l’identification d’un énoncé ironique. Carvalho (2009), par exemple, définit huit schémas linguistiques qui peuvent être utilisés pour déterminer si une locution générée par un utilisateur est ironique ou pas.

Il s’agit, par exemple, de l’utilisation de formes diminutives, des déterminants démonstratifs ou de l’utilisation de guillemets. Tsur et al (2010) ont également cherché à identifier les phrases sarcastiques

46 mais sur Twitter et sur Amazon. Pour cela ils ont utilisé les paramètres de détection suivants : la longueur des phrases, la ponctuation ou encore le nombre total de mots complètement écrits en majuscules.

Reyes et al (2013), eux, tentent également de trouver des marqueurs ironiques qui permettraient de détecter des Tweets ironiques. Ces marqueurs sont toutefois différents de ceux proposés par Carvalho.

Il s’agit par exemple des signatures (l’ironie est considérée comme construite par des marqueurs textuels spécifiques que les auteurs appellent des signatures), de l’inattendu qui s’exprime soit par un déséquilibre temporel (lorsque la phrase est construite avec d’abord du présent puis du passé) soit par un déséquilibre contextuel (lorsque les champs lexicaux des différents termes employés sont très différents les uns des autres). Reyes et al mentionnent aussi comme paramètres de détection le style et finalement les scénarios émotionnels. Tout ceci permet la mise en place d’un modèle qui – selon eux – capture efficacement les attributs les plus proéminents de l’ironie. Quant à Buschmeier et al (2014), ceux-ci ont décidé de regarder s’il existait une corrélation entre la polarité des mots présents dans un commentaire et le nombre d’étoiles que l’auteur lui avait donné. L’idée sous-jacente est que s’il y a un déséquilibre entre le nombre d’étoiles et la polarité du commentaire, le commentaire sera vraisemblablement sarcastique. L’un des autres marqueurs utilisés est la présence d’hyperboles : si l’on constate la présence d’au moins trois mots positifs ou de trois mots négatifs à la suite, il est vraisemblable que le commentaire soit ironique. Les auteurs soulignent aussi que la présence de guillemets peut être efficaces pour la détection, de même que la présence de plus de deux points d’exclamation, d’émoticons ou encore d’interjections.

Marqueurs d’Ironie Exemple

Formes diminutives Ce film était vrmt génial

Déterminant démonstratif Qu’est-ce que ce film était génial

Guillemets Ce film était « génial »

Longueur des phrases Ce film était génial. J’ai adoré. J’en redemande.

Ponctuation Ce film était génial !!!!!!!!!!!!

Mots en majuscule Ce FILM était GÉNIAL

47 L’inattendu - déséquilibre temporel + Ce film est génial. J’avais l’impression d’être

déséquilibre contextuel. en Enfer.

Hyperboles Ce film est le plus incroyablement génial de

l’histoire.

Emoticônes Ce film était vraiment génial :-/

Tableau 1 : Récapitulatif des marqueurs possibles d’ironie

Nous nous sommes bornés à ne citer qu’un petit nombre d’études qui, cependant, font état de l’intérêt de la recherche pour la détection du sarcasme et de l’ironie. Les systèmes que nous avons utilisés pour notre travail ne sont pas constitués d’attributs de détection tels que présentés ci-dessus. Nous tenterons donc de découvrir si la traduction automatique rend l’analyse de sentiment automatique caduque, ou si celle-ci parvient tout de même à produire des résultats fiables. Nous commencerons par traiter les documents en langue source et tenterons d’analyser brièvement leurs scores en comparant notamment les annotations humaines à celle de la machine. Nous traiterons ensuite ces mêmes documents traduits automatiquement afin de mesurer si le score est différent et, si tel est le cas, dans quelle mesure.

3.8 Conclusion

La Traduction Automatique en ligne est donc intrinsèquement liée aux utilisateurs d’Internet. Comme le dit la revue presse de DeepL : « Que vous soyez un étudiant ayant besoin de traduire une thèse, un professionnel préparant une présentation dans une langue étrangère ou une entreprise fournissant des manuels d'utilisation à une clientèle internationale »8 l’on peut tous avoir besoin de recourir à la traduction automatique. Nous avons établi dans quelle mesure celle-ci était efficace ainsi que les différentes méthodes d’évaluations dans la première partie de notre mémoire, et avons introduit dans celle-ci l’élément principal de notre recherche : l’ironie. En effet, s’il est possible que les traductions proposées soient acceptables, le problème demeure quant à la perception et à la détection de l’ironie et du sarcasme. Incapables de prévoir une stratégie permettant de l’appréhender, les systèmes devront donc traduire (à priori) les commentaires ironiques de notre corpus comme s’il s’agissait de commentaires standards. Cette troisième partie est la dernière partie purement théorique de notre mémoire. La

8 https://www.deepl.com/blog/20180716.html [Consulté le 26 Mai 2019]

48 quatrième partie sera également un pan important puisqu’il s’agira de présenter notre méthodologie en commençant par passer en revue les différents outils que nous avons mobilisés pour notre recherche :

Notre corpus, Amazon et ses commentaires, les trois systèmes de traduction automatique que nous avons sélectionnés pour mener à bien notre travail, ainsi que les systèmes d’analyse de sentiment.

49 4. METHODOLOGIE

4.1 Introduction

Jusqu’à présent, nous nous sommes borné à présenter des concepts théoriques qui sont les clés de voute de notre mémoire. Ainsi, nous avons d’abord présenté la traduction automatique d’une manière générale, puis nous avons exposé les problématiques liées à l’évaluation de celle-ci et finalement nous avons présenté les divers enjeux liés à l’utilisation de l’ironie dans le cadre de la traduction. Maintenant que nous avons mis en place notre cadre théorique, nous pouvons entrer dans une dimension plus pratique et présenter notre méthodologie. Celle-ci a été mise en place dans le but de pouvoir répondre à notre question de recherche :

Dans le cadre de commentaires rédigés par des utilisateurs anglophones, quel est l’impact de l’ironie sur la traduction automatique ?

Afin de pouvoir rassembler des données pouvant nous permettre d’y répondre, nous avons dû sélectionner différents outils. Nous présenterons d’abord notre corpus (Section 4.2) puis tous les autres outils dont nous nous sommes servis (Section 4.3). Cela servira à établir des liens entre les notions théoriques exposées précédemment et nos résultats Ainsi, nous commencerons donc par expliciter en quoi notre corpus consiste et pourquoi celui-ci est pertinent. Puis nous nous intéresserons au site Internet

Amazon ainsi qu’à ses commentaires. Nous nous arrêterons ensuite sur les trois systèmes de traduction automatique disponibles en ligne que nous avons choisi de mobiliser pour mener à bien notre recherche.

Dans un second temps, nous présenterons les systèmes d’analyse de sentiment que nous avons retenus.

La section 4.4, elle, sera consacrée à l’explicitation de la mise en place du cadre nécessaire à la réalisation de notre expérience. La section 4.5 sera dédiée à la mise en place des annotations humaines et la section 4.6 à celle des évaluations automatiques. Nous terminerons avec la section 4.7 qui nous servira notamment à introduire les différentes questions auxquelles nous tâcherons de répondre dans la partie suivante consacrée aux résultats.

50 4.2 Corpus

Afin de mener à bien notre recherche, c’est-à-dire mesurer l’impact de l’ironie sur la qualité et la réception de la traduction automatique, nous avons dû avant toute chose trouver un corpus qui nous permettait de mettre à l’épreuve la traduction automatique. Nous avions donc besoin d’un corpus pertinent qui serait composé à la fois de documents « standards » (c’est-à-dire non ironiques) et de documents ironiques. Nous avons donc décidé de reprendre le corpus développé par Elena Filatova

(Filatova, 2012) qui est constitué de commentaires Amazon dont 817 commentaires sont standards et

437 commentaires sont ironiques. Ceux-ci sont de longueur variable : certains comptent à peine 10 mots et d’autres plus de 1000. Le corpus est disponible en ligne et peut être téléchargé gratuitement à l’adresse suivante : https://github.com/ef2020/SarcasmAmazonReviewsCorpus. Le but de son étude était d’une part la création d’un corpus par production participative (Crows sourcing en anglais), et d’autre part de mesurer si l’ironie avait un effet sur la compréhension humaine des commentaires. Dans le cadre de son

étude, ce n’est pas le cas :

« The presence of irony in a product review does not affect the readers’ understanding of the product

quality (…) people are good in understanding the attitude of the review author to the product under

analysis and can reliably guess how many stars the review author assigned to the product » (Filatova,

2012).

Puisque nous utilisons une partie de ce même corpus, il sera intéressant de voir si l’on peut tirer la même conclusion lorsque les commentaires ont été traduits automatiquement. Nous présenterons plus en avant la manière dont nous avons mis ce corpus à profit dans la partie méthodologie de notre mémoire (Section

4.4).

4.3 Outils mobilisés pour la TA et l’analyse de sentiments

4.3.1 Amazon et ses commentaires

Créé en 1994, Amazon est un site internet qui se focalise sur la vente de produits en ligne (e-commerce), le streaming ou encore le cloud computing. 9 Le site Internet - gigantesque - est l’un des sites les plus visités en France (figure 13).

9 https://www.britannica.com/topic/Amazoncom [Consulté le 17 Juin 2019]

51

Figure 13 : Classement des sites Internet les plus visités depuis un ordinateur en France en décembre 2018, selon le nombre de visiteurs uniques par mois (en milliers)10

Multilingue, Amazon possède bien évidemment des pages disponibles en diverses langues tel que le français ou l’allemand. Non content de proposer une gamme de produit extrêmement large, Amazon a aussi la particularité de permettre à ses utilisateurs de poster leurs commentaires vis-à-vis de ces produits. Cela rejoint les notions que nous avons définies dans la partie précédente. Les utilisateurs seront donc en mesure d’interagir avec le site Internet – et ainsi à créer du contenu ; ce qui, de ce fait, s’inscrit dans le paradigme du Web 2.0.

Les commentaires sont intéressants non seulement pour les internautes qui cherchent à recueillir des informations notamment lorsqu’ils ont prévu de faire des achats, mais aussi pour le site lui-même puisque :

« The presence of customer reviews on a website has been shown to improve customer perception of the

usefulness and social presence of the website. Reviews have the potential to attract consumer visits,

increase the time spent on the site (“stickiness”), and create a sense of community among frequent

shoppers » (Mudambi et al., 2010).

L'intérêt de ces commentaires est donc double. Non seulement les consommateurs peuvent donc s’informer quant au produit qu’ils ont l’intention d’acquérir, mais en plus le vendeur (en l’occurrence

Amazon) voit son indice de fréquentation augmenter. Ces commentaires sont importants à un point tel

10 https://fr.statista.com/statistiques/473883/sites-internet-les-plus-visites-france/ [Consulté le 17 Juin 2019]

52 qu’Amazon met à disposition un guide pour permettre aux utilisateurs d’écrire des commentaires pertinents11, ce qui souligne encore une fois leur poids dans la relation entre acheteur et produit. Bien que nous ayons déjà présenté trois exemples dans la partie précédente (Section 3.3), nous tenons à présenter le fonctionnement de ces commentaires qui sont le point de départ de notre étude.

Les commentaires Amazon sont donc écrits par des utilisateurs non-professionnels qui sont invités à partager sur le site internet leur ressenti vis-à-vis d’un produit qu’ils connaissent. Le commentaire est accompagné d’une annotation numérique en étoile. C’est-à-dire qu’après avoir rédigé son avis, l’utilisateur sera incité à donner au produit un nombre d’étoiles allant de 1 (pour un produit qui l’a profondément déçu ou qui lui a déplu) à 5 (pour un produit qui l’a satisfait). Les commentaires qui arborent 3 étoiles reflètent souvent de l’indifférence ou une ambivalence si le produit possède à la fois des points positifs et des points négatifs qui s’équilibrent (Mudambi et al., 2010). Or, et c’est également un aspect que nous avons déjà mentionné dans la partie précédente, puisqu’il n’y a pas de caractère obligatoire à la rédaction de ces commentaires, rien ni personne ne peut forcer un utilisateur à respecter le guide publié par Amazon. Cela explique donc la présence d’énoncés ironiques sur la plateforme.

L’exemple du commentaire sur le lapin (Figure 9 dans le Chapitre 3 section 3.3) en est un parfait exemple : ce commentaire ne concerne pas réellement la qualité du produit en tant que telle mais est plutôt l’expression humoristique d’un utilisateur.

Toutefois, si parfois la présence de l’ironie peut paraître bon enfant comme c’est le cas de l’exemple cité précédemment, il arrive couramment d’être confronté à des opinions qui sont loin d’être sincères ou humoristiques : plutôt que d’exprimer un véritable ressenti, l’utilisateur utilisera ce moyen d’expression pour semer sciemment la discorde, mentir ou tout simplement s’exprimer d’une manière détournée.

Nous présenterons donc rapidement les différents problèmes liés à ces utilisateurs peu serviables.

Les faux commentaires ou fake reviews sont un problème bien connu de la recherche, comme le souligne

Bing Liu (2015). En effet, il s’agit de commentaires qui ne sont pas écrits par le consommateur d’une manière sincère mais qui sont écrits avec des intentions cachées. Les cas les plus courants sont des commentaires faussement positifs ou faussement négatifs. Cela s’inscrit dans une dynamique de

11 https://www.amazon.fr/gp/help/customer/display.html?nodeId=201929730 [Consulté le 17 Juin 2019]

53 concurrence où un produit peut faire les frais d’une campagne de dénigrement, par exemple. Il sera donc important de pouvoir classer ces commentaires selon s’ils sont sincères ou pas. Bing Liu souligne la difficulté de parvenir à séparer les vrais commentaires des faux commentaires. L’une des stratégies les plus efficaces consiste à chercher s’il existe des doubles. En effet, écrire un commentaire prend du temps et il est probable qu’un individu cherchant à poster de faux commentaires utilise toujours le même modèle en ne changeant que les détails. L’on peut ainsi espérer détecter un commentaire malveillant s’il est très similaire à d’autres commentaires du même utilisateur. Pour ce qui est de notre corpus, certains commentaires que nous avons soumis aux annotateurs humains et à la machine peuvent être considérés comme étant des faux commentaires : encore une fois, le commentaire en Figure 9 en est un bon exemple. En effet, ils ne font pas cas de la réelle expérience d’un consommateur vis-à-vis du produit.

Toutefois il semblerait que ces commentaires n’aient pas été rédigés avec une sincère envie de nuire.

Filatova le note d’ailleurs dans son article en mentionnant que certains commentaires sont plutôt des

« show cases of the review author’s wit. » (Filatova, 2012). Nous verrons dans la seconde partie de notre mémoire la manière dont ces commentaires ont été appréhendés par la machine puis par l’être humain.

L’on comprend donc l’intérêt d’étudier la traduction de ce contenu généré par les utilisateurs puisque celui-ci est un pan incontournable du paysage marketing d’aujourd’hui. En effet, entre rapprocher les utilisateurs les uns des autres, donner une certaine crédibilité au site et permettre des choix éclairés, les utilisateurs sont valorisés sur Internet justement parce qu’ils ont un effet positif sur la consommation.

Les commentaires d’Amazon (dans ce cas) sont ainsi au cœur des démarches mercantiles des utilisateurs d’aujourd’hui. Or, puisqu’ils font justement partie de ce CGU et que l’ironie et le sarcasme sont des moyens d’expressions souvent utilisés dans ce contenu où donner son opinion est primordial, il paraît pertinent de vérifier dans quelle mesure le fond reste accessible à un utilisateur. En effet, rien ne garantit la présence d’un commentaire en français ; ainsi, puisque ces commentaires revêtent une telle importance, il nous paraît pertinent de nous demander dans quelle mesure ceux-ci seront traduits efficacement par un système de traduction automatique.

54 Si Amazon représente une part importante de notre travail puisqu’il nous a fourni les données nécessaires à la mise en place de notre travail, l’autre part importante est constituée des systèmes de traduction automatique en ligne que nous tâcherons de présenter dans la section suivante.

4.3.2 Outils de traduction automatique

Puisque notre travail concerne l’accessibilité d’un contenu ironique et sarcastique généré par les utilisateurs, il nous a paru nécessaire de nous positionner comme un utilisateur francophone n’ayant pas la possibilité d’utiliser des systèmes dits professionnels. C’est la raison pour laquelle nous avons choisi d’utiliser trois systèmes de traduction automatique disponibles en ligne et gratuitement : « Online machine translation systems, mostly general purpose ones, are more suitable for the general public who need to access information written in languages they do not understand or to obtain ad hoc translations

» (Quah, 2006). Ces trois systèmes sont respectivement Google Traduction, Bing (Microsoft Translator) et Deep L. Ces trois systèmes ont des points communs et des différences. Pour ce qui est de leurs similarités, il s’agit comme nous l’avons déjà exposé, de trois systèmes de traduction automatique disponibles en ligne et auxquels l’utilisateur peut avoir accès gratuitement. Ensuite, l’utilisateur n’a absolument pas accès à leur architecture quelle qu’elle soit. Contrairement à certains systèmes commerciaux que l’utilisateur peut façonner selon ses besoins, ces trois systèmes restent complètement opaques. Pour ce qui est des différences, la première chose à noter est que Bing est un système qui est resté statistique et non pas neuronal comme le sont Google Traduction et DeepL. Nous verrons dans la suite de notre travail si cela implique une différence pour ce qui est de la qualité ou de la compréhension des traductions.

Google Traduction : Né le 28 avril 2006 dans la fameuse firme Google, Google Traduction est sans doute le système de traduction automatique en ligne le plus connu. Longtemps statistique, il est devenu neuronal le 15 novembre 2016.12 Multilingue, il se targue aujourd’hui de pouvoir traduire dans 103 langues. À la base disponible uniquement en ligne, Google Translate dans sa version neuronale est désormais aussi disponible hors ligne depuis le 12 juin 2018. Nous ne reviendrons pas sur le fonctionnement des systèmes neuronaux dont Google Traduction fait partie puisque nous avons abordé

12 https://blog.google/products/translate/found-translation-more-accurate-fluent-sentences-google-translate/ [Consulté le 26 Mai 2019]

55 ces systèmes dans la Section 2.2, mais tenons toutefois à rappeler que cela sous-entend que le système s’est entraîné sur des corpus : « Google Neural Machine Translation (GNMT) [is] an end-to-end learning framework that learns from millions of examples, and provided significant improvements in translation quality»13 - ce qui est une particularité des systèmes data-driven. Nous mentionnions dans notre partie sur les systèmes neuronaux (Section 2.2.2) que ceux-ci sont, d’une certaine manière, les plus proches d’avoir réussi à créer une interlangue fonctionnelle. Les ingénieurs de Google Traduction sont d’accord avec ce postulat puisqu’ils mentionnent le fait que leur système est capable d’aller plus loin que simplement mémoriser des traductions phrases par phrases : il est en effet capable de décoder « quelque chose » au niveau de la phrase, ce qu’ils interprètent comme « a sign of existence of an interlingua in the network.» 14 Pour ce qui est des corpus qui sont utilisés par le système, The Guardian expliquait en

2010 que le système statistique de Google avait pour corpus des retranscriptions des Nations-Unies et du Parlement Européen ce qui constitue des millions de phrases et des milliards de mots15. Nous n’avons pas trouvé cette information telle quelle, mais il est très probable que ces gigantesques corpus soient aussi la base du réseau neuronal de Google de même que Google Book qui alimente le système. La dernière chose que nous noterons vis-à-vis de ce système est que l’utilisateur est capable d’exprimer son ressenti vis-à-vis d’une traduction (si elle est bonne, mauvaise ou même choquante) ainsi que de donner son avis sur celle-ci. Google Traduction aurait également utilisé ses propres ressources communautaires pour valider des traductions ainsi qu’en effectuer certaines humainement afin d’affiner son moteur neuronal. Système toujours compétitif et largement utilisé et notamment grâce à son parti pris : son

évolution pour un réseau neuronal ; nous tâcherons de voir si celui-ci est supérieur à DeepL, l’autre système neuronal ou à Bing qui lui, est statistique.

Bing (Microsoft Translator) 16 : Né en 2007 mais dont l’API n’est disponible pour les utilisateurs que depuis 2011, Microsoft Translator est un système de traduction en nuage qui fonctionne grâce aux

13 https://ai.googleblog.com/2016/11/zero-shot-translation-with-googles.html [Consulté le 26 Mai 2019] 14 Idem. 15 https://www.theguardian.com/technology/2010/dec/19/google-translate-computers-languages [Consulté le 26 Mai 2019] 16 La source de cette section émane des sites suivants : https://www.bing.com/translator/help/ ainsi que https://www.microsoft.com/en-us/translator/business/machine-translation/ [Consulté le 26 Mai 2019]

56 statistiques. Capable de traduire dans 45 langues, le service de traduction alimente notamment Bing (le service de traduction en ligne de même que la barre de recherche), ainsi que divers produits Microsoft comme Skype ou Internet Explorer. Afin de déployer son service de traduction, Microsoft Translator a besoin d’un grand nombre de textes de haute qualité (généralement plus d’un million de mots). Bien que

Microsoft Translator soit passé en système neuronal en 2016, il semblerait que Bing soit toujours alimenté par un système statistique non-neuronal.17 En effet, d’après nos différentes sources, le système neuronal de Microsoft Translator ne serait disponible que dans sa version business. Disponible en ligne et gratuitement, Bing est l’un des systèmes de traduction les plus connus grâce à ses tentatives d’intégration notamment dans le contenu généré par les utilisateurs. En effet, il est désormais possible de traduire automatiquement des Tweets ainsi que de placer un widget de traduction directement sur son blog pour en faciliter l’accessibilité. Seul système statistique de notre trio, il sera intéressant, dans la suite de notre travail de mesurer s’il existe un écart entre les résultats de Bing et ceux des deux autres.

DeepL18 :Contrairement aux deux systèmes que nous venons de présenter, DeepL est né neuronal en

2017. Ses créateurs sont également à l’origine du site Internet Linguee, qui permet d’avoir accès à une pléthore de textes et à leurs traductions. En effet, la première invention des fondateurs de DeepL a d’abord été de créer les algorithmes qui permettent à Linguee de rassembler des traductions sur Internet, ainsi que des systèmes d’apprentissages qui permettent de vérifier la qualité des dites traductions. Ces algorithmes ont été améliorés à partir de milliards de traductions de haute qualité. En 2016, l’équipe de

Linguee se penche sur la question des réseaux neuronaux afin de traduire tout type de texte. C’est ce projet qui deviendra par la suite DeepL traducteur.

Basé sur un réseau neuronal capable de s’entraîner seul sur les milliards de traductions qui avaient déjà

été mises au profit de Linguee, DeepL fait une entrée fracassante sur le marché. En effet, en mai 2017, peu avant son lancement officiel, DeepL dépasse tous ses concurrents en matière de traduction automatique et ce pour toutes les paires de langue – nous profiterons de notre travail pour voir si cela se

17 https://taus.net/technologies/34-bing-translator#functionality [Consulté le 24 Mai 2019] 18 La source de cette section émane du site suivant https://www.deepl.com/press.html [Consulté le 27 Mai 2019]

57 vérifie – et a obtenu le record mondial pour le test BLEU19. Qui plus est, les fondateurs se targuent de voir les traductions effectuées par leur système considérées par les annotateurs humains comme étant meilleures que celles de Microsoft Translator et Google Traduction. DeepL est officiellement lancé en août 2017 et connaît un vif succès qui s’explique, justement, par la qualité des traductions qu’il est capable de proposer aux utilisateurs. Le système fonctionne grâce à un super-ordinateur qui s’entraîne sur une vaste collection de texte multilingues. Grace à Linguee, « le plus grand moteur de recherche de traductions au monde », DeepL a rassemblé des milliards de textes traduits qui sont à la base de son entraînement. En 2018 l’entreprise lance DeepL pro service proposant l’accès à une API et qui fait définitivement entrer le système dans le marché concurrentiel. La dernière nouveauté date de décembre

2018 où le Russe et le Portugais font leur entrée dans les langues disponibles. Les articles de presse de

DeepL sont donc absolument catégoriques : DeepL est de loin le meilleur système de traduction automatique actuel et est capable d’« identifier les nuances les plus subtiles [d’un texte] et à les reproduire dans la traduction. »20 Il sera donc intéressant de vérifier si les nuances subtiles de l’ironie et du sarcasme seront prises en charge par le système

4.3.3 Outils d’analyse de sentiment

Nous l’avons introduit dans la section précédente (Chapitre 3, Section 3.6) : l’analyse de sentiment nous permettra de mesurer l’impact du sarcasme sur la traduction automatique dans notre mémoire. Pour ce faire, nous avons choisi d’utiliser deux systèmes disponibles en ligne d’analyse de sentiment que nous pourrons comparer avec les notes que nous ont fournies les annotateurs humains. Dans cette dernière partie de notre mémoire, nous tâcherons donc de présenter brièvement les deux systèmes d’analyse de sentiment automatiques que nous avons sélectionnés pour notre travail et la manière dont nous avons mis en place les annotations humaines. Ces trois métriques d’annotation nous permettront d’établir d’une part des corrélations entre réception d’un commentaire et présence ou non de sarcasme. D’autre part l’on pourra également constater si l’un des systèmes de traduction automatique que nous avons sélectionnés est plus efficace que les autres pour permettre la compréhension de son énoncé.

19 Idem. 20 Idem.

58 Microsoft Text Analytic21 : Introduit en 201522, l’API de Microsoft propose un service d’analyse de documents qui concerne notamment l’analyse de sentiment, l’extraction d’expressions clés, la détection de la langue ainsi que la reconnaissance d’entité. Puisqu’il s’agit d’un système commercial mis à disposition des entreprises, nous n’avons pas accès à son mode de fonctionnement. Comme pour les systèmes de traduction automatique, l’utilisateur pourra entrer le texte qu’il désire dans le champ prévu

à cet effet (à gauche dans la figure 13), et aura ensuite accès au résultat sans pour autant être en mesure de comprendre comment le système y est parvenu. Les notes sont entre 0 et 1, 1 étant pour les documents très positifs et 0 pour les documents très négatifs. Les résultats sont ensuite exprimés et présentés en termes de pourcentage. Le système opère l’analyse de sentiment au niveau du document et donnera donc une orientation générale quant à celui-ci. Pour notre travail, nous avons utilisé la version gratuite, disponible sur le site, qui fonctionne tel qu’expliqué précédemment.

Figure 14 : Exemple d'analyse de sentiment effectuée avec Microsoft Text Analytics

Lexalytics : Autre système commercial, Lexalytics, né en 2003, permet également l’analyse de sentiment d’un document, la reconnaissance d’entité ainsi que l’extraction des thèmes principaux.

S’agissant d’un système commercial, nous ne sommes pas non plus en mesure d’influer sur le résultat ou sur le processus. Toutefois, pour la version « démo » à laquelle nous avons accès en tant qu’étudiant, le système ne se cache pas d’utiliser un « dictionnaire de sentiment » qui permet l’analyse des termes du document. Ainsi, l’intensité d’un mot porteur de sentiment sera mesurée par sa taille dans la fenêtre de résultat (ce que l’on voit aisément dans la figure 14 ci-dessous) et l’orientation de ce sentiment sera

21 https://docs.microsoft.com/fr-fr/azure/cognitive-services/text-analytics/overview [Consulté le 03 Mai 2019] 22 https://blogs.technet.microsoft.com/machinelearning/2015/04/08/introducing-text-analytics-in-the-azure-ml- marketplace/ [Consulté le 03 Mai 2019]

59 exprimé selon la couleur des mots : dans la Figure 14, l’on constate que certains mots sont en vert, c’est-

à-dire qu’ils sont positifs, que certains mots sont en rouge, donc négatifs et finalement que certains mots sont en gris, signifiant qu’ils sont neutres. Tout comme pour Microsoft Text Analytics, l’analyse se fait au niveau du document. Les résultats prennent la forme d’un score entre -2 et +2 ainsi que d’une explicitation du sentiment.

Figure 15 : Exemple d'analyse de sentiment avec Lexalytics

4.4 Mise en place de l’expérience

L’élément qui nous intéressait particulièrement, avant que notre question de recherche principale ne soit définie clairement, était de voir comment réagissait la traduction automatique face à l’ironie. En effet, puisque l’ironie est un procédé discursif très courant notamment dans le contenu généré par les utilisateurs et que la traduction automatique peut être appelée à traduire celui-ci sur Internet, nous étions curieux de voir si l’ironie entravait la réception du texte cible. La question était donc de trouver un corpus qui serait composé d’énoncés ironiques. Nous avons découvert celui de Filatova (2012) qui répondait parfaitement à nos besoins. Nous avons détaillé sa composition dans la section 4.2 et nous ne reviendrons donc pas sur celle-ci. Au vu de sa taille, nous avons dû opérer une sélection parmi les commentaires standards et les commentaires ironiques. Nous avons décidé de prendre comme base 100 commentaires dont 50 seraient standards et 50 seraient ironiques. Nous avons choisi aléatoirement les

60 50 commentaires standards et 25 commentaires ironiques. Les 25 commentaires ironiques restants ont

été sélectionnés par une francophone dont le but était de choisir des énoncés qui lui paraissaient intéressants – c’est-à-dire surtout problématiques - dans le cadre de la traduction automatique. Une fois ces 100 commentaires choisis, nous avons commencé par effectuer une traduction humaine de ceux-ci afin d’établir une référence, avant de les faire traduire automatiquement respectivement par Google

Traduction, Bing et DeepL (Janvier 2019). À la fin de la mise en place de notre expérience, donc, notre corpus était le suivant : les 100 commentaires en langue source, ces mêmes 100 commentaires traduits humainement, 100 commentaires traduits par Google Traduction, 100 commentaires traduits par Bing et finalement 100 commentaires traduits par DeepL. Une fois notre corpus prêt, la question de l’utilisation de celui-ci est devenue capitale. Nous avons choisi d’utiliser trois procédés d’évaluations afin de répondre à notre question de recherche. Les deux premières visent à établir la qualité de la traduction automatique : d’abord une évaluation humaine (Section 2.4.1) effectuée par des experts puis une évaluation par le score BLEU (Section 2.4.2). La troisième méthode d’évaluation concerne l’analyse de sentiment ou non seulement des annotateurs humains ont été chargés de noter leur ressenti vis-à-vis des commentaires mais aussi deux systèmes d’analyse de sentiment automatiques décrits dans la Section

4.3.3. Nous expliciterons dans la partie suivante les trois évaluations humaine et automatique avec

BLEU ainsi que l’analyse de sentiment.

4.5 Évaluation humaine

4.5.1 Répartition des commentaires

9 annotateurs 9 annotateurs experts (Chargés d’annoter la polarité) (Chargés d’annoter la qualité)

Google Traduction Groupe 1 (3 Annotateurs) Groupe 1* (3 Annotateurs) DL B GT DL B GT

Bing Groupe 2 (3 Annotateurs) Groupe 2* (3 Annotateurs)

DL B GT DL B GT

DeepL Groupe 3 (3 Annotateurs) Groupe 3* (3 Annotateurs) DL B GT DL B GT

Tableau 2 : Répartition des annotateurs et des systèmes de TA

61

Au vu de la taille assez importante de notre corpus (300 commentaires à annoter et pour les annotateurs chargés de la qualité et pour les annotateurs chargés d’exprimer leur ressentis), nous avons décidé que pour les deux méthodes d’évaluation humaines (l’évaluation relative à la qualité et l’évaluation relative aux sentiments), le plus simple serait de recourir à 18 personnes. C’est-à-dire que nous avons demandé

à 9 experts (tous travaillant dans le domaine de l’assurance qualité de traductions) d’annoter la qualité de la traduction automatiques et avons demandé à 9 autres personnes (sans qualifications particulières) d’annoter leur ressenti vis-à-vis des traductions obtenues. Cela nous a permis de créer trois groupes composés à chaque fois de trois personnes dont chacune était chargée de noter les 100 commentaires sans devoir annoter plusieurs fois le même. Une fois ces trois groupes créés, nous avons décidé de répartir aléatoirement les commentaires ironiques et les commentaires standards afin que les annotateurs humains ne puissent pas déceler un schéma répétitif qui aurait pu fausser les données. Nous avons ensuite décidé que plutôt que de créer un groupe « Google Traduction », un groupe « Bing » et un groupe

« DeepL », il serait plus intéressant de répartir aléatoirement les traductions proposées. Ainsi, par exemple, le premier commentaire du groupe 1 a été traduit par Bing, le deuxième commentaire par

DeepL et finalement le troisième par Google Traduction (Tableau 2). Cela nous a paru intéressant dans la mesure où il nous sera possible de voir si l’un des trois systèmes retenus pour notre travail a été mieux ou moins bien noté pour l’ensemble de notre corpus. Cela permettait aussi d’éviter l’un des problèmes des annotations humaines : le fait que chaque être humain donne des notes à sa façon et qu’une certaine subjectivité est intrinsèque à ce procédé.

4.5.2 Évaluation 1 : La qualité de la TA

Nous avons donc essayé de donner une échelle qui pourrait être utile même dans le cadre d’un score

Kappa faible. Ainsi, nous avons demandé aux experts chargés d’annoter la qualité des traductions de décrire celle-ci sur une échelle allant de 1 à 5 (voir Annexe 1 pour les instructions), 1 représentant une très mauvaise qualité et 5 représentant une très bonne qualité. Nous leur avons également demandé de dire si, selon eux, l’intention du commentaire original était conservée. Pour cela, ils n’avaient qu’à

62 répondre « O » pour oui ou « N » pour non. L’annexe 2 est un exemple de commentaire à annoter pour les experts.

4.5.3 Évaluation 2 : La polarité des commentaires

Pour ce qui est des autres annotateurs humains qui, eux, devaient exprimer leur ressenti, nous leur avons

également demandé de mettre une note de 1 à 5 (les instructions se trouvent à l’Annexe 3). Mais dans leur cas, la note 1 exprime le fait qu’ils ont ressenti le commentaire comme étant très négatif et le 5 exprime qu’ils ont ressenti le commentaire comme étant très positif. Nous leur avons également demandé d’estimer le nombre d’étoile que le critique original a donné au produit, tout cela dans le but de voir si les francophones ont été capable de comprendre l’intention sous-jacente du commentaire. Afin d’étayer notre réflexion nous avons d’abord demandé à trois anglophones de faire le même exercice avec les commentaires en langue source. Toutes ces données nous permettront de voir si les francophones ont compris les commentaires et si non, dans quelle mesure l’ironie est responsable de cet

état de fait. L’annexe 4 est un exemple de commentaire à annoter par les annotateurs.

4.6 Évaluation automatique

4.6.1 Le score BLEU

Nous avons ensuite soumis les traductions des commentaires au score BLEU (Section 2.4.2) afin de voir si les commentaires ironiques obtenaient un score plus mauvais que les commentaires standards.

L’utilisation de ce score nous a également permis de voir si l’un des systèmes que nous avons employés est plus performant que les autres – que ce soit en général ou vis-à-vis des commentaires ironiques.

4.6.2 Analyse de sentiments

Finalement nous avons soumis les commentaires originaux de même que leurs traductions à des systèmes d’analyse de sentiment automatique (Section 4.3.3). La difficulté a été d’en trouver deux qui

étaient capable d’analyser des textes en anglais mais aussi en français. Nous verrons ainsi si ces systèmes automatiques s’en sortent mieux que les êtres humains pour la compréhension de l’ironie ou si ceux-ci sont gravement mis à mal par la présence de celle-ci.

4.7 Conclusion

63 Que ce soit par le nombre de systèmes que nous avons décidé d’employer ou par le nombre d’annotateurs que nous avons mobilisés, nous avons essayé d’obtenir le plus de données possibles afin de pouvoir donner une réponse - si ce n’est catégorique au moins pertinente - à notre question de recherche.

Les résultats que nous présenterons dans la partie suivante émaneront donc de la méthodologie que nous venons de présenter. Que ce soit au niveau de l’ironie vis-à-vis de la traduction automatique en général ou vis-à-vis d’un système, notre but est de mesurer si celle-ci a eu un impact sur la qualité ou la compréhension des traductions générées. La partie suivante sera donc consacrée à répondre à ces différentes questions.

64 5. RESULTATS

5.1 Introduction

Dans cette partie, nous tâcherons de présenter les différents résultats que nous avons obtenus. Les deux premières sections seront consacrées à l’évaluation de la qualité de la traduction automatique. Ainsi, la section 5.2 sera une présentation des résultats de l’évaluation humaine et la section suivante, 5.3, sera consacrée aux résultats obtenus par le score BLEU. Nous présenterons ensuite dans la section 5.4 les résultats obtenus en procédant à l’analyse de sentiment humaine. Nous enchaînerons avec la section 5.5 qui, elle, concernera les résultats des systèmes automatiques d’analyse de sentiment. La section 5.6, dernière de cette partie, aura pour but de proposer une conclusion à nos résultats et d’ouvrir le discours pour la dernière partie de notre travail qui, elle, sera une conclusion plus générale.

5.2 Qualité de la traduction automatique 1 – Evaluations humaines

La première chose qui nous a intéressé était de voir quel était l’impact de l’ironie sur la qualité de la traduction automatique. Nous avons donc demandé à des évaluateurs humains d’annoter le produit des systèmes que nous avons sélectionnés et présentés dans la section 4.3. Cette section sera découpée en plusieurs sous-sections. Nous commencerons par présenter nos scores Kappa (Section 5.2.1) avant de nous intéresser aux différentes moyennes (Section 5.2.2) puis aux médianes (5.2.3) et finalement au score du chi2 (5.2.4).

5.2.1 Score Kappa

Nous avons effectué un score Kappa de Fleiss (McHugh, 2012) sur tous les résultats que nous avons obtenus. Les résultats de ce premier calcul (Tableau 3) sont donc les suivants : Google Traduction obtient 0.26, Bing obtient 0.28 et DeepL 0.25. Ce qui, selon la Figure 16 ci-dessous, représente un « fair agreement ».

65

Figure 16 : Interprétation du Kappa de Fleiss23 Ce mauvais inter-accord s’explique assez facilement, en effet, notre échelle étant relativement large (1-

5), les annotateurs ont souvent choisi des chiffres différents pour exprimer la même idée, soit que la traduction était positive soit que celle-ci était négative. Ainsi, il est souvent arrivé qu’un annotateur donne le score de 4 à une traduction alors qu’un autre estimait que la traduction en question méritait plutôt un 5. C’est la raison pour laquelle nous avons voulu voir si le score augmentait significativement en changeant l’échelle de référence. En effet, que l’annotateur ait donné un 4 ou 5, l’on peut partir du principe qu’il avait la même impression : que la qualité de la traduction était satisfaisante.

Nous avons donc décidé de transformer les notes en appréciations. Après avoir transformé tous les 1 et

2 en insatisfaisant, les 3 en neutre et les 4 et 5 en satisfaisant, nous avons recalculé le score Kappa

(Tableau 3). Pour ce qui est de Google Traduction, le score passe de 0.26 à 0.48. Il passe donc dans la catégorie « modérée » pour son interprétation. Il se passe la même chose pour Bing, dont le score passe de 0.26 à 0.49. Quant à DeepL, le score passe de 0.24 à 0.40, ce qui fait de ce système le seul à rester dans sa catégorie malgré le regroupement des catégories. Ces six scores Kappas sont plutôt faibles mais suffiront sans doute pour parvenir à tirer des conclusions pertinentes.

23 https://www.researchgate.net/figure/Fleiss-Kappa-and-Inter-rater-agreement-interpretation- 24_tbl3_281652142 [Consulté le 03 juillet 2019]

66 Score Kappa Google Traduction Bing DeepL

Echelle 1 à 5 0.26 (Fair) 0.28 (Fair) 0.25 (Fair)

Echelle qualitative 0.48 (Moderate) 0.49 (Moderate) 0.40 (Fair)

Intention (Oui / Non) 0.64 (Substantial) 0.48 (Moderate) 0.79 (Substantial)

Tableau 3 : Score Kappa – Qualité des traductions automatique

Nous avons ensuite décidé de calculer le score Kappa de la question annexe que nous avons posée aux annotateurs. En effet, en plus de leur demander d’évaluer la qualité de la TA, nous leur avons également demandé de dire s’ils estimaient que l’intention du commentaire était conservée dans sa traduction. Les score Kappas sont les suivants (Tableau 3) : pour Google Traduction : 0.64. Cela correspond à un accord considérable. Pour Bing, 0.48 ce qui est un accord modéré et finalement pour DeepL le score Kappa est de 0.79 ce qui est aussi un accord considérable.

En résumé, les scores Kappa obtenus pour ce qui est de la qualité de la traduction sont tous relativement faibles qu’ils soient exprimés en termes quantitatifs ou qualitatifs. En revanche, les annotateurs se sont beaucoup plus accordés dès qu’il a été question de dire si l’intention du commentaire était conservée dans la traduction. Nous reviendrons à la fin de cette section sur la sauvegarde ou la perte de l’intention.

5.2.2 Moyenne des résultats et écart type

Après avoir calculé les différents scores Kappa, nous avons décidé de nous intéresser aux résultats en tant que tels notamment en établissant la moyenne des scores (dont l’échelle est de 1 à 5) obtenus par les différents systèmes et plus spécifiquement pour les commentaires ironiques et standards (voir

Tableau 4). La moyenne générale de Google Traduction est de 3.46. Les commentaires ironiques ont une moyenne de 3.33 et les commentaires standards ont une moyenne de 3.6. Bing, lui, a obtenu la moyenne suivante pour l’ensemble des notes reçues : 2.49. Les commentaires ironiques ont une moyenne de 2.41 et les commentaires standards de 2.58. Finalement DeepL a obtenu la note moyenne de 3.6. Les commentaires ironiques ont une moyenne de 3.52. Les commentaires standards de 3.67.

Seules, ces moyennes n’expriment pas grand-chose. L’on peut toutefois remarquer que globalement,

DeepL a été mieux noté que les deux autres systèmes et que la moyenne de Bing se situe – si l’on reprend l’échelle des notes - entre insatisfaisante et neutre. L’on constate également qu’en moyenne les

67 commentaires ironiques ont été un peu moins bien notés que les commentaires standards (0.13 pour

Google, 0.08 pour Bing, 0.08 pour DeepL).

4 3,6 3,67 3,6 3,52 3,46 3,5 3,33

3 2,58 2,49 2,41 2,5

2

1,5

1

0,5

0 DeepL Google Translate BING

Moyenne Moyenne Commentaires Ironiques Moyenne Commentaires Standards

Tableau 4 : Moyenne des scores des trois systèmes (1 à 5)

Grâce à ces moyennes, nous avons ensuite été en mesure d’établir l’écart type pour chacun de ces systèmes afin de voir dans quelle mesure les notes étaient dispersées vis-à-vis de cette moyenne. L’écart type de Google Traduction est de 0.95 et celui de Bing 0.92 ce qui exprime que les notes sont centrées sur la moyenne. L’écart type des notes de DeepL est de 0.84. Les notes de ce système ont donc plus tendance à s’écarter de la moyenne (établie précédemment) que les autres systèmes. Ces résultats sont en accord avec le score Kappa établi auparavant. En effet, l’écart type de DeepL montre que le système a reçu des notes variées ce qui peut expliquer son score Kappa plutôt faible. Maintenant que nous avons

établi la validité des notes que nous avons recueillies nous pouvons nous pencher plus en avant sur l’analyse de celles-ci.

5.2.3 Médianes et répartition des notes

Tout d’abord, nous avons établi la médiane des scores de chaque système (Tableau 5). La médiane, pour Google Traduction et DeepL est de 3.66. Pour Bing, en revanche, elle est de 2,33. Nous nous sommes intéressé aux commentaires qui se trouvaient en dessous de cette médiane, notamment pour voir si les commentaires ironiques y étaient plus présents. Pour Google Traduction et DeepL, 24

68 commentaires ironiques se trouvent en dessous de la médiane, ce qui veut dire que 26 commentaires ironiques se trouvent au-dessus de celle-ci. Quant à Bing, 28 commentaires se trouvent en dessous de la médiane et donc 22 se trouvent au-dessus.

Nous nous sommes également intéressés à la médiane des commentaires ironiques et des commentaires standards. Il est intéressant de constater que dans le cas de Google Traduction et DeepL, la médiane reste la même quel que soit le type de commentaires. Pour Bing en revanche, la médiane des commentaires ironiques est plus basse que pour les commentaires standards. Nous pouvons toutefois postuler plusieurs choses. La première est que les différentes médianes pour Google Traduction montre que s’il y a une différence de moyenne (voir Tableau 4), c’est probablement parce que les notes des commentaires ironiques étaient globalement plus mauvaises que les notes attribuées aux commentaires standards, mais que la polarité des notes sont réparties équitablement, ce qui est souligné par les médianes obtenues. Le constat n’est pas le même pour Bing pour qui la médiane démontre que les commentaires ironiques sont en général plus mauvais que la moyenne. Pour ce qui est de DeepL, non seulement il n’y a pas de différence significative dans la moyenne des notes, mais en plus la médiane montre que les notes ont été répartie équitablement sur l’ensemble du corpus.

Toutefois, et c’est la représentation en « boîte à moustache » (boxplot) qui nous permet de le constater

(Tableaux 6 à 8), il y a une plus grande variation dans l’attribution des notes lorsque les commentaires sont ironiques. De plus, les commentaires ironiques ont plus souvent obtenu de très mauvaises notes

(entre 1 et 2) que les commentaires standards.

En d’autres termes, si l’on ne se focalise que sur les différentes moyennes que nous avons proposées jusqu’à présent, l’ironie n’a pas d’impact sur la qualité des notes accordées. Toutefois, si la traduction d’un commentaire ironique a été jugée mauvaise, elle a souvent été jugée comme étant très mauvaise.

Les commentaires standards, lorsqu’ils sont mauvais, auront plutôt tendance à ne pas recevoir de 1.

69 Récapitulatif des Médianes 4 3,66 3,66 3,66 3,66 3,66 3,66 3,5

3 2,66 2,5 2,33 2,33

2

1,5

1

0,5

0 Google Traduction Bing DeepL

Médiane Moyenne Médiane Commentaires Ironiques Médiane Commentaires Standards

Tableau 5 : Récapitulatif des Médianes (1 à 5)

Tableau 6 : BoxPlot de la répartition des notes

70

Tableau 7 : BoxPlot des commentaires ironiques

Tableau 8 : BoxPlot des commentaires standards

71

Nous venons de postuler que dans le cas de Google Traduction – surtout – les notes n’avaient pas été attribuées équitablement. En effet, au vu de nos résultats précédents, tout semble indiquer qu’il n’y a pas de différence entre la qualité des commentaires ironiques et des commentaires standards - mais que les très mauvaises notes ont plus souvent été attribuées aux commentaires ironiques. Afin de vérifier cet

état de fait, nous avons décidé d’établir quel était le rapport entre les notes données et le type de commentaire. Le but était de savoir si, par exemple, les commentaires standards obtenaient plus souvent la note 5 que les commentaires ironiques.

Pour rendre cela le plus clair possible et pour mieux pouvoir comparer les différents systèmes, nous avons décidé de présenter les tableaux (Tableaux 9 à 13) par note plutôt que par système. Nous avons choisi de donner d’abord le nombre total de notes 1 à 5 attribuées sur l’ensemble des notes. Par exemple, pour la note 5, il s’agit dans le cas de Google Traduction de 55 « 5 » sur 300. Les notes sont ensuite séparées en deux catégories selon si elles sont liées à un commentaire ironique ou standard.

Notes 5 attribuées

Google Traduction: Bing: 15 / 300 DeepL: 59 / 300 55 / 300

7 25 27 8 34 28

Ironique Standard Ironique Standard Ironique Standard

Tableau 9 : Récapitulatif des notes « 5 » attribuées aux systèmes

Nous constatons que Google traduction a obtenu 18.33% de 5 dans l’ensemble des notes. Ceux-ci sont répartis équitablement entre les commentaires ironiques et les commentaires standards. Bing est le système qui a obtenu le moins de 5. En effet, il n’a obtenu la note de 5 que 15 fois sur les 300 notes attribuées par les annotateurs, ce qui représente 5% des notes totales. Cela dit, pour lui aussi les notes sont reparties équitablement entre les commentaires sarcastiques et les commentaires standards. DeepL

72 est le seul système pour lequel les commentaires ironiques ont obtenu plus de fois la note 5 que les commentaires standards. La note 5 représentant 20% des notes totales, les commentaires ironiques l’ont obtenue à 58% contre 42% pour les commentaires standards.

Notes 4 attribuées

Google Traduction: Bing : 46 / 300 DeepL : 117 / 300 107 / 300

18 46 52 55 28 71

Ironique Standard Ironique Standard Ironique Standard

Tableau 10 : Récapitulatif des notes « 4 » attribuées aux systèmes

Pour ce qui est de Google Traduction, La note 4, elle, représente 35.66% de l’ensemble des notes. Pour elle aussi, les commentaires sont répartis équitablement. L’on remarque aussi que la note 4 représente à peu près le tiers des notes de Google Traduction et de DeepL. Pour Bing, la note représente 15.3% de l’ensemble des notes. L’écart entre ironique et standard est un peu plus marqué : 61% des 4 ont été attribués à un commentaire standard. Contrairement à ce que nous avons pu constater pour la note 5, la note 4 chez DeepL (39% de l’ensemble des notes), a été attribuée à 39% à des commentaires ironiques contre 61% pour des commentaires standards.

73 Notes 3 attribuées

Google Traduction: Bing: 74 / 300 Note 3: 75 79 / 300

35 36 28 39 39 51

Ironique Standard Ironique Standard Ironique Standard

Tableau 11 : récapitulatif des notes « 3 » attribuées aux systèmes

Pour Google Traduction, la situation change pour la note 3 (et les suivantes) où l’on ne constate plus une répartition équilibrée. La note 3 représente 26.33% de l’ensemble des notes. Mais ici, la majorité des commentaires (soit 64.55%) sont standards. Quant à Bing, la note 3 (24,6% de l’ensemble des notes) a été attribuées à un commentaire ironique dans 47% des cas. Pour DeepL, La note 3 (25% de l’ensemble des notes) a été distribuée plus équitablement : les commentaires ironiques représentent 52% du total.

Notes 2 attribuées

Google Traduction: Bing : 103 / 300 DeepL : 43 / 300 43 / 300

47 16 16 56 27 27

Ironique Standard Ironique Standard Ironique Standard

Tableau 12 : Récapitulatif des notes « 2 » attribuées aux systèmes

Chez Google Traduction, la note 2, qui représente 14.33% de l’ensemble des notes, a plus souvent été associée à un commentaire ironique (62.7%) qu’à un commentaire standard. Quant à Bing, La note 2

(34.5% de l’ensemble des notes) a été attribuée aux commentaires ironiques à 54%. Ce qui est une

74 distribution plutôt équitable entre les commentaires. Finalement pour DeepL, la note 2 (14% de l’ensemble des notes) a été beaucoup plus souvent attribuée à un commentaire ironique (63%).

Notes 1 attribuées

Google Traduction: Bing : 62 / 300 DeepL : 6 / 300 17 /300 1 2 29 33 16 4

Ironique Standard Ironique Standard Ironique Standard

Tableau 13 : Récapitulatif des notes « 1 » attribuées aux systèmes

Chez Google, l’écart est encore plus marqué pour la note 1 que pour les notes précédentes : elle a presque toujours (94%) été donnée à des commentaires sarcastiques. Quant à Bing, la note 1 (20.6%) a été attribuée à 53% aux commentaires ironiques. Là aussi, la distribution est plutôt équitable. Finalement pour DeepL, la note 1 ne représente que 2% de l’ensemble des notes. Dans 67% des cas, elle a été attribuée à un commentaire ironique.

Les résultats de l’ensemble des notes sont donc assez significatifs. Nous pouvons constater un certain nombre de choses. Pour Google Traduction, notre hypothèse précédente se trouve vérifiée. En effet, si les notes positives ont été distribuées équitablement entre les deux sortes de commentaires, les notes négatives ont plus souvent été données aux commentaires ironiques qu’aux commentaires standards.

Cela explique les résultats que nous avons obtenus au niveau de la moyenne et des médianes. Pour Bing, les résultats sont répartis beaucoup plus équitablement que pour Google Traduction. La seule exception

étant la note 4 qui a plus souvent été attribuée aux commentaires standards qu’aux commentaires ironiques. L’on remarque aussi que Bing est le système qui a obtenu le moins de notes positives et le plus de note négatives. DeepL se différencie des deux autres systèmes sur différents points.

Premièrement, il est celui qui a obtenu les notes les moins négatives – ce qui se reflétait déjà dans sa

75 moyenne. L’on peut aussi constater que la répartition des notes entre commentaires ironiques et standards est moins marquée que pour les deux autres systèmes.

Ainsi, cette répartition des notes nous permet d’observer quelques tendances : lorsque des notes positives sont attribuées, elles peuvent l’être à des commentaires ironiques ou standards d’une manière plutôt égale. Cela dit, les mauvaises notes (2 et 1) ont été plus souvent attribuées aux commentaires ironiques (59%). Au vu des médianes que nous avons présentées plus tôt – et qui, elles, indiquent que les commentaires ironiques ne sont pas systématiquement en dessous de celle-ci, il semblerait donc que les notes 1 et les notes 2 ont souvent été attribuées conjointement par les annotateurs. Cela expliquerait leur nombre et leur influence relative sur la moyenne obtenue vis-à-vis de la totalité des notes.

5.2.4 Score du Chi2

Afin d’établir s’il existe un lien entre la qualité de la traduction et l’ironie nous avons ensuite décidé de calculer le score du Chi2 en utilisant les valeurs que nous avions établies au moment de calculer le second score Kappa.

Ainsi, nous avons établi une moyenne des appréciations obtenues lorsque nous avons changé l’expression des notes en satisfaisant, insatisfaisant et neutre. Nous avons ensuite posé l’hypothèse nulle : « il n’existe pas de lien entre la qualité de la traduction et la présence de l’ironie ». Notre degré de liberté était de 2 et avons choisi comme valeur critique 5.991 en nous basant sur la figure 17 ci- dessous.

76

Figure 17 : Valeurs critiques du score Chi224

Les résultats sont les suivants : Google traduction a obtenu le score de 6.32, ce qui se situe au-delà de notre valeur critique et est donc statistiquement significatif. Notre hypothèse nulle peut ainsi être rejetée dans le cas de Google traduction. Il existe en effet un lien entre qualité de la traduction et présence ou non de l’ironie. Bing, par contre, obtient la note de 2,16. Dans ce cas, l’hypothèse nulle ne peut pas être rejetée et il n’existe pas de lien avéré entre la qualité des traductions proposées par Bing et la présence de l’ironie. Finalement DeepL a obtenu la note de 0.98 ce qui indique, comme pour Bing, que le lien entre qualité de la traduction et ironie n’est pas statistiquement significatif.

5.2.5 Intention des commentaires

La dernière chose que nous avions demandée aux annotateurs avait été d’indiquer s’ils estimaient que l’intention des commentaires était conservée après la traduction.

Les résultats sont les suivants :

Pour ce qui est de Google Traduction, 29 commentaires ont été jugés comme ne gardant pas l’intention par au moins un des annotateurs. Cependant, il n’y a que 3 commentaires qui ont été jugés comme

24 https://www.mun.ca/biology/scarr/4250_Chi-square_critical_values.html [Consulté le 09 juillet 2019]

77 perdant leur intention par les trois annotateurs, ces 3 commentaires sont tous ironiques. Pour bing, 51 commentaires ont été jugés comme perdant leur intention après la traduction. Parmi ceux-ci, seuls 12 commentaires ont été jugés par les trois annotateurs comme perdant leur intention après la traduction dont 8 sont des commentaires ironiques. Finalement, pour DeepL, 18 commentaires ont été jugés comme perdant leur intention. Parmi ceux-ci, seuls 2 commentaires ont mis d’accord les trois annotateurs, il est intéressant de noter qu’il ne s’agit pas des mêmes commentaires que pour Google Traduction mais qu’eux aussi sont tous ironiques.

Dans la grande majorité des cas, les annotateurs ont donc estimé que l’intention était conservée par le système de traduction automatique. L’on notera toutefois que DeepL a obtenu un meilleur score, suivi de Google Traduction et finalement de Bing. Il est également intéressant de noter qu’à l’exception de

Bing, tous les commentaires qui ont été jugés unanimement comme perdant leur intention sont tous ironiques.

Les conclusions de cette première section sont donc les suivantes. La qualité d’une traduction automatique et la présence de l’ironie ne sont pas corrélées à l’exception de Google Traduction dont le score Chi2 a révélé un lien significatif. Quant aux systèmes, DeepL dépasse les deux autres que ce soit au niveau de la qualité des traductions effectuées ou par la sauvegarde de l’intention du commentaire. Il est suivi de Google Traduction qui a également obtenu de bons résultats et finalement de Bing qui a obtenu des résultats beaucoup plus mauvais. L’on notera également que les commentaires ironiques sont statistiquement plus susceptibles de perdre leur intention initiale au moment de la traduction automatique.

5.3 Qualité de la traduction automatique 2 – Score BLEU

La deuxième méthode d’évaluation que nous avons sélectionnée est le score BLEU (voir Section 2.4.2).

Celui-ci nous permettra soit de corroborer les résultats que nous avons obtenus jusqu’à présent soit à les nuancer. Afin d’établir le score BLEU de chacune des traductions, nous avons utilisé l’outil en ligne de

Tilde25. Celui-ci possède un certain nombre d’avantages de même qu’un certain nombre de désavantages. Du point de vue des avantages, il s’agit d’un outil en ligne facile à utiliser, gratuit et ne

25 Disponible ici : https://www.letsmt.eu/Bleu.aspx [Consulté le 25 Juin 2019]

78 demandant aucune connaissance informatique particulière. Cependant, le score BLEU généré par Tilde a tendance à effectuer des erreurs si l’un des fichiers possède certains caractères typographiques. Afin d’essayer de contourner le problème, nous avons donc été contraints de supprimer tous les accents de notre corpus ainsi que les caractères spéciaux. Nous avons ainsi pu observer une augmentation des notes obtenues, même si toutes les notes obtenues restent plutôt mauvaises.

5.3.1 Moyenne des résultats

Comme pour la section précédente, nous avons commencé par calculer la moyenne générale (voir

Tableau 14 pour le récapitulatif) de même que la moyenne obtenue pour chaque système. Les résultats du score BLEU se trouvent à l’annexe 5.

La moyenne de Google Traduction se situe à 29.02, celle de Bing à 24.92 et celle de DeepL à 31.03. Ce premier résultat va dans le sens des résultats des annotateurs humains : l’ordre des systèmes du meilleur au moins bon est conservé. Nous avons ensuite décidé de calculer les notes moyennes obtenues pour les commentaires ironiques ainsi que les commentaires standards. Celle de Google Traduction est de 29.18, celle de Bing est de 25.05 et finalement celle de DeepL est de 32,69. L’on constate donc que le score

BLEU considère les commentaires ironiques comme ayant été – en moyenne – mieux traduits que les commentaires standards. Les moyennes des commentaires standards sont les suivantes pour Google

Traduction 28.86, pour Bing : 24.79 et finalement pour DeepL : 29.37. Cela s’oppose aux résultats des annotateurs humains pour qui la moyenne des résultats des commentaires ironiques était légèrement plus faible.

Nous avons ensuite calculé la moyenne des scores obtenus pour chaque commentaire (en prenant donc en compte les notes des trois systèmes). Celle-ci est de 28,32. Le seul système en dessous de celle-ci est

Bing ce qui corrobore les résultats des annotations humaines. Le Tableau 14 démontre bien que l’écart des résultats entre les commentaires ironiques et les commentaires standards est très mince, avec l’exception de DeepL pour qui l’écart entre les commentaires est marginalement plus marqués.

79 Récapitulatif des moyennes obtenues avec le score BLEU

35 32,69 31,03 29,02 29,18 29,37 30 28,86 24,92 25,05 24,79 25

20

15

10

5

0 Google Traduction Bing DeepL

Moyenne Générale Moyenne Commentaires Ironiques Moyenne Commentaires Standards

Tableau 14 : Récapitulatif des moyennes obtenues avec le score BLEU 5.3.2 Médianes

Nous nous sommes également intéressés aux médianes des scores BLEU des différents systèmes de même qu’à la médiane générale en prenant toutes les notes des phrases en compte. Pour Google

Traduction, la médiane est de 28.99. 25 Commentaires ironiques se trouvent en dessous de celle-ci. Pour

Bing, la médiane est de 25.24. 26 commentaires ironiques se trouvent en dessous de celle-ci. Quant à

DeepL, la médiane de ses scores est de 30.91. 23 commentaires ironiques se trouvent en dessous de celle-ci. Pris individuellement, les résultats font état de la même situation qu’auparavant. La qualité des traductions n’a été influencée par la présence de l’ironie que très marginalement.

En prenant l’ensemble des scores, la médiane est de 28.64. Le nombre de commentaires ironiques sous cette médiane est de 25. Le résultat est encore plus frappant : un commentaire ironique a autant de chance d’être jugé comme étant de bonne qualité qu’un commentaire standard. Un autre résultat allant dans ce sens, les trois commentaires ayant reçu les meilleures notes au score BLEU sont tous les trois des commentaires ironiques. Il est toutefois intéressant de noter que les deux commentaires les moins bien notés sont aussi ironiques. Ainsi, vis-à-vis de notre corpus il n’existe pas de lien prépondérant entre qualité estimée par le score BLEU et ironie - que ce lien soit positif ou négatif.

80 Nous avons également décidé de présenter nos résultats sous forme de BoxPlot (Tableaux 15, 16 et 17).

Plusieurs éléments ressortent de ces tableaux. Le premier est que certaines notes ont été jugées comme

étant « aberrantes » par Excel. Il s’agit des points qui s’écartent des boîtes. Tous les systèmes sont touchés. Il est toutefois intéressant de noter que les commentaires standards n’ont pas de notes jugées

« peu cohérentes » avec le reste des données. L’on constate également que pour les commentaires standards, la note maximale est de 45 alors que pour les commentaires ironiques est la note maximale est de 73. Cela correspond à ce que nous avancions plus tôt, c’est-à-dire que les commentaires ironiques ont été mieux jugés que les commentaires standards. Toutefois les notes supérieures à 55 ont été jugées comme aberrantes (et donc comme des exceptions) par Excel. L’écart entre les commentaires standards et ironiques n’est donc pas marqué d’une manière très forte.

Quoiqu’il en soit, ces Boxplot nous permettent d’établir les mêmes constatations qu’auparavant, l’ironie n’as qu’un impact très faible sur la qualité de la traduction automatique.

Tableau 15 : Boxplot des résultats du score BLEU

81

Tableau 16 : Boxplot des résultats du score BLEU – les commentaires ironiques

Tableau 17 : Boxplot des résultats du score BLEU – les commentaires standards

5.3.3 Conclusion

En conclusion de cette courte section concernant les résultats du score BLEU, il s’avère que celui-ci est en accord avec les résultats obtenus par les humains. En effet, il n’existe pas non plus de différence significative entre les résultats des commentaires ironiques et les résultats des commentaires standards.

Ceux-ci sont équitablement répartis. Pour ce qui est des systèmes, ils conservent le même classement que celui dévoilé dans la section 7.2. En effet, c’est DeepL qui obtient globalement les meilleurs scores, suivi de Google Traduction. Bing arrive une nouvelle fois en dernière place.

82 5.4 Compréhension de la traduction automatique 1 – Evaluation humaine

5.4.1 Polarités

Les sections précédentes ont démontré qu’il n’y avait pas de lien significatif entre la qualité de la traduction automatique et la présence de l’ironie, avec l’exception notable de Google Traduction. Dans le Chapitre 3 de notre travail, qui était dédié à la présentation des concepts théoriques de l’ironie, nous avons établi que l’être humain n’est pas infaillible lorsqu’il est question de la détecter. Nous nous attendons donc à constater un certain nombre d’erreurs dans les annotations. Il est probable que celles- ci ne soient pas liées à la traduction mais, plutôt, au fait que l’ironie peut parfois passer inaperçue. Ainsi, dans cette section, nous tenterons de déterminer si l’un des systèmes a généré des traductions qui ont permis de mieux appréhender les commentaires ironiques.

Nous avons commencé par soumettre notre corpus à trois annotateurs anglophones. Ceux-ci ont été chargés de noter les commentaires vis-à-vis des sentiments dont ceux-ci sont emprunts. L’échelle que nous avons choisie est à nouveau de 1 à 5. 1 exprimant que le commentaire a été perçu comme étant très négatif, 5 exprimant que le commentaire a été perçu comme étant très positif. Nous avons ensuite demandé aux annotateurs francophones de faire la même chose. Finalement, nous avons demandé aux annotateurs francophones et anglophones d’estimer le nombre d’étoiles que le critique a donné au produit.

5.4.1.1 Score Kappa

La première chose que nous avons décidé de calculer est à nouveau le score Kappa de Fleiss (Tableau

18). En effet, il nous paraît intéressant de mesurer si les anglophones et les francophones ont globalement

été plutôt d’accord vis-à-vis des sentiments des différents commentaires. La langue source a obtenu le score Kappa de 0.33, ce qui, si l’on se réfère à la Figure 16, est considéré comme « fair ». Tout comme pour les scores Kappa relatifs à la qualité de la traduction, nous avons ensuite transformé les notes de 1

à 5 en appréciations qualitatives. Ainsi, 1 et 2 sont devenus négatifs, 3 est devenu neutre et les notes de

4 et 5 sont devenues positives. En modifiant ainsi l’échelle, le score Kappa des commentaires en langue source est passé à 0.55 ce qui est un accord modéré. Pour Google Traduction le score Kappa non-modifié est également de 0.33 et modifiée il augmente à 0.54. L’on constate que ces données sont très proches

83 de celles obtenues par les commentaires en langue source. Pour Bing, le score Kappa non modifié est de

0.32 et passe à 0.61 une fois l’échelle modifiée. Il est intéressant de souligner qu’ici aussi, Bing a tendance à mettre les annotateurs plus d’accord que les autres systèmes. Son score est même meilleur que le score Kappa de la langue source. Finalement, DeepL a obtenu un score Kappa de 0.33 puis de

0.59.

Score Kappa non-modifié Score Kappa modifié

Langue Source 0.33 0.55

Google Traduction 0.33 0.54

Bing 0.32 0.61

DeepL 0.33 0.59

Tableau 18 : Récapitulatif des scores Kappa pour la compréhension de la TA

5.4.1.2 Notes dans les deux langues

L’étape suivante a été de voir dans quelle mesure les francophones ont attribué les mêmes notes que les anglophones. Afin d’être les plus clairs possibles, nous avons décidé d’utiliser l’échelle modifiée

(positif, négatif et neutre) afin de mesurer l’écart. Les résultats sont dans le Tableau 19 (un tableau récapitulatif plus complet se trouve dans la Section 6.2) :

Même note que les anglophones Notes différentes que les anglophones

Google Traduction 73% 27%

Bing 74% 26%

DeepL 73% 27%

Tableau 19 : Pourcentages de notes qui ont été attribuées de la même manière ou différemment que celles des anglophones

Pour Google Traduction, les annotateurs ont mis les mêmes notes que les anglophones dans 73% des cas. 27% des commentaires ont donc été placés dans une catégorie différente que celle assignée par les anglophones. Dans ces commentaires, 67% sont des commentaires ironiques. Ainsi, au total, 36% des

84 commentaires ironiques ont été évalués comme porteurs d’un sentiment différent que celui que leur impute les anglophones.

Pour Bing, les annotateurs ont mis les mêmes notes que les anglophones dans 74% des cas. 26% des commentaires ont donc été placés dans une catégorie différente que celle assignée par les anglophones.

Parmi ces commentaires assignés ailleurs, 58% sont des commentaires ironiques. Ainsi au total, 30% des commentaires ironiques ont été évalué comme porteur d’un autre sentiment que celui décelé par les annotateurs de langue source.

Finalement, pour DeepL, les annotateurs ont mis les mêmes notes que les anglophones dans 73% des cas également. 27% des commentaires ont donc été placés dans une catégorie ne correspondant pas à celle sélectionnée par les anglophones. Parmi ces commentaires « mal-placés », 67% sont ironiques. En résumé, 36% des commentaires ironiques ont été placés dans une autre catégorie que celle sélectionnée par les anglophones.

Les résultats des différents systèmes sont très similaires. Nous avons donc décidé de voir si les commentaires « problématiques » c’est-à-dire ceux qui n’ont pas reçu les mêmes résultats, sont les mêmes pour tous les systèmes. Parmi tous les commentaires ironiques qui n’ont pas obtenu les mêmes scores, 8 se trouvent dans les trois systèmes. Il y a également 3 commentaires standards qui se trouvent dans les différents systèmes. Quelques exemples parmi ces 11 commentaires se trouvent à l’annexe 6 en langue originale. Il y a plusieurs explications à cet état de fait. En effet, la figure 18 représente l’un de ces commentaires ironiques :

85

Figure 18 : Exemple de commentaire ironique dont les résultats divergent Le problème de l’annotation de ce commentaire ne vient probablement pas de la traduction mais de la difficulté de l’annoter. En effet, est-il négatif ou positif ? Il s’agit très clairement d’un commentaire humoristique qui ne vise pas spécialement à critiquer un produit après l’avoir essayé. En soi, les deux notes peuvent se justifier. Négatif parce que l’essence du commentaire est négative, mais il peut aussi

être perçu comme positif si l’on décide de le prendre comme étant un clin d’œil vis-à-vis de l’absurdité du produit proposé. Assigner une note à un commentaire ironique implique donc une difficulté supplémentaire, celle de devoir prendre une position vis-à-vis de celui-ci. En effet, le fait que tous les systèmes aient plus ou moins le même nombre de divergences montre bien que la traduction n’est pas responsable en tant que telle de ces divergences.

5.4.2 Estimation des étoiles

Toutefois, nous avons fait état ici de suppositions. Nous avons inclus dans les annotations une autre mesure qui nous permettra de voir si les francophones ont réellement compris les commentaires qu’ils avaient sous les yeux. En effet, comme mentionné dans la section 5.3, Amazon possède un système d’annotation qui consiste à donner des étoiles après avoir écrit son commentaire et qui permet ainsi de résumer son avis vis-à-vis d’un produit. Dans son étude, Filatova (2012) rend compte du fait que les humains sont plutôt bons pour réussir à estimer le nombre d’étoiles qui ont été attribuées aux produits.

Nous avons donc demandé aux francophones de faire de même afin de voir si nous obtenons les mêmes résultats.

86 Pour ce faire nous avons analysé les réponses de la sorte. Nous avons considéré comme étant « juste » une estimation d’étoiles parfaite : c’est-à-dire estimer 5 étoiles et que le critique en a effectivement mis

5 ; de même que s’il y a un décalage d’un chiffre seulement. : par exemple l’annotateur a estimé un 4

étoiles alors qu’il y en a 5. Nous avons considéré comme fausses toutes les autres réponses. Le Tableau

20 résume les résultats.

Pour Google Traduction, 43 commentaires ont reçu une estimation erronée du nombre d’étoiles. Parmi ceux-ci, 30 sont ironiques. 12 de ces commentaires ont été annotés faux par tous les annotateurs, 19 par deux et 17 par un seul.

Pour Bing, 33 commentaires ont reçu une mauvaise estimation du nombre d’étoiles. Parmi ceux-ci, 23 sont ironiques. Il y a 6 commentaires où les trois annotateurs ont répondu faux et 9 où deux se sont trompés. Il reste 18 commentaires où un seul annotateur s’est trompé.

Pour DeepL, 37 commentaires ont reçu une mauvaise estimation dont 30 sont ironiques. Il y a 6 commentaires où les trois se sont trompés et 8 commentaires où deux annotateurs se sont trompés.

En résumé, plus de la moitié des commentaires ironiques ont donc été mal-estimés par les francophones.

Nous avons décidé de calculer la même chose vis-à-vis de la langue source afin de voir si le problème

émanait de la traduction ou s’il venait plutôt de la présence de l’ironie dans les commentaires.

En langue source, 37 commentaires ont reçu une mauvaise estimation du nombre d’étoiles. Il y a 3 commentaires où les trois annotateurs se sont trompés, 16 où deux se sont trompés et 19 où un annotateur s’est trompé.

GT BING DEEPL LS

3 annotateurs 12 6 6 3

2 annotateurs 19 9 8 16

1 annotateur 17 18 23 19

Total des commentaires estimés faux 43 33 37 37

Tableau 20 : Récapitulatif des erreurs liées aux étoiles

87 Ce tableau est intéressant dans la mesure où il démontre que même en langue source, les annotateurs n’ont pas obtenu un meilleur score que les annotateurs francophones face aux traductions.

Nous nous sommes également intéressé aux commentaires qui avaient posé des problèmes aux annotateurs francophones pour les trois systèmes. Il s’avère que ces 9 commentaires là (Annexe 7) n’ont pas mieux été notés par les anglophones.

Puisqu’il semblait ne pas y avoir de différence entre les résultats obtenus par les anglophones et par les francophones, nous nous sommes intéressé plus en avant aux commentaires mentionnés. Sur ces 9 commentaires, 6 ont été jugés par la communauté Amazon comme étant « unhelpful » (peu utiles).

C’est-à-dire que la majorité de la communauté, en lisant le commentaire, a jugé qu’il n’était d’aucune utilité. Les trois restants ont été jugés très favorablement, probablement parce qu’ils étaient humoristiques.

En résumé, la difficulté, lorsque l’on se trouve face à une traduction contenant de l’ironie est la même pour des lecteurs en langue cible et en langue source : la compréhension de celle-ci. Selon notre étude le fait que le texte soit issu d’une traduction automatique n’apporte pas de difficulté supplémentaire.

D’un point de vue de comparaison des systèmes, ceux-ci sont tous plutôt égaux. Notons tout de même que Bing a été le plus performant des trois, puisque les annotateurs se sont moins trompés face à lui, qu’il est suivi par DeepL dont le nombre est le même que pour la langue source et que Google est le système qui a été le moins performant des trois.

5.5 Compréhension de la traduction automatique – Analyse de sentiment automatique

La dernière méthode d’évaluation que nous avons sélectionnée pour notre travail consiste également en une analyse de sentiment, mais cette fois automatique. Nous avons présenté les deux outils que nous avons sélectionnés dans la partie 5.5 de notre travail. Malheureusement, nous avons eu le loisir de constater que ceux-ci, et particulièrement Microsoft Text Analytic ne sont pas encore tout à fait au point pour ce qui est de l’analyse de sentiment francophone. En effet, MTA a eu beaucoup de mal à effectuer une analyse de sentiment pertinente et a donné majoritairement des réponses « neutres » aux différents commentaires. Lexalytics a rencontré le même genre de difficulté même si cela était dans une moindre mesure.

88 Il nous paraît tout de même intéressant de voir quels sont les commentaires que les systèmes ont réussi

à classifier correctement. Un tableau résumant ces résultats se trouve à la section 6.2.

Pour Microsoft Text Analytic, nous avons commencé par soumettre les commentaires en langue source dans le système. En prenant comme référence la moyenne des scores des annotateurs anglophones, il s’est avéré que Microsoft Text Analytic a réussi à qualifier correctement 50% des commentaires. Dans ces 50%, 40% des commentaires sont ironiques. Ce qui représente un peu moins de la moitié. Parmi les commentaires que MTA n’a pas réussi à qualifier correctement (50% encore une fois) ceux-ci sont à

60% ironiques. Ce résultat n’est pas surprenant. En effet, un certain nombre des commentaires de notre corpus sont des antiphrases. Ainsi, le critique aura utilisé un vocabulaire positif tout en sous-entendant l’inverse. Nous l’avons vu dans la section 4.5, il existe des procédés que les systèmes d’analyse de sentiment peuvent employer afin d’appréhender l’ironie. Or, MTA se base sur le lexique et, ainsi, n’est pas capable de gérer les énoncés ironiques. Nous avons ensuite soumis les traductions au même système.

Pour Google Traduction, MTA a été capable d’imputer le bon sentiment pour 23 commentaires. Parmi ceux-ci, 9 ne sont pas des instances où les annotateurs humains avaient mis neutre et donc des résultats réellement corrects. Parmi ces 9 commentaires analysés correctement, un seul est ironique. Pour Bing,

MTA a donné le même sentiment que les annotateurs humains pour 12 commentaires (28 en comptant les résultats « neutres »). Parmi ceux-ci, deux sont ironiques. Pour DeepL, MTA a réussi à donner le même sentiment pour 12 commentaires (30 avec les neutres). Parmi ceux-ci 2 sont également sarcastiques. En résumé, Microsoft Text Analytic n’est pas réellement efficace en langue source et l’est encore moins face à l’ironie. Face aux traductions automatiques, MTA n’est pas capable de les analyser correctement mais le problème vient plus de ses capacités internes que des traductions en tant que telles.

Quoiqu’il en soit, MTA n’est pas très efficace face à l’ironie ce qui était attendu au vu de l’architecture de son système.

En langue source, Lexalytics a été moins performant que MTA. En effet, face aux 100 commentaires, il n’a donné le bon score que pour 48 d’entre eux. Parmi ces commentaires, 40% étaient des commentaires ironiques. Parmi les commentaires dont la polarité ne correspond pas à celui donné par les anglophones,

60% sont des commentaires ironiques. Comme nous l’avons vu jusque-là, il est donc difficile pour un

89 système automatique – et ce d’autant plus pour un système non spécialisé – de comprendre l’intention sous-jacente d’un commentaire ironique.

Pour les commentaires traduits par Google Traduction, Lexalytics a été capable de donner le bon score

à 41 d’entre eux. Parmi ceux-ci, 21 étaient ironiques. Il est intéressant de noter que le système a été légèrement plus performant pour la détection de sentiment d’un commentaire ironique face à une traduction que face à la langue source. Les traductions de Bing, elles ont surpassé les autres systèmes puisqu’il a obtenu le même score que la langue source soit 48 commentaires correctement identifiés dont 21 étaient ironiques. Quant à celles de DeepL, le système a attribué le bon score à 43 commentaires dont 22 commentaires étaient ironiques. Pour Google et DeepL, les commentaires ironiques corrects représentent plus de la moitié des commentaires classifiés par le bon sentiment – ainsi, pour ce qui est de notre échantillon, l’ironie ne pose pas un problème particulier au système automatique d’analyse de sentiment.

Cette courte section nous aura permis de confirmer les différentes problématiques que nous avons soulevées dans la partie 4.5. En effet, la détection de la polarité n’est pas une chose aisée et comme les deux systèmes font une analyse de document en utilisant une recherche lexicale, il n’est pas étonnant que ceux-ci n’aient globalement pas été efficaces. Il aurait été intéressant, pour cette section, d’avoir accès à un système plus performant, notamment pour le français.

5.6 Conclusion

Les différents résultats que nous avons présentés dans cette partie nous permettent de tirer quelques conclusions. Celles-ci ne sont valables que pour le corpus de notre travail comme nous le verrons dans la section 6.3 de la partie suivante. Tout d’abord, que ce soit calculé par le score BLEU ou pas les annotations humaines, la présence d’ironie n’a pas influencé sur la qualité de la traduction automatique.

L’on peut également noter au passage que les deux méthodes d’évaluation ont fait état des mêmes résultats ce qui leur confère une certaine validité. Au niveau de l’interprétation des traductions, l’ironie a posé des problèmes aux annotateurs. Mais, après l’analyse des données, il s’est avéré que les problèmes n’émanaient pas des traductions – qui ont été bien comprises – mais du texte source qui était également difficile à appréhender en texte source. Pour ce qui est des systèmes d’analyse de sentiment automatique,

90 ceux-ci se sont montrés peu efficaces et pour la langue source et pour la langue cible. Il est donc difficile de tirer des conclusions au vu de leur résultat. Toutefois, pour les exemples que nous avons étudiés, l’ironie n’a pas semblé être un facteur d’erreur.

91 6. CONCLUSION

6.1 Introduction

Maintenant que nous avons présenté les divers résultats que nous avons obtenus, nous tâcherons, dans cette dernière partie, de présenter une synthèse de ceux-ci dans la section 6.2. Nous en profiterons pour d’une part répondre clairement à nos différentes questions de recherche et d’autre part pour comparer les différents systèmes de traduction automatique que nous avons employés. Par la suite, dans la section

6.3, nous exposerons les diverses limites de notre travail. En effet, certains éléments que nous avons mobilisés auraient pu l’être différemment et – potentiellement – amener d’autres types de résultats. Nous terminerons notre travail par la section 6.4 qui conclura définitivement celui-ci.

6.2 Synthèse et résultat du travail

Dans l’introduction de notre travail, à la section 1.2, nous avons présenté la question de recherche qui motivait la rédaction de ce mémoire. Celle-ci était formulée de cette manière :

Dans le cadre de commentaires rédigés par des utilisateurs anglophones, quel est l’impact de l’ironie sur la traduction automatique ?

Nous avions ensuite établi trois questions sous-jacentes qui avaient pour but de répondre pas à pas à notre question de recherche principale. Maintenant que nous avons traité les données que nous avions récoltées et que nous les avons exploitées, nous pouvons désormais répondre à ces questions.

1) Quel est l’impact de l’ironie sur la traduction automatique des commentaires sélectionnés ?

Comme nous avons pu le voir dans les sections 5.2 et 5.3, dans notre travail, l’ironie n’a – globalement

- pas eu d’impact sur la qualité des traductions automatiques. Certes, certains commentaires ironiques ont été jugés comme étant très mal traduits mais d’autres, au contraire, ont été jugés comme traduits tout

à fait adéquatement. La seule exception est Google Traduction, système vis-à-vis duquel nous avons pu

établir un chi2 qui a démontré qu’il existait un lien statistiquement significatif entre la qualité de la traduction et l’ironie. Sans mener une étude plus approfondie, il est difficile de trouver une raison à cet

état de fait. Nous pouvons exclure l’idée que certains annotateurs aient été plus sévères que d’autres puisqu’ils ont les 9 attribués les notes à chaque système. Ainsi, cela serait également reflété sur les autres

92 systèmes. Cela dit, nous pouvons néanmoins tenter de formuler quelques hypothèses. Il est possible que

Google Traduction ne réagisse pas bien face aux énoncés ironiques et plus généralement face à l’humour, comme le montre le score du Chi2. Il est également possible que notre échantillon ait contenu précisément les traductions qui allaient poser un problème à GT. Quoiqu’il en soit, les scores de DeepL et de Bing sont restés cohérents que le commentaire soit ironique ou non et quelle que soit la méthode d’évaluation. Le tableau 21 ci-dessous récapitule les résultats obtenus par les différents systèmes.

Annotation Score Annotation Annotation Score Bleu – Score Bleu – humaine – Bleu – humaine – humaines – moyenne des moyenne des moyenne moyenne moyenne des moyenne des commentaires commentaires générale générale commentaires commentaires ironiques ironiques ironiques standards

Google 3.46 29.02 3.33 3,6 29.18 28,86 T.

Bing 2.49 24.92 2,41 2,58 25.05 24,79

DeepL 3.6 31.03 3.52 3,67 32,69 29,37

Tableau 21 : Récapitulatif des évaluations liées à la qualité

Comme nous pouvons le constater, et DeepL et Bing perdent en moyenne 0.8 « points » lorsqu’ils sont confrontés à de l’ironie (DeepL passe de 3.52 en moyenne à 3.6 et Bing de 2.49 à 2.41). Mais, contrairement à Google Traduction qui perd 0.13 points, cet écart n’est pas suffisant pour que nous puissions le considérer comme étant significatif. Il apparaît également que selon le score BLEU, les commentaires ironiques ont été légèrement mieux traduits que les commentaires standards.

En résumé, l’ironie en tant que telle n’a pas eu d’impact sur la qualité des commentaires sélectionnés.

Certains procédés ironiques, en revanche, en ont eu. Dans la section 4.3 nous avions mentionné l’existence de marqueurs ironiques typologiques. Ceux-ci ont typiquement posé un problème aux systèmes de TA. La figure 10 (Section 3.3) est un excellent exemple d’un commentaire portant ces marqueurs. Or il s’agit là justement d’un commentaire qui a été jugé comme étant mal traduit et par le score BLEU et par les annotations humaines.

La deuxième question à laquelle nous avions prévu de répondre était la suivante :

93 2) Un utilisateur francophone peut-il comprendre l’intention d’un commentaire ironique

traduit automatiquement ?

Nous avons pu le constater dans les sections 5.4 et 5.5 : en moyenne 26.6% des commentaires n’ont pas

été annotés de la même manière par les anglophones et les francophones. Le tableau 22 ci-dessous résume la répartition des annotations. Les nombres écrits dans les cases blanches représentent les commentaires, les nombres écrits dans les cases grises correspondent aux commentaires standards et finalement les les cases bleu correspondent aux commentaires ironiques.

Commentaires annotés de la Commentaires annotés même manière que les différemment anglophones Google Traduction 73 27

41 (56%) 32 (44%) 9 (33%) 18 (67%)

Bing 74 26

39 (53%) 35 (47%) 11 (42%) 15 (58%)

DeepL 73 27

41 (56%) 32 (44%) 9 (33%) 18 (67%)

Tableau 22 : Récapitulatif des scores assignés au sentiment des commentaires

Comme nous pouvons le constater, pratiquement les trois quarts des commentaires ont été classés de la même manière que les anglophones. Les commentaires ironiques ont en moyenne été bien classés dans

66% des cas. L’on remarque un taux « d’erreurs » assez élevé. Pourtant, nous considérons qu’il y a plusieurs problèmes théoriques à utiliser ces chiffres. En effet, comme nous l’avons évoqué plus tôt

(notamment à l’aide de la figure 18), il est très difficile d’accorder une note à un commentaire qui est

évidemment et impudemment ironique. Tous les annotateurs n’ont pas utilisé la même stratégie pour noter ces commentaires. 6 d’entre eux (sur 9) ont décidé de marquer l’ironie qu’ils avaient perçue en donnant le score apparent du commentaire comme s’ils le lisaient au premier degré puis de donner le score d’une étoile au même commentaire afin de marquer l’écart entre ce qui est dit et la véritable intention. Or, certains autres ont décidé de faire l’inverse afin de marquer l’ironie ; c’est-à-dire qu’au lieu de donner un score « naïf » au commentaire, ils lui ont donné le score perçu. Les données seront donc inversées et l’annotateur qui aura procédé de la même manière que les anglophones (qui eux-

94 mêmes n’ont pas toujours choisi la même stratégie) verra son score considéré comme « correct », alors qu’un autre annotateur ayant choisi l’autre stratégie verra son score considéré comme « faux » alors même qu’ils avaient tous les deux l’intention de dire la même chose. L’annotation des commentaires aurait sans doute été plus efficace si les annotateurs avaient dû se prononcer sur la présence ou l’absence d’ironie dans le commentaire.

Nous avons ensuite essayé de voir si les erreurs liées à l’estimation des étoiles pouvaient être intéressantes. Nous avons constaté après notre analyse que les commentaires dont les francophones n’avaient pas réussi à estimer les étoiles (voir Tableau 20 Section 5.4.2) avaient également posé problème aux anglophones et ont été mal notés sur le site d’Amazon.

En résumé, tout porte à croire qu’un francophone est tout aussi capable de déceler l’ironie dans une traduction que l’est un anglophone devant le texte original. Si des erreurs subsistent, elles sont la conséquence de la qualité du texte source plutôt que la conséquence de la qualité des traductions. Il faut toutefois noter que notre système d’appréciation n’a sans doute pas été le plus efficace. Comme nous l’avons suggéré plus haut, demander au francophone de dire clairement s’ils décelaient la présence de l’ironie aurait permis d’obtenir des données plus fiables et plus facile à quantifier. Quoiqu’il en soit, la réponse à notre question de recherche sous-jacente est qu’un utilisateur francophone sera très probablement capable de comprendre l’intention d’un énoncé ironique dans une traduction.

Pour ce qui est des systèmes automatiques d’analyse de sentiment, une synthèse de leurs résultats est plus complexe au vu du peu de résultats qu’ils ont fournis. Le tableau 23 ci-dessous tente toutefois de les résumer. Nous avons utilisé la même mise en forme que pour le tableau précédent. Pour rappel, les cases grises sont les commentaires standards et les cases bleues sont les commentaires ironiques.

95

MTA Lexalytics Correct Incorrect Correct Incorrect EN 50 50 48 52

30 20 20 30 29 19 21 31

Google Traduction 9* 91 41 59

8 1 42 59 20 21 30 29

Bing 12* 88 48 52

10 2 40 48 27 21 24 29

DeepL 12* 88 43 57

10 2 40 48 21 22 29 28

*Nous n’avons conservé ici que les résultats strictement juste – c’est-à-dire en excluant les neutres.

Tableau 23 : Récapitulatif des scores des systèmes automatiques d’analyse de sentiment

Comme nous pouvons le voir dans le tableau 23, les systèmes sélectionnés d’analyse de sentiment n’ont pas été performants que cela soit en langue source ou en langue cible. Cela dit, Lexalytics a donné des résultats cohérents pour l’ensemble des données. Dans son cas, les différences de traitement entre les commentaires standards et les commentaires ironiques sont assez marginales notamment avec les traductions de Google et de DeepL. Elles sont un peu plus marquées pour la langue source et Bing mais ne témoignent pas d’une différence statistiquement significative. Il est toutefois intéressant de noter que

Bing a obtenu le meilleur score des trois systèmes. Pour ce qui est de MTA, celui-ci n’a pas été performant et l’a été encore moins avec l’ironie. Il est difficile de pouvoir établir des résultats statistiques face à un échantillon aussi mince (8-1, 10-2, 10-2 selon le tableau ci-dessus) mais il paraît évident que

MTA ne peut pas être utilisé – à l’heure actuelle et dans la version à laquelle nous avons eu accès – comme un système automatique d’analyse de sentiment pour la langue française.

96 Nous en venons à une comparaison des différents systèmes de traduction automatique employés. Dans notre travail, le système qui s’est révélé être le plus efficace au niveau de la qualité de la traduction est

DeepL. En effet, il est non seulement celui qui a obtenu de meilleures moyennes générales, mais aussi celui qui a obtenu les meilleurs scores individuels (voir tableaux 9 à 13 et tableau 21). En outre, il a aussi reçu des résultats probants lors de l’annotation des scores. Le deuxième système le plus efficace est Google Traduction qui a également fourni – dans l’ensemble – des traductions plutôt acceptables.

Cela se reflète non seulement vis-à-vis des annotations humaines mais aussi du score BLEU. Tout comme pour DeepL, il a aussi obtenu de bons résultats dans l’analyse de sentiment humaine. Finalement,

Bing – le seul système statistique de notre mémoire - est le système qui a obtenu les résultats les plus mauvais. En effet, il est celui qui a obtenu les moyennes les plus basses que ce soit des moyennes obtenues à partir des scores de l’annotation humaine ou du score BLEU, ce qui corrobore les résultats de la recherche présentés dans la section 2.2. Il est toutefois intéressant de noter que c’est le système qui a obtenu les meilleures notes lorsqu’il a été question de noter les sentiments de ses traductions. En effet, qu’elles soient humaines ou automatique, les notes obtenues sont celles qui s’approchent le plus des annotations anglophones.

Cela dit, l’écart entre DeepL et Bing au niveau de l’analyse de sentiment n’est pas suffisamment élevée pour que Bing puisse être considéré comme une alternative utile lorsque l’on est face à un commentaire ironique en ligne. Un utilisateur devrait – selon nous – plutôt utiliser DeepL qui en plus d’avoir des résultats plutôt bons en analyse de sentiment, a aussi obtenu les meilleurs résultats en matière de qualité des traductions.

6.3 Limites de l’étude

Nous l’avons déjà brièvement mentionné dans la partie précédente mais notre travail possède un certain nombre de limites qui pourraient rendre intéressant un travail plus approfondi ou mis en place différemment. Nous mentionnerons d’abord le choix de notre corpus. En effet, celui-ci semblait parfait de prime abord car il était composé de commentaires standards et de commentaires ironiques, ce qui

était précisément ce que nous cherchions. Or, parmi les commentaires ironiques se trouvent un certain nombre de commentaires humoristiques qui n’ont pas d’autres buts que de divertir le potentiel lecteur.

97 Nous sommes d’avis que ce genre de commentaires (qui pourtant sont assez présents dans notre corpus) ne sont pas les commentaires les plus pertinents pour l’étude que nous avons menée. En effet, ils ont été problématiques au moment de l’analyse de sentiment puisqu’ils sont très difficiles à noter – nous pensons d’ailleurs qu’ils sont responsables d’une grande partie des divergences que nous avons pu observer entres les annotateurs.

La deuxième limite que nous pouvons citer se trouve dans la méthodologie. En effet, il aurait pu être intéressant de faire annoter les commentaires ironiques (que ce soit au niveau de la qualité ou de l’analyse de sentiment) puis de supprimer l’ironie et de les faire annoter une seconde fois. Les données obtenues en procédant de la sorte auraient pu faire l’objet d’autres calculs statistiques (par exemple le test t-apparié) et nous aurions sans doute pu apporter une conclusion plus catégorique quant à notre question de recherche. Il nous a été difficile de comparer des commentaires standards premier degré et des commentaires humoristiques qui, parfois, étaient méta-textuels. Nous pensons notamment à l’exemple en figure 10 (Section 3.3). Le titre du commentaire (qui n’était pas indiqué dans les annotations) est le suivant : « am I doing this right ? » En écrivant cela, l’auteur fait non seulement référence aux autres commentaires humoristiques du t- qu’il critique et en profite pour s’inscrire

également dans ce « mouvement ».

Il aurait également été intéressant de classifier les commentaires ironiques par leurs marqueurs. En effet, notre corpus est presque entièrement constitué d’antiphrases, ce qui est sans aucun doute le procédé ironique le plus facile à traduire pour un système de TA. Il aurait été intéressant de sélectionner d’autres marqueurs et de pouvoir comparer lequel est le moins bien pris en charge, par exemple. De même, la taille des commentaires (très variable) à potentiellement pu avoir une influence sur les résultats. Il aurait

été intéressant d’établir au préalable une fourchette (par exemple 100 à 300 mots) qui aurait limité l’écart de notre corpus.

Finalement, les outils en ligne que nous avons utilisé pour l’analyse de sentiment se sont révélés ne pas

être efficaces. Cela a malheureusement rendu une partie - que nous espérions être importante - de notre travail - caduque. En effet, il est difficile d’établir des résultats statistiques avec des données aussi pauvres. Toutefois ces données révèlent tout de même que certains domaines sont loin d’avoir été

98 explorés exhaustivement et il reste de nombreuses choses sur lesquelles les chercheurs peuvent se pencher.

Pour résumer, notre travail nous a permis de mettre en place une méthodologie qui pourrait être utilisée dans une étude plus ambitieuse. Toutefois, celui-ci aurait pu être mis en place différemment et obtenir des résultats peut être plus catégoriques. Un autre corpus pourrait être envisagé de même qu’une classification plus pointue que « ironique / standard ».

6.4 Conclusion

Dans ce travail, nous avons cherché à mesurer si la présence d’un énoncé ironique dans un commentaire

Amazon avait une incidence sur la qualité de la TA et sur la compréhension de celle-ci. Pour ce faire nous avons d’abord présenté les diverses notions théoriques qui étaient nécessaires à la mise en place de notre étude. Nous avons ainsi présenté la traduction automatique ainsi que son fonctionnement, puis l’ironie et les problématiques que son utilisation soulève. Nous avons ensuite introduit les divers outils que nous avons mobilisés dans notre étude avant de détailler notre méthodologie et de faire part de nos résultats.

Après cette recherche, la conclusion que nous pouvons apporter à notre travail est que dans le cadre de notre corpus, l’ironie n’a pas d’incidence sur la qualité de la traduction automatique pour DeepL et Bing.

Toutefois, selon les annotations humaines, elle a un impact négatif sur les traductions de Google

Traduction. Le score BLEU, lui, a plutôt indiqué une légère amélioration de la qualité lorsque l’un des commentaires possédait au moins une phrase ironique et ce, pour les trois systèmes que nous avons mobilisés.

Quant à la compréhension de celle-ci, elle n’est généralement pas problématique. La plupart des annotations étaient toutes cohérentes les unes avec les autres. Les annotations problématiques ont surtout

été le reflet d’une stratégie différente dans l’annotation plutôt que d’une réelle incompréhension. Quant

à l’estimation des étoiles que nous avions demandée, elle a été effectuée correctement dans la grande majorité des cas. La minorité problématique l’a été non seulement pour les francophones mais aussi pour les anglophones. Un problème de traduction est donc exclu. Qui plus est, les commentaires dont

99 les annotateurs n’ont pas réussi à estimer les étoiles étaient soit humoristiques soit jugés comme

« unhelpful » (peu utiles) par les autres utilisateurs d’Amazon.

Ainsi, un utilisateur francophone quelconque ne devrait pas avoir de problèmes particuliers à accéder au contenu d’un commentaire Amazon écrit en anglais. Nous pouvons toutefois lui conseiller d’utiliser

DeepL qui lui permettra d’avoir accès à une traduction de bonne qualité et qui lui permettra en plus d’avoir accès à l’implicite du message.

100 RÉFÉRENCES

ALPAC 1966. Languages and machines : computers in translation and linguistics. A report by the Automatic Language Processing Advisory Committee, Division of Behavioral Sciences, National Academy of Sciences, National Research Council. Washington D.C.

BAHDANAU, D., et al. 2016. Neural machine translation by jointly learning to align and translate [En ligne]. URL : arXiv :1409.0473 [Consulté le 08 Avril 2019].

BARA, B. 2010. Cognitive Pragmatics : The Mental Processes of Communication. Cambridge : MIT Press.

BENGIO, Y., et al. 2018. Fine-Grained Attention Mechanism for Neural Machine Translation [En ligne]. URL : 10.1016/j.neucom.2018.01.007. [Consulté le 11 Avril 2019].

BIRKELUND, M. 2016. Translating the implicit. Dans VIKNER, S. (Eds.), Let us have articles betwixt us : Papers in Historical and Comparative Linguistics in Honour of Johanna L. Wood. Aarhus : Department of English – School of Communication and Culture – Aarhus. pp. 111-128.

BOUILLON, P. 1993. Introduction et bref historique. Dans BOUILLON, P. & CLAS, A. (eds.) La Traductique. pp.13-20.

BOUILLON, P. 2018. Cours de traduction automatique 1. Université de Genève.

BOUILLON, P. 2018. Cours de traduction automatique 2. Université de Genève.

BOUILLON, P. & CLAS, A. 1993. La Traductique. Montréal.

BURGERS, C., MULKEN, M. 2017. Irony Markers. Dans ATTARDO, S. The Routledge handbook of language and humor. New York / London : Routledge.

BUSCHMEIER, K., CIMIANO, P., & KLINGER, R. 2014. An Impact Analysis of Features in a Classification Approach to Irony Detection in Product Reviews. WASSA@ACL.

CALLISON-BURCH, C., OSBORNE, M. & KOEHN, P. Re-evaluating the Role of BLEU in Machine Translation Research. Proceedings of the.

101

CARVALHO, P., et al. 2009. Clues for Detecting Irony in User-Generated Contents: Oh...!! It’s “so easy" ;-). International Conference on Information and Knowledge Management, Proceedings.

CASTILHO, S., MOORKENS, J., GASPARI, F., et al. 2017. Is Neural Machine Translation the New State of the Art ? The Prague Bulletin of Mathematical Linguistics, vol. 108 (1). pp.109-120.

CHAN, S-W. 2015. The Routledge Encyclopaedia of Translation Technology. London/New-York : Routledge.

CHAVES, M., 2012. Analysing reviews in the Web 2.0: Small and Medium Hotels in Portugal. Tourism Management, vol. 33 (5). pp. 1286 – 1287.

CHIARO, D. 2017. Humor and Translation. Dans ATTARDO, S. The Routledge handbook of language and humor. New York / London : Routledge.

CHO, K., et al. 2014a. On the properties of Neural Machine Translation : Encoder-Decoder Approaches. Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation. pp.103-111.

CHO, K., et al. 2014b. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation [En ligne]. URL : arXiv :1406.1078 [Consulté le 16 Avril 2019].

DAUGHERTY, T., EASTIN, M., BRIGHT, L. 2008. Exploring Consumer Motivations for Creating User-Generated Content. Journal of Interactive Advertising, vol. 8 (2). pp.16-25.

DEEPL 2018. Informations presse [En ligne]. URL : https://www.deepl.com/press.html [Consulté le 27 Mai 2019].

DE WILDE, J. 2012. The Interdisciplinary Character of Research into the Translation of Literary Irony. TTR, vol. 25 (1). pp.83-107.

DROVER, D. 2016. Sarcasm Detection in Product Reviews using Sentence Scale Sentiment Change with Recurrent Neural Networks Submitted in Partial Fulfillment of the Requirements for CS 886 [En ligne]. URL : https://pdfs.semanticscholar.org/f37f/41f61a607964a69d255e92d3fd9d66da890f.pdf?_ga=2.18260400 2.59317678.1565256656-179426066.1563357970 [Consulté le 13 Mai].

102 FILATOVA, E. 2012. Irony and Sarcasm: Corpus Generation and Analysis Using Crowdsourcing.

FIRTH, J. 1957. A synopsis of linguistic theory 1930-55... Selected Papers of J. R. Firth 1952-59. London : Longmans. pp. 168-205.

FORCADA, M. 2017. Making sense of neural machine translation [En ligne]. URL : https://doi.org/10.1075/ts.6.2.06for [Consulté le 05 Mars 2019].

GERLACH, J. 2015. Improving statistical machine translation of informal language : a rule-based preediting approach for French Forums. Thèse de Doctorat, Université de Genève

GOODFELLOW, I. et al. 2016. Deep Learning. Cambridge : MIT Press.

GOOGLE AI BLOG. 2016. Zero-Shot Translation with Google's Multilingual Neural Machine Translation System [En ligne]. URL: https://ai.googleblog.com/2016/11/zero-shot-translation-with- googles.html [Consulté le 26 Mai 2019].

GROSS, M. 1972. Notes sur l'histoire de la traduction automatique. Langages, 7ᵉ année, vol. 28. pp. 40- 48.

HERBERT, C. 2017. Irony and Sarcasm. Dans ATTARDO, S. The Routledge handbook of language and humor. New York / London : Routledge.

JURAFSKY, D. MARTIN, J. 2009. Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition, Upper Saddle River N.J. : Prentice Hall.

JURAFSKY, D. MARTIN, J. 2018 (draft) Speech and Language Processing. [En ligne] URL : https://web.stanford.edu/~jurafsky/slp3/3.pdf [Consulté le 29 Mars 2019].

KOEHN, P. 2010. Statistical Machine Translation. Cambridge : University Press.

KOEHN, P. 2017. Neural Machine Translation. ArXiv preprint arXiv :1709.07809. [Online]. URL : https://arxiv.org/abs/1709.07809 [Consulté le 08 Mars 2019].

103 KOEHN, P. 2018. The State of Neural Machine Translation (NMT) by Philipp Koehn [En ligne]. Omniscien. URL : https://omniscien.com/state-neural-machine-translation-nmt/ [Consulté le 08 Mars 2019].

KRIS, H., BERTELS, A. 2016. Sémantique distributionnelle en linguistique de Corpus. Langages. pp.51-64.

LIU, B. 2015. Sentiment Analysis : mining opinions, sentiments, and Emotions. Cambridge : University Press.

LIU, B. 2012. Sentiment Analysis and Opinion Mining. Toronto : Morgan & Claypool Publishers : Synthesis Lectures on Human Language technologies.

MATEO, M. 1995. The Translation of Irony. Meta, vol. 40 (1). pp. 171–178.

MCHUGH, Mary. 2012. Interrater reliability: the kappa statistic [En ligne]. URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3900052/ [Consulté le 13 août 2019].

MICROSOFT. 2015. Introducing Text Analytics in the Azure ML Marketplace [En ligne]. URL : https://blogs.technet.microsoft.com/machinelearning/2015/04/08/introducing-text-analytics-in-the- azure-ml-marketplace/ [Consulté le 03 Juin 2019].

MICROSOFT. 2019. Qu'est-ce que l'API Analyse de texte? [En ligne].https://docs.microsoft.com/fr- fr/azure/cognitive-services/text-analytics/overview [Consulté le 03 Juin 2019].

MIKOLOV, T., et al. 2013. Linguistic Regularities in Continuous Space Word Representations. HLT- NAACL. pp.746-751.

MILLER, G.A., BEEBE-CENTER, J.G. 1956. Some psychological methods for evaluating the quality of translations. Mechanical Translation, vol.3. pp.73-80.

MONCELET, C. 2006. Les mots du comique et de l’humour. Paris : Belin.

MUDAMBI, M., SCHUFF, D. 2010. What Makes a Helpful Review? A Study of Customer Reviews on Amazon.com. MIS Quarterly, vol.34(1). pp.185-200

OECD. 2007. Participative web and user-created content : web 2.0, wikis and social Networking.

104

PAPINENI, K., ROUKOS, S., WARD, T., et al. BLEU : a Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, pp.311-318.

PELED, L., ROI, R. 2017. Sarcasm SIGN : Interpreting Sarcasm with Sentiment Based Monolingual Machine Translation. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Vol.1.

POIBEAU, T. 2017. Machine Translation. Cambridge : MIT Press.

PO-YA, A. 2013. #Irony or #Sarcasm — A Quantitative and Qualitative Study Based on Twitter. PACLIC 27. pp.349-356.

QUAH, C. K. 2006. Translation and technology. Houndmills ; New York : Palgrave Macmillan.

REYES, A., et al. 2013. A multidimensional approach for detecting irony in Twitter. Language Resources & Evaluation, vol.47(1). pp.239-268.

ROTURIER, J., BENSADOUN, A. 2011. Evaluation of MT Systems to Translate User Generated Content [En ligne]. URL : https://pdfs.semanticscholar.org/8763/d41f730dcaf11fec1189390a66ac32e66964.pdf?_ga=2.12331988 7.59317678.1565256656-179426066.1563357970 [Consulté le 19 Juin 2019]

SALAMEH, M., MOHAMMAD, S., KIRITCHENKO, S. 2015. Sentiment after Translation: A Case- Study on Arabic Social Media Posts. HLT-NAACL.

SCHÄFFNER, C. 1998. Skopos theory. Dans BAKER, M. (eds.) Routledge Encyclopedia of Translation Studies. London: Routledge. pp.235-238.

SERETAN, V. 2017. Séminaire de recherche. Université de Genève.

SOMERS, H. 1993. La traduction automatique basée sur l’exemple ou sur les corpus. Dans BOUILLON, P. & CLAS, A. (eds.) La Traductique.

SOMERS, H. 1999. Review Article : Example-based Machine Translation. Machine Translation. Volume 14 (2). pp.113-157.

105

SYSTRAN 2016. How does Neural Machine Translation work ? [En ligne]. Systran Blog. URL : http://blog.systransoft.com/how-does-neural-machine-translation-work/ [Consulté le 08 avril 2019].

TAUS. 2014. Bing Translator: Functionality [En ligne]. URL: https://taus.net/technologies/34-bing- translator#functionality [Consulté le 24 Mai 2019].

TORAL, A., WAY, A. 2018. What Level of Quality can Neural Machine Translation Attain on Literary Text ? Dans MOORKENS, J. Translation Quality Assessment : From Principles to Practice. London : Springer.

TRUJILLO, A. 1999. Translation Engines : Techniques for Machine Translation. London : Springer.

WEITZ, E. 2017. Online and Internet Humour. Dans ATTARDO, S. The Routledge handbook of language and humor. New York / London : Routledge.

WU, C. XIA, F. DELEGER, L. SOLTI, I. 2011. Statistical machine translation for biomedical text : are we there yet ? Europepmc. [En ligne] URL : https://europepmc.org/articles/PMC3243244;jsessionid=7358715A3CAC17058953B7CC4F778750 [Consulté le 28 Avril 2019]

XING, H., GUIGANG, Z., SHANG, Ma. 2016. Technical Survey, Deep Learning. International Journal of Semantic Computing. Vol 10 (3).

XIONG, D., ZHANG, M. 2015. Linguistically Motivated SMT. London : Springer.

YVON, F. 2014. Machine Translation. Oxford Bibliographies [En ligne]. URL : https://www.oxfordbibliographies.com/view/document/obo-9780199772810/obo-9780199772810- 0170.xml [Consulté le 12 Mars 2019]

106 ANNEXES

Annexe 1 : Instructions pour les annotateurs chargés de noter la qualité de la TA

Instructions pour l’annotation des commentaires Amazon (2 pages)

Avant toute chose, je vous remercie toutes et tous d’avoir accepté de m’aider. Voilà la marche à suivre pour annoter les commentaires ainsi que quelques informations globales.

1. Informations Générales Le but de mon mémoire est de mesurer si la traduction automatique d’un sarcasme a une incidence sur la compréhension et la réception de celui-ci par un locuteur de la langue cible. Pour cela, j’ai utilisé un corpus créé par Elena Filatova pour sa recherche Irony and Sarcasm : Corpus Generation and Analysis using Crowdsourcing26. Ce corpus, disponible en ligne, est constitué de commentaires Amazon. Une partie d’entre eux est sarcastique, l’autre est standard. J’ai ensuite sélectionné 100 commentaires de ce corpus. Ceux-ci ont tous été traduits par l’un des systèmes de traduction automatique suivant : Google Traduction, DeepL ou Bing. Afin de mesurer s’il y a une différence entre la qualité de la traduction des commentaires sarcastiques et celle des commentaires standards ainsi qu’une différence de la qualité de traduction selon le système utilisé, j’ai besoin d’annotations.

2. Marche à suivre Dans l’autre document (GroupeXTQ _FR_TAB) vous trouverez donc 100 commentaires traduits automatiquement. Parmi ces commentaires, 50 sont sarcastiques (ou ont au moins une phrase sarcastique) et les 50 restants sont des commentaires normaux. Tous ces commentaires ont été mélangés aléatoirement (il n’y a pas de distribution constante).

L’annotation fonctionne de la façon suivante. Il vous faudra d’abord lire le commentaire en langue originale puis lire sa traduction. Ensuite il s’agira de lui attribuer une note de 1 à 5 qualifiant la qualité de la traduction (1 signifiant que la qualité est très mauvaise, 5 signifiant qu’elle est très bonne). Il faudra entrer ce chiffre à l’endroit où le texte est en rouge dans le modèle ci-dessous.

J’aimerais également que vous me disiez si, selon vous, l’intention du commentaire original a été conservée dans sa traduction. En d’autres termes, si la traduction vous paraît fidèle à l’original. Cela est une réponse à laquelle vous pouvez répondre soit O (pour oui) soit N (pour non) dans la case verte dans le modèle ci-dessous.

Modèle des tableaux d’annotation (vide) :

[IMAGE DU PRODUIT] [NOM DU PRODUIT] [CATÉGORIE DU PRODUIT] [COMMENTAIRE EN LANGUE SOURCE] [COMMENTAIRE TRADUIT AUTOMATIQUEMENT] [NOMBRE DU COMMENTAIRE] [NOTE DE LA [OPINION SUR QUALITÉ DE LA L’INTENTION] TRADUCTION]

Échelle : 1 = Très mauvaise traduction, 2 = Mauvaise traduction, 3 = Traduction neutre, 4 =Bonne traduction, 5 = Très bonne traduction.

26 http://www.lrec-conf.org/proceedings/lrec2012/pdf/661_Paper.pdf

107

Ces notes me permettront de voir s’il existe une différence significative entre les systèmes de traductions automatique ou, par exemple, le type de commentaire.

Exemple de tableau d’annotation complété :

The Black Key’s Brothers [Album CD] I hope the real Black Keys have filed a cease J'espère que les véritables Black Keys ont déposé and desist order against the impostors who une ordonnance de cessation et d'abstention created this cruel satire that sounds worse than contre les imposteurs qui ont créé cette satire anything I've heard in an elevator. I bought and cruelle qui sonne pire que tout ce que j'ai entendu then listened to some of this thinking it was to dans un ascenseur. J'ai acheté puis écouté une be genuine Black Keys music, and then felt like partie de ces idées en pensant que c'était de la I had entered some sort of bizarro universe. vraie musique Black Keys, puis j'avais Actually deserves less than one star. l'impression d'entrer dans un univers bizarro. Mérite en réalité moins d'une étoile. 1. 4 O

Je vous remercie encore une fois d’avoir accepté de m’aider ! Je suis à votre disposition pour toute question ou complément d’information. Marie-Zoé

108 Annexe 2 : Exemples de commentaire à annoter pour les annotateurs chargés de la qualité

O500 Otomix Baggy Workout Gym Pants - American Flag [Clothes] I originally bought workout pants made out of J'ai d'abord acheté un pantalon d'entraînement France's flag, but whenever my workout partner fait à partir du drapeau de la France, mais Hans would come over, for some reason they chaque fois que mon partenaire d'entraînement would turn completely white, a breeze would Hans viendrait plus, pour une raison quelconque, come out of nowhere, and they'd start ils tourneraient complètement blanc, une brise flapping/waving in his direction. Weird. viendrait de nulle part, et ils avaient commencer à battre/onduler dans sa direction. Bizarre. Anyway, since I got these star spangled beauties, I threw the other ones away. And the De toute façon, depuis que j'ai eu ces beautés best part is, I can wash them in hot water to get étoilées, j'ai jeté les autres. Et la meilleure partie them really clean, because these colors don't run. est, je peux les laver dans l'eau chaude pour les obtenir vraiment propre, parce que ces couleurs ne courent pas. 23.

Dr. Seuss's ABC: An Amazing Alphabet Book! [Book] This is a great book for kids starting to learn C'est un excellent livre pour les enfants qui their letters and sounds. A must have. commencent à apprendre leurs lettres et leurs sons. Un must have. 44.

109 Annexe 3 : Instructions pour les annotateurs chargés de noter la polarité de la TA

Instructions pour l’annotation des commentaires Amazon (2 pages)

Avant toute chose, je vous remercie toutes et tous d’avoir accepté de m’aider. Voilà la marche à suivre pour annoter les commentaires ainsi que quelques informations globales.

1. Informations Générales Le but de mon mémoire est de mesurer si la traduction automatique d’un sarcasme a une incidence sur la compréhension et la réception de celui-ci par un locuteur de la langue cible. Pour cela, j’ai utilisé un corpus créé par Elena Filatova pour sa recherche Irony and Sarcasm : Corpus Generation and Analysis using Crowdsourcing27. Ce corpus, disponible en ligne, est constitué de commentaires Amazon. Une partie d’entre eux est sarcastique, l’autre est standard. J’ai ensuite sélectionné 100 commentaires de ce corpus. Ceux-ci ont tous été traduits par l’un des systèmes de traduction automatique suivant : Google Traduction, DeepL ou Bing. Afin de mesurer s’il y a une différence entre la réception de ces commentaires en langue originale et en langue cible (le français), je vous demanderai donc d’annoter ces différents commentaires.

2. Marche à suivre Dans l’autre document (GroupeXSA _FR_TAB) vous trouverez donc 100 commentaires traduits automatiquement. Parmi ces commentaires, 50 sont sarcastiques (ou ont au moins une phrase sarcastique) et les 50 restants sont des commentaires normaux. Tous ces commentaires ont été mélangés aléatoirement (il n’y a pas de distribution constante).

L’annotation fonctionne de la façon suivante. Il vous faudra d’abord lire le commentaire puis lui attribuer une note selon votre ressenti. Les notes vont de 1 à 5 (1 étant très négatif, 5 étant très positif). Il faudra entrer ce chiffre à l’endroit où le texte est en vert dans le modèle ci-dessous.

Le système de commentaires sur Amazon permet également aux critiques de mettre des étoiles afin d’expliciter leur sentiment (l’on peut mettre de une à cinq étoiles). J’aimerais également que vous donniez un pronostic sur le nombre d’étoiles que le commentateur a donné au produit (en rouge dans le tableau ci-dessous).

Modèle des tableaux d’annotation (vide) :

[IMAGE DU PRODUIT] [NOM DU PRODUIT] [CATÉGORIE DU PRODUIT] [COMMENTAIRE TRADUIT NOTE 1-5 AUTOMATIQUEMENT] [NOMBRE DU COMMENTAIRE] ⭐NOMBRE D’ÉTOILE 1-5

Échelle : 1 = Commentaire très négatif, 2 = Commentaire négatif, 3 = Commentaire neutre, 4 = Commentaire positif, 5 = Commentaire très positif.

Ces notes me permettront de voir s’il existe une différence significative entre les notes attribuées par les anglophones aux commentaires originaux et les notes attribuées aux traductions par des francophones.

27 http://www.lrec-conf.org/proceedings/lrec2012/pdf/661_Paper.pdf

110 Exemple de tableau d’annotation complété :

The Black Key’s Brothers [Album CD] J'espère que les véritables Black Keys ont déposé 1 une ordonnance de cessation et d'abstention contre les imposteurs qui ont créé cette satire cruelle qui sonne pire que tout ce que j'ai entendu dans un ascenseur. J'ai acheté puis écouté une partie de ces idées en pensant que c'était de la vraie musique Black Keys, puis j'avais l'impression d'entrer dans un univers bizarro. Mérite en réalité moins d'une étoile. 1. ⭐1

Je vous remercie encore une fois d’avoir accepté de m’aider ! Je suis à votre disposition pour toute question ou complément d’information. Marie-Zoé

111 Annexe 4 : Exemples de commentaires à annoter par les annotateurs chargés de la polarité

LCD HDTV Samsung LN32C350 32 pouces 720p 60 Hz (Noir) [Télévision] J'ai mis à niveau ma télévision de la chambre à ce téléviseur haute définition Samsung. L'image et la qualité d'un téléviseur HD Samsung sont exceptionnelles. J'avais d'abord une autre marque de TVHD, mais avec le nouveau récepteur HD que j'ai acheté, je ne pouvais pas obtenir d'image. Je l'ai déplacé dans une autre pièce et avec le Samsung, je n'ai eu aucun problème. J'ai maintenant trois téléviseurs ACL HD Samsung dans ma maison, un salon 52 ", une chambre 32" et un vestiaire de 23 ". Je n'aurais pas pu être plus heureux avec mes achats de téléviseurs HDTV Samsung.

Plusieurs personnes m'ont dit qu'elles n'avaient jamais vu une meilleure image sur un téléviseur HD que celles que j'ai. 69. ⭐

Stylo à bille Bic Cristal, pointe moyenne, noir [Stylo] J'ai commandé 300 de ces emballages-cadeaux emballés individuellement pour le mariage d'un client et j'ai été horrifié d'apprendre 14 minutes avant la réception que ce n'est pas du vrai cristal !!! À bout de et après 3 stoli martinis, cela pourrait facilement passer pour le meilleur plomb d'Irlande ou même un quartz clair provenant des mines de Malay, mais il suffit de regarder sous le verre du bijoutier et il est immédiatement apparu que Bic utilisait du plastique de qualité inférieure. Je donnerai à leurs artisans le mérite de leur maîtrise évidente des meules de rectification et de polissage, car j’ai rarement rencontré une telle précision dans une pièce «coupe de cigarette». Mais du cristal? Grognement! JE CROIS QUE NON! 73. ⭐

112 Annexe 5 : Résultats du score BLEU (Extraits)

N°Comm. GOOGLE DEEPL BING 1 20,66 27,12 21,12 2 19,68 36,24 16,02 Comm.Standard 3 21,15 24,79 18,77 Comm. Ironique 4 27,99 29,83 29,78 5 22,8 26,14 23,34 6 28,72 27,21 29,45 7 21,77 23,25 23,22 8 23,6 23,93 17,34 9 19,09 19,51 14,24 10 19,34 25,96 19,67 11 17,82 15,37 16,21 12 17,38 27,47 20,96 13 29,88 31,51 29,72 14 38,31 36,12 32,68 15 36,02 39,55 39,39 16 27,37 25,26 11,73 17 28,1 34,76 29,27 18 14,92 9,49 15,81 19 44,86 44,95 39,23 20 26,78 27,35 35,73 21 42,72 47,29 40,84 22 22,54 19,97 22,81 23 31,03 32,33 28,59 24 29,51 35,23 22,29 25 38,6 40,05 20,99 26 14,58 24,34 17,79 27 39,85 30,16 32,73 28 36,94 35,27 28,07 29 20,77 24,05 15,73 30 26,75 31,8 26,12 31 9,61 10,31 9,21 32 28,16 30,6 28,41 33 25,37 27,81 21,16 34 27,21 28,67 22,55 35 33,14 38,21 29,92 36 32,8 38,73 27,59 37 32,49 27,46 22,75 38 29,22 51,16 44,95 39 26,55 17,98 26,67 40 44,11 44,98 43,15 41 3,41 9,17 10,2

113 42 25,49 23,76 17,02 43 16,92 19,75 14,78 44 12,72 14,75 14,75 45 23,19 29,19 19,27 46 22,7 31,73 23,47 47 30,32 34,99 33,63 48 21,25 25,48 20,08 49 45,66 29,01 26,02 50 17,33 13,04 12,06

114 Annexe 6 : commentaires problématiques vis-à-vis de la polarité (extrait)

Commentaire 1

Hey kids! If you're looking for music that's as satisfying and refreshing as a frozen sugar cube, deeper than a pool that's a foot deep and more exciting than watching paint dry, look no further than Rihanna's album, A Girl Like Me! Listen to her wonderful studio-altered, digitally processed voice! Gasp at the thought-provoking lyrics about needing to be rescued, falling in love and wanting to make love all night long! Marvel at the synths, bleeps and squiggly sound effects that represent real reggae! Forget no-good corporate hacks like Bob Marley, Peter Tosh, Dennis Brown, Damian Marley, I Wayne and Sizzla, because Rihanna is the real deal and she wants you, boys! What an astounding, brilliant, masterfully crafted work of perfection! I like music, and I like Rihanna! She's just as brilliant as amazing artists like Britney Spears, Good Charlotte and Simple Plan! They should all tour together, how great would that be? ...... Alright, enough already. I can't keep this facade up any longer. That was just me channeling one of those incredibly enthusiastic, overzealous Rihanna marks that think she's the greatest thing since sliced bread. I wholeheartedly beg to differ. While her work ethic is to be commended somewhat (second album in 8 or 9 months, but all she contributes is her weak vocals), A Girl Like Me is just another example of what's gone so horrible wrong with the music industry - the fact that labels still insist on pushing shallow disposable rubbish on everyone. Essentially what is wrong with this album is presented in the first paragraph as backhanded compliments. On of this, the fact that Rihanna is just another Beyonce wannabe (who herself is a Diana Ross wannabe) just makes matters worse - the overuse of melismas on this album is enough to drive any sane person mad. But what makes this album a special type of awful is the fact that it is being marketed as reggae. Now, there's some people that feel that modern reggae artists (such as Elephant Man, Sean Paul, even Matisyahu) don't hold a candle to the originators (like Marley and Tosh), but I have grown to enjoy it and recognize it as the evolution of the genre. However, Rihanna is as close to reggae as a band like Fall Out Boy is to punk - in other words, the term reggae must be used VERY loosely. An occasional Caribbean drum flourish and use of the dialect does not a reggae song make. This is much closer to a hybrid of Beyonce and Britney Spears, right down to keeping the barely legal Rihanna's wardrobe budget low by having her prance around in only the skimpiest of outfits. I can just imagine these comments from the director at one of her video shoots: "Hey, Rihanna, what are you doing out here in your underwear? Didn't that outfit that we ordered arrive yet? What's that? The record label wouldn't front the money to cover the cost of the wardrobe? Oh well, I guess we'll shoot anyway. One thing is certain: The teenage boys will love this video.". In summary: A Girl Like Me is only worth checking out if you can't get enough of banal, vacuous pop garbage. This is not reggae, ska, soca, etc. It's bubblegum pop, and it's a style that has run its course and is becoming very irritating. It's easy to market, and that's why MTV is playing the video every 10 minutes. Speaking of the single, it's really just juvenile lyrics buttressed by the melody of Soft Cell's version of "Tainted Love" - nothing special at all. The rest of the album is equally shallow pop with only a slight Caribbean influence, bookended by remixes of songs from Rihanna's last album. I urge you to look past MTV and "hit music" stations to find better music, reggae or otherwise.

115 Commentaire 2

I bought this album for my Fiancee's 25th birthday and I know she was greatly looking forward to it. However, a few days later, she suffered a brain hemmorage and was rushed to hospital. For many days she lay in a coma and I feared the worst. And then, late one night, I began playing this album to her and the moment she heard Katie Price's amazing voice her eyes began to flutter. By the end of track 3 she was sitting upright in bed, tossing her hair - and by track 5 we were making love like wild stallions. Needless to say, for both of us, this timeless and extraordinary album is little short of a miracle

PS: Since writing this review, I have learned that my fiancee DID listen to the album many weeks before and this may, in fact, have caused her brain to nearly explode. However, this has done nothing to reduce my admiration for Ms Price and I look forward to her next album - 'Songs for Cross Dressing Cage Fighters' - with great relish!

Commentaire 3

Think you are smarter than everyone else? Understand the plight of African-Americans more than anyone, because you are open-mined, unlike the conformist masses? Then this book is perfect for you! Now, am I racist? Of course not. Is it that I have a problem with offensive or “provocative” material...no, I love Amistead. Unfortunately, with a touchy subject such as race issues in America, it's hard to actually critique a book for its content, instead of its message. But if you want to see a real piece of art dealing with slavery, Amistead...much better.

Commentaire 4

I ordered this as I work in a rough neighborhood. My boss was stabbed recently outside the office; and another colleague was shot last year. As I have to walk a bit from the bus; I needed some added protection. I purchases this item; and it looks fantastic. I get some odd stares on the bus- but it is pretty intimidating. The other day; I was mugged and feeling brash in my armor, I told the guy off. Well- needless to say he went after me. The knife didn't get through the armor at all. The blade broke- and rather than being stabbed-- I was pushed over and kicked several times before the mugger ran off.

The only downside is that it is heavy; and it took me about 5 minutes of rolling around on the ground before I could stand up.

116 Annexe 7 : Commentaires problématiques pour l’estimation des étoiles (extrait)

Commentaire 1

If you're sick of fake metal with no talent (Megadeth, 80s Metallica, Opeth, Dream Theater, Iron Maiden, Borknagar, Queensryche, etc - basically any of the crap that only posers praise) then you need to get this. They show so-called "metal" bands how to play REAL metal, and also that solos suck. This is MUCH better than anything those losers in the 80s could do. Once again unknown posers with guitars such as Malmsteen, Satriani, McLaughlin, Michael Romeo and Allan Holdsworth are shown how to actually play. This band is like sooooooo deep. Like Chester Bennington, I am a tortured artist; one too complex and intelligent to be understood by people who don't watch MTV or TRL. That's why I like MTV, because it caters to head-strong anti-mainstream rebels such as myself. So, if you are sick of fake "metal" from posers with long hair who don't know how to hold their instruments, then get this. If you want something just as deep that still rocks then get Good Charlotte.

Helpfulness : 25%

Commentaire 2

Paris Hilton again amazes the audience with a truly masterful performance. she shows us why she has the determination and the talent to become one of Hollywood's finest actresses.

next, i'd like to congratulate tom Putnam for showing us that he has the leadership and skill to rise among the ranks of George Lucas and Steven Spielberg.

i can't remember the last time i laughed throughout the entirety of a film. this movie gets two big thumbs up for originality, and the best acting in 2008 so far. move aside Indiana Jones, make way for one of the all time greats in the movie industry. cheers Paris

Helpfulness : 40%

117 Commentaire 3

While from a purely academic standpoint this book is informative, interesting, and overall excellently written, it has a far greater purpose than simply to satisfy idle curiosity. Monkeys and apes exist as one of the greatest threats to mankind. I submit as evidence the multiple cases of chimps just flipping out and going bananas on their owners, often biting off noses, fingers, and testes, or even killing their comparatively helpless victims. A 90 pound chimp is more than a match for most fully grown men. Capuchins, while seemingly innocuous due to their diminutive stature and "cute" appearance, are possibly the worst of the bunch. Disturbingly self-aware, capuchins (as described in this book) are probably the most intelligent of the new world monkeys, possessing exceptionally large brains for their body size (second only to humans). In addition, Michelle Press does an excellent job of describing some of the more frightening actions of these simian killing machines, including forming totem poles of up to four monkeys piled on top of each other as they converge on their doomed prey. I encourage anyone at all concerned about the growing threat of capuchin dominance to read this book in order to stem the tide of the marmoset menace. The next person they go ape on could be you.

Helpfulness : 0%

118 Commentaire 4

While I understand the excitement over the Three Wolf Moon T-Shirt, Available in Various Sizes , I must politely disagree with the furor over that particular garment. At first I agreed with the hundreds of reviews of that other shirt. It arrived in the mail, I tried it on, and my cat fought me to the death, small woodland animals prostrated themselves at my feet and offered themselves as sacrifices, and human women ovulated at the sight of me. I was an instant fan, and I knew I would never need another wolf shirt made by The Mountain company.

Then I decided I wanted a t-shirt celebrating the life and times of the musician Howlin' Wolf. My dial-up internet connection was taking too long to load the pictures for this shirt so I ordered it based on the name alone. When it arrived I was at first furious. How dare The Mountain manufacture a shirt with a title that so closely resembles the name of such a legendary bluesman? Their sheer audacity had me pondering a very sternly-worded letter to their Wolf Shirt Department, let me tell you. But after I broke down and tried on this Howling Wolf T-shirt, all thoughts of letter-writing left me, and I never again wore the Three Wolf Moon T-shirt. It now lies at the bottom of a mountain of detritus in my closet, never to see the light of day (or moonlight of night) again.

The Howling Wolf T-shirt by The Mountain (100% Cotton Short Sleeve, fits Kids, Teens & Adults) is by far the superior t-shirt. It is, however, not for the weak or for the superficial fan of The Mountain's wolf t-shirt line. While the Three Wolf Moon shirt gives the viewer and wearer a sense of community, Howling Wolf T-shirt is for the true loner. It's for the outcasts in our society, it's for every man or woman who ever looked into that vast night sky and realized nobody else was by their side to howl along with them. The moment I donned this shirt, an overwhelming sense of angst gripped me like an existential vise. I tore the sleeves off my jean without thinking and I found myself outside the house wearing a red bandana. My wife and children were nowhere to be found, as each time I wear this t-shirt I am transported to a world where I have no one to rely on but myself.

I drove around for hours listening to the Smiths and the Cure, sobbing uncontrollably, but each tear drop was instantly absorbed by the shirt surrounding my torso and they seemed to make the image shine that much brighter. I found myself in mountainous terrain with a few trees, very much like the biome depicted on the shirt itself. Was it alpine? Taiga? I will never know for sure, but once I pulled over and stepped out of the car all thoughts of terrain descriptors vanished and I was drawn to a steep cliff overlooking a valley. The moon shone high above, full and round, and I was suddenly aware that a change had taken me over. I was faster, stronger, and my senses were more acute. Don't believe the hype surrounding the Three Wolf Moon T-shirt when people claim it transformed them into wolves themselves. I wore it and that never happened. The Howling Wolf T-shirt, on the other hand, transmogrified me into canis lupus and I could no more stop myself from howling at that moon than I could grip a pencil (as a wolf I no longer had opposable thumbs).

Alone, I thought vaguely. I am alone. This world holds nothing and no one for me. I shall forevermore walk the night on my own, killing to live. Then, as if in answer, the moon vanished behind a cloud. A soft voice spoke behind me. "You shall never walk alone." It all seems a bit like a Green Day lyric when I describe it here, but it was profound beyond mere words. Standing before me was a woman cloaked in translucent white garments that revealed the feminine curves of her ample-bosomed frame. She looked at me with benevolence and love, and suddenly I was aware that my moroseness and ennui had left me at last. My soul flew free into the night above that valley. We came together in an embrace for the ages, as the stars made cascading patterns, singing sweetly in voices no man will ever hear unless he wears this particular shirt, and even then perhaps only in size L. Finally, in a moment of cosmic kismet, the moon goddess Luna whispered in my ear a lyric from Howlin' Wolf himself: "You know I called you darling to come back to the Wolf / But I'll be around, yes I'll be around / To see what you're puttin' down".

With that, the light from both moon and stars winked out, and I slipped from consciousness. I found myself lying on that rocky outcropping the next morning. The Howling Wolf T-shirt was lying next

119 to me along with the rest of my clothes. Carefully avoiding any skin-to-skin contact with the garment, I carried it to the car and put it in the back seat. Later, back at my house, I placed it safely in a Rubbermaid container (also available here on Amazon) and admired my taut frame in the mirror. Gone were the sagging lines of middle age, the liver spots, and the fat deposits from years of abuse by eating Fudgicles and raw cookie dough when the wife was visiting her aunt in Philly. Now I was muscular and lean, not unlike Iggy Pop if he were younger and had never ridden the white horse. From that day on I became a better lover to my wife and a better father to my children. I ran for City Selectman and won in a landslide despite that old conviction in the 1970s for public urination on an officer of the law. I carry within me the spirit of the Lone Wolf, who understands that he does not need two other wolves at his side howling to the moon, but merely CHOOSES to be around others. Anytime I need reminding of this inner strength, I don the Howling Wolf T-shirt by The Mountain and I am once again swept away on a river of sobbing, howling, the song "Alone Again (Naturally)" by Gilbert O'Sullivan, and finally...redemption. The Three Wolf Moon shirt may appeal to the baser instincts of a boy's character, but once you're ready to become a Man, it's time to step up and try the Howling Wolf T-shirt 100% Cotton Short Sleeve. Also, every time I wear it I find money on the ground.

Helpfulness : 96%

Commentaire 5

Wow what a way to start off your career with one of the best debut albums ever! This album is non- stop rock. And I don't mean fake rock such as The Who or Led Zeppelin; I mean stuff that actually takes TALENT to creat (those guys were just hippies on acid trips who have no ability to create good music). Ashlee can play instuments for the record, I've even seen a picture of her with a guitar which proves it. She composed this music ON HER OWN and didn't just touch up her voice in the studio like these posers will tell you. Also you bitch about her lip synching. Well LOL everybody does it LOL. You should get this, but ignore talentless poser "singers" such as Luciano Pavarotti and Placido Domingo.

Helpfulness : 50%

120