A Study on Automatic Machine Translation Tools: a Comparative Error Analysis Between Deepl and Yandex for Russian-Italian Medical Translation
Total Page:16
File Type:pdf, Size:1020Kb
Università degli Studi di Padova Dipartimento di Studi Linguistici e Letterari Corso di Laurea Magistrale in Lingue Moderne per la Comunicazione e la Cooperazione Internazionale Classe LM-38 Tesi di Laurea A Study on Automatic Machine Translation Tools: A Comparative Error Analysis Between DeepL and Yandex for Russian-Italian Medical Translation Relatore Laureanda Prof. Giorgio Maria Di Nunzio Giulia Cambedda Correlatrice n° matr.1205696 / LMLCC Prof.ssa Viviana Nosilia Anno Accademico 2020 / 2021 TABLE OF CONTENTS Introduction ............................................................................................................................ 1 1. THE EVOLUTION OF MACHINE TRANSLATION: FROM THE ORIGINS TO NEURAL MACHINE TRANSLATION ................................................................................ 3 1.1. The pioneers of Machine Translation ..................................................................... 3 1.2. A focus on Natural Language Processing ............................................................... 7 1.3. The ALPAC report ................................................................................................ 10 1.4. Rule-Based Machine Translation .......................................................................... 12 1.5. Example-Based Machine Translation ................................................................... 14 1.6. Statistical Machine Translation ............................................................................ 16 1.7. Neural Machine Translation ................................................................................. 17 2. A COMPARISON BETWEEN DEEPL AND YANDEX: PURPOSES AND SCOPE OF THE RESEARCH........................................................................................................... 21 2.1. Translating the Russian language of medicine ..................................................... 21 2.2. Machine Translation Evaluation: an open question ............................................. 26 2.3. Performing a comparative error analysis ............................................................. 37 2.4. An overview of DeepL Translate ........................................................................... 39 2.5. An overview of Yandex Translate ......................................................................... 41 3. A COMPARATIVE ERROR ANALYSYS BETWEEN DEEPL AND YANDEX ...... 44 3.1. The biological therapy in the COVID-19 era ........................................................ 44 3.2. Clinical management of children with a disease caused by the new coronavirus infection (SARS-CoV-2) .................................................................................................... 54 3.3. Coronavirus SARS-Cov 2: complexities of the pathogenesis, search for the vaccines, and future pandemics ........................................................................................ 68 3.4. Coronavirus was imported into Russian at least 67 times .................................... 89 3.5. Unknown lethality - Why we do not know the real extent of COVID-19 ........... 103 3.6. COVID-19 mortality rate - A demographer's perspective on the statistics of causes of death in Russia and worldwide ....................................................................... 116 4. QUANTITATIVE ANALYSIS OF THE RESULTS.................................................. 132 4.1. DeepL’s translation performance ....................................................................... 133 4.2. Yandex’s translation performance ...................................................................... 140 4.3. A comparison between DeepL’s and Yandex’s translation performances ......... 150 4.4. BLEU metric’s evaluation ................................................................................... 153 Conclusion ........................................................................................................................... 157 Резюме ................................................................................................................................ 160 REFERENCES ................................................................................................................... 176 Abstract L’obbiettivo della tesi qui proposta è quello di condurre un’analisi delle attuali capacità traduttive di due sistemi di traduzione automatica neurale al centro del panorama traduttivo degli ultimi anni, DeepL e Yandex, per quanto riguarda la traduzione medica dal russo all’italiano. Ai fini della nostra ricerca, sono stati selezionati tre articoli medici specialistici e tre articoli medici di carattere divulgativo in lingua russa sul tema della pandemia da coronavirus. La scelta di tale tema è stata orientata dalla volontà non solo di prendere in considerazione articoli recentemente pubblicati, ma anche di analizzare il comportamento dei due sistemi di traduzione automatica di fronte al fenomeno linguistico causato dalla pandemia da coronavirus, che ha comportato l’introduzione, tanto nella terminologia medica, quanto nel linguaggio quotidiano, di una grande quantità di termini precedentemente inesistenti o il cui utilizzo era limitato alla comunicazione scientifica professionale. Il primo capitolo è dedicato ad una breve panoramica sullo sviluppo storico della traduzione automatica, a partire dalle sue origini, fino al recente sviluppo della traduzione automatica neurale. Particolare attenzione viene rivola alla descrizione dei diversi approcci alla traduzione automatica proposti nel corso degli anni, al fine di delineare le principali caratteristiche e funzionalità dei due sistemi di traduzione automatica analizzati. Nel corso del secondo capitolo vengono poste le basi teoriche della nostra ricerca. Inizialmente, viene fornita una descrizione dei principali aspetti del linguaggio medico russo e delle sue correlazioni storiche con il mondo della traduzione. Successivamente, vengono illustrati i principali metodi di valutazione dei sistemi di traduzione automatica, sottolineando la distinzione, non sempre ben definita, tra metodi di valutazioni automatici e non automatici. Particolare attenzione viene dedicata alla descrizione dell’analisi comparativa degli errori, il metodo di valutazione utilizzato ai fini della nostra ricerca. Ne vengono quindi stabilite la procedura e le specifiche categorie di errori, scelte sulla base delle caratteristiche linguistiche dei testi di partenza. Infine, le principali caratteristiche e funzionalità di DeepL e Yandex vengono descritte. Nel terzo capitolo, l’analisi comparativa degli errori viene condotta nella seguente modalità: i titoli e gli abstract dei testi specialistici, così come i titoli e i primi paragrafi dei testi divulgativi, vengono divisi in frammenti di uguale lunghezza, e successivamente tradotti utilizzando DeepL e Yandex. Le traduzioni ottenute vengono inserite in una tabella, insieme al corrispondente frammento del testo originale. Gli errori contenuti in ogni frammento di traduzione vengono quindi individuati, brevemente discussi, e associati ad una o più delle categorie traduttive precedentemente selezionate. Nel quarto capitolo, i frammenti contenenti gli errori individuati durante l’analisi comparativa vengono mostrati all’interno di una tabella, nella quale vengono presentati accanto al corrispondente frammento originale e a quello proveniente da una traduzione umana appositamente realizzata e utilizzata come traduzione di riferimento. Successivamente, al fine di garantire una chiara e immediata interpretazione dei dati, i risultati ottenuti a seguito dell’analisi comparativa degli errori vengono mostrati attraverso una serie di grafici. I grafici mostrano una valutazione delle capacità traduttive di DeepL e Yandex, in relazione alle due differenti tipologie testuali analizzate. I dati ottenuti mostrano che entrambi i sistemi di traduzione automatica commettono una quantità significativa di errori nella resa della struttura sintattica e del lessico dei testi di partenza, così come nell’uso degli articoli. Tuttavia, DeepL risulta ottenere risultati migliori rispetto a Yandex, sia nella traduzione dei testi specialistici sia in quella dei testi divulgativi. Infine, le traduzioni realizzate dai due sistemi di traduzione automatica vengono valutate utilizzando il sistema di valutazione automatica BLEU (Bilingual Evaluation Understudy), che calcola la percentuale di somiglianza testuale tra le traduzioni realizzate da DeepL e Yandex e le traduzioni umane di riferimento. La comparazione dei risultati ottenuti dall’analisi comparativa degli errori e dal sistema di valutazione BLEU rivela una generale corrispondenza tra i due differenti sistemi di valutazione, con alcune eccezioni. Inoltre, fornendo una valutazione specifica di ogni articolo, il sistema BLEU ci permette di analizzare le capacità traduttive dei due sistemi di traduzione automatica in relazione ad ognuno dei testi analizzati. La ricerca condotta ci ha permesso di confermare il significativo sviluppo, in termini di qualità e efficienza, che ha caratterizzato i sistemi di traduzione automatica neurale negli ultimi anni. Sono stati tuttavia rilevati una serie di punti deboli nelle capacità traduttive di entrambi i sistemi di traduzione automatica qui analizzati. Costante ricerca si rende infatti necessaria al fine di raggiungere standard traduttivi che possano avvicinare la traduzione automatica a quella umana. Una possibile ricerca futura può essere orientata, partendo dai risultati qui ottenuti, ad un’analisi