Then Shall I Know Fully Relative Frequencies of Part-Of-Speech N- Grams in Native and Translated Finnish Literary Prose
Total Page:16
File Type:pdf, Size:1020Kb
UNIVERSITY OF HELSINKI Then shall I know fully Relative frequencies of part-of-speech n- grams in native and translated Finnish literary prose Matias Tamminen Pro gradu thesis Master’s Programme in Translation and Interpreting Faculty of Arts University of Helsinki May 2018 i Tiedekunta/Osasto – Fakultet/Sektion – Faculty Laitos – Institution – Department Humanistinen tiedekunta Kielten osasto Tekijä – Författare – Author Matias Tamminen Työn nimi – Arbetets titel – Title Then shall I know fully: Relative frequencies of part-of-speech n-grams in native and translated Finnish literary prose Oppiaine – Läroämne – Subject Käännös- ja tulkkausviestintä, englanti Työn laji – Arbetets art – Level Aika – Datum – Month and year Sivumäärä – Sidoantal – Number of pages Pro gradu -tutkielma toukokuu 2018 58 s. + suomenkielinen lyhennelmä 12 s. Tiivistelmä – Referat – Abstract Tutkin pro gradu -tutkielmassani käännetyn ja supisuomalaisen kaunokirjallisen proosan sanaluokka-n- grammien eli n sanaa pitkien sanaluokkaketjujen suhteellisten frekvenssien eroja. Tarkoituksenani on etsiä käännetylle suomelle tyypillisiä syntaktisia piirteitä ja katsoa, voiko löydösten perusteella sanoa jotakin aiemmin esitettyjen käännösuniversaalihypoteesien paikkansapitävyydestä. Metodini on jatkokehitetty Borinin ja Prützin (2001) artikkelissaan käyttämästä metodista. Aineistonani on kaksi korpusta, Käännössuomen korpus ja Englantilaisen ja amerikkalaisen kirjallisuuden klassikoita Kersti Juvan suomentamina, englanti–suomi-rinnakkaiskorpus, joista ensin mainittu sisältää supisuomalaista kaunokirjallista proosaa ja useista eri lähtökielistä suomennettua kaunokirjallista proosaa ja jälkimmäinen Kersti Juvan suomentamia romaaneja ja niiden lähtötekstit. Tulosten perusteella voidaan sanoa, että tilanteissa, joissa lähtösysteemissä on vain yksi tapa ilmaista jokin tietty asia mutta kohdesysteemissä lähtösysteemin tavan lisäksi muita tapoja, lähtösysteemin tapa yliedustuu ja muut tavat aliedustuvat käännöksissä. Tämä on sekä interferenssiä eli lähtösysteemin vaikutusta kohdetekstiin että kohdekielen uniikkiainesten aliedustumista (Tirkkonen-Condit 2004). Näiden universaalien lisäksi myös konventionaalisuus-käännösuniversaalihypoteesi saa aineistosta tukea. Konventionaalisuus näkyy niin interjektioiden frekvensseissä kuin mahdollisesti sanajärjestyksessäkin. Tulevaisuudessa metodia voitaisiin kehittää käyttämällä sanaluokkakategorioiden sijasta dependenssisuhdekategorioita n-grammien tarkasteltavana ominaisuutena. Tutkimuksessa havaittujen ilmiöiden tunnistamisella voisi olla sovelluksia niin automaattisessa käännösevaluoinnissa, konekääntämisessä kuin kääntäjänkoulutuksessakin. Avainsanat – Nyckelord – Keywords deskriptiivinen käännöstiede, korpuspohjainen käännöstiede, käännösuniversaalit, käännöskieli Säilytyspaikka – Förvaringställe – Where deposited Helsingin yliopiston kirjasto – Helda/ E-thesis (opinnäytteet), ethesis.helsinki.fi Muita tietoja – Övriga uppgifter – Additional information Suomenkielisen lyhennelmän otsikko: Kerran tietoni on täydellistä: sanaluokka-n-grammien suhteelliset frekvenssit käännetyssä ja supisuomalaisessa kaunokirjallisessa proosassa ii Table of Contents 1 Introduction ......................................................................................... 1 2 Previous research ................................................................................. 2 2.1 Lexis of translated Finnish......................................................................... 2 2.2 Syntax of translated Finnish ...................................................................... 3 2.3 Part-of-speech distribution......................................................................... 4 3 Theoretical background ....................................................................... 4 3.1 From source and prescription to target and description .............................. 4 3.2 Translation Universals ............................................................................... 6 3.3 Corpora as tools of descriptive translation studies ...................................... 8 4 Material and method ............................................................................ 8 4.1 Part-of-speech n-grams as a proxy for syntactical structures ...................... 9 4.2 Managing digital corpus workflows with Mylly....................................... 10 4.3 The corpora ............................................................................................. 12 4.3.1 Classics of English and American Literature .................................... 12 4.3.2 Corpus of Translated Finnish ........................................................... 12 4.3.3 Summary of the sub-divisions of the corpora ................................... 13 4.3.4 Preparing the corpora ....................................................................... 14 4.4 Finding meaningful differences ............................................................... 18 4.4.1 Rank number difference ................................................................... 18 4.4.2 Calculating logarithms of ratios ....................................................... 19 4.5 Bringing in the control corpus ................................................................. 19 5 Results ............................................................................................... 21 5.1 Unigrams................................................................................................. 21 5.2 Bigrams ................................................................................................... 27 5.3 Trigrams .................................................................................................. 35 5.4 3+1-grams ............................................................................................... 42 iii 5.5 Conclusions about the method ................................................................. 49 5.6 Syntactical n-grams and other future possibilities .................................... 49 5.7 Possible sources of errors ........................................................................ 51 6 Conclusions ....................................................................................... 52 References ................................................................................................ 55 Primary sources ........................................................................................ 55 Secondary sources .................................................................................... 55 iv List of Tables Table 1: An example sentence on the concept of n-grams ................................ 9 Table 2: Summary of the corpora used ........................................................... 14 Table 3: Unigrams sorted by interest .............................................................. 22 Table 4: The 20 most interesting bigrams....................................................... 27 Table 5: The 20 most interesting trigrams ...................................................... 36 Table 6: The 20 most interesting 3+1-grams .................................................. 43 Table 7: Sample test about marked verb-final word order .............................. 50 List of Figures Figure 1: Dependency relations and part-of-speech tags ................................... 9 Figure 2: The process of calculating relative frequencies of n-grams .............. 11 Figure 3: Workflow of corpus preparation for Finnish corpora ....................... 15 Figure 4: The process of controlling with KKAmulti ..................................... 20 Figure 5: A mathematical expression for comparing differences .................... 20 1 1 Introduction Digital comparable corpora became available for translation research around the turn of the millennium (Laviosa-Braithwaite 1996: 37–40, 53–113). One of the foremost research questions was the hypothesis of translation universals. By translation universals, we understand systematic and language independent tendencies of translated language as compared to either the source texts or comparable texts native to the target system. (Baker 1993: 242–245.) The early studies were mainly lexical, in the absence of automatic annotation tools for higher levels of grammar. Borin and Prütz (2001) proposed using part-of-speech tagging to gain evidence of syntactic phenomena, such as word order. The paper remained inconclusive, and the theme was not pursued further. Recently, in the wake of advances in computational linguistics, the quality of automatic grammar annotation is surging up. More sophisticated digital corpus work platforms are accessible to translation researchers. This motivates another look at the questions left open by the pioneers. In this thesis, I shall study the differences in relative frequencies of part-of-speech n- grams (i.e. strings of part-of-speech tagged words that are n words long, such as the trigram NOUN VERB SCONJ) between corpus material of native Finnish literary prose and translated Finnish literary prose. By doing this, I try to reach syntactical (i.e. sentence structural) features of translated Finnish. I want to see whether the possible differences are predictable in the light of various proposed translation universals (see Chapter 3.2). This research is motivated by the possible applications of the knowledge extracted by the means of the method I shall use. If structural manifestations of, e.g., source language interference on the target text can be identified,