White Paper Series Valge raamatu sari THE ESTONIAN EESTI LANGUAGE IN KEEL THE DIGITAL DIGIAJASTUL AGE

Krista Liin Kadri Muischnek Kaili Müürisep Kadri Vider

White Paper Series Valge raamatu sari THE ESTONIAN EESTI LANGUAGE IN KEEL THE DIGITAL DIGIAJASTUL AGE

Krista Liin Tartu Ülikool Kadri Muischnek Tartu Ülikool Kaili Müürisep Tartu Ülikool Kadri Vider Tartu Ülikool

Georg Rehm, Hans Uszkoreit (toimetajad, editors) EESSÕNA PREFACE

Eesti keele raport kuulub META-NETi väljaannete is white paper is part of a series that promotes sarja, mille eesmärgiks on tutvustada keeletehnoloogia- knowledge about language technology and its poten- alaseid teadmisi ja selle ala potentsiaali. Väljaande siht- tial. It addresses journalists, politicians, language com- grupiks on õpetajad, ajakirjanikud, poliitikud, kogu munities, educators and others. e availability and keelekogukond ja teised teemast huvitatud. use of language technology in Europe varies between Keeletehnoloogia kättesaadavus ja kasutamine on Eu- languages. Consequently, the actions that are required roopa keeliti väga erinev. Nii on ka meetmed, mida on to further support research and development of lan- vaja rakendada keeletehnoloogia arendamise ja uuri- guage technologies also differ. e required actions mise edasiseks toetamiseks, erinevatele keeltele väga depend on many factors, such as the complexity of a erinevad, sõltudes näiteks keele keerukusest ja selle kõ- given language and the size of its community. nelejate arvust. META-NET, a Network of Excellence funded by the Euroopa Komisjoni rahastatud tippteadmiste võrgus- European Commission, has conducted an analysis of tik META-NET viis läbi keeleressursside ja -tehno- current language resources and technologies in this loogiate alase uurimuse, mis keskendus 23 ametlikule white paper series (p. 75). e analysis focused on the Euroopa keelele ja ka teistele olulistele regionaalsetele 23 official European languages as well as other impor- keeltele Euroopas (vt lk 75). Analüüsi tulemus näitas, tant national and regional languages in Europe. e re- et kõigi keelte tehnoloogiates leidub märkimisväärseid sults of this analysis suggest that there are tremendous puudujääke. Täpne ekspertanalüüs ja olukorra hinda- deficits in technology support and significant research mine aitavad panustada edasise uurimistöö mõju suu- gaps for each language. e given detailed expert anal- rendamisse ja vähendada riske. ysis and assessment of the current situation will help META-NET koosneb 33 riigi 54 uurimiskeskusest (vt maximise the impact of additional research. lk 71), mis teevad koostööd tööstuse, valitsusasutuste, As of January 2012, META-NET consists of 54 re- ülikoolide ja uurimisasutuste esindajatega. Koostöö search centres from 33 European countries (p. 71). tulemusena valmib ühine tehnoloogiline visioon, mis META-NET is working with stakeholders from econ- osana strateegilisest uurimiskavast näitab, kuidas kee- omy (soware companies, technology providers, users), letehnoloogilised rakendused saavad katta praegused government agencies, research organisations, non- uurimistöö puudujäägid aastaks 2020. governmental organisations, language communities and European universities. Together with these com- munities, META-NET is creating a common technol- ogy vision and strategic research agenda for multilin- gual Europe 2020.

III META-NET – offi[email protected] – http://www.meta-net.eu

Selle dokumendi autorid tänavad saksa keele valge raamatu au- e authors of this document are grateful to the authors of toreid loa eest kasutada nende väljaandes sisaldunud keelest the White Paper on German for permission to re-use selected sõltumatuid materjale [1]. language-independent materials from their document [1].

Selle keeleraporti koostamist rahastas 7. raamprogramm e development of this White Paper has been funded by the ja Euroopa Komisjoni IKT poliitika toetusprogramm le- Seventh Framework Programme and the ICT Policy Support pingute T4ME (toetusleping 249 119), CESAR (toetusle- Programme of the European Commission under the contracts ping 271 022), METANET4U (toetusleping 270 893) ja T4ME (Grant Agreement 249 119), CESAR (Grant Agree- META-NORD (toetusleping 270 899) kaudu. ment 271 022), METANET4U (Grant Agreement 270 893) and META-NORD (Grant Agreement 270 899).

IV SISUKORD CONTENTS

EESTI KEEL DIGIAJASTUL

1 Kokkuvõte 1

2 Oht meie keeltele ja väljakutse keeletehnoloogiale 4 2.1 Keelepiirid tõkestavad Euroopa infoühiskonda ...... 5 2.2 Meie keeled on ohus ...... 5 2.3 Keeletehnoloogia on võtmetehnoloogia ...... 5 2.4 Keeletehnoloogia võimalused ...... 6 2.5 Keeletehnoloogia väljakutsed ...... 7 2.6 Kuidas inimesed ja masinad keelt omandavad ...... 7

3 Eesti keel Euroopa infoühiskonnas 9 3.1 Üldinfo ...... 9 3.2 Eesti keele eripärad ...... 9 3.3 Viimase aja arengud ...... 10 3.4 Keelehoole Eestis ...... 11 3.5 Keel ja haridus ...... 12 3.6 Rahvusvahelised aspektid ...... 12 3.7 Eesti keel internetis ...... 12

4 Eesti keele keeletehnoloogiline tugi 14 4.1 Rakenduste arhitektuur ...... 14 4.2 Kesksed rakendused ...... 15 4.3 Muud rakendusalad ...... 22 4.4 Haridusprogrammid ...... 24 4.5 Riiklikud programmid ja algatused ...... 24 4.6 Vahendite ja ressursside kättesaadavus ...... 25 4.7 Keeltevaheline võrdlus ...... 26 4.8 Järeldused ...... 28

5 META-NETist 31 THE ESTONIAN LANGUAGE IN THE DIGITAL AGE

1 Executive Summary 33

2 Languages at Risk: a Challenge for Language Technology 36 2.1 Language Borders Hold back the European Information Society ...... 37 2.2 Our Languages at Risk ...... 37 2.3 Language Technology is a Key Enabling Technology ...... 38 2.4 Opportunities for Language Technology ...... 38 2.5 Challenges Facing Language Technology ...... 39 2.6 Language Acquisition in Humans and Machines ...... 39

3 The Estonian Language in the European Information Society 41 3.1 General Facts ...... 41 3.2 Particularities of the Estonian Language ...... 41 3.3 Recent Developments ...... 43 3.4 Language Cultivation in ...... 43 3.5 Language in Education ...... 44 3.6 International Aspects ...... 45 3.7 Estonian on the Internet ...... 45

4 Language Technology Support for Estonian 47 4.1 Application Architectures ...... 47 4.2 Core Application Areas ...... 48 4.3 Other Application Areas ...... 56 4.4 Educational Programmes ...... 57 4.5 National Programmes and Initiatives ...... 58 4.6 Availability of Tools and Resources ...... 59 4.7 Cross-language comparison ...... 60 4.8 Conclusions ...... 61

5 About META-NET 65

A Kirjandus --- References 67

B META-NETi liikmed -- META-NET Members 71

C META-NETi Valge raamatu sari -- The META-NET White Paper Series 75 1

KOKKUVÕTE

Viimase 60 aasta jooksul on Euroopas välja kujunenud kus ja poliitilises diskussioonis osalemist, sõltumata see- küll ühtne poliitiline ja majanduslik struktuur, kuid kul- juures kasutaja võimalikust keelebarjäärist ja arvutikasu- tuuri ja keelte osas on mitmekesisus säilinud. Keeleli- tamise oskuse tasemest. Sageli on keeletehnoloogia juba sed takistused pärsivad nii Euroopa kodanike omavahe- keerulistesse süsteemidesse lõimitud. Tulevikus võiks list kui ka äri- ja poliitikaringkondade suhtlust erine- keeletehnoloogilistest lahendustest moodustuda ainu- vates keeltes - portugali keelest poola keeleni ja kreeka laadne Euroopa keelte vaheline sild. keelest keldi keeleni. Euroopa Liidu asutused kuluta- Eesmärgi saavutamiseks ja samas Euroopa kultuurilise ja vad aastas miljoneid eurosid mitmekeelsuspoliitika ta- keelelise mitmekesisuse säilitamiseks tuleb esmalt süste- gamiseks, s.t tõlgitakse tekste ja suulisi vestlusi. Aga kas maatiliselt analüüsida iga Euroopa keele lingvistilist eri- meil oleks võimalik neid kulutusi vältida? Tänapäeva pära ja seda toetava keeletehnoloogia hetkeseisu. keeletehnoloogia ja keeleteadus annavad suure panuse Eesti keelt kõneleb emakeelena umbes miljon inimest ja keelebarjääri lõhkumiseks. Tulevikus aitab keeletehno- see on Eesti Vabariigi ainuke ametlik keel. Eesti keele loogia koos nutikate seadmete ja programmidega eu- igapäevast kasutust reguleerib keeleseadus. Samas on rooplastel üksteisega suhelda ja äri ajada isegi siis, kui Eesti tuntud e-valitsuse ja e-riigi poliitika poolest. Eesti nad ei räägi sama keelt. keel teaduse ja kõrghariduse keelena tugineb pikaajali- sele eestikeelse kõrghariduse ja teadustöö traditsioonile. Erinevalt enamusest Euroopa keeltest ei kuulu eesti keel Keeletehnoloogia ehitab sillad Euroopa tulevikku. indoeuroopa keelkonda. Eesti keele eripäradeks võib lu- geda täishäälikute rohkust, täis- ja kaashäälikute kolme Üks võimalus (kuid seejuures mõeldamatu võimalus) pikkust, artiklite ja grammatilise soo puudumist. Samuti Euroopa mitmekeelsuse probleemi lahendamiseks oleks on eesti keelele iseloomulik rikkalik muutemorfoloogia. kasutusele võtta üks domineeriv keel ja sellega teised Eesti keele liitsõnamoodustus on vaba ja produktiivne. keeled asendada. Sõnajärg lauses on küllaltki vaba. Klassikaline moodus keelebarjääri ületamiseks on võõr- keelte õppimine. Ent tehnilise toeta on majanduse, po- liitväitluste ja teadusarenduse tarbeks kõigi Euroopa Keeletehnoloogia kui võti tulevikku. Liidu 23 ametliku liikmesriigi keele ja 60 muu Euroopa keele omandamine kodanikele ületamatu takistus. Praegu turul kättesaadavad automaattõlke- ja kõne- Lahenduseks on võtmetehnoloogiate välja arendamine. töötlusvahendid selle eesmärgini veel ei küündi. Põhi- Digitaalne keeletehnoloogia hõlmab kõiki kirjaliku ja lised turul tegutsejad on kasumi saamisele suunatud suulise keele suhtluse vorme. Seega soodustab ta koos- Põhja-Ameerika eraettevõtted. 1970ndatel hakati Eu- tööd, äritegevust, teadmiste jagamist ning ühiskondli- roopa Liidus tähtsustama keeletehnoloogiat kui Eu-

1 roopat ühendavat jõudu ja samal ajal alustati ka riik- nistele tähelepanekutele, näib, et tänapäeva “hübriidne” like projektidega, mis andsid küll väärtuslikke tulemusi, keeletehnoloogia, mis ühendab keele süvatöötluse sta- kuid ei aidanud kaasa Euroopa ühistegevusele. Tänu tistiliste meetoditega, suudab ületada kõigi Euroopa ja mitmete varasemate ja jätkuvate teadus- ja arendustöö muudegi keelte vahelise lõhe. programmide toetusele on keeletehnoloogiline uurimis- Keeletehnoloogia valdkonnas on Euroopa teadustöö ol- maastik Eestis olemas. nud edukas. Näiteks kasutatakse Euroopa Liidu tõlke- Inimkeele keerukus raskendab loomuliku keele model- teenustes avatud lähtekoodiga masintõlke tarkvara Mo- leerimist tarkvaras ning rakenduse tegelikus elukesk- ses, mida arendati peamiselt Euroopa teadusprojektide konnas testimine on pikk ja kulukas protsess. Kahjuks raames. Eesti keele masintõlge on tõsine väljakutse. Sõ- ei ole näiteks inglise keelele arendatud keelemudelid nastikupõhise analüüsi muudab keeruliseks vaba liitsõ- eesti keelele ülekantavad, sest eesti keelel on vabam sõ- namoodustus, uusi sõnu saab liitmise teel alati juurde najärg, peaaegu piiranguteta liitsõnade moodustamine tekitada. Analüüsiprobleeme põhjustavad ka vaba sõna- ning suurem käände- ja pöördelõppude hulk. Ometi on järg ja mitmeosalised tegusõnad (ühend- ning väljend- aastatepikkuse töö tulemusena loodud töökindel eesti verbid). Lisaks kõigele muule on piiratud ka paralleel- keele õigekirjakontroll (speller), mis on lõimitud ka le- sete tekstide hulk. Vaatamata sellele kuulub Eesti keel vinumatesse kontoritarkvara pakettidesse. nende ligi 50 maailma keele hulka, mida saab arvuti abil tõlkida. Eestikeelne infootsing Google otsimootoriga on veebi- kasutajate seas niivõrd levinud, et 2009. aastast alates on Tulevikus on oodata märkimisväärseid muutusi kõ- sõna guugeldama lisatud ka Eesti Õigekeelsussõnaraa- netehnoloogia arengus. Juba praegu pakutakse Eestis matusse. Keelest sõltumatud otsinguvahendid suudavad nutitelefonide kasutajatele tsentraliseeritud teenustena leida ainult sõnavorme, millel on päringusõnaga täpselt kõne dikteerimist. Sarnased TTÜ Küberneetika Ins- sama kuju või mis sisaldavad päringusõna alamsõnena. tituudis välja töötatud eestikeelsed kõnetuvastusraken- Kuid kuna eesti keele morfoloogia on rikas ja lisaks lõpp- dused nutitelefonidele võitsid 2011. aasta parima keele- udele võib ka sõna tüvi muutuda, siis on edukaks ot- teo auhinna. singuks ja indekseerimiseks vaja keelespetsiifilisi vahen- Käesolev keeleraportite sari näitab, et Euroopa Liidu deid. Keelespetsiifilised indekseerijad leiavad enne sõ- liikmesriikides on keeletehnoloogilised lahendused ja nade indeksisse lisamist nende algvormid ehk lemmati- teadustöö erineval tasemel. Tõeliselt efektiivsete tehno- seerivad otsisõnad. Eesti Infosüsteemide Amet on avali- loogiliste lahendusteni jõudmiseks vajavad põhjaliku- kult soovitanud kasutada Eesti avaliku sektori infosüs- mat uurimistööd veel isegi Euroopa suurimad keeled, teemide infootsingul ja indekseerimisel lemmatiseeri- rääkimata eesti keele keeletehnoloogia arendamisest. mismoodulit [2]. Eesti keele keeletehnoloogilise olukorra hinnang an- Kaks peamist keeletehnoloogiasüsteemides kasutatavat nab põhjust ettevaatlikuks optimismiks. Eesti keele meetodit “omandavad” keelelised oskused inimestega jaoks on olemas nii kõnetuvastuse kui ka -sünteesi va- sarnasel viisil. Statistilised ehk andmejuhitud meetodid hendid. Nende edasine arendustöö on hetkel aktiiv- omandavad keelelise teadmuse suurtest näidistekstide selt käimas. Vaatamata eesti keele keerulisele morfoloo- kogudest. Teine meetod on reeglipõhiste süsteemide giale, on eesti keele morfoloogiaanalüsaatori efektiivsus loomine, mille suureks eeliseks on asjaolu, et eksperti- võrreldav teiste Euroopa keelte vastavate vahenditega, del on keele töötluse üle täpsem kontroll. Toetudes se- kuid süntaksianalüsaatoritel on veel palju arenguruumi.

2 Keele genereerimise vahenditest on olemas ainult mor- Mis puutub keerukamatesse valdkondadesse nagu teks- foloogilise sünteesi programmid. Laiem üldsus kasu- tisemantika, keele genereerimine ja märgendatud multi- tab masintõlkeks Google’i tõlketeenust, Tartu Ülikoolis modaalsed ressursid, siis eesti keele jaoks põhivahendid on arendamisel ka eesti-inglise masintõlkesüsteem. Ilm- ja -ressursid puuduvad. Eesti keele keeletehnoloogilist selt oleks suur nõudlus ka eesti-vene-eesti masintõlkele. uurimistööd ja arendustegevust on toetanud mitmed Enamik neist vahenditest on loodud uurimisasutustes riiklikud keeletehnoloogia-alased uurimisprogrammid, ja neid võib pidada pigem prototüüpideks, mitte val- seetõttu on nii loodud ressursid kui vahendid vabaks ka- mis toodeteks. Kahjuks esindavad Eesti keeletehnoloo- sutamiseks. giatööstust ainult mõned üksikud väikeettevõtted nagu Käesolev keeleraportite sari täiendab teisi META-NETi Filoso. Viimastel kümnenditel on loodud märkimis- strateegilisi tegevusi (ülevaade on saadaval raporti li- väärne hulk Eesti keele ressursse (korpused, leksikonid, sas). META-NETi kodulehelt http://www.meta-net.eu WordNet), seega olukord keelelise andmestiku osas on leiab uuemat informatsiooni, näiteks META-NETi vi- küllaltki hea. siooni [3] või strateegilise uurimiskava (SRA) uusima versiooni. META-NETi pika-ajalisem eesmärk on või- maldada kõigile keeltele kõrgekvaliteedilist keeletehno- Keeletehnoloogia aitab Euroopat ühendada. loogiat ja kultuurilise mitmekesisuse kaudu saavutada poliitiline ja majanduslik ühtsus.

3 2

OHT MEIE KEELTELE JA VÄLJAKUTSE KEELETEHNOLOOGIALE

Oleme tunnistajateks digirevolutsioonile, mis avaldab Viimase kahekümne aasta jooksul on infotehnoloogia tohutut mõju meie suhtlusele ja ühiskonnale. Viimast aidanud kaasa mitme protsessi automatiseerimisele ja arengut digitaalses info- ja kommunikatsioonitehno- lihtsustamisele, nt: loogias võrreldakse Gutenbergi trükipressi leiutamise mõjuga. Mida ütleb see analoogia meile Euroopa in- ‚ kirjastustarkvara on asendanud masinakirja ja trüki- foühiskonna, täpsemalt meie keelte tuleviku kohta? ladumise;

Me oleme tunnistajaks digitaalsele ‚ Microso PowerPoint on asendanud lüümikud ja revolutsioonile, mis on võrreldav Gutenbergi grafoprojektorid; trükipressi leiutamisega. ‚ meilidega saadetakse ja saadakse dokumente kiire- Pärast Gutenbergi leiutist toimus tõeline läbimurre mini kui faksi teel; kommunikatsioonis ja teadmiste jagamises, näiteks tõl- ‚ Skype annab võimaluse odavateks internetikõne- kis Luther Piibli rahvakeelde. Sellele järgnenud sajandi- deks ja virtuaalsete koosolekute pidamiseks; tel on arendatud kultuuritehnoloogiaid keeletöötluse ja teadmistevahetuse edendamiseks: ‚ audio- ja videokodeeringud lihtsustavad multimee- dia jagamist; ‚ suuremate keelte õigekirja ja grammatika standardi- seerimine tegi võimalikuks teaduse ja ideede kiire le- ‚ otsingumootorid lubavad veebilehtedeni jõuda viku; märksõnade kaudu; ‚ ametlike keelte areng võimaldas kodanikel teatud ‚ veebiteenused, nagu näiteks Google Translate, anna- (sageli poliitiliste) piiride raames suhelda; vad kiireid ligikaudseid tõlkeid; ‚ keelte õpetamine ja tõlkimine tegi võimalikuks keel- ‚ sotsiaalmeedia platvormid, näiteks Facebook, Twit- teülese suhtluse; ter ja Google+, lihtsustavad suhtlust, koostööd ja in- ‚ kirjutiste toimetamise ja bibliograafiaalaste juhtnöö- fovahetust. ride loomine kindlustas trükimaterjalide kvaliteedi ja kättesaadavuse; ‚ uut liiki meedia – ajalehtede, raadio, televisiooni, Kuigi neist tööriistadest ja rakendustest on abi, ei suuda raamatute ja muude formaatide – teke rahuldas eri- need veel toetada jätkusuutlikku mitmekeelset Euroopa nevaid kommunikatsioonivajadusi; ühiskonda, kus info ja kaup liiguksid vabalt.

4 2.1 KEELEPIIRID TÕKESTAVAD 2.2 MEIE KEELED ON OHUS EUROOPA INFOÜHISKONDA Kuigi trükipress aitas kaasa Euroopasisese infovahetuse Me ei oska täpselt ennustada, milline näeb välja tu- kiirenemisele, viis see ka paljud Euroopa keeled välja- leviku infoühiskond. Kuid on väga tõenäoline, et suremiseni. Piirkondlikke ja vähemuskeeli trükiti harva, kommunikatsioonitehnoloogia revolutsioon ühendab nii säilisid näiteks korni ja dalmaatsia keel vaid suuli- uuel moel eri keeli kõnelevaid inimesi. See paneb ini- sel kujul, see omakorda piiras oluliselt nende kasutus- mesed uusi keeli õppima ja arendajad looma uusi raken- valdkonda. Kas interneti mõju meie keeltele on samasu- dusi, mis aitaksid kaasa üksteisemõistmisele ja võimal- gune? daksid juurdepääsu jagatud teadmisele. Uued meedia- Euroopa ligi 80 keelt on üks tema väärtuslikumaid ja liigid seovad üha rohkem keeli, kõnelejaid ja teavet, mis tähtsamaid kultuuriväärtusi ning eluline osa tema ainu- liigub ülemaailmses majandus- ja infosfääris. Sotsiaal- laadsest ühiskonnamudelist [5]. Samal ajal kui inglise meedia (, Facebook, Twitter, YouTube, vii- või hispaania keelel pole tõenäoliselt probleeme tekkival masel ajal ka Google+) praegune populaarsus on vaid digitaalsel turul ellujäämisega, võivad mitmed Euroopa jäämäe tipp. keeled võrguühiskonnas vähetähtsaks jääda. See oma- Tänapäeval saame saata gigabaitides teksti ümber maa- korda aga nõrgestaks kogu Euroopa positsiooni maa- ilma kõigest paari sekundiga, enne kui taipame, et see ilmas ja oleks vastuolus meie strateegilise eesmärgiga oli kirjutatud keeles, mida me ei mõista. Euroopa Ko- kindlustada võrdsed võimalused kõigile Euroopa koda- misjoni hiljutise uuringu kohaselt ostab 57% interneti- nikele, olenemata nende emakeelest. kasutajatest Euroopas tooteid ja teenuseid keeltes, mis ei ole nende emakeel. Kõige levinum võõrkeel on inglise Euroopa keeleline mitmekesisus on meie üks keel, sellele järgnevad prantsuse, saksa ja hispaania keel. rikkamaid ja olulisimaid kultuurivarasid. 55% kasutajatest loeb võõrkeelseid materjale, samas kui vaid 35% kasutab teist keelt ise meilide kirjutamisel või UNESCO mitmekeelsuse raporti järgi on keeled häda- veebikommentaaride postitamisel [4]. Mõned aastad ta- vajalik vahend oma põhiõiguste, näiteks poliitilise väl- gasi oli inglise keel interneti lingua anca – valdav ena- jendusvabaduse, hariduse ja ühiskonnas osalemise taga- mus veebist oli inglisekeelne – ent praeguseks on olu- miseks [6]. kord drastiliselt muutunud. Teistes Euroopa keeltes (aga ka Aasia ja Lähis-Ida keeltes) oleva materjali maht on in- ternetis plahvatuslikult kasvanud. 2.3 KEELETEHNOLOOGIA ON Üllataval kombel pole see keelepiiridest tulenev üldlevi- nud digitaalne lõhe pälvinud kuigi suurt avalikkuse tä- VÕTMETEHNOLOOGIA helepanu. Samas tõstatab see pakilise küsimuse: milli- Varem tähendas keele säilitamine keeleõppele ja tõl- seid Euroopa keeli saadab võrgupõhises info- ja tead- kele keskendumist. Arvatakse, et 2008. aastal oli tõlki- musühiskonnas edu ja millised on määratud kaduma? mise, tarkvara lokaliseerimise ja veebilehtede globalisee- rimise turuosa Euroopas 8,4 miljardit eurot, ning en- nustatakse, et see kasvab 10% aastas [7]. Samas katab Maailmamajandus ja inforuum seavad meid vastamisi erinevate keelte, kõnelejate ja sisuga. see summa vaid väikese osa praegusest ja tulevasest keel- tevahelisest kommunikatsioonivajadusest. Ahvatlev la-

5 hendus tagamaks tuleviku Euroopas keelekasutuse laia 2.4 KEELETEHNOLOOGIA katvust ja head kvaliteeti oleks keeletehnoloogia kasu- VÕIMALUSED tamine, samamoodi nagu me kasutame tehnoloogiat transpordi- ja energiavajaduste rahuldamiseks. Trükitehnika läbimurdeks oli võimalus teksti (lehe- Digitaalne keeletehnoloogia hõlmab kõiki kirjaliku ja külge) trükipressi abil kiiresti kopeerida. Teadmiste ot- suulise keele suhtluse vorme. Seega soodustab ta koos- simise, lugemise, tõlkimise ja kokkuvõtmise raske töö tööd, äritegevust, teadmiste jagamist ning ühiskondli- jäi inimestele. Kõne salvestamiseks tuli oodata Edisoni kus ja poliitilises diskussioonis osalemist, sõltumata see- – ja ka tema tehnoloogia suutis luua kõigest analoog- juures kasutaja võimalikust keelebarjäärist ja arvutikasu- koopiaid. Kaasaegne keeletehnoloogia võimaldab auto- tamise oskuse tasemest. Sageli on keeletehnoloogia juba matiseerida kõigis Euroopa keeltes tõlkimise, sisutoot- keerulistesse süsteemidesse lõimitud ja see aitab meil: mise ja teadmushalduse. Tänu sellele on võimalik luua koduelektroonikale, masinatele, sõidukitele, arvutitele ‚ otsimootori abil veebist informatsiooni leida; ja robotitele intuitiivseid keelel ja kõnel põhinevaid ka- sutajaliideseid. Reaalselt kasutatavad äri- ja tööstusra- ‚ tekstiredaktoriga õigekirja ja grammatikat kontrol- kendused on praegu alles arendamise algusjärgus. Kuid lida; saavutused teadusvallas on tekitanud rakenduste loo- ‚ veebipoes tootesoovitusi näha; miseks uusi võimalusi. Nii näiteks töötab masintõlge ‚ auto navisüsteemi hääljuhiseid kuulda; kindla valdkonna raames juba mõistliku täpsusega ning on olemas eksperimentaalseid rakendusi, mis pakuvad ‚ internetiteenuste abil veebilehti tõlkida. mitmekeelset infot, teadmushaldust ning sisutootmist paljudes Euroopa keeltes. Keeletehnoloogia koosneb mitmetest kesksetest raken- Nagu teistegi tehnoloogiatega, loodi ka esimesed kee- dustest, mis suuremas rakenduste raamistikus on vaja- letehnoloogia rakendused (kõnepõhised kasutajaliide- likud teiste programmide tööks. META-NETi keele- sed ja dialoogisüsteemid) kindlatele valdkondadele raportite eesmärgiks välja selgitada iga Euroopa keele ning seetõttu oli nende efektiivsus sageli piiratud. tuumikrakenduste tase. Tohutu turupotentsiaaliga on haridus- ja meelelahu- tustööstus. Keeletehnoloogiat lõimitakse mängudesse, harivasse meelelahutusse, raamatukogudesse, simulat- Euroopa vajab veakindlat ja kättesaadavat keeletehnoloogiat kõigi Euroopa keelte jaoks. sioonidesse ja treeningprogrammidesse. Keeletehno- loogia mängib olulist rolli mobiilsetes infoteenus- tes, arvutipõhises keeleõppetarkvaras, e-õppe keskkon- Jätkuvalt ülemaailmselt innovatiivseks eeskujuks ole- nas, enesehindamisprogrammides, plagiaatide tuvasta- miseks vajab Euroopa kõigile oma keeltele kohanda- mise tarkvaras ning paljudes teistes rakendusvaldkon- tud keeletehnoloogiat, mis oleks nii robustne (vea- dades. Twitteri- ja Facebookilaadsete sotsiaalmeedia- kindel) kui taskukohane ja samas olulisematesse IT- rakenduste populaarsusega kaasneb suurenenud vaja- süsteemidesse tihedalt lõimitud. Lähitulevikus ei jõuta dus keeletehnoloogia järele, mis peaks jälgima posti- ilma keeletehnoloogiata mitmekeelse ning tõeliselt tusi, võtma kokku arutelusid, hindama arvamustrende, efektiivse ja interaktiivse multimeediapõhise kasutaja- leidma emotsionaalseid vastuseid, tuvastama ja jälitama kogemuseni. autoriõiguse rikkumisi ja väärkasutust.

6 Keeletehnoloogia loob Euroopa Liidule tohutuid või- Veebipõhised masintõlketeenused on küll kasulikud do- malusi. See aitab lahendada keerulisi mitmekeelsuse kumendi sisust kiire ülevaate saamiseks, ent nad jäävad probleeme, mis tekivad Euroopa ettevõtetes, asutustes hätta täpse ja täieliku tõlkega. Inimkeele keerukus ras- ja koolides erinevate keelte koos kasutamise tõttu. Kee- kendab loomuliku keele modelleerimist tarkvaras ning letehnoloogia võimaldab kodanike suhtlust Euroopa rakenduse tegelikus elukeskkonnas testimine on pikk ühisturul, kõrvaldades takistavad keelebarjäärid, ent sa- ja kulukas protsess, mis vajab järjepidevat rahalist toe- mas toetades üksikute keelte vaba kasutust. tust. Selleks, et Euroopa oleks endiselt mitmekeelse ko- gukonna tehnoloogia teerajaja rollis, tuleb leiutada uusi meetodeid arengu kiirendamiseks. Need hõlmavad nii Keeletehnoloogia aitab saada üle keelelise mitmekesisuse “puudest”. tarkvaralisi uuendusi kui crowdsourcingu stiilis tehni- kaid.

Tulevikus on Euroopa innovaatiline mitmekeelne kee- letehnoloogia eeskujuks meie ülemaailmsetele partneri- 2.6 KUIDAS INIMESED JA tele, kui nad alustavad oma mitmekeelsete kogukondade toetamisega. Keeletehnoloogiat võib pidada tugitehno- MASINAD KEELT OMANDAVAD loogiaks, mis aitab jagu saada keelelise mitmekesisuse Et näitlikustada, kuidas arvutid keelt käsitlevad ja miks “puudest” ja muudab keelekogukonnad üksteisele liht- on nii raske arvuteid loomuliku keele kasutamiseks samini ligipääsetavateks. programmeerida, anname lühikese ülevaate sellest, kui- Lõpuks veel ühest aktuaalsest uurimisvaldkonnast – das inimesed keelt omandavad ning kuidas keeletehno- keeletehnoloogia kasutamisest katastroofipiirkondade loogiasüsteemid töötavad. päästeoperatsioonidel. Kriisiolukorras tegutsemine võib olla elu ja surma küsimus, seega keelest sõltuma- tute oskustega intelligentsed robotid suudaksid päästa Inimesed omandavad keeleoskuse elusid. kahel viisil: õppides näidetest ja õppides keelereegleid. 2.5 KEELETEHNOLOOGIA Inimesed omandavad keeli kahel erineval viisil. Väike- VÄLJAKUTSED lapsed omandavad emakeele vanemate, õdede-vendade Kuigi viimastel aastatel on keeletehnoloogia märkimis- ja teiste pereliikmete vahelist suhtlust kuulates. Umbes väärselt arenenud, on praegune tehnoloogiline edasimi- teisel eluaastal lausuvad lapsed oma esimesi sõnu ja lühi- nek ja tooteinnovatsioon siiski liiga aeglased. Laialdaselt kesi fraase. Keeleõpe on võimalik tänu inimeste geneeti- kasutatavad tehnoloogiad, nagu tekstiredaktorite spel- lisele soodumusele kuuldut imiteerida ja mõtestada. lerid ja grammatikakorrektorid, on tüüpiliselt ükskeel- Vanemas eas nõuab teise keele omandamine suuremat sed ja saadaval vaid loetud keeltele. pingutust, peamiselt seetõttu, et õppija ei kuulu emakee- lena kõnelejate kogukonda. Koolis õpitakse võõrkeele- tundides tavaliselt selgeks keele grammatiline struktuur, Praegune tehnoloogilise arengu tempo on liiga aeglane. sõnavara ja õigekiri. Õppimiseks kasutatakse harjutusi, mis kirjeldavad keelelist teadmust abstraktsete reeglite,

7 tabelite ja näidete abil. Vanemaks saades muutub võõr- del on keele töötluse üle täpsem kontroll. See teeb või- keele omandamine raskemaks. malikuks tarkvaras leiduvate vigade süstemaatilise pa- Kaks peamist keeletehnoloogiasüsteemides kasutatavat randamise ja kasutajale täpsema tagasiside andmise, seda meetodit “omandavad” keelelised oskused sarnasel viisil. eriti siis, kui reeglipõhised süsteemid on kasutuses keele- Statistilised ehk andmejuhitud meetodid omandavad õppe abina. Kõrge kulu tõttu on seni reeglipõhiseid süs- keelelise teadmuse suurtest näidistekstide kogudest. Kui teeme arendatud üksnes suuremate keelte jaoks. näiteks spelleri treenimiseks piisab ükskeelsetest teks- tidest, siis masintõlkesüsteemi treenimiseks läheb vaja paralleeltekste kahes või enamas keeles. Treeningteksti- Keeletehnoloogiasüsteemide kaks peamist tüüpi omandavad keelt samal viisil. dest “õpib” masintõlkealgoritm sõnade, fraaside ja lau- sete tõlkimiseks mustreid. Selline statistiline lähenemine vajab toimimiseks mil- Kuna statistiliste ja reeglipõhiste süsteemide plussid ja joneid lauseid. Mida rohkem näitetekste analüüsitakse, miinused kalduvad teineteist täiendama, siis uuemad seda parem tõlketulemus saadakse. Tekstiredaktorites uurimused keskenduvad neid lähenemisi kombineeriva- olev speller ning näiteks Google’i otsingumootor ja tele hübriidsüsteemidele. Kahjuks pole need süsteemid tõlge kasutavad statistilist lähenemist. Andmejuhitud seni tööstusrakendustes sama edukad olnud kui teadus- meetodi eeliseks on see, et masin õpib järjestikustes laborites. treeningtsüklites kiiresti, kuigi tulemuse kvaliteet võib Käesolevast peatükist selgus, et paljud tänapäeva in- oluliselt varieeruda. foühiskonnas laialt levinud rakendused on tihedalt seo- Teine meetod, mida keeletehnoloogias ja kitsamalt ka tud keeletehnoloogiaga. Võttes arvesse meie mitmekeel- masintõlkes kasutatakse, on reeglipõhiste süsteemide set kogukonda, kehtib see väide iseäranis selgelt Eu- loomine. Keeleteaduse, arvutuslingvistika ja arvutitea- roopa majandus- ja infosfääri puhul. Kuigi keeletehno- duse valdkonna eksperdid kodeerivad esmalt gramma- loogia on viimastel aastatel märkimisväärselt arenenud, tilised analüüsid (tõlkereeglid) ja koostavad sõnade ni- on veel kõvasti arenguruumi süsteemide kvaliteedi pa- mestikud (leksikonid). See on vägagi aeganõudev ja töö- randamise osas. mahukas tegevus. Mõnda juhtivat tõlkesüsteemi on pi- Järgnevalt toome välja eesti keele rolli Euroopa infoühis- devalt arendatud juba üle kahekümne aasta. Reeglipõ- konnas ja hindame eesti keele keeletehnoloogilise toe histe süsteemide suureks eeliseks on asjaolu, et eksperti- praegust seisu.

8 3

EESTI KEEL EUROOPA INFOÜHISKONNAS

3.1 ÜLDINFO välja Põhja-Eesti murrete põhjal, toetudes osaliselt ka Lõuna-Eesti murrakutele [10]. Eesti keelt kõneleb emakeelena umbes miljon inimest. Tänapäeval kõneldakse murdekeelt peamiselt Lõuna- Peamiselt räägitakse seda Eestis (922 000 kõnelejat), aga Eestis ja läänepoolsetel saartel. Võru ja setu murded ligi 160 000 eesti keele kõnelejat kasutab seda ka Vene- väärivad eraldi mainimist kui standardsest kirjakeelest maal, Ameerika Ühendriikides, Rootsis, Kanadas, Soo- kõige erinevamad. Riik toetab eesti keele piirkondlike mes ja mitmetes teistes maades [8]. 2000. aasta rahva- variantide kasutamist ja nende säilitamist kultuuriväär- loenduse andmetel on Eestis 1 370 052 elanikku, kellest tusena, kirjakeele allikana ning kohalike eestlaste iden- 167 804 kõnelevad eesti keelt võõrkeelena [9]. Eesti keel titeedi kandjatena. Paljudes koolides Võru- ja Viljandi- on Eesti Vabariigi ainuke ametlik keel. maal õpetatakse kohalikke keeli (vastavalt võru, setu ja mulgi keelt) valikainena. Väliseesti keel on eesti keele variant, õigemini küll va- Eesti keelt kõneleb emakeelena umbes miljon inimest. riandid, mida räägivad püsivalt väljaspool Eestit elavad keelekõnelejad esimese või teise keelena. Mõnel juhul on Eestist väljarännanute emakeel säilinud ja iseseisvalt Eesti keele variantide hulka kuuluvad eesti keele piir- arenenud rohkem kui sajandi vältel. Loomulikult mõ- kondlikud variandid (murded ja nende kirjakeeled, eri- jutavad neid variante tugevalt asukohamaal kõneldavad nevates välisriikides kõneldavad keelevariandid), erine- keeled. Ligi 2000 Eestis elava kurdi emakeeleks või pea- vate ühiskonnagruppide keelevariandid - sotsiolektid miseks suhtlusvahendiks on eesti viipekeel (õigemini ning keelealaste erivajadustega inimeste keelevariandid eesti viipekeel ja viibeldud eesti keel), mida kasutavad ka (sh. viipekeel). kuulmispuudega eestlased ning kurtide ja kuulmispuu- Eesti keele piirkondlike variantide alla kuuluvad eesti dega inimeste hooldajad [11]. murded ja nende kirjakeeled. Kõige suuremad erinevu- sed on Põhja-Eesti ja Lõuna-Eesti murrete vahel. Need keeleerinevused on pärit juba meie ajaarvamise eelsest 3.2 EESTI KEELE ERIPÄRAD ajast, mil Uurali keelte läänemeresoome harust hakka- Eesti keel kuulub Uurali keelkonna läänemeresoome ha- sid eristuma iseseisvad keeled. Asjaolu, et siinsed elani- russe koos soome, karjala ja muude lähisugulaskeeltega. kud elasid kuni 19. sajandi lõpuni väga paikset elu, ai- Eesti keel on kaugemalt sugulane ka ungari keelega. Olu- tas kaasa piirkondlike murrete tekkele; eristatakse kuni line aspekt on see, et erinevalt enamusest Euroopa keel- sadat kohalikku murrakut. Tänapäeva eesti keel arenes test ei kuulu Uurali keeled indoeuroopa keelkonda.

9 Tüpoloogiliselt esindab eesti keel üleminekuvormi aglu- Ta jooksvat kiiresti. tineerivalt keelelt fusiivsele keelele. Läbi ajaloo on talle Kuigi eesti keelt on kategoriseeritud SVO keeleks, on avaldanud suurt mõju saksa keel, seda nii sõnavara kui sõnajärg küllaltki vaba, kusjuures tüüpiliselt asub verb süntaksi osas. lauses teisel kohal. Sõnajärge mõjutab lause infostruk- Eesti keele eripäradeks võib lugeda rõhu esinemist esi- tuur – tuntud ja uue informatsiooni eristamine. mesel silbil, täishäälikute rohkust, kolme eristatavat pik- kust täis- ja kaashäälikutel (välted), artiklite ja gram- ‚ Ta jooksis kiiresti koju. matilise soo puudumist (ka asesõnades) ning indoeu- ‚ Kiiresti jooksis ta koju. roopa keeltest erinevat baassõnavara. Samuti on eesti ‚ Koju jooksis ta kiiresti. keelele iseloomulik rikkalik muutemorfoloogia: käänd- ‚ Jooksis ta kiiresti koju? sõnad muutuvad 14 käändes ja kahes arvus, pöördsõnad ‚ Kui ta kiiresti koju jooksis, siis … ajas, isikus, kõneviisis, tegumoes ja kõneliigis. Kuigi eesti keeles on 14 käänet, ei kuulu sinna hulka Kuigi eesti keel on lähedane soome keelele, on pikaaja- akusatiivi – sihitis võib kontekstist olenevalt esineda nii line saksa keele mõju seda oluliselt muutnud ja lähen- osastavas, omastavas kui nimetavas käändes. Eesti keele danud nn keskmisele Euroopa keelele (Standard Ave- liitsõnamoodustus on vaba ja produktiivne, nn juhuliit- rage European, SAE) [12]. Soome keelest erinevate sõnu moodustatakse vastavalt vajadusele ja järelikult ei SAE-päraste joontena võiks nimetada sõnajärge tea- ole kõiki tekstides esinevaid liitsõnu võimalik sõnaraa- tud kõrvallausetüüpides või ühendverbide rohket kasu- matus üles lugeda. Teine produktiivne sõnamoodustus- tust üldse ja eriti aspekti (tegevuse lõpetatuse) väljenda- viis on tuletamine. miseks, vrd eesti Ta tegi selle ära ja soome Hän teki sen. Samuti on eesti keeles tunduvalt rohkem võõrsõnu ja hi- liseid laensõnu kui soome keeles. Erinevalt enamusest Euroopa keeltest ei kuulu eesti keel indoeuroopa keelkonda. Eesti keele ortograafia aluseks on foneetiline ehk hääl- dusläheduse põhimõte, mille järgi taotletakse õigekirja võimalikult head vastavust hääldusele. Eesti keele kir- Eesti keeles ei ole grammatilist aega tuleviku jaoks ja tu- japanekuks kasutatakse ladina tähestikku, mille baasva- levikus toimuvat väljendatakse sageli tegusõnaga olevi- riandile on lisatud tähed õ, ä, ö ja ü, võõrsõnades kasu- kus, tegevuse toimumisaeg selgub kontekstist. takse ka tähti š ja ž. Ta saabub homme. Eestikeelne lugeja leiab ülevaate eesti keele struktuu- rist ning õigekeelsusnormidest Mati Erelti, Tiiu Erelti ja Euroopa keeltega võrreldes on küllaltki erilised ka eesti Kristiina Rossi “Eesti keele käsiraamatust” [13]. Inglis- keele tingiv ja kaudne kõneviis. Tingiva kõneviisi tun- keelsele lugejale võiks soovitada Mati Erelti toimetatud nuseks on liide -ks(i)-, sellega väljendatakse hüpoteeti- teost “Estonian Language” [14]. list olukorda või ebamäärast/ebakindlat olukorda. Kui ta treeniks rohkem, jookseks ta kiiremini. 3.3 VIIMASE AJA ARENGUD Kaudse kõneviisi tunnuseks on tegusõna lõpus olev -vat. Eesti keelt on mõjutanud saksa (alguses keskalamsaksa, Selle kõneviisiga väljendatakse sündmusi, millest tea- hiljem saksa kirjakeel), vene ja inglise keel, kuigi ükski takse kuulu järgi. neist pole eesti keelega suguluses.

10 Pärast Teist Maailmasõda viidi Eestis läbi venestamine. 3.4 KEELEHOOLE EESTIS Alates iseseisvuse saavutamisest aastal 1918 riigikeeleks Põhiseaduse kohaselt on Eesti Vabariigi riigikeeleks eesti olnud eesti keele tähtust vähendati. Pärast Nõukogude keel ja riigi kohus on tagada eesti rahvuse, keele ja kul- Liidu kokkuvarisemist aastal 1991 sai eesti keel jälle ain- tuuri säilimine läbi aegade. Eesti keele säilitamiseks ja saks riigikeeleks. arenguks vajalikud meetmed on sätestatud “Eesti keele arendamise strateegias (2004–2010)” [10] ja valmivas “Eesti keele arengukavas (2011–2017)” [15]. Eesti keele igapäevast kasutust reguleerib keeleseadus ja sellel põhi- Paljudele teistele keeltele tuntud probleemid on saanud ohuks ka eesti keelele: väheneb nev seadusandlus. emakeelsete kõnelejate arv, hägustuvad keelenormid, võõrkeelte tugev mõju, eriti ingliskeelsete suhtlusvõrgustike ja ingliskeelse Eesti keele igapäevast kasutust reguleerib laiatarbekultuuri pealetung. keeleseadus ja sellel põhinev seadusandlus.

Eesti keele (ja teiste keelte) arengu ja kasutusega seo- tud tegevusi koordineerib Haridus- ja teadusministee- Eesti keel, sarnaselt näiteks islandi keelele, on üks väikse- rium. Eesti keelenõukogu jälgib ja analüüsib Eesti keele- maid keeli maailmas, mis toimib ametliku keelena selle olukorda ning koostab keelestrateegia seiret ja jätkustra- kõigis kasutusaspektides: administratiivkeelena, mee- teegiaid. Haridus- ja teadusministeeriumi osakondadest dias, kirjanduses, teatris, ettevõtluses, koolides, ülikoo- tegelevad keeleküsimustega lisaks keeleosakonnale ka lides, teaduses ja mujal. Riiklik Eksami- ja Kvalifikatsioonikeskus ja Keeleins- Viimastel aastakümnetel, pärast Eesti iseseisvumist, on pektsioon. Ministeeriumi hallatavatest üksustest tege- ühest küljest eesti keele positsioon paranenud: eesti kee- leb nende küsimustega Eesti Keele Instituut. Keelekor- lel on riigikeele staatus ja tema püsimine on tagatud sea- raldusega tegelevad veel Emakeele Seltsi keeletoimkond, dustega. Teisalt on aga üleilmastumise ja infoühiskonna Tartu keelehooldekeskus ning Tartu ja Tallinna ülikoo- arengu tulemusena eesti keele osatähtsus vähenenud. lide õppejõud. Paljudele teistele keeltele tuntud probleemid on saanud Eesti keel on üks Euroopa Liidu ametlikke keeli, eesti EL ohuks ka eesti keelele: väheneb emakeelsete kõnelejate terminoloogia areng toimub koostöös Eesti Keele Ins- arv, hägustuvad keelenormid, võõrkeelte tugev mõju, tituudi terminoloogiaosakonnaga ning Eesti Termino- eriti ingliskeelsete suhtlusvõrgustike ja ingliskeelse laia- loogia Ühinguga. tarbekultuuri pealetung. Keeletehnoloogia alal on raske 2003. aastal koostas Eesti Keelenõukogu eesti keele suuremate keeltega sammu pidada. arendamise strateegia aastateks 2004–2010, mis sisaldas Eesti keele kaitseks on loodud mitu riiklikku organi- eesti keele olukorra, seatud eesmärkide ja nende saavuta- satsiooni. Keeleinspektsioon hoiab silma peal keelesea- miseks vajalikke sammude ja asutuste teaduspõhist kir- duse täitmisel. Haridus- ja teadusministeeriumi keele- jeldust [10]. Esimene eesti keele arendamise strateegia osakond planeerib Eesti keelepoliitikat ja hoolitseb meie oli planeeritud katma kõiki peamisi keelekasutuse vald- keele maailmale tutvustamise eest. Ministeeriumi hal- kondi, sealhulgas ka keeletehnoloogiat. dusalas olev Eesti Keelenõukogu on koostanud “Eesti Järgmine eesti keele arendamise strateegia koostati Eesti keele arengukava”. Keelenõukogu poolt aastal 2010 [15]. “Eesti keele aren-

11 gukava 2011–2017” on dokument, mis paneb paika kui ka välismaalt pärit tudengite ja õppejõudude arvu peamised strateegilised suunad eesti keele arenguks, kasvu. Eesti ülikoolides on pea kõiki erialasid võima- õpetamiseks, uurimiseks ja kaitseks. Koos oma ra- lik õppida eesti keeles. Bakalaureuseõppes saab tudeng kenduskava, vastavate seadusandlike dokumentide ja peaaegu alati omandada oma eriala eesti keeles, kuigi muude toetavate tegevustega (nt. rahastamine) kindlus- mõnda erialaspetsiifilist ainet võidakse õpetada ka mõ- tab eesti keele arengukava eesti keele staatuse riigikee- nes muus keeles. Siiski on teaduse rahvusvahelistumise lena ja selle jätkuva positsiooni Eesti Vabariigi peamise tõttu olemas erialakeelte taandumise ja populaarteaduse suhtluskeelena. tasemele jäämise oht - paljudel teadusaladel kirjutatakse ka Eestis kõik doktoritööd ja muud arvestatavad teadus- 3.5 KEEL JA HARIDUS publikatsioonid inglise keeles. Mitte-eestlastest täiskasvanute jaoks korraldatakse eesti Haridus on üks tähtsamaid vahendeid keele arengu ja keele kursusi peamiselt suurema suhtlusvajadusega ame- stabiilse positsiooni tagamiseks. Üks hariduse ülesan- tite (meditsiiniõed, politseinikud) esindajatele ja neile, deid on tagada üldine ja erialane kirjaoskus ning luua kes taotlevad Eesti kodakondsust (edukatele õppijatele mitte-eestlastes positiivne hoiak eesti keele suhtes. Üld- kompenseeritakse õpingukulud). Samuti korraldatakse haridus, iseäranis kohustuslik üldharidus, on äärmiselt eesti keele kursusi telesaadetena. tähtis, sest just see mõjutab keelekasutust kõige rohkem. Seaduse järgi võib põhiharidust omandada ükskõik mil- lises keeles. Praegu kasutatakse gümnaasiumides kahte 3.6 RAHVUSVAHELISED õppekeelt: kolmveerand koolidest õpib eesti, veerand ASPEKTID vene keeles. Eesmärgiga parandada eesti keele oskust mitte-eestlastest gümnaasiumilõpetajate seas alustati Eesti keel on kuulunud Euroopa Liidu ametlike keelte 2007. aastal muukeelsetes keskkoolides üleminekuprot- hulka 2004. aastast alates. See tähendab, et eesti keelt sessiga, kus osasid aineid õpetatakse eesti keeles. saab kasutada rahvusvahelise suhtluse keelena. Eesti keel on kõigis põhikoolides ja gümnaasiumides (sh Eesti muutub turistide seas järjest populaarsemaks. Sa- vastava taseme haridust andvates kutsekoolides) kohus- muti on viimastel aastatel suurenenud eesti keele ja kul- tuslik õppeaine. 2009/2010 õppeaastal oli eestikeelsetes tuuri vastu huvi tundvate inimeste arv. põhikoolides 90 837 õpilast (neist u. 84 000 rahvuselt Eesti riik toetab eesti keele õpetamist välismaal – hetkel eestlased), keskharidust andvates õppeasutustes oli see on üle 30 ülikooli, mis pakuvad eesti keele õpet erineval arv 23 769 (neist 22 741 eesti rahvusest) [15]. tasemel [16].

Eesti keel teaduse ja kõrghariduse keelena tugineb pikaajalisele eestikeelse kõrghariduse ja 3.7 EESTI KEEL INTERNETIS teadustöö traditsioonile. Statistikaameti andmetel oli Eestis 2010. a ligi 381 300 perekonnal kodune internetiühendus ja 758 100 ini- Eesti keel teaduse ja kõrghariduse keelena tugineb pi- mest (55% elanikkonnast) kasutab internetti regulaar- kaajalisele eestikeelse kõrghariduse ja teadustöö tradit- selt [17]. sioonile. Samas on ülikoolide rahvusvahelistumine too- Eesti on tuntud e-valitsuse ja e-riigi poliitika poolest. E- nud kaasa nii võõrkeelse õppe osakaalu suurenemise riigi poliitika koosneb kahest osast: ühelt poolt interneti

12 kaudu toimuvad valitsustegevused (valimised, riigi valit- Enim kasutatav veebirakendus on kahtlemata otsingu- semises osalemine) ja teiselt poolt ligipääs avalikele tee- mootor, mis sisaldab keele automaattöötlust erinevatel nustele. Eesti kodanikud saavad interneti teel näiteks va- tasemetel, nagu käesoleva raporti teises pooles täpsemalt limistel hääli anda, makse deklareerida, arstiaegu kinni võib lugeda. Otsingumootor hõlmab arenenud keele- panna ja isegi jälgida oma lapse edasijõudmist koolis. tehnoloogiat, sealjuures iga keele jaoks erinevalt.

Nii Eestis kui mujal Euroopas on välja öeldud, et üheks Eesti on tuntud e-valitsuse ja meie poliitiliseks eesmärgiks on kõigile võrdsete võima- e-riigi poliitika poolest. luste tagamine. Avalikel asutustel on kohustus kindlus- tada puuetega inimestele piiranguteta juurdepääs oma Enamuse siinsete ettevõtete kodulehed on eestikeelsed, veebilehtedele ja -teenustele. Selle sätte täitmisel on abi ajalehtedel ja -kirjadel on oma uudiste edastamiseks kasutajasõbralikest keeletehnoloogiarakendustest, näi- veebiportaalid (http://postimees.ee, http://ohtuleht. teks pimedatele mõeldud kõnesünteesist. ee, http://paevaleht.ee jpm) [18]. On palju teemapõhi- Internetikasutajad ja sisupakkujad saavad keeletehno- seid internetifoorumeid, kus kasutajad suhtlevad eesti loogiast kasu ka vähem ilmsel viisil, näiteks saab seda keeles. Suhtlusportaalid nagu Orkut ja Facebook on kasutada veebilehtede automaatselt teise keelde tõlki- eesti keelde lokaliseeritud. Lisaks leidub palju jututuba- misel. Arvestades inimtõlke kõrget hinda, on nõudlu- sid, milles sageli suheldakse kirjakeele normidele mitte- sega võrreldes reaalselt kasutatavat keeletehnoloogiat vastavas keeles – kirjalikus slängis. Vikipeediasse on va- võrdlemisi vähe arendatud ja rakendatud. Selle põhju- batahtlikud lisanud üle 88 900 eestikeelse artikli. seks võib olla eesti keele suhteline keerukus ja tüüpilis- Keeletehnoloogia vaatepunktist on interneti suurenev tes keeletehnoloogiarakendustes kasutatavate tehnoloo- osatähtsus oluline kahest aspektist. Ühest küljest kuju- giate paljusus. tab see suur hulk digitaalselt kättesaadavaid keeleand- meid endast rikkalikku materjali loomuliku keele tööt- Järgmises peatükis anname sissejuhatuse keeletehno- luseks, eriti statistilise info kogumiseks. Teisest küljest loogiasse ja selle põhivaldkondadesse, samuti hinnangu pakub internet laialdaselt erinevaid võimalusi keeleteh- eesti keelt toetava keeletehnoloogia hetkeolukorra noloogia rakenduseks. kohta.

13 4

EESTI KEELE KEELETEHNOLOOGILINE TUGI

Keeletehnoloogiaks, sageli kasutatakse ka nimetust ‚ automaatne sisukokkuvõtete tegemine, “inimkeeletehnoloogia” (ingl k human language tech- ‚ küsimustele vastamine, nology), nimetatakse inimkeele käsitlemiseks loodud ‚ kõnetuvastus, tarkvarasüsteeme. Keelel on nii suuline kui ka kirjalik ‚ kõnesüntees. vorm. Kõne on neist vanem ja evolutsiooniliselt loo- mulikum, samas just kirjalikud tekstid säilitavad kee- Keeletehnoloogia on väljakujunenud uurimisala, millel rukat informatsiooni ja enamikku inimeste teadmis- on märkimisväärne hulk sissejuhatavat kirjandust. Hu- test. Kõne- ja tekstitehnoloogiad töötlevad (ja ka gene- vitatud lugeja võib tutvuda järgmiste viidetega: [19, 20, reerivad) keele eri vorme, kasutades selleks sõnastikke, 21, 22, 23]. grammatikareegleid ja semantikat. Seega väljendavast Enne mainitud rakenduste tutvustamist kirjeldame tüü- meediast (kõne või tekst) sõltumata ühendab keeleteh- pilise keeletehnoloogilise süsteemi arhitektuuri. noloogia keele erinevaid teadmisi. Joonis 1 illustreerib keeletehnoloogia maastikku. 4.1 RAKENDUSTE ARHITEKTUUR Suheldes kombineerime keelt teiste kommunikatsiooni- Keeletöötlustarkvara komponendid vastavad keele eri- ja informatsioonimeediatega, näiteks vestluses kasu- nevatele tahkudele. Joonis 2 illustreerib tüüpilise teksti- tame žeste ja miimikat. Digitaalne tekst on ühenda- töötlussüsteemi lihtsustatud arhitektuuri. Kolm esimest tud pildi ja heliga. Film sisaldab nii suulises kui kirja- moodulit tegelevad tekstisisendi struktuuri ja tähendu- likus vormis olevat keelt. Teisiti öeldes, kõne- ja teksti- sega: tehnoloogiad kattuvad teineteisega ja on omakorda seo- tud multimodaalset suhtlust ja multimeedia dokumente 1. Eeltöötlus puhastab andmed, analüüsib või eemal- töötlevate tehnoloogiatega. dab vorminduse, tuvastab sisendkeele jne. Järgnevalt vaatleme peamisi keeletehnoloogia raken- 2. Grammatiline analüüs leiab sõnaliigid, öeldise, sihi- duste valdkondi: keeleline kontroll, veebiotsing, kõne- tise, laiendid, teised lauseliikmed ning tuvastab lause tehnoloogia ja masintõlge. Nad hõlmavad rakendusi ja struktuuri. baastehnoloogiaid, nagu näiteks: 3. Semantilise analüüsi käigus toimub ühestamine (s.o sõnade konteksti sobivate tähenduste tuvasta- ‚ õigekirjakontroll, mine), anafooride lahendamine (nimisõnade vasta- ‚ kirjutaja abivahendid, vusse seadmine asesõnadega), väljendite asendamine ‚ arvutitoetatud keeleõpe, ning lause tähenduse esitamine masinloetaval kujul.

‚ infootsing, Tekstianalüüsi järel alustavad tööd ülesandespetsiifili- ‚ info ekstraheerimine, sed moodulid nagu automaatne sisukokkuvõtte tegija ja

14 Kõnetehnoloogiad

Multimeedia- ja Keele- multimodaalsed Teadmustehnoloogiad tehnoloogiad tehnoloogiad Tekstitehnoloogiad

1: Keeletehnoloogia infotehnoloogia kontekstis

andmebaasiotsing. See lihtsustatud ja idealiseeritud kir- tis. Tekstis rõhutatud vahendeid ja ressursse on kirjelda- jeldus näitlikustab keeletehnoloogiliste rakenduste arhi- tud ka peatüki lõpus olevas tabelis. tektuuri keerukust. Pärast kesksete keeletehnoloogiliste rakenduste tutvus- 4.2.1 Keeleline kontroll tamist anname ülevaate keeletehnoloogia-alasest uuri- mistööst ja haridusest ning olnud ja käimasolevatest Igaüks, kes on kasutanud tekstiredaktorit (nt Microso uurimisprogrammidest. Anname ka eksperthinnangu Word’i), teab, et sellel on olemas õigekirjakontrollija, kesksete rakenduste ja ressursside hetkeseisule erineva- mis joonib alla kirjavead ja annab soovitusi nende pa- tes kategooriates, näiteks kättesaadavus, küpsus ja kvali- randamiseks. Esimesed õigekirjakorrektorid (ehk spelle- teet. Tabelis võtame kokku eesti keele keeletehnoloogia rid) võrdlesid sisestatud sõnu leksikonis olevate korrekt- üldise hetkeolukorra. sete sõnadega. Tänapäevased spellerid on keerulisemad. Keelespetsiifilisi grammatikaanalüüsi algoritme kasu- tades leitakse morfoloogilised vead (nt mitmuse moo- 4.2 KESKSED RAKENDUSED dustamine), süntaksivead, näiteks lausest puuduv tegu- Selles peatükis keskendume kõige olulisemate keeleteh- sõna või aluse ja öeldise ühildumise konflikt (nt nad kir- noloogiliste vahendite ja ressursside kirjeldamisele ja an- jutas kirja). Kuid enamik spellereid ei suuda leida vigu name ülevaate keeletehnoloogia-alasest tegevusest Ees- sellisest inglisekeelsest tekstist [24] nagu:

Sisendtekst Väljund

Grammatiline Semantiline Ülesandepõhised Eeltöötlus analüüs analüüs moodulid

2: Tüüpiline keeletöötluse arhitektuur

15 Statistiline keelemudel

Sisendtekst Õigekirjakontroll Grammatikakontroll Parandusettepanekud

3: Keeleline kontroll (üleval: statistiline; all: reeglipõhine)

I have a spelling checker, It came with my PC. Keelelist kontrolli kasutatakse ka mujal kui It plane lee marks four my revue tekstiredaktorites. Miss steaks aye can knot sea

(Siin on tegemist sõnademänguga, sõnad on asendatud Eesti keele spelleri loomine algas 1991. aastal ning see on teiste samasuguse hääldusega sõnadega, nii et iga üksiku olnud tihedalt seotud eesti keele morfoloogiaanalüsaa- sõna kirjapilt on korrektne.) tori ESTMORF arenguga. Spelleri ja morfoloogiaana- Taoliste vigade tuvastamine vajab kontekstianalüüsi. Sa- lüsaatori aluseks on 36000-sõnaline leksikon ja reeglid geli juhtub, et hooletu näpulöök klaviatuuril jätab sõ- kõikide sõnavormide moodustamiseks. 1994. aastal anti nast ära eesti keele mitmusetunnuse -d: välja esimene versioon eesti keele spellerist. Hilisemates versioonides on leksikoni täiendatud nimede, lühendite värvilise õied ja neologismidega. värvilised õied Speller on integreeritud kontoritarkvarapakettidesse Sellist tüüpi vigade analüüs vajab kas ekspertide poolt MS Office, Open Office.org ja IBM Lotus Notes. Spel- käsitsi koostatud grammatikat ja seda kasutavat tark- lerit arendab erafirma Filoso OÜ [25]. vara või statistilisi keelemudeleid. Viimasel juhul arvu- Eesti keele jaoks on püütud luua ka teisi, vabavaralisi tab mudel vastava sõna lauses paiknemise tõenäosuse (st spellereid. Tuntuim neist on leksikon ispelli jaoks. Kah- sõna eelneva ja järgneva sõna vahel paiknemise tõenäo- juks ei suuda need spellerid piisavalt edukalt liitsõnu suse). Näiteks värvilise õie on tunduvalt tõenäolisem sõ- analüüsida. nade järjend kui värvilise õied. Samuti parandab speller Grammatikakontrollija kontrollib lause struktuuri ja otsinguteenuste päringuid, näiteks Google’i Kas mõt- punktuatsiooni. Eesti keele grammatikakontrollija aren- lesite …-soovitused. dustööga alustati Tartu Ülikoolis 2007. aastal. Hetkel Automaatselt saab statistilist keelemudelit genereerida on olemas selle prototüüpversioon, mis suudab tuvas- siis, kui on olemas suur (korrektsete) tekstide kogum tada komavigu 95% täpsusega. (seda nimetatakse tekstikorpuseks). Kirjeldatud mee- Lisaks tekstiredaktorile kasutatakse keelelist kontrolli todeid on kasutatud inglise keele analüüsimiseks. Kah- ka kirjutaja abivahendites. Need on tarkvarasüsteemid, juks ei ole nad otseselt eesti keelele ülekantavad, sest millega koostatakse etteantud formaadis infotehnoloo- eesti keelel on vabam sõnajärg, peaaegu piiranguteta liit- gia, meditsiini- ja tehnoloogiavaldkondade kasutajaju- sõnade moodustamine ning suurem käände- ja pöörde- hendeid ning dokumentatsiooni. Ettevõtted on haka- lõppude hulk. nud oluliselt suuremat tähelepanupöörama nii rahvus-

16 vahelise turu vajadustele tõlkimise ja lokaliseerimise val- sest leitakse ka sünonüüme ja nõrgemaid seosetüüpe las kui ka tehnilise dokumentatsiooni kvaliteedile. Keh- sisaldavad lehed, näiteks on seotud aatomienergia ja vasti koostatud kasutusjuhendid põhjustavad toodete tuumaenergia. valesti kasutamist ning sellega kaasnevad klientide kah- Võtmesõnade nimekirja asemel küsimustena või muud junõuded. Keeletehnoloogia arengu käigus on loodud tüüpi lausetena esitatud päringute töötlemiseks peaksid kirjutajaabivahendeid, mis aitavad tehnilise dokumen- järgmise põlvkonna otsingumootorid sisaldama palju tatsiooni koostajal kasutada piiratud sõnavara ja lause- keerulisemat keeletehnoloogiat. Et vastata päringule struktuure, mis vastavad firma kehtestatud nõuetele ja “Anna mulle nimekiri kõigist neist ettevõtetest, mille (korporatiiv)terminoloogiale. on teised ettevõtted viimase viie aasta jooksul üle võt- Spellerite ja kirjutajaabivahendite kõrval vajab keelelist nud”,peab KT süsteem tegema lauses nii süntaktilise kui kontrolli ka arvutitoetatav keeleõpe. ka semantilise analüüsi ning andma kiiresti vastavate dokumentide indeksi. Vastuse andmiseks tuleb kõige- 4.2.2 Veebiotsing pealt analüüsida lause grammatilist struktuuri ja mõista, Keeletehnoloogia kõige laialtlevinum rakendus on ot- et kasutaja tahab just nimekirju ülevõetud ettevõtetest, sing, nii veebis, sisevõrkudes kui ka digitaalsetes raa- mitte ettevõtete omandajatest. Rahuldamaks väljendit matukogudes. 1998. aastast tegutsev Google’i otsingu- “viimase viie aasta jooksul”, peab süsteem leidma sobiva mootor teostab praegu umbes 80% kõigist päringutest aastate vahemiku. Seejärel tükk tüki haaval informat- [26]. 2009. aastast alates on sõna guugeldama lisatud siooni leidmiseks on vaja sobitada päring meeletu hulga ka Eesti Õigekeelsussõnaraamatusse. Google’i otsingu- struktureerimata andmetega. Kirjeldatud protsessi ni- liidese ja vastuse kuvamise lehekülje kujundus ei ole metatakse infootsinguks, see sisaldab nii otsimist kui algusaegadega võrreldes oluliselt muutunud, kuid on ka leitud dokumentide järjestamist. Ettevõtete nime- toimunud sisulised muutused. Praegune versioon pa- kirja genereerimiseks kasutatakse nimeüksuste tuvasta- kub valesti kirjutatud sõnadele õigekirjasoovitusi ning mise protsessi, mille käigus tuvastab süsteem dokumen- otsingu korrektsust parandab semantiline otsing, mis tidest ettevõtte nimeks sobiva sõnajärjendi. seisneb päringu konteksti sõnade tähenduste analüüsis Tunduvalt keerulisem on leida päringule vastust teises [27]. Google’i edulugu tõestab, et suure hulga andmete keeles olevate dokumentide hulgast. Keeltevaheline in- ja efektiivse indekseerimistehnikaga annab statistiline footsing eeldab päringu automaatset tõlkimist kõigisse lähenemine häid tulemusi. võimalikesse lähtekeeltesse ja hiljem saadud tulemuste tõlkimist sihtkeelde. Järgmise põlvkonna otsimootorid peavad Tänapäeval suureneb pidevalt andmete hulk, mis esi- kasutama palju keerulisemat keeletehnoloogiat. nevad mingil muul kujul kui kirjalik tekst ja on tek- kinud vajadus multimeedia infootsingu teenuse järele, Keerulisema informatsioonivajaduse rahuldamiseks mis otsiks pilte, audiofaile ja videoandmeid. Audio-ja vi- täiendatakse teksti tõlgendamise süsteeme sügavama deofailidest otsimiseks teisendab kõnetuvastusmoodul lingvistilise teabega. Eksperimendid leksikaalsete res- kõne tekstiks või selle foneetiliseks esituseks, mida saab sursside (masinloetavad tesaurused või ontoloogilised kasutaja päringuga sobitada. keeleressursid, nt wordnet) kasutamiseks otsingutel on Keelest sõltumatud otsinguvahendid suudavad leida ai- näidanud, et sobivate lehekülgede leidmine paraneb, nult sõnavorme, millel on päringusõnaga täpselt sama

17 Veebilehed

Eeltöötlus Semantiline töötlus Indekseerimine

Vastavusse viimine & olulisus/järjestamine

Eeltöötlus Päringu analüüs

Kasutaja päring Otsingutulemused

4: Veebiotsing

kuju või mis sisaldavad päringusõna alamsõnena. Kuna konteksti põhjal õige algvormi (protsessi nimetatakse eesti keele morfoloogia on rikas ja lisaks lõppudele võib morfoloogiliseks ühestamiseks). ka sõna tüvi muutuda, siis on edukaks otsinguks ja in- Eesti Infosüsteemide Amet on avalikult soovitanud ka- dekseerimiseks vaja keelespetsiifilisi vahendeid. sutada Eesti avaliku sektori infosüsteemide infootsingul ja indekseerimisel lemmatiseerimismoodulit [2]. Dokumente hoitakse arvutis kui suur tekstilist andme- Esimene lemmatiseerijat kasutav otsingumootor oli ka- baasi. Täistekstiotsing jagatakse kaheks alamülesandeks: sutusel 1997–2001 aastal Riigikantselei infosüsteemis. indekseerimiseks ja otsimiseks. Indekseerimise protses- Ka Google’i otsingumootor kasutab eesti keele jaoks sis analüüsitakse tekste sõna-sõnalt ja luuakse otsisõnade mõningast lemmatiseerimist, näiteks päringule ma- nimekiri ehk indeks. Otsimisfaasis kasutatakse konk- jandusminister antakse vastuses viiteid ka dokumen- reetse päringu töötlemiseks ainult indeksit, mitte kogu tidele, milles esineb ainsuse omastavas käändes vorm teksti. Indekseerija loob kirje iga dokumendist leitud majandusministri. sõna või termini jaoks, kirjesse salvestatakse ka doku- mendi viide ja vahel ka selle sõna asukoht dokumendis. 4.2.3 Suuline suhtlus Keelespetsiifilised indekseerijad leiavad enne sõnade in- deksisse lisamist nende algvormid ehk lemmatiseerivad Suuline suhtlus on rakendusvaldkond, mis sõltub kõ- otsisõnad. Näiteks sõnavormid käsi, käe, kätt esitatakse netehnoloogiast ehk suulise keele töötlemise tehnoloo- indeksis ainult tüvisõna ehk lemma käsi kirjena. Mõnel giast. Suulise suhtluse tehnoloogiat kasutatakse sellise juhul leiab lemmatiseerija ühele sõnavormile mitu alg- kasutajaliidese loomiseks, kus traditsioonilise graafilise vormi, nt kuue algvormideks on nii kuub kui ka kuus. kujunduse, hiire ja klaviatuuri asemel suheldakse arvu- Sellise mitmesuse lahendamiseks otsib süsteem sõnade tiga suulist kõnet kasutades. Tänapäeval kasutatakse näi-

18 teks hääljuhitavaid kasutajaliideseid osaliselt või täieli- on vastuvõetavamad keelemudelil põhinevad kasutaja- kult automatiseeritud telefoniteenustes. Hääljuhitavad liidesed, mis lubavad neil oma soove võimalikult paind- kasutajaliidesed on kasutusel panganduses, tarneahelate likult väljendada, näiteks kasutajaliides alustab dialoogi juhtimises, ühistranspordis, telekommunikatsioonis ja lausega “Kuidas ma saan sind aidata?”. teistes ärivaldkondades. Suulise suhtluse tehnoloogiat Hääljuhitavate kasutajaliideste tootjad eelistavad väl- kasutatakse ka autode navigeerimissüsteemides ning nu- jundi genereerimisel kasutada eelsalvestatud professio- titelefonides graafilise puutetundliku kasutajaliidese al- naalsete diktorite ütlusi. Staatiliste ütluste korral, mil sõ- ternatiivina. nastus ei sõltu kontekstist ega kasutaja andmetest, annab see parema tulemuse. Dünaamilise sisu korral on tule- Suulise suhtluse tehnoloogiat kasutatakse sellise mus ebaloomuliku intonatsiooniga, sest audiofaili tükid kasutajaliidese loomiseks, kus traditsioonilise liidetakse lihtsalt kokku. Tänapäeva kõnesünteesisüs- graafilise kujunduse, hiire ja klaviatuuri asemel teemides on loomulikult kõlavate dünaamiliste ütluste suheldakse arvutiga suulist kõnet kasutades. genereerimine muutunud üha paremaks, kuid arengu- ruumi veel on. Suuline suhtlus hõlmab nelja tehnoloogiat: Turul olevate kõnetehnoloogialiideste komponendid 1. Automaatne kõnetuvastus teeb kasutaja poolt kuul- on viimase kümnendi jooksul standardiseerunud ning davale toodud helijärjendi põhjal kindlaks tegelikult kõnetuvastuse ja kõnesünteesi turg on märkimisväär- öeldud sõnad. selt konsolideerunud. G20 riikide rahvuslikel turgudel 2. Loomuliku keele mõistmise protsess analüüsib öeldu domineerivad viis globaalset tegijat, Euroopas on neist süntaktilist struktuuri ja tõlgendab seda vastavalt tuntuimad Nuance (USA) ja Loquendo (Itaalia). 2011. süsteemi vajadustele. aastal teatas Nuance, et omandas Loquendo, see märgib 3. Dialoogi haldamise moodul määrab süsteemi funkt- konsolideerumise jätkumist. sionaalsust arvestades selle, milline tegevus algata- Eesti keele automaatse kõnetuvastusega tegeleb peami- takse vastuseks kasutaja sisendile. selt Tallinna Tehnikaülikooli Küberneetika Instituudi 4. Kõnesüntees teisendab süsteemi vastuse helideks. foneetika ja kõnetehnoloogia labor. 2000. aastal valmis Kõnetuvastussüsteemi suurimaks väljakutseks on kasu- prototüüp isoleeritud sõnade tuvastamiseks (eestikeel- taja öeldud sõnade tuvastamine. Probleemi lahenda- sed numbrite ja tähtede nimetused), 2002–2004 valmis miseks piiratakse võimalike ütluste hulka konkreetsete piiratud sõnavaraga peidetud Markovi mudelil (HMM) võtmesõnadega või siis luuakse käsitsi rohkelt loomu- põhinev sidusa kõne tuvastussüsteem. Viimane kõne- liku keele ütlusi sisaldav keelemudel. Masinõppeteh- tuvastussüsteemi versioon (2010) võimaldab tuvastada noloogiaga on võimalik keelemudeleid ka automaat- piiramata sõnavara 63–85% täpsusega. Tulemus sõltub selt luua, selleks kasutatakse kõnekorpust, mis koos- kõne žanrist, sõnavarast ja signaali kvaliteedist (müra ta- neb suurest hulgast kõnet sisaldavatest audiofailidest ja semest) [28]. teksti transkriptsioonidest. Sõnavara piiramine sunnib On loodud kõnetuvastaja veebirakendus, mis võimal- inimesi kasutama väga jäika hääljuhitavat kasutajalii- dab automaatselt transkribeeritud raadiovestlussaateid dest. Kasutajatele ei pruugi see küll meeldida, kuid sa- lehitseda, neid kuulata ja nendest otsida. Samuti on mas rikkama sõnavaraga keelemudeli loomine, sobita- olemas veebiteenus, millega kasutaja saab saata süstee- mine ja ka haldamine on oluliselt kallim. Kasutajatele mile oma helifaile transkribeerimiseks. Arendamisjär-

19 Foneetilised vasted Kõneväljund Kõnesüntees & intonatsiooni kavandamine Loomuliku keele mõistmine ja dialoog Kõnesisend Signaalitöötlus Tuvastamine

5: Kõnepõhine dialoogsüsteem

gus on radioloogidele sobiva kõnetuvastussüsteemi loo- biv platvorm kliendisuhete halduseks. Ilmselt on tulevi- mine, millega on võimalik dikteerida ka spetsiifilisemat kutelefonis vähem hääljuhitavaid kasutajaliideseid ning sõnavara. Esialgsed eksperimenditulemused on paljulu- suuline kõne hakkab mängima nutitelefonides suure- bavad (10% vigu reaalajalisel tuvastamisel). mat rolli kasutajasõbraliku sisendina. Arengu protsess Aastatel 1997–2002 loodi kolme organisatsiooni sõltub kõnelejast sõltumatute kõnetuvastussüsteemide (TTÜ Küberneetika Instituut, Eesti Keele Instituut ja korrektsuse paranemisest. Juba praegu pakutakse nutite- OÜ Filoso) poolt eesti keele tekst-kõnesüntesaator. lefonide kasutajatele tsentraliseeritud teenustena kõne See kõnesüntesaatori versioon kuulub n.ö süntesaato- dikteerimist. Sarnased Tanel Alumäe ja Kaarel Kal- rite esimesse põlvkonda, kasutatakse difoone, iga kõne- juranna TTÜ Küberneetika Instituudis välja tööta- üksus vastab täpselt ühele andmebaasis olevale difoo- tud eestikeelsed kõnetuvastusrakendused nutitelefoni- nile (helilt helile üleminekule). Süntesaatori väljund on dele võitsid 2011. aasta parima keeleteo auhinna. arusaadav, kuid on monotoonne, veidi hakitud ja pisut ebaloomuliku kõlaga. Süntesaator on kohandatud kasu- 4.2.4 Masintõlge tamiseks pimedatele. Süntesaator on avatud lähtekoo- Mõte kasutada arvuteid loomuliku keele tõlkimiseks diga, seda võib kasutada mitteärilistel ja mittesõjalistel tekkis juba 1946. aastal. Olulisel määral rahastati seda eesmärkidel [29]. uurimissuunda viiekümnendatel ja kaheksakümnenda- Eesti Keele Instituut arendab hetkel ka korpusepõhise tel aastatel, kuid vaatamata pikale ajaloole ei täida isegi kõnesüntesaatori versiooni, milles lisaks difoonidele ka- tänapäevane masintõlge algselt talle seatud eesmärki, sutatakse ka pikemaid kõneüksusi (sõnu ja fraase). milleks oli automaatne piirideta tõlge. Haridus- ja teadusministeeriumi parima keeleteo au- hinna võitsid 2010. aastal MTÜ Jumalalaegas ja Eesti Hoiuraamatukogu töörühm, kes lõid eestikeelse häälju- Kõige sirgjoonelisem masintõlke viis seisneb ühe keele sõnade asendamises teise keele sõnadega. hendamise pimedate tehnilistele abivahenditele. Nende rakendused kasutavad soome kõnesüntesaatorit. Tulevikus on oodata märkimisväärseid muutusi kõne- Kõige sirgjoonelisem masintõlke viis seisneb ühe keele tehnoloogia arengus. Kõnetehnoloogia kasutamist mõ- sõnade asendamises teise keele sõnadega. Selline lähe- jutab ka laialt levima hakanud nutitelefon, mis on ta- nemine sobib piiratud sõnavaraga valdkondade tekstide valise telefoniside, interneti ja e-maili kõrval uus so- (nt ilmateadete) tõlkimiseks. Vähem standardiseeritud

20 teksti kvaliteetseks tõlkeks on vajalik suuremale teksti- üksusele (fraasile, lausele või tervele lõigule) sobiva siht- Eesti keele masintõlge on tõsine väljakutse. keelse vaste leidmine. Peamiseks takistuseks on inimkeele mitmesus, mis esi- Statistiliste ja reeglipõhiste masintõlkesüsteemide tu- tab väljakutse erinevatel analüüsitasanditel, näiteks sõ- gevad ja nõrgad küljed kompenseerivad üksteist, see- natähenduse mitmesus leksikaalsel tasandil (hiir võib tõttu pööratakse hetkel suurt tähelepanu mõlemat lä- olla nii loom kui arvuti osa) või lause struktuuri mitme- henemist kombineerivale hübriidsele meetodile. Üheks sus süntaktilisel tasandil, vt alljärgnevaid tõlkeid inglise selle rakendamise võimaluseks on tõlkida paralleelselt keelest: lingvistilist ja statistilist tõlget kasutades ja hiljem va- likumoodulis otsustada, kumb tõlge on parem. Pike- e woman saw the car and her husband, too. mate lausete (üle 12 sõna) korral on tulemused perfekt- ‚ [Naine nägi autot ja tema abikaasa samuti.] susest kaugel. Kvaliteetsema tulemuse saaks kombinee- ‚ [Naine nägi autot ja samuti oma abikaasat.] rides kummagi tõlke parimaid osi, samas on see küllaltki keeruline ning alati ei ilmne omavahel täpses vastavuses Masintõlkesüsteem võib põhineda ka lingvistilistel reeg- olevad osad. litel. Lähedalt seotud keelte tõlkimisel saab kasutada ot- Eesti keele masintõlge on tõsine väljakutse. Sõnastiku- sest asendamist. Reeglipõhised (või lingvistiliste tead- põhise analüüsi muudab keeruliseks vaba liitsõnamoo- miste põhised) masintõlkesüsteemid analüüsivad lähte- dustus, uusi sõnu saab liitmise teel alati juurde tekitada. keelset teksti ning loovad selle põhjal vahepealse süm- Analüüsiprobleeme põhjustavad ka vaba sõnajärg ja mit- bolilise esituse hilisemaks sihtkeelsesse teksti generee- meosalised tegusõnad (ühend- ning väljendverbid). Li- rimiseks. Taolised süsteemid vajavad heaks tõlkeks nii saks kõigele muule on piiratud ka paralleelsete tekstide põhjalikke leksikone, milles on esitatud morfoloogiline, hulk. Vaatamata sellele kuulub Eesti keel nende ligi 50 süntaktiline ja semantiline informatsioon kui ka mahu- maailma keele hulka, mida saab arvuti abil tõlkida [30]. kaid käsitsi koostatud grammatikaid. Vajalike vahendite Eesti keele masintõlke ajalugu ulatub tagasi 50ndatesse, loomise protsess on pikk ja seetõttu ka kallis. kui Tartu Ülikooli matemaatikud katsetasid matemaa- Hilistel kaheksakümnendatel, kui arvutusvõimsus suu- tiliste tekstide tõlkimist vene keelest eesti keelde. Tolle- renes ja ühtlasi ka odavnes, tekkis huvi statistiliste ma- aegne riistvara (arvuti Ural) töötas kiirusega 100 operat- sintõlkemudelite loomise vastu. Statistilised mudelid siooni sekundis. Nõrk arvutusvõimsus oligi üks katsete saadakse kakskeelsete tekstikorpuste analüüsil. Näiteks katkestamise põhjustest. Europarli paralleelkorpus sisaldab Euroopa Parlamendi Praegu on eesti keele jaoks olemas kaks masintõlkesüs- väljaandeid 21 Euroopa keeles. Piisava andmehulga kor- teemi. Tuntuim neist on Google’i tõlketeenus. Selle kva- ral leiab masintõlkesüsteem võõrkeelsele tekstile sellise liteet ei ole küll alati küllaldane, kuid võimaldab siiski tõlke, mis annab edasi teksti ligikaudse tähenduse. Eri- aru saada teksti üldisest teemast ja põhifaktidest. nevalt reeglipõhistest süsteemidest genereerib statisti- Teist masintõlkesüsteemi arendab Tartu Ülikooli uuri- line masintõlkesüsteem sageli grammatiliselt mittekor- misgrupp. Nende uurimistöö keskendub hetkel eesti- rektse väljundi. Samas statistilise süsteemi loomiseks on inglise masintõlkesuunale. Süsteem (http://masintolge. vaja vähem inimtööjõudu ning see katab ka teatud keele ut.ee) tõlgib piiratud pikkusega lauseid eesti keelest ing- eripärasid (nt idiomaatilised väljendid), mida teadmis- lise keelde. Masintõlkesüsteem kasutab avatud lähte- tepõhised süsteemid ignoreerivad. koodiga Mosese dekodeerimismooduleid ja seda tree-

21 Tekstianalüüs (formaatimine, Lähtetekst morfoloogia, süntaks jms)

Statistiline Tõlkereeglid masintõlge

Järeltöötlus (formaatimine, Sihttekst kontekst jms)

6: Masintõlge (vasakul: statistiline; paremal: reeglipõhine)

nitakse erinevatel eesti-inglise paralleelkorpustel, kaasa need keeled erinevad struktuurilt oluliselt teistest keel- arvatud JRC-Acquis ning OPUS. test (näiteks ungari, malta, soome keel ja eesti keel). Masintõlkesüsteem suurendab oluliselt töö produktiiv- sust, eriti siis, kui süsteem on integreeritud töövoogu ning kohandatud kasutajaspetsiifilise terminoloogiaga. 4.3 MUUD RAKENDUSALAD Näiteks Siemens kasutab interaktiivset tõlget toetavaid Keeletehnoloogiliste rakenduste loomisel tuleb lahen- süsteeme ja Volkswagen kasutab keeleportaali, mis tagab dada suur hulk süsteemis paiknevaid alamülesandeid, ligipääsu sõnaraamatutele, ettevõttespetsiifilisele termi- mida vahel ei ole kasutajaga suhtlemisel isegi näha. noloogiale, tõlkemälule ja masintõlketoele. Need moodulid on vastavuses arvutilingvistika erine- Masintõlkesüsteemide kvaliteedi parandamisel on veel vate alamteemade uurimisobjektidega. palju arenguruumi. Väljakutseks on keeleressursside ko- handamine konkreetse sektori vajadustega ning tehno- loogia integreerimine töövoo protsessidesse, mis juba Keeletehnoloogilised rakendused on sageli suuremate tarkvarasüsteemide osad, tõstes nende kasutavad terminoloogiabaasi ja tõlkemälu. funktsionaalsust kulisside tagant. Hindamiskampaaniad võrdlevad masintõlkesüsteemide kvaliteeti, erinevaid lähenemisi ja süsteemide eri kee- lepaaride olukorda. Euromatrix+ projekti käigus loo- Näiteks on aktiivne uurimisteema küsimustele vasta- dud tabelis (vt joonis 7) on koondatud keelepaariti (iiri mine, selle jaoks luuakse eraldi märgendatud korpusi keelt ei võrreldud) 22 ELi ametliku keele tulemused. Tu- ning korraldatakse teaduslikke võistlusi. Küsimustele lemusi on hinnatud BLEU-punktidega, milles parema vastamise kontseptsioon arenes välja võtmesõnadepõ- tõlke skoor on alati kõrgem [31]. Inimtõlkija koguks hisest otsingust, mille korral väljastab otsingumootor ülesandest keskmiselt 80 punkti. Parimad punktisum- vastuseks sobivad dokumendid. Idee kohaselt esitab ka- mad (tabelis rohelise ja sinise värviga tähistatud) said sutaja konkreetse küsimuse, millele süsteem annab ühe keeled, millesse on koostööprojektides palju panusta- vastuse. Näiteks: tud ning mille jaoks leidub rohkelt paralleeltekste (nt inglise, prantsuse, hollandi, hispaania ja saksa keel). Ta- Küsimus: Kui vana oli Neil Armstrong sel ajal, kui ta belis on punasega märgitud halvimad tulemused. Nen- astus Kuu pinnale? dele keeltele kas ei ole piisavalt tähelepanu pööratud või Vastus: 38.

22 Sihtkeeled – Target language EN BG DE CS DA EL ES ET FI FR HU IT LT LV MT NL PL PT RO SK SL SV EN – 40.5 46.8 52.6 50.0 41.0 55.2 34.8 38.6 50.1 37.2 50.4 39.6 43.4 39.8 52.3 49.2 55.0 49.0 44.7 50.7 52.0 BG 61.3 – 38.7 39.4 39.6 34.5 46.9 25.5 26.7 42.4 22.0 43.5 29.3 29.1 25.9 44.9 35.1 45.9 36.8 34.1 34.1 39.9 DE 53.6 26.3 – 35.4 43.1 32.8 47.1 26.7 29.5 39.4 27.6 42.7 27.6 30.3 19.8 50.2 30.2 44.1 30.7 29.4 31.4 41.2 CS 58.4 32.0 42.6 – 43.6 34.6 48.9 30.7 30.5 41.6 27.4 44.3 34.5 35.8 26.3 46.5 39.2 45.7 36.5 43.6 41.3 42.9 DA 57.6 28.7 44.1 35.7 – 34.3 47.5 27.8 31.6 41.3 24.2 43.8 29.7 32.9 21.1 48.5 34.3 45.4 33.9 33.0 36.2 47.2 EL 59.5 32.4 43.1 37.7 44.5 – 54.0 26.5 29.0 48.3 23.7 49.6 29.0 32.6 23.8 48.9 34.2 52.5 37.2 33.1 36.3 43.3 ES 60.0 31.1 42.7 37.5 44.4 39.4 – 25.4 28.5 51.3 24.0 51.7 26.8 30.5 24.6 48.8 33.9 57.3 38.1 31.7 33.9 43.7 ET 52.0 24.6 37.3 35.2 37.8 28.2 40.4 – 37.7 33.4 30.9 37.0 35.0 36.9 20.5 41.3 32.0 37.8 28.0 30.6 32.9 37.3 FI 49.3 23.2 36.0 32.0 37.9 27.2 39.7 34.9 – 29.5 27.2 36.6 30.5 32.5 19.4 40.6 28.8 37.5 26.5 27.3 28.2 37.6 FR 64.0 34.5 45.1 39.5 47.4 42.8 60.9 26.7 30.0 – 25.5 56.1 28.3 31.9 25.3 51.6 35.7 61.0 43.8 33.1 35.6 45.8 HU 48.0 24.7 34.3 30.0 33.0 25.5 34.1 29.6 29.4 30.7 – 33.5 29.6 31.9 18.1 36.1 29.8 34.2 25.7 25.6 28.2 30.5 IT 61.0 32.1 44.3 38.9 45.8 40.6 26.9 25.0 29.7 52.7 24.2 – 29.4 32.6 24.6 50.5 35.2 56.5 39.3 32.5 34.7 44.3 LT 51.8 27.6 33.9 37.0 36.8 26.5 21.1 34.2 32.0 34.4 28.5 36.8 – 40.1 22.2 38.1 31.6 31.6 29.3 31.8 35.3 35.3 LV 54.0 29.1 35.0 37.8 38.5 29.7 8.0 34.2 32.4 35.6 29.3 38.9 38.4 – 23.3 41.5 34.4 39.6 31.0 33.3 37.1 38.0 MT 72.1 32.2 37.2 37.9 38.9 33.7 48.7 26.9 25.8 42.4 22.4 43.7 30.2 33.2 – 44.0 37.1 45.9 38.9 35.8 40.0 41.6 NL 56.9 29.3 46.9 37.0 45.4 35.3 49.7 27.5 29.8 43.4 25.3 44.5 28.6 31.7 22.0 – 32.0 47.7 33.0 30.1 34.6 43.6 PL 60.8 31.5 40.2 44.2 42.1 34.2 46.2 29.2 29.0 40.0 24.5 43.2 33.2 35.6 27.9 44.8 – 44.1 38.2 38.2 39.8 42.1 PT 60.7 31.4 42.9 38.4 42.8 40.2 60.7 26.4 29.2 53.2 23.8 52.8 28.0 31.5 24.8 49.3 34.5 – 39.4 32.1 34.4 43.9 RO 60.8 33.1 38.5 37.8 40.3 35.6 50.4 24.6 26.2 46.5 25.0 44.8 28.4 29.9 28.7 43.0 35.8 48.5 – 31.5 35.1 39.4 SK 60.8 32.6 39.4 48.1 41.0 33.3 46.2 29.8 28.4 39.4 27.4 41.8 33.8 36.7 28.5 44.4 39.0 43.3 35.3 – 42.6 41.8 SL 61.0 33.1 37.9 43.5 42.6 34.0 47.0 31.1 28.8 38.2 25.7 42.3 34.6 37.3 30.0 45.9 38.2 44.1 35.8 38.9 – 42.7 SV 58.5 26.9 41.0 35.6 46.6 33.3 46.6 27.4 30.9 38.9 22.7 42.0 28.2 31.0 23.7 45.6 32.2 44.2 32.7 31.3 33.5 –

7: Masintõlge 22 Euroopa Liidu keele vahel – Machine translation between 22 EU-languages [32]

Kuigi ilmselgelt kuulub küsimustele vastamine veebiot- vormi täitmine andmetega. IE on üks näide tagaplaa- singu valdkonda, on see praegu katusterminiks sellistele nil töötavast tehnoloogiast, mida saab praktikas erine- uurimisteemadele nagu küsimuste erinevad liigid, nende vatesse rakenduskeskkondadesse lõimida. käsitlemine ja oletatavat vastet sisaldavate dokumentide analüüsimine ja võrdlemine (kas nad annavad vastand- Automaatne sisukokkuvõtete tegemine ja teksti gene- likke vastuseid?) ning konteksti ignoreerimata spetsiifi- reerimine on kaks sellist piiripealset ala, mille raken- lise informatsiooni (vastuse) tekstist välja filtreerimine. dused toimivad nii iseseisvate programmidena kui ka toetavas rollis n.ö kulisside taga. Automaatse sisukokku- Eelnev on omakorda seotud informatsiooni ekstraheeri- võtete tegemise käigus leitakse pikast tekstist oluline in- mise (IE, kasutatakse ka mõistet info kurnamine) vald- formatsioon ja esitatakse see lühema tekstina. Seda või- konnaga, mis oli väga populaarne ja oluline 90ndate malust pakub ka näiteks tekstiredaktor Microso Word. alguses, mil arvutilingvistikas hakati eelistama statis- Statistilisi meetodeid kasutatakse teksti oluliste sõnade tilisi meetodeid. IE eesmärgiks on dokumentidest väi- (sõnad, mis esinevad tekstis väga sageli, kuid ei ole nii keste spetsiifiliste infokildude tuvastamine, näiteks tu- sagedased tavalises keelekasutuses) kindlaks tegemiseks vastada uudisartiklitest firmade ülevõtmise põhitegijad. ja enim neid olulisi sõnu sisaldavate lausete leidmiseks. Teine tuntud ülesanne seisneb terroriaktide identifitsee- Teksti sisukokkuvõttena esitataksegi just need laused. rimises. Tekstis leiduv info esitatakse tabelina, milles on Kuna sisukokkuvõtte tekst koosneb muutmata kujul näidatud akti sooritaja, sihtmärk, aeg, koht ja intsidendi algse teksti lausetest, siis on kirjeldatud stsenaariumi jär- tulemus. IE keskseks teemaks on valdkonnaspetsiifilise givad programmid pigem tekstist lausete ekstraheerijad,

23 väljavõtete tegijad. Teiseks võimaluseks on genereerida spetsialiseeruvad kõnetehnoloogia õppele, kasuta- täiesti uusi lauseid, mida lähtetekstis ei leidu. See lähe- des selleks individuaalseid õppeprogramme. nemine nõuab aga teksti sügavamat mõistmist ning see- tõttu ei ole ta ei piisavalt robustne ega veakindel. 2009. a-l rajati kaks doktorikooli, milles osale- Teksti genereerimise programmid on harva iseseisvad vad keeleteaduse ja keeletehnoloogia doktorandid: rakendused. Enamasti on nad integreeritud suurema- informatsiooni- ja kommunikatsioonitehnoloogia dok- tesse tarkvarasüsteemidesse, näiteks haiglate info- süs- torikool (keeletehnoloogia doktorantidele) ja keele- teemi, mis kogub, salvestab ja töötleb patsientide and- teooria, filosoofia ja semiootika doktorikool (arvuti- meid. Andmete põhjal aruannete koostamine on üks lingvistika doktorantidele). paljudest sisukokkuvõtte tegemise rakendustest. Eesti keele jaoks leidub sisukokkuvõtete tegemiseks ai- 4.5 RIIKLIKUD PROGRAMMID JA nult prototüüpvahend. Eesti keele automaatne sisukok- kuvõtja (EstSum) teeb väljavõtted ühe dokumendi pii- ALGATUSED res. Tekstižanr on samuti piiratud – EstSum eeldab, et Keeletehnoloogia-alase uurimistööga alustati Eestis sisendtekst kuulub uudiste valdkonda. juba 1950ndatel, kui ülikoolidesse ja uurimislaboritesse jõudsid esimesed suurarvutid. 1990ndate alguses muu- 4.4 HARIDUSPROGRAMMID tusid oluliselt senised finantseerimisviisid ja ka uuri- misteemad ning järjepidevas uurimistöös tekkis taga- Keeletehnoloogia on väga interdistsiplinaarne uurimis- silangus. Tänu rahvusvahelistes projektides (nt Coper- ala, milles on kombineeritud keeleteaduse, arvutitea- nicus) osalemisele elasid keeletehnoloogia uurimisrüh- duse, matemaatika, filosoofia, psühholingvistika ja neu- mad keerulised ajad siiski küllaltki hästi üle [33]. roteaduste ühised kogemused. 1990ndate lõpul avanesid uued rahastamisvõimalused: Keeletehnoloogia-alast haridust annavad Eestis kaks ülikooli: Tartu Ülikool ja Tallinna Tehnikaülikool [33]. ‚ Eesti Informaatikakeskuse poolt (1998–2000) al- gatatud programm “Eesti keeletehnoloogia”. Selle ‚ Tartu Ülikooli eesti ja soome-ugri keeleteaduse üli- programmi raames loodi ka 1999. aastal esimene õpilased võivad õppida arvutilingvistika moodulit eesti keele keeletehnoloogia arendamise kava. nii bakalaureuse- kui ka magistriõppes. See moo- ‚ Riiklikud programmid “Eesti keel ja kultuurimälu” dul sisaldab keeleteooria ja arvutiteaduse alaseid (1999–2003) ja “Eesti keel ja rahvuslik mälu” kursuseid, näiteks programmeerimist lingvistidele. (2004–2008) sisaldasid keeletehnoloogia alamprog- Infotehnoloogia eriala bakalaureuse- ja magist- ramme. riõppe tudengid võivad õppida keeletehnoloo- ‚ Keeletehnoloogia võtmeisikud olid samuti kaasa- giat eraldi moodulina. Paljud keeletehnoloogia- tud EL 5. raamprogrammi projekti “eVikingsII: Vir- ja arvutilingvistika-alased kursused on loodud tuaalse infoühiskonna tehnoloogiate teadus- ja aren- matemaatika-informaatikateaduskonna ja filosoo- duskeskuse asutamine Eestis” (2002–2005). fiateaduskonna koostöös. ‚ Tallinna Tehnikaülikoolis ei ole üliõpilaste 2005. aastal koostati riikliku programmi “Eesti keele keeletehnoloogia-alane juhendamine nii laialdane. keeletehnoloogiline tugi” (EKKTT) kava. 2006. aas- Mõned informatsioonitehnoloogia doktorandid tal käivitas haridusministeerium selle programmi viieks

24 aastaks (2006–2010). Programmi peaeesmärk oli aren- ropean Research Infrastructure Consortium) ning Eesti dada eesti keele keeletehnoloogilist tuge tasemele, mis kui CLARIN ERICu liikme kohustusi hakkab ellu lubaks eesti keelel moodsas infoühiskonnas vabalt viima Eesti Keeleressursside Keskus, mis kuulub riikliku funktsioneerida. EKKTT rahastas keeletehnoloogia- tähtsusega teaduse infrastruktuuri objektide hulka. alast teadus- ja arendustööd, kaasa arvatud taaskasu- tatavate keeleressursside loomist ja keeletehnoloogilise baastarkvara arendamist, ning keeletehnoloogilise inf- 4.6 VAHENDITE JA RESSURSSIDE rastruktuuri kaasajastamist. Programmis rahastatud res- KÄTTESAADAVUS sursid ja prototüübid on vabaks kasutamiseks [34]. Tabel 8 võtab kokku eesti keele keeletehnoloogilise toe Ühe projektina kasvas EKKTT riiklikust program- hetkeseisu. Oma ala eksperdid hindasid olemasolevaid mist välja Eesti Keeleressursside Keskus (http://www. vahendeid ja ressursse vastavalt seitsmele kriteeriumile keeleressursid.ee), mille eesmärgiks on luua infrastruk- skaalal 0 (väga madal) kuni 6 (väga kõrge). tuur, mis teeb eestikeelsed keeleressursid ja keeletehno- Eesti keeletehnoloogia hetkeseisu analüüsi võib võtta loogilise tarkvara huvilistele kättesaadavaks. 2011. aasta kokku järgnevalt: lõpul moodustati Eesti Keeleressursside Keskus kon- ‚ Eesti keele jaoks on olemas nii kõnetuvastuse kui sortsiumina, kuhu kuuluvad kolm partnerit: Tartu Üli- ka -sünteesi vahendid. Nende edasine arendustöö on kool, Tallinna Tehnikaülikooli Küberneetika Instituut hetkel aktiivselt käimas. Kõnetuvastuse ja kõnesün- ja Eesti Keele Instituut. teesi vahendid on loodud uurimisasutustes, seetõttu Hetkel on käimas uus riiklik keeletehnoloogiat toetav on nad pigem prototüübid kui valmis tooted. programm “Eesti keeletehnoloogia (2011–2017)” [35]. ‚ Vaatamata eesti keele keerulisele morfoloogiale, on Programm eristub eelnenud EKKTT riiklikust prog- eesti keele morfoloogiaanalüsaatori efektiivsus võr- rammist selle poolest, et lisaks tarkvaraprototüüpide ja reldav teiste Euroopa keelte vastavate vahenditega. keeleressursside arendamisele pööratakse eriliselt tähe- Kuna parim morfoloogiaanalüsaator on loodud lepanu just keeletehnoloogia rakenduste loomisele. Ole- kommertstarkvarana, siis ei ole see laiemale üldsusele masolevad ning programmi käigus loodavad ressurssid vabalt kasutatav. Teised, vaba tarkvarana loodud ana- ning tarkvara tehakse kättesaadavaks Eesti Keeleressurs- lüsaatorid, on tagasihoidlikumate näitajatega ning side Keskuse kaudu. pole laialdases kasutuses. Eesti keele süntaksianalü- Haridus- ja teadusministeerium rahastab ka rohkem tea- saatorid põhinevad ühel samal reeglipõhisel forma- dusele orienteeritud keeletehnoloogilisi projekte, pak- lismil, selle baasil loodud grammatika on kohanda- kudes sihtfinantseerimist ja Eesti Teadusfondi grante. tud erinevate tekstiliikide analüüsiks. Süntaksiana- Arvutiteaduse tippkeskuse (2008–2015) töösse on kaa- lüsaatoritel on edaspidi veel palju arenguruumi. Se- satud samuti arvutilingviste nii Tartu Ülikoolist kui ka mantikat on raskem analüüsida kui süntaksit ning Tallinna Tehnikaülikooli Küberneetika Instituudist. tekstisemantika töötlus on keerulisem kui sõna- ja Eesti on osalenud üle-euroopalise keeleressursside ja - lausesemantika. Üldiselt on semantilised vahendid tehnoloogia võrgustiku CLARIN (Common Language ja ressursid saanud madalad hinded. Seega oleks vaja Resources and Technology Infrastructure, http://www. programme ja algatusi, et kiirendada selle ala arengut clarin.eu) tegevuses alates 2008. aastast. 29. veebruarist nii baasuurimistöö kui ka korpuste mahu suurenda- 2012 on CLARINi organisatsioonivormiks ERIC (Eu- mise osas.

25 ‚ Tekstitõlgendamise programmid vajavad mahukat suse töötlus, dialoogihaldus, semantilised ja diskursuse semantilist analüüsi ning eesti keele jaoks on need al- korpused on juba saanud esimesi tulemusi, kuid need les loomisjärgus. ressursid vajavad täiendamist ning ka vahendite kvali- ‚ Keele genereerimise vahenditest on olemas ainult teedi ulatus on piiratud. Enamik neist vahenditest (v.a morfoloogilise sünteesi programmid. morfoloogiaanalüsaator) on loodud uurimisasutustes ja ‚ Laiem üldsus kasutab masintõlkeks Google’i tõlke- neid võib pidada pigem prototüüpideks, mitte valmis teenust. Tartu Ülikoolis on arendamisel ka eesti- toodeteks. Nende arendamist on toetanud mitmed riik- inglise masintõlkesüsteem. Ilmselt oleks suur nõud- likud keeletehnoloogia-alased uurimisprogrammid, see- lus ka eesti-vene-eesti masintõlkele. tõttu on need vahendid vabaks kasutamiseks. ‚ Viimastel kümnenditel on loodud märkimisväärne hulk Eesti keele ressursse (korpused, leksikonid, 4.7 KEELTEVAHELINE VÕRDLUS WordNet), seega olukord on küllaltki hea. Eesti Praegune keeletehnoloogiline tugi varieerub keeliti keele üldkorpused on väga mahukad ja kõrge kvali- märkimisväärselt. Erinevate keelte olukorra võrdle- teediga, kuid süntaktiliselt ja semantiliselt märgen- miseks hinnatakse selles peatükis kahte rakendusvald- datud korpuste maht on veel väike. Alles hiljuti konda (masintõlget ja kõnetöötlust) ning nende baas- alustati tööd multimeedia korpustega. tehnoloogiat (tekstianalüüsi), samuti keeletehnoloogi- ‚ Sageli ei ole uurimistöö tulemusel valminud kõr- liste rakenduste loomiseks vajalike ressursside taset. 5- gekvaliteediline tarkvara või ressurss piisavalt stan- pallisüsteemis hindamistulemuste põhjal jagunesid kee- dardiseeritud või on puudu toetav dokumentat- led keeletehnoloogilise toe taseme poolest viie hin- sioon. Samuti ei pruugi selle ressursi või vahendi nangu vahel: edaspidine hooldus ja säilitamine olla garanteeritud. 1. Suurepärane Kokkuvõtvalt näitavad tulemused, et eesti keele keele- 2. Hea tehnoloogia baastehnoloogiat ja -ressursse (morfoloo- 3. Rahuldav giaanalüsaator, morfoloogiline ühestaja, süntaksiana- 4. Osaline lüsaator, kõnetehnoloogia programmid, üldkorpused, 5. Nõrk või puuduv puudepank, leksikaalne andmebaas ja kõnekorpused) puudutav olukord on küllaltki hea. Lisaks on loodud Keeletehnoloogist tuge hinnati järgmiste kriteeriumite programme ning vajalikke ressursse sisukokkuvõtete au- põhjal: tomaatseks loomiseks, masintõlkeks ning dialoogsüs- Kõnetöötlus: olemasolevate kõnetuvastustehnoloo- teemideks. Kuid need vahendid ja ressursid on pigem giate kvaliteet, olemasolevate kõnesünteesitehnoloo- lihtsakoelised või piiratud funktsionaalsusega. Näiteks giate kvaliteet, valdkondade katvus, kõnekorpuste arv leidub paralleelkorpusi vaid väheste keelepaaride jaoks ja maht, kõnetehnoloogiliste rakenduste arv ja kättesaa- ning needki on piiratud tekstižanrites. davus. Mis puutub keerukamatesse valdkondadesse nagu teks- Masintõlge: olemasolevate masintõlketehnoloogiate tisemantika, keele genereerimine ja märgendatud multi- kvaliteet, kaetud keelepaaride arv, lingvistiliste nähtuste modaalsed ressursid, siis eesti keele jaoks põhivahendid ja valdkondade katvus, olemasolevate paralleelkorpuste ja -ressursid puuduvad. Uurimistöö kõige komplitseeri- kvaliteet ja maht, masintõlkerakenduste arv ja varieeru- tumate vahendite ja ressursside loomiseks nagu diskur- vus.

26 elpinbpstkrea u esdsm kõneleja- sama teised kui kõrgemal pisut paikneb keel eesti ning võrreldavad kohati on ja tulemused keele Eesti soome klastritesse. viiendatesse ja neljandatesse siiski keeltega teiste võrdluses keel eesti kuulub toetamist, gia keeletehnoloo- keele eesti suurendanud aastatel mastel Joonised katvus. ja kvaliteet grammatikate ja sursside res- leksikaalsete olemasolevate maht, ja kvaliteet puste Ressursid: katvus. ja kvaliteet grammatikate ja WordNet) (nt ressursside kvaliteet, leksikaalsete ja olemasolevate maht tekstikorpuste olemasole- (märgendatud) varieeruvus, vate ja arv rakenduste tesaadavate kät- katvus, valdkondade ja nähtuste lingvistiliste semna- tika), süntaks, (morfoloogia, katvus ja kvaliteet giate Tekstianalüüs: 9 lmslvt esi,kn-j paralleelkor- ja kõne- teksti-, olemasolevate Grammatikad ressursid Leksikaalsed Paralleelkorpused Kõnekorpused Tekstikorpused teadmusbaasid ja andmed ressursid, Keeleressursid: Masintõlge genereerimine Teksti analüüs Semantiline analüüs Grammatiline Kõnesüntees Kõnetuvastus rakendused ja tehnoloogiad vahendid, Keeletehnoloogia: kuni lmslvt tekstianalüüsitehnoloo- olemasolevate 12 ätvd tkiivltu nvii- on valitsus kuigi et näitavad, 8: et el elthoogls o olukord toe keeletehnoloogilise keele Eesti . . . . . 3.5 3.5 3.5 2.8 3.2 4 3.5 3.5 2.5 4 2.8 3.2 3.5 2.5 . . 3 3 2 3 4 3 2.8 2.5 4 3 2.8 3 4 1.4 5 2 0 3 2.1 2.8 2 4 0 2.1 2.1 2 3 2.5 5 0 2 1.7 2.1 5 3 2 0 1.3 1.4 3 3 1.3 2 0 3 0.9 3 3 0 0.9 3 3 2.8 1.3 0 2.8 2.8 1 2.8 5 5 2 2 Kogus asdssntkt üaa eatls analüüsi. semantilist võimal- sügavat sisendteksti ja daksid aspektid lingvistilised kõik ulatuses laias katak- sid mis tehnoloogiaid, ja ressursse vaja ma- on näiteks sintõlget, nagu rakendusi, keerukaid luua et Selleks, mis loomist. rakenduste puudujääke, kõrgekvaliteediliste on takistab ressurssides keele inglise ka Ja des. valdkonda- keeletehnoloogilistes kõigis tase- juhib keele mis meni, inglise katvuselt ja kvaliteedilt küündi ei sid ressur- keeletehnoloogised keelte nende isegi Kuid keel. prantsuse või saksa näiteks nagu keeltele uuritud palju ja kasutajaskonnaga arvuka alla oluliselt need jäävad Kõik aga keel. keeled malta ja leedu läti, nagu keeled, arvuga

Kättesaadavus

Kvaliteet

Katvus

Küpsus

Jätkusuutlikkus

Kohandatavus 27 4.8 JÄRELDUSED Eesti keele jaoks on olemas hulk tehnoloogiaid ja res- sursse, kuid neid on oluliselt vähem kui inglise keele jaoks. Keeletehnoloogiline tugi on täna kaugel sellest, Selles keeleraportite sarjas tegime olulise katse hinnata 30 mis ta peaks olema, et toetada tõeliselt mitmekeelset Euroopa keele keeletehnoloogist tuge ja koostada nende teadmust, mida ühiskond vajab. taset õrdle kõrgetasemeline analüüs. Kui on üles leitud Keeletehnoloogia keerukus ning vajadus suure hulga tühimikud, vajadused ja puudujäägid, on Euroopa keele- andmete järele on põhjused, miks on vajalik luua uus tehnoloogilisel kogukonnal ja kõigil asjaosalistel õima- infrastruktuur ja organiseerida uurimistöö sidusamalt, lik kavandada suuremahulist uurimis- ja arendusprog- et kannustada suuremat koostööd ning teadmiste vahe- rammi, mille eesmärgiks on luua tõeliselt mitmekeelne tust. tehnoloogilise toega Euroopa. Uurimis- ning arendustöö rahastamine ei ole sageli jär- Nägime, et Euroopa keelte vahel on tohutud erinevu- jepidev. Lühiajalised koordineeritud programmid kipu- sed. Kui mõnede keelte ja rakendusalade jaoks on olemas vad vahelduma perioodidega, mil rahastamine puudub nii hea kvaliteediga tarkvara kui ka ressursse, siis teis- või on ebapüsiv. Samuti on puudulik üleüldine EL rii- tel (enamasti väiksematel) keeltel neid pole. Mitmete kide ja Euroopa Komisjoni programmide koordineeri- keelte jaoks puudub tekstitöötluse baastarkvara ja ka mine. ressursid selle loomiseks. Teiste jaoks on küll põhiva- Saame seetõttu järeldada, et on hädavajalik luua suure- hendid olemas, kuid pole võimalik investeerida nende mahuline, koordineeritud algatus, mis keskenduks Eu- keelte semantilisse töötlusse. Seepärast peame pingu- roopa keelte keeletehnoloogiliste erinevuste tasanda- tama, et luua kõrgekvaliteediline masintõlge kõigi Eu- misele. roopa keelte vahel. META-NETi pikaajaline eesmärk on viia kõrgekvali- teediline keeletehnoloogia kõigi keelteni, et saavutada Eesti keele keeletehnoloogilise olukorra hinnang annab kultuurilise mitmekesisuse läbi poliitiline ja majandus- põhjust ettevaatlikuks optimismiks. Eesti keele keele- lik ühtsus. Tehnoloogia aitab lammutada olemasolevad tehnoloogilist uurimistööd on ka varem rahastatud ning barjäärid ja luua sildu Euroopa keelte vahel. See nõuab, on olemas inimesed, kes uurimis- ja arendustööga tegele- et kõik osapooled, nii poliitikas, uurimistöös kui ka et- vad. Kahjuks esindavad Eesti keeletehnoloogiatööstust tevõtetes ja ühiskonnas, ühendaks oma jõupingutused ainult mõned üksikud väikeettevõtted. tuleviku heaks.

28 Suurepärane Hea Rahuldav Osaline Puudulik tugi tugi tugi tugi tugi

inglise hispaania baski horvaadi hollandi bulgaaria islandi itaalia eesti leedu portugali galiitsia läti prantsuse iiri malta saksa katalaani rumeenia soome kreeka tšehhi norra poola rootsi serbia slovaki sloveeni taani ungari

9: Kõnetöötlus: 30 Euroopa keele keeletehnoloogilise toe olukord

Suurepärane Hea Rahuldav Osaline Puudulik tugi tugi tugi tugi tugi

inglise hispaania hollandi baski prantsuse itaalia bulgaaria katalaani eesti poola galiitsia rumeenia horvaadi saksa iiri ungari islandi kreeka leedu läti malta norra portugali rootsi serbia slovaki sloveeni soome taani tšehhi

10: Masintõlge: 30 Euroopa keele keeletehnoloogilise toe olukord

29 Suurepärane Hea Rahuldav Osaline Puudulik tugi tugi tugi tugi tugi

inglise hispaania baski eesti hollandi bulgaaria horvaadi itaalia galiitsia iiri prantsuse katalaani islandi saksa kreeka leedu norra läti poola malta portugali serbia rumeenia rootsi slovaki sloveeni soome taani tšehhi ungari

11: Tekstianalüüs: 30 Euroopa keele keeletehnoloogilise toe olukord

Suurepärane Hea Rahuldav Osaline Puudulik tugi tugi tugi tugi tugi

inglise hispaania baski iiri hollandi bulgaaria islandi itaalia eesti leedu poola horvaadi läti prantsuse galiitsia malta rootsi katalaani saksa kreeka tšehhi norra ungari portugali rumeenia serbia slovaki sloveeni soome taani

12: Kõne- ja tekstiressursid: 30 Euroopa keele olukord

30 5

META-NETIST

META-NET on Euroopa Komisjoni rahastatud tipp- gevussuuna põhirõhk on suunatud sidusa ja ühtse keele- teadmiste võrgustik, millel on 54 liiget 33-st Eu- tehnoloogia kogukonna loomisele, ühendades killusta- roopa riigist [36]. META-NET edendab Mitmekeelse tud ja eriilmelised huvigrupid üle kogu Euroopa. Valge Euroopa Tehnoloogiaühendust META (Multilin- raamatu sarjas ilmuvad keeleraportid on koostatud 29 gual Europe Technology Alliance), mis kujutab endast keele kohta. Jagatud tehnoloogiline visioon on loodud keeletehnoloogia-alaste professionaalide ja organisat- kolmes valdkondlikus töögrupis: tõlkimine ja lokali- sioonide üha kasvavat kogukonda. seerimine, meedia- ja informatsiooniteenused, interak- META-NET edendab Euroopa mitmekeelse infoühis- tiivsed süsteemid. META tehnoloogianõukogu on loo- konna tarbeks tehnoloogilist vundamenti, mis: dud arutamaks ja ette valmistamaks strateegilist uuri- misplaani, mis põhineb kogu keeletehnoloogia kogu- ‚ võimaldaks suhelda ja teha koostööd erinevates keel- konnaga tihedas omavahelises suhtluses loodud visioo- tes; nil. ‚ tagaks igale eurooplasele sõltumata keelest võrdse li- META-SHARE loob hajusa ja avatud vahendi ressurs- gipääsu informatsioonile ja teadmistele; side vahetamiseks ja jagamiseks. Hoidlate partnervõrk ‚ rajaks ja edendaks võrgustunud infotehnoloogiat ja (P2P) hakkab sisaldama andmeid keeleressursside, kee- selle kasutusvõimalusi. letöötlusvahendite ja veebiteenuste kohta, andmed on Võrgustik toetab Euroopat, mis ühendab endas digitaal- dokumenteeritud meta-andmetega ja on jagatud stan- set turgu ja inforuumi. See ergutab ja edendab mitme- dardiseeritud kategooriatesse. Ressurssidele pääseb ot- keelse tehnoloogia loomist kõigi Euroopa keelte jaoks. seselt ligi ja nad on ühtse vormi järgi otsitavad. Kätte- Need tehnoloogiad toetavad masintõlget, sisutootmist, saadavate ressursside hulka kuuluvad nii vabad, avatud informatsiooni töötlemist ja teadmuse haldamist laia lähtekoodiga materjalid kui ka piiratud juurdepääsuga, valdkonna teemade ja rakenduste jaoks. Need tehno- tasulised kommertstooted. loogiad võimaldavad luua ka intuitiivseid keelepõhiseid META-RESEARCH ühendab omavahel seotud kasutajaliideseid erineva tehnika jaoks alates kodumasi- tehnoloogiavaldkonnad. Ta otsib võimalusi teiste natest, autodest ja arvutitest kuni robotiteni välja. Ala- tehnoloogiate saavutuste kasutamiseks, et seeläbi tes käivitamisest 1. veebruaril 2010 on META-NET keeletehnoloogia-alast innovatiivset uurimistööd eden- juhtinud mitmeid tegevusi oma kolmel põhilisel tege- dada. See tegevussuund keskendub juhtivatele teadus- vussuunal META-VISION, META-SHARE ja META- saavutustele masintõlkes, andmekogumises ja andmes- RESEARCH. tike töötlemises ning korraldab keeleressursside hinda- META-VISION edendab dünaamilist ja mõjukat ko- mist, koostades selleks vahendite ja meetodite ülevaa- gukonda, mida ühendab ühine visioon ja ühine stratee- teid ning korraldades tööpajasid ja koolitusi võrgustiku giline uurimisplaan (strategic research agenda). Selle te- liikmetele. offi[email protected] – http://www.meta-net.eu

31 English

32 1

EXECUTIVE SUMMARY

During the last 60 years, Europe has become a distinct duct business, share knowledge and participate in social political and economic structure. Culturally and lin- and political debate regardless of language barriers and guistically it is rich and diverse. However, from Por- computer skills. It oen operates invisibly inside com- tuguese to Polish and Italian to Icelandic, everyday com- plex soware systems. Language technology solutions munication between Europe’s citizens, within business will eventually serve as a unique bridge between Eu- and among politicians is inevitably confronted with lan- rope’slanguages. An indespensable prerequisite for their guage barriers. e EU’s institutions spend about a bil- development is first to carry out a systematic analysis of lion euros a year on maintaining their policy of multilin- the linguistic particularities of all European languages, gualism, i. e., translating texts and interpreting spoken and the current state of language technology support for communication. Does this have to be such a burden? them. Language technology and linguistic research can make a Around one million people speak Estonian as their significant contribution to removing the linguistic bor- mother tongue. Estonian is the only official language ders. Combined with intelligent devices and applica- in the Republic of Estonia. Practical language usage in tions, language technology will help Europeans talk and Estonia is regulated by the Language Act and the legis- do business together even if they do not speak a com- lation based thereon. At the same time Estonia is well- mon language. known by its e-government and e-Estonia policies. e Estonian language is supported by a long tradition of Es- tonian education and research. Language technology builds bridges. Estonian does not belong to the family of Indo- European languages. e characteristic features of Es- e only (unthinkable) alternative to this kind of a mul- tonian include the accent on the first syllable, high fre- tilingual Europe would be to allow a single language to quency of vowels as opposed to consonants, three differ- take a dominant position, to replace all other languages. ent lengths of vowels and consonants, the lack of gram- One way to overcome the language barrier is to learn for- matical gender and articles, and a basic vocabulary dif- eign languages. Yetwithout technological support, mas- ferent from that of the Indo-European languages. Esto- tering the 23 official languages of the member states of nian has a rich morphological system. e compound- the European Union and some 60 other European lan- ing is relatively free and productive in Estonian and a guages is an insurmountable obstacle for Europe’s citi- compound is written as one word-form. Derivation is zens, economy, political debate, and scientific progress. another productive device for forming new lexical items. e solution is to build key enabling technologies. Lan- Although Estonian has been described as an SVO lan- guage technology targeting all forms of written text and guage, its word order is rather free. spoken discourse can help people to collaborate, con-

33 ‘data-driven’) approaches obtain linguistic knowledge Language technology is a key for the future. from vast collections of concrete example texts. e sec- ond approach to language technology is to build rule- e automated translation and speech processing tools based systems. e great advantage of rule-based sys- currently available on the market fall short of the en- tems is that the experts have more detailed control over visaged goals. e dominant actors in the field are pri- the language processing. Drawing on the insights gained marily privately-owned for-profit enterprises based in so far, today’s hybrid language technology mixing deep Northern America. As early as the late 1970s, the EU processing with statistical methods should be able to realised the profound relevance of language technology bridge the gap between all European languages and be- as a driver of European unity. At the same time, national yond. projects were set up that generated valuable results, but European research in the area of language technology never led to a concerted European effort. Supported by has already achieved a number of successes. For example, larger research programs in the past, there exists a lan- the translation services of the European Union now use guage technology research scene in Estonia. the Moses open-source machine translation soware, Due to the complexity of human language, modelling which has been mainly developed in European research our tongues in soware and testing them in the real projects. world is a long, costly business. Unfortunately, English Machine translation is particularly challenging for the language model is not easily transferable, as Estonian Estonian language. e potential for creating arbitrary has a flexible word order, unlimited compound building new words by compounding makes dictionary analysis and a richer inflection system. and dictionary coverage difficult; free word order and Still, as a product of laborious work, there is a reliable split verb constructions pose problems for analysis, also, speller for Estonian that is implemented into main of- the amount of available parallel texts is limited. In spite fice soware suites. of this, Estonian belongs to one of the languages (cur- e Google search engine has so many users among Es- rently, around 50) which can be translated by computer. tonians that since 2009, the verb guugeldama has even In the long term spoken language applications will play had an entry in the Eesti Õigekeelsussõnaraamat (Es- a far more central role as a user-friendly input for smart- tonian ortographic and explanatory dictionary). Lan- phones. is will be largely driven by stepwise improve- guage independent search tools can only find the word ments in the accuracy of speaker-independent speech forms which have the same form as the query word or recognition via the speech dictation services already of- include the query word as a substring. As Estonian is a fered as centralised services to smartphone users. Such language with rich morphology, and since in addition language recognition applications for smart phones de- to the endings the stem itself may vary, the language veloped at Institute of Cybernetics at TUT won the specific tools as lemmatisers are needed for searching grand prize of Estonian Language Deed 2011. and indexing. It is officially recommended to use Esto- nian lemmatiser for searching and indexing of full-text Language Technology helps unify Europe. databases in information systems of public sector in Es- tonia [2]. e two main types of systems ‘acquire’ language ca- As this series of white papers shows, there is a dramatic pabilities in a similar manner to humans. Statistical (or difference between Europe’s member states in terms of

34 both the maturity of the research and in the state of ably be a high demand for the Russian-Estonian and readiness with respect to language solutions Even for Estonian-Russian automatic translation service. Most of large European languages like German or English with these tools have been developed by research institutions well studied language technologies there are still many and can be regarded as prototypes, not as mature prod- open research issues, thus for Estonian the amount of ucts. Unfortunately, the industry consists only of a few further research is even more extensive. SMEs. With regard to resources such as reference cor- In the case of the Estonian language, we can be cau- pora, lexicons, wordnets and terminologies, the situa- tiously optimistic about the current state of language tion is also reasonably good for Estonian since substan- technology support. For Estonian, a number of tech- tial resources have been built in recent decades. nologies and resources exist, but far less than for English. When it comes to more advanced fields like text seman- Language technology support today is by far not in a tics, language generation, and annotated multimodal state that is needed for offering the support a true mul- data, Estonian clearly lacks basic tools and resources tilingual knowledge society needs. even if some of these are currently under development. Tools for speech recognition and speech synthesis have e research and development was supported by differ- been developed by leading research institutions in Esto- ent national programmes of language technology what nian LT. Although the automatic morphological analy- guarantees the availability of these tools and resources. sis of Estonian is complicated, the efficiency of morpho- logical tools (such as tokeniser, lemmatiser and morpho- is white paper series complements the other strate- logical analyser) is comparable to similar tools for other gic actions taken by META-NET (see the appendix for major European languages. e development of syntac- an overview). Up-to-date information such as the cur- tic parsers must continue for achieving better perfor- rent version of the META-NET vision paper [3] or the mance. e only available tool for Estonian text genera- Strategic Research Agenda (SRA) can be found on the tion is morphological synthesiser. Most of the users pre- META-NET web site: http://www.meta-net.eu. fer Google machine translation service. Also, Estonian- META-NET’s vision is high-quality language technol- English machine translation system is under develop- ogy for all languages that supports political and eco- ment in the University of Tartu. ere would prob- nomic unity through cultural diversity.

35 2

LANGUAGES AT RISK: A CHALLENGE FOR LANGUAGE TECHNOLOGY

We are witnesses to a digital revolution that is dramati- ‚ the creation of different media like newspapers, ra- cally impacting communication and society. Recent de- dio, television, books, and other formats satisfied dif- velopments in information and communication tech- ferent communication needs. nology are sometimes compared to Gutenberg’s inven- tion of the printing press. What can this analogy tell us In the past twenty years, information technology has about the future of the European information society helped to automate and facilitate many processes: and our languages in particular? ‚ desktop publishing soware has replaced typewrit- ing and typesetting; We are witnessing a digital revolution that is comparable to Gutenberg’s invention of the ‚ Microso PowerPoint has replaced overhead projec- printing press. tor transparencies; ‚ e-mail allows documents to be sent and received Aer Gutenberg’s invention, real breakthroughs in more quickly than using a fax machine; communication were accomplished by efforts such as ‚ Skype offers cheap Internet phone calls and hosts Luther’s translation of the Bible into vernacular lan- virtual meetings; guage. In subsequent centuries, cultural techniques have ‚ audio and video encoding formats make it easy to ex- been developed to better handle language processing change multimedia content; and knowledge exchange: ‚ web search engines provide keyword-based access; ‚ the orthographic and grammatical standardisation ‚ online services like Google Translate produce quick, of major languages enabled the rapid dissemination approximate translations; of new scientific and intellectual ideas; ‚ social media platforms such as Facebook, Twitter ‚ the development of official languages made it possi- and Google+ facilitate communication, collabora- ble for citizens to communicate within certain (of- tion, and information sharing. ten political) boundaries;

‚ the teaching and translation of languages enabled ex- Although these tools and applications are helpful, they changes across languages; are not yet capable of supporting a fully-sustainable, ‚ the creation of editorial and bibliographic guidelines multilingual European society in which information assured the quality of printed material; and goods can flow freely.

36 2.1 LANGUAGE BORDERS Surprisingly, this ubiquitous digital linguistic divide HOLD BACK THE EUROPEAN has not gained much public attention; yet, it raises a very pressing question: Which European languages will INFORMATION SOCIETY thrive in the networked information and knowledge so- We cannot predict exactly what the future information ciety, and which are doomed to disappear? society will look like. However, there is a strong like- lihood that the revolution in communication technol- ogy is bringing together people who speak different lan- guages in new ways. is is putting pressure both on in- 2.2 OUR LANGUAGES AT RISK dividuals to learn new languages and especially on devel- opers to create new technology applications to ensure While the printing press helped step up the exchange of mutual understanding and access to shareable knowl- information in Europe, it also led to the extinction of edge. In the global economic and information space, many European languages. Regional and minority lan- there is increasing interaction between different lan- guages were rarely printed and languages such as Cor- guages, speakers and content thanks to new types of me- nish and Dalmatian were limited to oral forms of trans- dia. e current popularity of social media (Wikipedia, mission, which in turn restricted their scope of use. Will Facebook, Twitter, YouTube, and, recently, Google+) is the Internet have the same impact on our modern lan- only the tip of the iceberg. guages?

A global economy and information space confronts us with different languages, speakers and content. The wide variety of languages in Europe is one of its richest and most important cultural assets.

Today, we can transmit gigabytes of text around the world in a few seconds before we recognise that it is in a language that we do not understand. According to Europe’sapproximately 80 languages are one of our rich- a recent report from the European Commission, 57% est and most important cultural assets, and a vital part of Internet users in Europe purchase goods and services of this unique social model [5]. While languages such in non-languages; English is the most common foreign as English and Spanish are likely to survive in the emerg- language followed by French, German and Spanish. 55% ing digital marketplace, many European languages could of users read content in a foreign language while 35% become irrelevant in a networked society. is would use another language to write e-mails or post comments weaken Europe’sglobal standing, and run counter to the on the Web [4]. A few years ago, English might have strategic goal of ensuring equal participation for every been the lingua franca of the Web – the vast majority European citizen regardless of language. According to of content on the Web was in English – but the situa- a UNESCO report on multilingualism, languages are tion has now drastically changed. e amount of online an essential medium for the enjoyment of fundamental content in other European (as well as Asian and Middle rights, such as political expression, education and par- Eastern) languages has exploded. ticipation in society [6].

37 2.3 LANGUAGE TECHNOLOGY Tomaintain our position in the frontline of global inno- IS A KEY ENABLING vation, Europe will need language technology, tailored to all European languages, that is robust and affordable TECHNOLOGY and can be tightly integrated within key soware envi- In the past, investments in language preservation fo- ronments. Without language technology, we will not be cussed primarily on language education and transla- able to achieve a really effective interactive, multimedia tion. According to one estimate, the European market and multilingual user experience in the near future. for translation, interpretation, soware localisation and website globalisation was €8.4 billion in 2008 and is expected to grow by 10% per annum [7]. Yet this fig- 2.4 OPPORTUNITIES FOR ure covers just a small proportion of current and future LANGUAGE TECHNOLOGY needs in communicating between languages. e most In the world of print, the technology breakthrough was compelling solution for ensuring the breadth and depth the rapid duplication of an image of a text using a suit- of language usage in Europe tomorrow is to use appro- ably powered printing press. Human beings had to do priate technology, just as we use technology to solve our the hard work of looking up, assessing, translating, and transport and energy needs among others. summarising knowledge. We had to wait until Edison Language technology targeting all forms of written text to record spoken language – and again his technology and spoken discourse can help people to collaborate, simply made analogue copies. conduct business, share knowledge and participate in Language technology can now simplify and automate social and political debate regardless of language barri- the processes of translation, content production, and ers and computer skills. It oen operates invisibly inside knowledge management for all European languages. It complex soware systems to help us already today to: can also empower intuitive speech-based interfaces for ‚ find information with a search engine; household electronics, machinery, vehicles, computers and robots. Real-world commercial and industrial ap- ‚ check spelling and grammar in a word processor; plications are still in the early stages of development, ‚ view product recommendations in an online shop; yet R&D achievements are creating a genuine window ‚ follow the spoken directions of a navigation system; of opportunity. For example, machine translation is al- ‚ translate web pages via an online service. ready reasonably accurate in specific domains, and ex- perimental applications provide multilingual informa- Language technology consists of a number of core ap- tion and knowledge management, as well as content plications that enable processes within a larger applica- production, in many European languages. tion framework. e purpose of the META-NET lan- As with most technologies, the first language applica- guage white papers is to focus on how ready these core tions such as voice-based user interfaces and dialogue enabling technologies are for each European language. systems were developed for specialised domains, and oen exhibit limited performance. However, there are huge market opportunities in the education and enter- Europe needs robust and affordable language technology for all European languages. tainment industries for integrating language technolo- gies into games, edutainment packages, libraries, simula-

38 tion environments and training programmes. Mobile in- 2.5 CHALLENGES FACING formation services, computer-assisted language learning LANGUAGE TECHNOLOGY soware, eLearning environments, self-assessment tools and plagiarism detection soware are just some of the Although language technology has made considerable application areas in which language technology can play progress in the last few years, the current pace of tech- an important role. e popularity of social media ap- nological progress and product innovation is too slow. plications like Twitter and Facebook suggest a need for Widely-used technologies such as the spelling and gram- sophisticated language technologies that can monitor mar correctors in word processors are typically mono- posts, summarise discussions, suggest opinion trends, lingual, and are only available for a handful of languages. detect emotional responses, identify copyright infringe- Online machine translation services, although useful ments or track misuse. for quickly generating a reasonable approximation of a document’s contents, are fraught with difficulties when highly accurate and complete translations are required.

Language technology helps overcome the “disability” of linguistic diversity. The current pace of technological progress is too slow.

Due to the complexity of human language, modelling Language technology represents a tremendous opportu- our tongues in soware and testing them in the real nity for the European Union. It can help to address the world is a long, costly business that requires sustained complex issue of multilingualism in Europe – the fact funding commitments. Europe must therefore main- that different languages coexist naturally in European tain its pioneering role in facing the technological chal- businesses, organisations and schools. However, citizens lenges of a multiple-language community by inventing need to communicate across the language borders of the new methods to accelerate development right across the European Common Market, and language technology map. ese could include both computational advances can help overcome this final barrier, while supporting and techniques such as crowdsourcing. the free and open use of individual languages. Looking even further ahead, innovative European multilingual language technology will provide a benchmark for our 2.6 LANGUAGE ACQUISITION global partners when they begin to support their own multilingual communities. Language technology can be IN HUMANS AND MACHINES seen as a form of “assistive” technology that helps over- Toillustrate how computers handle language and why it come the “disability” of linguistic diversity and makes is difficult to program them to process different tongues, language communities more accessible to each other. Fi- let’s look briefly at the way humans acquire first and sec- nally, one active field of research is the use of language ond languages, and then see how language technology technology for rescue operations in disaster areas, where systems work. performance can be a matter of life and death: Future in- Humans acquire language skills in two different ways. telligent robots with cross-lingual language capabilities Babies acquire a language by listening to the real inter- have the potential to save lives. actions between their parents, siblings and other family

39 members. From the age of about two, children produce e second approach to language technology, and to their first words and short phrases. is is only possi- machine translation in particular, is to build rule-based ble because humans have a genetic disposition to imitate systems. Experts in the fields of linguistics, computa- and then rationalise what they hear. tional linguistics and computer science first have to en- Learning a second language at an older age requires code grammatical analyses (translation rules) and com- more cognitive effort, largely because the child is not im- pile vocabulary lists (lexicons). is is very time con- mersed in a language community of native speakers. At suming and labour intensive. Some of the leading rule- school, foreign languages are usually acquired by learn- based machine translation systems have been under con- ing grammatical structure, vocabulary and spelling using stant development for more than 20 years. e great ad- drills that describe linguistic knowledge in terms of ab- vantage of rule-based systems is that the experts have stract rules, tables and examples. more detailed control over the language processing. is makes it possible to systematically correct mistakes in the soware and give detailed feedback to the user, es- pecially when rule-based systems are used for language Humans acquire language skills in two different learning. However, due to the high cost of this work, ways: learning from examples and learning the rule-based language technology has so far only been de- underlying language rules. veloped for a few major languages.

Moving now to language technology, the two main The two main types of language technology types of systems ‘acquire’ language capabilities in a sim- systems acquire language in a similar manner. ilar manner. Statistical (or ‘data-driven’) approaches ob- tain linguistic knowledge from vast collections of con- As the strengths and weaknesses of statistical and rule- crete example texts. While it is sufficient to use text in a based systems tend to be complementary, current re- single language for training, e. g., a spell checker, paral- search focusses on hybrid approaches that combine the lel texts in two (or more) languages have to be available two methodologies. However, these approaches have so for training a machine translation system. e machine far been less successful in industrial applications than in learning algorithm then “learns” patterns of how words, the research lab. short phrases and complete sentences are translated. As we have seen in this chapter, many applications is statistical approach usually requires millions of sen- widely used in today’s information society rely heavily tences to boost performance quality. is is one rea- on language technology, particularly in Europe’s eco- son why search engine providers are eager to collect as nomic and information space. Although this technol- much written material as possible. Spelling correction in ogy has made considerable progress in the last few years, word processors, and services such as Google Search and there is still huge potential to improve the quality of lan- Google Translate, all rely on statistical approaches. e guage technology systems. In the next section, we de- great advantage of statistics is that the machine learns scribe the role of Estonian in European information so- quickly in a continuous series of training cycles, even ciety and assess the current state of language technology though quality can vary randomly. for the Estonian language.

40 3

THE ESTONIAN LANGUAGE IN THE EUROPEAN INFORMATION SOCIETY

3.1 GENERAL FACTS dialects but acquired some features also from the South- ern dialects [37]. Around one million people speak Estonian as their Nowadays, the regional varieties are mostly spoken in mother tongue. Most of the speakers (922,000) live Southern Estonian and on the western islands. e Setu in the territory of modern Estonia, but approximately and Võru regional varieties spoken in the South-Eastern 160,000 people speak the language also in Russia, US, corner of Estonia are the most different from Standard , Canada, and many other countries [8]. Estonian. e state supports the use of regional varieties According to the census of the year 2000, there are and their preservation as a cultural treasure, as a devel- 1,370,052 inhabitants the Republic of Estonia, and of opment source of Standard Estonian and as bearer of the those 167,804 speak Estonian as a second language [9]. local identity. Many schools in Võru and Viljandi coun- Estonian is the only official language in the Republic of ties in South Estonia teach local dialects (Võru, Setu and Estonia. Mulgi) as an optional subject. e Estonian spoken abroad consists of several varieties Around one million people speak Estonian as all influenced to some extent by the dominating lan- their mother tongue. guage spoken in the country of residence of the speak- ers. In some cases the Estonian spoken by an emigrant Varieties of Estonian include the regional varieties (di- group abroad has developed on its own for more than a alects and the corresponding written forms); varieties of century. Estonian spoken by Estonians living abroad, social va- Estonian sign language – more precisely, Estonian sign rieties (various sociolects) and varieties used by people language and signed Estonian are the mother tongue of with specific linguistic needs, including sign language. nearly 2000 deaf people [11]. It is also one the main e biggest regional linguistic differences occur be- means of communication for the people with impaired tween the Northern and Southern dialects. ese dif- hearing (and for the attendants of both groups). ferences date from the times before Christ when differ- ent languages started to secede from the original Balto- Finnic branch of the Uralic languages. e fact that peo- 3.2 PARTICULARITIES OF THE ple were very sedentary until the 19th century conduced to the development of regional language forms which ESTONIAN LANGUAGE can be divided up to 100 parish dialects. Contemporary Estonian belongs to the Finnic branch of the Finno- Standard Estonian evolved on the basis of the Northern Ugric languages, along with Finnish, Karelian, and other

41 closely related languages. Also, Estonian is distantly re- e conditional and oblique moods of verbs are also lated to Hungarian. It is important to note that Uralic quite exceptional typologically. Conditional mood is languages do not belong to the family of Indo-European marked by affix -ks(i)- and it expresses hypothetical state languages. of affairs or an uncertain event:

Kui ta treeniks rohkem, jookseks ta kiiremini. Estonian does not belong to the family of (If he/she trained more, he/she would run faster.) Indo-European languages. Verbs in oblique mood are marked with an ending -vat. is mood is used to report a non-witnessed event with- Typologically, Estonian represents a transitional form out confirming it: from an agglutinating language to a fusional language. Ta jooksvat kiiresti. Over the course of Estonian history, German has exer- (It has been told that he/she runs fast.) cised a strong influence on Estonian, both in vocabulary and syntax. e characteristic features of Estonian in- Although Estonian has been described as an SVO lan- clude the accent on the first syllable, high frequency of guage, its word order is rather free. e only dominat- vowels as opposed to consonants, three different lengths ing tendency is to use the finite verb form in the second of vowels and consonants (so-called gradation), the lack position in the clause. e word order is affected by the of grammatical gender (even in pronouns) and articles, information structure of the clause, i. e. it distinguishes and a basic vocabulary different from that of the Indo- given and new information: European languages. Estonian has a rich morphological system: the nouns de- ‚ Ta jooksis kiiresti koju. cline in 14 cases both in singular and plural; the verbs are (He/she ran home fast.) inflected for tense, person, mood and voice. Although ‚ Kiiresti jooksis ta koju. Estonian has 14 cases, there is no accusative, the typ- (It was very fast how he/she ran home.) ical case for coding the syntactic object, which is in- ‚ Koju jooksis ta kiiresti. stead coded using the partitive, genitive or nominative (He/she ran home fast [but not so fast to school].) case forms. e compounding is relatively free and pro- ‚ Jooksis ta kiiresti koju? ductive in Estonian and a compound is written as one (Did he/she run home fast?) word-form. e compounds are produced on the fly, if ‚ Kui ta kiiresti koju jooksis, siis … needed, and as so there is no possibility of listing all of (While he/she was running home fast, …) them in a lexicon. Derivation is another productive de- vice for forming new lexical items. Although Estonian is close to Finnish, the long-time In Estonian, there is no grammatical future tense and the German influence has induced several features char- future actions are most oen expressed using a verb in a acteristic to the so-called Standard Average European present tense form with the time being indicated by the (SAE) [12]. e SAE-like features include the word context: order in some clause types, the massive use of particle verbs, especially for coding the aspect of the action. So Ta saabub homme. for saying He did it one needs free words in Finnish: (He/she will arrive tomorrow.) Hän teki sen and the same words plus an extra aspectual

42 particle in Estonian: Ta tegi selle ära. Estonian vocab- ulary also contains more foreign words and loanwords The problems known to many other languages than Finnish. are also seen as the greatest threats to Estonian: the drop in the number of mother-tongue Estonian uses phonetic spelling and is written in Latin speakers, blurring of the language norms, alphabet. In addition to the basic character set the extra excessive influence of foreign languages, characters õ, ä, ö, ü are used, also š and ž in foreign words. especially that of the English-speaking and -writing social media and pop-culture. ere is a thorough typological description of the lan- guage edited by Mati Erelt [14]. In order to preserve Estonian language, several state in- stitutions have been established. e Language Inspec- 3.3 RECENT DEVELOPMENTS torate checks the enforcement of the legislative acts con- Estonian has been influenced by German (initially Mid- cerned with the language matters. e Language Policy dle Low German, later also standard German), Russian Department at the Ministry of Education and Research and English, though it is not related to them genetically. is involved with Estonia’s language policy planning and Aer the World War II, Estonian was a subject to russifi- helps to make the language better known abroad. e cation. Estonian, which had been the official language Estonian Language Council is ministry’s advisory coun- since the establishment of the independent state of Es- cil on language and has compiled the strategy for main- tonia in 1918, was downgraded. Aer the collapse of the taining and developing the Estonian language. Soviet Union, Estonian once again became the only of- ficial language of the Republic of Estonia. Today, Estonian (as also, e. g., Icelandic) is one of the 3.4 LANGUAGE CULTIVATION smallest languages in the world functioning as an offi- IN ESTONIA cial language at all levels of social interaction: adminis- According to the Constitution, the official language of tration, media, literature, theatre, business, school, uni- the Republic of Estonia is Estonian and it is the state’s versities, research, etc. obligation to preserve the Estonian language, nation During the last decades, aer Estonia had regained in- and culture “through the ages”. e measures neces- dependence from the Soviet Union, on one hand, the sary for the preservation and development of the Es- position of Estonian has strengthened: it has the status tonian language are defined in the Development Strat- of official language and its preservation is guaranteed egy of the Estonian Language (2004–2010) [37] and by laws, and on the other hand, the position has been the upcoming Estonian Language Development Plan weakened due to the globalisation and the develop- (2011–2017) [15]. ment of the information society. e problems known to many other languages are also seen as the greatest threats to Estonian: the drop in the number of mother- Practical language usage in Estonia is tongue speakers, blurring of the language norms, ex- regulated by the Language Act and the legislation based thereon. cessive influence of foreign languages, especially that of the English-speaking and -writing social media and pop- culture. Keeping up with the bigger languages in terms Practical language usage in Estonia is regulated by the of language technology is also a complicated task. Language Act and the legislation based thereon. e ac-

43 tivities related to the development and usage of Esto- plan for Estonian language will ensure the status of Es- nian (as well as other languages) is coordinated by the tonian as an offcial language and its continuous use as Ministry of Education and Research. e Estonian Lan- the primary language of communication in the Estonian guage Council observes and analyses the language sit- state. uation and prepares monitoring reports and follow-up strategies concerning the language strategy. Among the divisions of the Ministry of Education and Research, 3.5 LANGUAGE IN EDUCATION the National Examinations and ualifications Centre Education is one of the most important means of guar- and the Language Inspectorate are engaged in language- anteeing the development and position of a language. related issues. Among the agencies under the adminis- One of the roles of education is to provide general and tration of the ministry, such issues are dealt with by the professional literacy and to shape favorable attitudes Institute of Estonian Language. e Language Com- towards Estonian language among the non-Estonians. mission of the Mother Tongue Society, the Tartu Lan- General education, especially compulsory general ed- guage Cultivation Centre and also the professors and ucation, is of fundamental importance because it in- researchers of the Tartu and Tallinn Universities are in- fluences the language use most of all. volved in language cultivation. According to the law, any language can serve as the tu- ition language in basic school. At present time, two lan- Estonian is one of the official languages of the European guages of tuition are used in secondary schools: three Union and Estonian EU legislative terminology is being quarters of schools teach in Estonian, one quarter in developed in cooperation with the terminology depart- Russian. In order to improve the proficiency of Esto- ment of the Institute of Estonian Language and the Es- nian among non-Estonian secondary school graduates, tonian Terminology Society. a transition process for non-Estonian secondary schools In 2003, the Development Strategy of the Estonian Lan- has begun in 2007 for teaching some of the topics in Es- guage 2004–2010 was compiled by the members of the tonian. Estonian Language Council [37]. e strategy provides Estonian language is a compulsory subject in all basic a research-based description of the situation of the Esto- and secondary schools (including all schools of simi- nian language, the objectives that need to be achieved, lar levels which teach various professionals). In fall and the necessary steps and institutions and people involved. spring semester of 2009/2010, the number of students e development strategy of the Estonian language cov- in Estonian basic schools was 90,837 (ca 84,000 being ers all the major areas of language use including language native Estonians), while in secondary schools the num- technology. ber of students was 23,769 (22,741 being native Estoni- e next development plan for Estonian language has ans) [15]. been compiled in 2010 by Estonian Language Coun- cil [15]. e development plan for Estonian language The Estonian language is supported by 2011–2017 is a document which lays down main strate- a long tradition of Estonian higher education gic directions for the development, teaching, research- and research. ing and protection of Estonian. Together with its ap- plication plan, relevant legislative documents and other e Estonian language is supported by a long tradi- supporting activities (e. g., financing), the development tion of Estonian higher education and research. How-

44 ever, internationalisation has increased the proportion Estonia is well-known by its e-government and e- of teaching in foreign languages, and also the number Estonia policies. e-Governance comes in two parts; the of foreign students and university lecturers. In Estonian act of governing using the Internet (voting, participa- universities, almost all fields can be studied in Estonian tion) and the delivery of public services. For example, by at all levels. At the bachelor level, the student will almost using these e-services, citizens/residents of Estonia can always study his/her field in Estonian, although some vote at elections, declare taxes, register to medical con- specific topics might be taught in other languages. sultations, or even monitor the achievements of their Among non-Estonian adults, Estonian language courses children at school. have been mostly organised for professionals with the Most of the local companies have their web pages in Es- greatest communicative needs (e. g., medical nurses, po- tonian, the newspapers publish their news in the news lice officers) and for people applying for Estonian cit- portals (e. g., http://postimees.ee, http://ohtuleht.ee, izenship (tuition fees are refunded to successful learn- http://paevaleht.ee, and many others) [18]. ere are a ers); TV courses of Estonian are also being organised. lot of specialised Internet forums, where users commu- nicate in Estonian. Also the social networks like Orkut and Facebook have been localised to Estonian. In addi- 3.6 INTERNATIONAL ASPECTS tion, there exist numerous chatrooms where the users Estonian has been one of the official languages of the Eu- communicate in Estonian slang. e voluntary commu- ropean Union since 2004. is means that Estonian can nity is developing Estonian Wikipedia with more than be used as a language in international communication. 88,900 pages. Estonia is becoming more and more attractive to e growing importance of the Internet is critical for tourists. As a result, the number of people interested in language technology. e vast amount of digital lan- Estonian language and culture has increased during the guage data is a key resource for analysing the usage of recent years. natural language, in particular, for collecting statistical Estonia supports teaching of Estonian abroad – at the information about patterns. And the Internet offers a moment there are more than 30 universities offering var- wide range of application areas for language technology. ious opportunities to study Estonian [16]. e most commonly used web application is search, which involves the automatic processing of language on 3.7 ESTONIAN ON THE multiple levels as will be shown in more detail later. Web search involves sophisticated language technology that INTERNET differs for each language. According to statistics, in 2010 about 381,300 fami- It is an expressed political aim in Estonia as well as other lies in Estonia have Internet connection at home, and European countries to ensure equal opportunities for 758,100 people use Internet regularly [17]. everyone. Public agencies need to make sure that their web sites and Internet services can be used by the dis- abled without restrictions. User-friendly language tech- Estonia is well-known by its e-government and nology tools offer the principal solution to satisfy this e-Estonia policies. regulation, for example by offering speech synthesis for the blind.

45 Internet users and providers of web content can also need. is may be due to the complexity of the Estonian use language technology in less obvious ways, for ex- language and to the range of different technologies in- ample, by automatically translating web page contents volved in typical applications. from one language into another. Despite the high cost e next chapter gives an introduction to language tech- of manually translating this content, comparatively little nology and its core application areas, together with an language technology has been developed and applied to evaluation of current language technology support for the issue of website translation in light of the supposed Estonian.

46 4

LANGUAGE TECHNOLOGY SUPPORT FOR ESTONIAN

Language technology is used to develop soware sys- ‚ information retrieval tems designed to handle human language and are there- ‚ information extraction fore oen called “human language technology”.Human ‚ text summarisation language comes in spoken and written forms. While ‚ question answering speech is the oldest and in terms of human evolution the ‚ speech recognition most natural form of language communication, com- ‚ speech synthesis plex information and most human knowledge is stored and transmitted through the written word. Speech and Language technology is an established area of research text technologies process or produce these different with an extensive set of introductory literature. e in- forms of language, using dictionaries, rules of grammar, terested reader is referred to the following references: and semantics. is means that language technology [19, 20, 21, 22, 23]. (LT) links language to various forms of knowledge, in- Before discussing the above application areas, we will dependently of the media (speech or text) in which it is briefly describe the architecture of a typical LT system. expressed. Figure 1 illustrates the LT landscape. When we communicate, we combine language with other modes of communication and information media 4.1 APPLICATION – for example speaking can involve gestures and facial ARCHITECTURES expressions. Digital texts link to pictures and sounds. Soware applications for language processing typically Movies may contain language in spoken and written consist of several components that mirror different as- form. In other words, speech and text technologies over- pects of language. While such applications tend to be lap and interact with other multimodal communication very complex, figure 2 shows a highly simplified archi- and multimedia technologies. tecture of a typical text processing system. e first three In this section, we will discuss the main application modules handle the structure and meaning of the text areas of language technology, i. e., language checking, input: web search, speech interaction, and machine transla- tion. ese applications and basic technologies include 1. Pre-processing: cleans the data, analyses or removes formatting, detects the input languages, and so on. ‚ spelling correction 2. Grammatical analysis: finds the verb, its objects, ‚ authoring support modifiers and other sentence elements; detects the ‚ computer-assisted language learning sentence structure.

47 Speech Technologies

Multimedia & Language Multimodality Knowledge Technologies Technologies Technologies Text Technologies

1: Language technology in context

3. Semantic analysis: performs disambiguation (i. e., 4.2.1 Language Checking computes the appropriate meaning of words in a Anyone who has used a word processor such as Mi- given context); resolves anaphora (i. e., which pro- croso Word knows that it has a spell checker that high- nouns refer to which nouns); represents the meaning lights spelling mistakes and proposes corrections. e of the sentence in a machine-readable way. first spelling correction programs compared a list of ex- Aer analysing the text, task-specific modules can per- tracted words against a dictionary of correctly spelled form other operations, such as automatic summarisation words. Today these programs are far more sophisticated. and database look-ups. Using language-dependent algorithms for grammatical In the remainder of this section, we firstly introduce analysis, they detect errors related to morphology (e. g., the core application areas for language technology, and plural formation) as well as syntax-related errors, such follow this with a brief overview of the state of LT re- as a missing verb or a conflict of verb-subject agreement search and education today, and a description of past (e. g., she *write a letter). However, most spell checkers and present research programmes. Finally, we present an will not find any errors in the following text [24]: expert estimate of core LT tools and resources for Esto- I have a spelling checker, nian in terms of various dimensions such as availability, It came with my PC. maturity and quality. e general situation of LT for the It plane lee marks four my revue Estonian language is summarised in a matrix (figure 7). Miss steaks aye can knot sea. Tools and resources that are boldfaced in the text can also be found in figure 7 (p. 60) at the end of this chap- Handling these kinds of errors usually requires an anal- ter. LT support for Estonian is also compared to other ysis of the context. For example: deciding whether the languages that are part of this series. noun phrase has an agreement in case and number, as in:

4.2 CORE APPLICATION AREAS ‚ värvilise õied In this section, we focus on the most important LT tools colourful-SG-GEN blooms and resources, and provide an overview of LT activities ‚ värvilised õied in Estonia. colourful-PL-NOM blooms

48 Input Text Output

Pre-processing Grammatical Analysis Semantic Analysis Task-specific Modules

2: A typical text processing architecture

is type of analysis either needs to draw on language- development focused on the modeling of compound- specific grammars laboriously coded into the soware ing and derivation. In 1994, the first version of Estonian by experts, or on a statistical language model. In this speller was released. e later versions have had better case, a model calculates the probability of a particular lexicons of proper names, abbreviations, neologisms etc. word as it occurs in a specific position (e. g., between e speller has been integrated with MS Office, the words that precede and follow it). For example: OpenOffice.org and IBM Lotus Notes programs. e värvilised õied is a much more probable word sequence speller is being developed by the private company than värvilise õied. Language checking applications also Filoso [25]. automatically correct search engine queries, as found in Also, there have been other attempts for developing Google’s Did you mean… suggestions. spellers for Estonian. Several versions of open source A statistical language model can be automatically cre- tools for spell-checking Estonian have been created. e ated by using a large amount of (correct) language data lexicon for ispell is most widely known. Its main disad- (called a text corpus). Most of these two approaches vantage is the inability to handle compounds. have been developed around data from English. Neither Grammar checker verifies the structure and punctuation approach can transfer easily to Estonian because the lan- of the sentence. e development of Estonian grammar guage has a flexible word order, unlimited compound checker started in 2007 in the University of Tartu. At building and a richer inflection system. present time, a prototype of the checker has been cre- ated which is able to find places of missing commas with The use of language checking is not limited to the precision of 95%. word processors. It also applies to Language checking is not limited to word processors; authoring support systems. it is also used in “authoring support systems”, i. e., so- ware environments in which manuals and other types e development of Estonian speller dates back to of technical documentation for complex IT, healthcare, 1991. e implementation of speller soware has been engineering and other products, are written. To off- strongly related to the progress of development of mor- set customer complaints about incorrect use and dam- phological analyser for Estonian, known under the age claims resulting from poorly understood instruc- name ESTMORF. e base for the speller and analyser tions, companies are increasingly focusing on the qual- was the lexicon of 36,000 simple words and the descrip- ity of technical documentation while targeting the in- tions for forming all word forms of them. e further ternational market (via translation or localisation) at

49 Statistical Language Models

Input Text Spelling Check Grammar Check Correction Proposals

3: Language checking (top: statistical; bottom: rule-based)

the same time. Advances in natural language process- tate text interpretation. Experiments using lexical re- ing have led to the development of authoring support sources such as machine-readable thesauri or ontologi- soware, which helps the writer of technical documen- cal language resources (e. g., WordNet for English) have tation to use vocabulary and sentence structures that are demonstrated improvements in finding pages using syn- consistent with industry rules and (corporate) terminol- onyms of the original search terms, such as aatomiener- ogy restrictions. gia [atomic energy] and tuumaenergia [nuclear energy], Besides spell checkers and authoring support, language or even more loosely related terms. checking is also important in the field of computer- assisted language learning. The next generation of search engines will have to include much more sophisticated 4.2.2 Web Search language technology. Searching the Web,intranets or digital libraries is proba- bly the most widely used yet largely underdeveloped lan- e next generation of search engines will have to in- guage technology application today. e Google search clude much more sophisticated language technology, engine, which started in 1998, now handles about 80% especially to deal with search queries consisting of a of all search queries [26]. Since 2009, the verb guugel- question or other sentence type rather than a list of key- dama has even had an entry in the Eesti Õigekeelsussõ- words. For the query, Give me a list of all companies naraamat (Estonian ortographic and explanatory dic- that were taken over by other companies in the last five tionary). e Google search interface and results page years, a syntactic as well as semantic analysis is required. display has not significantly changed since the first ver- e system also needs to provide an index to quickly re- sion. However, in the current version, Google offers trieve relevant documents. A satisfactory answer will re- spelling correction for misspelled words and incorpo- quire syntactic parsing to analyse the grammatical struc- rates basic semantic search capabilities that can improve ture of the sentence and determine that the user wants search accuracy by analysing the meaning of terms in companies that have been acquired, rather than compa- a search query context [27]. e Google success story nies that have acquired other companies. For the expres- shows that a large volume of data and efficient indexing sion last five years, the system needs to determine the techniques can deliver satisfactory results using a statis- relevant range of years, taking into account the present tical approach to language processing. year. e query then needs to be matched against a huge For more sophisticated information requests, it is essen- amount of unstructured data to find the pieces of infor- tial to integrate deeper linguistic knowledge to facili- mation that are relevant to the user’s request. is pro-

50 Web Pages

Pre-processing Semantic Processing Indexing

Matching & Relevance

Pre-processing Query Analysis

User Query Search Results

4: Web search

cess is called information retrieval, and involves search- a language with rich morphology, and since in addition ing and ranking relevant documents. Togenerate a list of to the endings the stem itself may vary, the language spe- companies, the system also needs to recognise a particu- cific tools are needed for searching and indexing. lar string of words in a document represents a company Documents are held in the computer as one big textual name, using a process called named entity recognition. database. e problem of full text search is oen di- A more demanding challenge is matching a query in vided into two sub-tasks: indexing and searching. e one language with documents in another language. indexing stage will scan the texts of all documents and Cross-lingual information retrieval involves automati- build a list of search terms, oen called the index. In the cally translating the query into all possible source lan- search stage, when performing a specific query, only the guages and then translating the results back into the index is referenced rather than the text of the original user’s target language. documents. e indexer will make an entry in the index Now that data is increasingly found in non-textual for- for each term or word found in a document and possi- mats, there is a need for services that deliver multime- bly its relative position within the document. Language- dia information retrieval by searching images, audio files specific indexers also employ language-specific stem- and video data. In the case of audio and video files, ming (lemmatising) on the words being indexed, so for a speech recognition module must convert the speech example any token of the Estonian words käsi, käe, or content into text (or into a phonetic representation) kätt (hand in nominative, genitive and partitive case) that can then be matched against a user query. will be recorded in the index under a single stem-form Language independent search tools can only find the (lemma) käsi. In some cases, automatic lemmatiser may word forms which have the same form as the query word find many lemmas for one word form. For example, the or include the query word as a substring. As Estonian is lemmas of kuue are kuub (jacket) or kuus (six). In order

51 to solve this ambiguity, the system has to take account 3. Dialogue management determines which action to the context of the word and perform morphological dis- take given the user input and system functionality. ambiguation process. 4. Speech synthesis (text-to-speech or TTS) trans- It is officially recommended to use Estonian lemma- forms the system’s reply into sounds for the user. tiser for searching and indexing of full-text databases in information systems of public sector in Estonia [2]. One of the major challenges of ASR systems is to ac- e first use of lemmatiser-based search was imple- curately recognise the words a user utters. is means mented 1997–2001 for information systems of State restricting the range of possible user utterances to a Chancellery. Also Google search for Estonian includes limited set of keywords, or manually creating language some probably stochastic lemmatisation, e. g., search models that cover a large range of natural language ut- word majandusminister would also return hits for ma- terances. Using machine learning techniques, language jandusministri, the singular genitive of majandusminis- models can also be generated automatically from speech ter (minister of economy). corpora, i. e., large collections of speech audio files and text transcriptions. Restricting utterances usually forces 4.2.3 Speech Interaction people to use the voice user interface in a rigid way and can damage user acceptance; but the creation, tuning Speech interaction is one of many application areas that and maintenance of rich language models will signifi- depend on speech technology, i. e., technologies for pro- cantly increase costs. VUIs that employ language mod- cessing spoken language. Speech interaction technol- els and initially allow a user to express their intent more ogy is used to create interfaces that enable users to in- flexibly – prompted by a How may I help you? greeting teract in spoken language instead of using a graphical – tend to be automated and are better accepted by users. display, keyboard and mouse. Today, these voice user interfaces (VUI) are used for partially or fully auto- mated telephone services provided by companies to cus- Speech interaction is the basis for creating tomers, employees or partners. Business domains that interfaces that allow a user to interact with spoken language instead of a graphical display, rely heavily on VUIs include banking, supply chain, keyboard and mouse. public transportation, and telecommunications. Other uses of speech interaction technology include interfaces to car navigation systems and the use of spoken language Companies tend to use utterances pre-recorded by pro- as an alternative to the graphical or touchscreen inter- fessional speakers for generating the output of the voice faces in smartphones. user interface. For static utterances where the wording Speech interaction technology comprises four tech- does not depend on particular contexts of use or per- nologies: sonal user data, this can deliver a rich user experience. But more dynamic content in an utterance may suffer 1. Automatic speech recognition (ASR) determines from unnatural intonation because different parts of au- which words are actually spoken in a given sequence dio files have simply been strung together. rough opti- of sounds uttered by a user. misation, today’s TTS systems are getting better at pro- 2. Natural language understanding analyses the syntac- ducing natural-sounding dynamic utterances. tic structure of a user’s utterance and interprets it ac- Interfaces in speech interaction have been considerably cording to the system in question. standardised during the last decade in terms of their

52 Speech Output Phonetic Lookup & Speech Synthesis Intonation Planning Natural Language Understanding & Dialogue Speech Input Signal Processing Recognition

5: Speech-based dialogue system

various technological components. ere has also been specific purposes, there is a speech recognition system strong market consolidation in speech recognition and for radiologists under development. e first experi- speech synthesis. e national markets in the G20 coun- ments with it yielded promising results (only 10% errors tries (economically resilient countries with high popu- in real-time recognition). lations) have been dominated by just five global play- During the years 1997–2002 the first Estonian text- ers, with Nuance (USA) and Loquendo (Italy) being the to-speech synthesiser has been developed in the coop- most prominent players in Europe. In 2011, Nuance an- eration of IOC, Institute of Estonian Language (IEL) nounced the acquisition of Loquendo, which represents and Filoso. It belongs to the first generation of speech a further step in market consolidation. synthesisers based on diphones. Every speech unit cor- During the last decade, the research on automatic responds to exactly on diphone (sound-to-sound tran- speech recognition in Estonia has been carried out sition) in the database. e output of the synthesiser mainly at the Laboratory of Phonetics and Speech Tech- is understandable, but the sound itself is monotonous, nology, Institute of Cybernetics at Tallinn University with somewhat unnatural tone and poorly coherent. of Technology (IOC). In 2000, a prototype for iso- is synthesiser is adapted for use by blinds. e syn- lated word recognition (Estonian numbers and names thesiser is an open-source product, and may be used for of Estonian letters) was developed. In 2002–2004 a lim- non-commercial and non-military purposes [29]. ited vocabulary connected speech recognition system IEL is developing the new corpus-based version of the based on hidden Markov models (HMM) as context- synthesiser where the longer speech units have been dependent phone units was developed. e last version used in addition to diphones (word and phrase). (2010) of the system with unlimited vocabulary is able e prize for the Best Language Deed in 2010 (estab- to recognize 63–85% of words. e result depends heav- lished by the Ministry of Education and Research) was ily on the genre of the speech, vocabulary and the quality awarded to OÜ Jumalalaegas and the Estonian Library of the signal (the noise level) [28]. for the Blind for developing voice guidance tools for ere is a web application of speech recogniser which blinds. ese tools use partially the speech synthesiser enables to browse automatically transcribed conversa- for Finnish. tional broadcasts, and both listen and search them. Also, Looking ahead, there will be significant changes, due to a web service is available for users to send their own the spread of smartphones as a new platform for man- sound files to the system for the transcription. For more aging customer relationships, in addition to fixed tele-

53 phones, the Internet and e-mail. is will also affect level (a mouse is an input device of computer or an ani- how speech interaction technology is used. In the long mal) or the assignment of case on the syntactic level, for term, there will be fewer telephone-based VUIs, and example: spoken language apps will play a far more central role as a user-friendly input for smartphones. is will be Naine nägi autot ja mees ka. largely driven by stepwise improvements in the accu- Naine nägi autot ja meest ka. racy of speaker-independent speech recognition via the e woman saw the car and the man, too. speech dictation services already offered as centralised services to smartphone users. One way to build an MT system is to use linguistic “Language recognition applications for smart phones” rules. For translations between closely related languages, by Tanel Alumäe and Kaarel Kaljurand developed at In- a translation using direct substitution may be feasible in stitute of Cybernetics at TUT won the grand prize of cases such as the above example. However, rule-based Language Deed 2011. (or linguistic knowledge-driven) systems oen analyse the input text and create an intermediary symbolic rep- 4.2.4 Machine Translation resentation from which the target language text can be generated. e success of these methods is highly depen- e idea of using digital computers to translate natural dent on the availability of extensive lexicons with mor- languages can be traced back to 1946 and was followed phological, syntactic, and semantic information, and by substantial funding for research during the 1950s and large sets of grammar rules carefully designed by skilled again in the 1980s. Yet machine translation (MT) still linguists. is is a very long and therefore costly process. cannot deliver on its initial promise of providing across- In the late 1980s when computational power increased the-board automated translation. and became cheaper, interest in statistical models for machine translation began to grow. Statistical models At its basic level, machine translation simply are derived from analysing bilingual text corpora, paral- substitutes words in one natural language with lel corpora, such as the Europarl parallel corpus, which words in another language. contains the proceedings of the European Parliament in 21 European languages. Given enough data, statis- e most basic approach to machine translation is the tical MT works well enough to derive an approximate automatic replacement of the words in a text written meaning of a foreign language text by processing parallel in one natural language with the equivalent words of versions and finding plausible patterns of words. Unlike another language. is can be useful in subject do- knowledge-driven systems, however, statistical (or data- mains that have a very restricted, formulaic language driven) MT systems oen generate ungrammatical out- such as weather reports. However, in order to produce a put. Data-driven MT is advantageous because less hu- good translation of less restricted texts, larger text units man effort is required, and it can also cover special par- (phrases, sentences, or even whole passages) need to be ticularities of the language (e. g., idiomatic expressions) matched to their closest counterparts in the target lan- that are oen ignored in knowledge-driven systems. guage. e major difficulty is that human language is e strengths and weaknesses of knowledge-driven and ambiguous. Ambiguity creates challenges on multiple data-driven machine translation tend to be complemen- levels, such as word sense disambiguation at the lexical tary, so that nowadays researchers focus on hybrid ap-

54 Text Analysis (Formatting, Source Text Morphology, Syntax, etc.) Statistical Machine Translation Rules Translation

Target Text Text Generation

6: Machine translation (left: statistical; right: rule-based)

proaches that combine both methodologies. One such iments (computer Ural) had a speed of 100 operations approach uses both knowledge-driven and data-driven per second, and this mediocre performance was one of systems, together with a selection module that decides the main reasons for discontinuing the experiments. on the best output for each sentence. However, results ere exist two statistical machine translation systems for sentences longer than, say, 12 words, will oen be for Estonian. e best known is the translation service far from perfect. A more effective solution is to com- by Google. Its quality is not always satisfactory but still bine the best parts of each sentence from multiple out- enables the rough understanding of the text topic and puts; this can be fairly complex, as corresponding parts basic facts. of multiple alternatives are not always obvious and need e research group in the University of Tartu is cur- to be aligned. rently working on the idea of Estonian-English ma- chine translation. is translation system (located on Machine Translation is particularly challenging the page http://masintolge.ut.ee) allows for the trans- for the Estonian language. lation of sentences with a limited length from Esto- nian to English. is system uses open source SMT de- Machine translation is particularly challenging for the coder Moses and is trained using JRC-Acquis, OPUS Estonian language. e potential for creating arbitrary and other Estonian-English parallel corpora. new words by compounding makes dictionary analysis e use of machine translation can significantly in- and dictionary coverage difficult; free word order and crease productivity provided the system is intelligently split verb constructions pose problems for analysis, also, adapted to user-specific terminology and integrated the amount of available parallel texts is limited. In spite into a workflow. Special systems for interactive transla- of this, Estonian belongs to one of the languages (cur- tion support were developed, for example, at Siemens. rently, around 50) which can be translated by computer Language portals such as the Volkswagen site provide [30]. access to dictionaries, company-specific terminology, e history of machine translation of Estonian dates translation memory and MT support. back to the end of 50s when mathematicians of Univer- ere is still a huge potential for improving the qual- sity of Tartu experimented with building a system for ity of MT systems. e challenges involve adapting lan- automatic translation of mathematical texts from Rus- guage resources to a given subject domain or user area, sian to Estonian. e hardware used during these exper- and integrating the technology into workflows that al-

55 ready have term bases and translation memories. An- gine responds by delivering a collection of potentially other problem is that most of the current systems are relevant documents) and enables users to ask a concrete English-centred and only support a few languages from question to which the system provides a single answer. and into other European languages. is leads to fric- For example: tion in the translation workflow and forces MT users to learn different lexicon coding tools for different systems. Question: How old was Neil Armstrong when he Evaluation campaigns help to compare the quality of stepped on the moon? MT systems, the different approaches and the status Answer: 38. of the systems for different language pairs. Figure 7 While question answering is obviously related to the (p. 23), which was prepared during the EC Euromatrix+ core area of web search, it is nowadays an umbrella term project, shows the pair-wise performances obtained for for such research issues as which different types of ques- 22 of the 23 official EU languages (Irish was not com- tions exist, and how they should be handled; how a set pared). e results are ranked according to a BLEU of documents that potentially contain the answer can be score, which indicates higher scores for better transla- analysed and compared (do they provide conflicting an- tions [31]. A human translator would normally achieve swers?); and how specific information (the answer) can a score of around 80 points. be reliably extracted from a document without ignoring e best results (in green and blue) were achieved by lan- the context. guages that benefit from a considerable research effort in coordinated programmes and the existence of many parallel corpora (e. g., English, French, Dutch, Span- Language technology applications often provide ish and German). e languages with poorer results are significant service functionalities ‘behind the scenes’ of larger software systems. shown in red. ese languages either lack such develop- ment efforts or are structurally very different from other languages (e. g., Hungarian, Maltese, Finnish and Esto- uestion answering is in turn related to information ex- nian). traction (IE), an area that was extremely popular and influential when computational linguistics took a sta- tistical turn in the early 1990s. IE aims to identify spe- 4.3 OTHER APPLICATION AREAS cific pieces of information in specific classes of docu- Building language technology applications involves a ments, such as the key players in company takeovers as range of subtasks that do not always surface at the level reported in newspaper stories. Another common sce- of interaction with the user, but they provide significant nario that has been studied is reports on terrorist in- service functionalities “behind the scenes” of the sys- cidents. e task here consists of mapping appropriate tem in question. ey all form important research issues parts of the text to a template that specifies the per- that have now evolved into individual sub-disciplines of petrator, target, time, location and results of the in- computational linguistics. uestion answering, for ex- cident. Domain-specific template-filling is the central ample, is an active area of research for which annotated characteristic of IE, which makes it another example corpora have been built and scientific competitions have of a “behind the scenes” technology that forms a well- been initiated. e concept of question answering goes demarcated research area, which in practice needs to be beyond keyword-based searches (in which the search en- embedded into a suitable application environment.

56 Text summarisation and text generation are two bor- sation systems use purely statistical methods, they are derline areas that can act either as standalone applica- largely language-independent and a number of research tions or play a supporting role. Summarisation attempts prototypes are available. For text generation, reusable to give the essentials of a long text in a short form, and components have traditionally been limited to surface is one of the features available in Microso Word. It realisation modules (generation grammars) and most of mostly uses a statistical approach to identify the “im- the available soware is for the English language. portant” words in a text (i. e., words that occur very fre- quently in the text in question but less frequently in gen- eral language use) and determine which sentences con- 4.4 EDUCATIONAL tain the most of these “important” words. ese sen- PROGRAMMES tences are then extracted and put together to create the Language technology is a very interdisciplinary field summary. In this very common commercial scenario, that involves the combined expertise of linguists, com- summarisation is simply a form of sentence extraction, puter scientists, mathematicians, philosophers, psy- and the text is reduced to a subset of its sentences. An cholinguists, and neuroscientists among others. alternative approach, for which some research has been Two universities in Estonia are involved in language carried out, is to generate brand new sentences that do technology education [33]: not exist in the source text. is requires a deeper understanding of the text, which ‚ University of Tartu. Students of Estonian and means that so far this approach is far less robust. On the Fenno-Ugric languages can study computer linguis- whole, a text generator is rarely used as a stand-alone ap- tics as a specialized module both during BSc and plication but is embedded into a larger soware environ- MSc program. e module includes various lan- ment, such as a clinical information system that collects, guage theory and computer science courses, e. g., stores and processes patient data. Creating reports is just Programming for Linguists and Language eory one of many applications for text summarisation. for Linguists. BSc and MSc students of Information Technology can study Language Technology as a ere exist only prototype versions of these tools for Es- specialized module. Many of these courses have been tonian. e summarisation tool for Estonian (EstSum) created jointly by the Department of Mathematics focuses on extraction methods from a single document. and Informatics and the Department of Philoso- e area of texts is limited: EstSum considers that the phy. On the PhD level, the relevant research train- input text consists of a formatted news text. ing is typically carried out under general linguistics uestion answering, information extraction, and sum- or computer science. marisation have been the focus of numerous open ‚ Tallinn University of Technology. Some PhD stu- competitions in the USA since the 1990s, primarily dents of information technology are specializing in organised by the government-sponsored organisations the field of speech technology, following individual DARPA and NIST. ese competitions have signifi- study programs. cantly improved the state of the art, but their focus has mostly been on the English language. As a result, In 2009, two doctoral schools were established which there are hardly any annotated corpora or other special involve PhD students of computer linguistics and lan- resources for these tasks in Estonian. When summari- guage technology: the doctoral school of information

57 and communication technology (includes students of the level that would allow functioning of Estonian in language technology), and the doctoral school of lan- the modern information society. NPELT funded HLT- guage theory, philosophy and semiotics (includes stu- related R&D activities including creation of reusable dents of computer linguistics). language resources and development of essential linguis- tic soware (up to the working prototypes) as well as bringing the relevant language technology infrastruc- 4.5 NATIONAL PROGRAMMES ture up to date. e resources and prototypes funded by AND INITIATIVES the national programme are publicly available [34]. e language technology was actively researched in Es- e Center of Estonian Language Resources (CELR) tonia already in 1950s when the first industrial grade spun out of a project financed by NPELT. e aim of computers appeared in universities and research labs. the Centre is to create an infrastructure to make avail- However, in the early 1990s the funding of many able Estonian language resources and NLP soware. By research activities changed considerably, with some the end of 2011 a consortium was formed by three part- research fields falling into extinction. HLT research ners: University of Tartu, the Institute of Cybernetics groups survived quite well due to successful participa- at Tallinn University of Technology and the Institute of tion in several international projects (e. g., EU Coper- the Estonian Language. nicus) [33]. Starting at the end of the 1990s, additional Continuing National Programme [35] regarding the funding sources were opened: support of Estonian language technology is going on ‚ the Estonian Language Technology programme 2011–2017. is programme will focus more on ap- initiated by the Estonian Informatics Centre plications and on making the developed resources and (1998–2000). Within this programme the first De- tools publicly available. velopment Plan for Estonian Language Technology e Ministry of Education and Research is funding also was compiled in 1999; more research-oriented projects on language technol- ‚ the national programmes “Estonian Language and ogy using targeted financing schema and grants of Es- Cultural Heritage” (1999–2003) and “Estonian tonian Science Foundation. Language and National Memory” (2004–2008) in- e Center of Excellence of Computer Science (acting cluded sub-programmes for HLT. from 2008 to 2015) includes computational linguists ‚ HLT key-players were involved also in EU FP5 from the University of Tartu and the Institute of Cyber- project “eVikings II: Establishment of the Virtual netics of TTU (Tallinn University of Technology). Centre of Excellence for IST RTD in Estonia” Estonia has taken part in Common Language Resources (2002–2005). and Technology Infrastructure (CLARIN, see http:// National Programme for Estonian Language Technol- www.clarin.eu) activities since 2008. CLARIN legal ogy (NPELT) was compiled in 2005 by a group of form is ERIC (European Research Infrastructure Con- HLT experts and launched by the Ministry of Educa- sortium) from February 29, 2012. Center of Estonian tion and Research in 2006 for a period of five years Language Resources as an object included in the Esto- (2006–2010). e main goal of NPELT was to de- nian Research Infrastructures Roadmap will function as velop technology support for the Estonian language to CLARIN centre of Estonia.

58 4.6 AVAILABILITY OF TOOLS ‚ Programs for text interpretation require extensive se- AND RESOURCES mantic analysis and these programs are only in the initial state of development. Figure 7 provides a rating for language technology sup- ‚ e only available tool for Estonian text generation port for the Estonian language. is rating of existing is morphological synthesiser. tools and resources was generated by leading experts in ‚ Most of the users prefer Google machine transla- the field who provided estimates based on a scale from 0 tion service. Also, Estonian-English machine trans- (very low) to 6 (very high) using seven criteria. e key lation system is under development in the University results for Estonian can be summed up as follows: of Tartu. ere would probably be a high demand for the Russian-Estonian and Estonian-Russian au- tomatic translation service. ‚ Tools for speech recognition and speech synthesis ‚ With regard to resources such as reference corpora, have been developed by research institutions; how- lexicons, wordnets and terminologies, the situation ever these tools can be regarded as prototypes, not is also reasonably good for Estonian since substantial as mature products. resources have been built in recent decades. While ‚ Although the automatic morphological analysis of some reference corpora of high quality exist, syntac- Estonian is complicated, the efficiency of morpho- tically and semantically annotated corpora are small logical tools (such as tokeniser, lemmatiser and mor- in size. e work on multimodal corpora has begun phological analyser) is comparable to similar tools recently. for other major European languages. Since the tools ‚ Research was successful in designing particular high have been developed as commercial products, their quality soware, but many of the resources lack stan- licensing conditions have not allowed for unre- dardisation and detail documentation, i. e., even if stricted use by general public. On the other hand, they exist, sustainability is not given; concerted pro- the quality of publicly available tools has remained grams and initiatives are needed to standardize data fairly modest, therefore the public preference has set- and interchange formats. tled for commercial utilities. Syntactic parsers with a broad coverage of Estonian have been developed Tosum up, the results indicate that Estonian stands rea- only using one rule-based grammatical formalism. sonably well with respect to the most basic language e grammar of the parser has been adapted for dif- technology tools and resources, such as tokenisers, PoS ferent genres of language. Nevertheless, the devel- taggers, morphological analysers, shallow parsers, refer- opment of these tools must continue for achieving ence corpora, treebanks and tools for speech technol- better performance. Semantics is more difficult to ogy. Furthermore, there exist some tools for summarisa- process than syntax, and text semantics is more dif- tion, machine translation, as well as resources like par- ficult to process than word and sentence semantics. allel corpora, and specialized corpora. However, these Semantic tools and resources are scored low. us, tools and resources are rather simple and have a limited programs and initiatives are needed to substantially functionality for some of the areas. For instance, paral- boost this area both with regard to basic research and lel corpora only exist for very few language pairs and for the development of annotated corpora. limited text genres. When it comes to more advanced

59 htgaate h viaiiyo hs tools. these of availability the guarantees what technology language of programmes by national supported different was development as e not products. prototypes, mature as regarded be research can by and institutions developed been mor- have (except analyser) tools these phological of a Most have scope. tools limited and quite quality to still and amount need resources in the complement but results first yielded corpora has discourse and semantics management, alogue di- processing, discourse like resources and tools vanced currently ad- most are the regarding these research e of development. under some if even resources basic and lacks tools clearly Estonian data, an- multimodal and notated generation, language semantics, text like fields Grammars resources Lexical corpora Parallel corpora Speech corpora Text Bases Knowledge and Data Resources, Resources: Language translation Machine generation Text analysis Semantic analysis Grammatical Synthesis Speech Recognition Speech Applications and Technologies Tools, Technology: Language 7: tt flnug ehooyspotfrEstonian for support technology language of State . . . . . 3.5 3.5 3.5 2.8 3.2 4 3.5 3.5 2.5 4 2.8 3.2 3.5 2.5 . . 3 3 2 3 4 3 2.8 4 3 2.8 2.5 4 1.4 5 2 0 3 2.1 2.8 2 4 0 2.1 2.1 2 3 2.5 5 0 2 1.7 2.1 5 3 2 0 1.3 1.4 3 3 1.3 2 0 3 0.9 3 3 0 0.9 3 3 2.8 1.3 0 2.8 2.8 1 2.8 5 5 2 2 uantity agae eectgrsduigafiepitscale: five-point a using categorised e were applications. languages LT building for needed resources ba- sic as well as analysis), (text technology underlying andone processing) speech and translation (machine areas application sample two on based evaluation section an presents this languages, between situation to the order In compare considerably another. to varies community language support one LT from of state current e COMPARISON 4.7 5. 4. 3. 2. 1.

eko osupport no or Weak support Fragmentary support Moderate support Good support Excellent Availability CROSS-LANGUAGE

uality

Coverage

Maturity

Sustainability

Adaptability 60 LTsupport was measured according to the following cri- and technologies that cover a wider range of linguis- teria: tic aspects and allow a deep semantic analysis of the Speech Processing: uality of existing speech recogni- input text. By improving the quality and coverage of tion technologies, quality of existing speech synthesis these basic resources and technologies, we shall be able technologies, coverage of domains, number and size of to open up new opportunities for tackling a vast range of existing speech corpora, amount and variety of available advanced application areas, including high-quality ma- speech-based applications. chine translation. Machine Translation: uality of existing MT tech- nologies, number of language pairs covered, coverage of linguistic phenomena and domains, quality and size of 4.8 CONCLUSIONS existing parallel corpora, amount and variety of available In this series of white papers, we have made an impor- MT applications. tant effort by assessing the language technology support Text Analysis: uality and coverage of existing text for 30 European languages, and by providing a high- analysis technologies (morphology, syntax, semantics), leel comparison across these languages. By identifying the coverage of linguistic phenomena and domains, amount gaps, needs and deficits, the European language technol- and variety of available applications, quality and size of ogy community and its related stakeholders are now in existing (annotated) text corpora, quality and coverage a position to design a large scale research and develop- of existing lexical resources (e. g., WordNet) and gram- ment programme aimed at building a truly multilingual, mars. technology-enabled communication across Europe. Resources: uality and size of existing text corpora, e results of this white paper series show that there is a speech corpora and parallel corpora, quality and cover- dramatic difference in language technology support be- age of existing lexical resources and grammars. tween the various European languages. While there are Figures 8 to 11 show that, although the government has good quality soware and resources available for some increased the support to the Estonian LT recent years, languages and application areas, others, usually smaller Estonian language belongs to the fourth or fih clusters. languages, have substantial gaps. Many languages lack e results of Estonian and Finnish are quite similar and basic technologies for text analysis and the essential re- Estonian is slightly better equipped than most other lan- sources. Others have basic tools and resources but the guages with a similar number of speakers, such as Lat- implementation of for example semantic methods is still vian, Lithuanian, Icelandic and Maltese. All these lan- far away. erefore a large-scale effort is needed to attain guages lag far behind large languages like German and the ambitious goal of providing high-quality language French, for instance. But even LTresources and tools for technology support for all European languages, for ex- those languages clearly do not yet reach the quality and ample through high quality machine translation. coverage of comparable resources and tools for the En- In the case of the Estonian language, we can be cau- glish language, which is in the lead in almost all LTareas. tiously optimistic about the current state of language And there are still plenty of gaps in English language re- technology support. Supported by larger research pro- sources with regard to high quality applications grams in the past, there exists a language technology For building more sophisticated applications, such as research scene in Estonia. Unfortunately, the industry machine translation, there is a clear need for resources consists only of a few SMEs.

61 For Estonian, a number of technologies and resources tend to alternate with periods of sparse or zero funding. exist, but far less than for English. Language technology In addition, there is an overall lack of coordination with support today is by far not in a state that is needed for programmes in other EU countries and at the European offering the support a true multilingual knowledge so- Commission level. ciety needs. e long term goal of META-NET is to enable the cre- e need for large amounts of data and the extreme ation of high-quality language technology for all lan- complexity of language technology systems makes it vi- guages. is requires all stakeholders - in politics, re- tal to develop a new infrastructure and a more coherent search, business, and society - to unite their efforts. research organisation to spur greater sharing and coop- e resulting technology will help tear down existing eration. barriers and build bridges between Europe’s languages, Finally there is a lack of continuity in research and devel- paving the way for political and economic unity through opment funding. Short-term coordinated programmes cultural diversity.

62 Excellent Good Moderate Fragmentary Weak/no support support support support support

English Czech Basque Croatian Dutch Bulgarian Icelandic Finnish Catalan Latvian French Danish Lithuanian German Estonian Maltese Italian Galician Romanian Portuguese Greek Spanish Hungarian Irish Norwegian Polish Serbian Slovak Slovene Swedish

8: Speech processing: state of language technology support for 30 European languages

Excellent Good Moderate Fragmentary Weak/no support support support support support

English French Catalan Basque Spanish Dutch Bulgarian German Croatian Hungarian Czech Italian Danish Polish Estonian Romanian Finnish Galician Greek Icelandic Irish Latvian Lithuanian Maltese Norwegian Portuguese Serbian Slovak Slovene Swedish

9: Machine translation: state of language technology support for 30 European languages

63 Excellent Good Moderate Fragmentary Weak/no support support support support support

English Dutch Basque Croatian French Bulgarian Estonian German Catalan Icelandic Italian Czech Irish Spanish Danish Latvian Finnish Lithuanian Galician Maltese Greek Serbian Hungarian Norwegian Polish Portuguese Romanian Slovak Slovene Swedish

10: Text analysis: state of language technology support for 30 European languages

Excellent Good Moderate Fragmentary Weak/no support support support support support

English Czech Basque Icelandic Dutch Bulgarian Irish French Catalan Latvian German Croatian Lithuanian Hungarian Danish Maltese Italian Estonian Polish Finnish Spanish Galician Swedish Greek Norwegian Portuguese Romanian Serbian Slovak Slovene

11: Speech and text resources: State of support for 30 European languages

64 5

ABOUT META-NET

META-NET is a Network of Excellence funded by e main focus of this activity is to build a coherent the European Commission [36]. e network currently and cohesive LT community in Europe by bringing to- consists of 54 members from 33 European countries. gether representatives from highly fragmented and di- META-NET forges META, the Multilingual Europe verse groups of stakeholders. e present White Paper Technology Alliance, a growing community of language was prepared together with volumes for 29 other lan- technology professionals and organisations in Europe. guages. e shared technology vision was developed in META-NET fosters the technological foundations for three sectorial Vision Groups. e META Technology a truly multilingual European information society that: Council was established in order to discuss and to pre- pare the SRA based on the vision in close interaction ‚ makes communication and cooperation possible with the entire LT community. across languages; ‚ grants all Europeans equal access to information and META-SHARE creates an open, distributed facility knowledge regardless of their language; for exchanging and sharing resources. e peer-to-peer ‚ builds upon and advances functionalities of net- network of repositories will contain language data, worked information technology. tools and web services that are documented with high- quality metadata and organised in standardised cate- e network supports a Europe that unites as a sin- gories. e resources can be readily accessed and uni- gle digital market and information space. It stimulates formly searched. e available resources include free, and promotes multilingual technologies for all Euro- open source materials as well as restricted, commercially pean languages. ese technologies support automatic available, fee-based items. translation, content production, information process- META-RESEARCH builds bridges to related technol- ing and knowledge management for a wide variety of ogy fields. is activity seeks to leverage advances in subject domains and applications. ey also enable in- other fields and to capitalise on innovative research that tuitive language-based interfaces to technology rang- can benefit language technology. In particular, the ac- ing from household electronics, machinery and vehi- tion line focuses on conducting leading-edge research in cles to computers and robots. Launched on 1 February machine translation, collecting data, preparing data sets 2010, META-NET has already conducted various activ- and organising language re-sources for evaluation pur- ities in its three lines of action META-VISION, META- poses; compiling inventories of tools and methods; and SHARE and META-RESEARCH. organising workshops and training events for members META-VISION fosters a dynamic and influential of the community. stakeholder community that unites around a shared vi- sion and a common strategic research agenda (SRA). offi[email protected] – http://www.meta-net.eu

65

A

KIRJANDUS REFERENCES

[1] Aljoscha Burchardt, Markus Egg, Kathrin Eichler, Brigitte Krenn, Jörn Kreutel, Annette Leßmöllmann, Georg Rehm, Manfred Stede, Hans Uszkoreit, and Martin Volk. Die Deutsche Sprache im Digitalen Zeital- ter – e German Language in the Digital Age. META-NET White Paper Series. Georg Rehm and Hans Uszkoreit (Series Editors). Springer, 2012.

[2] Riigiportaal. https://www.eesti.ee/est/teemad/ettevotja/riigiportaali_abi/partnerile_1/lemmatiseerja.

[3] Aljoscha Burchardt, Georg Rehm, and Felix Sasaki. e Future European Multilingual Information So- ciety – Vision Paper for a Strategic Research Agenda, 2011. http://www.meta-net.eu/vision/reports/ meta-net-vision-paper.pdf.

[4] Directorate-General Information Society & Media of the European Commission. User Language Preferences Online, 2011. http://ec.europa.eu/public_opinion/flash/fl_313_en.pdf.

[5] European Commission. Multilingualism: an Asset for Europe and a Shared Commitment, 2008. http://ec. europa.eu/languages/pdf/comm2008_en.pdf.

[6] Directorate-General of the UNESCO. Intersectoral Mid-term Strategy on Languages and Multilingualism, 2007. http://unesdoc.unesco.org/images/0015/001503/150335e.pdf.

[7] Directorate-General for Translation of the European Commission. Size of the Language Industry in the EU, 2009. http://ec.europa.eu/dgs/translation/publications/studies.

[8] Estonian Institute. Estonian in a world context. http://www.estonica.org/en/Society/The_Estonian_ Language/Estonian_in_a_world_context/.

[9] Anastassia Zabrodskaja. Eesti keel Eestis teise keelena. http://www.emakeeleselts.ee/vaatmikud/eesti_keel_ teise_keelena.pdf, 2008. In Estonian. English title: Estonian as a Second Language in Estonia.

[10] Eesti keelenõukogu. Eesti keele arendamise strateegia 2004-2010. http://eki.ee/keelenoukogu/strat_et.pdf. In Estonian. English title: Development Strategy of the Estonian Language 2004–2010.

[11] Estonian Institute. Estonian Sign Language. http://www.estinst.ee/publications/language/sign.html.

[12] Helle Metslang. Estonian grammar between Finnic and SAE: some comparisons. In Language Typology and Uniersals, pages 49–71, 2009.

67 [13] Mati Erelt, Tiiu Erelt, and Kristiina Ross. Eesti keele käsiraamat. Eesti Keele Sihtasutus, Tallinn, 2007. In Estonian. English title: e handbook of Estonian language.

[14] Mati Erelt. Estonian language. In Linguistica Uralica Supplementary Series, volume 1, 2003.

[15] Estonian Language Council. Development plan for Estonian language (2011-2017). http://ekn.hm.ee/ system/files/Eesti_keele_arengukava_2011-2017_0.pdf.

[16] Estonian Institute. Eesti keel ja kultuur maailmas — Ülikoolid (universities). http://ekkm.estinst.ee/ keskused/ylikoolid/.

[17] Eesti Statistikaamet. Kolmveerand Eesti elanikest kasutab internetti. http://www.stat.ee/dokumendid/ 47013, 2010. In Estonian. English title: ree-fourths of Estonian population uses the internet.

[18] neti.ee. http://www.neti.ee/cgi-bin/teema/INFO_JA_MEEDIA/Ajalehed/.

[19] Kai-Uwe Carstensen, Christian Ebert, Cornelia Ebert, Susanne Jekat, Hagen Langer, and Ralf Klabunde, ed- itors. Computerlinguistik und Sprachtechnologie: Eine Einführung. Spektrum Akademischer Verlag, 2009. In German. English title: Computational Linguistics and Language Technology: An Introduction.

[20] Daniel Jurafsky and James H. Martin. Speech and Language Processing (2nd Edition). Prentice Hall, 2009.

[21] Christopher D. Manning and Hinrich Schütze. Foundations of Statistical Natural Language Processing.MIT Press, 1999.

[22] Language Technology World (LT World). http://www.lt-world.org/.

[23] Ronald Cole, Joseph Mariani, Hans Uszkoreit, Giovanni Battista Varile, Annie Zaenen, and Antonio Zam- polli, editors. Survey of the State of the Art in Human Language Technology (Studies in Natural Language Processing). Cambridge University Press, 1998.

[24] Jerrold H. Zar. Candidate for a Pullet Surprise. Journal of Irreproducible Results, page 13, 1994.

[25] Filoso OÜ. http://www.filosoft.ee/index_en.html.

[26] Spiegel Online. Google zieht weiter davon (Google is still leaving everybody behind), 2009. http://www. spiegel.de/netzwelt/web/0,1518,619398,00.html.

[27] Juan Carlos Perez. Google Rolls out Semantic Search Capabilities, 2009. http://www.pcworld.com/ businesscenter/article/161869/google_rolls_out_semantic_search_capabilities.html.

[28] Laboratory of Phonetics and Speech Technology Institute of Cybernetics at TTU. http://www.phon.ioc.ee/ dokuwiki/doku.php?id=software:software.en.

[29] Eesti Keele Instituut. Eesti keele kõnesüntees. http://www.eki.ee/keeletehnoloogia/projektid/syntees/. In Estonian. English title: Speech Synthesis for Estonian Language.

68 [30] Heiki-Jaan Kaalep and Mare Koit. Kuidas masin tõlgib. Keel ja Kirjandus, pages 726–738, 10 2010. In Estonian. English title: How Does a Machine Translate.

[31] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. BLEU: A Method for Automatic Evaluation of Machine Translation. In Proceedings of the 40th Annual Meeting of ACL, Philadelphia, PA, 2002.

[32] Philipp Koehn, Alexandra Birch, and Ralf Steinberger. 462 Machine Translation Systems for Europe. In Proceedings of MT Summit XII, 2009.

[33] Einar Meister, Tiit Roosmaa, and Jaak Vilo. Estonian language technology anno 2009. In R. Domeij, K. Koskenniemi, S. Krauwer, B. Maegaard, E. Rögnvaldsson, and K de Smedt, editors, Proceedings of the NODALIDA 2009 workshop Nordic Perspectives on the CLARIN Inastructure of Common Language Re- sources, number 5 in NEALT Proceedings Series, pages 21–26. University of Tartu, 2009.

[34] National Programme for Estonian Language Technology. Riiklik programm “Eesti keele keeletehnoloogiline tugi (2006–2010)”. http://www.keeletehnoloogia.ee/ekktt-1.

[35] National Programme for Estonian Language Technology. Riiklik programm “Eesti keeletehnoloogia (2011–2017)”. http://www.keeletehnoloogia.ee.

[36] Georg Rehm and Hans Uszkoreit. Multilingual Europe: A challenge for language tech. MultiLingual, 22(3):51–52, April/May 2011.

[37] Estonian Language Council. Development strategy of the Estonian language 2004–2010. http://eki.ee/ keelenoukogu/strat_en.pdf.

69

B

META-NETI LIIKMED META-NET MEMBERS

Austria Austria Zentrum für Translationswissenscha, Universität Wien: Gerhard Budin

Belgia Belgium Computational Linguistics and Psycholinguistics Research Centre, University of Antwerp: Walter Daelemans

Centre for Processing Speech and Images, University of Leuven: Dirk van Compernolle

Bulgaaria Bulgaria Institute for Bulgarian Language, Bulgarian Academy of Sciences: Svetla Koeva

Eesti Estonia Institute of Computer Science, University of Tartu: Tiit Roosmaa, Kadri Vider

Hispaania Barcelona Media: Toni Badia, Maite Melero

Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra: Núria Bel

Aholab Signal Processing Laboratory, University of the Basque Country: Inma Hernaez Rioja

Centre for Language and Speech Technologies and Applications, Universitat Politèc- nica de Catalunya: Asunción Moreno

Department of Signal Processing and Communications, University of Vigo: Carmen García Mateo

Horvaatia Croatia Institute of Linguistics, Faculty of Humanities and Social Science, University of Za- greb: Marko Tadić

Iirimaa Ireland School of Computing, Dublin City University: Josef van Genabith

Island Iceland School of Humanities, University of Iceland: Eiríkur Rögnvaldsson

Itaalia Italy Consiglio Nazionale delle Ricerche, Istituto di Linguistica Computazionale “Antonio Zampolli”: Nicoletta Calzolari

Human Language Technology Research Unit, Fondazione Bruno Kessler: Bernardo Magnini

Kreeka Greece R.C. “Athena”,Institute for Language and Speech Processing: Stelios Piperidis

Küpros Cyprus Language Centre, School of Humanities: Jack Burston

Leedu Lithuania Institute of the Lithuanian Language: Jolanta Zabarskaitė

Läti Tilde: Andrejs Vasiļjevs

Institute of Mathematics and Computer Science, University of Latvia: Inguna Skadiņa

Luksemburg Luxembourg Arax Ltd.: Vartkes Goetcherian

Madalmaad Netherlands Utrecht Institute of Linguistics, Utrecht University: Jan Odijk

71 Computational Linguistics, University of Groningen: Gertjan van Noord

Malta Malta Department Intelligent Computer Systems, University of Malta: Mike Rosner

Norra Norway Department of Linguistic, Literary and Aesthetic Studies, University of Bergen: Koenraad De Smedt

Department of Informatics, Language Technology Group, University of Oslo: Stephan Oepen

Poola Poland Institute of Computer Science, Polish Academy of Sciences: Adam Przepiórkowski, Maciej Ogrodniczuk

University of Łódź: Barbara Lewandowska-Tomaszczyk, Piotr Pęzik

Department of Computer Linguistics and Artificial Intelligence, Adam Mickiewicz University: Zygmunt Vetulani

Portugal Portugal University of Lisbon: António Branco, Amália Mendes

Spoken Language Systems Laboratory, Institute for Systems Engineering and Comput- ers: Isabel Trancoso

Prantsusmaa Centre National de la Recherche Scientifique, Laboratoire d’Informatique pour la Mé- canique et les Sciences de l’Ingénieur and Institute for Multilingual and Multimedia Information: Joseph Mariani

Evaluations and Language Resources Distribution Agency: Khalid Choukri

Rootsi Sweden Department of Swedish, University of Gothenburg: Lars Borin

Rumeenia Romania Research Institute for Artificial Intelligence, Romanian Academy of Sciences: Dan Tufiș

Faculty of Computer Science, University Alexandru Ioan Cuza of Iași: Dan Cristea

Saksamaa Germany Language Technology Lab, DFKI: Hans Uszkoreit, Georg Rehm

Human Language Technology and Pattern Recognition, RWTH Aachen University: Hermann Ney

Department of Computational Linguistics, Saarland University: Manfred Pinkal

Serbia Serbia University of Belgrade, Faculty of Mathematics: Duško Vitas, Cvetana Krstev, Ivan Obradović

Pupin Institute: Sanja Vranes

Slovakkia Slovakia Ľudovít Štúr Institute of Linguistics, Slovak Academy of Sciences: Radovan Garabík

Sloveenia Slovenia Jožef Stefan Institute: Marko Grobelnik

Soome Finland Computational Cognitive Systems Research Group, Aalto University: Timo Honkela

Department of Modern Languages, University of Helsinki: Kimmo Koskenniemi, Krister Lindén

Suurbritannia UK School of Computer Science, University of Manchester: Sophia Ananiadou

72 Institute for Language, Cognition and Computation, Centre for Speech Technology Research, University of Edinburgh: Steve Renals

Research Institute of Informatics and Language Processing, University of Wolverhamp- ton: Ruslan Mitkov

Šveits Switzerland Idiap Research Institute: Hervé Bourlard

Taani Centre for Language Technology, University of Copenhagen: Bolette Sandford Pedersen, Bente Maegaard

Tšehhi Vabariik Czech Republic Institute of Formal and Applied Linguistics, Charles University in Prague: Jan Hajič

Ungari Hungary Research Institute for Linguistics, Hungarian Academy of Sciences: Tamás Váradi

Department of Telecommunications and Media Informatics, Budapest University of Technology and Economics: Géza Németh, Gábor Olaszy

Ligi 100 keeletehnoloogiaeksperti – META-NETis osalevate maade ja keelte esindajad – arutasid läbi ja vi- imistlesid Valge raamatu sarja põhitulemusi META-NETi koosolekul Berliinis 21. ja 22. oktoobril 2011.— About 100 language technology experts – representatives of the countries and languages represented in META-NET – discussed and finalised the key results and messages of the White Paper Series at a META-NET meeting in Berlin, Germany, on October 21/22, 2011.

73

C

META-NETI VALGE THE META-NET RAAMATU SARI WHITE PAPER SERIES baski Basque euskara bulgaaria Bulgarian български eesti Estonian eesti galiitsia Galician galego hispaania Spanish español hollandi Dutch Nederlands horvaadi Croatian hrvatski iiri Irish Gaeilge inglise English English islandi Icelandic íslenska itaalia Italian italiano katalaani Catalan català kreeka Greek εηνικά leedu Lithuanian lietuvių kalba läti Latvian latviešu valoda malta Maltese Malti norra Bokmål Norwegian Bokmål bokmål norra Nynorsk Norwegian Nynorsk nynorsk poola Polish polski portugali Portuguese português prantsuse French français rootsi Swedish svenska rumeenia Romanian română saksa German Deutsch serbia Serbian српски slovaki Slovak slovenčina sloveeni Slovene slovenščina soome Finnish suomi taani Danish dansk tšehhi Czech čeština ungari Hungarian magyar

75 rs se Soc e U ie g ty a u g n

a

L

R

e

s

e

a

r

c s

h e

i

r

C

t

s

o

u

m

d

m

n

I

u

n

i

t

i

e

s

In everyday communication, Europe’s citizens, business Oma igapäevases suhtluses puutuvad Euroopa ko- partners and politicians are inevitably confronted with danikud, äripartnerid ja poliitikud paratamatult kokku language barriers. Language technology has the po- keelebarjääridega. Keeletehnoloogia suudab neid tential to overcome these barriers and to provide inno- barjääre ületada ning võimaldada uudseid liideseid vative interfaces to technologies and knowledge. This tehnoloogiatele ja teadmistele. Käesolev valge raa- white paper presents the state of language technology mat esitab eesti keele keeletehnoloogilise toe het- support for the Estonian language. It is part of a se- keseisu, moodustades osa seeriast, mis analüüsib ries that analyses the available language resources and 30 Euroopa keele olemasolevaid keeleressursse ja - technologies for 30 European languages. The analysis tehnoloogiaid. Selle analüüsi viis läbi Euroopa Komis- was carried out by META-NET, a Network of Excellence joni rahastatud tippteadmiste võrgustik META-NET. funded by the European Commission. META-NET con- META-NET koosneb 33 riigi 54 uurimiskeskusest, sists of 54 research centres in 33 countries, who cooper- mis teevad koostööd ärimaailma, valitsus- ja teadus- ate with stakeholders from economy, government agen- asutuste, valitsusväliste organisatsioonide, keeleko- cies, research organisations, non-governmental organi- gukondade ja Euroopa ülikoolide huvitatud osapool- sations, language communities and European universi- tega. META-NETi eesmärk on saavutada kõrgekvali- ties. META-NET’s vision is high-quality language tech- teediline keeletehnoloogia kõigile Euroopa keeltele. nology for all European languages.

“If we do not implement the development plan for language technology or do not cooperate with other countries in the same direction, in future Estonian will [...] be marginalized in information society.” — Development Plan of the Estonian Language 2011–2017

“Kas eesti keelt on võimalik kasutada kõige moodsamas tehnoloogias ja kas arvuti on võimeline suhtlema kujund- likus eesti keeles — see määrab meie keele säilimise tuleviku maailmas.” — Tõnis Lukas, haridus- ja teadusminister 2007–2011, EV90 raames korraldatud Keeletalgutel

www.meta-net.eu