Eesti Rakenduslingvistika Ühing

Eesti Rakenduslingvistika Ühingu aastaraamat 5

Estonian Papers in Applied Linguistics 5

Toimetanud Helle Metslang, Margit Langemets, Maria-Maren Sepper ja Reili Argus

Eesti Keele Sihtasutus 2009 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT 5 Estonian Papers in Applied Linguistics 5

Toimetajad / Editors: Helle Metslang (Tartu), Margit Langemets (Tallinn), Maria-Maren Sepper (Tallinn). Külalistoimetaja / Guest editor: Reili Argus (Tallinn) Kujundaja / Design: Piia Ruber

Toimetuskolleegium / Advisory board: Martin Ehala (Tallinn), Auli Hakulinen (Helsinki), Birute Klaas (Tartu), Eino Koponen (Helsinki), Irina Külmoja (Tartu), Maisa Martin (Jyväskylä), Jaan Mikk (Tartu), Hille Pajupuu (Tallinn), János Pusztay (Szombathely), Helena Sulkala (Oulu), Urmas Sutrop (Tallinn/Tartu), Eva Toulouze (Tartu), Tiia Tulviste (Tartu), Marilyn Vihman (Bangor, U.K.), Leo Võhandu (Tallinn), Haldur Õim (Tartu)

“Eesti Rakenduslingvistika Ühingu aastaraamat” on registreeritud ja refereeritud järgmistes bibliograafi listes andmebaasides / Estonian Papers in Applied Linguistics is covered by the following abstracting/indexing services: Arts and Humanities Citation Index (Thomson Reuters) Central and Eastern European Online Library (C.E.E.O.L) CSA Linguistics and Language Behavior Abstracts (LLBA) Directory of Open Access Journals, Lund University (DOAJ) Eesti Rahvusraamatukogu digitaalne arhiiv (DIGAR) Journal Citation Reports / Social Sciences Edition (Thomson Reuters) Linguistic Abstracts (Wiley-Blackwell Publishing) Linguistic Bibliography Online (BL Online) MLA Directory of Periodicals MLA International Bibliography Social Sciences Citation Index (Thomson Reuters) Social Scisearch (Thomson Reuters)

Ühingu aadress / Contact information: Eesti Rakenduslingvistika Ühing / Estonian Association for Applied Linguistics Eesti Keele Instituut / Institute of the Estonian Language Roosikrantsi 6 10119 Tallinn

[email protected] www.rakenduslingvistika.ee

“Eesti Rakenduslingvistika Ühingu aastaraamat 5” väljaandmist on toetanud Haridus- ja Teadusministeeriumi riiklik programm “Eesti keel ja kultuurimälu” ja Eesti Keele Instituut.

Autoriõigus / Copyright: autorid ja Eesti Rakenduslingvistika Ühing

ISSN 1736-2563 SISUKORD

Haridusalaste tekstide võrdlev diskursusanalüüs 7 Comparative discourse analysis of educational texts Katrin Aava

Constraints of measuring language profi ciency in Estonia: The national 19

examination in the English language 5 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT Keelepädevuse mõõtmisest Eestis: inglise keele riigieksam Ene Alas, Suliko Liiv

Diversity of languages and cultures in Lithuanian cities: The case of 33 Kaunas city Keeleline ja kultuuriline mitmekesisus Leedu linnades: Kaunas Laura Čubajevaitė

Acquisition of case in Lithuanian as L2: Error analysis 47 Leedu keele kui teise keele käänete omandamine: veaanalüüs Ineta Dabašinkienė, Laura Čubajevaitė

Corpora of spoken Lithuanian 67 Leedu suulise keele korpused Ineta Dabašinskienė, Laura Kamandulytė

Eesti keele kasutusvariandid: korpustest tulenev käändevormide 79 võrdlev analüüs Corpus-driven comparative analysis of variants of Estonian Pille Eslon, Erika Matsak

Suulise eesti keele korpus ja inimese suhtlus arvutiga 111 Corpus of spoken Estonian and human-computer interaction Tiit Hennoste, Olga Gerassimenko, Riina Kasterpalu, Mare Koit, Andriela Rääbis, Krista Strandson

Haldusteksti struktuurist Tartu linnavalitsuse korralduste näitel 131 The structure of the administrative texts on the example of Tartu city government Katrin Mandra 3 Eesti vokaalikategooriate piirid vene ja eesti emakeelega 143 kõnelejate tajuruumis Estonian vowel category boundaries in the perception space of Russian and Estonian subjects Lya Meister

Eesti keele püsiühendid arvutilingvistikas: miks ja kuidas 157 Estonian multiword expressions in computational linguistics Heiki-Jaan Kaalep, Kadri Muischnek

MLU and IPSyn measuring absolute complexity 173 VKP ja IPSyn absoluutse keerukuse mõõtjaina Lea Nieminen

Sõnavara loomulik rikkus haritud keeleoskaja tekstides 187 Natural lexical richness in educated language use Hille Pajupuu, Krista Kerge, Pilvi Alp

Eesti asulanimede transkribeerimisest ja käänamisest vene keeles 197 On the transcription and declension of the Estonian toponyms in Russian Oksana Palikova, Katrin Karu

Intervjuu keeleandmete kogumise meetodina 209 Interview as a method to collect linguistic data Kristiina Praakli

Ladina terminid tsiviilõiguses: eestikeelsed originaalõpikud 225 versus tõlkeõpikud Latin terms in civil law: Original textbooks in Estonian versus translated textbooks Merike Ristikivi

Corpora for applied purposes: A case study of quantifi ers 239 in English and Lithuanian Korpuste rakendusi: hulgasõnadest inglise ja leedu keeles Jūratė Ruzaitė

Korpuste tükeldamine: rakendusi silpide ning allkeeltega 251 Cutting the text corpora: Applications with syllables and sub-languages Kairit Sirts, Leo Võhandu

Kommunikatiivse situatsiooni dünaamiline dimensioon 267 The dynamic dimension of a communicative situation Silvi Tenjes, Ingrid Rummo, Kristiina Praakli

4 Vene õppekeelega põhikooli õpilaste ja õpetajate hoiakud eestikeelse 287 aineõppe suhtes vahetult enne 2007. aasta gümnaasiumireformi algust Attitudes of Russian-medium school learners and their teachers towards partial Estonian language instruction before implementation of the education reform in 2007 Natalia Vaiss

Johannes Silveti “Inglise-eesti sõnaraamat”: kolme väljaande võrdlus 303 “An English-Estonian dictionary” by Johannes Silvet: Comparison of three editions Enn Veldi

“Letosvet”: kas labane laul või (rahva)sotsiolingvistiline eksperiment? 313 “Letosvet”: A vulgar song or a folk-(socio)linguistic experiment? Anna Verschik, Jim Hlavac

Tegumood eesti lapsekeeles 329 Voice constructions in Estonian child language Maigi Vija, Reeli Torn-Leesik, Renate Pajusalu

Lühendite alternatiivsed tõlgendused – rahvahuumor ja erikeel 345 Alternative interpretations of abbreviations and acronyms: Folk humour and jargon Piret Voolaid

Lühendid / Abbreviations 365

HARIDUSALASTE TEKSTIDE VÕRDLEV DISKURSUSANALÜÜS

Katrin Aava

Ülevaade. Artiklis uuritakse ühiskonnas makrotasandil dominee- rivaid ideoloogiaid mikrotasandil haridusalastes tekstides esinevate

diskursuste kaudu. Võrreldakse Eesti, Sloveenia ning Soome tähtsamate 5, 7–17 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT haridusalaste tekstide – õppekavade ning haridusseadustike – haridus- poliitilisi diskursusi, et mõista nende rolli sotsiopoliitilises kontekstis. Otsitakse vastust küsimustele, kuivõrd on esindatud sotsiaaldemo- kraatlik, liberaalne ja konservatiivne diskursus, milliseid sarnasusi, erinevusi ja muutusi võib eri ühiskondades täheldada, kuidas diskur- sused on ajas muutunud. Tulemusi võrreldakse sotsiaalteadlaste ning haridusalaste diskursusanalüüsijate käsitlustega. Võtmesõnad: kriitiline diskursusanalüüs, õppekava, haridusseadus- tik, ideoloogia, eesti keel, soome keel, sloveenia keel

1. Diskursus ideoloogia väljendajana

Diskursus, keelekasutus ja kommunikatsioon mängivad olulist rolli ideoloogia taastootmisprotsessis. Teun van Dijki (2005: 41–57) järgi väljendub või jõustub ideoloogia sümbolite, rituaalide, diskursuste või muude sotsiaalsete ja kultuuriliste praktikate kaudu. Ideoloogia kontrollib grupi arvamusi, hoiakuid ja teadmist, sest grupile eriomane teadmine võib väga hästi olla seotud grupi huvide või muude omadustega ning olla kaasatud konkurentsi, võitlusse või domineerimisse. Ideo- loogia on üldiste sotsiaalsete uskumuste kogum, mis on grupi uskumuste aluseks. Sotsiaalsete uskumuste kognitiivse eritlemise asemel võime teha sarnaseid eristusi diskursustes, mis väljendavad või konstrueerivad sotsiaalseid uskumusi. Kool ja haridussüsteem tervikuna kuuluvad kõige keerukamate ja tõhusamate ideoloogiliste institutsioonide hulka juba sel põhjusel, et nad hõlmavad peaaegu kõiki ühiskonna liikmeid intensiivselt ja iga päev, vahel isegi kauem kui 20 aastat. Nii toimib haridussüsteem ühiskonnas domineerivate ideede ning ideoloogiate taastootmise põhivahendina (van Dijk 2005: 221). Seetõttu on oluliste haridus- 7 alaste tekstide puhul nagu õppekava ning haridusseadustik vaja teada, millistest ideoloogilistest veendumustest nad on kantud ning milliseid ideoloogilisi uskumusi nad taastoodavad. Kuna ideoloogiaid ei väljendata haridustekstides otsesõnu, tuleb minna gruppide ja institutsioonide sotsiaalsest makromaailmast mikrotasandile ehk sellele tasandile, kus sotsiaalsed agendid sotsiaalsetes situatsioonides ideoloogiaid tegelikult toodavad ning uurida diskursusi (van Dijk 2005: 58-59). Diskursused “lihtsustavad” või “tõlgivad” majanduslikke ning poliitilisi suhteid. Millistel võistlevatel diskursustel (narratiividel, kujutlustel), millistel strateegiatel õnnestub end kehtestada, sõltub Norman Fairclough’ (2005: 55-56) meelest muu hulgas järgmistest asjaoludest: 1) “strukturaalne valikulisus” – T. van Dijki (2005: 275) hinnangul võivad suhtlusvaldkonna kategooriad, tegutsemise tüüp ning asjaolud olulisel määral soodustada ideoloogia taastootmist: mõni valdkond on strateegia- tele rohkem avatud kui teine. Näiteks klassiruumis ja haridussüsteemis, parlamendis ja poliitikas, uudistetoimetuses ja meedias soodustab ideo- loogia levikut sotsiaalsete agentide usutavus ning prestiiž, samuti teksti massivahendamise tagajärjed; 2) diskursuse ulatus – nt “globaliseerumise” ning “teadmistepõhise majan- duse” diskursust võib vaadelda kui üht tüvidiskursust, mille põhjal sõnas- tatakse mitmed muud diskursused (nt “elukestva õppe diskursus”); 3) sotsiaalsete agentide jõud ning võimekus kehtestada oma diskursus, nende võimalus kaasa rääkida massimeedias ja teadvustööstuses; 4) diskursuse resonants – s.t võime kaasata lisaks inimestele ka institut- sioone. Nendele tingimustele vastavad haridusalased tekstid väga hästi. Siinse uurimuse eesmärk ongi uurida ühiskonnas domineerivaid ideoloogiaid haridusalastes tekstides võrdlevalt kolmel maal: Eestis, Soomes ja Sloveenias. Kuna ideoloogilisi uskumusi otseselt haridustekstides ei väljendata, siis saab neid uurida diskursuste kaudu. Ühes haridusalases tekstis võib leida märke erinevatest diskursustest, sest ühiskonna huvigrupid, kes tekste toodavad, võistlevad oma ideoloogia kehtestamise nimel. Käesolevas analüüsis on vaatluse all kolm kõige selgemini eristatavat poliitilist ideoloogiat – sotsialism, konservatism ja liberalism – ning nende tänapäevased edasiarendused. Kuna Euroopas on esindatud eelkõige kolme tüüpi poliitilisi par- teisid: liberaalsed (uus-liberaalsed), konservatiivsed (uuskonservatiivsed) ning sotsialistlikud (sotsiaaldemokraatlikud, kolmas tee), siis on analüüsis lähtutud eeldusest, et just need kolm on valitsevad poliitilised ideoloogiad.

2. Eesti, Soome ja Sloveenia haridustekstide diskursusanalüüs

Eesti ja Soome haridustekstid on kultuuriliselt ning geograafi liselt lähedased, tegemist on soomeugri keeleruumiga. Samuti on oluline, et iseseisvumise järel on Eestil tihedad haridusalased kontaktid just eduka Soomega. Samas on Eesti ja Sloveenia ajalugu sarnasem, mõlemad riigid taastasid iseseisvuse 1991. aastal, kuuludes eelnevalt Nõukogude Liidu mõjusfääri. Huvitav on ka asjaolu, et Slovee- nia ühines Euroopa Liiduga samal ajal kui Eesti. Uuring võimaldab võrrelda Eesti 8 haridusalast diskursust kahe Euroopa Liidu riigiga, ülieduka Soome ning kiire arenguga Sloveeniaga. Analüüsis otsitakse vastust küsimustele, kuivõrd on esindatud sotsiaaldemo- kraatlik, liberaalne ja konservatiivne diskursus, milliseid sarnasusi, erinevusi ja muu- tusi võib eri ühiskondades täheldada, kuidas diskursused on ajas muutunud. Tulemusi võrreldakse sotsiaalteadlaste ning haridusalaste diskursusanalüüsijate käsitlustega, eelkõige sotsiokultuuriliste muutuste ja diskursiivsete muutuste suhte analüüsi suuna peaesindaja Norman Fairclough’ (1992, 1999, 2005) seisukohtadega.

2.1. Meetod

Meetodina on kasutatud sõnaanalüüsi (Dijk 2005) ja programmi WordSmith Tools (Scott 1997). Leksikaalne analüüs on T. van Dijki (2005: 244) hinnangul kõige ene- sestmõistetavam (ja ikka veel viljakas) diskursuse ja ideoloogilisuse analüüsimise komponent. Seetõttu on töös lähtutud eeldusest, et ideoloogiliste muutustega peavad kaasnema muutused ka keelekasutuses ning sõnavaras. Töö toimus järgnevalt. Arvutisse sisestati Eesti, Soome ning Sloveenia lasteaedade, üldhariduskoolide kehtivate õppekavade ning haridusseadustike tekstid. Töögrupp (haridussotsioloogid Slavko Gaber, Klemen Slabina, Veronika Tasner) valis esmalt märksõnad teoreetilise kirjanduse põhjal (Kymlicka 2002, Waldron 1993, Nisbet 1978). Märksõnad tõlgiti kolme keelde ning kontrolliti nende konteksti. Programm võimaldab sisestada haridustekstidesse sõnatüved. Töögrupp (Katrin Aava, Anne Lindström, Pille Riismaa, Klemen Slabina) jättis analüüsist välja a) sõnad, mis üldiselt ei esinenud ideoloogiliselt tähenduslikus kontekstis, b) sõnad, mille tüvi ei eristunud teiste sõnade tüvedest. Kuna sotsiaaldemokraatliku ideoloogia sõnu oli kõige vähem, nimelt 15, eraldati igast grupist 15 sagedamini esinevat sõna. Nii moodustusid võrdse suurusega sõna- grupid. Ühtlasi võimaldas see vabaneda ballastist, nt konservatiivses plokis jäi Eesti puhul välja sõna sloveenia ja vastupidi. Seejärel liideti 15 sõna kogusumma ning jagati see õppekavades haridusseadustikus olnud sõnade arvuga. Seega väljendab tulemus ideoloogiliselt markeeritud sõna osakaalu kogu tekstist. Esimese 15 sõna arv on jagatud kogu tekstis esinenud sõnade arvuga, et saada võrreldavad tulemused. Programm WordSmith Tools võimaldas sisestada sõnatüvesid, aga siin on lugemise hõlbustamiseks esitatud mitte tüved, vaid sõnavormid viisil, et väljenduks nende ideoloogiline tähendus. Sotsiaaldemokraatlikku ideoloogiat väljendatakse diskursusega, kus esineb järgmisi sõnu: töötaja, teenindama, hool, erivajadus, koostöö, sotsiaal, olukord, konfl ikt, partner, kohanema, heaolu, konsensus, läbirääkimised, solidaarsus, ametiühingud. Liberaalset ideoloogiat väljendatakse diskursusega, kus esineb sõnu: õigused, standardid, kodanik, loov, valik, privaat, väärikus, võõrkeel, individuaalne, mit- mekesisus, erinevus, võõras, alternatiiv, avatus, sallivus, elustiil, talent, elusfäär, võimekus, kaubandus, paindlikkus. Konservatiivset ideoloogiat saab iseloomustada diskursusega, kus võib leida sõnu või sõnatüvesid: eesti, vene, soome, Rootsi, Sloveenia, rahvas, rahvus, pere, kodu, rahva-, etno-, eetika, traditsioon, religioon (ka usk ning uskumus), ema, autoriteet, lojaalsus, sanktsioonid, karistus. 9 Problemaatiline oli, et eri maade tekstid olid väga heterogeensed. Samuti olid haridusseadused väga erineva mahuga: kui Eesti tekstis oli 3 695 sõna, siis Soome omas 13 936 ning Sloveenia omas 17 447 sõna. Kui Eesti õppekavades oli kokku 68 325 sõna, siis Soomes 119 779 ning Sloveenias 410 829 sõna. Seetõttu on uuringute aluseks võetud keskmine ehk esinenud märksõnade arv jagati kogu teksti sõnade arvuga. Kõige mahukamas tekstis (Sloveenia õppekava) on kõige vähem loendisse valitud ideoloogiliselt markeeritud märksõnu. Kui võrrelda kõige mahukamat (Sloveenia) teksti kõige lühema (Eesti) tekstiga, siis siin on erinevused oluliselt väiksemad, kui kahe mahukama, Soome ja Sloveenia teksti vahel (vt joonis 1). See julgustab siiski tulemusi võrdlema, hoolimata erinevast sõnade arvust. Samuti tekitas küsitavusi asjaolu, kas valitud märksõnad võimaldavad teha järeldusi ideoloogiate esinemise kohta. Samas aga tulemused ühtivad paljuski kriitilise diskursusanalüüsi teoreetikute seisukohtadega, kelle hinnangul sotsiaal- demokraatlik ideoloogia on taandumas ning konservatiivne tõusuteel. See asjaolu lubab teha järeldusi kolme maa haridustekstide kohta.

2.2. Haridustekstide võrdluse tulemused

Tulemuste võrdlemine maade kaupa näitab, et õppekavade vahel joonistuvad välja suuremad erinevused kui haridusseadustes (vt joonis 1). Eesti ning Soome õppekava on valitud ideoloogiliste märksõnade võrdluses lähedasemad, suuremad erinevused on Soome ning Sloveenia õppekavade vahel, haridusseadustikke võrreldes erineb Eesti oluliselt rohkem Soome ja Sloveenia tekstidest. Soome haridusseaduses, mis on kõige vanem tekst, on sotsiaaldemokraatlik diskursus kõige rohkem esindatud. Näiteks sõnatüvi hool* esineb 99 korda ehk moodustab lausa 0,71% kogu teksti sõnadest. Samuti on sotsiaaldemokraatlik diskursus jõuliselt esindatud Sloveenia haridusseadustes: näiteks moodustab sõna erivajadused 0,36% kogu sõnade arvust.

3,0%

2,5% liber.

2,0% sots.dem. konserv. 1,5%

1,0%

0,5%

0,0% Soome Sloveenia Eesti õppekavad õppekavad Soome Sloveenia haridusseadused haridusseadused Eesti õppekavad haridusseadused

Joonis 1. Haridustekstide võrdlus maade kaupa. Esitatud ühe ideoloogilise märksõna osakaal tekstis 10 Kolme maa haridustekste võrreldes (vt joonis 1) tuleb esile see, et Eesti ja Sloveenia haridustekste iseloomustab tugev liberaalse diskursuse osakaal. Soome haridus- tekstides tõusevad Eesti ning Sloveeniaga võrreldes esile pigem sotsiaaldemokraat- lik, aga ka konservatiivne diskursus. Soome õppekava eristub ka selle poolest, et sõnad usk, aga ka uskumu*, religioon esinevad Eesti õppekavas 0,01%; Sloveenia õppekavas 0,11% ning Soomes 0,44%. Soome haridusseadustikus on need sõnad samuti rohkem esindatud – 0,43%. Oluliseks kujunes ka see, kui palju räägiti oma maast, keelest ning kultuurist: Eesti õppekavades 0,65% ning seaduses 0,78%, Soome õppekavades 0,73% ning sea- duses ainult 0,10%, Sloveenia haridusseadustikus 0,38% ning seaduses 0,49%. Kolme maa haridustekstide võrdlemisel mängib olulist rolli haridusteksti val- mimise aeg (vt tabel 1). Tulemused näitavad, et teksti redigeerimise aeg ei mõjuta tulemusi, sest redigeerimisel muudetakse üldteksti vähe.

Tabel 1. Õppekavade ja haridusseadustike kinnitamiste ning redigeerimiste ajad

Õppekavad Kinnitatud Viimati redigeeritud Eesti Lasteaedade kava 1999 2006 Põhikool ja gümnaasium 2002 2006 Soome Lasteaedade kava 2000 Põhikool 2004 Gümnaasium (sm lukio) 2003 Sloveenia Bela Kniga (üldosa) 1995 Ainekavad 1998 Haridusseadus Eesti 1992 2006 Soome Lasteaed 1973 2006 Põhikool 1998 2003 Gümnaasium (lukio) 1998 2005 Sloveenia Lasteaed 1996 Põhikool 1996 2005 Gümnaasium 1996 2006

Kui jälgida diskursuste muutumist ajas (vt joonis 2), siis varasemates tekstides, nagu Soome ning Sloveenia haridusseaduses, on sotsiaaldemokraatliku ideoloogia märksõnu rohkem kui hilisemates haridustekstides. Soome haridusseadused on kõige vanemad tekstid ning seal domineerib veel tugevalt sotsiaaldemokraatlik diskursus. Sotsiaaldemokraatlik diskursus on ühtlasi kõige vastuolulisem. Nii Soome kui ka Sloveenia haridustekstides on sotsiaaldemokraatlik diskursus nõrge- nemas, Eesti tekstide puhul see ei kehti. Sloveenia haridustekstides on see muutus väga drastiline: 1996. aastal valminud õppekavade ning 1998. aastal valminud õppekavade (üldosa valmis juba 1995. aastal) vahel on suur erinevus. Kui üldistada tulemusi ajalises dimensioonis, siis liberaalne diskursus on nõrgenemas ning konservatiivne diskursus tugevnemas (vt joonis 2). Liberaalne diskursus on nõrgenemas selgelt Eesti ning samuti ka Sloveenia haridustekstides. 11 Hilisemates tekstides, nagu Eesti ning Soome õppekavad, on esile tõusnud kon- servatiivne diskursus. Seega võib just aja dimensiooni pidada üheks olulisemaks ning huvitavamaks karakteristikuks, sest diskursused muutusid oluliselt kümnendi vältel, kajastades sedasi ideoloogilisi muutusi ühiskonnas. Selleks, et mõista kolme maa haridusteks- tides esinevaid diskursusi, on oluline analüüsida tulemusi laiemas rahvusvahelises kontekstis.

3,0% Soome haridusseadused 1973–1998

2,5% Eesti haridusseadused 1992

2,0% Sloveenia haridusseadused 1996 1,5% Sloveenia õppekavad 1998

1,0% Eesti õppekavad 1999–2002

0,5% Soome õppekavad 2000–2003 0,0% liber. sots.dem. konserv.

Joonis 2. Eri maade haridustekstides liberaalsete, sotsiaaldemokraatlike ning konservatiivsete märksõnade esinemissageduse võrdlus tekstide valmimise järjekorras (aluseks on varaseima teksti ilmumise aasta)

3. Haridus majanduslike ning poliitiliste huvigruppide mõjusfääris

Diskursused mängivad olulist võtmerolli jätkuvas globaliseeruvas maailmas konst- rueerides ning legitimeerides post-heaoluühiskondade poliitikat. Muutused, mis leidsid aset 1990-ndate hariduspoliitikas, olid tihedalt seotud jõuliste ideoloogiliste suunamuutustega rahvusvahelises keskkonnas. Seega on Eesti, Soome ning Slovee- nia haridustekstide analüüsimisel oluline neid ideoloogilisi muutusi ka jälgida ning võrrelda tulemusi sotsiaalteadlaste ning diskursuseuurijate seisukohtadega. Töös analüüsitud tekstide põhjal võib märgata sotsiaaldemokraatliku diskur- suse nõrgenemist. Samas just solidaarsuse, sotsiaalse õigluse ning võrdsuse ideed said aluseks lääne heaolu ühiskonnale, mis arenes II maailmasõja järel Keynes’i ideede kohaselt. Selline heaoluühiskonna elumudel, mis tagas kodanikele sotsiaal- hoolekande teenused, tasuta hariduse, stabiilse pensioni, kestis kuni 1980-ndate majanduskriisini. (Giddens 1998: 9-19) Nendest ideedest kantud sotsiaaldemokraatliku ideoloogia mõjuga võib seletada Soome haridusseadustike (lasteaedade haridusseadus lausa 1973. aastast) teistest tekstidest oluliselt tugevamat sotsiaaldemokraatlikku diskursust. Sloveenia õppe- 12 kavas ning eelkõige Eesti haridustekstides on see kõige vähem esindatud diskursus, kuna Sloveenia ning Eesti ei kuulunud II maailmasõja järgse lääne demokraatliku heaoluühiskonna ideoloogilisse mõjusfääri. Sotsiaaldemokraatlik diskursus on aga nõrgenenud Soome haridustekstides ning hilisemates õppekavades tõusevad esile nii liberaalne, eriti aga konservatiivne diskursus. Nimelt tunnistavad Soome uurijad (Kivirauma jt 2003), et uusliberaalse poliitika surve all on ka hariduspoliitika teinud järeleandmisi vabaturumajanduse eeskujul, lähtudes võistluse, kliendi valikuvabaduse, sponsorluse ideedest, vähen- dades riiklikku sekkumist. Seetõttu on toimunud diskursiivne muutus kodaniku- ühiskonnast individualismi suunas. Arvestades globaalset konkurentsi ning seades eesmärgiks majandusliku edukuse ning efektiivsuse, oodatakse ka haridusasutuselt konkurentsivõimelist haridust ning eelkõige tipposkusi. Kui sotsiaaldemokraat- liku ideoloogia põhimõtetest lähtuv traditsiooniline ühtluskool haris kodanikke modernse ühiskonna kollektiivsetest väärtustest lähtudes, siis postmodernne indiviid arendab oma individuaalseid võimeid. Analüüsis oluliselt jõulisemalt esindatud liberaalne diskursus on võtnud eri- nevate teoreetikute hinnangul uusliberaalse kuju. N. Fairclough’ (1999: 75) arvates muutub globaalse kapitalismi tingimustes senisest domineerivamaks majandust kontrollivate mõjuvõimsate huvigruppide uusliberaalne ideoloogia. Uusliberalism pole neutraalne, tehnitsistlik ega majanduslik diskursus. Uusliberaalne retoorika räägib maksimaalsest efektiivsusest, kiirest majandus- kasvust ning innovatsioonist, lubades kiiresti kasvavat heaolu neile, kes soovivad kõvasti tööd teha ning olemasolevaid võimalusi kasutada. Uusliberaalne ideoloogia rakendab hariduse ärihuvide teenistusse, mis väljendub näiteks selles, et hariduse puhul on võetud kasutusele ärimaailmast pärit turundamis- ning rahastamisprint- siibid. Seda põhjustab ühelt poolt asjaolu, et fi nantsmajanduse areng on olnud suhteliselt konservatiivsest haridusest kiirem, surudes sedasi peale oma reeglid. Seda näitab ka asjaolu, et globaalse hariduspoliitika kujundajad on suuresti rahvus- vahelised majandusorganisatsioonid. (Giroux 2004) Seega tuleb eraldi käsitleda liberaalse ideoloogia arenguid globaliseeruvas maailmas. 1970-ndate majanduskriis toob 1980-ndatel kaasa neoliberaalse pöörde. Piisavalt kõlapinda leidis parempoolsete argument, mille kohaselt liigpalju võrdsust vähendab ettevõtlikkust ning seeläbi majanduskasvu. Praktikas avaldus see eelkõige võitluses kõrgete maksude vastu. Algas võitlus ametiühingute vastu, esile tõsteti individualistlikke väärtusi, kujunesid välja uued korporatiivsed traditsioonid ning süvenes kihistumine. Uusliberaalne poliitika tähtsustas indiviidi vastutust, rääki- des heaolust, mida riik pigem võimaldab, aga mitte ei garanteeri oma kodanikule. Seega eeldatakse, et inimesed suunavad ja fi nantseerivad ise oma koolitust ning komplekteerivad ning ohjavad oma “haridusportfelli”. (Miliband 2005: 40-41) Üleminekuühiskonnad Eesti ja Sloveenia sattusid omariiklust ehitama hakates jõuliselt liberaalse ideoloogia mõjusfääri. Kommunistliku režiimi kokkukukku- mine muutis tugevamaks liberaalsete argumendi, mille kohaselt riiklik majanduse reguleerimine toob kaasa majandusliku stagnatsiooni (Miliband 2005: 41). Sellega võib põhjendada Eesti ja Sloveenia õppekavade oluliselt jõulisemat liberaalset diskursust võrreldes sotsiaaldemokraatliku diskursusega. Uusliberaalne haridus- poliitika väljendus detsentraliseerimise, dereguleerimise, turumajanduse, suure- neva valikuvabaduse retoorikas, õpetajast hakati rääkima kui teenusepakkujast, klienditeenindajast. Eestis avaldus see ka nn pearaha süsteemi kaudu, mis sundis 13 haridusasutusi äriühingutena võistlema nii õpilaste kui paremate majandamis- tingimuste pärast. Haridustekstide võrdlemisel võib väita, et just ajamõõdet silmas pidades muu- tub tugevamaks konservatiivne ideoloogia, eriti märkimisväärne on see Soome ja Eesti õppekava puhul, mis on ka hilisemad tekstid. See ühtib paljuski kriitilise dis- kursusanalüüsi autoritega (Fairclough 1992, Dijk 2005), kelle hinnangul 1990-ndate lõpus oli tugev uusliberaalse ideoloogia mõju (siinses töös näitavad seda Eesti ning Sloveenia haridustekstid), aga uuel sajandil võib rääkida konservatiivse ideoloogia tugevnemisest (siin tõestavad seda tendentsi Eesti ning Soome õppekavad). Liberaalse ning konservatiivse ideoloogia seostele on tähelepanu pööranud mit- med autorid, osutades asjaolule, et uuemad konservatiivsemad hoiakud on paljuski mõjutatud liberaalsetest väärtustest. A. Giddens (1998: 8) defi neerib uuskonser- vatismi ehk thatcherismi, mis väärtustab “õhukest” riiki, turufundamentalismi ja traditsioonilist rahvuslust, aga ei pea probleemiks ei ebavõrdsust ühiskonnas ega madalat ökoloogilist teadlikkust. Kriitilise diskursusanalüüsi peavoolu esindajatel on erinevate ideoloogiate suhetest erinev arusaam. Kui lähtuda T. van Dijki (2005: 335) hinnangutest, siis on konservatism pigem katus- või metaideoloogia, mis korrastab teisi ideoloogiaid. Näiteks kui seda rakendada neoliberaalsetele ideoloogiatele poliitilise majanduse vallas, propageerivad konservatiivsed ideoloogiad tüüpiliselt riigi piiratud rolli turul. Sarnaselt, rakendatuna kultuurilistele ideoloogiatele, võivad konservatiivsed metaprintsiibid esineda kahes üksteist täiendavas versioonis: piiratud riigipoolse sekkumisena mõnda kultuurivaldkonda (haridussüsteemi, meediasse, religiooni) või aktiivne riigi sekkumine, näiteks jäikade seaduste kujul neis valdkondades, milles võib tekkida oht moraalsele korrale (pereväärtused, seksuaalsus, multikul- turalism). Samuti aitab konservatiivse ideoloogia esiletõusu põhjendada U. Becki (2005: 126-127) seisukohtadega. Tema hinnangul on kaasaegne euroopastumise mudel toonud meid paradoksaalsesse olukorda: euroopastunud turg, aga ka ühiskondade areng ise tingib uusrahvusluse esiletõusu. Kui 1990-ndate poliitiline võiduvalem oli uusliberaalne majanduspoliitika ning autoritaarne sisepoliitika (võõraste sisse- tuleku piiramine), siis uus võiduvalem võib olla autoritaarne sisepoliitika kombi- neeritud uusrahvusliku majandus- ja sotsiaalpoliitikaga. Mis tähendab U. Becki sõnul seda, et kaitstakse oma maa töötajate kõrgemaid palku vaesemate Euroopa Liidu töötajate eest. Ning ka sotsiaaldemokraatlikud parteid ei jää ses küsimuses immuunseks. Seega oleks üks võimalus uuritud haridustekstide tulemuste analüü- simisel järeldada, et uusliberaalne ideoloogia on kaasa toonud ka konservatiivsete väärtuste tõusu. N. Fairclough’ (1992: 9) hinnangul on haridusdiskursus koloniseeritud uus- liberaalse ning uuskonservatiivse diskursuste poolt, mille tulemusena on haridus- diskursus jätkuvalt turumajanduse mõjusfääris. Globaliseeruvas maailmas konst- rueeritakse ning legitimeeritakse diskursuste kaudu post-heaoluühiskondade poliitikat. Nimelt on elukestva õppe ning post-heaoluühiskonna hariduslikud agendad omavahel tihedalt seotud. Haridus mängib rahvusriikides olulist rolli sel- lise sotsiaalpoliitika kujundamisel, mis vähendaks valitsuse koormat ühiskondlike kohustuste täitjana (Mulderrig 2003: 4). Samas jäävad kolme maa haridustekstide võrdlemisel mõned küsimused, mida 14 teoreetilise kirjanduse põhjal ei oska seletada. Näiteks erinevalt teistest maadest on Eestis sotsiaaldemokraatlik diskursus mõnevõrra tõusnud, kuigi teiste maade kogemuse põhjal sama diskursus nõrgenes. Küsimusi tekitab ka ootamatult suur erinevus sotsiaaldemokraatliku diskursuse märksõnade vahel Sloveenia õppekavas (valminud aastatel 1995–1998) ning haridusseadustikus (valminud 1996. aastal). Samuti erineb üldisest suundumusest Sloveenia õppekava, kus konservatiivsete märksõnade diskursus on mõnevõrra nõrgenenud. Nendele küsimustele siin kasu- tatud metoodikaga vastuseid ei saa anda, vaid need küsimused nõuaksid teistsugust metoodikat (nt sisuanalüüsi, küsitlust vms). Võitlus vähenevate ressursside pärast ning sõjategevuse aktiivistumine 21. saj alguses võib oluliselt sellist uusliberaalse ning konservatiivse ideoloogia tugevnemist toetada. Samas on majandussurutis kahtluse alla pannud uusliberaalse ideoloogia jätkusuutlikkuse, kuna enamikes Lääne ühiskonna riikides on just riiklikud ins- titutsioonid asunud abistama pankrotistumas eraettevõtteid. Seega pole õhukese riigi ideel enam tegelikku kõlapinda ning võib ennustada ideoloogiliste väärtuste ümberhindamist lääne ühiskonnas. Mis suunas see hakkab muutma haridusalaseid diskursusi, on veel vara hinnata.

4. Kokkuvõte

Kriitilise diskursusanalüüsi kaudu on võimalik tekstide põhjal uurida, kuidas “loomulikustatakse” ning legitimeeritakse ideoloogilised uskumused hariduse küsimustes. Töös võrreldi hariduspoliitilisi diskursusi Eesti, Sloveenia ning Soome õppekavades ning haridusseadustikes, et hinnata nende rolli sotsiopoliitilises kon- tekstis juhtiva ideoloogia seadustamisel. Töös otsiti vastust küsimusele, kuivõrd on esindatud sotsiaaldemokraatlik, liberaalne ning konservatiivne ideoloogia ning milliseid sarnasusi ning erinevusi ning milliseid muutusi võib eri ühiskondades täheldada. Kõige tugevamalt on kolme maa haridusalastes tekstides esindatud konserva- tiivne, siis liberaalne ning kõige tagasihoidlikumalt esindatud sotsiaaldemokraatlik diskursus, seda eelkõige Eesti tekstides. Kolme maa haridustekste võrreldes tuleb esile see, et Eesti ja Sloveenia haridustekste iseloomustab tugev liberaalse diskur- suse osakaal. Eesti ning Soome haridustekstides on tugevnemas konservatiivne diskursus. Ajalises perspektiivis on liberaalne diskursus nõrgenemas ning konservatiivne tugevnemas. See ühtib sotsiaalteadlaste ning kriitiliste diskursusanalüüsi autorite hinnangutega, mille põhjal 1980-ndatel esile tõusnud uusliberaalne ideoloogia, mis vahetas välja sotsiaaldemokraatliku, on omakorda kaasa toonud konservatiivsete väärtuste tõusu.

Viidatud kirjandus Beck, Ulrich 2005. Inequality and recognition: Pan-European social confl icts and their political dynamic. – Anthony Giddens, Patrick Diamond (Eds.). The New Egalitarism. Cambridge: Polity Press, 120–142. van Dijk, Teun A. 2005. Ideoloogia. Multidistsiplinaarne käsitlus. Tartu: Tartu Ülikooli Kirjastus. Fairclough, Norman 1992. Discourse and Social Change. Cambridge: Polity Press. 15 Fairclough, Norman 1999. Global capitalism and critical awareness of language. – Language Awareness, 8 (2), 71–83. doi:10.1080/09658419908667119 Fairclough, Norman 2005. Critical discourse analysis in transdisciplinary research. – R. Wodak, P. Hilton (Eds.). A New Agenda in (Critical) Discourse Analyses. Discourse Approaches to Politics, Society and Culture 13. Amsterdam: John Benjamins, 53–70. Giddens, Anthony 1998. The Third Way. Cambridge: Polity Press. Giroux, Henry A. 2004. The Terror of Neoliberalism: Authoritarianism and the Eclipse of Democracy. Garamond Imprint. Kivirauma, Joel; Rinne, Risto; Seppänen, Piia 2003. Neo-liberal education policy approaching the Finnish shoreline? – Journal for Critical Education Policy Studies, 1 (1), http:// www.jceps.com/index.php?pageID=article&articleID=5 (30.09.08). Kymlicka, Will 2002. Contemporary Political Philosophy: An Introduction. Oxford, New York: Oxford University Press. Miliband, Edward 2005. Does inequality matter? – Anthony Giddens, Patrick Diamond (Eds.). The New Egalitarism. Cambridge: Polity Press, 39–51. Mulderrig, Jane 2003. Consuming education: A critical discourse analysis of social actors in New Labour’s education policy. – Journal for Critical Education Policy Studies, 1 (1), http://www.jceps.com/index.php?pageID=article&articleID=2 (28.12.08). Nisbet, Robert 1978. Conservatism. – Tom Bottomore, Robert Nisbet (Eds.). A History of Sociological Analysis. London: Heinemann, 80–117. Scott, Mike 1997. WordSmith Tools. Oxford: Oxford University Press. Waldron, Jeremy 1993. Liberal Rights. Cambridge: Cambridge University Press.

Katrin Aava (Tallinna Ülikool) uurimisvaldkonnad on meediatekstide analüüs, diskursusanalüüs, haridustekstide analüüs. [email protected]

16 COMPARATIVE DISCOURSE ANALYSIS OF EDUCATIONAL TEXTS

Katrin Aava Tallinn University

The article studies ideologies dominant at the macro level in society by means of discourses present in educational texts at the micro level. Education policy dis- courses in major Estonian, Slovenian and Finnish educational texts are compared both in curricula and education legislation, in order to understand their role in the socio-political context in reproducing and legitimising the leading ideology. The article seeks to fi nd out to what relative extent the social democratic, liberal and conservative discourses are represented, what kind of similarities and differences as well as changes can be detected in different societies, and how discourses have changed over time. The results are compared to those reached by various analyses of educational discourses. The most powerfully represented discourse in educational texts of the three countries is the conservative one, followed by the liberal and the social democratic discourse in that order, the latter being the least represented, especially in Estonia. The conservative discourse is on the increase in Estonian and Finnish educational texts. From a time perspective, the liberal discourse in educational texts is weaken- ing and the conservative one is becoming stronger. The result coincides with the opinion expressed by social scientists and authors of critical discourse analysis, according to which the rise of neoliberal ideology in the 1980s, coming to replace social democratic ideology, has contributed to an increase in conservative values.

Keywords: critical discourse analysis, curriculum, education legislation, ideology, Estonian, Slovenian, Finnish

17

CONSTRAINTS OF MEASURING LANGUAGE PROFICIENCY IN ESTONIA: THE NATIONAL EXAMINATION IN THE ENGLISH LANGUAGE

Ene Alas, Suliko Liiv

Abstract. The current article gives an overview of the development

and problems related to the advancement of the national examination 5, 19–32 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT in English in Estonia over a ten-year period, starting from its launch in 1997. The process started in 1994, after Estonia regained its inde- pendence, and proceeded from the need to standardise both foreign language instruction and evaluation. The national examination gave the Ministry of Education, schools, teachers and students an opportunity to adequately assess language profi ciency, as well as compare students and schools. On the other hand, universities and businesses obtained a tool to make admission/recruitment decisions. The article discusses the principles of the national examination construction, its specifi ca- tion, structural alterations over time, the task types implemented to measure particular language skills, marking procedures, exam results and exam evaluation. Keywords: test validity, test reliability, test specifi cations, rater reli- ability, washback effect

Introduction

It was in 1994 that the fi rst attempts were made to systematically start to follow the principles that had been established in the western tradition of language testing for some time and had been outlined in the works of Underhill (1987), Weir (1988), Hughes (1989), Bachman (1990), Alderson, Clapham and Wall (their then unpub- lished manuscript of the seminal 1995 testing book) to name but a few. Language testing research and test development in the west were by that time independent, indispensable parts of foreign language instruction and evaluation and Estonia, with its newly regained political, economic and cultural independence, was in a hurry to learn from the western experience and implement the principles in the English 19 language evaluation practice here. Evaluating the foreign language testing situation in Estonia prior to establishing a national exam, Tallinn University professor of English Suliko Liiv, who has long been a foreign language teaching and evaluation policy maker in Estonia, asserts that “...there was no unifi ed school-leaving exami- nation in English, teachers had a great deal of freedom in compiling, administering and marking the tests. Each school compiled their own tests for fi nal exams and the result was that the tasks varied a great deal and the results of the exams in different schools were not comparable and tended to be subjective.” (Liiv 2002: 51–52) It was primarily this problem that drove the Ministry of Education in 1994, shortly after Estonia regained its independence and was starting to align its teach- ing and evaluation practices with those followed in the west, to look for “a common yardstick…in order to make meaningful comparisons” (Hughes 2003: 4), to give teachers a common standard that would allow them to measure their students against and to allow students to compare their own profi ciency against, to give the Ministry of Education a tool to make comparisons between schools and allow the schools and universities to use the same tool for gatekeeping purposes. So it was clear from the start that what was attempted was going to be a high stakes test. The need to create an instrument that would be utilised to measure the language ability across Estonia prompted the then Ministry of Education to put together a working group that started to develop the fi rst pilot tests. The effort to launch a national test for upper-secondary/high-school/gymnasium graduates was not restricted to the English language only, but involved all languages taught in Estonia (Estonian, Russian, English, German, French) and also sciences. A lot of general training for test developers at the start of the project was conducted to all subject specialists together, but to date, all subjects-specifi c national examination development groups are working fairly independently. In order to fully concentrate on the development of a national qualifi cation evaluation system, the National Examination and Qualifi cation Centre (NEQC) opened in 1997 that currently over- sees national examination development1 among other things and has, as one of its chief responsibilities, to guarantee timely and professional national examination management. The scope of this article will not allow us to make comparisons with other subject areas, thus the discussion will be restricted to the English language national examination development only.

The English language national exam today

The design and development of the English language national exam proceeds from the Ministry of Education and Science regulation of January 23, 2001 no. 18 “Õpi- tulemuste välishindamise põhimõtted, riigieksamitööde, põhikooli eksamitööde ja üleriigiliste tasemetööde koostamise, hindamise ja tulemuste hindamise alused”2 (Regulation 2001). The regulation specifi es the purposes of the national exam as follows: • To evaluate the attainment of the educational goals outlined in the basic and gymnasium curricula; • To give schools and teachers an opportunity to compare the results of their students to those achieved by other students in the country;

20 1 The analysis of the national examinations of the English language is yearly published by NEQC, see NE 1997 − NE 2007. 2 “Principles of external evaluation of study results, standards for compilation, evaluation and results’ analyses for national examinations, basic school fi nal papers and state standard tests.” • To steer the educational process through the content and form of national examinations; • To link consecutive educational levels and stages; • Through external marking, to give feedback to all stakeholders and to allow planning and execution of changes in the national curriculum, textbooks, in-service training of teachers and allow development in the respective areas.3 As can be seen, the purpose of the national exam has in broad terms remained similar to its initial envisaged purpose. Consequently, what the exam developers have to constantly be aware of is the enormous washback effect in terms of teaching and testing practices at school and its impact on the stakeholders. “Stakeholders would include the test designers, teachers, students, score users, governments or any other individual or group that has an interest in how the scores are used and whether they are useful for a given context” (Fulcher, Davidson 2007: 14). The impact of the exam can be illustrated with just a few examples. Out of 59 speciali- ties admitting students to Tallinn University BA level studies in 2008, 24 specifi ed the foreign language national examination result as being of criterial importance during the admission procedure. The number of students who have chosen English as their national (graduation) exam over the years and consequently perceived it to be of relevance for their subsequent career choices can be seen in the Table 1.

Table 1. Number of participants in the English national exam over the years

Year 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 Examinees 9280 8769 9258 9461 8488 9311 9431 9099 9415 9590 9696

Considering that the average overall number of gymnasium graduates in Estonia is slightly above 14 000, it can be seen that generally speaking, about 75 per cent of the school leavers choose English as one of their graduation exams.4 The development of the national exam proceeds according to specifi cations that are derived from the national curriculum on the one hand, and from Year 12 Hand- book, on the other. The national curriculum specifi es study goals, competencies and skills to be acquired within a specifi ed amount of time (cf. Curriculum 2002). The study goals in the national curriculum are outlined very broadly. An example of the kind of specifi cations one can fi nd there is the specifi cation concerning gymna- sium graduates’ oral profi ciency: a student demonstrates oral profi ciency through “employing the correct foreign language intonation, rhythm and stress; being able to converse within the specifi ed topical range by presenting and supporting his/her point of view; by knowing the communication etiquette and being able to use it; by being able to communicate in the foreign language both directly and by telephone; by being able to exchange information, ask questions and express their position on social problems and events; and by resorting to compensatory strategies in com- munication if necessary” (ibid.). The topic areas specifi ed are the following: I as an individual among other individuals, my special features, abilities, preferences, strengths and weaknesses; family and home, marriage and family, roles in the family, rights and obligations, family budget; friends, relations between friends, social problems; environment, Estonia, the world, nature and nature protec-

21 3 NEQC, www.ekk.edu.ee (05.09.2008). 4 www.ekk.edu.ee (2.08.2008). tion, natural resources, climate, town and country, urbanisation, Estonian govern- ment, economy, cultural traditions, international relations; English-speaking countries, governments, culture, international relations; everyday activities, healthy ways of life, nutrition, communication in service situations, help during emergencies; study and work, the system of education, opportunities for educa- tion in Estonia and English-speaking countries, study skills and exam techniques, work and unemployment, technological advancement; hobbies and culture, sports events, cultural fi gures, advertising, information society and its problems (ibid.). The language level to be achieved by the end of gymnasium studies in the English language is B2 in all subskills (reading, writing, speaking and listening) as defi ned in the Common European Framework of Reference for Languages (CEF 2001). The curriculum thus specifi es the content of the examination in very broad terms. A much more concrete exam specifi cations can be found in the Year 12 Handbook. The fi rst of its kind was published in 1995 and was subsequently edited numerous times as the exam developed. The handbook describes each sub-skill (writing, listening, reading and language structures) paper and the speaking test in detail, gives examples of possible text types and task types, provides sample answers, tips for the student, and marking scales for the subjectively evaluated sections of the exam (writing and speaking) (cf. Jõul et al. 2005). Relying on the specifi cations, the next task for the national examination develop- ment team is to compile a test that would fi rst and foremost be valid and reliable, i.e. test the profi ciency that it claims to test and do so irrespective of the conditions and occasions of testing. Each national examination paper is a team effort, which draws its tasks from the effort of a number of item writers, who have been trained to write items to test a particular skill. This procedure, too, has evolved over the years. If at fi rst, the whole exam development team was involved with all the exam tasks, the work now is divided between skill teams. It is the skill team leader who receives the items or complete tasks from item-writers, assembles the items into tasks and submits them to the English language chief specialist. The items/tasks go through moderation carried out by independent consultants and are then all piloted usually among the 11th formers in different schools to evaluate their effectiveness. The schools that are chosen represent the whole spectrum of schools whose students sit the national exam, i.e. town schools, country schools, Russian schools, Estonian schools, etc. Piloting of test items involves both statistical and qualitative evaluation. As Hughes (2003: 65) points out, the statistical analysis at this point will “reveal qualities (such as reliability) of the test as a whole and of individual items (for example, how diffi cult they are, how well they discriminate between stronger and weaker candidates)”. The qualitative analysis, on the other hand is carried out “in order to discover misinterpretations, unanticipated but possibly correct responses, and any other indicators of faulty items”. Once satisfactory pilot results are achieved (which usually means more changes to the tasks and sometimes dropping of the tasks as unsuitable), the chief specialist puts together two fi nal versions of the national exam (Variant A and B), both ideally of equal quality. Before the fi nalisa- tion, the exam versions are trialled and proof-read by native speakers of English. This procedure of test development has been followed with very few changes starting from 1997 when the fi rst national test was put together. 22 The Table 2 below illustrates the structure of the current national exam in the English language, specifying the number of tasks in each section, the maximum number of points available for that section and the time allotted for the completion of the section.

Table 2. National examination structure

Skill Tasks Maximum points Time (min.) 1 Writing 2 20 80 2 Listening 3 20 35 3 Reading 4 20 50 4 Language Structures 4 20 40 5 Speaking 2 20 13–16

The time given for each section has generally remained the same over the years with two exceptions. In 2001, the time for the listening section was extended from 30 minutes for 35 minutes and in 2006, the time for the writing section was raised from 75 minutes to 80 minutes. Tasks 1−4 are completed consecutively on the same day, with the speaking test taken on the following day. Compared to other skill papers, the speaking test allows the examiner some freedom as to the time within which the test has to be completed. This is done in order to consider the idiosyncrasies of the examinees, allowing for varying rates of response and speech speed.

Task types

The writing paper has two tasks, the fi rst of which is a letter and the second task is either an essay or a report. The expected length for a letter up until 2006 was specifi ed as between 80 and 120 words. In order to avoid awarding similar points for exam responses of substantially differing lengths (e.g. one student writing 80 words and scoring maximum points and another student writing 120 words and also scoring maximum points) the requirement was changed as of 2007 where all the examinees are expected to write 120 words and are penalised if the response is signifi cantly shorter. Another change in this task involved the genre. If the Year 12 Handbook in 2005 still specifi ed the expected text types as “form fi lling, formal letters, instructions, notes and messages, postcards and personal letters” (Jõul et al. 2005: 14), then, rely- ing on the national curriculum guidelines and the CEF B2 level writing (CEF 2001: 61–62), the tasks that are effectively set in this part of the exam are semi-formal or formal letters of different genre (e.g. inquiry, apology, complaint, protest, etc.), all other genres (writing a postcard, leaving a message, etc.) are expected to have been mastered at a lower level. The second writing task can currently be either an essay or a report. Due to marking constraints, the story, which used to be a potential task type on this level, was excluded from the list as of 2007. In fact, although as a task type, the story features in specifi cations prior to 2007, it never appeared as an actual task in the national examination. The required length for the second writing task (essay/ report) was set at 200 words in 2007. Here, too, a range (from 150 to 200) was allowed prior to that, which potentially may have given rise to unfair test scores. The listening comprehension paper has three tasks that employ text types such as public announcements, interviews and conversations between two or 23 more people, mini-lectures, radio programmes, etc. Every consecutive task has an increased level of diffi culty, which is decided by to the pilot stage results. The tasks vary from one exam to the next but are either yes/no, multiple choice or short answer questions, matching tasks, ordering tasks, completing tasks or information transfer tasks. A huge and persistent challenge with the listening comprehension test is quality control of the recordings – fi nding suitable non-copyrighted texts, choosing speakers for the original recordings (the accent, the speed, the tone of voice, etc. of the speakers), making decisions about the background noise. The reading paper, similarly to the other papers, derives its topics form the national curriculum. The paper contains three texts that are each followed by one or two tasks. The texts originate from brochures, leafl ets, forms, letters, instructions, advertisements, fi ction, reference books, journals and magazines, dictionaries, etc. Typical task types are multiple choice and true/false questions, matching of titles and paragraphs, matching words with defi nitions, interview questions with responses, inserting deleted sentences, ordering paragraphs. The task type that causes perennial debate within the paper is the true/false/no information task that places huge demands on the item writers to create items which clearly belong in just one of the given categories (true or false or no information) and is not interpretable in more than one way. The language structures’ paper focuses most specifi cally on the grammatical accuracy and appropriacy of the English language use. It is this part of the language competence that has been specifi ed in the most detail in the national curriculum (for the list of grammatical requirements for a upper-secondary school/gymnasium/ high school graduate see for example Jõul et al. 2005, appendix E, 131–133). The challenge for the test writers is to achieve appropriate coverage of the specifi cations. If well designed, this section allows “checking the students’ knowledge within a fairly short amount of time of very different language structures, also those that in a daily language feature less frequently” (NE 2001: 19). The grammar structures are checked within complete, connected texts. It is not suffi cient to be familiar with particular grammatical items only to complete this section of the exam successfully. It is necessary to know how to implement the grammatical knowledge within a particular text. Thus a successful completion of tasks also requires attentive reading of the tasks on top of grammar knowledge. It is here that we notice that dividing language tests into skill tests is somewhat arbitrary in that by testing one skill we are inadvertently also testing another (in this case, while testing structures, we are also testing the reading skill). The speaking test takes place on a day following the written papers (depend- ing on the size of the school, it may take between 1 and 3 days to administer the speaking test to all the students who have registered for it) and currently requires the examinee to complete two tasks: a monologue and a (two-participant) role-play. The prompt for the monologue has gone through a thorough process of evolution, proceeding from a picture (until 2001), to a quote (2001–2002), a short article (2003–2007), and currently, a controversial statement (as of 2008). The main reason for substituting short articles as prompts was the attempt to reduce the amount of reading in the speaking test. As can be seen from the discussion above, the national examination already has a fairly heavy bias on testing reading (the reading paper, and the language structures’ paper). The new format allowed the 24 examinee to focus on displaying his/her speaking skills without depending on the reading-comprehension fi rst. This part of the national exam has been updated most recently for the purposes of higher reliability. Both tasks of the exam are scripted, i.e. the interviewer has to follow a prescribed format for the interview and is not allowed to improvise or deviate from the wording of the script. Improvisation may lead him/her to ask questions of varying levels of diffi culty from different examinees, leading to unequal treatment and potentially unfair marking. Following a script will ensure equal conditions for all examinees, irrespective of the examination day, the time of the day, the order of the examinees and the fatigue level or the personal characteristics of the interviewer.

Marking procedures

Both objective and subjective marking have been implemented with the national examination in the English language from the very start. Listening, reading and language structures’ papers have always been marked objectively, relying on the answer key for each item. Providing the answer key is a simultaneous process to item writing but also continues during the piloting stage, which invariably produces occasional acceptable but previously overlooked answers. Once the answer key is complete, no judgement is required on the part of the marker. A special case are the tasks in the listening paper that require students to fi ll gaps or provide short answers, and consequently issues of correct spelling come into play. Thus here a complete answer key cannot be prepared prior to test administration. To ensure uniform marking, a standardisation meeting is called after the examination paper has been administered and a random sample of about one hundred papers is taken to determine the extent of spelling diversion accepted as correct. In principle, no “points for errors of grammar or spelling [are deducted], provided that it is clear that the correct response was intended” (Hughes 2003: 170). It is, however neces- sary to determine where the line of clarity runs. When the respective decisions are made, the marking proper will proceed according to the key compiled. Writing and speaking sections of the national exam are subjectively marked, i.e. teams of raters are trained either to rate the students’ writing papers or their performance during the speaking test. In writing, the raters have generally relied on two different marking scales – one for letters and another for the essays and reports. With the number of point available for a particular paper fi xed – 20 points as a sum total for both tasks – the major concern while developing the marking scales has always been what to reward within the skill. The marking scale for letters has moved from awarding points for task completion, letter format and language (1999) to evaluating task completion, vocabulary and register, and grammar and spelling (2001), to task completion, letter format and language (until 2006) and task completion and language (as of 2007). It is also interesting to note that until the 2007 scale, specifi c sub-skills had been weighted differently. An example is the 1999 scale, where for task completion the students could get the maximum of 2 points, but for vocabulary and register and for grammar and spelling a maximum of 3 points. In the 2006 letter scale, task completion and format both earned the writer a maximum of two points, but the language criterion was evaluated on the scale of 0 to 4. This type of marking may inadvertently lay the classroom teaching emphasis on language (i.e. grammar and vocabulary) and overlook other facets of 25 writing, such as content and organisation, thus disadvantaging the student, should he/she move to such language contexts where the aforementioned qualities of writ- ing are required. For a more detailed discussion of the 2007 national examination writing scales see Alas et al. 2006. All writing papers are marked by two raters and in case of a disagreement of 4 points or more in the evaluation results, a third rater is called in for a fi nal decision. The marking of speaking has undergone substantial changes, too. The chal- lenges for the rating scale development are similar to those with the writing scales, i.e. which criteria to select for evaluation. Here, too, the scale has moved from a full scale for all the criteria selected in 1999, to an unequal number of points allocated for different criteria (as of 2001) back to a full scale starting from 2007. The current marking scale evaluates the students’ performance from the point of view of four criteria − communication, vocabulary, grammar, and pronunciation and fl uency. For a full discussion of the 2007 speaking scale see Alas 2007. The students’ oral performance is rated by an independent examiner during the oral exam. The examiner does not participate in the interview, which takes place between the student and the interviewer, but only rates the student’s performance relying on the marking scale.

Exam results

All fi ve exam sections are equally weighted – the maximum number of points that can be awarded for each section is 20, thus the maximum number of points the examinee can receive for the whole exam is one hundred. Below, an attempt will be made to draw some conclusions from a decade of the English language national examination administration in Estonia. The comparison and analysis will rely on the national examination 1997–2007 results. The Table 3 below shows the average scores of the student who have taken the national exam in the English language over the years along with the standard deviation i.e. the “average amount that each student’s score deviates from the mean” (Alderson et al. 1995: 294), the maximum number of points gained and the minimum scored during a particular test.

Table 3. Examinees and their mean score

Year 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 Examinees 9280 8769 9258 9461 8488 9311 9431 9099 9415 9590 9696 Average 64.6 58.8 61.8 64.1 64.9 66.6 63.99 66.6 71.9 64,4 68.8 Std* 17.7 19.9 19.9 19.7 18.8 17.8 16.9 16.7 16.0 16.1 16.0 Max 99 99 100 99 99 100 100 100 100 99 99 Minimum 8 00050011115 * Std = standard deviation

Looking at the average scores, which is just one of the very many statistical data derived from each year’s test result, it can be observed that with two exceptions the mean score has remained relatively stable during the decade. It is only in 1998, that the average score has dropped to 58.8 points, which may indicate a relatively more diffi cult test compared to the others. In 2005, however, the average score suddenly shoots to 71.9, which in turn points at a somewhat easier national exam. 26 With these two exceptions, the examination development team has managed to produce fairly uniform exams. It is also worthwhile comparing the average scores awarded for particular skills within the exams. The Table 4 makes comparisons between the average scores calculated over the years (1998–2007) for a particular skill as well as juxtaposes it with the averages for the other four sections of the test.

Table 4. Overview of mean scores for skills (1998–2007)

Year Writing Listening Reading Structures Speaking 1998 12.2 10.1 10.7 10.4 15.6 1999 12.4 11.2 10.9 11.8 15.7 2000 12.3 11.6 13.3 9.9 15.6 2001 11.3 14.7 12.2 11.1 14.7 2002 11.6 13.2 14.7 11.9 15.5 2003 11.5 11.9 13.5 11.0 15.8 2004 13.4 12.0 13.7 11.5 16.1 2005 13.3 12.7 15.3 13.1 16.4 2006 12.9 11.3 11.9 12.1 16.6 2007 13.1 13.1 12.5 13.1 16.9

Comparing the results across the board, it can be seen that while writing, listen- ing, reading and language structures seem to correlate fairly well with one other, the average score for speaking is signifi cantly higher every year. If these scores are reliable, then the students’ speaking skills are for some reason signifi cantly higher than all the other skills. Given that successful speaking presupposes good vocabu- lary, a good command of grammatical structures and the ability to interact with the interlocutor (hearing, understanding and responding to what is said, i.e. listening skills), the result is somewhat dubious from the point of reliability Another factor that may skew the results is the fact that although the schools are urged to record the examinees, and the examinees are urged to request recording of their oral interviews (without a recording the student cannot appeal against their interview result), this is not general practice. Thus all the interviews are marked by just one rater whose judgement is hardly ever monitored, which may lead to a tendency to infl ate the score in an attempt to compensate for possible lower scores in other sections of the test. The students’ average results have already been discussed above. It would, however be interesting to look at different groups of students. The Table 5 shows the average results of male and female students from the time when such compara- tive data are available.

Table 5. Mean score of boys and girls

Year 1999 2000 2001 2002 2003 2004 2005 2006 2007 Boys 60.3 61.0 63.3 66.2 63.3 65.5 71.4 65.2 69.5 Girls 62.8 63.6 64.6 66.9 64.4 67.3 72.3 63.8 68.3

The Table 5 shows that with two exceptions (2006 and 2007), the girls results have generally been higher, which may indicate a slightly better language competence level of girls, but could also be an indicator that the exam items have been con- 27 structed so that they are more accessible to the female population of test takers. From the raters’ comments it seems to transpire that girls are generally better at completing writing and speaking tasks while boys are more successful in listening, reading and language structures. Another point of comparison is the medium of instruction at school. Estonia has both Estonian and Russian language schools, where the primary language of instruction is Estonian or Russian, respectively. The same exam is available as a national exam for both school types. The average results of the students can be seen in the Table 6.

Table 6. Mean score of Russian and Estonian students

Year 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 Estonian 66.8 61.2 64.4 64.6 65.8 68.3 65.6 67.5 74.1 66.3 70.7 Russian 59.2 51.5 53.5 55.6 59.1 61.8 59.3 64.2 65.2 57.8 68.8

A study of the results demonstrates a signifi cantly higher average every year of the students studying in the Estonian language schools. The difference may be explained by the fact that while most of the Estonian-speaking test takers have studied English as an A-language (the fi rst foreign language that the students start studying), the vast majority of the Russian-speaking students taking the test have started study- ing English as a B-language (the second foreign language, which begins two years later). Thus by the time the examinees take the exam, the Russian students would have studied English for a shorter period of time.

Exam evaluation

All English language national exams are post-validated through a battery of statis- tical data dealing with item analysis, looking at “(1) the degree to which the item discriminates among individuals of different levels of ability (the discrimination parameter); (2) the level of diffi culty of the item (the ‘diffi culty parameter’) and (3) the probability that an individual of low ability can answer the item correctly (the ‘pseudo-chance’ or ‘guessing’ parameter)” (Bachman 1990: 204). Although the data is available for the English national exams over the years, the discussion of it is no within the scope of this article. As a step in test validation and development, however, post-validation is of utmost importance as it gives test developers feedback on the quality of their work and the trustworthiness of the test results.

Problems

In spite of the huge strides made in the fi eld of language profi ciency testing, there are problems, some of which (like the reliability of spoken language testing) have been discussed above, that remain. The national development team is constantly looking for more item writers, which would hopefully considerably contribute to a more varied and higher quality items. It could also speed up the test construction process and avoid last minute 28 decision-making. There is the concern of compiling two equally valid and reliable variants for the English national exam every year, where the fi rst variant of the test is taken by the vast majority of the test whereas the second variant is taken by very few (e.g. in 2006, 9552 people took variant A and 38 people took variant B). The resources that go into the development of both variants, however, are equal and seem somewhat wasted with so few students taking variant B. The third concern involves test security and pertains to the level of information given to the teachers and students about the national examination without actu- ally giving away the particular test items, tasks and questions. The existing test construction procedure that relies on a great number of item writers supervised by skills team leaders who in turn relinquish the tasks to independent consultants and subject specialist alongside with general training for teachers in exam techniques, marking scales’ implementation and testing practices hopefully guarantees secure (and thus valid and reliable) tests on the one hand and a reduced level of teachers’ national exam elated anxiety on the other, but it needs honing.

Conclusion

Estonia has been involved in professional test-construction for over a decade and that has given the Estonian education system an enormous amount of experience. The English language national exam is well-established. It is the most widely taken, locally constructed, nation-wide foreign language profi ciency exam in Estonia which is comparable to other national foreign language exams in Europe. The exam writers are guided by the standards adopted by the Council of Europe, expressed in the Common European Framework of Reference for Languages. The Estonian national curriculum specifi es B2 as the language level required in English from the Estonian gymnasium graduates. The curriculum outlines in very broad terms the different CEF levels but to date, the levels have not been suffi ciently elaborated. The national exam in English is a B2 level exam insofar as it proceeds from the CEF principles and tries to align its tasks and language content with other English language profi ciency exams that have the B2 status (e.g. FCE). Estonia has become a member of international testing organisations like Asso- ciation of Language Testers in Europe (ALTE), European Association for Language Testing and Assessment (EALTA), etc., proceeding in the test construction from their codes of practice. Test writers and developers know how to construct valid, reliable tests and administer them professionally. Test construction follows internationally estab- lished guidelines and practices of test specifi cation, item writing, piloting, test administration and statistical analysis. Test construction has had a washback effect on the language teaching practices at school, with the teachers being trained in the best practices of how to teach and test a particular skill, how to choose a textbook and supplement it so that it would benefi t the student most. All past tests are on fi le and available for students and teachers to learn from on the National Examination and Qualifi cation Centre home page. There is a greater awareness among educators of concerns that surround test- ing. Testing has become a specifi c subject taught in the teacher education courses. Raters are systematically trained to make expert decisions about student writing 29 skills and oral performances. Semi-annual workshops and conferences are held to familiarise teachers with the national test development issues and give them feed- back on past practices. Besides learning from the European practice of language testing, testing experts from Estonia share their expertise of test construction in Estonia at international conferences.

Abbreviations ALTE – Association of Language Testers in Europe CEF – Common European Framework of Reference for Languages EALTA – European Association for Language Testing and Assessment FCE – First Certifi cate in English (B2 level Cambridge test) NEQC – The National Examination and Qualifi cation Centre (= Riiklik Eksami- ja Kvali- fi katsioonikeskus)

References Alas, Ene 2007. Developing the national examination in the English language. – Open!, 32, 2–5. Alderson, J. Charles; Clapham, Caroline; Wall, Dianne 1995. Language Test Construction and Evaluation. Cambridge Language Teaching Library. Cambridge: Cambridge University Press. Bachman, Lyle F. 1990. Fundamental Considerations in Language Testing. Oxford Applied Linguistics. Oxford: Oxford University Press. CEF 2001 = Council of Europe 2001. Common European Framework of Reference for Languages: Learning, Teaching and Assessment 2001. Cambridge: Cambridge University Press. http://www.coe.int/t/dg4/linguistic/Source/Framework_EN.pdf (10.03.2009). Curriculum 2002 = Põhikooli ja gümnaasiumi riiklik õppekava 2002. Riigi Teataja, I, nr 20, Tallinn. Fulcher, Glenn; Davidson, Fred 2007. Language Testing and Assessment. An Advanced Resource Book. London, New York: Routledge Applied Linguistics. Hughes, Arthur 1989. Testing for Language Teachers. Cambridge Language Teaching Library. Cambridge: Cambridge University Press. Hughes, Arthur 2003. Testing for Language Teachers. 2nd ed. Cambridge Language Teaching Library. Cambridge: Cambridge University Press. Jõul, Mare; Lätt, Viive; Mere, Kristi; Sass, Eve; Türk, Ülle; Vilu, Maila 2005. Year 12 Hand- book. Tallinn: Argo. Liiv, Suliko 2002. Foreign language competence and testing. − Suliko Liiv (Ed.). Perspectives on English and American Language and Literature. Tallinn: Tallinna Pedagoogika- ülikooli Kirjastus, 51–59. NE 1997 = Inglise keel. Riigieksam 1997. Tallinn: Riiklik Eksami- ja Kvalifi katsioonikeskus. NE 1998 = Inglise keel. Riigieksam 1998. Tallinn: Riiklik Eksami- ja Kvalifi katsioonikeskus. NE 1999 = Inglise keel. Riigieksam 1999. Tallinn: Riiklik Eksami- ja Kvalifi katsioonikeskus. NE 2000 = Inglise keel. Riigieksam 2000. Tallinn: Riiklik Eksami- ja Kvalifikat- sioonikeskus. NE 2001 = Inglise keel. Riigieksam 2001. Tallinn: Riiklik Eksami- ja Kvalifi katsioonikeskus. NE 2002 = Inglise keel. Riigieksam 2002. Tallinn: Riiklik Eksami- ja Kvalifi katsiooni- keskus. NE 2003 = Inglise keel. Riigieksam 2003. Tallinn: Riiklik Eksami- ja Kvalifi katsiooni- keskus. 30 NE 2004 = Inglise keel. Riigieksam 2004. Tallinn: Riiklik Eksami- ja Kvalifi katsiooni- keskus. NE 2005 = Inglise keel. Riigieksam 2005. Tallinn: Riiklik Eksami- ja Kvalifi katsiooni- keskus. NE 2006 = Inglise keel. Riigieksam 2006. Tallinn: Riiklik Eksami- ja Kvalifi katsiooni- keskus. NE 2007 = Inglise keel. Riigieksam 2007. Tallinn: Riiklik Eksami- ja Kvalifi katsiooni- keskus. Regulation 2001 = Õpitulemuste välishindamise põhimõtted, riigieksamitööde, põhikooli lõpueksamitööde ja üleriigiliste tasemetööde koostamise, hindamise ja tulemuste analüüsi alused. Haridusministri määrus nr 18, 23.1.2001. Tallinn. Underhill, Nic 1987. Testing Spoken Language: A Handbook of Oral Testing Techniques. Cam- bridge Handbook for Language Teachers. Cambridge: Cambridge University Press. Weir, Cyril J. 1988. Communicative Language Testing. Exeter: University of Exeter.

Ene Alas (Tallinna Ülikool). Teadushuvid on keeletestimine, testide koostamine ja nende kvaliteedi hindamine, õpetajakoolitus, õppekirjanduse hindamine. [email protected]

Suliko Liiv (Tallinna Ülikool). Uurimisvaldkonnad on kontrastiivuuringud, kultuuridevaheline suhtlus- pädevus, keelepoliitika, võõrkeelte õpetamise metoodika. [email protected]

31 KEELEPÄDEVUSE MÕÕTMISEST EESTIS: INGLISE KEELE RIIGIEKSAM

Ene Alas, Suliko Liiv Tallinna Ülikool

Artikkel annab ülevaate inglise keele riigieksami arengust Eestis ja sellega kaas- nenud probleemidest kümne aasta jooksul alates eksami loomisest. Riigieksami arendamise protsess sai alguse 1994. aastal pärast Eesti taasiseseisvumist ja tulenes vajadusest standardiseerida keeleõpetus ja keeletestimine Eestis, et nii haridus- ministeeriumil, koolidel, õpetajatel kui õpilastel oleks võimalik keeleoskust adek- vaatselt hinnata, tulemusi nii individuaalselt kui ka kooliti võrrelda. Teiselt poolt vajasid ülikoolid ja muud asutused usaldusväärset teavet keeleoskuse taseme kohta, et ühtlustada vastuvõtu/töölevõtu põhimõtteid. Artiklis kirjeldatakse inglise keele riigieksami koostamise põhimõtteid ja eksami eristuskirja, eksami ülesehitust ja selles aja jooksul tehtud muudatusi, osaoskuste testides kasutatavaid ülesandetüüpe, hindamise põhimõtteid, hindamisskaalasid ja neis aja jooksul toimunud muudatusi, samuti eksami tulemusi.

Võtmesõnad: testi valiidsus, testi reliaablus, testi eristuskiri, hindajate reliaablus, testi tagasimõju

32 DIVERSITY OF LANGUAGES AND CULTURES IN LITHUANIAN CITIES: THE CASE OF KAUNAS CITY

Laura Čubajevaitė

Abstract. The European Union language policy promotes multilin- gualism. To maintain such a policy it is necessary to investigate the usage of languages in different spheres of life, both in formal and

informal environments. According to the data of the latest Census 5, 33–45 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT of Lithuanian Residents (2001), there are 115 nationalities living in Lithuania. The data also indicate which languages are considered to be native languages among different nationalities. However, it is not clear what languages are actually used at home. This paper presents the preliminary results of research carried out under the project “Lan- guage Use and Ethnic Identity in Lithuanian Cities”. This project aims at investigating languages used at home in the biggest Lithuanian cities to fi nd out the language dominance, choice, preference and compe- tence. The research data were selected by questioning 8 to 10 year old pupils in major Lithuanian cities: Vilnius, Kaunas and Klaipėda. The paper focuses on Kaunas city and discusses the answers of Kaunas’ schoolchildren. The preliminary results refl ect the tendencies of the real linguistic situation in the city. Keywords: questionnaire, home language, language preference, lan- guage dominance, language competence, ethnic identity, Lithuanian, English, Russian

Introduction

The European Union language policy promotes multilingualism (CEC 2005). According to the European Convention of 2003, the “union shall respect any cul- tural, religious and linguistic diversity” (Baldauf, Kaplan 2006: 6). To maintain this EU policy, it is necessary for Lithuania as an EU member country to fi nd out what the real linguistic situation is and what languages Lithuanian residents actually use. It is also important to investigate the real use of languages and/or their varieties in the public and private domains. 33 According to the data of the latest Census of Lithuanian Residents (2001), there are 115 nationalities living in Lithuania (LGS 2001). The registration data show which languages are considered to be native languages, but as some researchers point out, “linguistic census data are unreliable” (Pienemann, Kessler 2007: 252). It is not clear what languages or language varieties are used at home either. Migration, which has been increasing for various reasons (economic, political, technological, etc.), has also had an impact on the linguistic situation in Lithua- nia (Maslauskait ė, Stankūnienė 2007). Thus the linguistic situation needs more thorough investigation. Since 2001 several studies have been conducted that partially explored the linguistic situation in Lithuania. In 2000, research on the adaptation of Lithuanian ethnic minorities was carried out; several questions focused on language issues as well (Kasatkina, Leončikas 2000). In 2006, refugees and their family needs in the Lithuanian Republic were studied; the research target groups were refugees resid- ing in Kaunas and Klaipėda. The research also paid attention to problems related to knowledge of the Lithuanian language (Kuzmickaitė 2006). In 2004, Vilnius city residents were questioned. One of the aims of the investigation was to fi nd out the languages that Vilnius residents speak in public and private environments, in what languages they watch television programmes and listen to the radio, and what their attitude to languages is in general (Hogan-Brun, Ramonienė 2005). In 2007 a study called “Language at Work” was carried out. It aimed at clarifying the situation and fi nding out the main tendencies of language use in the business environment in Lithuania, as well as investigating employees’ and employers’ attitudes towards the Lithuanian language at work in the business sector1. In spite of these projects, there has not been any thorough research of the linguistic situation in Lithuania as a whole since 2001. The paper is based on a preliminary analysis of the “Language Use and Eth- nic Identity in Lithuanian Cities” project results. The project was initiated by the “Multilingual Cities Project” (further referred to as MCP). MCP served as a “good practice” example of how to survey large numbers of respondents and determine the existing linguistic situation. The project was organised by the European Cultural Foundation, coordinated by Babylon – the Centre for Studies of Multilingualism – at Tilburg University and carried out with scientists from the Netherlands and other countries participating. During the project quantitative surveys were carried out in , Hamburg, the Hague, , Lyon and . The project’s target groups were schoolchildren aged 6 to 11. By questioning schoolchildren, the project team aimed to discover what language(s) were used at home and at school, what the level of knowledge of these languages was, and what the language choice, dominance and preference were (Extra, Yagmur 2004). Following the MCP expe- rience and methodology, the “Baltic Language and Integration Network” (coordi- nated by Gabrielle Hogan-Brun, University of Bristol) partners initiated the “Baltic Multilingual Cities Project”: • in 2006 in Estonia, coordinator Mart Rannut, Tallinn University (some of the research results are discussed in Soll’s (2006) article); • in 2007 in Lithuania, coordinator Meilutė Ramonienė, Vilnius University; • in Latvia this activity is still in the planning stages.

34 1 Lietuvos HSM duomenų archyvas. http://archive.lidata.eu/webview (10.01.2008). The project, carried out in Lithuania from 2007–2009, is called “Language Use and Ethnic Identity in Lithuanian Cities”. It aims at investigating and measuring the relation between the languages used in the biggest Lithuanian cities (Vilnius, Kaunas and Klaipėda) and their users’ ethnic identity. One of the project’s aims is to foresee the perspectives of maintaining and preserving ethnic identity. The project work will be done in two stages: a quantitative home language survey of children, and quantitative and qualitative surveys of adults. The objectives of the fi rst project stage are as follows: • to investigate what languages are used at home by residents (children and adults) of the major cities of Lithuania; • to determine which languages (or their varieties) are dominant or subor- dinate; • to fi nd out language choice and vitality. In this paper the preliminary results of the fi rst stage of the project, that is, the home language survey of children, will be discussed.

Data and research methods

The target group were schoolchildren of 8 to 10 years old. Children of such age were selected for several reasons: similarly to the MCP, the project aimed at questioning young language users in order to fi nd out the vitality of the languages used. Unlike the MCP, Lithuanian project partners surveyed eight-year-old children who are able to read and write so that they could fi ll out the questionnaires themselves. The target cities were the major Lithuanian cities: Vilnius, Kaunas and Klaipėda. The home language survey questionnaire was designed according to and following the principles of the MCP questionnaire. The questionnaire had to be short and clear, therefore it consisted of twenty questions in total. Table 1 gives an outline of the information sought by the home language survey questionnaire.

Table 1. Home language survey questionnaire

1–3 pupil information (name, age, sex) 4–6, 17 school information (city, school name, language of instruction, languages taught at school) 7–9 birthplace information (the pupil, father, mother) 10 ethnicity 11–12 language(s) used at home 13, 15 knowledge of language(s) (4 skills: understanding, speaking, reading, writing) 14 language choice 16, 18 language preference 19–20 specifi c questions (preschool education, TV)

The respondents were guaranteed anonymity by statistically processing and generalising all research data. The fi rst ten questions in the questionnaire were included for demographic information. In questions 7−9 a list of prespecifi ed coun- tries was provided. Birthplace and ethnicity information was included to fi nd out the relationship between a language and ethnic identity. Question 10 also had a list of nationalities prespecifi ed, according to the census statistics on nationalities in 35 Lithuania. Which language is used at home with family members is very important for defi ning language vitality, language choice and linguistic attitudes, as these, as well as language ideology, are acquired by children in the family (Auer, Wei 2007). Specifi c questions were included in order to fi nd out whether early and non-formal education is popular and effective in Lithuania. Again, a list of prespecifi ed languages was provided in the questionnaire.

Quantitative research in Kaunas

During the home language survey, all educational institutions in Kaunas teaching pupils in the age range from eight to ten years were visited. These included second- ary schools, primary schools and kindergartens (some kindergartens in Lithuania have primary education classes).

Table 2. The general number of educational institutions in Kaunas (Kaunas Municipality Education Department data) and the number of institutions that participated in the survey

Total Total in the survey 62 institutions 60 institutions 10 173 schoolchildren 8 479 schoolchildren

The Table 2 shows that the majority of Kaunas educational institutions participated in the survey, during which about 85% of the target schoolchildren were surveyed. It should be mentioned that the survey in Kaunas took place in February and March of 2008, thus a great number of schoolchildren were absent from schools due to illness. As a result, about 15% of pupils did not participate in the survey. As for the fi nal stage of this survey – the data of the quantitative research will be processed statistically (SPSS) at Tilburg University, the Netherlands. This paper discusses only the preliminary results that do refl ect the main tendencies of the linguistic situation in Kaunas. The preliminary analysis of the paper is based on a sample of 1050 randomly selected schoolchildren’s questionnaires. While discussing the results we distinguish three successive age groups: • children of 8 years old (N 350); • children of 9 years old (N 350); • children of 10 years old (N 350).

Some facts about Kaunas

This paper deals only with the home language survey in Kaunas city, therefore some basic demographic, historic and social facts about the city will be provided in this section. According to the Census of the Russian Empire of 1897, the demographic structure of Lithuanian cities was as follows: “42.1% of the residents claimed that their native tongue was Yiddish, 24% considered Polish as their native tongue, 21.5% spoke one of the Slavic languages as their mother tongue and 7.8% of the residents claimed that Lithuanian was their mother tongue” (Aleksandravičius, Kulakauskas 1996: 232). It is worth mentioning that the only criterion for determining ethnic identity was the language a person spoke (Aleksandravičius, Kulakauskas 1996). Unfortunately, 36 the book does not distinguish between different cities. In the twentieth century, “a coexistence of the Lithuanian, Polish, Russians, Yiddish and German languages in Kaunas” is mentioned (Janauskas 2003: 34). In the interwar period, Jewish, Polish, Russian and German minorities led an active political, social and cultural life in Kaunas. As for the linguistic diversity in Kaunas, the above minorities had schools taught in their native languages, press in their native languages, and they participated in various social, cultural, religious and political organizations (Kaubrys 2002). In the same century some signs of “the Lithuanianising process of cities” were noticed; these were rather “peacefully accepted by the minorities of Kaunas city” (Janauskas 2003: 50). Later historical conditions, such as the holocaust, social factors such as assimilation, or economic and geographical factors during the Soviet period, ensured that Kaunas city was mostly inhabited by Lithuanians as compared to the ethnic com- position of Vilnius and Klaipėda (Kaubrys 2002, Nikžentaitis et al. 2004). According to the Municipality data of January 1, 2008, Kaunas is currently populated by 355 550 residents.2 According to the Census of the Lithuanian Republic of 2001, the ethnic distribution of Kaunas residents is as follows in Table 3 (LGS 2001).

Table 3. The ethnic distribution of Kaunas residents

Ethnicity Percentage Lithuanian 92.9% Russian 4.4% Ukrainian 0.5% Polish 0.4% Belarusian 0.3% Jewish 0.1% Roma 0.1% German 0.1% Tatar 0.05% Latvian 0.05% other nationalities 1.1%

These numbers in Table 3 show that nowadays Kaunas is a rather homogeneous city. 88% of its residents, when answering the Census question about the native language, claimed that they consider Lithuanian to be their mother tongue. Cur- rently there is only one school where the language of instruction is not Lithuanian but Russian; by way of comparison, there are seven such schools in Klaipėda, a city inhabited by only 185 936 residents.3 Kaunas, unlike Vilnius or Klaipėda, has a linguistically better integrated com- munity of Russian speaking people, who are more profi cient in Lithuanian. It should be noted that after the 1990s in Kaunas, like in Lithuania in general, the number of Russian speaking residents has slightly decreased. Economic and social factors have increased the number of residents of other ethnicities in Kaunas (for example, American, Chinese, Kazakh, etc.). The increasing mobility, migration and international economy have infl uenced the linguistic situation throughout Europe, and Kaunas city is no exception (Extra, Gorter 2001). Though the initial research hypothesis suggested that Kaunas was a linguisti- cally homogeneous city, the real linguistic situation in present-day Kaunas has not

37 2 www.kaunas.lt (8.01.2008). 3 www.klaipeda.lt (8.01.2008). been documented by any scholarly research. In addition, the project organisers fi nd it useful to compare the linguistic situation of Kaunas with that in the other big cities of Lithuania (Vilnius and Klaipėda), which are more culturally and linguisti- cally diverse. In the following sections of this paper, qualitative and quantitative analyses of the preliminary results of the research conducted in Kaunas will be discussed. The quantitative research provides the statistics and refl ects the tendencies of the linguistic situation, while the qualitative research sometimes helps to determine the reasons of particular phenomena and children’s choices.

Qualitative analysis of preliminary results

While qualitatively reviewing the questionnaire answers, it was noticed that errors related to information about the birthplace and languages were rather frequent. It was found that, at this age, children’s perception of the following concepts is very different: • city vs. country (specifi c vs. general); • country vs. language. Several things were revealed in the pupils’ answers about their own or their par- ents’ birthplace. For instance, to answer the question about the birthplace the pupils could either choose one of the countries provided in a prespecifi ed list (for example, Lithuania, Russia, Poland, etc.), or indicate “other” and write in the name of a country not found in the list. There were pupils who marked “other” and wrote in the name of a Lithuanian city or region (for example, Šiauliai, Žemaitija). The prototype theory might be applicable to interpret such children’s choices. According to this theory, when acquiring word meanings, children fi rst acquire the essential concepts or prototypes and only later recognise the category element (Geeraerts 1989, Rosch 1975, 1977, 1978, Labov 1972). In this case the hierarchical order might be diffi cult to understand for children: they cannot yet perceive that the city of Šiauliai or the region of Žemaitija are part of Lithuania. It may also be the case that Kaunas schoolchildren, who live in a homogeneous Lithuanian society, are rarely exposed to the issue of being born somewhere other than in Lithuania. Most prob- ably the specifi c terms (city or region) are more frequent in their daily discourse, as most people in the children’s environment were probably born in Lithuania and the country name is simply not mentioned. Another group of pupils, when answering the same question, indicated two countries (for example, Lithuania and Russia). There were pupils who did not indicate their own or their parents’ birthplace at all. Some of them commented that their parents were divorced and therefore they did not know where one of the parents was born. Another explanation could be that the concept of birthplace is rather diffi cult for children to understand. It was noticed that nine-year-old pupils provided erroneous answers more often than eight or ten-year-olds. Pupils of eight years old did not indicate their own or their parents’ birthplace more often than the older children. To answer the question about what other foreign language a pupil would like to learn, children had a prespecifi ed list of language names or some space to write in 38 a language that was not listed. Some pupils chose “other” and wrote in the names of non-existing, imaginary or false languages. Below we provide the erroneous language examples: (1) egiptiečių (literally ‘the language of Egyptians’) egiptų (lit. ‘the language of Egypts’) arabų ir egiptiečių (lit. ‘Arab and Egyptian’) brazilų (lit. ‘the language of Brazilians’) romėnų (lit. ‘the language of Romans’) meksikiečių (lit. ‘the language of Mexicans’) Atėnų (lit. ‘the language of ’) belgų (lit. ‘the language of Belgians’) Britanijos (lit. ‘the language of Britain’) Australijos (lit. ‘the language of Australia’) Argentinos (lit. ‘the language of Argentina’) Kinijos (lit. ‘the language of China’) Kaunas It was noticed that nine-year-old children provided erroneous answers related to languages more often than the eight or ten-year-olds. Thus in their answers we could see either the lack of knowledge of what language is spoken in one or the other country (for example, egiptų, egiptiečių, meksikiečių, belgų, Britanijos, etc.), or invention of nonexistent languages (for example, Atėnų, Kaunas, romėnų). It could also be suggested that the principle of analogy is applied when children form the name of a language of a certain country. For example, the language that people of Lithuania speak is lietuvių (lit. ‘the language of Lithuanians’), thus the language that people of Mexico speak is meksikiečių (lit. ‘the language of Mexicans’). To sum up the results of the qualitative analysis of the survey, it could be noted that children found it rather diffi cult to understand such concepts as country, ethnicity and birthplace. During the survey it was observed that the question “What is your ethnicity?” was found much easier if paraphrased by the interviewer into “Who are you?” Though the concept of language is perceived by children of this age, they still found diffi culties in indicating the names of languages spoken in other countries or in assessing the level of their own language competence. Therefore, they sometimes exaggerated or, more often, underestimated their skills. For example, they would mark that they cannot write Lithuanian even though it was their mother tongue and taught from the very fi rst years of schooling.

Quantitative analysis of preliminary survey results

In this section the preliminary quantitative results will be provided. In this paper the focus is on several questions of the survey that show the tendencies of the lin- guistic situation in Kaunas. The answers to these questions provide information on what language is most often used at home, what language is most often used to communicate with family members, relatives, and best friends, and what other languages pupils can speak, understand, read and write. The issues of what lan- guages children watch TV programmes in, and what languages they want to learn as foreign languages, will be briefl y discussed. 39 Almost all Kaunas primary and secondary education institutions are culturally and linguistically homogeneous. Therefore, the majority (almost 100%) of pupils who participated in the survey claimed that they know the Lithuanian language and that they are of Lithuanian ethnicity. Another dominating language, as the research results reveal, is English. Figure 1 shows the percentage of pupils who claimed that they know English.

year-old-88-year-old year-old-99-year-old 74,86% 72,00%

67,71% year-old-1010-year-old

66,86% 62,57% 61,14% 57,43% 54,29% 53,71% 53,43% 53,43% 52,29%

N = 350

Understand Speak Read Write

Figure 1. Knowledge of English by Kaunas schoolchildren

Figure 1 shows that more than 50% of 8 to 10 year old pupils indicated that they understand, speak, read and write in English. Ten-year-olds exceed the pupils of eight years old by 20% and the pupils of nine years old by 10% in all skills. A number of pupils indicated that they communicate with their best friends and watch TV programmes in English. Such a big number of pupils reporting to be actually using the language and willing to learn it, as was indicated in the questionnaire answers, shows that the English language is increasingly popular and vital. This has been the tendency in other European countries as well (Extra, Yagmur 2004). One more language that was often mentioned in the pupils’ answers is Russian. As shown in Figure 2, the number of respondents claiming that they know Russian was signifi cantly smaller than those who know English.

8-year-old

20,29% 9-year-old

16,57% 10-year-old 13,71% 11,14% 10,57% 10,00% N = 350 4,00% 3,71% 3,14% 3,14% 2,29% 2,00%

Understand Speak Read Write

Figure 2. Knowledge of Russian by Kaunas schoolchildren 40 Approximately 16.7% of Kaunas pupils claim that they understand the Russian language. The reason for the low number of pupils who know this language is the exclusion of Russian from the mandatory subjects in school curricula for the past years. A number of pupils claimed that they understand Russian a little. This might be explained by the fact that, according to the pupils, their parents switch to Russian when they want their children not to understand them. In addition, some children of Lithuanian ethnicity claimed that they speak Russian with their grandparents or watch TV programmes in this language, as in Lithuania some programmes from Russian TV channels are broadcast. Thus Russian is sometimes heard at home. In the survey a number of pupils indicated that they wanted to learn Russian as a foreign language. This shows an increasing need for and the vitality of this language. A very small number (hardly 4%) of pupils claimed that they know other languages (Russian, Latvian, Romani, Italian, Belarusian, Armenian, Yiddish, Ukrainian, German and Polish). Table 4 provides the number of pupils who men- tioned that they know (understand, speak, read and write) languages other than Lithuanian and English.

Table 4. Knowledge of other languages at Kaunas schools

Languages Number of pupils Reasons Latvian 1 Latvian ethnicity Romani 3 Roma ethnicity Italian 2 Not indicated Mother born in Belarus, Belarusian 3 Speaks Belarusian with grandparents Armenian 1 Mother born in Armenia Mother born in Ukraine, Father born in Armenia, One of the parents born in Russia, Russian 27 Speaks Russian with grandparents, The pupil was born in Russia, Russian language classes before school Yiddish 1 Father born in Israel Ukrainian 2 Not indicated German 1 Pre-school German classes Polish 1 Father born in Poland

As Table 4 makes clear, a very small number of pupils indicated that they know other languages. Out of the 1050 pupils randomly selected for this analysis, very few claim that they speak the languages indicated in Table 4. Russian is also included in the table because, unlike Figure 2, Table 4 shows the number of pupils who marked all four skills (understanding, speaking, reading, and writing) in this language. The most common reason why one or the other language mentioned in the Table 4 is spoken are ethnicity or family relations with speakers of the language; preschool education is mentioned very rarely.

41 Multilingualism in Kaunas

Taking into consideration the facts discussed in previous sections, the question arises whether there are any examples of multilingual children in Kaunas. The only school in Kaunas where the language of instruction is Russian and not Lithuanian is the secondary school named after Alexander Pushkin. At the moment there are 105 pupils of 8 to 10 years old studying there (according to the Kaunas Munici- pality Education Department data of 2008). 85 pupils participated in the survey (see Table 5).

Table 5. The ethnic distribution of 8 to 10 year old pupils at Kaunas A. Pushkin school

Ethnicity Number of pupils Russian 39 Lithuanian 15 Chechen 6 Ukrainian 3 Armenian 2 Azerbaijani 1 Polish 1 Jewish 1 German 1

6 pupils indicated a double ethnicity (for example, Lithuanian-Russian or Lithua- nian-Belarusian), whereas 9 pupils did not indicate any ethnicity at all. This shows again that the question as well as the very concept of ethnicity is rather diffi cult for children, especially for those from mixed families. When answering the question what languages are used at home, the pupils mentioned Russian, Lithuanian, English and other languages. Figure 3 shows the distribution of the percentage of children who claim that they understand/speak/ read/write one or the other language.

Understand 98,82% 95,29% 96,47%

95,29% Speak 90,59% 88,24% 87,06% 84,71% Read 72,94%

65,88% Write 57,65% 57,65% 20,00% 18,82% N = 85 36,47% 27,06% Russian Lithuanian English Other

Figure 3. Knowledge of languages at the secondary school named after Alexander Pushkin

A similar percentage (about 96.46% and 87.65%, respectively) of pupils mention that they know both the Russian and the Lithuanian language. The number of pupils claiming that they know English is a bit smaller, that is, about 63.53%. In Figure 3 42 “other” is most often the pupils’ native tongues (Armenian, Belarusian, Chechen, Latvian, Spanish, German, Yiddish, etc.). Thus it could be claimed that students at this Kaunas school are multilingual as most of them are fl uent in at least three languages (Auer, Wei 2007).

Summary and conclusion

The preliminary results of the research in Kaunas city proved the initial research hypothesis: Kaunas is a rather homogeneous city linguistically. Most Kaunas schoolchildren claim that they speak Lithuanian and that they are of Lithuanian ethnicity. The second language that is claimed to be known and used by Kaunas schoolchildren is English. Russian seems to be less popular and less widely used by Kaunas schoolchildren. Other languages used, such as Polish, Latvian, Romani, Italian, Belarusian, Armenian, Yiddish, Ukrainian and German are used by only a few of Kaunas schoolchildren. The main reason for using the other languages is parents’ or grandparents’ ethnicity; preschool education is mentioned very seldom. The Kaunas secondary school named after Alexander Pushkin is the place where most of the city’s multilingual children study. The languages that these children claim to know are Russian, Lithuanian, English and, in most cases, their native languages. The qualitative analysis of the preliminary results has shown that children fi nd it rather diffi cult to understand such concepts as country, ethnicity and birthplace. Therefore, errors were made when answering these types of questions. It was observed that children from Pushkin school made more errors related to ethnicity than the schoolchildren from other Kaunas schools. This suggests that the concept of ethnicity is more confusing for children from mixed families. As for birthplace, Pushkin school- children did not make errors as children from other Kaunas schools did. Most probably these issues are more common and clearer to children from mixed families. It can be stated that more thorough and statistically processed results of this research could also be useful for comparison of the changing linguistic situation in Kaunas in a few years’ time. The research results may be of importance to language policy makers and representatives of educational institutions, as they might suggest what languages need more promotion and what education and language policies are to be taken in the future.

References Aleksandravičius, Egidijus; Kulakauskas, Antanas 1996. Carų valdžioje. XIX amžiaus Lietuva. Vilnius: Baltos lankos. Auer, Peter; Wei, Li 2007. Introduction: Multilingualism as a problem? Monolingualism as a problem? – Auer, Peter; Wei, Li (Eds.). Handbook of Multilingualism and Multilingual Communication. Berlin: Mouton de Gruyter, 1–14. Baldauf, B. Richard; Kaplan, B. Robert (Eds.) 2006. Language Planning and Policy in Europe: the Czech Republic, the European Union and Northern Ireland. Clevedon: Multilingual Matters. CEC 2005 = Commission of the European Communities 2005. Communication from the Commission to the Council, the European Parliament, the Economic and Social Committee and the Committee of the Regions. A New Framework Strategy for Multi- 43 lingualism. COM(2005)596 fi nal. http://ec.europa.eu/education/policies/lang/doc/ com596_en.pdf (20.12.2006). Extra, Guus; Gorter, Durk (Eds.) 2001. The Other Languages of Europe: Demographic, Sociolinguistic and Educational Perspectives. Clevedon: Multilingual Matters. Extra, Guus; Yagmur, Kutlay 2004. Urban Multilingualism In Europe: Immigrant Minority Languages At Home and School. Clevedon: Multilingual Matters. Geeraerts, Dirk 1989. Introduction: Prospects and problems of prototype theory. – Linguis- tics, 27 (4), 587–612. Hogan-Brun, Gabrielle; Ramonienė, Meilutė 2005. The language situation in Lithuania. – Journal of Baltic Studies, 36 (3), 345–370. doi:10.1080/01629770500000131 Janauskas, Pranas 2003. Lietuviškasis lūžis. Kalbų varžybos Kauno savivaldybėje 1918−1928 metais. – Darbai ir Dienos, 34, 33–54. Kaunas: VDU. Kasatkina, Natalija; Leončikas, Tadas 2000. Lietuvos etninių grupių adaptacijos kontekstas ir eiga. Tyrimo modelis. Vilnius: Eugrimas. Kaubrys, Saulius 2002. National Minorities in Lithuania. Vilnius: Vaga. Kaunas Municipality data. http://www.kaunas.lt (08.01.2008). Klaipėda Municipality data. http://www.klaipeda.lt (08.01.2008). Kuzmickaitė, Daiva 2006. Pabėgėlių ir jų šeimų poreikių Lietuvos Respublikoje tyrimo atas- kaita. Kaunas: Socialinės ekonomikos institutas. http://209.85.135.104/search?q= cache:nJRVl85wuqEJ:www.lygus.lt/pabegeliai/fi les/Pabegeliu%2520poreikiai_tyri mo%2520ataskaita%2520su%2520log.doc+Projektas+%22Kalba+darbe%22&hl=lt &ct=clnk&cd=15&gl=lt (01.09.2008). Labov, William 1972. Sociolinguistic Patterns. Philadelphia: University of Pennsylvania Press. LGS 2001 = Lietuvos gyventojų surašymas 2001. Statistikos departamentas prie Lietuvos Respublikos Vyriausybės. www.stat.gov.lt (08.05.2008). Lietuvos HSM duomenų archyvas. http://archive.lidata.eu/webview (31.08.2008). Maslauskaitė, Aušra; Stankūnienė, Vlada 2007. Šeima abipus sienų. Lietuvos transnaciona- linės šeimos genezė, funkcijos, raidos perspektyvos. Vilnius: Tarptautinė migracijos organizacija. Socialinių tyrimų institutas. Nikžentaitis, Alvydas; Schreiner, Stefan; Staliūnas, Darius (Eds.) 2004. The Vanished World of Lithuanian Jews. New York: Rodopi. Pienemann, Manfred; Kessler, Jörg-U. 2007. Measuring bilingualism. – Peter Auer, Li Wei (Eds.). Handbook of Multilingualism and Multilingual Communication. Berlin: Mouton de Gruyter, 247–275. Rosch, Eleonor 1975. Cognitive reference points. – Cognitive Psychology, 7, 532–547. doi:10.1016/0010-0285(75)90021-3 Rosch, Eleonor 1977. Classifi cation of real-world objects: Origins and representations in cognition. – P. N. Johnson-Laird, P. C. Wason (Eds.). Thinking: Readings in Cognitive Science. Cambridge: Cambridge University Press, 212–222. Rosch, Eleonor 1978. Principles of categorization. – E. Rosch, B. Lloyd Barbara (Eds.). Cog- nition and Categorization. Hillsdale, NJ: Lawrence Erlbaum, 28–49. Soll, Maie 2006. The language of instruction at primary school, ethnic involvement and national identity: The Estonian example. – Regioninės studijos, 2, 119–129. Kaunas: VDU.

Laura Čubajevaitė (Regional Studies Department, Vytautas Magnus University, Lithuania). Her re- search interests include foreign language teaching methodology and quality, second language acqui- sition, intercultural communication and multilingualism. [email protected] 44 KEELELINE JA KULTUURILINE MITMEKESISUS LEEDU LINNADES: KAUNAS

Laura Čubajevaitė Vytautas Magnuse Ülikool

Euroopa Liidu keelepoliitika edendab mitmekeelsust. Selle poliitika toetamiseks vajab Leedu kui EL liikmesriik kõigepealt ülevaadet keelte kasutamisest eri eluala- del, nii ametlikus kui mitteametlikus keskkonnas. Viimase rahvaloenduse andmeil (2001) elab Leedus 115 rahvuse esindajaid. Rahvaloenduse andmetest ilmneb ka, mis keeli eri rahvusest inimesed peavad emakeeleks. Siiski ei ole selge, mis keeli inimesed tegelikult kodus räägivad. Pärast 2001. aastat ei ole tehtud laialdasemaid uurimusi Leedu keelesituatsiooni kohta. Artiklis esitatakse esialgsed tulemused uurimistööst, mis tehti projekti “Keelte kasutamine ja etniline identiteet Leedu linnades” raames. Projekti eesmärk oli selgitada suuremate Leedu linnade kodudes kõneldavad keeled: mis keeled domi- neerivad, mis keeli veel kasutatakse ja mis on keele valiku põhjused. Uurimuse andmed saadi 8−10-aastaste õpilaste küsitlemisel suuremates Leedu linnades: Vilniuses, Kaunases ja Klaipėdas. Artikkel keskendub Kaunasele, mida on alati peetud eriti rahvuslikuks linnaks: 88% elanikest nimetavad oma emakeelena leedu keelt. Artikkel tutvustab Kaunases tehtud uuringut ning analüüsib Kaunase õpilaste vastuseid. Esialgsed tulemused näitavad tendentse tegelikus keelesituatsioonis. Enamik Kaunases küsitletud õpilasi väidab, et nad kõnelevad/mõistavad/loevad/kirjutavad leedu keelt, mis on nende emakeel. Teine keel, mida lapsed kasutavad, on inglise keel. Vene keele kasutus pole kuigi lai. Uuringu põhjal on ainsaks mitmekeelsuse saareks Kaunases Aleksander Puškini keskkool. Artiklis on lähemalt kirjeldatud selle kooli õpilaste rahvuslikku jaotumist ja keelekasutust.

Võtmesõnad: küsitlus, kodune keel, keele-eelistus, keele domineerimine, keele- pädevus, etniline identiteet, leedu keel, inglise keel, vene keel

45

ACQUISITION OF CASE IN LITHUANIAN AS L2: ERROR ANALYSIS

Ineta Dabašinkienė, Laura Čubajevaitė

Abstract. Although teaching Lithuanian as a foreign language is not a new subject, there has not been much research in this fi eld. The paper presents a study based on an analysis of grammatical errors which was carried out at Vytautas Magnus University. The data was selected 5, 47–65 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT randomly by analysing written assignments of beginner to advanced level students. The analysis has shown that the most frequent error is incorrect usage of case, affecting either form or meaning or both. This paper discusses the errors of overgeneralisation in case marking, diffi culties in acquiring prepositional constructions and infl ectional paradigms. The paper tries to interpret students’ errors and suggests possible explanations, such as the impact of the students’ mother tongue, or of English as the language of instruction on their Lithuanian, or the strategy of generalisation. Keywords: foreign language learning, beginner, intermediate, ad- vanced level students, error analysis, acquisition of cases, Lithuanian

1. Introduction

There has been a lot of research in foreign language learning/teaching mainly dealing with the learning/teaching of widely used languages (for example, English, Spanish, etc.) as foreign languages (Ross 1976, Larsen-Freeman 1991, Kaplan 2002). Lithuanian is a less widely used and taught language, therefore there has been little research on this topic (Čubajevaitė 2007, Mačiukaitė 2008, Ramonienė 1994, 1998, 1999, 2006, Savickienė 2003a, 2005, 2006). Discussions about foreign language learning/teaching typically raise questions related to the general issue of the language learning process: How does one learn a language? Are all learners’ errors similar? Is it possible and if yes then how to explain the reasons for making errors? (Savickienė 2003a). Such studies are often descriptive 47 in nature and their aim is to observe the learners’ language development and try to explain how it changes over time, and identify general tendencies (Ellis 1997). In literature a number of external and internal factors have been mentioned to explain why errors are made. They include the infl uence of the social learning environment, the input, the stages of the learning process, the knowledge of the native tongue, the learning strategies, the communicative skills, the individual learner differences and instruction (Kaplan 2002, Savickienė 2006). All the levels (phonetics, lexis, morphology, pragmatics and grammar) of the language are important for the learner. Learning is a complex and dynamic process as a learner, interacting with a new environment, learns more and more new things. Constant and consistent storing of information and knowledge enables a qualitative and quantitative change in the learner’s language skills. Starting with the simplest and most common structures, the learner constantly integrates more diffi cult linguistic features into his/her language system. To achieve a certain linguistic competence the learner has to pass through several stages (Ellis 1997, Mitchell, Myles 1998, Savickienė 2003a). Thus errors in the learning process are a natural phenomenon and a result of the learning process that signal the learner’s progress. While learning a language, grammar is essential for good results in linguistic accuracy (Hinkel, Fotos 2002). The experience of teaching Lithuanian as a foreign language has shown that speakers of languages with a so-called poor morphology (for example, English, German, French, etc. as compared to Lithuanian) fi nd it more diffi cult to learn Lithuanian as a rich morphology language with a complex morphological structure (Savickienė 2003b). Therefore students make more errors either because of their native language infl uence or due to the English language, which is the language of instruction during their Lithuanian classes. Moreover, English is most often used by Lithuanian language learners after the classes as a lingua franca.

2. Research methods and data

The initial research aims were to investigate what students actually acquire when learning Lithuanian as a foreign language, and how students learn certain gram- matical categories (in this paper, cases and declension paradigms). Furthermore, we attempted to classify the students’ errors and to explain the reasons for making them in order to reveal the tendencies of how Lithuanian as a foreign language is learnt. We expected that this research would improve our chances to explain the grammatical structure of Lithuanian to our future students. The error analysis research was carried out at Vytautas Magnus University. It is also based on non-systematic teacher’s observations over a long period of teach- ing practice. The data consists of beginner to advanced level summer course (one month duration) or exchange (one or two semesters’ duration) students’ written assignments. The error analysis is based on fi fty assignments of twenty exchange students, male and female, 20 to 54 years of age. The written assignments included letters, stories, recipes, and the students’ opinions on different topics. The focus of the research was on errors related to the use of noun case and declension paradigms. In this paper errors are considered to be the instances that do not comply with the 48 model of grammatical structure of the Lithuanian language. At the same time errors are welcomed and treated as the students’ progress. The students whose assign- ments are analysed were from a number of different countries: Austria, Columbia, France, Germany, Japan, Korea, Latvia, Poland, Spain, Turkey and the USA. Each example in further sections of the paper has additional information in brackets indicating the native tongue of the student who produced the sentence. Sometimes this information helps to determine the reason for making certain errors.

3. The category of case

Linguistic and communicative competences are interrelated. A student willing to communicate in Lithuanian fi rst of all needs some linguistic knowledge: a mini- mum of vocabulary and grammar. Since a language learner needs to refer to some objects and phenomena, his/her vocabulary includes a number of nouns already in the initial stages of language acquisition. The category of case is one of the basic categories of the noun, signalling syntactic functions of the noun in a sentence. In the Lithuanian language there are seven noun cases in singular and in plural: nomina- tive, genitive, accusative, dative, instrumental, locative and vocative. In Lithuanian most masculine nouns end in -(i)as, -is or -ys, and take the so-called fi rst declen- sion. Most feminine nouns end in -(i)a or -ė, and take the second declension. The fi rst and the second declensions are the most productive of the declension types. In addition, some feminine nouns end in -is and take the third declension, some masculine nouns end in -us and take the fourth declension, and some masculine and feminine nouns end in -uo and -ė and take the fi fth declension. Table 1 illustrates the two most productive declension groups.

Table 1. Examples of the fi rst and second declensions of Lithuanian nouns

Case 1st declension 2nd declension SG -as -is -a -ė NOM miest-as brol-is dien-a klas-ė GEN miest-o brol-io dien-os klas-ės ACC miest-ą brol-į dien-ą klas-ę DAT miest-ui brol-iui dien-ai klas-ei INS miest-u brol-iu dien-a klas-e LOC miest-e brol-yje dien-oje klas-ėje VOC miest-e brol-i dien-a klas-e PL 1st declension 2nd declension NOM miest-ai brol-iai dien-os klas-ės GEN miest-ų brol-ių dien-ų klas-ių ACC miest-us brol-ius dien-as klas-es DAT miest-ams brol-iams dien-oms klas-ėms INS miest-ais brol-iais dien-omis klas-ėmis LOC miest-uose brol-iuose dien-ose klas-ėse VOC miest-ai brol-iai dien-os klas-ės

Table 2 demonstrates how frequently different cases are used in spoken Lithuanian (Savickienė 2005). 49 Table 2. The frequency distribution of cases (%) in spoken Lithuanian

Case NOM GEN ACC DAT INS LOC Percentage 32% 28% 18% 9% 5% 3%

As Table 2 demonstrates, nominative and genitive are the most frequent cases, whereas dative, instrumental and locative are seldom used; accusative comes third on the frequency list. A morphological description of the case forms implies reference to syntax and semantics: these levels of linguistic analysis provide a necessary condition for dis- closing the nature of this category. The category of case is considered to be one of the most complex grammatical categories. This is due to several reasons: fi rst, the category of case is morphological in form and syntactic in content; second, it enters into multiple oppositions. It is generally accepted that language learners tend to acquire binary oppositions more easily than multiple ones (Savickienė 2003b). As case is one of the most complex categories that Lithuanian language learners have to acquire it was in the focus of our research. In further sections of the paper the most frequent errors that students made in their assignments are discussed. These include use of an inappropriate case, irregular prepositional constructions and erroneous case paradigms. In the provided examples errors are highlighted by bold type and the appropriate word form is provided in square brackets. Each example has an English translation under it. For the erroneous word forms, the following grammatical categories are pointed out: number (singular, plural) gender (feminine, masculine.), case (nominative, genitive, accusative, dative, instrumental, locative, vocative).

3.1. Nominative case errors

The preliminary data of spoken Lithuanian show that the nominative case is used most frequently and is considered to be the unmarked member of the Lithuanian case system (Savickienė 2005). The nominative singular case form is the fi rst used consistently as it is learned in Lithuanian as a foreign language from the very begin- ning. Due to the lack of linguistic competence in students, errors of overgeneralising the use of the nominative occur rather frequently (Savickienė 2006).

3.1.1. The use of the nominative instead of the accusative (as object case)

Students do not fi nd any diffi culties in using the nominative case to denote the subject in a sentence. However, beginner level students use the nominative in other functions or contexts as well. The research results show that students overgeneralise the nominative case and use it instead of the accusative to express the object after transitive verbs, as can be seen in examples (1)−(4): (1) Čia tu sutinki draugas: SG:M:NOM [= draugą: SG:ACC]. (Spanish) ‘Here you meet a friend’

50 (2) Lietuvoje jūs geriate geras: SG:M:NOM alus: SG:M:NOM [= gerą alų: SG:ACC] ir degtinė: SG:F:NOM [= degtinę: SG:ACC]. (Spanish) ‘In Lithuania you drink good beer and vodka’ (3) Čia pigu pirkti suvenyras: SG:M:NOM [= suvenyrus: PL:ACC]. (Spanish) ‘It is cheap to buy souvenir here’ (4) Jei tu mėgsti lietus: SG:M:NOM [= lietų: SG:ACC], važiuok į Lietuvą. (English) ‘If you like rain, go to Lithuania’ Although the verbs mėgti (‘to like’), gerti (‘to drink’) and pirkti (‘to buy’) are most frequently used by beginner level students, Examples (1)−(4) show that students have not yet learnt what cases these verbs require. Even if the students know that transitive verbs require the accusative or genitive, their assignments may contain errors of this type, as in Example (5). (5) Jūs galite susitinkate naują: SG:M:ACC žmonės: PL:M:NOM [= nau- jus žmones: PL:ACC]. (German) ‘You can you meet a new people’ Example (5) shows that the student knows that the verb susitikti (‘to meet’) requires the accusative case as is demonstrated by the correct form of the adjective. How- ever, the adjective is used in its singular form instead of the necessary plural. This mistake may have occurred due to the complicated declension of the word žmonės (‘people’). Evidently Lithuanian language learners fi nd the paradigm diffi cult to remember. Errors of this type occur even when students are in the intermediate or advanced level, as can be seen in Example (6): (6) Meistras atsakė: “Koks buvo darbas, toks bus ir atlyginimas”, ir jis padavė Hansui vienas: SG:M:NOM auksinio luitas: SG:M:NOM [= vieną: SG:ACC aukso: SG:GEN luitą: SG:ACC], kuris buvo tiek pat didelis kaip Hanso galva. (German) ‘The master said: “the payment will be as your work was” and he gave Hans one piece of gold as big as Hans’s head’ Example (6) reveals the student’s learning progress: it is a long well-formed sen- tence with a complex structure where the numeral and the noun are in agreement. The only drawback is that the nominative is used instead of the accusative for the noun luitas and the numeral vienas. As upper-intermediate level students have the necessary skills and knowledge to produce longer and more complex expressions, their curriculum includes teaching longer sentences and rules of writing stories (Pribušauskaitė et al. 2000). Although intermediate or higher level students are able to use simple expressions correctly, they are misled by more complex sen- tences and constructions and they make errors of using the nominative instead of an appropriate case. Often errors of this type occur when making sentences with less frequent verbs. For example, (7) Jonas vedė princesė: SG:F:NOM [= princesę: SG:ACC]. (English) ‘Jonas married a princess’ 51 (8) Nėra kiekio, bet viskas: SG:M:NOM [= viską: SG:ACC] maišai, kol bus gražus tešla. (French) ‘There is no amount, but mix everything until you get nice dough’ (9) Aš atsibundu ir pradedu čiupinėti savo burna: SG:F:NOM [= burną: SG:ACC]. (Latvian) ‘Then I wake up and start touching my mouth’

In Examples (7)−(9) the nominative case is used instead of the required accusa- tive. As the verbs vesti (‘to marry’), maišyti (‘to mix’), čiupinėti (‘to touch’) are less frequently used, students fi nd it more diffi cult to remember what case these verbs require.

3.1.2. The use of the nominative instead of the accusative (for time/duration)

In the Lithuanian language duration is marked by the accusative case. However, L21 learners sometimes use the nominative instead, as can be seen in Example (10): (10) Hansas dirbo septyni: PL:M:NOM metai: PL:M:NOM [= septynerius metus: ACC] už savo meistrą ir jis norėjo eiti namo pas motiną. (German) ‘Hans worked for seven years for his master and wanted to go home to his mother’ The error of using the nominative case instead of the accusative in Example (10) might be infl uenced by the student’s native tongue: in German a construction with the nominative2 would also be appropriate to express time.

3.1.3. The use of the nominative case instead of the genitive

Research has shown that the genitive of quantifi ers is another cause of student dif- fi culty. In the Lithuanian language, the adverb daug (‘many, much’) requires the genitive case. The research data show that rather often students use the nominative if they do not know this rule. For example, (11) Čia yra daug pilys: PL:F:NOM [= pilių: PL:GEN]. (German) ‘There are many castles here’ (12) Lietuvoje yra daug gėlės: PL:F:NOM ir daržovės: PL:F:NOM [= gėlių: PL:GEN ir daržovių: PL:GEN]. (English) ‘In Lithuania there many fl owers and vegetables’ Examples (11) and (12) indicate that students already understand the meaning of the adverb daug (‘many’), which is ‘more than one’. Thus they use the necessary plural of the noun to follow. However, the peculiarity of daug has not been acquired yet, thus students choose an inappropriate case form to represent the meaning. Similar errors are often made with other quantifi ers such as mažai (‘a little’), šiek tiek (‘some’), truputį (‘a little bit’), etc.

52 1 In this paper, the abbreviation L2 is used to refer to Lithuanian as a foreign language. 2 According to editors’ information, German would use the accusative here, e.g. Peter hat einen Tag (lang) auf Anna gewartet. (Grundzüge einer deutschen Grammatik. Berlin: Akademie Verlag, 1984, p. 411.) − Editor’s note. Another category of errors with the nominative instead of the genitive are those of the genitive of negation. It takes time for beginner level students to learn and remember that a negative verb requires the genitive case of the direct object. Example (13) shows the very initial stage of a learning process, where the generalised nominative is used: (13) Aš neturiu mėgstamiausias: SG:M:NOM patiekalas: SG:M:NOM [= mėgstamiausio: SG:GEN patiekalo: SG:GEN]. (French) ‘I do not have a most favourite dish’

However, Example (13) also shows the student’s progress, as there is a noun and adjective gender agreement in the sentence. However, the rule of the genitive of negation has not been learnt yet and the student uses the nominative case instead. Such errors are very typical of beginner level students.

3.2. Genitive case errors

The primary function of the genitive in L2 discourse was to express possession and direction ( the prepositional phrase iš ‘from’ + GEN). The object genitive, especially the genitive of negation, becomes particularly intensive and erroneous in L2, espe- cially in later stages of acquisition of Lithuanian. The results show that students make less errors with the genitive case than with the nominative. This is quite natural: students use the nominative instead of other cases. One of the most typical errors that we noticed was the use of the genitive instead of other cases in reference to the object, for example: (14) Aš dovanosiu savo senelei suvenyro: SG:M:GEN [= suvenyrą: SG:ACC] iš Lietuvos. (Japanese) ‘I will give a souvenir from Lithuania as a present to my grandmother’ Example (14) suggests that the student knows that it is necessary to use a case to indicate the object and decides to use the genitive instead of the necessary accusa- tive. Beginner level students fi nd it diffi cult to use the verb patikti (‘to like’) correctly. In Lithuanian this verb needs the dative for the experiencer and the nominative for the stimulus. However, it differs from most of other Lithuanian verbs, and students make errors. For example: (15) Mano šalyje man patinka eiti į kiną, bet Lietuvoje man patinka kelionių: PL:F:GEN [= kelionės: PL:NOM]. (Polish) ‘In my country I like going to a cinema, but in Lithuania I like travels’

Example (15) shows that the student does not remember yet that the verb patikti requires the nominative in Lithuanian and chooses the genitive instead. Some students fi nd it diffi cult to express time duration correctly. For example, (16) Dabar aš gyvenu Kaune ir aš gyvensiu keturių: PL:M:GEN metų: PL:M:GEN [= ketverius metus: PL:ACC] Lietuvoje. (Korean) ‘Now I live in Kaunas and I will live in Lithuania for four years’ 53 In Example (16), similarly to Example (10), the student does not know the rules for the time expression yet. Nevertheless, the student’s progress is obvious, that is, the Korean student uses the plural genitive that orthographically reminds one of the singular accusative case instead of the nominative that was used in Example (10).

3.3. Dative case errors

As the semantics of the dative is not as clear as that of the nominative or genitive, it takes more time to learn and acquire the subtleties of its use. Consider Example (17): (17) Po to jis susitiko berniukui: SG:M:DAT [= berniuką: SG:ACC] su žąsiu. (German) ‘Then he met a boy with a goose’ The use of the dative case in Example (17) is most probably due to the infl uence of the student’s native tongue. Depending on the context, the verb treffen (‘to meet’) in the German language, requires either the accusative case or the dative with the preposition mit (‘with’). One of the reasons why the dative is used erroneously might be the polysemy of certain verbs. For example, (18) Kai jam: SG:M:DAT [= jis: SG:NOM] pasirodė, aš buvau labai laiminga ir džiaugiausi. (Japanese) ‘When he showed up, I was very happy and glad’ The verb pasirodyti has more than one meaning: ‘to come’, ‘to turn out’, etc. Example (18) demonstrates that the student knows the government of this verb in its ‘to seem, to look like’ meaning and therefore, chooses the dative case instead of the nominative. Here the drawbacks of dictionaries should also be mentioned. It might be assumed that in this case the student consulted a dictionary where polysemous verbs are not illustrated with clear examples which would make it easier to detect the grammatical information. Subordinate clauses are another category that is diffi cult for students to master. Even advanced level students who are already able to use the dative case correctly make errors when it comes to complex sentences. For instance, (19) Mano baisiausias sapnas buvo apie berniuką, kuriam: SG:M:DAT [= kuris: SG:NOM] man patiko vaikystėje. (Japanese) ‘My worst dream was about a boy whom I liked in the childhood’

Example (19) shows that the student knows the government of the verb patikti (‘to like’), but applies it incorrectly. In this example the error occurs due to the complexity of the sentence. Lithuanian complex sentences are learnt rather late by students (they start forming them only in the upper intermediate level). Therefore, while creating longer sentences, students have to process more information and thus make errors.

54 3.4. Accusative case errors

When learning Lithuanian as L2, the most troubling issue is the use of cases. Errors become especially frequent when it comes to the difference in verb rules for affi rma- tive and negative sentences. Therefore, when producing sentences with negative verbs, students incorrectly use the accusative for the direct object instead of the required genitive, as the following examples demonstrate: (20) ...nes niekada nematau nei pavidalą: SG:M:ACC [= pavidalo: SG:M:GEN], nei išvaizdą: SG:F:ACC [= išvaizdos]. (Polish) ‘...for I never see neither the profi le, nor the appearance’ (21) Viena diena karvė neduoda pieną: SG:M:ACC [= pieno: SG:M:GEN]. (English) ‘One day the cow does not give milk’ (22) Aš nežiūriu televizorių: SG:M:ACC [= televizoriaus: SG:M:GEN], nes neturiu bendrabutyje. (Polish) ‘I do not watch TV, as I do not have [it] in the dormitory’ (23) Ji atsakė, kad jo broliai neišlaikė bandymą: SG:M:ACC [= bandymo: SG:M:GEN] ir yra užburti. (Latvian) ‘She replied that her brothers had not overcome the trial and were under the spell’ Examples (20)−(23) serve as evidence that students know the rule that transitive verbs require the accusative case in affi rmative sentences. However, the provided examples are negative sentences; thus, in these sentences the genitive case is to be used after each verb (nematau, neduoda, nežiūriu, neišlaikė). As in some languages (Latvian or German, for instance) the noun case does not change after a negative verb Latvian and German students do not change it when speaking Lithuanian either. It should be noted, however, that even though in Polish like in the Lithuanian language the noun case does change after a negation of the verb, the same error is as typical in Polish students’ L2 perfomance as in that of the Latvians or Germans.

3.5. Locative case errors

In this section two aspects of inappropriate locative usage will be discussed. First of all we will focus on locative case errors where the locative expresses time. Then some lines will be spent on locative case errors in expressing direction. Although locative is a case with simple semantics most often used to express location, it is sometimes used for time as well. As the meaning of time for the locative is not so natural it is used only with very few nouns of special meaning. Students sometimes use it to express time and make errors. For example, (24) Naktyje: SG:F:LOC [= naktį: SG:ACC] beveik visai nebijau miegoti tamsu kambaryje. (Polish) ‘At night I have almost no fear to sleep in the dark room’

55 (25) Naktyje: SG:F:LOC [= naktį: SG:ACC], kada Pelenei reikėjo padaryti sunkiausius darbus, atėjo jos krikšto motina jai padėti. (Latvian) ‘At night when Cinderella had to do the hardest work, her godmother came for help’ (26) Kada atsibudau rytoje: SG:F:LOC [= rytą: SG:ACC] aš buvau labai pavargusi. (Latvian) ‘When I woke up in the morning I was very tired’ (27) Katinuko malūnai dirbo dienoje: SG:F:LOC ir naktyje: SG:F:LOC [= dieną: SG:ACC ir naktį: SG:ACC]. (Latvian) ‘The Kitten’s mills worked day and night’ In Examples (24)−(27) students have used the locative case instead of the accusa- tive. Errors of this type are typical of Polish and Latvian students. As in Polish and Latvian the locative is used to express time, the students apply the same rule when communicating in Lithuanian. Another reason for this type of errors might be the incorrect use of the locative by native speakers of Lithuanian in spoken language. Students may have heard ryte (‘in the morning’, LOC) and vakare (‘in the evening’, LOC) when talking to native Lithuanians and thus by analogy use the locative with all words to express time. Prepositional constructions are mostly used to express direction in the Lithua- nian language. L2 learners extend the meaning of the locative and use the case not only to express location but direction as well, as can be seen in Example (28). (28) Tada staiga aš suklupau ir įkritau upėje: SG:F:LOC [= į upę: SG:ACC]. (Latvian) ‘Then I stumbled and fell into the river’

The reason for such errors is most probably the infl uence of the student’s native tongue. In Latvian direction can be expressed by the locative, thus the student applies this rule in a Lithuanian sentence (28) as well.

3.6. Errors in prepositional constructions

The Lithuanian rules of preposition government cause a number of diffi culties for foreign students, as the research data shows. In this section two types of errors will be discussed. Firstly, those that are made because students do not know what case a certain preposition requires, and secondly, errors of choosing an inappropriate preposition to express a certain meaning will be discussed.

3.6.1. The use of an inappropriate preposition

Prepositional constructions are rather diffi cult for L2 learners to acquire. In this section errors with some prepositions will be discussed. The construction with the preposition už (‘behind, for’) is most often used incorrectly instead of just the dative case, as demonstrated in Examples (29) and (30):

56 (29) Hansas dirbo septyni metai už savo meistrą: SG:M:ACC [= savo meistrui: SG:DAT] ir jis norėjo eiti namo pas motiną. (German) ‘Hans worked for seven years for his master and wanted to go home to his mother’ (30) Už laimę: SG:F:ACC [= laimei: SG:F:DAT], nežinau, kas atsitiko toliau, nes aš atsibudau. (Latvian) ‘Luckily, I do not know what happened next, because I woke up’ Both examples show the infl uence of either by the students’ native tongue or by the English language. Example (30) is an obvious translation of the Latvian expression uz laime (‘luckily’); thus instead of the dative case a prepositional construction is used. These errors mostly occur in the intermediate or advanced level. Errors with the preposition į (‘to’) are most commonly related to the expression of location or direction, as research fi ndings suggest: (31) Lietuvoje jūs galite atostogauti į Palangą: SG:F:ACC [= Palangoje: SG:LOC] prie jūros. (Spanish) ‘In Lithuania you can have holidays in Palanga, at the seaside’ (32) Mano draugė iš Ispanijos aplankys mane spalio dvidešimt septintą į Kauną: SG:M:ACC [= Kaune: SG:LOC]. (Japanese) ‘My friend from Spain will visit me in Kaunas on the 27th of October’ Examples (31) and (32) show that the students already know the rule of expressing direction by the construction with the preposition į; now they overgeneralise and use the rule to express location as well. This type of errors have also been observed in fi rst language acquisition when children mix up the meaning of direction (prepositional construction) with the meaning of location (locative case) (Savickienė 2003b).

3.6.2. The use of an inappropriate case

Most commonly students acquire the meaning of prepositions rather easily, but make errors when choosing the appropriate case to be used after a particular prepo- sition. The research data provide examples of all of the cases used incorrectly after prepositions. These will be discussed briefl y in the following subsections.

3.6.2.1. The nominative used with a preposition

The nominative case is not used in prepositional constructions in Lithuanian, but beginner level students make such errors as they do not have enough grammar knowledge of what case is to be used after a particular preposition. (33) Man labai patiko važiuoti į Trakai: PL:M:NOM [= Trakus: PL:ACC]. (Japanese) ‘I liked going to Trakai very much’ (34) Aš esu laimingiausias žmogus iš visi: PL:M:NOM [= visų: PL:GEN]. (German) ‘I am the happiest man of all’ 57 In Example (33) the student understands that the meaning of direction is expressed with the prepositional construction. However, the student does not know yet that į (‘to’) requires the accusative case. Example (34) allows us to speculate that the student is misled by the pronoun that follows the preposition. Pronouns are seldom used in L2 learners’ discourse, thus their declension is more problematic for the students.

3.6.2.2. The genitive used with a preposition

According to the research fi ndings, errors with an inappropriate genitive use are mostly related to expression of time. For example, (35) Išvyka buvo organizuota semestro pabaigą, tuoj prieš egzamino: SG:M:GEN sesijos: SG:F:GEN [= egzaminų: PL:GEN sesiją: SG:ACC]. (Polish) ‘The trip was organized at the end of the semester, before the very begin- ning of exam session’ Although prepositional constructions are often used to express time, learning them is a slow and complex process. In Example (35) the student may have been misled not by the preposition, but by the fact that the whole construction has to be considered. Thus the student uses the genitive in the noun that should be in the accusative case.

3.6.2.3. The dative used with a preposition

The dative case is not used with any preposition at all in the Lithuanian language. Rare as they are, the research data contain examples of such errors. (36) Bet kad situacija pasitaisytų, reikia netylėti, kalbėti su kitiems: PL:M:DAT [= kitais: PL:INS] ir su psichologais. (Latvian) ‘But to make the situation better, one should not be silent and talk to others and psychologists’

Such errors are probably caused by a rare and therefore more diffi cult use of pronouns: the student chooses the appropriate case (instrumental) for the noun psichologais, but makes an error when searching for an appropriate pronoun end- ing.

3.6.2.4. The accusative used with a preposition

The more declension paradigms students learn, the more diffi cult it becomes to handle the abundance of information. Therefore, errors of confusing the genitive and accusative cases occur. (37) Karalius paskyrė dovaną už užmušimas: SG:M:ACC drakoną: SG:M:ACC [= drakono: SG:GEN užmušimą: SG:ACC]. (Polish) ‘The king announced a prize for killing of the dragon’ 58 Example (37) illustrates those cases when the preposition už is followed by a noun in the accusative case. However, when the preposition goes with a possessive geni- tive construction, the student is misled and produces an inappropriate noun form following the preposition rule. It should be noted that errors occur rather often when students have to create longer sentences. Then they have to think not only about what case is required by a particular preposition but also about how to make the nouns in the construction agree with each other. Some research results indicate that students manage to handle one of the two aspects. For example, (38) Jonas sutiko milžinišką moterį prie milžinišką: SG:F:ACC namą: SG:M:ACC [= milžiniško: SG:GEN namo: SG:GEN]. (English) ‘Jonas met a giant woman near the giant house’ Example (38) shows that the student does not know what case is required by the preposition prie and uses the accusative case. As for the student’s progress, it is indicated by the correct noun–adjective agreement.

3.6.2.5. The instrumental used with a preposition

Although the instrumental case is learnt by L2 learners rather late (due to the infrequent use of this case), the research fi ndings were somewhat surprising in that students used the instrumental instead of another more familiar and more frequent case. Consider the example below: (39) Tarp šiais: PL:M:INS žaislais: PL:M:INS [= šių: PL:GEN žaislų: PL:GEN] buvo viena balerina ir vienas švino kareivis. (Turkish) ‘There was one ballet dancer and one plumbic soldier among these toys’

As can be seen in Example (39), the student uses the instrumental, which is a less frequently used case, instead of the required genitive, a case that is learnt earlier and used more frequently. The reason may be that the student does not know yet the usage peculiarities of the preposition tarp (‘among’).

3.6.2.6. The locative used with a preposition

The locative is not used with any preposition in the Lithuanian language, but foreign students form prepositional constructions with the locative rather frequently. This holds for beginners and even for advanced level students. For example, (40) Visą vasarą katinukas bastėsi ir nuėjo prie karaliaus pilyje: SG:F:LOC [= pilies: SG:GEN / į pilį: SG:ACC]. (Latvian) ‘The Kitten wandered all summer and went to the king’s palace’ (41) Kada Pelenė įėjo į salėje: SG:F:LOC [= salę: SG:ACC], visi žiūrėjo ir stebėjosi, kokia ji graži. (Latvian) ‘When Cinderella entered the hall, everyone watched her and wondered how beautiful she was’ 59 The locative is not frequently used and has one main function, that is, to express the meaning of being inside. Other ways of expressing space, location and direction are prepositional constructions. Examples (40) and (41) show that the students know the rule for expressing location, when the locative is to be used, but make errors using this case with prepositions. Examples (40) and (41) are sentences of Latvian students, thus it can be claimed that these errors are infl uenced not by the students’ native tongue, but by Russian, which is widely spoken in Latvia and has an impact on Latvian (Djačkova 2003, Metuzale-Kangere, Ozolins 2005). In the Russian language prepositional constructions with the locative are used.

3.7. Inappropriate use of declension paradigms

When learning a foreign language, learners often make generalisations of grammar rules: after having learnt one rule, they apply it to other cases even where it is not applicable. Such a learning process is positive as it shows the student’s progress. Students acquire very quickly that in Lithuanian nouns of the masculine gender mostly end in -as, -is, -us. Later on, according to the overgeneralisation tendency, students treat all nouns with the ending -s as belonging to the masculine gender. This is illustrated by Examples (42)−(44).

(42) Po to jis susitiko berniukui su žąsiu: SG:M:INS [= žąsimi: SG:F:INS]. (German) ‘Then he met a boy with a goose’ (43) Aš manau, kad reikia įstatymų leidėjams priimti įstatymą apie eutana - ziją visuose: PL:M:LOC šaliuose: PL:M:LOC [= visose: PL:F:LOC šalyse: PL:F:LOC]. (Latvian) ‘I think that all legislators in all countries should pass a law on euthana- sia’ (44) Aš negaliu suprasti, kodėl moteriai: PL:M:NOM [= moterys: PL:NOM] leidžia smurtą šeimoje. (Latvian) ‘I cannot understand why women allow violence in the family’

The fi ndings suggest that students often confuse the types of the paradigms of noun declension. Students treat these feminine nouns, that belong to a different noun declension paradigm as masculine ones. Thus they often decline pilis (‘castle’), sto- tis (‘station’) and žuvis (‘fi sh’), which are of feminine gender, as brolis (‘brother’), which is masculine. The main reason for this type of errors is the unmarked ending for masculine nouns -is. Students have to remember that there is a certain set of nouns, which end in -is in the nominative, but in -ies in the genitive, that belong to a different paradigm and to a different gender, namely, feminine. Examples (42)−(44) are very typical instances of such an overgeneralisation: the case forms are correct, but the words žąsis (‘goose’), šalis (‘country’) and moteris (‘woman’) are treated according to the paradigm of masculine nouns. One more reason for making errors related to inappropriate declension para- digms is students’ reliance on their native tongue. When speaking or writing, L2 learners often translate from their own native language. If a word in the learner’s 60 native tongue is of a different gender than in Lithuanian, it is more likely that the student will make an error. Examples (45)−(46) illustrate the case: (45) Beveik visą šeštadienį buvome pliažoje: SG:F:LOC [= pliaže: SG:LOC] – deginomės, žaidėme futbolo ir tinklinio. (Polish) ‘Almost all Saturday we were on the beach sunbathing and playing football’ (46) Bet nieko, buvo mano pirma: SG:F:NOM karta: SG:F:NOM [= pirmas: SG:NOM kartas: SG:NOM]. (Spanish) ‘But no problem, it was my fi rst time’ In Example (45) the noun pliažas is perceived as belonging to the feminine gender. This is an infl uence of the student’s native tongue as the word plaża (‘beach’) in Polish is of the feminine gender. An analogous case is in Example (46), where the noun kartas is perceived as one of the feminine gender as it is in Spanish vez (‘time’). Once an inappropriate noun paradigm is chosen, the advanced level student makes an error by considering the noun and adjective agreement. For example,

(47) Jis dirba žinome: SG:M:LOC fi rme: SG:M:LOC [= žinomoje: SG:F:LOC fi rmoje: SG:F:LOC] ir yra labai turtingas. (Japanese) ‘He works in a known company and is very rich’

The student chooses the correct case form and makes the adjective and noun agree as required by Lithuanian grammar. However, both the noun and the adjective in Example (47), are treated as belonging to the masculine gender. As there is no gender category in Japanese or English, this example (47) might be considered as a case of learning a false paradigm for the word. As for the students’ progress or learning strategies, it can be added that Example (47) demonstrates a frequent strategy of generalising and using -e as the locative ending for all declension paradigms. This shows that the student understands the meaning of the cases and tries to communicate it, but it is rather diffi cult and time consuming to remember all declension paradigms. Interestingly, exactly similar strategies in learning the case forms and meanings and also similar errors were observed in both L1 and L2 (Savickienė 2006).

4. Summary and conclusion

Lithuanian is a highly infl ected language; therefore the acquisition of case forms and meaning is quite a complicated task for L2 learners. The research has shown that due to the complexity of this category, most errors occurred in the production of three grammatical cases: nominative, genitive and accusative, which are the most important for sentence formation. The most typical errors are as follows: 1) overgeneralisation of the nominative. The most frequently used case form in L2 learners’ speech is the nominative in the function of grammatical subject (this function is exceptionally easy to master due to its pragmatics); this form is often overused in the contexts of the accusative or the genitive;

61 2) inappropriate case form after a preposition. L2 learners most often produce a correct preposition, but the case used with the preposition usually appears in a wrong form; 3) inappropriate case form after a negated verb. In negative constructions students tend to use the accusative case instead of the genitive in the func- tion of direct object; 4) erroneous expression of time, location and direction. The concepts were confused especially in those students in whose native languages the expres- sion of these meanings involves different formal constructions, i.e. case vs. prepositional phrase; 5) confusing of words of different declension paradigms. The tendency of students using the right case form but a wrong declension type of a noun was observed especially with nouns belonging to different genders. When learning Lithuanian, L2 students acquire the meanings of cases gradually. Therefore, errors are a sign of their progress. The results confi rmed the hypothesis that students often rely on their native tongue and apply the translation model as a learning strategy. An impact of English as the language of instruction was also observed. The overgeneralisation strategy, especially in the use of the nominative, was observed in learning Lithuanian, and this supports the general learning tendency where the principle of analogy is applied for different contexts in fi rst and second language acquisition (Savickienė 2003b, 2006). Although no quantitative research was carried out, our study refl ects the tendencies of problematic use of the cases. The complicated process of the acquisition of case form and meaning has been observed in other case languages, such as Latvian, Russian, Polish, Greek, in fi rst language acquisition research (Ceytlin 1988, 1997, Christofi dou, Stephany 1997, Rūķe-Dravi ņa 1982, Smoczynska 1985, Stephany 1997, 1998, Voeikova, Savickienė 2001). These fi ndings bring more light on Lithuanian as a second language and show similarities and differences in L1 and L2. Moreover, it could suggest some applicable recommendations for L2 language classes. The traditional method of teaching a grammatical rule and then applying it in grammatical exercises does not guarantee effective language learning. The importance of communicative competence and learning the form from the context should be emphasised more. Teachers should encourage students to identify grammatical tendencies rather than just to learn grammar rules by heart and drill them (Hinkel, Fotos 2002).

References Ambrazas, Vytautas (Ed.) 1994. Dabartinės lietuvių kalbos gramatika. Vilnius: Mokslo ir enciklopedijų leidykla. Ceytlin, Stella 1988. Okazional’nye morfologičeskie formy v detskoi reči [The morphologi- cally occasional forms in child language]. Leningrad: Gosudarstvennyj pedagogičeskij institut imeni A. I. Gercena. Ceytlin, Stella 1997. Acquisition of possessive relations by a Russian child. – K. Dziubalska- Kołaczyk (Ed.). Papers and Studies in Contrastive Linguistics 33. Poznań: Adam Mickiewicz University, 51–58. Christofi dou, Anastasia; Stephany, Ursula 1997. The early development of case forms in the speech of a Greek boy: A preliminary investigation. – K. Dziubalska-Kołaczyk 62 (Ed.). Papers and Studies in Contrastive Linguistics 33. Poznań: Adam Mickiewicz University, 127–139. Čubajevaitė, Laura 2007. Lithuanian as a foreign language. Means for effective vocabulary learning/teaching. – Kalba ir kontekstai 2. Vilnius: Vilniaus pedagoginio universiteto leidykla, 285–296. Djačkova, Svetlana 2003. Latvian Language Profi ciency and the Integration of Society. : Nordik. http://www.policy.lv/index.php?id=102822&lang=en (15.09.2008). Ellis, Rod 1997. The Study of Second Language Acquisition. Oxford: Oxford University Press. Hinkel, Eli; Fotos, Sandra (Eds.) 2002. New Perspectives on Grammar Teaching in Second Language Classrooms. London: Lawrence Erlbaum Associates Publishers. Kaplan, B. Robert (Ed.) 2002. The Oxford Handbook of Applied Linguistics. Oxford: Oxford University Press. Larsen-Freeman, Diane 1991. Second language acquisition research: Staking out the terri- tory. – TESOL Quarterly, 25 (2), 92–127. http://dzibanche.biblos.uqroo.mx/hemero- teca/tesol_quartely/1967_2002_fulltext/Vol_25_2.pdf#page=92 (14.04.2007). Mačiukaitė, Simona 2008. Differences in adult L2 grammars of Lithuanian: the case of gender agreement. – Estonian Papers in Applied Linguistics, 4, 87−103. www.ceeol. com (20.09.2008). Metuzale-Kangere, Baiba; Ozolins, Uldis 2005. The language situation in Latvia 1850−2004. – Journal of Baltic Studies, 36 (3), 317–344. doi:10.1080/01629770500000121 Mitchell, Rosamond; Myles, Flores 1998. Second Language Learning Theories. London: Arnold. Pribušauskaitė, Joana; Ramonienė, Meilutė; Skapienė, Stasė; Vilkienė, Loreta 2000. Aukštuma. Strasbourg Cedex: Council of Europe Publishing. Ramonienė, Meilutė 1994. Linguistic and didactic problems of teaching Lithuanian as a foreign language. – Raili Pool, Jüri Valge (toim.). Emakeel ja teised keeled. 8.-10. oktoober 1993. Ettekanded. Tartu: Tartu Ülikooli Kirjastus, 261–266. Ramonienė, Meilutė 1998. Lietuvių kalbos kaip svetimosios dėstymo naujovės. – Lituanistika pasaulyje šiandien: darbai ir problemos. Vilnius: Baltos lankos, 40–47. Ramonienė, Meilutė 1999. Tarpkultūrinė komunikacija ir lietuvių kalbos kaip sveti- mosiosmokymas(is). – Tarpdisciplininiai ryšiai lituanistikoje. Vilnius, 123–132. Ramonienė, Meilutė; Pribušauskaitė, Joana 2003. Praktinė lietuvių kalbos gramatika. Vil- nius: Baltos lankos. Ramonienė, Meilutė 2006. Teaching Lithuanian as a second/foreign language: Current practices. – Estonian Papers in Applied Linguistics, 2, 219–230. Ross, Janet 1976. The Habit of perception in foreign language learning: Insight into error from contrastive analysis. – TESOL Quarterly, 10 (2), 17– 23. http://dzibanche.biblos. uqroo.mx/hemeroteca/tesol_quartely/1967_2002_fulltext/Vol_10_2.pdf#page=5 (14.04.2007). Rūķe-Draviņa, Velta 1982. No pieciem męnešiem līdz pieciem gadiem [From fi ve months to fi ve years]. : The Baltic Scientifi c Institute in Scandinavia. Savickienė, Ineta 2003a. Psicholingvistika: gimtosios ir svetimosios kalbos mokymasis. Kaunas: VDU. Savickienė, Ineta 2003b. The Acquisition of Lithuanian Noun Morphology. Wien: Verlag der Österreichischen Akademie de Wissenschaften. Savickienė, Ineta 2005. Linksnių vartojimo dažnumas ir daiktavardžių reikšmė. – Acta Linguistica Lituanica, 52, 59–65. Savickienė, Ineta 2006. Linksnio kategorijos įsisavinimas: lietuvių kalba kaip gimtoji ir svetimoji. – Kalbotyra, 56 (3), 122–129. Smoczynska, Magdalena 1985. The acquisition of Polish. – D. I. Slobin (Ed.). The Crosslin- guistic Study of Language Acquisition 1. Hillsdale, NJ: Erlbaum, 595–686. 63 Stephany, Ursula 1997. The acquisition of Greek. – D. I. Slobin (Ed.). The Crosslinguistic Study of Language Acquisition 4. Hillsdale, NJ: Erlbaum, 183–334. Stephany, Ursula 1998. A crosslinguistic perspective on the category of nominal number and its acquisition. – S. Gillis (Ed.). Studies in the Acquisition of Number and Diminu- tive Marking. Antwerp Papers in Linguistics. Antwerp: Universiteit Antwerpen, 95, 1–23. Voeikova, Maria; Savickienė, Ineta 2001. The acquisition of the fi rst case oppositions by a Lithuanian and a Russian child. – Wiener Linguistische Gazette, 67−69, 165–188.

Ineta Dabašinskienė (Regional Studies Department, Vytautas Magnus University, Lithuania). Her research interests cover interdisciplinary areas such as socio- and psycholinguistics, especially fi rst and second language acquisition, normal and impaired language development, language use and varia- tion. [email protected]

Laura Čubajevaitė (Regional Studies Department, Vytautas Magnus University, Lithuania). Her re- search interests include foreign language teaching methodology and quality, second language acqui- sition, intercultural communication and multilingualism. [email protected]

64 LEEDU KEELE KUI TEISE KEELE KÄÄNETE OMANDAMINE: VEAANALÜÜS

Ineta Dabašinkienė, Laura Čubajevaitė Vytautas Magnuse Ülikool

Leedu keele õpetamine võõrkeelena pole küll uus valdkond, kuid seda on veel vähe uuritud. Artikkel põhineb Vytautas Magnuse Ülikoolis läbiviidud grammatikavigade uuringul, mille materjaliks olid keeleõppijate juhuslikult valitud kirjalikud tööd. Neid kirjutanud üliõpilased (algajatest edasijõudnuteni) on pärit mitmelt maalt: Austriast, Kolumbiast, Prantsusmaalt, Saksamaalt, Jaapanist, Koreast, Lätist, Poo- last, Hispaaniast, Türgist, USA-st. Kokku analüüsiti 50 teksti (e-kirja, muinasjuttu, retsepti, arvamuskirjutist) 20 üliõpilaselt. Ilmnes, et kõige rohkem eksitakse käänete kasutamises, nii vormis kui tähen- duses. Artiklis käsitletakse sagedaimaid vigu, kus kasutati vale käänet objekti vormistamiseks, koha, suuna ja aja väljendamiseks, kaassõnaühendites ja eitava verbivormi laiendina, samuti eksimusi käänamistüübi valikul. Vaadeldakse ka vigade võimalikke põhjusi. Ilmneb õppija emakeele ja inglise keele kui õppekeele mõju; üldistamisstrateegia (äraõpitud reeglit rakendatakse ka juhtudel, kus see ei sobi) ja paraku ka eksitav või puudulik grammatiline ja prag- maatiline info kasutatud sõnaraamatutes.

Võtmesõnad: võõrkeeleõpe, algaja, kesktase, edasijõudnu, veaanalüüs, käänete omandamine, leedu keel

65

CORPORA OF SPOKEN LITHUANIAN

Ineta Dabašinskienė, Laura Kamandulytė

Abstract. The paper discusses the development of spoken Lithuanian corpora. In the analytical part longitudinal child language data as well as adult conversations are discussed in view of the issues that oc- curred during the period of data collection, transcription and coding.

The data are transcribed and coded according to the requirements of 5, 67–77 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT CHILDES. The second part of the paper presents a corpus based analysis and provides preliminary results. The data of adult-directed speech, child-directed speech and child speech are analysed to reveal the fre- quency distribution of parts of speech. Spoken language is compared to written language in order to observe the tendencies of usage. The main differences and similarities within the spoken language registers are discussed as well. Keywords: corpus of spoken language, grammatical annotation, grammatical disambiguation, lexicon, adult-directed speech (ADS), child-directed speech (CDS), child speech (CS), Lithuanian

1. Introduction

Spoken language research requires special preparation, which, fi rst of all, involves the development of a corpus. Systematic research of spoken Lithuanian is closely related to the develop- ment of child language corpora. The main aim in this fi eld was a comparative cross-linguistic investigation of the fi rst phases of morphology acquisition. For this purpose in 1993 we began working on a project for theory-guided research which included developing a parallel longitudinal data collection of children from different languages from about age 1;4 to at least 3;0 as well as applying identical methods of transcription, morphological coding and analysis within nearly two dozens of languages. The research was commenced by taking part in the international project “Crosslinguistic Project on Pre- and Protomorphology in Language Acquisition” (supervised by Wolfgang U. Dressler). 67 The recorded speech was transcribed according to the requirements of CHILDES (MacWhinney, Snow 1990, MacWhinney 2000).1 The transcripts were coded for morphological analysis and double-checked. Adult utterances were tran- scribed orthographically; children’s utterances were transcribed both orthographi- cally and phonetically. Contextual notes were inserted where necessary. The CHILDES program consists of two tools for analysing talk: the CHAT format is used for transcription and coding of the data, and the CLAN programs are used for data analysis, such as MLU (mean length of utterance), frequencies of different linguistic elements, collocations, etc. Thus, after having starting the development of a one-child language corpus, the work has been extended not only to develop a more intensive child language longitudinal data collection, but also to embark on adult language research. The so-called spoken Lithuanian corpora2 today consist of a morphologically coded corpus of child and child-directed speech of about 200 hours of conversations (Savickienė 1998, 2002, 2003, 2006; Balčiūnienė 2005, 2006, 2007; Kamandulytė 2005, 2006, 2007), a corpus of adult speech called “Corpus of Spoken Lithuanian” (about 80 hours of talk) (Kamandulytė, Savickienė 2008) and a small corpus of foreign talk (about 12 hours of talk) (Čubajevaitė 2006a, 2006b). All the data are transcribed and coded according to CHILDES which is now adapted to the Lithuanian language. However, until the end of 2006 there was no corpus of Lithuanian adult speech to provide for spontaneous adult speech analysis. Some aspects of spoken TV and radio language in formal communication had been analyzed by several Lithuanian researchers (Girčienė 2004, Vaicekauskienė 2005), but systematic morphological, syntactic or lexical features of spontaneous adult-directed speech (ADS) had not been investigated until 2006. Development of the Corpus of Spoken Lithuanian (freely available for public on the Internet)3 started in 2006 and was funded by the Lithuanian State Science and Studies Foundation. At present a freely available corpus of morphologically coded spoken language consists of almost 50 000 grammatically annotated word forms, and at the beginning of 2009 it will be expanded up to 250 000 word forms.

2. Corpora of spoken Lithuanian

2.1. Development of corpora

Like any other type of data collection, a corpus of spontaneous speech is useful only if methods of data collection are carefully planned (McDaniel et al. 1996: 7). Therefore, the issue of methodologies applied in recording, transcribing and cod- ing of the data was considered since the very beginning of the development of the spoken Lithuanian database. It is very important to understand that the role of the researchers involved in the project, their theoretical and methodological approach is crucial: they have to decide what to record, how to transcribe and what to mark or code in the process of corpus development. Consequently, the issue of subjectivity and particular interests of the researchers does exist.

68 1 Child Language Data Exchanges System, see http://childes.psy.cmu.edu/ (23.01.2009). 2 The discussion of spoken Lithuanian corpora is related mainly to the work of Vytautas Magnus University (Kaunas) team that includes Ineta Dabašinskienė (former Savickienė), Ingrida Balčiūnienė and Laura Kamandulytė. Some researchers from Vilnius University were involved in the data collection of adult spoken speech as well. 3 See http://www.vdu.lt/LTcourses/ (see MOKSLAS ‘education’) (23.01.2009). 2.1.1. Recording spoken language

2.1.1.1. Corpus of child language

As mentioned above, the development of a child language corpus started in 1993. Child language data were recorded by tape recorders, which later were substituted by digital recorders. Parents were instructed to record conversations in different settings and different communication situations, e.g., while bathing, cooking, eat- ing, playing outdoors, and visiting other people. The age range of the children and the length of the recording process were determined on the basis of linguistic purposes. If the corpus is being created for language acquisition analysis it is advisable to begin recordings with children under 2 years of age in order to catch the transition stages (McDaniel et al. 1998). The child language data were collected starting from 1;6 (with some children later) and continued until the children acquired all grammatical categories and reached a modular morphology stage (at 3–4 years) (Savickienė 2003). While compiling a corpus it is advisable to collect more data than is actually needed to ensure that at least a certain number of relevant utterances (i.e., utterances containing constructions of a certain grammatical type) are included in every record- ing session. Therefore, it was decided to record conversations with children, which would be at least 15–30 minutes long, three to four times per week. Intensive and systematic recordings are crucial especially during the initial stages of language acquisition; later intervals between the recording sessions can be reduced. The summary of the relevant information on the Lithuanian child language corpus collection is presented in Table 1.

Table 1. The structure of Lithuanian child language corpus

Gender of Age Duration of recordings Number of Participants child range (in hours) words (number of words) child (91 646) mother (58 763) 1 female 1;7–2;5 34 155 414 father (2220) other (2785) child (30 439) mother (87 847) 2 female 1;8–2;8 27 122 114 father (3007) other (821) child (15 011) 3 male 2;1–4;3 14 45 902 mother (13 365) father (17 526) child (27 610) 4 male 1;6–2;7 20 71 728 mother (40 234) father (1364)

69 2.1.1.2. Corpus of spoken Lithuanian

While developing a corpus of spoken adult Lithuanian it was decided to follow the principle of balance and to record conversations, which take place in different com- municative situations and settings. It was planned to compile a corpus consisting of two main parts: spontaneous speech and prepared public speech. To develop a more extensive and multi-purpose corpus, different types of communication, i.e., direct and indirect conversations, were recorded. The recordings of direct sponta- neous interactions include private and institutional conversations (see Figure 1). Familiar interactions are typical for private conversations, family members or friends when speaking in an informal way. Institutional interactions are related to conversations taking place in different institutional environments: at a working place, bank, school, shop, market, etc., where speakers usually keep a distance and resort to a more formal way of communication. Indirect or direct communication can take place in both private and institu- tional conversations. Indirect institutional conversations were divided into phone conversations and media speech (TV, radio). Private indirect communication is possible only while talking on the phone. Prepared public conversations were divided into direct and indirect interac- tions; TV recordings were classifi ed as indirect prepared speech, while academic discourse was regarded as direct prepared speech. Specifi c features of spoken language depend not only on the situation and set- ting of communication, but also on the gender, age, education and occupation of the speaker. For example, adults addressing young children or old people tend to modify their language (Savickienė 2006, Kamandulytė 2006, 2007). Therefore the

SPOKEN LANGUAGE

PREPARED SPONTANEOUS PUBLIC

DIALOGUE MONOLOGUE POLILOGUE

DIRECT INDIRECT DIRECT INDIRECT (~ 25) (~ 16) (~ 24)

PRIVATE INST. INST. (~ 15) (~ 10) PRIVATE (~ 11 val.) INST. INST.

PHONE TV, PHONE ACADEMIC TV CALLS RADIO CALLS DISCOURSE (~ 16) (~ 4) (~ 10) (~ 1) (~ 24)

Figure 1. The structure of the Corpus of spoken adult Lithuanian. 70 main aim was to record speech samples according to different demographic criteria, such as gender, age, education, living place (town or countryside).

2.1.2. Transcribing and coding of spoken language

During the process of transcription and coding while using the CHILDES program some problems have emerged. These are presented and discussed below: a) The problem of orthography. When transcribing spoken language it is pos- sible to use either standard orthography or a phonetic representation of sounds. Phonetic representation of sounds is usually relevant for carrying out specifi c research, such as dialectal or phonetic analysis. For the develop- ment of spontaneous Lithuanian corpora standard orthography was chosen; in addition, phonetic transcriptions were introduced for representing child speech. Annotated grammatical forms of standard Lithuanian were pre- sented in standard orthography because the CHILDES program can fi nd a word in the corpus automatically and code it if that word is included in the lexicon, which incorporates words written in standard orthography. The program cannot fi nd and code words that are not included in the lexicon. The creation of a lexicon and the coding process of spontaneous language are very complicated issues due to the fact that colloquial speech includes very many specifi c lexical and morphological features, such as shortened forms, non-standard pronunciation of certain words, jargon, slang words, etc. which may all occur during speech production. Therefore, it was decided to add the standard form of a differently pronounced word while transcrib- ing the data, e.g. mazas [: mažas]; mazas is an incorrectly pronounced child language form. The correct form mažas ‘small’ is given in the brackets (it is the form of standard Lithuanian). Another example is a shortened form of the locative case klasėj [: klasėje] ‘in the classroom’. Non-standard word forms were provided with standard versions put in brackets. This ‘explana- tion’ enables CHILDES to automatically fi nd and code the form, which is written in brackets. Non-standard forms were additionally marked in order to show the real production. b) The problem of a transcription unit. A sentence is the main syntactical unit of written language, whereas the main unit of spoken language is an utter- ance. An utterance is also considered to be the main unit while transcribing spoken data. It is not complicated to transcribe child speech because the utterances of child and child-directed speech are very short; in addition, participants of conversations usually speak slowly. However, it is not that simple to dis- tinguish one utterance from another in spontaneous adult speech. People speak very fast, they often interrupt each other and this creates problems for distinguishing between utterances: it is diffi cult to decide where one utterance ends and the other begins. According to Crystal (2003), an utterance is a stretch of speech preceded and followed either by silence or by a change of speakers. We followed Crystal’s defi nition and tried to identify an utterance by a pause or change of speaker, for example: 71 PERSON 1: Einam ‘Let’s go’ PERSON 2: Kur? ‘Where?’ PERSON 1: Į universitetą ‘To the university’. The above example of Lithuanian speech consists of three utterances. c) The third problem is morphological disambiguation. The CHILDES program (command mor) codes the transcribed data automatically by using the grammatically annotated lexicon that consists of the 65 000 most frequently used Lithuanian word forms. The main problems we were faced with were related to morphological disambiguation. A number of Lithuanian word forms are ambiguous and the program cannot choose the correct one from those given in the lexicon. Therefore, disambiguation should be done manually. It is not diffi cult to choose the correct noun or verb form, but to choose the correct version for some prepositions, particles, conjunctions and interjections is rather problematic as the meaning of such words depends on the context. In addition, morphological description of these words differs across different dictionaries. In order to make the task of identifi cation of some words easier the fol- lowing criteria were followed: • meaning in the context (Rimkutė 2006); • relations with other words (Paulauskienė 1994); • function (for example, a particle modifi es word meaning, a conjunction links words, a conjunction links sentence elements, an interjection marks emotions).

2.2. Corpora-based morphological analysis

2.2.1. Parts of speech

The study is based on the analysis of spoken Lithuanian. The data of adult-directed speech (ADS), child-directed speech (CDS) and child speech (CS) are analysed to reveal the frequency distribution of parts of speech. Spoken language is compared with written language (the data provided by Rimkutė 2006 is based on the analysis of a written language corpus)4 in order to observe the tendencies in usage (see Table 2).

Table 2. Distribution of parts of speech in spoken and written corpora

Parts of speech CS (%) CDS (%) ADS (%) Written (%) Noun 15.9 14.6 16.2 39.4 Adjective 2.5 2.6 2.8 7.3 Pronoun 15.8 19.0 16.9 8.7 Numeral 0.2 1.4 1.9 1.0 Verb 28.1 20.3 22.8 20.5 Adverb 15.1 15.8 10.2 6.7 Preposition 3.1 4.5 4.2 4.6 Particle 10.5 13.4 12.0 3.0 Conjunction 6.2 7.0 8.2 7.6 Interjection 2.6 1.4 4.8 0.2 Total 100 100 100 100

72 4 See http://donelaitis.vdu.lt (23.01.2009). Table 2 shows that all words were classifi ed as particular parts of speech. Ambi- guous words were disambiguated according to their meaning and function in the context (see the criteria above). Unheard or unfi nished and unintelligible words were excluded from the analysis. First, we will discuss the usage of main parts of speech. The most frequent words used in spoken language (in all three registers) are verbs, whereas nouns appear more often in written language. Nevertheless, the frequency of verb tokens in spoken and written language is almost the same (around 20%).5 This is because spoken language is much more expressive and a frequent use of verbs emphasizes this feature. The use of pronouns in spoken language shows high frequency, exceed- ing that of nouns. Moreover, in written language pronouns appear almost twice less frequently than in spoken language, where pronouns tend to replace nouns. Dif- ferently from written language, adverbs, particles and interjections are used much more frequently in spoken language. These words are not incidental, being related to the expressiveness, spontaneity and emotionality typical of spoken discourse. Numerals, conjunctions and prepositions show similar frequencies. Another major difference is associated with the use of adjectives: in spoken language these words are not so frequent as in the written form. A comparison of the three registers of spoken language (ADS, CDS, CS) yields the following results: child speech is marked by a greater usage of verbs (28.1% vs. 20.3%, 22.8%), child-directed speech has a higher number of pronouns (19% vs. 15.8%, 16.9%), whereas particles, conjunctions and interjections are used more frequently in adult-directed speech. In both CDS and CS registers, a dominance of adverbs is noticed (15.1%, 15.8% vs. 10.2%). To sum up, the usage of parts of speech has shown that differences are observed only between spoken and written forms, whereas within the spoken language register differences occurred in CDS and CD as opposed to ADS. CDS corpus analysis revealed that this register differs a lot from ADS in terms of phonology, morphology, syntax and pragmatics (Ferguson 1977, Kempe, Brooks 2001; for Lithuanian see Savickienė 2003, Kamandulytė 2007, Wójcik 1994). Therefore, we hypothesize that a deeper investigation of one category, at least on the level of morphology, might reveal some differences in usage.

2.2.2. Case

The starting point of our analysis is the classifi cation of cases proposed by Kuryłowicz (1964, 1977). We will thus analyse grammatical cases from the point of view of their syntactic functions, whereas concrete cases will be discussed with respect to the semantic functions they usually perform. Our hypothesis is that from a statistical point of view the frequency of occurrence of a certain case is inversely proportional to the degree of its functional markedness (Laskowksi 1989). The frequency of occurrence (in percentages) of all cases found in ADS, CDS and CS is presented in Table 3.

73 5 The data are presented only in percentages because absolute numbers diff er greatly. Table 3. The frequency of case forms (in percentages)6: ADS vs. CDS vs. CS

Corpus NOM ACC GEN DAT INS LOC ADS 33% 19% 29% 10% 5% 4% CDS 48% 21% 19% 5% 4% 3% CS 59% 18% 15% 4% 2% 2%

The above data clearly indicate that grammatical cases, i.e., the nominative, accusa- tive, and genitive are much more frequent than the concrete ones, i.e., those of the dative, instrumental and locative. Thus it can be concluded that the sub-system of concrete cases, which is functionally marked, is characterised by a low frequency of occurrence. The frequency of grammatical cases differs greatly from that of concrete ones. For example, the frequency of the genitive case alone is higher than that of all concrete cases taken together. The most frequent case, then, is the unmarked nomi- native case, whereas the locative and the instrumental represent the cases with the lowest frequency of occurrence. Likewise, the locative case, due to its lowest frequency of occurrence, should be considered the most marked member in the case system. Spoken language research into Slavic languages provides similar results. Thus in Russian the frequency of occurrence of cases is as follows: NOM 32.6%, ACC 25.3%, GEN 22%, DAT 4.1%, LOC 10.1%, INS 5% (Zemskaja 1979: 74). In Polish the respective numbers are as follows: NOM 34.2%, ACC 29.8%, GEN 19.2%, DAT 4.8%, INS 4.4%, LOC 7.6% (Laskowski 1989: 212). The results obtained from the analysis of the data demonstrate that similar tendencies prevail in both CDS and CS but differ in ADS. Therefore, our further discussion will be based on the general use of cases in ADS, CDS and CS. Despite the fact that the differences exist, some similarities can be observed, i.e., the nominative case is the most frequent among all three registers. A compari- son of the nominative usage shows that the occurrence of this form in CS is 10% higher than in CDS and almost 27% higher than in ADS. The frequent use of the nominative in CDS and CS is a specifi c feature of these registers in the early period of language acquisition (Savickienė 2003, Voeikova, Savickienė 2001), because it is related to the process of teaching and learning. The occurrences of other case forms differ. In ADS the genitive is more frequent than the accusative, but the accusative appears more often in CDS and CS. The dative case forms are almost twice as frequent in ADS, but the usage of the instrumental and the locative seems similar in all three registers.

3. Discussion and conclusion

Spoken language research requires special preparation. In order to analyse spon- taneous speech, a corpus requiring enormous human, technical and fi nancial resources has to be developed. The process is long, time-consuming and requires accuracy, discipline and devotion on the part of the researcher, because preliminary results can be obtained only after a few years of intensive work. There is a great difference in developing spoken or written, adult-directed or child speech corpus, and fi rst of all it is related to human efforts. The most diffi cult work awaits those

6 74 Kuryłovicz (1964) did not separate the vocative as a discrete case, therefore we do not include the vocative either. who are involved in child language research, which requires lots of manual work and time. Therefore even representatives of so-called big languages do not have longitudinal child language data of very many children; usually data obtained from one child are used. Research on spontaneous language is interesting from many points of view: fi rst, it shows the real situation of language usage and can inform about tenden- cies of further development; second, it creates an important source of authentic speech which can be used in translation studies, second language learning etc.; third, if the data are stored in an electronic form it ensures its availability for future studies. From a linguistic point of view this preliminary study based on a corpus approach has shown some differences between spoken and written language, especially in the distribution of parts of speech. A deeper analysis of the category of case was carried out in order to reveal some peculiarities of different registers of spoken language. The frequency of occurrence of different case forms of specifi c words refl ects the nature of the category of case in Lithuanian, i.e., the degree of markedness of each case. On the other hand, noun semantics is a basic factor that infl uences the frequency of its case forms (Laskowski 1989, Savickienė 2003). Therefore, further analysis related to the semantic analysis of the category of case is necessary to show the relation between form and meaning. We believe that systematic, corpus-based research of spontaneous language will give more possibilities to identify, evaluate, and change the development of the Lithuanian language.

References Balčiūnienė, Ingrida 2005. Parodomųjų įvardžių įsisavinimas. – Lituanistica, 4, 45–54. Balčiūnienė, Ingrida 2006. Do mothers imitate their children? – Prace Bałtystyczne, 3, 19–28. Balčiūnienė, Ingrida 2007. Kodėl tėvai kartoja vaikų pasakymus. – Gimtasis žodis, 8, 2–5. CHILDES = Child Language Data Exchanges System. http://childes.psy.cmu.edu/ (23.01.2009). Crystal, David 2003. A Dictionary of Linguistics and Phonetics. Malden, MA: Blackwell Publishing. doi:10.1002/9781444302776 Čubajevaitė, Laura 2006a. Verbal behaviour of Japanese students in conversational Lithua- nian. – Regioninės studijos, 1, 190–199. Čubajevaitė, Laura 2006b. Lithuanian as a foreign language. – Kalbotyra, 56 (3), 33–38. Ferguson, Charles A. 1977. Baby talk as simplifi ed register. – C. A. Snow, Ch. A. Ferguson (Eds.). Talking to Children: Language Input and Acquisition. Cambridge: Cambridge University Press, 209–235. Girčienė, Jurgita 2004. Naujųjų skolinių ir jų atitikmenų konkurencija sakytinėje vartosenoje. Skoliniai ir bendrinė kalba, 120–146. Kamandulytė, Laura 2005. Vaikiškosios kalbos registras. – Gimtoji kalba, 7, 12–16. Kamandulytė, Laura 2006. Vaikiškosios kalbos ypatybės. – Kalbos kultūra, 79, 264–273. Kamandulytė, Laura 2007. Morphological modifi cations in Lithuanian child directed speech. – Estonian Papers in Applied Linguistics, 3, 155–166. Kamandulytė, Laura; Savickienė, Ineta 2008. The Corpus of Spoken Lithuanian: Methodology and development. – František Čermak, Rūta Marcinkevičienė, Erika Rimkutė, Jolanta Zabarskaitė (Eds.). Proceedings of the Third Baltic Conference on Human Language Technologies, Vilnius: Vytautas Magnus University, 127–135. 75 Kempe, Vera; Brooks, Patricia 2001. The role of diminutives in Russian gender learning: Can child-directed speech facilitate the acquisition of infl ectional morphology? – Language Learning, 51, 221–256. doi:10.1111/1467-9922.00154 Kuryłowicz, Jerzy 1964. The Infl ectional Categories of Indo-European. Heidelberg: Univer- sitätsverlag. Kuryłowicz, Jerzy 1977. Problèmes de linguistique indoeuropèenne. Wroclaw: Zakład Naro- dowy im. Ossolińskich. Laskowski, Roman 1989. Markedness and the category of case in Polish. – O. M. Tomiã (Ed.). Markedness in Synchrony and Diachrony. Berlin etc.: Mouton de Gruyter, 207–226. MacWhinney, Brian; Snow, Catherine 1990. The child language data exchange system: An update. – Journal of Child Language, 17, 457–472. doi:10.1017/S0305000900013866 MacWhinney, Brian 2000. The CHILDES Project: Tools for Analyzing Talk. Vol. I: Transc- ription, Format and Programs. Mahwah, NJ: Lawrence Erlbaum Associates. McDaniel, Dana; McKee, Cecile; Smith, H. Cairns 1998. Methods for Assessing Children’s Syntax. Cambridge, Massachusetts, London: The MIT Press. Paulauskienė, Aldona 1994. Lietuvių kalbos morfologija. Vilnius: Mokslo ir enciklopedijų leidybos institutas. Rimkutė, Erika 2006. Morfologinio daugiareikšmiškumo ribojimas kompiuteriniame tekstyne. PhD Thesis. Kaunas: VDU. Savickienė, Ineta 1998. The acquisition of diminutives in Lithuanian. Studies in the acquisition of number and diminutive marking. – Antwerpen Papers in Linguistic, 95, 115–135. Savickienė, Ineta 2002. The emergence of case distinctions in Lithuanian. – M. D. Voeikova, W. U. Dressler (Eds.). Pre- and Protomorphology: Early Phases of Morphological Development in Nouns and Verbs. Lincom Studies in Theoretical Linguistics 9. München: Lincom, 105–115. Savickienė, Ineta 2003. The Acquisition of Lithuanian Noun Morphology. Wien: Verlag der Österreichischen Akademie der Wissenschaften. Savickienė, Ineta 2006. Komunikacinė pragmatika ir kalbėjimo situacijos tikslas: deminutyvų vartojimo atvejis. – Kalbos kultūra, 79, 258–265. Savickienė, Ineta; Dressler, Wolfgang U. 2007. The Acquisition of Diminutives. A Cross- Linguistic Perspective. Amsterdam: Benjamins. Vaicekauskienė, Loreta 2005. Televizijos reklama – prarandamas lietuvių kalbos domenas? – Tarptautinė Jono Jablonskio konferencija: Bendrinė kalba ir visuomenė. Pranešimų tezės. 37–39. Voeikova, Maria; Savickienė, Ineta 2001. The acquisition of the fi rst case oppositions by a Lithuanian and a Russian child. – Wiener Linguistische Gazette, 67–69, 165–188. Wójcik, Paweł 1994. Some characteristic features of Lithuanian baby talk. – Linguistica Baltica, 3, 71–86. Zemskaja, Elena A. 1979. Russkaja razgovornaja retš’. Моskvа: Nauka.

Ineta Dabašinskienė (Regional Studies Department at Vytautas Magnus University, Kaunas, Lithuania). Her research interests cover interdisciplinary areas such as socio- and psycholinguistics, especially fi rst and second language acquisition, normal and impaired language development, language use and variation. [email protected]

Laura Kamandulyte (Department of the Lithuanian Language at Vytautas Magnus University). Her research interests are corpus linguistics, psycholinguistics, fi rst language acquisition, second language acquisition, language impairment. [email protected] 76 LEEDU SUULISE KEELE KORPUSED

Ineta Dabašinskienė, Laura Kamandulytė Vytautas Magnuse Ülikool

Artiklis käsitletakse leedu suulise keele korpuste arendamist. Arutletakse prob- leemide üle, mis kerkisid longitudinaalse lapsekeele uuringu ning täiskasvanute vestluste andmete kogumisel, transkribeerimisel ja kodeerimisel. Andmed on transkribeeritud ja kodeeritud CHILDES-i nõudmisi järgides. Artikli teises osas tutvustatakse korpuspõhise analüüsi esialgseid tulemusi. Otsitakse sõnaliikide ja käänete sageduserinevusi kolmes suulise keele registris: täiskasvanule suunatud kõnes (ingl ADS), lapsele suunatud kõnes (ingl CDS) ja lapsekõnes (ingl CS). Tulemused näitavad olulist erinevust kirjaliku ja suulise keele vahel, mitte aga suulise keele registrite vahel. Lapsekõnes on küll rohkem verbe (28,1% – vrd 20,3% lapsele suunatud kõnes ja 22,8% täiskasvanule suunatud kõnes) ning lapsele suunatud kõnes rohkem asesõnu (19% – vrd vastavalt 15,8% ja 16,9%), samas leidub enim partikleid, side- ja hüüdsõnu täiskasvanule suunatud kõnes. Nii lapsele suunatud kui ka lapsekõnes leidub aga rohkem määrsõnu (vastavalt 15,1% ja 15,8%) kui täiskasvanule suunatud kõnes (10,2%). Käändekasutuses ilmneb sarnasusi lapsekõne ja lapsele suunatud kõne vahel, mis eristavad neid täiskasvanule suunatud kõnest, kus on oluliselt vähem nomi- natiivi ja mõnevõrra rohkem genitiivi kui kahes eelmises registris. Lapsekõnes on nominatiivi koguni 27% ja lapsele suunatud kõnes 16% rohkem kui täiskasvanule suunatud kõnes. Rohke nominatiivikasutus ilmestabki neid kaht registrit keele omandamise varasel perioodil (Savickienė 2003, Voeikova, Savickienė 2001), olles seotud õpetamise ja õppimisega. Ka ühendab lapsele suunatud kõnet väike akusatiivi ülekaal genitiivi suhtes, samas kui täiskasvanule suunatud kõnes esineb genitiivi tervelt 10% rohkem kui akusatiivi. Oluliselt haruldasemat daativi leidub täiskasvanule suunatud kõnes pea kaks korda rohkem kui ülejäänud registris. Instrumentaali ega lokatiivi kasutuses erinevusi ei ilmnenud.

Võtmesõnad: suulise keele korpus, grammatiline märgendus, grammatiline ühestamine, leksikon, täiskasvanule suunatud kõne (ingl ADS), lapsele suunatud kõne (ingl CDS), lapsekõne (ingl CS), leedu keel

77

EESTI KEELE KASUTUSVARIANDID: KORPUSTEST TULENEV KÄÄNDEVORMIDE VÕRDLEV ANALÜÜS

Pille Eslon, Erika Matsak

Ülevaade. Eesti keele keeletehnoloogilise ressursi olemasolu annab võimaluse korpusest tulenevalt võrrelda kahte eesti keele aktiivselt kasutatavat varianti – kirjakeelt ja õppijakeelt. Tegemist on autentse 5, 79–110 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT keeleainesega, mille uurimisel saab rakendada tarkvara ning erinevaid kvantitatiivse ja kvalitatiivse analüüsi meetodeid, sh sõnavormide ja nende kasutuskontekstide sageduse automaatset leidmist. Saadud tule- mustest peaks ilmnema, missugused vormid on erinevates keelevarian- tides sagedased; missuguseid tüüpilisi, ebatüüpiliselt või spetsiifi list laadi kollokatsioonilisi üksuseid korpustes esineb; missugused gram- matilised konstruktsioonid on erinevatele keelevariantidele tegelikult iseloomulikud ja tavapärased; missugust osa sõnavarast, vormidest ja konstruktsioonidest erinevad keelekasutajad tegelikult eelistavad.* Võtmesõnad: korpuslingvistika, korpustest tulenev võrdlev analüüs, käändegrammatika, käändevormide kasutuseelistused eesti keeles, eesti keel

1. Eesmärk

Uurimuse eesmärk on võrrelda käändekasutust kahes eesti keele variandis – kirja- keeles ja õppijakeeles. Aluseks on võetud Eesti Keele Instituudi (EKI) tekstikorpus1 ja Tallinna Ülikooli eesti vahekeele korpus (EVKK )2. Nende ressursside põhjal tuuakse välja eesti keele nelja sagedasema nimisõna käändevormide sagedus ning kirjeldatakse nende sõnade morfoloogilist paradigmat. Statistikast peaks selguma, mil määral on sõna semantika seotud grammatiliste vormide moodustamise ning esinemissagedusega korpuses. Samas ei anna see teave tegelikult midagi olulist vormieelistuste kohta tekstiloomes. Küsimus aga on selles, missuguseid konst- ruktsioone ja käändevorme tekstiloomes eelistatakse ning miks. Seetõttu otsitakse

79 * Tööd on toetanud riikliku programmi “Eesti keele keeletehnoloogiline tugi (2006 – 2010)” projekt “VAKO: Eesti vahekeele korpuse keeletarkvara ja keeletehnoloogilise ressursi arendamine”. 1 http://www.eki.ee/corpus/ (3.09.2008). 2 http://evkk.tlu.ee (3.09.2008). korpusainesest välja kaks ning enam korda esinevad konstruktsioonid, milles on võimalik kasutada vaid kindlaid käändevorme ning mis on tekstiloomes olulised. Analüüsi tulemusena tuuakse välja kirjakeelele ja õppijakeelele omased kollokat- sioonilised üksused, tüüpilised grammatilised konstruktsioonid ja nende leksikaal- grammatilised variandid, milles on kasutatud vaid teatud käändevorme. Siit peaks ilmnema, kuivõrd selgelt on eesti kirjakeeles ja õppijakeeles väljendunud seosed grammatiliste vormide ja sageli kasutatavate konstruktsioonide vahel, samuti see, mille poolest nende kahe eesti keele variandi käändekasutusmustrid sarnanevad või erinevad. Lahknevused kirjakeele ja õppijakeele käändekasutuse kontekstiee- listustes annavad teavet ka võrreldavate keelevariantide diskursuserinevuste kohta ning toovad esile sel otstarbel kasutatud stereotüüpsed konstruktsioonid. See on aga oluline mitte üksnes pedagoogilistel ja leksikograafi listel eesmärkidel, vaid sünkroonsel tasandil keelesüsteemi sisemiste varjatult kulgevate arengutendentside väljatoomiseks.

2. Materjal, analüüsi suunad ja vahendid

Kirjakeele ja õppijakeele võrdlev analüüs piirdub sagedasemate nimisõnade kään- devormide kasutamisega.3 Sõnade sagedusandmed on võetud “Eesti kirjakeele sagedussõnastiku” tuhande sagedasema sõna ja sõnavormi järjendist (Kaalep, Muischnek 2002)4 ning Eesti vahekeele korpuse sõna- ja vormisageduse statistikast. Nende allikate põhjal on kirjakeeles kümme sagedasemat nimisõna aasta, aeg, mees, kroon, sõna, inimene, raha, elu, naine, ema ja õppijakeeles keel, inimene, aeg, elu, sõna, töö, kiri, kultuur, aasta, raha. Et leida esikümne piires kirjakeele ja õppijakeele sõnavormide sagedusloendi ühisosa, mille all mõeldakse kokku- langeva või samalaadse sagedusega sõnapaare, siis tuleb kõigepealt välja jätta need sõnad, mida teise kasutusvariandi sagedusloendi esikümnes ei ole. Niisugune on õppijakeele sagedasem sõna keel, mis ei kuulu kirjakeele kümne ega kahekümnegi sagedasema hulka; samal põhjusel jäävad analüüsist välja kirjakeeles esikümnesse kuuluvad sõnad mees, kroon, naine, ema ja õppijakeeles töö, kiri, kultuur, raha. Sõna aasta on nii kirjakeele kui ka õppijakeele sagedasemate sõnade esikümnes (kirjakeeles sagedusrea eesotsas, õppijakeeles eelviimane ehk üheksas), kuid distants sageduses on selgelt märgatav. Seetõttu tasub kaaluda, kas sõna aasta on mõtet vaadelda sagedusloendite ühisosa all, olgugi et kuuluvus esikümnesse annab selleks formaalse aluse. Käesolevas uurimuses on otsustatud sõna aasta siiski analüüsist välja jätta. Ülejäänud sõnade sagedused on tunduvalt lähedase- mad (inimene – kirjakeeles sageduselt kuues ja õppijakeeles teine, aeg – vastavalt teine ja kolmas, elu – kaheksas ja neljas), ühel juhul isegi kokkulangev (sõna – mõlemas sagedusjärjendis viiendal kohal). Niisiis on sõnade inimene, elu, aeg ja sõna kasutamine võrreldavates keelevariantides sageduse poolest analoogne ning need sõnad kuuluvad kirjakeele ja õppijakeele samalaadse sagedusega nimisõnade hulka. Nende vormisageduse uurimiseks ja kasutuskontekstide võrdlemiseks kahe korpusainese alusel tuleb eelnevalt tähelepanu pöörata mõningatele olulistele metodoloogilist laadi küsimustele, nagu valimite representatiivsus, võrreldavus, analüüsi suunad ja vahendid.

80 3 Kuna sagedasemate nimisõnade väljatoomise protseduuri on kirjeldatud artiklis Eslon 2008: 33–35, siis sel küsimu- sel siinkohal pikemalt ei peatuta, antakse lühiülevaade ega laskuta metoodilist laadi üksikasjadesse. 4 Vt ka http://www.cl.ut.ee/ressursid/sagedused/ (4.09.2008). 2.1. Valimite representatiivsus ja võrreldavus

Kahe erineva korpusainestiku võrdlemine eeldab korpuste representatiivsust ja võrreldavust. Traditsiooniliselt on representatiivsuse tagatiseks peetud ühelt poolt korpuste ja teisalt nende uurimise mitmemõõtmelisust; võrreldavateks on tunnistatud samadel alusprintsiipidel rajanevaid korpusi (vt Atkins, Clear, Ost- ler 1992, Biber 1993, McEnery, Wilson 2001: 29–32). Samas pole reaalne, et ka kõige järjekindlamalt üles ehitatud tasakaalustatud korpus sisaldaks keele kohta absoluutselt kõike ning vastaks mis tahes uurimistöö eesmärkidele (vt nt Bergh 2005, Volk 2002), eriti puudutab see suletud korpusi. Iseenesest on see küsimus muidugi oluline, ennekõike seoses mitmekeelsete ja paralleelkorpuste uurimisega (vt nt Baker 1995), kuid ühe keele erinevate kasutusvariantide võrdlemisel arva- tavasti mitte niivõrd keskne. Näiteks on Ute Römer püüdnud välja selgitada, mis on inglise keele if-lausete kasutamisel normipärane, sest tegelikult on normi ehk standardi mõiste kokkuleppeline ega pruugi kajastada loomulikku keelekasutust, mida haritud emakeelekõneleja aktsepteerib. Võrrelnud if-lauseid kolmes keele- andmestikus (inglise keele õpik, British National Corpus (BNC), saksa emakeelega õppijate inglise vahekeel ehk õppijakeel5), jõuab Römer järeldusele, et “kooli” inglise keel ei ole vastavuses loomuliku keelekasutusega. Seetõttu peab õpikutes ja keele- õppes ümber orienteeruma autentse kirjakeele sellele osale, mis on tavapärane Briti inglise keelele ja mida emakeelevaldaja loomulikus keelekasutuses eelistab (Römer 2007: 355, 358–363). Niisugusele järeldusele aitas U. Römeril tulla ühe keele kolme kasutusvariandi korpustest tulenev analüüs ja võrdlus, ent samas pole ei inglise keele õpik, BNC ega ka inglise õppijakeel samalaadsed ei mahult, adressaadi valikult, tekstiliikide ja registri ega millegi muu poolest. Teistsuguste uurimiseesmärkide puhul tuleb korpusainestiku tasakaalustatus uurimistule- muste adekvaatsusele kahtlemata kasuks, sest korpuspõhine mitmemõõtmeline keelekirjeldus näitab selgemalt keelendi(te) võimalikku varieerumist olenevalt sagedusest näiteks suulises kõnes ja kirjalikes tekstides või siis keelendi(te) dia- kroonilist ja regionaalset varieerumist, registrierinevusi, tekstiliikidest sõltuvat varieerumist jne. Inglise keele modaalverbide korpuspõhises analüüsis (läbi vii- dud BNC alusel) on seda kõike kujukalt demonstreerinud Graeme Kennedy (vt Kennedy 2002: 76–86). Sellele vaatamata ollakse seisukohal (nt Xiao, McEnery 2005), et korpuste mitmemõõtmelisuse ja tasakaalustatuse küsimus pole erinevate ainestike võrdlemisel ning uurimistulemuste adekvaatseks tunnistamisel omaette küsimus, sest keelt saab uurida mitte ainult lingvistiliselt ja korpuspõhiselt, vaid ka statistikal rajanevat automaatset formaalset analüüsi rakendades (nt WordSmith Tools, MonoConc, MonoConc Pro, WordCruncher, Raymond Hickey välja töötatud programmid, R Projecti programmide pakett jt). Korpusest otsitakse sõna- ja vormi- sagedust, statistilisi kollokatsioonilisi üksuseid, konstruktsioone, klastreid jms. Nii on Zhonghua Xiao ja Anthony McEnery väitnud, et üks WordSmith Toolsi prog- ramme KeyWords võimaldab võrrelda erinevaid korpusaineseid sama efektiivselt kui representatiivseks ja omavahel võrreldavaks tunnistatud mitmemõõtmelistele korpusuuringutele tuginevad laiahaardelised korpuspõhised uurimused (vt Xiao, McEnery 2005: 62–82). Kadri Muischnek näiteks on statistiliste kollokatsioonide automaatseks tuvastamiseks kasutanud keelest sõltumatu tarkvara SENTA modifi -

81 5 Mõisteid vahekeel ja õppijakeel kasutatakse siinkohal sünonüümidena. katsiooni SENVA, mis on kohandatud eesti keele verbikesksete ühendite leidmiseks (vt Muischnek 2006: 40). Kuna nii EKI tekstikorpus kui ka EVKK on avatud ehk monitorkorpused, siis on sõnade arv neis erinev ning kasvab pidevalt. Järelikult on nende korpuste põhjal tehtavas keeleanalüüsis mõttekas alustada sellest, et määrata võrreldavate valimite suurus ja hinnata nende usaldusväärsust. Optimaalse suurusega valimi leidmiseks tehti mõlemas korpuses päring nelja sagedasema nimisõna vormikasutuse kohta ning leiti vastavalt 98928 ja 19433 erikäändevormi. Järgmine samm optimaalse valimi leidmisel oli tekstilõikude arvu piiramine seitsme tuhandega. Kuna igal lõigul on põhimõtteliselt võrdne tõenäosus sellesse valimisse sattuda, siis eespool nimetatud kindla üldkogumi korral (98928 ja 19433 käändevormi) on EKI tekstikorpuse ja EVKK suhtes representatiivne niisugune valim ehk tekstilõikude kogum suurusjärgus 7000, millesse iga üldkogumi objekt ehk tekstilõik satub võrdse tõenäosusega. Kui see osutub võimalikuks, siis saab iga nimetatud suurusjärguga valimi tunnistada antud uurimuse jaoks sobivaks. Et veen- duda kahe valimi alusel saadud päringute kokkulangevuses, tehti EKI tekstikorpu- sest ja EVKK-st kuuajalise vahega ühe ja sama sõna käändevormide ilmnemise kohta kaks erinevat päringut (Päring 1 ja Päring 2). Siinkohal näide EKI tekstikorpuse põhjal tehtud kahest päringust, millest selgub, et sõna inimene käändevormide esinemissagedus kahes erinevas valimis langeb kokku (vt tabel 1).

Tabel 1. Sõna inimene käändevormide sagedus EKI tekstikorpuse valimites

Sõnavorm Päring 1 Päring 2 Kääne inimest 1421 1421 SG.PART inimesed 1164 1165 PL.NOM inimene 960 964 SG.NOM inimese 765 766 SG.GEN inimesi 704 704 PL.PART inimeste 598 600 PL.GEN inimestele 230 232 PL.ALL inimesele 176 177 SG.ALL inimestel 137 137 PL.ADS inimesel 125 123 SG.ADS inimestega 107 107 PL.KOM inimestest 106 106 PL.ELAT inimesega 75 75 SG.KOM inimesest 55 55 SG.ELAT inimestelt 29 29 PL.ABL inimeseks 27 27 SG.TRANS inimesena 23 23 SG.ESS inimeselt 19 19 SG.ABL inimeses 17 17 SG.INES inimestes 13 13 PL.INES inimeseni 8 9 SG.TERM inimesteks 8 8 PL.TRANS inimesteni 5 5 PL.TERM inimestesse 0 5 SG.ILL

82 Et olla veendunud, kas nii saadud tulemus on tõepoolest usaldusväärne, kontrolliti Päring 1 ja Päring 2 valimite sarnasust ka Pearsoni χ² valemiga: k n N 2 χ 2 i  i ~ χ 2 ¦ df N H0 i 1 i χ² valemi abil saab valimites hinnata vahemikus 0–1 seda, kas erinevus mingites tunnustes on oluline või mitte. Selleks arvutatakse välja teoreetiliselt võimalik vabadusaste (tähistatud suurusega df = ingl degree of freedom), mille alusel saab määrata valimi olulisustõenäosuse p (probability level), vt tabel 2.

Tabel 2. Valimite sarnasus arvutatuna χ2 valemi abil

Käänded Päring1 Päring2 Kokku SG.PART 1421 1421 2842 1419,428 1422,572 PL.NOM 1164 1165 2329 1163,212 1165,788 SG.NOM 960 964 1924 960,9358 963,0642 SG.GEN 765 766 1531 764,6531 766,3469 PL.PART 704 704 1408 703,2212 704,7788 PL.GEN 598 600 1198 598,3373 599,6627 PL.ALL 230 232 462 230,7445 231,2555 SG.ALL 176 177 353 176,3047 176,6953 PL.ADS 137 137 274 136,8484 137,1516 SG.ADS 125 123 248 123,8628 124,1372 PL.KOM 107 107 214 106,8816 107,1184 PL.ELAT 106 106 212 105,8827 106,1173 SG.KOM 75 75 150 74,91703 75,08297 SG.ELAT 55 55 110 54,93915 55,06085 PL.ABL 29 29 58 28,96792 29,03208 SG.TRANS 27 27 54 26,97013 27,02987 SG.ESS 23 23 46 22,97456 23,02544 SG.ABL 19 19 38 18,97898 19,02102 SG.INES 17 17 34 16,98119 17,01881 PL.INES 13 13 26 12,98562 13,01438 83 SG.TERM 8 9 17 8,490597 8,509403 PL.TRANS 8 8 16 7,99115 8,00885 PL.TERM 5 5 10 4,994469 5,005531 SG.ILL 0 5 5 2,497234 2,502766 Kokku 6772 6787 13559 Pearson’s χ2 statistic 5,082593 df 23 p 0,999967

Tabelis 2 esitatud andmed näitavad, et vabadusastme df = 23 puhul on olulisus- tõenäosus p = 0,999967, mis tähendab, et kahe erineva päringu tulemused on sarnased. Seega on EKI tekstikorpuse 7000 lõigust koosnev valim ja EVKK 7000 lõigust koosnev valim nelja sagedasema nimisõna käändegrammatika võrdlevaks uurimiseks suurusjärgult piisavad.

2.2. Analüüsi suunad

Selle alusel, kuidas korpusi on keele uurimisel kasutatud, eristatakse kaht peamist suunda: ühelt poolt korpuspõhist keeleanalüüsi (ingl corpus-based language analysis) ja teisalt korpusest tulenevat uurimist (corpus-driven research). Kõige üldisema seletuse järgi on korpuspõhise analüüsi puhul korpuse keeleaines uurija jaoks allikmaterjal, millest vastavalt püstitatud uurimiseesmärgile vajalikku teavet saada. Elena Tognini Bonelli on kirjutanud, et seejuures kasutab uurija korpust kui keelekirjelduste ja teooriate paikapidavuse tõendusmaterjali: “.. use of a corpus as evidence for language description is usually referred to as corpus-based” (Tog- nini Bonelli 2002: 73). Selline lähenemisviis korpustele on olnud traditsiooniline inglise keele sõnavara uurimisel nii leksikograafi listel kui ka peadagoogilistel eesmärkidel (vt Kennedy 1999: 108–121). Alates H. M. Palmerist, J. R. Firthist ja M. A. K. Halliday’st on sõna tähendust peetud sõltuvaks nii leksikaalgrammatilisest kui ka ekstralingvistilisest kontekstist (sotsiaalne keskkond, keelenormid jms), milles sõnakasutus ilmneb (vt McEnery, Wilson 2001: 23–24). John Sinclairi (1991) järgi on sõna tähenduse kujunemise aluseks semantika ja grammatika koosmõju kindlat tüüpi konstruktsioonides, fraasides ja lausetes. Seega on sõna tähendus olemuselt tekstuaalne nähtus, mis on kirjeldatav keelesüsteemi süntagmaatilisel tasandil. Analoogselt on uuritud ka grammatiliste vormide ja konstruktsioonide kasutust. Näiteks Sylviane Grangerit on huvitanud, kuidas inglased ja edasijõudnud inglise keele kui võõrkeele õppijad oma akadeemilist laadi kirjutistes partitsiipi kasutavad. Vastuse saamiseks on ta leidnud näitelaused kahest erinevast korpus- ainestikust, seejärel neid lauseid lingvistiliselt analüüsinud ning saadud tulemusi võrrelnud (Granger 1997: 185–198). Korpusest tulenev keeleainese uurimine esindab vastupidist suunda: korpus ei ole siin teooriate tõestamiseks mõeldud tekstikogu, vaid keeleaines, millel on võimalik rakendada erinevaid automaatseid programme ning statistilise analüüsi meetodeid ja saada põhimõtteliselt erinevat ning mõneti ootamatut teavet, mis 84 traditsioonilises korpuspõhises lingvistilises analüüsis ei eksplitseeru, kuid mis on omane loomulikule keelekasutusele ning just seetõttu huvipakkuv6. Uudsus seisneb selles, et traditsioonilist lingvistilist uurimisainest analüüsitakse mitte- lingvistiliselt ja formaalselt. Seejuures ei pea korpus olema märgendatud, piisab elektroonilisest tekstiarhiivist. Mittelingvistiline lähenemine keeleainesele on nii empiirika kui ka keeleteooria seisukohalt innovaatiline, kuna võimaldab lingvistil leida uusi lahendusi seni raskesti kirjeldatavatele keelesüsteemi nähtustele. Näiteks on Tognini Bonelli rõhutanud, et korpusest tulenev keeleuuring võimaldab üle- tada veelahkme leksika ja grammatika vahel, ühendades need kaks keelesüsteemi osa süntagmaatiliseks tervikuks (Tognini Bonelli 2002: 75). Nadja Nesselhauf kirjutab sagedusel põhinevatest erineva varieerumisvabadusega süntaktilistest ja semantilistest terviküksustest (Nesselhauf 2005: 21). Iga sõnavorm tuleb esile vaid talle omastes kasutuskontekstides, mille alusel saab välja tuua erineva pikkuse ja sünonüümireaga kollokatsioonilisi leksikaalseid üksuseid. Näiteks inglise keele sünonüümide pretty ja handsome kasutuspiirangud ehk tüüpilised kontekstid on ühelt poolt pretty girl, boy, woman, fl ower, garden, colour, village ja teisalt handsome boy, man, car, vessel, overcoat, airliner, typewriter (vt Leech 1981: 17). Neid kollokatsioonilisi üksuseid kasutatakse kui terviklikke konstruktsioone. Sellistena on nad tavapärased, üldkasutatavad, osati hinnangulisust edastavad ja pooleldi idiomaatilised.7 Kui kasutuspiirangutest pole kinni peetud, siis on tegu ebatüüpiliste kollokatsiooniliste üksustega, mille ilmnemisel on oma kindlad põhjused: näiteks suhtlussituatsioonist tulenev või isikupärane keeleloome ja registrivalik, keeleõppija või tõlkija normivastane või laiemalt – mitteaktsepteeritav sõnakasutus jm. Sõnavormide kasutuskontekstide valik võib olla piiratud ka teatud leksikaalgrammatilise rühma, grammatiliste kategooriate ja vormide varieerumisega (süntaktilised sünonüümid). Keeleüksuste automaatne väljatoomine korpusainestikust võimaldab leida konstruktsioone, milles üht ja sama vormi on vähemalt kahel korral samas ümb- ruses kasutatud. Nende võrdlemisel ilmnevad sageli kasutatud konstruktsioonide leksikaalsed ja leksikaalgrammatilised variandid. Ingliskeelsetes allikates on nii- suguseid konstruktsioonide kogumeid nimetatud keelendite kasutusmustriteks või -mallideks (ingl patterns), mida on peetud olulisteks keeleõppe, sõnastike ja grammatikate tarvis (vt nt Granger 1998: 145, Hanston 2002: 167, Römer 2005, Nesselhauf, Römer 2007). Näiteks EVKK-s kasutatakse sõna inimene ainsuse nominatiiviga sagedasti loogilist implikatsiooni kui inimene on. Sel lingvistilisel konstruktsioonil on õppijakeeles hulk leksikaalseid (kui inimene tahab, kogeb, elab, suhtleb) ning leksikaalgrammatilisi variante (et inimene peab ~ ja kui (et kui, sest kui) inimene (peab) või inimene peab olema (maksma, teadma) ~ inimene võib töötada ~ inimene ei saa (ei ole) või haritud (iga) inimene peab saab, võib, tahab), mis kujutavad endast sõna inimene ühte eesti õppijakeelele omast ainsuse nominatiiviga kasutusmustrit. Kasutusmustri dominandiks on konstruktsioon kui inimene on, mida selle leksikaalgrammatiliste variantidega võrreldes on korpuses kõige sagedamini kasutatud.

6 Väga huvitavaid tulemusi on andnud teksti ideoloogia, suunitluse, allteksti mõistmise ning autori mõttelaadi ja eelistuste avamisel korpusest tulenev diskursusanalüüs (vt Stubbs 1996, Orpin 2005, Hoey jt 2007). Seda suunda on essee kui tekstitüübi määramisel rakendanud ka Heidi Meier (2003). 7 Sünonüümide kasutuspiirangutest soome keeles vt Jantunen 2004; eesti keele verbikesksete püsiühendite – 85 idioomide, poolidiomaatiliste ja kollokatiivsete mitmesõnaliste ühendite analüüsi vt Muischnek 2006; sageduse alusel esile tulevaid kollokatsioone loomulikus keelekasutuses ja inglise õppijakeeles on võrreldud monograafi as Nesselhauf 2005. 2.3. Analüüsi vahendid

Kirjakeele ja õppijakeele nelja sagedasema nimisõna inimene, elu, aeg ja sõna käändevormide sageduse ja kasutuskontekstide väljatoomiseks ning võrdlemiseks on käesolevas uurimuses rakendatud programmi WordSmith Tools 5,0 (arendaja Mike Scott), mis on üks tunnustatumaid tekstitöötlusvahendeid maailmas (vt Scott, Tribble 2006).8 Viimasel ajal propageeritakse John M. Chambersi (2007) arendatavat rikkalike visualiseerimisvõimalustega vabavaralist statistikapaketti “The R Project for Statistical Computing”9. WordSmith Tools sisaldab kolme programmi, mille abil saab korpuse sõnavara sagedusloendi (Word List), konkordantsid ehk grammatiliste vormide kasutus- kontekstid (Concord) ja võtmesõnade võrdluse (KeyWords). Kui tegu on lemma- tiseerimata korpusega (nagu EKI tekstikorpus ja EVKK), siis võib analüüsitavate sõnade grammatilised vormid Word Listi alusel ühte koondada ja sel teel tuua välja lemmad. Grammatiliste vormide kasutuskontekstid annab programmi Concord rakenda- mine. Konkordantside alusel võib välja tuua sõnavormide kasutusmustrid ja saada andmed kindlate grammatiliste konstruktsioonide tavapärasuse ning nende võima- like leksikaalgrammatiliste variantide kohta korpusainestikus. Programm Concord lubab automaatselt rakendada ka tekstilõigu pikkuse piirangut, mis on oluline eesti keele grammatilise homonüümia probleemi lahendamisel, eriti ühendverbi ja nimisõna käändevormide eristamisel. Artiklis analüüsitavate sõnade puhul on vormihomonüümia seotud sõnadega elu, aeg ja sõna: näiteks sõnavormi elu puhul on küsimus grammatiliste käänete eristamisest, vorm elus on määratav kas nimi- sõna ainsuse inessiivi või omadussõnana, mille vastandsõna on surnud; sõnavorm aja on kas ainsuse genitiiv või käskiv kõneviis verbidest ajama, naerma ajama, minema ajama jt; ajad on kas nimisõna mitmuse nominatiivi vorm või indikatiivi oleviku ainsuse 2. pööre (mis juttu sa ajad); sõnas – kas ainsuse inessiivi vorm või imperfekti ainsuse 3. pööre. EKI tekstikorpuse ja EVKK valimite vormihomonüümia väljaselgitamiseks oli Concordi tekstilõigu pikkus täiesti piisav. Siinkohal lühike näide EKI tekstikorpuse konkordantsist sõnavormiga ajas; näidetes (3) ja (5–7) on kasutatud nimisõna aeg ainsuse inessiivi vormis ja ülejäänud juhtudel on tegu verbiga indikatiivi imperfekti ainsuse 3. pöördes:

(1) nagu poleks midagi juhtunud, ajas käed ja jalad laiali ning kordas (2) voolas särgi alla, krae vahele, ajas vastikult lõdisema (3) Ma ei oska asju ajas ritta panna. (4) natuke suurem kui vaja ja see ajas natuke hirmu nahka (5) arhitektuur elab muutuste ajas. Lätlaste Sandra Levane (6) ja kiirelt muutuvas ajas. Arvestatavaks ehituskunsti (7) “Felixi” toodang asendab praeguses ajas Eesti lastele Campbelli supipurke.

Analüüsis loobuti automaatsest morfoloogilisest ühestamisest, sest käsitsi ühes- tamine, olgugi et töömahukam, annab täpsema tulemuse. Kui aga eesmärk oli sõnavormide kasutusmustrite esiletoomine, siis piirati tekstilõik kolme üksusega, nt tol ajal oli, sellel ajal oli, sellel ajal on, sel ajal tekkis jne. Antud juhul on

86 8 Kasutada võib ka teisi samalaadseid programme, nt MonoConc, MonoConc Pro (Randi Reppeni võrdlust WordSmith Toolsiga vt http://llt.msu.edu/vol5num3/review4/default.html, 12.10.2008). 9 Vt http://www.r-project.org/ (12.10.2008). konstruktsiooni ajamäärus + verbivorm indikatiivis leksikaalgrammatilised variandid reastatud esinemissageduse alusel, mis neil on EVKK-s (vastavalt 18, 12, 6 ja 5 korda). Konstruktsiooni identifi tseerimiseks kasutati eesti keele süntak- sianalüsaatorit, mille väljundit töödeldi spetsiaalselt programmeeritud makrode abil. Tänu sellele oli võimalik üles leida samalaadselt analüüsitud konstruktsioonid, milleks antud juhul on //_P_dem sg ad #cap // **CLB @ NN> //_S_com sg ad #cap // @ ADVL //_V_main indic imp ps3 sg ps af #cap #FinV #Intr // @+FMV.10 Niisugune lähenemisviis võimaldas sorteerida nelja sagedasema nimisõna kolmest üksusest koosnevaid konstruktsioone käändevormide alusel ning siduda käände- vormide kasutamise kindlat liiki konstruktsioonide ja nende leksikaalgrammatiliste variantidega. Kirjakeele ja õppijakeele korpusainestiku alusel saadud andmete edasine võrdlus toob esile teatud käändevormide kasutuseelistused kindlat liiki konstruktsioonides. Programmi KeyWords rakendamine annab sõnade olulisuse nende sageduse põhjal ning sobib seetõttu kahe keeleainese võrdlemiseks. Kuna programm arves- tab keeleüksusi, mille minimaalne sagedus korpuses on kaks korda, siis on prog- rammi abil välja toodud keeleaines mahukas. Seetõttu piirdutakse valimiga 50% materjalist + 1 (vt Berber-Sardinha 1999). Kuna siinne uurimus on esialgne, siis piirdutakse “Eesti kirjakeele sagedussõnastiku” ja EVKK statistikamooduli alusel kindlaks määratud nelja sagedasema nimisõna analüüsiga, mistõttu kahe valimi käändevormide statistilise sarnasuse või erinevuse esiletoomiseks on otstarbekam kasutada alternatiivset võimalust – χ² testi 2 x 2 tabelis. See tähendab, et iga käände kohta koostatakse tabel, mis näitab otsitava vormi sageduse suhet kahes erinevas valimis ülejäänud käändevormide arvuga, osutades käändevormi esindatusele (vt tabel 3).

Tabel 3. 2 x 2 tabeli näide

Otsitava käände sagedus Ülejäänud käändevormide arv valimis EKI tekstikorpus a b EVKK c d

χ2 arvutamiseks kasutatakse valemit 2 2 n 1 ad bc F a  b a  c b  d c  d , kus n = a + b + c + d. χ2 kriitiline väärtus on 5,02, mis antud juhul määrab käändevormide esinemise sarnasuse/erinevuse kahes valimis tõenäosusega 5%. Kui käändevorm pole valimis esindatud, siis χ² ei arvutata. Kui saadud χ² on kriitilisest väärtusest väiksem, siis on käändekasutus kahes valimis sarnane (vt tabel 4). Mida suurem on χ² kriitilisest väärtusest, seda suurem on kahe valimi erinevus käändevormi kasutamisel.

87 10 Eesti keele kitsenduste grammatika süntaksianalüsaatori märgendite kohta vt http://math.ut.ee/~kaili/papers/ syntax.html (10.03.2009). Tabel 4. Sõna inimene käändekasutuse sarnasus/erinevus EKI tekstikorpuses ja EVKK-s

EKI tekstikorpus EVKK Käänded abcdχ2 SG.NOM 960 5812 1257 3583 254,20 PL.NOM 1164 5608 1117 3723 62,03 SG.GEN 765 6007 359 4481 48,58 PL.GEN 598 6174 363 4477 6,58 SG.PART 1421 5351 397 4443 349,15 PL.PART 704 6068 374 4466 23,86 SG.ILL 0 6772 0 4840 – PL.ILL 0 6772 0 4840 – SG.INES 17 6755 11 4829 0,07 PL.INES 13 6759 7 4833 0,37 SG.ELAT 55 6717 43 4797 0,20 PL.ELAT 106 6666 40 4800 12,41 SG.ALL 176 6596 90 4750 6,89 PL.ALL 230 6542 150 4690 0,79 SG.ADS 125 6647 137 4703 12,41 PL.ADS 137 6635 155 4685 16,02 SG.ABL 19 6753 22 4818 2,43 PL.ABL 29 6743 0 4840 20,78 SG.TRANS 27 6745 34 4806 4,98 PL.TRANS 8 6764 0 4840 5,72 SG.TERM 8 6764 0 4840 5,72 PL.TERM 5 6767 0 4840 3,57 SG.ESS 23 6749 16 4824 0,01 PL.ESS 0 6772 0 4840 – SG.ABES 0 6772 0 4840 – PL.ABES 0 6772 0 4840 – SG.KOM 75 6697 43 4797 1,35 PL.KOM 107 6665 225 4615 95,70 Kokku 6772 4840

Tabelis 4 toodud andmete alusel on EKI tekstikorpuse ja EVKK suurem erinevus sõna inimene käändevormide kasutuses seotud järgmiste käänetega: ainsuse partitiiv 349,15 ja nominatiiv 254,20 – mitmuse komitatiiv 95,70 ja nominatiiv 62,03 – ainsuse genitiiv 48,58 – mitmuse partitiiv 23,86 ja ablatiiv 20,78 jne. Suu- rem sarnasus ilmneb ainsuse essiivi 0,01, inessiivi 0,07 ja elatiivi 0,20 – mitmuse inessiivi 0,37 ja allatiivi 0,79 – ainsuse komitatiivi 1,35 ja ablatiivi 2,43 – mitmuse terminatiivi 3,57 ja ainsuse translatiivi 4,98 kasutuses. Sagedusandmete statistili- seks töötlemiseks rakendati Exeli tabelarvutust ja graafi lisi võimalusi, milles kahe korpuse vaheline käändevormide dünaamika kujukalt esile tuleb (vt joonis 1). Statistikast nähtub, mis on eesti keele käändevormide sagedusele iseloomulik ning missuguseid leksikaalsemantilisi ja paradigmaatilisi arenguid erinevate keele- variantide vahel võib käändegrammatikas täheldada. Analüüsi tulemused nagu ka erinevused EKI tekstikorpuse ja EVKK käändevormide sageduses on toodud protsentides tabelis 5.

88 INIMENE

Joonis 1. Sõna inimene käändevormide sagedus EKI tekstikorpuses ja EVKK-s

Tabel 5. Erinevused sõna inimene grammatiliste käänete sageduses

Kääne EKI tekstikorpus Sagedus EVKK Sagedus Erinevus SG.NOM 14% 960 26% 1257 12% PL.NOM 17% 1164 23% 1117 6% SG.GEN 11% 765 7% 359 4% PL.GEN 9% 598 8% 363 1% SG.PART 21% 1421 8% 397 13% PL.PART 10% 704 8% 374 2% SG.ILL 0% 0 0% 0 0% PL.ILL 0% 0 0% 0 0% SG.INES 0,3% 17 0,2% 11 0% PL.INES 0,2% 13 0,1% 7 0% SG.ELAT 1% 55 1% 43 0% PL.ELAT 2% 106 1% 40 1% SG.ALL 3% 176 2% 90 1% PL.ALL 3% 230 3% 150 0% SG.ADS 2% 125 3% 137 1% PL.ADS 2% 137 3% 155 1% SG.ABL 0,3% 19 0,5% 22 0% PL.ABL 0,4% 29 0,0% 0 0% SG.TRANS 0,4% 27 0,7% 34 0% PL.TRANS 0,1% 8 0% 0 0% SG.TERM 0,1% 8 0% 0 0% PL.TERM 0,1% 5 0% 0 0% SG.ESS 0,3% 23 0,3% 16 0% PL.ESS 0% 0 0% 0 0% SG.ABES 0% 0 0% 0 0% PL.ABES 0% 0 0% 0 0% SG.KOM 1% 75 1% 43 0% PL.KOM 2% 107 5% 225 3%

89 3. Käändevormide statistika eesti kirjakeeles ja õppijakeeles

3.1. Sõna inimene käändevormide statistika

Sõna inimene käändevormide statistikas ilmneb ühelt poolt eesti keele grammati- liste ja semantiliste käänete vastandatus ja teisalt semantiliste käänete kokkulangev või samalaadne kasutus nii kirjakeeles kui ka õppijakeeles. Erinevus grammatiliste ja semantiliste käänete vastandatuses seisneb vaid selles, et õppijakeele sagedasemad vormid on ainsuse (26%) ja mitmuse nominatiiv (23%), samas kui kirjakeeles on sagedasem ainsuse partitiiv (21%). Kõige suurem erinevus EKI tekstikorpuse ja EVKK valimite vahel ongi grammatiliste käänete sageduses: ainsuse nominatiivi puhul 12% ning partitiivi puhul 13% (vt tabel 5 ning joonis 1). Võrreldes kirjakeelega on õppijakeeles ainsuse nominatiivi selgelt ülekasutatud. Semantilistest käänetest pole nii kirjakeeles kui ka õppijakeeles kasutatud ainsuse ja mitmuse illatiivi, mitmuse essiivi, ainsuse ja mitmuse abessiivi. See võib olla seletatav teatud loogilise vastuoluga sõna semantika ja vormi grammatilise tähenduse vahel. Õppijakeeles puuduvad ka mitmuse translatiivi, ainsuse ning mitmuse ablatiivi ja terminatiivi vormid. Kirjakeeleski tulevad need käändevormid äärmiselt harva ette (vaid 0,1% valimi kohta). Nii kirjakeeles kui ka õppijakeeles oli väga harva ainsuse (vastavalt 0,3% ja 0,2%) ja mitmuse inessiivi (0,2% ja 0,1%), ainsuse ablatiivi (0,3% ja 0,5%), translatiivi (0,4% ja 0,7%) ja essiivi (0,3% ja 0,3%). Harva esines ainsuse (1% ja 1%) ja mitmuse (2% ja 1%) elatiivi; ainsuse (3% ja 2%) ja mitmuse (3% ja 3%) allatiivi; ainsuse (2% ja 3%) ja mitmuse (2% ja 3%) adessiivi; ainsuse komitatiivi (1% ja 1%). Toodud statistilised andmed näitavad, et semantiliste käänete sagedus langeb kirjakeeles ja õppijakeeles kokku või on samalaadne. Mõneti eraldiseisvaks jääb mitmuse komitatiiv (vastavalt 2% ja 5%), kuid ilmselt on siin tegu eesti keelele omase nähtusega, sest ka nimisõnade elu ja sõna käändevormide statistika näitab (vt allpool), et tavapäraselt on komitatiivi sagedus ülejäänud semantiliste käänete sagedusest kõrgem.

3.2. Sõna elu käändevormide statistika

Sõna elu käändevormide suuremad erinevused EKI tekstikorpuses ja EVKK-s on seotud semantiliste käänete ainsuse vormidega: komitatiiv 111,17 – inessiiv 93,88 – terminatiiv 61,10 – allatiiv 34,52 – elatiiv 32,81 – abessiiv 24,39 – illatiiv 13,15 jt. Sarnasus on ainsuse genitiivi 1,10 ja mitmuse partitiivi 4,98 puhul (vt tabel 6). Seda ei saa tõlgendada nii, nagu võiks sõna elu käändevormide statistika põhjal rääkida grammatiliste ja semantiliste käänete selgest vastandatusest; rääkida saab kirjakeele ja õppijakeele käändeparadigmade sünkroonsusest.

90 Tabel 6. Sõna elu käändekasutuse sarnasus/erinevus EKI tekstikorpuses ja EVKK-s

EKI tekstikorpus EVKK Käänded a b c d χ2 SG.NOM 184 1028 225 979 5,28 PL.NOM 8 1204 0 1204 7,97 SG.GEN 159 1053 141 1063 1,10 PL.GEN 0 1212 0 1204 SG.PART 81 1131 122 1082 9,34 PL.PART 5 1207 0 1204 4,98 SG.ILL 0 1212 13 1191 13,15 PL.ILL 0 1212 0 1204 – SG.INES 324 888 550 654 93,88 PL.INES 0 1212 0 1204 – SG.ELAT 206 1006 110 1094 32,81 PL.ELAT 0 1212 0 1204 – SG.ALL 58 1154 10 1194 34,52 PL.ALL 0 1212 0 1204 – SG.ADS 12 1200 0 1204 11,98 PL.ADS 0 1212 0 1204 – SG.ABL 8 1204 0 1204 7,97 PL.ABL 0 1212 0 1204 – SG.TRANS 0 1212 9 1195 9,09 PL.TRANS 0 1212 0 1204 – SG.TERM 60 1152 0 1204 61,10 PL.TERM 0 1212 0 1204 – SG.ESS 0 1212 0 1204 – PL.ESS 0 1212 0 1204 – SG.ABES 0 1212 24 1180 24,39 PL.ABES 0 1212 0 1204 – SG.KOM 107 1105 0 1204 111,17 PL.KOM 0 1212 0 1204 – Kokku 1212 1204

Esiteks on sõna elu käändevormide moodustamises teatud loogilis-grammatilised piirangud, mis tulenevad sõna semantikast. Ilmselt seetõttu puuduvad mõlemas eesti keele kasutusvariandis mitmuse genitiivi, illatiivi, inessiivi, elatiivi, allatiivi, adessiivi, ablatiivi, translatiivi, terminatiivi, abessiivi, komitatiivi ning ainsuse ja mitmuse essiivi vormid (vt tabel 7). EVKK-s pole kasutatud ka sõna elu mitmuse nominatiivi, ainsuse adessiivi, ablatiivi, terminatiivi ja komitatiivi, samas kui EKI tekstikorpuse valimis oli nimetatud vorme vastavalt 1%, 1%, 1%, 5% ja 9%. Seega on õppijakeeles alakasutatud ainsuse komitatiivi ja terminatiivi.

Tabel 7. Erinevused sõna elu käändevormide sageduses

Käänded EKI tekstikorpus Sagedus EVKK Sagedus Erinevus SG.NOM 15% 184 19% 225 4% PL.NOM 1% 8 0% 0 1% SG.GEN 13% 159 12% 141 1% PL.GEN 0% 0 0% 0 0% SG.PART 7% 81 10% 122 3% 91 PL.PART 0,4% 5 0% 0 0% SG.ILL 0% 0 1% 13 1% PL.ILL 0% 0 0% 0 0% SG.INES 27% 324 46% 550 19% PL.INES 0% 0 0% 0 0% SG.ELAT 17% 206 9% 110 8% PL.ELAT 0% 0 0% 0 0% SG.ALL 5% 58 1% 10 4% PL.ALL 0% 0 0% 0 0% SG.ADS 1% 12 0% 0 1% PL.ADS 0% 0 0% 0 0% SG.ABL 1% 8 0% 0 1% PL.ABL 0% 0 0% 0 0% SG.TRANS 0% 0 1% 9 1% PL.TRANS 0% 0 0% 0 0% SG.TERM 5% 60 0% 0 5% PL.TERM 0% 0 0% 0 0% SG.ESS 0% 0 0% 0 0% PL.ESS 0% 0 0% 0 0% SG.ABES 0% 0 2% 24 2% PL.ABES 0% 0 0% 0 0% SG.KOM 9% 107 0% 0 9% PL.KOM 0% 0 0% 0 0%

Sünkroonsus avaldub ka käändevormide sageduste samalaadses kõikumises (vt joonis 2). Lahknevused on seotud kindlate vormidega, mis on esindatud mõlema korpuse valimites, kuid mida õppijakeeles on kas üle- või alakasutatud. Nii on ainsuse inessiivi selgelt ülekasutatud (vahe kirjakeelega 19%), järgnevad ainsuse nominatiiv (vahe 4%), partitiiv (vahe 3%) ja abessiiv (vahe 2%), samas kui ainsuse elatiivi (vahe kirjakeelega 8%) ja allatiivi (vahe 4%) on alakasutatud.

ELU

Joonis 2. Sõna elu käändevormide sagedus EKI tekstikorpuses ja EVKK-s

92 3.3. Sõna aeg käändevormide statistika

Sõna aeg käändevormide kasutuse erinevused EKI tekstikorpuses ja EVKK-s on seotud valdavalt ainsuse adessiiviga 528,81 – vähemal määral mitmuse nominatiivi 138,78 – ainsuse nominatiivi 85,96 – ablatiivi 81,97 – mitmuse genitiivi 81,56 – partitiivi 58,80 – ainsuse partitiivi 45,81 – translatiiviga 26,46 jt, sarnasused aga ainsuse genitiivi 0,16 – allatiivi 1,54 – komitatiivi 2,36 – elatiivi 2,57 – mitmuse elatiivi 2,84 – illatiivi 4,43 ja ainsuse terminatiiviga 4,43 (vt tabel 8).

Tabel 8. Sõna aeg käändekasutuse sarnasus/erinevus EKI tekstikorpuses ja EVKK-s

EKI tekstikorpus EVKK Kääne a b c d χ2 SG.NOM 1168 3518 567 2888 85,96 PL.NOM 184 4502 0 3455 138,78 SG.GEN 310 4376 221 3234 0,16 PL.GEN 184 4502 25 3430 81,56 SG.PART 1268 3418 710 2745 45,81 PL.PART 114 4572 11 3444 58,80 SG.ILL 0 4686 0 3455 – PL.ILL 6 4680 0 3455 4,43 SG.INES 41 4645 64 3391 14,92 PL.INES 0 4686 0 3455 – SG.ELAT 109 4577 100 3355 2,57 PL.ELAT 27 4659 11 3444 2,84 SG.ALL 16 4670 18 3437 1,54 PL.ALL 0 4686 0 3455 – SG.ADS 1020 3666 1583 1872 528,81 PL.ADS 43 4643 16 3439 5,71 SG.ABL 0 4686 60 3395 81,97 PL.ABL 0 4686 0 3455 – SG.TRANS 144 4542 46 3409 26,46 PL.TRANS 0 4686 0 3455 – SG.TERM 6 4680 0 3455 4,43 PL.TERM 0 4686 0 3455 – SG.ESS 0 4686 0 3455 – PL.ESS 0 4686 0 3455 – SG.ABES 0 4686 0 3455 – PL.ABES 0 4686 0 3455 – SG.KOM 46 4640 23 3432 2,36 PL.KOM 0 4686 0 3455 – Kokku 4686 3455

Sõna aeg käändevormide sagedusandmed kirjakeeles ja õppijakeeles näitavad kahe keelevariandi vahelist sünkroonsust (vt joonis 3). See väljendub ühelt poolt üksikute käändevormide kõrges sageduses ja teisalt paljude käändevormide samalaadses mittekasutamises, mis tuleneb sõna semantikast (vt tabel 9).

93 AEG

Joonis 3. Sõna aeg käändevormide sagedus EKI tekstikorpuses ja EVKK-s

Tabel 9. Erinevused sõna aeg käändevormide sageduses

Käänded EKI Sagedus EVKK Sagedus Erinevus SG.NOM 25% 1168 16% 567 9% PL.NOM 4% 184 0% 0 4% SG.GEN 7% 310 6% 221 1% PL.GEN 4% 184 1% 25 3% SG.PART 27% 1268 21% 710 6% PL.PART 2% 114 0% 11 2% SG.ILL 0% 0 0% 0 0% PL.ILL 0,1% 6 0% 0 0% SG.INES 1% 41 2% 64 1% PL.INES 0% 0 0% 0 0% SG.ELAT 2% 109 3% 100 1% PL.ELAT 1% 27 0,3% 11 1% SG.ALL 0,3% 16 1% 18 1% PL.ALL 0% 0 0% 0 0% SG.ADS 22% 1020 46% 1583 24% PL.ADS 1% 43 0% 16 1% SG.ABL 0% 0 2% 60 2% PL.ABL 0% 0 0% 0 0% SG.TRANS 3% 144 1% 46 2% PL.TRANS 0% 0 0% 0 0% SG.TERM 0,1% 6 0% 0 0% PL.TERM 0% 0 0% 0 0% SG.ESS 0% 0 0% 0 0% PL.ESS 0% 0 0% 0 0% SG.ABES 0% 0 0% 0 0% PL.ABES 0% 0 0% 0 0% SG.KOM 1% 46 1% 23 0% PL.KOM 0% 0 0% 0 0%

94 Kasutatud ei ole järgmisi käändevorme: ainsuse illatiiv; mitmuse inessiiv, allatiiv, ablatiiv, translatiiv, terminatiiv; ainsuse ja mitmuse essiiv ning abessiiv; mit- muse komitatiiv. Õppijakeele korpuses puudusid ka mitmuse illatiiv ja ainsuse terminatiiv; kirjakeeleski oli nende vormide sagedus vaid 0,01%. Samuti polnud õppijakeeles esindatud mitmuse nominatiiv, mis kirjakeeles moodustas sõna aeg käändevormidest 4%. Kõige sagedamini esines nii EKI tekstikorpuse kui ka EVKK valimites kolm käänet: ainsuse nominatiiv (vastavalt 25% ja 16%), partitiiv (27% ja 21%) ja adessiiv (22% ja 46%). Tunduvalt harvemini oli kasutatud ainsuse genitiivi (vastavalt 7% ja 6%). Võrreldes kirjakeelega oli õppijakeeles selgelt ülekasutatud käändevorm ainsuse adessiiv (erinevus 24%), alakasutatud aga ainsuse nominatiiv (erinevus on 9%) ja partitiiv (erinevus 6%), vähemal määral mitmuse nominatiiv (erinevus 4%) ja genitiiv (erinevus 3%).

3.4. Sõna sõna käändevormide statistika

Sõna sõna käändevormide kasutuses on EKI tekstikorpuse ja EVKK vahelised lahknevused seotud nii grammatiliste kui ka semantiliste käänetega (vt tabel 10): mitmuse elatiiv 37,45 – ainsuse genitiiv 32,20 – mitmuse nominatiiv 27,31 – ainsuse nominatiiv 25,43 – ainsuse allatiiv 21,80 – mitmuse komitatiiv 20,81 – mitmuse partitiiv 20,03 – mitmuse adessiiv 17,91 – ainsuse komitatiiv 17,55 – ainsuse par- titiiv 16,90 – ainsuse ablatiiv 12,23 – mitmuse inessiiv 12,05. Sarnaselt oli kasutud semantilisi käändeid: mitmuse translatiivi 2,54 ja genitiivi 2,67 – ainsuse inessiivi 2,90, adessiivi 3,17 ja elatiivi 3,18 – mitmuse ablatiivi 4,00 ja allatiivi 4,38.

Tabel 10. Sõna sõna käändekasutuse sarnasus/erinevus EKI tekstikorpuses ja EVKK-s

EKI tekstikorpus EVKK Käänded χ2 abcd SG.NOM 397 2212 82 863 25,43 PL.NOM 353 2256 196 749 27,61 SG.GEN 233 2376 31 914 32,20 PL.GEN 293 2316 88 857 2,67 SG.PART 248 2361 49 896 16,90 PL.PART 72 2537 56 889 20,03 SG.ILL 0 2609 0 945 – PL.ILL 19 2590 0 945 6,92 SG.INES 8 2601 0 945 2,90 PL.INES 78 2531 9 936 12,05 SG.ELAT 49 2560 27 918 3,18 PL.ELAT 51 2558 56 889 37,45 SG.ALL 24 2585 29 916 21,80 PL.ALL 40 2569 6 939 4,38 SG.ADS 38 2571 22 923 3,17 PL.ADS 342 2267 75 870 17,91 SG.ABL 13 2596 16 929 12,23 PL.ABL 11 2598 0 945 4,00 SG.TRANS 0 2609 0 945 – PL.TRANS 7 2602 0 945 2,54 95 EKI tekstikorpus EVKK Käänded χ2 abcd SG.TERM 0 2609 0 945 – PL.TERM 0 2609 0 945 – SG.ESS 0 2609 0 945 – PL.ESS 0 2609 0 945 – SG.ABES 0 2609 0 945 – PL.ABES 0 2609 0 945 – SG.KOM 116 2493 76 869 17,55 PL.KOM 217 2392 127 818 20,81 Kokku 2609 945

Nii EKI tekstikorpuses kui ka EVKK-s polnud üldse tarvitatud kolme käändevormi: ainsuse illatiivi, translatiivi ja terminatiivi (vt tabel 11). Lisaks puudusid õppijakeeles ka mitmuse illatiivi, ainsuse inessiivi, mitmuse ablatiivi ja translatiivi vormid, mida kirjakeeles küll leidus, kuid niivõrd harva, et väike erinevus 1% ilmnes vaid mitmuse illatiivi sageduses. Kirjakeele sagedasem kääne sõnaga sõna oli nominatiiv: ainsuse 15% ja mitmuse nominatiiv 14%. Järgnesid mitmuse adessiiv 13% ja genitiiv 11%, ainsuse partitiiv 10% ja genitiiv 9%, mitmuse 8% ja ainsuse komitatiiv 4%, mitmuse partitiiv 3% ja inessiiv 3%, ainsuse elatiiv 2%, mitmuse allatiiv 2%.

Tabel 11. Erinevused sõna sõna käändevormide sageduses

Käänded EKI tekstikorpus Sagedus EVKK Sagedus Erinevus SG.NOM 15% 397 9% 82 6% PL.NOM 14% 353 21% 196 7% SG.GEN 9% 233 3% 31 6% PL.GEN 11% 293 9% 88 2% SG.PART 10% 248 5% 49 5% PL.PART 3% 72 6% 56 3% SG.ILL 0% 0 0% 0 0% PL.ILL 1% 19 0% 0 1% SG.INES 0,3% 8 0% 0 0% PL.INES 3% 78 1% 9 2% SG.ELAT 2% 49 3% 27 1% PL.ELAT 2% 51 6% 56 4% SG.ALL 1% 24 3% 29 2% PL.ALL 2% 40 1% 6 1% SG.ADS 1% 38 2% 22 1% PL.ADS 13% 342 8% 75 5% SG.ABL 0,5% 13 2% 16 2% PL.ABL 0,4% 11 0% 0 0% SG.TRANS 0% 0 0% 0 0% PL.TRANS 0,3% 7 0% 0 0% SG.TERM 0% 0 0% 0 0% SG.KOM 4% 116 8% 76 4% PL.KOM 8% 217 13% 127 5%

96 Võrreldes kirjakeelega oli õppijakeeles kõige rohkem ülekasutatud mitmuse nomi- natiivi – 21%; erinevus EKI tekstikorpuse vormisagedusest on 7%. Ülekasutatud oli ka mitmuse (erinevus 5%) ja ainsuse komitatiivi (erinevus 4%). Alakasutatud käändevormid olid: ainsuse nominatiiv ja genitiiv (mõlemal juhul erinevus 6%), ainsuse partitiiv ja mitmuse adessiiv (erinevus 5%). Kui võrrelda sõna käändevormide sageduserinevusi kirjakeeles ja õppijakee- les, siis hakkab silma, et märgatavamad vormisageduse kõikumised on seotud grammatiliste käänetega, eriti mitmuse nominatiivi, ainsuse nominatiivi ja genitii- viga, samuti ainsuse partitiivi, mitmuse elatiivi, adessiivi ja ainsuse ning mitmuse komitatiiviga (vt joonis 4). SÕNA

Joonis 4. Sõna sõna käändevormide sagedus EKI tekstikorpuses ja EVKK-s

3.5. Kokkuvõtvalt käändevormide statistikast

Võrrelnud nelja sagedasema nimisõna (inimene, elu, aeg, sõna) käändevormide sagedust, võib väita järgmist. • Üheselt ei saa öelda, et eesti keele nimisõnade käändeparadigma iseloomu- likuks jooneks on grammatiliste ja semantiliste käänete vastandatus, sest käändevormide esinemine või mitteesinemine sõltub sõna semantikast, seoste loogikast semantika ja grammatika vahel (vt elu, aeg, sõna kään- devormide sagedus paradigmas). • Eesti kirjakeele ja õppijakeele käändevormide sageduse võrdlus näitab nende kahe keelevariandi käändeparadigmade samalaadsust ja sünkroon- sust, mis ei tulene sellest, et õppijad on nimisõnade käändeparadigma hästi omandanud; tendentsi põhjus peitub keele sisemises loogikas, grammati- liste vormide moodustamises olenevalt sõna semantikast. • Võrdlusest kirjakeelega ilmneb, et õppijakeeles on suundumus ülekasutada nominatiivi (inimene – ainsuses ja mitmuse vormis, sõna – mitmuses, elu – ainsuses), kuid samas on ka kirjakeeles sel käändel kõrged sagedusnäitajad (sõna – ainsuse ja mitmuse nominatiiv on käändevormide sagedusreas esi- kohal, inimene – mitmuse nominatiiv on ainsuse partitiivi järel sageduselt teine vorm ja ainsuse nominatiiv – kolmas, aeg – ainsuse nominatiiv on 97 ainsuse partitiivi järel sageduselt teisel kohal, elu – ainsuse nominatiiv on ainsuse inessiivi ja elatiivi järel käänete sagedusrea kolmas vorm); järelikult ei saa nominatiivi suurt sagedust pidada üheselt õppijakeele spetsiifi liseks jooneks, sest ka kirjakeeles on nominatiiv sage kääne ning ainsuse partitiiv on vaid kahe sõna puhul (inimene, aeg) kerges ülekaalus; seetõttu ei saa analüüsitud keeleainese alusel väita, et eesti keele käändesüsteemis kehtib partitiivi ja nominatiivi vastandus, mille markeerimata liige on partitiiv. • Õppijakeeles on üle kasutatud mitmuse (inimene) ning ainsuse ja mitmuse komitatiivi (sõna); jällegi pole tegu õppijakeele spetsiifi kaga, sest ka kirja- keeles on komitatiivi sagedus ülejäänud semantiliste käänete sagedusest kõrgem (inimene – mitmuse vormis, elu – ainsuses ja sõna – ainsuses ja mitmuses), järelikult on tegu samalaadse nähtusega, mis erinevates kee- levariantides ilmneb erineva sagedusega. • Õppijakeeles on üle kasutatud ainsuse inessiivi (elu) ja adessiivi (aeg), kuid ka kirjakeeles on sõna elu sagedasem vorm inessiiv ning sõna aeg adessiivi vormi kasutatakse ainsuse partitiivi ja nominatiivi järel kolmandana; tegu on samalaadse nähtusega. • Õppijakeeles on alakasutatud ainsuse genitiivi ja partitiivi (inimene, aeg), ainsuse nominatiivi ja partitiivi (sõna), ainsuse nominatiivi (aeg), ainsuse elatiivi ja allatiivi, mitmuse terminatiivi ja komitatiivi (elu), mitmuse ades- siivi (sõna), kuid ka selles osas on märgata sünkroonsust kirjakeelega, kus neid käändeid on teistega võrreldes vähem kasutatud. Küsimused tekivad siis, kui õppijakeele käändevormide üle- ja alakasutus hakkab regulaarselt koonduma samade vormide ümber ning kaob vormisageduse sünk- roonsus loomuliku keelekasutusega. Sel juhul võib olla tegu õppijakeelele omase ebatüüpilise vormikasutusega, mille põhjusi tasuks uurida. Lisaks õppija mitte- aktsepteeritavale vormikasutusele võib osutuda ka võimalikuks, et õppijakeel kajas- tab loomulikus keeles varjatult kulgevaid keelemuutusi. Kadri Sõrmuse arvamuse järgi on keeleõppija vastuvõtlik kõigele, mida ta erinevates suhtlussituatsioonides kogeb, eriti sellele, mida pakuvad erinevad meediakanalid ja tavasuhtlus (Sõrmus 2008: 35). Et nendele protsessidele jälile saada, ei piisa nelja sagedasema nimi- sõna käändevormide statistikast – vaja oleks läbi viia tunduvalt avaramapõhjaline uurimus, mis tugineks kahe keeleainese võtmesõnaanalüüsile (KeyWords analysis), vt eespool punkt 2.3. Teisalt ei saa statistilisi erinevusi ehk käändevormide üle- ja alakasutust õppijakeeles siduda automaatselt ebatüüpilise vormikasutusega. Selleks on vaja võrrelda kirjakeele ja õppijakeele tekstiloomes eelistatud konstruktsioone, milles ilmnevad ainult teatud kindlad sõnad ja käändevormid.

4. Tekstiloomes eelistatud konstruktsioonid ja käändevormid

4.1. Sõna inimene

Kuna selle sõna eri käändevormidel on rohkesti kasutusmustreid, siis kirjelda- takse konstruktsioone ja nende leksikaalseid ning grammatilisi variante käänete kaupa. 98 4.1.1. Ainsuse nominatiiv – inimene

EKI tekstikorpuses on eelistatud kasutada substantiivset konstruktsiooni inimene ja seadus ~ inimene ja loodus, loogilist implikatsiooni kui inimene on ~ et inimene on ja eitust inimene ei ole (ei saa). EVKK-s on eelistatud nii loogilist implikatsiooni kui inimene on (variandid: kui inimene tahab, kogeb, elab, suhtleb) ~ et inimene peab ~ ja kui (et kui, sest kui) inimene kui ka modaalseid lausekonstruktsioone inimene peab olema (maksma, teadma) ~ inimene võib töötada; haritud (iga) inimene peab (saab, võib, tahab) ja eitust inimene ei saa (ei ole). Normkirjakeele seisukohalt on kõik need konstruktsioonid tavapärased – ana- lüüsitavates keelevariantides on lihtsalt erinevad kasutuseelistused. Sama kehtib konstruktsioonide leksikaalgrammatilise varieeruvuse kohta. Õppijakeele konst- ruktsioonidel on tänu modaal-, olemis- ja kogemisverbide vaheldumisele päris palju leksikaalseid variante (verbid tahtma, teadma, võima, saama, olema, elama, kogema, suhtlema, maksma indikatiivi ainsuse 3. pöördes); konstruktsioonid varieeruvad ka grammatiliselt (sidendid kui, et, ja kui, et kui, sest kui ning jaatav / eitav kõneliik). Kirjakeelse substantiivkonstruktsiooni leksikaalne varieeruvus piirdub kahe võimalusega: inimene ja seadus ~ inimene ja loodus. Samas lubab keelenorm selle konstruktsiooniga vabalt kasutada muidki abstraktseid sõnu (nt inimene ja kosmos, inimene ja ühiskond, inimene ja meri, inimene ja elu, inimene ja aeg jne). Niisugused substantiivkonstruktsioonid on tavapärased teema sõnas- tamisel ja sobivad pealkirjaks. EKI tekstikorpuse analüüs näitas, et võimalikest teemasõnadest esines kolm: inimene, seadus ja loodus. Need märksõnad toovad esile praegusaja Eesti riigi ning ühiskonna ühe olulisema sotsiaalpoliitilise diskur- suse, mida kajastavad EKI tekstikorpuse ajakirjandustekstid. Teisena esile tulnud verbikesksete konstruktsioonidega oli väljendatud tingimust või millegi lubatavust. EVKK-s on sõna inimene käändevormide kasutamisel eelistatud modaalset, tin- gimuslik-eksistentsiaalset ja põhjendavat diskursust. Erinevus valikutes tuleneb kirjakeele ja õppijakeele diskursuste spetsiifi kast: esimeses on rõhutatud inimesega seotud aktuaalset teemat ja viidatud sellele, mida inimene ei saa ega tohi teha; teises tuginetakse abstraktsele arutelule inimese olemise, vajaduste ja võimaluste üle, püüdes neid põhjendada.

4.1.2. Mitmuse nominatiiv – inimesed

Mitmuse nominatiivi vormiga on kirjakeeles eelistatud kolme konstruktsiooni ja nende variante: 1) need inimesed kes (kellele), 2) et inimesed on (ei ole) ~ et (ka) need inimesed ja 3) need inimesed on. Õppijakeeles on kasutatud analoogseid konstrukt- sioone – erineb vaid konstruktsiooni kordumise sagedus ja leksikaalgrammatiline varieeruvus: 1) kõik (need) inimesed on (hoidsid, tahavad) ja 2) inimesed kes on (ei ole). EVKK-s sisalduvate tekstide spetsiifi kast johtub konstruktsiooni noorke- raamika (kammkeraamika) inimesed sarnanesid esile kerkimine, kuna korpuses on palju Eesti kultuuriloo teemalisi esseid ja kontrolltöid.

99 4.1.3. Ainsuse genitiiv – inimese

EKI tekstikorpuses on ainsuse genitiivi kasutatud valdavalt kvantorfraasis: üle 200 (5000, 300, tuhande, saja) inimese. Konstruktsiooniga antakse hinnang meie elu negatiivsetele nähtustele: katastroofi d, kollapsid, liiklusõnnetused jms, kus on surma saanud/hukkunud sadu ja tuhandeid inimesi. Õppijakeele tekstides pole see teema olnud aktuaalne. Esile kerkivad hoopiski arutlused selle üle, mis mõjutab / ei mõjuta inimese elu või mis on elus tähtis: mõjutab (ei mõjuta) inimese elu ~ inimese elu mõjutab. Selles lausekonstruktsioonis varieeruvad sõnajärg ja kõneliik, verbi on kasutatud indikatiivi oleviku 3. pöördes. Sama sagedusega oli kasutatud ka inimese elu kirjeldavat noomenikonstruktsiooni, mille mittegrammatilised sõnavormid võivad tekitada arusaamisraskusi: inimese elu kõige ~ ?inimese elu haridus ~ *inimese elu tema (?teema) ~ *inimese elu ma (?maal).

4.1.4. Mitmuse genitiiv – inimeste

Konstruktsioone, milles peaks olema kasutud mitmuse genitiivi, eesti kirjakeeles ei olnud. Õppijakeeles esines verbikonstruktsioon kahjustab inimeste tervist. Selle leksikaalne variant matkida inimeste magamisasendit on spetsiifi line, st iseloo- mulik kultuuriloo kursuse kontrolltöödele (vt PL.NOM).

4.1.5. Ainsuse partitiiv – inimest

EKI tekstikorpuse materjalides on seda käändevormi kasutatud kvantorfraasis, kus varieeruvad määr- ja arvsõnad: ligi (veel, umbes) 200 (kolm, 800) inimest; hukkus kolm (kaheksa, kuus, viis, üksteist) inimest. Ka see konstruktsioon iseloomustab sotsiaalset diskursust: rõhutatult on esile toodud katastroofi des ja õnnetustes hukkunute arv. EVKK-s on samuti eelistatud kvantorfraasi: ainult (umbes) kuus (sada) inimest; ning kaheksa (üksteist) inimest, kaheksa (kuus) inimest 32-st, kuid õppijakeeles ei räägita hukkunute arvust – tavapäraselt on kvantorfraasi kasutatud verbi kirjutama imperfekti mitmuse 3. pöördega (üksteist inimest kirjutasid).

4.1.6. Mitmuse partitiiv – inimesi

Kirjakeeles on seda vormi kasutatud konstruktsioonides 1) inimesi kellel on ~ ini- mesi kes ei; 2) neid inimesi kes ja 3) on inimesi kes, samas kui õppijakeele eelistus on rõhusõna sisaldav kvantorfraas väga (nii) palju inimesi. See näide toob esile täiesti erinevad valikud: kirjakeeles on eelistatud öelda, missuguseid inimesi üldse on, õppijakeeles rõhutatakse inimeste hulka, mis midagi teeb. Kvantoriga väga (nii) palju toonitatakse kõnealuse nähtuse positiivsust.

100 4.1.7. Ainsuse adessiiv – inimesel

Sõna inimene ainsuse adessiivi vormi kasutamine on õppijakeelekeskne (nagu ka ainsuse nominatiivi eelistamine modaalsetes konstruktsioonides ja loogilistes imp- likatsioonides). Konstruktsiooni kui inimesel on (ei ole) on kasutatud jaatavas ja eitavas kõneliigis; sage on olnud ka modaalne konstruktsioon igal inimesel on (peab olema). Oma tekstides on õppijad kirjutanud kohustustest, mis inimesel on / peavad olema, samas kui EKI tekstikorpuse materjalides pole see teema esile tõusnud.

4.2. Sõna elu

Sõna elu käändevormide kasutus on selgepiiriline: kirjakeeles on eelistatud konst- ruktsioone ainsuse nominatiiviga ja õppijakeeles ainsuse inessiivi, nominatiivi, genitiivi ja partitiiviga. EKI tekstikorpuses on kõige enam kasutatud substantiiv- konstruktsiooni haridus ja elu ~ kultuur ja elu ja lausekonstruktsiooni tema (ta) elu on, milles sõna elu on ainsuse nominatiivis. Esile on toodud meie elu iseloomustav ja oluline teema – haridus, elu ja kultuur. Vastupidiselt kirjakeelele on EVKK-s kirjutatud peamiselt iseendast ja oma elust, sellest, mis minu ja teiste inimeste elus on, oli või olema peab. Sel eesmärgil on õppijakeeles eelistatud hulgaliselt konst- ruktsioone ja nende leksikaalgrammatilisi variante, milles sõna elu saab kasutada 1) ainsuse inessiivi vormis – minu elus on (oli) ~ meie elus on; elus on palju (väga); 2) ainsuse nominatiivis ning koos verbidega olema, võima, sõltuma ja erinema oleviku ainsuse 3. pöördes – inimese elu on (võib, sõltub, erineb); elu sõltub eluko- hast, elu erineb Ukraina ; elu on väga; 3) ainsuse genitiivi vormis lausekonstruktsioonis ja vanemate elu ~ et noorte elu ~ et inimese elu; 4) ainsuse partitiivis ja koos verbiga mõjutama ainsuse/mitmuse oleviku 3. pöördes – inimese elu mõjutab ~ mõjutavad inimese elu. Hakkab silma, et õppijakeeles on eelistatud konstruktsioone, milles saab kasutada nii semantiliste kui ka grammatiliste käänete vorme, kirjakeeles seevastu on eelistatud vaid ainsuse nominatiivi.

4.3. Sõna aeg

Sõna aeg on nii kirjakeeles kui ka õppijakeeles kasutatud suure hulga konstrukt- sioonide ja nende leksikaalgrammatiliste variantidega.

4.3.1. Ainsuse nominatiiv – aeg

EKI tekstikorpuses on kõige rohkem korduv konstruktsioon teo- inimeste aeg, mida võib pidada kirjakeelse esituslaadi stereotüübiks. Ka õppijakeeles on eelistatud samalaadseid konstruktsioone: 1) see aeg on ~ mõni aeg oli; 2) muutub (on) kogu aeg; 3) on aeg kus; 4) lendab aeg väga. Peale selle on kirjakeeles tava- pärased konstruktsioonid, mille abil saab hinnata indiviide, predikaate või ajahetke ning sel viisil kaudselt üleskutset väljendada: 1) lausekonstruktsioon on ilus (paras, viimane, õige) aeg; 2) kvantorfraasid mõni aeg hiljem ~ mõni aeg pärast ja on (oli, olnud, ajanud) kogu aeg; 3) lausekonstruktsioonid aeg on kallis ~ aeg on möödas (läbi, käes) ja et viimane aeg ~ oli aeg mil. 101 4.3.2. Ainsuse genitiiv – aja

Kirjakeele kasutusmallide hulgas näited puuduvad; õppijakeeles oli üks konstrukt- sioon: aja pärast tuli (oli).

4.3.3. Mitmuse genitiiv – aegade

Tavapäraseid konstruktsioone, milles peaks kasutama mitmuse genitiivi, kirja- keeles ei esinenud. Õppijakeele analüüsis tuli välja viis korduvat konstruktsiooni: 1) kõigi aegade suurim (parim, esimene, teine); 2) on läbi aegade ~ läbi aegade on; 3) on kõigi aegade; 4) ESTO-d läbi aegade ja 5) Eesti kõigi aegade. Kõiki neist konstruktsioonidest on võimalik kasutada positiivse hinnangu andmiseks, eriti kui jutt on saavutustest spordis, kultuuris, majanduses jne. Eesti kirjakeele kasutajale pole see teemaring olnud samavõrd oluline.

4.3.4. Ainsuse partitiiv – aega

Selle käändevormiga on nii EKI tekstikorpuses kui ka EVKK-s rikkalik kogum konstruktsioone. Kirjakeele sagedasim oli ajatähenduslik kvantorfraas kuu aega tagasi (hiljem, enne). Järgnesid ligilähedast või pikka ajavahemikku tähistavad kvantorfraasid umbes (ligi, ja) kuu aega; juba pikka aega ~ väga pikka aega; oli (on) pikka aega ~ pikka aega on; tükk aega tagasi (pärast); nädal aega tagasi; on veel aega ~ vajan veidi aega. Nende kvantorfraasidega hinnatakse indiviide, predikaate või ajahetki. EVKK-le on iseloomulik kasutada konstruktsiooni vabadus (vajadus, *vaban- duse) planeerida aega, mis tänu kõrgele sagedusele on õppijakeele stereotüüpne konstruktsioon hinnangulisuse edastamisel. Väga sageli kordus ka modaalne kvantorfraas *pidis (*pidab, pidada, pidama) mõnda aega. Selle konstruktsiooni mittegrammatilised pöördevormid viitavad õppija jaoks ühele suuremale vormi- moodustusraskusele: *pidis ~ pidi, *pidab ~ peab. Sageli on kvantorfraasi kasutatud selleks, et rõhutada, kas aega napib või on liialt palju: väga vähe aega ~ nii palju aega ~ liiga palju aega. Sageli korduv on olnud ka eitust sisaldav konstruktsioon ei ole (ei olnud) aega.

4.3.5. Ainsuse adessiiv – ajal

Selle vormiga moodustatud konstruktsioonid ja nende leksikaalgrammatilised variandid on õppijakeele spetsiifi line nähtus. Kõige sagedamini tuli ainsuse adessiiv esile 1) modaalses konstruktsioonis külmal ajal peab; 2) lausekonstruktsioonides et (kuid, sest) sel ajal ~ sest tol ajal ~ ja samal ajal ja tol (sellel) ajal tekkis (kasutati) ~ samal ajal läksid ~ praegusel (sel, sellel) ajal on ~ vabariigi (vene, *tsari) ajal oli ~ sõja ajal polnud ~ vabal (vabariigi) ajal teha; 3) noomenikonstruktsioonis samal ajal ajaloolised ~ tol ajal inimesed ~ sel ajal laulud.

102 4.4. Sõna sõna

Nii kirjakeeles kui ka õppijakeeles on sõna käändevormidel spetsiifi lised kasu- tusmustrid. Neid ei ole palju ja seetõttu puudub vajadus esitada kirjeldus käänete kaupa. Näiteks EKI tekstikorpuse alusel tulid esile järgmised kirjakeele stereo- tüüpsed konstruktsioonid: 1) noomenikonstruktsioon ainsuse genitiiviga (sõna otseses mõttes (tähenduses) ja selle leksikaalsed variandid selle sõna otseses (kõige ); 2) noomenikonstruktsioon ja selle leksikaalsed variandid mitmuse genitiiviga (tema (oma) sõnade kohaselt (järgi, eest)). Vähem kordusid hinnangulisust edastavad stereotüüpsed konstruktsioonid, kus oli kasu- tatud ainsuse nominatiivi ja genitiivi: tehnika viimane sõna ~ oma viimase sõna ja oma sõna öelda (ütlema). Õppijakeele spetsiifi ka selle sõna kasutuses tuleneb korduvatest tööjuhistest, mis EVKK-s pole tekstidest eraldatud: nt ainsuse ja mitmuse nominatiiv – pane sõna(d) õigesse , ainsuse partitiiv – umbes 80 (120, 160) sõna, mitmuse komitatiiv – moodustage etteantud sõnadega. Ülejäänud juhtudel on ainsuse nominatiivi vormi kasutatud noomenikonstruktsioonides (sõna eesti kultuur, väga levinud sõna ~ nö esimene sõna) ja lausekonstruktsioonis esimene sõna mis. Ka mitmuse genitiivi on EVKK-s kasutatud noomenikonstruktsioonides hümni sõnade kirjutaja (autor), Eesti hümni sõnade ja lausekonstruktsioonides et hümni sõnade; sõnade autor oli. Ainsuse partitiivi vorm esines tavapäraselt verbidega kuulma ja mõtlema: kuulen sõna kultuur, ma kuulen sõna, kui kuulete sõna ja on mõeldud sõna ~ mõeldud sõna neljakesi. Veel on kasutatud ainsuse adessiivi (sõnal võib olla) ja mitmuse komitatiivi vorme ( jaoks seostub sõnadega).

4.5. Kokkuvõtvalt tekstiloomes eelistatud konstruktsioonidest ja käändevormidest

Kui nimisõnade vormistatistika andis ülevaate kirjakeele ja õppijakeele käände- paradigmade samalaadsusest ning sünkroonsusest, teatud vormide suhtelisest üle- ja alakasutusest õppijakeeles, siis käändevormide kasutuseelistused kaks ja enam korda ilmnenud konstruktsioonides kitsendavad oluliselt nende käänete hulka, mida eesti keeles tegelikult tarvitatakse. Statistika järgi on EKI tekstikorpuses sõna inimene käändeparadigma kõige sagedasem vorm ainsuse partitiiv. Kirjakeelele iseloomulike konstruktsioonide kasutusmustrites on aga sellele vormile eelistatud ainsuse nominatiivi: inimene ja seadus ~ inimene ja loodus; kui (et) inimene on; inimene ei ole (ei saa). Samalaadne nihe on iseloomulik ka ülejäänud sõnadele. Kirjakeeles on sõna paradigma sagedasemad vormid ainsuse ja mitmuse nominatiiv, mitmuse genitiiv, ainsuse partitiiv ja genitiiv, samas kui kirjakeele tekstiloomes on eelistatud konstruktsioone, milles on võimalikud vaid kolm käänet: 1) ainsuse nomi- natiiv (tehnika viimane sõna), 2) ainsuse genitiiv (sõna otseses mõttes (tähenduses), selle sõna otseses, oma viimase sõna, oma sõna öelda); 3) mitmuse genitiiv (tema (oma) sõnade kohaselt (järgi, eest)). Sõna elu puhul on kirjakeeles käändevormide sageduse ja nende kasutuseelistuste erinevus veelgi selgem. Paradigmas on suurem osakaal semantilistel käänetel (ainsuse inessiiv, elatiiv, nominatiiv, genitiiv, allatiiv, terminatiiv), samas kui kirjakeele tekstiloomes on eelistatud kasutada konstrukt- sioone, kus on võimalik vaid ainsuse nominatiiv (haridus ja elu ~ kultuur ja elu; 103 tema (ta) elu on). Sõna aeg vormistatistika alusel on kirjakeeles sagedasemad ain- suse partitiiv, nominatiiv, adessiiv ning mitmuse nominatiiv ja genitiiv, samas kui korduvalt kasutatud konstruktsioonides on aga eelistatud vaid kahte käändevormi: 1) ainsuse nominatiiv ( teoinimeste aeg ~ käes teoinimeste aeg; on ilus (paras, viimane, õige) aeg; mõni aeg hiljem ~ mõni aeg pärast ; on (oli, olnud, ajanud) kogu aeg; aeg on kallis ~ aeg on möödas (läbi, käes); et viimane aeg ~ oli aeg mil); 2) ainsuse partitiiv (kuu aega tagasi (hiljem, enne); umbes (ligi, ja) kuu aega; juba pikka aega ~ väga pikka aega; oli (on) pikka aega ~ pikka aega on; tükk aega tagasi (pärast) ~ nädal aega tagasi; on veel aega ~ vajan veidi aega). Eespool analüüsitud nelja sagedasema nimisõna käändevormide sageduse ja kasutuseelistuste võrdlusest tuleb selgelt esile, et tegelikult on eesti kirjakeele tekstiloomes eelistatuim vorm ainsuse nominatiiv. Ka õppijakeele analüüs näitas teatud disproportsiooni vormi sageduse ja kasu- tuseelistuste vahel kindlat tüüpi konstruktsioonides, kuid need erinevused olid siiski väiksemad kui kirjakeeles. Näiteks sõna inimene puhul on nominatiivi vormisage- dus nii paradigmas kui ka tekstiloomes eelistatud konstruktsioonides ühesugune (ainsuse nominatiiv – mitmuse nominatiiv, sageduselt kolmas on mitmuse genitiiv, konstruktsioonides aga ainsuse genitiiv). Eriti rikkalikult on õppijakeeles kasutatud konstruktsioone ja nende leksikaalgrammatilisi variante ainsuse nominatiiviga: kui inimene on (tahab, kogeb, elab, suhtleb) ~ et inimene peab ~ ja kui (et kui, sest kui) inimene; inimene peab olema (maksma, teadma) ~ inimene võib töötada ~ inimene ei saa (ei ole); haritud (iga) inimene peab (saab, võib, tahab). Mitmuse nominatiiv on esindatud kahes sagedases konstruktsioonis ja nende leksikaalgrammatilistes variantides: kõik (need) inimesed on (hoidsid, tahavad); inimesed kes on (ei ole). Niisugust kokkulangevust ainsuse ja mitmuse nominatiivi sageduse ja tegeliku vormikasutuse vahel võib pidada õppijakeelele omaseks, nominatiivi eelistamist kirjakeele ja õppijakeele tekstiloomes aga samalaadseks tendentsiks. Sõna inimene ülejäänud käändevormide sageduse (mitmuse genitiiv, ainsuse partitiiv, mitmuse partitiiv, ainsuse genitiiv) ja kasutuseelistuste vahel on erinevus kirjakeelest vaid selles, et õppija on rohkem kasutanud ainsuse genitiivi ja partitiivi (ainsuse genitiiv, mitmuse genitiiv, ainsuse partitiiv ja mitmuse partitiiv): 1) ainsuse genitiiv (mõjutab (ei mõjuta) inimese elu ~ inimese elu mõjutab; inimese elu kõige ~ ?inimese elu haridus ~ *inimese elu tema (?teema) ~ *inimese elu ma (?maal)); 2) mitmuse genitiiv (matkida inimeste magamisasendit); 3) ainsuse partitiiv (ainult (umbes) kuus (sada) inimest; ning kaheksa (üksteist) inimest; kaheksa (kuus) inimest 32-st; üksteist inimest kirjutasid); 4) mitmuse partitiiv (väga (nii) palju inimesi). Ka teiste analüüsitud sõnade puhul on õppijakeeles tegu samalaadsete nähtus- tega. Näiteks sõna sagedasematest käänetest (mitmuse nominatiiv, komitatiiv ja genitiiv; ainsuse komitatiiv ning nominatiiv) on õppija eelistanud konstruktsioone, milles saab kasutada vaid kolme käänet: 1) ainsuse nominatiiv (sõna eesti kultuur; väga levinud sõna ~ nö esimene sõna; esimene sõna mis); 2) mitmuse genitiiv (hümni sõnade kirjutaja (autor); Eesti hümni sõnade; et hümni sõnade; sõnade autor oli); 3) ainsuse partitiiv (kuulen sõna kultuur; ma kuulen sõna; kui kuulete sõna; on mõeldud sõna ~ mõeldud sõna neljakesi). Sõna elu käändevormide sageduse ja kasutatavuse vahe on analoogne: sagedusreast ainsuse inessiiv, nomi- natiiv, genitiiv, partitiiv ja elatiiv on tekstiloomes eelistatud vaid kolme vormi – 1) ainsuse nominatiiv (inimese elu on (võib, sõltub, erineb); elu sõltub elukohast; 104 elu erineb Ukraina ; elu on väga); 2) ainsuse genitiiv (ja vanemate elu ~ et noorte elu ~ et inimese elu); 3) ainsuse partitiiv (inimese elu mõjutab ~ mõjutavad inimese elu). Sõna aeg vormiparadigmas on õppijakeeles sagedasemad ainsuse adessiiv, partitiiv, nominatiiv ja genitiiv. Ent konstruktsioonides, mida õppija tekstiloomes on selle sõnaga eelistatud, ilmneb kõigepealt mitmuse genitiivi vorm (kõigi aegade suurim (parim, esimene, teine); on läbi aegade ~ läbi aegade on; on kõigi aegade; ESTO-d läbi aegade; Eesti kõigi aegade), järgnevad ainsuse partitiiv (vabadus (vajadus, *vabanduse) planeerida aega; pidis (pidab, pidada, pidama) mõnda aega; väga vähe aega ~ nii palju aega ~ liiga palju aega; ei ole (ei olnud) aega), ainsuse nominatiiv (see aeg on ~ mõni aeg oli; muutub (on) kogu aeg; on aeg kus; lendab aeg väga) ja ainsuse genitiiv ( aja pärast tuli (oli)). Niisiis on õppijakeele tekstiloomes eelistatud konstruktsioonides kasutusel vaid kindlad käändevormid, mida vormisageduse statistika alusel käändeparadig- mas oleks raske olnud eeldada. Õppijakeele vaieldamatult eelistatuim kääne on nominatiiv, samas aga olenevalt sõna semantikast on tarvitatud konstruktsioone, milles saab kasutada vaid semantilisi käändeid. Nende konstruktsioonide korduvus EVKK-s on hüppeliselt kõrge ja silmatorkava leksikaalgrammatilise varieeruvusega, kirjakeeles aga tunduvalt tagasihoidlikum või mitteoluline. Näiteks sõnaga aeg on õppijakeele tekstiloomes eelistatud konstruktsioonides kasutatud põhiliselt ainsuse adessiivi: külmal ajal peab; et (kuid, sest) sel ajal ~ sest tol ajal ~ ja samal ajal; tol (sellel) ajal tekkis (kasutati) ~ samal ajal läksid ~ praegusel (sel, sellel) ajal on ~ vabariigi (vene, *tsari) ajal oli ~ sõja ajal polnud ~ vabal (vabariigi) ajal teha; samal ajal ajaloolised ~ tol ajal inimesed ~ sel ajal laulud. Teiste sõnadega esines ainsuse adessiivi küll harvem, kuid konstruktsioone, kus seda vormi on kasutatud, iseloomustab leksikaalgrammatiline varieeruvus: kui inimesel on (ei ole); igal inimesel on (peab olema); sõnal võib olla. Sõna elu tarvitati õppijakeeles aktiivselt konstruktsioonides, mis nõudsid ainsuse inessiivi (minu elus on (oli) ~ meie elus on; elus on palju (väga)), ning sõna konstruktsioonides, milles on vaja kasutada mitmuse komitatiivi ( jaoks seostub sõnadega). Seega on õppijakeeles tihti korduvates konstruktsioonides lisaks grammatilistele käänetele esindatud ka semantilised, kuid kirjakeele tekstiloomele pole see omane. Lahknevused kirjakeele ja õppijakeele käändekasutuse konstruktsioonieelistus- tes annavad teavet ka võrreldavate keelevariantide diskursuserinevuste kohta ning toovad esile sel otstarbel kasutatud stereotüüpsed konstruktsioonid. EKI tekstikor- puses on esile tõstetud inimese, seaduse ja looduse ning elu, hariduse ja kultuuri küsimusi ühiskonnas. Oluliseks on peetud seda, missuguseid inimesi üldse on. Kirjakeeles on olnud tähtis teada anda, kui palju inimesi on õnnetustes või katast- roofi des viga saanud / hukkunud. Õppijakeelele seevastu on omane modaalsete hinnangute andmine, arutlused teemal, mida inimene oma elus teha võib ning mida ta teha ei tohi või tegema peab. Rõhutatult positiivselt on esile toodud teatud hulka inimesi, kes midagi teevad. Eelistatakse kirjutada neist, kes midagi on saavutanud (nt vabaduse, iseseisvuse, tulemuse spordis, kultuuri alal, majanduses). Kirjakeele iseloomulikuks jooneks on mõningate stereotüüpsete konstruktsioo- nide kasutamine teksti sidususvahendina või hinnangu edastamiseks: on (käes) teo- inimeste aeg; sõna otseses mõttes (tähenduses); selle sõna otseses (kõige ); tema (oma) sõnade kohaselt (järgi); tehnika viimane sõna ~ oma viimane sõna ~ oma viimase sõna; oma sõna öelda (ütlema). Need kirjakeeles stereotüüpsetena kasutatud konstruktsioonid pole õppijakeelele omased, v.a hin- nangu väljendamiseks kasutatud stereotüüp vabadus (vajadus) planeerida aega. 105 5. Lõpetuseks

Eesti keele kahe kasutusvariandi võrdlemise tulemuste põhjal võib järeldada, et nii loomulikus keelekasutuses kui ka õppijakeeles on grammatiliste käänete puhul suundumus eelistada nominatiivi ja semantiliste käänete puhul inessiivi, adessiivi ning komitatiivi. Edaspidine laiemapõhjaline uuring peaks näitama, kas tegu on üldisema nominatiivistumisega, ning tõlgendama erinevaid asjaolusid, millest see protsess võiks olla tingitud. Sõna käändevormide statistiline sagedus korpusaineses ei seleta, millised käändekasutusmustreid läheb vaja, et tekste produtseerida ning nendest aru saada. Vormikasutuse mõistmiseks oleks vaja teada, missugustes leksikaalsetes üksustes, konstruktsioonides ja nende variantides grammatilisi vorme reaalselt kasutatakse. Siit saaks teavet ka selle kohta, kuidas sõna semantika ja grammatika süntagmaa- tilisel tasandil omavahel põimuvad. Samuti oleks mõttekas välja selgitada, milliste lingvistiliste ja ekstralingvistiliste asjaoludega on seotud teatud tüüpi konstruktsioo- nide korduv kasutamine erinevat liiki tekstide produtseerimisel (teema, eesmärgid, register, tekstitüüp, sotsiaalne interaktsioon jms). Leksikaalsete üksuste, grammatiliste vormide ja konstruktsioonide statistiline väljatoomine võimaldab keeleainest analüüsides leida lingvistilist teavet nähtuste kohta, milleni traditsioonilise korpuspõhise lingvistilise analüüsi tulemusel ei pruugi jõuda, kuid mis tegelikult on keelekasutusele omased. Seetõttu on korpusest tulene- vad, erinevat statistikal põhinevat keeletarkvara kasutavad uurimused perspektiivikad ning rakenduslikult (keeleõpe, tõlkimine, sõnastikud, õppematerjalid) olulised.

Viidatud kirjandus Atkins, Sue; Clear, Jeremy; Ostler, Nicholas 1992. Corpus design criteria. – Literary and Linguistic Computing, 7 (1), 1–16. doi:10.1093/llc/7.1.1 Baker, Mona 1995. Corpora in translation studies: An overview and suggestions for future research. – Target, 7 (2), 223–243. Berber-Sardinha, Tony 1999. Using Key Words in text analysis: Practical aspects. http:// www2.lael.pucsp.br/direct/DirectPapers42.pdf (12.10.2008). Bergh, Gunnar 2005. Min(d)ing English language data on the Web: What can Google tell as? – ICAME Journal. Computers in English Linguistics, 29, 25–46. Biber, Douglas 1993. Representativeness in corpus design. – Literary and Linguistic Com- puting, 8 (4), 243–257. doi:10.1093/llc/8.4.243 [2nd ed. in: Practical lexicography: A reader. Ed. by Thierry Fontenelle. Oxford: Oxford University Press, 63–88.] Chambers, John M. 2007. Software for Data Analysis: Programming with R. New York: Springer. Eslon, Pille 2008. Käändevormide kasutussageduse võrdlus eesti õppijakeeles ja kirjakeeles. – Pille Eslon (toim.). Õppijakeele analüüs: võimalused, probleemid, vajadused. Eesti fi loloogia osakonna toimetised 10. Tallinn: Tallinna Ülikooli kirjastus, 31–66. Granger, Sylviane 1998. Prefabricated patterns in advanced EFL writing: Collocations and formulae. – Anthony Paul Cowie (Ed.). Phraseology: Theory, analysis, and applications. Oxford: Oxford University Press, 145–243. Granger, Sylviane 1997. On identifying the syntactic and discourse features of participle clauses in academic English: Native and non-native writers compared. – Jan Aarts, Inge de Mönnink, Herman Wekker (Eds.). Studies in English Language and Teaching. Amsterdam: Rodopi, 185–198. 106 Hanston, Susan 2002. Pattern grammar, language teaching, and linguistic variation: App- lications of a corpus-driven grammar. – Randi Reppen, Susan Fitzmaurice, Douglas Biber (Eds.). Using Corpora to Explore Linguistic Variation. Amsterdam/Philadelphia: John Benjamins, 167–186. Hoey, Michael; Mahlberg, Michaela; Stubbs, Michael; Teubert, Wolfgang (Eds.) 2007. Text, Discourse, and Corpora: Theory and Analysis. With an Introduction by John Sinclair. London, New York: Continuum International Publishing Group. Jantunen, Jarmo Harri 2004. Synonymia ja käännössuomi. Korpusnäkökulma sama- merkityksisyyden kontekstuaalisuuteen ja käännöskielen leksikaalisiin erityispiirteisiin. Joensuun yliopiston humanistisia julkaisuja 35. Joensuu: Joensuun yliopisto. Heiki-Jaan Kaalep, Kadri Muischnek. Eesti kirjakeele sagedussõnastik. Tartu: Tartu Ülikooli Kirjastus, 2002. Kennedy, Graeme 2002. Variation in the distribution of modal verbs in the British National Corpus. – Randi Reppen, Susan Fitzmaurice, Douglas Biber (Eds.). Using Corpora to Explore Linguistic Variation. Amsterdam/Philadelphia: John Benjamins, 73–90. Kennedy, Graeme 1999. An Introduction to Corpus Linguistics. London, New York: Long- man. Leech, Geoffrey 1981. Semantic. The Study of Meaning. London: Penguin Books. McEnery, Anthony; Wilson, Andrew 2001. Corpus Linguistics. : Edinburgh Uni- versity Press. Meier, Heidi 2003. Essee asend allkeelte tekstitüübivõrdluses. Magistritöö. Käsikiri Tallinna Ülikooli eesti keele ja kultuuri instituudis. Muischnek, Kadri 2006. Verbi ja noomeni püsiühendid eesti keeles. Dissertationes philologiae Estonicae Universitatis Tartuensis 17. Tartu: Tartu Ülikooli Kirjastus. Nesselhauf, Nadja 2005. Collocations in a Learner Corpus. Amsterdam, Philadelphia: John Benjamins. Nesselhauf, Nadja; Römer, Ute 2007. Lexical-grammatical patterns in spoken English: The case of the progressive with future time reference. – International Journal of Corpus Linguistics, 12 (3), 297–333. doi:10.1075/ijcl.12.3.02nes Orpin, Debbie 2005. Corpus linguistics and critical discourse analysis: Examining the ideology of sleaze. – International Journal of Corpus Linguistics, 10 (1), 37–61. doi:10.1075/ ijcl.10.1.03orp Römer, Ute 2007. Learner language and the norms in native corpora and EFL teaching materials: A case study of English conditionals. – Sabine Volk-Birke, Julia Lippert (Eds.). Anglistentag 2006 Halle. Proceedings. Trier: Wissenschaftlicher Verlag Trier, 355–363. Römer, Ute 2005. Progressives, Patterns, Pedagogy: A Corpus-driven Approach to English Progressive Forms, Functions, Contexts and Didactics. Studies in Corpus Linguistics 18. Amsterdam: John Benjamins. Scott, Mike; Tribble, Christopher 2006. Textual Patterns: Key Words and Corpus Analysis in Language Education. Philadelphia: John Benjamins. Sinclair, John 1991. Corpus, Concordance, Collocation. Oxford: Oxford University Press. Stubbs, Michael 1996. Text and Corpus Analyzis. Oxford: Blackwell Publishing. Sõrmus, Kadri 2008. Emakeeleõppija korpus. Statistiline analüüs ja veamärgendussüsteem. Magistritöö. http://dspace.utlib.ee/dspace/bitstream/10062/6217/1/sormus_kadri. pdf (9.09.2008). Tognini Bonelli, Elena 2002. Functionally complete units of meaning across English and Italian: Towards a corpus-driven approach. – Bengt Altenberg, Sylviane Granger (Eds.). Lexis in Contrast. Corpus-based Approaches. Philadelphia: John Benjamins, 73–95. Volk, Martin 2002. Using the Web as corpus for linguistic research. – Renate Pajusalu, Tiit Hennoste (toim.). Tähendusepüüdja. Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 3. Tartu: Tartu Ülikooli Kirjastus, 355–369. 107 Xiao, Zhonghua; McEnery, Anthony 2005. Two approaches to genre analysis: Three gen- res in Modern American English. – Journal of English Linguistics, 33 (1), 62–82. doi:10.1177/0075424204273957

Pille Eslon (Tallinna Ülikool). Viimase aja teadustegevus on seotud eesti õppija- ja kirjakeele korpusest tuleneva kõrvutava uurimisega. Teadustöö teoreetiline taust on funktsionaalgrammatiline: keelte uurimi- sel on lähtutud keelendite funktsionaalsest potentsiaalist ja kategooriate koosmõjust erinevates konteks- tides. Kitsamad uurimisvaldkonnad on aspektuaalsus, temporaalsus, modaalsus ja gramma ti satsioon. [email protected].

Erika Matsak (Tallinna Ülikool). Uurimisvaldkonnad on loogilised konstruktsioonid eestikeelsetes tekstides; vahendite loomine tekstides sisalduvate leksikaalsete mallide ja grammatiliste konstrukt- sioonide automaatseks eraldamiseks ning grammatiliste reeglite esiletoomiseks; keele kasutusmallide kvantitatiivne analüüs. [email protected].

108 CORPUS-DRIVEN COMPARATIVE ANALYSIS OF VARIANTS OF ESTONIAN

Pille Eslon, Erika Matsak Tallinn University

The objective of the study was to compare the use of case forms in two variants of Estonian – standard language and learner language. The material was taken from the Standard Estonian corpus of the Institute of the Estonian Language and the Estonian interlanguage corpus of Tallinn University. The frequency of the infl ec- tional forms of the four most common nouns in Estonian (inimene ‘person’, sõna ‘word’, elu ‘life’ ja aeg ‘time’) is found out and their morphological paradigms and synchronicity are described. The statistics showed to what extent semantics tells on the formation and frequency of grammatical forms. Unfortunately the statistics of case forms gives us only the frequency of forms in a sample (e.g. the most frequent cases of the word aeg ‘time’ in the Standard Estonian corpus are SG.PART, SG.NOM, SG.ADS, PL.NOM, PL.GEN), but it does not say much about contextual preferences (e.g. in the Standard Estonian corpus the following constructions containing the word aeg ‘time’ in SG.NOM are preferred: teoinimeste aeg ‘it is time for people of action’ ~ käes teoinimeste aeg ‘the time has come for people of action’; on ilus (paras, viimane, õige) aeg ‘it is a beautiful (a good, high, the right) time’; mõni aeg hiljem ‘a little later’ ~ mõni aeg pärast ‘a little after ’; on (oli, olnud, ajanud) kogu aeg ‘all the time it is (was, had been, had made)’; aeg on kallis ‘time is valuable’ ~ aeg on möödas (läbi, käes) ‘the time is over (is up, has come)’; et viimane aeg ‘that high time’ ~ oli aeg mil ‘there was a time when’, and with SG.PART: kuu aega tagasi (hiljem, enne) ‘a month ago (later, before); umbes (ligi, ja) kuu aega ‘about (around, and) one month’; juba pikka aega ‘for a long time already’ ~ väga pikka aega ‘for a very long time’; oli (on) pikka aega ‘was (has been) for a long time’ ~ pikka aega on ‘has for a long time’; tükk aega tagasi (pärast) ‘a long time ago (after )’ ~ nädal aega tagasi ‘a week ago’; on veel aega ‘there is time yet’ ~ vajan veidi aega ‘I need a little time’). Analysis of contextual preferences is necessary for pedagogical and lexicograp- hical purposes, and, importantly, also for making explicit the hidden tendencies that are working in the language system synchronically. For this purpose, the grammatical constructions and their lexico-grammatical variants (allowing only certain case forms) typical of Standard Estonian and learner Estonian were found out. This reduced signifi cantly the number of the case forms eligible for further analysis. Mere statistics of case forms would never have provided the data on their use in constructions and on their preference order in text production. From a comparison of the frequencies of the case forms in learner language versus Standard Estonian it appeared that there is an overwhelming tendency in learner language to use the nominative case above all (inimene ‘person’ – in singular and plural, sõna ‘word’ – in plural, elu ‘life’ – in singular). However, the nominative is a frequent form in Standard Estonian as well (sõna ‘word’ – in nomi- native singular and nominative plural holds the fi rst place in the frequency list of 109 word forms, inimene ‘person’ – nominative plural holds the second place in the frequency list after partitive singular; nominative singular holds the third place, aeg ‘time’ – nominative singular holds the third place after inessive singular and elative singular). There are only two words in the standard language that slightly prefer the partitive (inimene, aeg). This evidence calls into question the statement that in the Estonian case system there is an oppositional pair consisting of the nominative and partitive cases, of which the partitive is the unmarked member. In case the learner language and standard language lacked synchronicity, then it could be assumed that it is a manifestation of atypical use of word forms, which is worth studying. But the results of this study showed that in both language variants, the clearly preferred case is the nominative. Further research should reveal whether this phenomenon can be considered a process of nominativization, and what its possible motivations could be. The next most preferred semantic cases in both standard and learner language were the inessive, the adessive and the comita- tive. The frequency of case forms of a word does not explain, though, which patterns of case usage are necessary to actually produce and understand texts. Statistical representation of lexical units, grammatical forms and constructions has enabled us to reveal such linguistic data that, despite being characteristic of language use, is not easily accessible by traditional corpus-based analysis. There- fore we believe that corpus-driven studies using statistical and language software have a long-term theoretical and applied value (in language teaching, translation, dictionaries and learning materials).

Keywords: corpus linguistics, corpus-driven comparative analysis, infl ectional grammar, case preferences in Estonian usage, Estonian language

110 SUULISE EESTI KEELE KORPUS JA INIMESE SUHTLUS ARVUTIGA

Tiit Hennoste, Olga Gerassimenko, Riina Kasterpalu, Mare Koit, Andriela Rääbis, Krista Strandson

Ülevaade. Tartu Ülikoolis kogutakse suulise eesti keele korpust ja

(selle alamosana) dialoogikorpust, et uurida inimestevahelist suhtlust. 5, 111–130 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT Kaugem eesmärk on luua kasutajaliideseid, mis võimaldaksid inim- kõne vahendusel suhelda elektrooniliste andmebaasidega. Suhtluse modelleerimine on edukam, kui selle aluseks võetud inimsuhtluse uurimine tehakse suurel eri allkeeli sisaldaval korpusel ning viiakse läbi nii kvantitatiivne kui ka kvalitatiivne analüüs. Artikkel tutvustab Tartu Ülikooli suulise eesti keele korpuse ehitust, transkribeerimise põhimõtteid ja dialoogiaktide annoteerimiseks kasutatavat tüpoloo- giat. Rakendusena vaadeldakse ametlikes telefonikõnedes esinevate päringute keelevaliku seletusi.* Võtmesõnad: suulise keele korpus, dialoogikorpus, transkriptsioon, dialoogiaktid, märgendamine, suuline suhtlus, eesti keel

1. Sissejuhatus

Tänapäeval muutuvad järjest populaarsemaks nn intelligentsed kasutajaliidesed, mis võimaldavad inimkõne vahendusel suhtlemist elektrooniliste andmebaasi- dega. Väga lihtsa suhtluse modelleerimine (nt telefoninumbrite küsimine) ei vaja kuigivõrd tegeliku suulise keele ja selle kasutuse analüüsi. Kui aga soovitakse luua arvutiprogrammi, mis suudaks dialoogis osaleda inimesele võrdväärse partnerina, siis ei ole see ilma inimeste suhtlust analüüsimata võimalik. Suulise keele analüüs nõuab korpust. Enamasti on kasutajaliideste loomiseks kasutatud piiratud korpusi, mis sisaldavad suhtlust kindlate ülesannete raames ja mis on tihti kogutud rollimängude abil. Näiteks korpus COCONUT1 koosneb inimes- tevahelistest arvuti kaudu vahendatud dialoogidest, milles osalejad teevad koostööd

111 ∗ Tööd toetavad Eesti Teadusfond (grant nr 7503) ning Haridus- ja Teadusministeerium (sihtfi nantseeritav teema “Loomulike keelte arvutitöötluse formalismide ja efektiivsete algoritmide väljatöötamine ning eesti keelele rakenda- mine“ ja riiklik programm “Eesti keele keeletehnoloogiline tugi”). Täname anonüümseid retsensente. 1 http://www.pitt.edu/~coconut/ (29.09.2008). kodu möbleerimisel. Korpus VERBMOBIL2 sisaldab kakskeelseid dialooge, mis on salvestatud rollimängudes, kus kooskõlastatakse kokkusaamisi, broneeritakse tuba hotellis, koostatakse sõiduplaani jne. Meie kaugem eesmärk on modelleerida arvutil suhteliselt keerukaid dialooge võimalikult loomulikult, s.t arvuti kui dialoogis osaleja peab järgima inimestevahe- lise suhtluse põhimõtteid, nii palju kui see on võimalik ja vajalik (Koit 2007). Selleks vajame inimsuhtluse analüüsiks piisavalt suurt dialoogikorpust, kus osalejate rollid on lähedased dialoogsüsteemi ja tema kasutaja rollidele. Igasugune keelekasutus varieerub. Varieerumise mõjutajad võivad olla inimese- kesksed (haridus, elukoht jms), situatiivsed (argine/avalik, dialoog/monoloog jms) ja interaktsioonilised (eri grammatilised konstruktsioonid on seotud kindlate suhtlus- funktsioonidega). Mõned keelelised variandid on sagedased, teised haruldased. On tavaline, et haruldased variandid jäetakse suhtluse modelleerimisel kõrvale kui eba- olulised. Suhtluse mikroanalüüs aga näitab, et ka neil on kindel kasutusala ning neid ei saa kasutajaliidest tehes ignoreerida. Seega on suhtluse uurimine ja modelleerimine edukamad, kui on olemas suur korpus, mis sisaldab erinevaid allkeeli. Käesolev artikkel annab kokkuvõtliku ülevaate Tartu Ülikooli suulise eesti keele korpusest, keskendudes selle ühele allkorpusele – dialoogikorpusele.3 Tut- vustatakse dialoogikorpuse märgendamisel kasutatavat dialoogiaktide tüpoloogiat ja esitatakse üks näide märgendatud dialoogikorpuse võimaliku kasutuse kohta suhtluse modelleerimisel.

2. Tartu Ülikooli suulise eesti keele korpus

Suulise keele korpust4 on Tartu Ülikooli (TÜ) suulise kõne uurimisrühm kogunud alates 1997. aastast, kaasates selleks ka suulise kõne ja eesti keele allkeelte kursustel osalevaid üliõpilasi.5 Korpuse koostamise esimene küsimus on tekstiliikide valik. TÜ korpus on planeeritud avatud korpusena, s.t ei ole ette kindlaks määratud, kui palju ja mis liiki tekste ta peaks sisaldama. Korpus peab hõlmama suulise kõne erinevaid allkeeli, et tema abil saaks uurida kogu suulisele kõnele ühiseid jooni, eri allkeelte erijooni ning ka võrrelda suulist ja kirjalikku keelekasutust. Samuti peab uurimusi saama teha kõigi keeletasandite kohta (leksika, fonoloogia, morfoloogia, süntaks, semantika, pragmaatika). Iga uurija, kes vajab tasakaalustatud korpust (nt sellist, milles on võrdselt kindlat tüüpi situatsioone), saab selle ise suure korpuse alusel koostada.

2.1. Korpuse liigendus

Korpus on liigendatud kolme keelekasutust mõjutava parameetrirühma alusel (Hennoste 2003). Esimese annavad suhtlejate sotsiaalne ja dialektiline taust. Teise moodustavad suhtluse omadused, mis annavad kokku registrid: dialoog või monoloog, kõne spontaansuse aste, kontakti iseloom (silmast-silma, telefonisuht-

2 http://verbmobil.dfki.de/ (29.09.2008). 3 Korpuse põhialustest ja varasemast seisust on antud ülevaade artiklites Hennoste 2000, 2003, Hennoste jt 2000. Käesolevas kordame osalt põhifakte ja toome välja korpuse praeguse seisu ning muudatused. 112 4 Varem oleme kasutanud segamini suulise keele ja suulise kõne korpuse nime. Praeguseks oleme sõnast kõnekor- pus loobunud, kuna kõnekorpused (ingl speech corpora) märgivad arvutilingvistikas foneetiliseks kasutuseks mõel- dud spetsiaalseid korpusi. Meie korpus on keelekorpus (linguistic corpus), mis kitsamalt piiritletuna võiks kanda ka pragmaatilise korpuse nime. 5 http://www.cl.ut.ee/suuline/ (29.09.2008). lus, meediasuhtlus), suhtluse argisus/institutsionaalsus.6 Viimase puhul teeme omakorda vahet nelja alammõõtme vahel: osalejatevahelised suhted (tuttavad või võõrad), osalejate rollid suhtluses (eraisik või ametiasutuse esindaja), suhtluse ruum (eraruum või ametiruum), suhtluse põhieesmärk (osalemine või info vahetamine). Kolmanda rühma annavad erinevad suhtlusvaldkonnad, mis on seotud kindlate situatsioonitüüpidega (teenindus, lobisemine jms). Korpus koosneb kahest poolest: salvestused ja transkribeeritud materjal. Korpuses on valdavalt audiosalvestused, videosalvestusi on vähe (telesaated, lastekeel, koolitunnid). Materjal salvestatakse digitaalselt (vanem osa on audio- kassettidel, mida pidevalt digitaliseeritakse) foneetilist analüüsi võimaldavasse wav-heliformaati. Materjal on litereeritud Wordis, transkribeeringud on olemas doc-failidena ja txt-failidena. Transkribeerimisel kasutame vabavaralisi abiprog- ramme VoiceWalker (helifaili sees liikumiseks) ja Praat või CLAN (helimaterjali täpsemaks analüüsiks).7 Korpuse tegelikud kasutuspiirid määrab põhjalikult transkribeeritud tekstide hulk. Põhjaliku transkriptsiooni all mõistame sellist taset, kus on üles märgitud suurem osa olulisi parameetreid, mis aitavad keele ja selle kasutuse analüüsi inter- preteerida. Seisuga 30. september 2008 on TÜ korpuses 2011 põhjalikult transkri- beeritud teksti, kokku 1 333 300 tekstiüksust (sõna, üneemi ja pausi). Tüüpilised transkribeeritud argivestluste lõigud ja pikemad institutsionaalsed dialoogid on viie kuni viieteistkümne minuti pikkused. Lühemad institutsionaalsed dialoogid on transkribeeritud täielikult. Korpus jaguneb telefonikõnedeks, silmast- silma vestlusteks ning meediasuhtluseks (tabel 1). Peaaegu kõik korpuse salvestused on dialoogid. Monoloogid on nt ettekanded, loengud, jutlused. Tekstide hulga poolest on rohkem institutsionaalset suhtlust, aga kuna argisuhtluse transkribeeringud on oluliselt pikemad, siis sõnade arvu järgi on rohkem argisuhtlust.

2.2. Transkriptsioon

Helikandjatele salvestatud korpus tuleb uurimiseks transkribeerida. Ükski trans- kriptsioonisüsteem ei kajasta kõiki kõnes esinevaid lingvistilisi nähtusi, sest see muudaks transkribeerimise ülimahukaks tööks. Meil kasutatav transkriptsiooni- süsteem (vt lisa) pärineb vestlusanalüüsist ja on olemuselt pragmaatiline (vrd Jef- ferson 2004). Kuna vestlusanalüüs keskendub suhtluse arenemisele ja kujunemisele kõneluse käigus vestluskaaslaste koostöö tulemusena, märgitakse täpsemalt suhtlus- nähtusi ja näiteks foneetikale pööratakse vähem tähelepanu. Transkriptsioonis tuuakse välja 7 nähtuste rühma (vt Hennoste 2000: 98–100): • suhtlusüksused (vooruehitusüksused, meie terminoloogias lausungid), mis lõpevad potentsiaalsetes voorusiirdekohtades ja mille keskseks piiritlejaks on intonatsioon (Hennoste, Rääbis 2004: 27–30), • sõnad ja suhtlushäälitsused (ee, mhmh). Sõnad kirjutatakse vastavalt hääldusele, kuid tavalises ortograafi as, • mõõdetud pikkusega pausid, • kõne prosoodilised ja paralingvistilised omadused (intonatsioon, venitused, katkestused, rõhud jne),

113 6 Varem oleme kasutanud ka väljendit avalik suhtlus institutsionaalse suhtluse asemel, vt Hennoste 2003: 492. 7 http://www.linguistics.ucsb.edu/projects/transcription/tools.html; http://www.fon.hum.uva.nl/praat/; http://chil- des.psy.cmu.edu/clan/ (29.09.2008). • üksteisele peale- ja otsarääkimised, • transkribeerija kahtlused (halvasti kuuldud sõnad jne), • nähtuste kirjeldused, mille kohta puudub märk või mille transkribeerimist ei peeta analüüsi seisukohalt vajalikuks (kõrvalised hääled, nutt vms).

Tabel 1. TÜ suulise eesti keele korpuse koosseis

Salvestuse Transkribeeri- liik tud tekstide arv argisuhtlus 176 infotelefon 555 reisibüroo 93 polikliiniku registratuur 99 teenindus 80 müügivestlused 48 kolleegidevahelised vest- Telefoni- 40 1297 institutsio- lused suhtlus 1121 naalne suhtlus kauplus 28 takso tellimine 23 bussiinfo 20 ülikooliinfo 18 küsitlus 16 raamatukogu 10 muud vestlused 91 argisuhtlus 184 kauplus 101 ettekanded ja loengud 50 teenindus 30 Silmast- intervjuud 25 silma 562 institutsio- teeküsimine tänaval 20 378 suhtlus naalne suhtlus arst ja patsient 17 reisibüroo 15 koolitunnid 12 koosolekud 11 muud vestlused 98 raadio 90 Meedia 152 televisioon 62 Kokku 2011

Meie praegu kasutatav transkriptsioonivariant erineb traditsioonilisest vest- lusanalüüsi transkriptsioonist eeskätt mõne märgi poolest, põhjuseks on asjaolu, et materjal peab olema arvuti poolt loetav. Nii kasutame allajoonimise asemel rõhu märkimiseks graavist (`) ja halvasti kuuldud lõigud paigutame loogelistesse sulgudesse (vrd varasemat kasutust Hennoste 2000: 99). Transkribeeritud teksti esitab näide (1). (1) H: okei=okei suva. (.) T: vot=ja:=ah (.) mina=ei=tea (.) igasugused `bioloogid olid (.) põhili- selt. 114 (1.0) H: ahah (0.8) T: [> a `mina=ei=tea <] H: [{ahah. kus} te] `magasite seal. (.) T: mh, `mattide `peal. (1.0) > ja mingid õudselt head < `dušširuumid ja=värgid olid kõik `kasutada * meil. * H: kus=kohas te `olite * mis `majas. * ((sööb samal ajal)) T: koolimajas. H: mm. (0.5) T: ja=se=on `Kärdla ainu- või=tähendab=see (.) `Hiiumaa ainus `kesk- kool. (0.8) H: mhmh.

2.3. Taustakirjeldus

Oluline osa korpuse dokumentatsioonist on iga teksti taustakirjeldus, mis lubab uurida suhtlejate, suhtlussituatsiooni ja keele seoseid. Meie maksimaalses tausta- kirjelduse mudelis on välja toodud 44 situatsioonifaktorit, mis on leitud mõjutavat keelekasutust (Hennoste 2000: 100–105). Praktiliselt kasutame kirjelduse lühiver- siooni, milles on 23 tegurit. Taustakirjelduse põhiosad on järgmised. 0. Tehniline info salvestamise ja litereerimise kohta. 1. Situatsioon (aeg, koht, suhtlussfäär, suhtlusnormid jms). 2. Suhtlejad, nende omadused ja omavahelised suhted (nimi, vanus, sugu, haridus, kodukant, sotsiaalne staatus jne). 3. Ainestik ja teema. 4. Tekst ja suhtlus (dialoog/monoloog/polüloog, teksti planeerituse ja fi k- seerituse aste jm). 5. Keel ja keelekasutus (dialekt, register jms). 6. Lisainfo. Osa punkte on esitatud loendina, milles täitjal tuleb valitud variant alla joonida. Osa punkte on avatud, neisse tuleb info lisada. Näide (2) esitab väljavõtte näite (1) taustakirjeldusest. (2) /---/ 1. Situatsioon ja olukord 1.1. Aeg ja koht - päev, kuu, aasta: 15. jaan. 1997 kell 18–18.30 vahetu suhtlus - koht (linn, maakond, vald, küla, talu): Tartu - kodu (eramaja, korter) / ametiasutus (kontor, kauplus jne): ühiselamu- tuba /---/ 115 1.4. Osalejate asetus ruumis (istuvad / seisavad; laua, toolide jm esemete kasutamine – kirjeldada): istuvad laua ümber suhtlusdistants (alla poole meetri, pool kuni poolteist, pikem): /---/ 1.6. Situatsiooni kultuuriline määratlus: - vestluse põhitüüp (argisituatsioon / avalik situatsioon, eravestlus / ametialane vestlus): - nimetus võimalikult täpselt: söömine, argivestlus. Tiina on külas oma sõbrannal Heleril, vestlusringis osaleb ka Heleri toakaas- lane Lea. /---/ 1.9. Situatsiooni suhe suhtlejatega - tuntud reeglitega / võõraste reeglitega: - mugav / ebamugav: - esmakordne / mitmes kord: - ootamatu / kavandatud / kokku lepitud: /---/ 1.11. Situatsioonis suhtlust häirivad või seda positiivselt mõjutavad situat- sioonivälised faktorid (telefonikõne, võõra tulek, toidu toomine, kohvi pakkumine, teadmine, et tuleb lindistada jne): söömine, toidu pakku- mine 2. Suhtlejad, nende omadused ja omavahelised suhted 2.1. Konkreetsed suhtlejad - nimed: Tiina, Heleri, Lea - suhtlejate hulk (kaks inimest / väike rühm kuni kümmekond ini- mest / suur rühm): - rollid: suhtlejad: Tiina, Heleri, Lea juuresolijad: ei ole - konkreetsed sotsiaalsed rollid: 2.2. Suhtlejate sotsiaalbioloogilised omadused 2.2.1. - nimi (roll): Tiina - sugu: naine - vanus või sünniaeg: 21-a - haridus (alg / põhi / kesk / kõrg): - rahvus / hõim: eestlane - kodukant / lapsepõlvekodu: pärit Tallinnast - sotsiaalne staatus (tööline / talupoeg / teenindaja / intelligent / ärimees / pensionär / teenistuja / kodune / töötu / ärijuht / ametnik / keskastmejuht / kõrgema astme juht / müügiinimene / õpilane / üliõpilane): - kõnet mõjutavad füüsilised puuded või väljapaistvad omadused (kõneanne etc.): ei ole /---/ 2.7. Suhtlejate omavahelised suhted üldse ja konkreetses situatsioonis - võõras / tuttav / lähedane (kirjeldada): sõbrannad - staatussuhted (võrdne / alluv / kõrgem; – lisada, kumb on kumb): /---/ 116 4. Tekst ja suhtlus /---/ 4.3. Teksti planeerituse aste - varem / samal ajal: pole planeeritud - planeerimissügavus (teema / eesmärgid / struktuur / märksõnad / sõna- vara / süntaks / intonatsioon): 4.4. Teksti fi kseeritus: ei ole - paberil / peas: - kogu tekst / osa / mitte midagi: /---/

2.4. Korpuse kasutamine

Suulise keele korpuste kasutamine erineb tüüpiliste kirjaliku keele korpuste kasu- tamisest. Viimased sisaldavad tekste, mis on juba varem avalikkuses ringelnud. Suulise keele korpused sisaldavad selliseid väga vähe. Argitekstid on originaalis määratud ainult kõnelejatele enestele. Ka suur osa institutsionaalseid tekste on määratud väikesele hulgale kindlate omadustega osalejatele (nt loengud üldjuhul aine üliõpilastele) või sisaldavad tundlikku materjali (nt arsti ja patsiendi vestlused). See toob kaasa vajaduse tekste teatud moel muuta ja nende kasutamist piirata. Meie oleme kasutanud järgmisi piiranguid. Kõik nimed, telefoninumbrid, aadressid jm identifi tseerimist võimaldavad andmed transkriptsioonides asendatakse rütmiliselt võrdväärsete asendajatega (nt Tiina > Liina). Õigeid andmeid leiab vaid taustakirjeldusest. Korpus jaguneb eri piirangutasemetega alaosadeks. Osalejate nõusolekul saavad uurijad kasutada salvestusi teadus- ja õppe-eesmärkidel. Osa salvestusi on suhtlejad andnud uurijate isikliku vastutuse alla ja neid kasutatakse vaid suulise keele uurimisrühma piires. Kõik korpuse kasutajad peavad kirjutama alla konfi dentsiaalsuskohustusele ja piirama avalikult esitatavad tsitaadid kõnelejate identifi tseerimist mittevõimaldava mahuni.

3. Eesti Dialoogikorpus EDiK

Suulise eesti keele korpuse juurde kuulub dialoogikorpus EDiK.8 See on koostatud spetsiaalselt inimestevahelise institutsionaalse suhtluse uurimiseks, et selle alusel modelleerida inimese ja arvuti vahelist dialoogi (Hennoste jt 2002a). See jaguneb kolmeks alaosaks: • suulise eesti keele korpusest valitud 1137 dialoogi, kokku 210000 tekstisõna, mis jagunevad järgmiselt: 1012 telefonikõnet (infotelefon, reisibüroo, bussi- jaam, polikliiniku registratuur, kauplused, taksodispetšer jt) ja 125 silmast- silma vestlust (kaubandus, teenindus, reisibüroo, teejuhatamine jt); • võlur Ozi meetodil kogutud kirjalikud reisiinfodialoogid (Valdisoo jt 2003);

117 8 http://math.ut.ee/~koit/Dialoog/EDiC.html (29.09.2008). • inimese ja arvuti vahelised dialoogid, mis on kogutud kahe lihtsa küsi- mus-vastussüsteemi Reisiagent9 ja Teatriagent10 arendamise käigus (vt ka Treumuth jt 2006). Osa suulistest dialoogidest EDiK-is on analüüsitud ja märgendatud morfoloogiliselt, süntaktiliselt ning dialoogiaktiliselt.

3.1. Morfoloogiline analüüs

Suulise keele korpuse morfoloogiliseks analüüsiks kasutasime analüsaatorit ESTMORF (Kaalep 1997, 1998)11. ESTMORF on programm, mis võrdleb jooksvas tekstis leiduvaid sõnesid sõnastikus olevate lekseemide kombinatsioonidega. Töö tulemusena esitab ta iga sõna kohta sõnaliigi nime ja andmed muude grammatiliste kategooriate kohta, mis antud sõnaga seostuvad (arv, kääne, isik jms). ESTMORF on mõeldud eesti kirjakeele jaoks. Et kohandada kirjaliku keele analüsaatorit suulise keele analüüsiks, tegime katse, toomaks välja probleemid, millega algne analüsaator hakkama ei saanud (Hennoste jt 2002b). Katse tulemusena ilmnes vajadus lisada kaks uut märgendit: B partikli ja T tundmatu sõna märkimiseks. Partiklid on suuli- ses keeles kasutatavad sõnad, millel on eeskätt pragmaatiline roll suhtluses (ahah, mhmh, noh jms, vt Hennoste 2002). Teiseks tuli lisada analüsaatorisse rida sõnu, mida kirjalik keel ei tunne (nt argisõnad). Dialoogikatkend näites (3) on morfoloogiliselt analüüsitud näites (3a) (K – klient, A – ametnik). Korrektne morfoloogiline analüüs on tähistatud miinusmär- giga, nt tere on partikkel B, mitte aga substantiiv S.

(3) K: teated tere A: tere ma sooviksin teada. (3a) K teated teade+d //_S_ com pl nom // tere - tere+0 //_B_ // tere+0 //_S_ com sg gen // tere+0 //_S_ com sg nom // A tere - tere+0 //_B_ // tere+0 //_S_ com sg gen // tere+0 //_S_ com sg nom // ma mina+0 //_P_ pers ps1 sg nom // sooviksin soovi+ksin //_V_ main cond pres ps1 sg ps af //

118 9 http://www.dialoogid.ee/reisiagent/ (29.09.2008). 10 http://www.dialoogid.ee/teatriagent/ (29.09.2008). 11 http://www.cl.ut.ee/korpused/morfl iides/; http://www.fi losoft.ee (29.09.2008). teada tead+a //_V_ main inf //

3.2. Süntaktiline analüüs

Süntaktiliseks analüüsiks on kasutatud kirjaliku eesti keele süntaksianalüsaatorit, mis töötati välja aastatel 1996–2001 Tartu Ülikoolis (Muischnek jt 2000, Roosmaa jt 2003). Analüsaator põhineb kitsenduste grammatikal (ESTKG), kus analüüsi alguses lisatakse igale sõnavormile kõik võimalikud analüüsivariandid ja seejärel hakatakse konteksti mittesobivaid eemaldama. Eemaldamine toimub vastavalt kitsenduste grammatika reeglitele ehk kitsendustele, millest igaüks esitab mõnda spetsiifi list keelereeglilaadset fakti. ESTKG-s on 1118 süntaktiliste märgendite eemaldamise reeglit. Süntaktilise analüüsi protsess on selles jaotatud kaheks osaks. Morfoloogiline ühestaja tegeleb kontekstiinfo põhjal morfoloogiliselt mitmese analüüsiga sõnavormile õige morfoloogilise kirjelduse väljavalimisega, süntaksi- analüsaator leiab sõnavormi süntaktilise funktsiooni lauses. Analüsaator kohandati suulise keele analüüsiks (Müürisep jt 2006, Müürisep, Nigol 2008). Selleks tuli lisada uusi reegleid osalausepiiride tuvastamiseks ja muuta mitmeid süntaktilisi kitsendusi. Töö süntaksianalüsaatori arendamisega jätkub. Näites (4) on süntaktiliselt analüüsitud lausung: Se veranda on minu meelest maailma kihvtim asi. (4) Se # see+0 //_P_ dem sg nom // **CLB @NN> veranda # veranda+0 //_S_ com sg nom // @SUBJ on # ole+0 //_V_ main indic pres ps3 sg //@+FMV minu # mina+0 //_P_ pers ps1 sg gen // @P> meelest # meelest+0 //_K_ post #gen // @ADVL maailma # maa_ilm+0 //_S_ com sg gen // @NN> kihvtim # kihvti=m+0 //_A_ comp sg nom // @AN> asi # asi+0 //_S_ com sg nom // @PRD $. . //_Z_ Fst //

3.3. Dialoogiaktide analüüs

Morfoloogiline ja süntaktiline analüüs on olulised ka iseseisvana, kuid suhtluse modelleerimisel on nad üksnes abitegevused, olles vaid vahendid suhtluse tarvis. Suhtlemine ise seisneb selles, et inimesed teevad keele abil erinevaid tegevusi – küsivad, vastavad jne. Selliseid tegevusi nimetatakse suhtlus- ehk dialoogiaktideks. 119 Suhtluse modelleerimiseks on tarvis luua dialoogiaktide tüpoloogia, analüüsida dialoogid aktideks ja seejärel leida, kuidas on aktid seotud keeleliste üksuste mor- foloogiliste ja süntaktiliste omadustega. Dialoogiaktide praktilise määramise probleeme on käsitlenud viimastel aas- takümnetel nii korpuslingvistid, diskursuse analüüsijad kui ka keeletehnoloogid (nt Stolcke jt 2000, Allwood jt 2001, Jokinen jt 2001). Praktiliselt tegeleb dia- loogiaktide analüüsiga kogu pragmaatika, kuigi mitte alati dialoogiakti mõistet kasutades. Dialoogiaktide tüpoloogiaid on loodud maailmas mitmeid, kuid ühist standardit olemas ei ole. Meie tüpoloogia on üldine ja oma põhiosas kooskõlas hästi tuntud tüpoloogiatega (nt DAMSL, SWBD-DAMSL, vt Koit 2003). Mille poolest meie tüpoloogia erineb teistest (vt ülevaadet Hennoste, Rääbis 2004)? Meie tüpoloogia põhineb vestlusanalüüsi printsiipidel. Vestlusanalüüs on vestlusandmete empiiriline, induktiivne mikroanalüüs (Hutchby, Wooffi tt 1998, Kasterpalu, Gerassimenko 2006). Selle aluseks on idee, et vestlus on osalejate koostöö, mis põhineb kolmel mehhanismil: vooruvahetus (vooru ehitamine ja vooru jaotamine), voorujärjestus (eelistused ja naaberpaarid) ja parandus. Samas, kuigi vestlusanalüüs tegeleb kõnelejate tegevusega, ei ehita ta põhimõtteliselt dialoogi- aktide tüpoloogiaid. Meie tüpoloogia on empiiriline ja avatud. Me eeldame, et dialoogiakt on empii- riline nähtus ja võimatu on teoreetiliselt ette määrata kõikvõimalikke akte. Seetõttu sisaldab iga aktiklass alamklassi “Muu”. Sinna paigutatakse märgendamisel need aktid, mida tüpoloogias ei ole (veel) määratletud või mis on tehnilistel põhjustel mitteanalüüsitavad. Vajaduse korral defi neeritakse selle alamklassi baasil uusi aktirühmi. Meie aktitüpoloogia põhialused on järgmised (Hennoste, Rääbis 2004: 15–37). 1. Tüüpiline aktide analüüs lähtub sellest, et kõnelejal on olemas plaan või strateegia, mida ta soovib läbi viia, ning ta valib oma aktid vastavalt sellele. Vestlusanalüüs eeldab, et kõneleja kohandab oma suhtlusvoore jooksvalt vestluspartneri eelnevate voorudega. Iga voor ennustab mingil määral, milline jätk tuleb tema järel, ja on ise sobitatud eelneva vooruga. Seetõttu on keskne kahe järjestikuse vooru aktide omavaheliste suhete analüüs. Siin jagatakse aktid kahte rühma. Mõned nõuavad enda järel kindlat tüüpi akti kindlas positsioonis, ideaalis järgnevas voorus. Selliseid aktipaare nime- tatakse naaberpaarideks (ingl adjacency pairs, nt tervitus–vastutervitus, küsimus–vastus; Schegloff, Sacks 1973). Oodatud akti puudumine või mõne muu dialoogiaktiga reageerimine on tajutav ebaootuspärasena (nt vastusest põiklemine või vastamine küsimusele küsimusega). Teine osa akte on sellised, mille omavahelised suhted on vabamad. Suhtluspartner (ka arvuti) peab suutma vahet teha naaberpaariakti ja üksikakti vahel. Sellest lähtudes jagame aktid naaberpaari- ja üksikaktideks. Igal naaberpaaril on esi- ja järelliige (vrd DAMSL-i edasi- ja tagasivaatav funktsioon). 2. Kõneleja võib reageerida eelnevale aktile ootuspäraselt või mitteootuspä- raselt. Viimane tekitab suhtluses probleemi. Kuna probleemid on suhtluses pidevad, siis peavad keeles leiduma vahendid, mis neid signaliseerivad ja lahendada aitavad. Kõik aktitüpoloogiad sisaldavad probleemide lahen- damise akte, aga tüüpiliselt on need paigutatud laiali erinevate dialoogi 120 juhtimise ja tagasisideaktide alla ega moodusta terviklikku süsteemi (nt Bunt 1999). Näiteks DAMSL-is esindab üks akt (ingl Abandoned – loovu- tatud) suhtlusstaatust, aga enamik parandusakte kuulub tagasivaatavate funktsioonide klassi (Signal-non-understanding – mittemõistmise signaal, Completion – viimistlemine, Correct-misspeaking – valesti öeldu korri- geerimine, Repeat-rephrase – kordamine-ümbersõnastamine). Vestlusanalüüs lähtub sellest, et on olemas omaette probleemide lahenda- mise mehhanism (parandusmehhanism). Emanuel A. Schegloff (1979) toob välja nelja liiki parandusi: enese algatatud eneseparandus (ingl self-initiated self-repair), partneri algatatud partneriparandus (other-initiated other- repair), partneri algatatud eneseparandus (other-initiated self-repair) ja enese algatatud partneriparandus (self-initiated other-repair). Parandusaktide eristamine on oluline ka seetõttu, et paljudel juhtudel kasutatakse infoaktide ja parandusaktide ehitamiseks samu vahendeid (nt suurem osa partneri poolt parandusi algatavaid akte on küsimused). Ka arvuti peab aru saama, millal on tegu infoküsimusega ja millal paran- dusalgatusega. Eelnevast lähtudes oleme toonud välja omaette rühmana suhtlusprobleemide lahendamise aktid ehk parandusaktid. 3. Dialoogis kasutatavad aktid jagatakse traditsiooniliselt kaheks: infoaktid (nt küsimused) ja dialoogi juhtimise aktid (tagasiside). Vestlusanalüüs lähtub sellest, et sellist jaotust pole olemas. Iga akt annab mingil kombel infot ja iga akt juhib suhtlust (küsimus ei ole pelgalt infoakt, vaid juhib ka suhtlust, määrates järgneva akti tüübi ja suures osas selle võimaliku sisu). Samas ei ole kõik infoaktid ühesugused. Naaberpaariaktid jagunevad küsimusteks, direktiivideks ja seisukohavõttudeks ja teiselt poolt vastusreaktsioonideks nendele aktidele. Üksikaktid jagunevad kahe parameetri järgi. Esiteks, ühed aktid annavad primaarselt infot, teised on vastukajad saadud infole, aga ei ole samal mää- ral kohustuslikud nagu naaberpaaride järelliikmed. Teiseks, ühed aktid on seotud eelneva vooru aktidega, teised aga samas voorus oleva primaarse aktiga. Neist parameetritest lähtudes eristame kolme liiki üksikakte. Pri- maarsed üksikaktid annavad teavet, võtavad seisukohti jne. Nad kannavad infot ega sõltu samas voorus olevast teisest aktist. Infolisad lisavad uut infot sama vooru eelmisele infoaktile kõneleja enda initsiatiivil. Vabatahtlikud reaktsioonid (traditsiooniliselt tagasiside tuum) on reaktsioonid partneri eelmisele voorule. 4. Lisaks on olemas dialoogi juhtimise aktid, mis juhivad kogu dialoogi, kuigi suunavad ka järgmist vooru (tervitamine jms rituaalid, teemavahetus). Kokkuvõttes on meie tüpoloogias 127 akti, mis koonduvad 12 aktirühma. I. Naaberpaariaktid DIALOOGI JUHTIMISE AKTID 1. Rituaalsed aktid (tervitamine, tänamine jne). 2. Teemavahetuse aktid, mida kasutatakse uue (alam)teema alustami- seks. PARANDUSAKTID 3. Parandused, mida algatavad ja viivad läbi erinevad osalejad. 4. Kontakti kontrolli aktid (nt kas sa kuuled, halloo).

121 INFOAKTID 5. Direktiivid ja reaktsioonid (soov, ettepanek, pakkumine jne). 6. Küsimused ja vastused. 7. Seisukohavõtud ja reaktsioonid (väide, arvamus jms). II. Üksikaktid DIALOOGI JUHTIMISE AKTID 1. Rituaalsed aktid (kontakteerumine, tutvustamine jms). PARANDUSAKTID 2. Parandused, mida algatab ja viib läbi sama osaleja (eneseparandused). INFOAKTID 3. Primaarsed üksikaktid (eelteade, lubadus, referaat jms). 4. Infolisad (täpsustamine, pehmendamine jms). 5. Vabatahtlikud reaktsioonid (jätkaja, info vastuvõtuteade jms). Igal aktil on kaheosaline nimi, mis koosneb akronüümist ja pärisnimest. Akronüümi kaks esimest tähte annavad rühmanime (nt IL = infolisa, KY = küsimused, RI = rituaalid, DI = direktiivid, VR = vabatahtlikud reaktsioonid). Naaberpaariaktidel on ka kolmas täht, mis osutab, kas tegemist on esi- või järelliikmega (KYE = küsimuse esiliige, KYJ = küsimuse järelliige). Akronüümi järel olev sõna (akti pärisnimi) toob välja akti semantilise/funktsionaalse sisu (KYE: AVATUD; KYE: JUTUSTAV KAS). Näide (5) esitab märgendatud dialoogi (K – klient, A – ametnik). (5) K: mt=.hh tere, RIJ: TERVITUS öelge=palun: `pensioniameti `telefoni (.) .h `number (.) `Tartus. DIE: SOOV (...) A: ee `number on `seitseeli=`neli? DIJ: INFO ANDMINE (0.5) K: jah?= VR: NEUTRAALNE JÄTKAJA A: =seitse `neli `kolm `kuus. DIJ: INFO ANDMINE (2.5) K: aitäh? RIE: TÄNAN A: palun RIJ: PALUN Iga dialoogi märgendavad teineteisest sõltumatult kaks lingvisti ja kolmas ühtlustab märgenduse. Iga lausungi märgendamise aluseks on lausungi mikroanalüüs, mis põhineb vestlusanalüüsil ja suhtluslingvistikal (vt ülevaadet Kasterpalu, Gerassi- menko 2006 ja sealseid viiteid).

3.4. Korpuse tarkvara

Dialoogikorpusega töötades on vaja tarkvara, mis aitaks nii korpuse kogujaid kui ka uurijaid, kes korpust kasutavad. Seepärast on arendamisel nn korpuse tööpink, mis võimaldab erinevaid tegevusi (Treumuth 2005).12 Tarkvara on realiseeritud vabavaralisel platvormil ning kättesaadav veebis (kaitstud parooliga), võimaldades kõigil uurimistöös osalejail valida ja töödelda endale vajalikke alamkorpusi.

122 12 http://lepo.it.da.ut.ee/~treumuth/ (29.09.2008). Tööpink võimaldab teha erinevaid statistikaid ja otsinguid. Põhivõimalused on dialoogide lisamine ja eemaldamine korpusest, transkribeeritud elementide (sõnad, pausid jm) ja aktimärgendite loendamine, dialoogiaktide järgnevuste sagedustabeli koostamine, otsing dialoogis esineva teksti (sõne) või aktimärgendi järgi jne. Samuti võimaldab tööpink dialooge teisendada ühelt kujult teisele. Siia kuu- luvad nt dialoogi paigutamine ajateljele, puhastamine morfoloogilise analüüsi tarvis, viimine XML-kujule. Dialoogikorpuse tööpingis on tekstitoimeti, mis annab kasutajale tagasisidet transkriptsioonis esineda võivate vigade kohta ja võimaldab parandada transkriptsioonide loetavust. Dialoogiaktide märgendamine on seni toimunud käsitsi, kasutades abivahen- dina programmi (autor Evely Vutt, täiendanud Maret Valdisoo), mis hõlbustab sobiva akti valikut ja selle paigutamist märgendatavas tekstis vajalikku kohta. Test- versioonis on valminud tarkvara (autor Mark Fishel), mis jagab teksti lausungiteks ja märgendab automaatselt dialoogiaktid, kasutades masinõpet (Bayesi liigitajat), pakkudes igale lausungile kuni viis märgendusvarianti (vt ka Fishel 2007). Lingvist saab seejärel nende variantide hulgast (või ülejäänud aktipuust) sobiva(d) valida, samuti vajaduse korral muuta lausungipiire.

4. Mis kasu on korpusest?

Arvuti ja inimese suhtluse üks rakendusi on arvutiprogramm, mis vastab inimese küsimustele ja soovidele (annab telefoninumbreid, vahendab taksotellimusi vms). Niisuguse suhtluse tüüpiline mudel on selline, kus inimene helistab ja esitab oma küsimuse või soovi, arvuti aga peab sellele reageerima. Kõneleja võib põhimõtteliselt esitada oma akti kas küsimuse või direktiivi vormis ning valida ka eri küsimuse- liikide vahel. Dialoogi modelleerimise seisukohast on oluline teha selgeks, mille alusel kõnelejad valivad, kas kasutada direktiivi või küsimust (ning nt kas üld- või erikü- simust). Kui need valikud on sotsiaalselt tingitud, siis saaks arvuti seda teadmist kasutada, kui ta suudab analüüsida suhtluskaaslase sotsiaalseid omadusi. Kui näiteks naised kasutavad ühte ja mehed teist varianti, siis saab arvuti arvesse võtta, kes on tema partner, ja valida oma reaktsioonid vastavalt sellele. Kui valik on määratud situatiivselt, siis peab arvuti suutma eri tüüpi situatsioonides reageerida erinevalt. Käesoleva artikli jaoks analüüsisime ametiasutustesse helistavate klientide esmaseid päringuid – selliseid soove ja küsimusi, mis on kõneleja helistamise ees- märgiks, s.t pole eelpäringud, nt kas teil aega on ega ka vestluse käigus sündinud teisesed (alam)päringud. Valitud alamkorpuses on esindatud kolm situatsiooni- tüüpi: infotelefon, polikliiniku registratuur ja takso tellimine. Uurimisküsimuseks on, mis määrab, millises vormis inimene oma päringu esitab.

4.1. Direktiivid ja küsimused

Direktiivid ja küsimused on teineteisega tihedalt seotud aktirühmad, nii et mõned tüpoloogiad käsitlevadki neid ühe rühmana. Näiteks on DAMSL-is olemas aktirühm Info-requests (infopäringud), kuhu kuuluvad aktid, mis seavad kuulajale kohustuse 123 anda infot. Meie arvates on selline lähenemisviis liiga üldine. Kui keeles on olemas eri vormid suuresti samade tegevuste jaoks, siis on tõenäoline, et neil on ka erinevad kasutusvõimalused. Mõned aktitüpoloogiad eristavad direktiive ja küsimusi selle alusel, kas kasutaja vajab infot (mis kell läheb buss?) või soovib mõjutada kuulaja mittekommunikatiiv- seid tegevusi (too vett!). Esimest vaadatakse küsimusena ja teist direktiivina. Meie väidame, et dialoogi jätkumise seisukohalt pole oluline, kas kuulaja peab väljaspool dialoogi midagi tegema või ei. Ta peab igal juhul reageerima nii küsimusele kui ka direktiivile, sest mõlemad on naaberpaaride esiliikmed. Meie eristame direktiive ja küsimusi nende vormi alusel. Küsimused on pärin- gud, millel on spetsiifi lised keelelised tunnused (küsisõna, teatud sõnajärg jms), direktiividel selliseid spetsiifi lisi tunnuseid ei ole. Küsimusi võib omakorda liigitada oodatava reaktsiooni alusel: 1) infot ootavad avatud küsimused (nt millal väljub viimane buss?), 2) alternatiivküsimused (kas rong saabub esimesele või teisele teele?), 3) suletud kas-küsimused, 4) jutustavad kas-küsimused, 5) vastust pakku- vad küsimused. Suletud kas-küsimused ootavad vastuseks jah või ei. Jutustavaid kas-küsimusi väljendatakse eesti keeles samade vahenditega nagu suletud kas- küsimusi, kuid jah-vastuse asemel oodatakse info andmist nagu avatud küsimuste puhul (kas te saaksite mulle öelda X telefoni?). Vastust pakkuv küsimus sisaldab küsija oletusi õige või sobiva vastuse suhtes (pluss maksud, jah?; vt Hennoste, Rääbis 2004, Hennoste jt 2003, 2004, 2008, Koit jt 2006, 2008, Gerassimenko jt 2007).

4.2. Päringute analüüs

Analüüsitud korpuses esitati esmased päringud keeleliselt neljal erineval viisil: direktiiv, avatud küsimus, jutustav kas-küsimus, suletud kas-küsimus.

Tabel 2. Ülevaade analüüsitud alamkorpusest

Dia- Helistaja esimesed päringud (%) Situatsiooni looge Jutustavaid Avatud Suletud Muid tüüp Direktiive kokku kas -küsimusi küsimusi kas -küsimusi dialoogiakte Polikliiniku 26 50% 31% 4% 4% 11% registratuur Takso tellimine 22 77% 13% – 5% 5% Infotelefon 60 62% 17% 21% – – Kokku 108 62% 19% 13% 2% 4%

Tabel 2 näitab, et enamik päringutest on direktiivid. Kui rahulduda sellega, võik- sime järeldada, et keskne on direktiiv ja muud on sekundaarsed. Samas peab aga arvuti aru saama ka ebatüüpiliselt vormistatud päringutest. Teiseks, mõnikord on direktiivide ja küsimuste valikut seletatud viisakusega (küsimus on väidetavasti viisakam vorm) (vt nt Brown, Levinson 1987). Meie analüüs ei näidanud otseseid ühemõttelisi seoseid viisakuse ja küsimuse vormis esitatud päringu vahel. Eesti kee- les on viisakuse väljendamiseks ka muid vahendeid (tingiv kõneviis, viisakussõnad). Ainult seitse päringut (5 infotelefoni- ja 2 taksokõnet) on ilma nende markeriteta. Kolmandaks, on näha, et direktiive ja küsimusi kasutatakse erinevates situatsioo- 124 nides erineva sagedusega. See tõstatab probleemi, kas nende kasutus pole seotud eri situatsioonides otsitava info tüübiga. Avatud küsimused erinevad ülejäänutest selle poolest, et nende abil küsitakse küsisõna abil määratletud infot. Avatud küsi- mused algavad eri küsisõnadega, mille äratundmine ei valmista arvutile raskusi. Suletud kas-küsimusi ei kasutata päringute esitamiseks, vaid n-ö eelküsimusteks, tingimuste kaardistamiseks. Võrdleme omavahel direktiivide (DIE: SOOV) ja jutustavate kas-küsimuste (KYE: JUTUSTAV KAS) kasutamist, mida mõlemat kasutatakse samatüübiliste päringute esitamiseks. Meetodiks on vestlusanalüüs. Takso tellimine on suhtlus, milles helistaja ootab küll vastust (takso tuleb teile), aga keskne on dispetšeri eeldatav tegevus (takso saatmine). Tellimised esi- tatakse põhiliselt direktiivi abil (näide 6). (6) ma palun `taksot `Ringtee `kuuskend kaheksa `bee. DIE: SOOV Jutustavat kas-küsimust kasutati analüüsitud materjalis ainult kolmel korral. Kõiki neid ühendab helistaja ebakindlus päringu täidetavuse suhtes, sest see on ebatüü- piline (soovitakse kas kahte autot või ebatüüpilist autot, näide 7). (7) `on teil `kahte autot `Lossi `kolmteist saata KYE: JUTUSTAV KAS Võime üldistada, et siin väljendavad helistajad direktiiviga oma õigustatud ootust, et soov täidetakse (vrd inglise keele kohta Curl, Drew 2008). Helistamised polikliiniku registratuuri sisaldavad erinevaid päringuid. Kõige sagedamini soovitakse reserveerida arsti vastuvõtuaega. Ka siin ootab helis- taja eeskätt registraatori tegevust. Ka arsti vastuvõtuaja kokkuleppimiseks kasuta- vad helistajad enamasti direktiivi (näide 8). (8) ma sooviks doktor `Vaheri juurde `aega. DIE: SOOV Erinevalt takso tellimisest on siin mõned ettenägematud olukorrad (arstil ei pruugi olla soovitud ajal vastuvõttu jms). Siiski kasutati ka neil juhtudel enamasti direk- tiive. Küsimusi kasutatakse siis, kui päringu täitmine ei paista olevat garanteeritud (näide 9) (9) kas `teie=juurde `lapsi saab ka regist`reerida=vel `vana aasta sees=hh. KYE: JUTUSTAV KAS Lisaks küsivad helistajad ka infot nt soodustuste kohta. Erinevalt eelnevast on see otsene infosaamisele orienteeritud päring. Sellised päringud on korpuses väga harvad ja ka need vormistatakse küsimusena. Kõned infotelefonile erinevad nii takso tellimise kui ka registratuurikõnedest. Esiteks soovib helistaja siin alati saada infot, mitte ei oota tegevust. Teiseks, küsitud info on erinevat tüüpi. Meie alamkorpuses soovitakse enim telefoninumbreid (45 juhul ehk 75%). Vähem küsitakse aadresse, asutuste lahtiolekuaegu, ettevõtete tegevusalasid jms. Peaaegu kõik telefoninumbrite päringud (37) on vormistatud direktiivina (näide 10). Enamasti on numbrisoov selgelt ja täpselt formuleeritud. Vähestel juhtudel on aga helistaja ebakindel täpse aadressi või mõne muu asjaolu suhtes (nt selles, kas eraisikute numbrid on andmebaasis). (10) palun `Tallinna `Tõnismäe `hambapolikliinik. DIE: SOOV 125 Ka siin vormistatakse osa päringuid küsimusega. Mõnikord on tegemist üldise info- sooviga, mõnikord küsitakse spetsiifi list infot. Aga üldisi andmeid ja eriinfot päritakse ka direktiivi vormis. Millal helistaja valib küsimuse? Siingi on keskseks määrajaks asjaolu, et helistaja pole kindel oma soovi täitmise võimalikkuses (näide 11). (11) palun kas teil `on: `Vesseli kaupluse `numbrit `Elvas. KYE: JUTUSTAV KAS Kokkuvõtteks näeme, et enamasti vormistatakse päring direktiivi abil. Päringu formuleerimise vorm ei sõltu sellest, kas soovitakse infot või tegevust. Küsimuste kasutust ühendab üks joon: peaaegu kõik need on seletatavad helistaja ebakindlu- sega selle suhtes, kas päringut on võimalik täita. Lisaks aga tuleb välja teine üldistus: sagedaste ja tüüpiliste päringute esitamiseks kasutatakse kõigil juhtudel direktiivi, haruldase päringu jaoks küsimust. Samas võime arvata, et kõneleja on kindel sage- daste ja tüüpiliste asjade soovimises ja ebakindel haruldastel juhtudel.

5. Kokkuvõte

Me uurime ja võrdleme inimestevahelisi dialooge, eesmärgiga luua intelligentseid kasutajaliideseid, mis suudaksid vastata kasutajale niisamuti, nagu seda teeb ini- mesest ametnik. Me väidame, et kõneliideste loomiseks andmebaasidele on vaja uurida erinevat liiki inimestevahelisi ametikõnesid. Ühestainsast ametisuhtluse tüübist ei piisa, sest on tarvis teada, missugused nähtused on omased suulisele suhtlusele üldiselt, missuguseid keelelisi vahendeid kasutatakse ainult kindlates vestlustüüpides ja missugused on nendevahelised eri- nevused. Tuleb uurida suuri korpusi ja erinevaid allkeeli, et selgitada, kuidas ja miks inimesed kasutavad erinevate eesmärkide saavutamiseks erinevaid keelelisi vahen- deid. Kindlasti on meil vaja piiratud alamkorpusi kindlateks ülesanneteks või uuri- misvaldkondadeks, aga neid saab suure korpuse põhjal hõlpsasti moodustada.

Viidatud kirjandus Allwood, Jens; Ahlsén, Elisabeth; Björnberg, Maria; Nivre, Joakim 2001. Social activity and communication act-related coding. – J. Allwood (Ed.). Dialog Coding – Function and Grammar. Cothenburg Papers in Theoretical Linguistics 85. Göteborg Coding Schemas. Göteburg, 1–28. Brown, Penelope; Levinson, Stephen L. 1987. Politeness: Some Universals on Language Usage. Studies in Interactional Sociolinguistics 4. Cambridge: Cambridge University Press. Bunt, Harry 1999. Dynamic interpretation and dialogue theory. – M. M. Taylor, F. Néel, D. G. Bouwhuis (Eds.). The Structure of Multimodal Dialogue II. Philadelphia, Amsterdam: John Benjamins Publishing Company, 139–166. Curl, Traci S.; Drew, Paul 2008. Contingency and action: A comparison of two forms of requesting. – Research on Language and Social Interaction, 41, 1–25. Fishel, Mark 2007. Machine learning techniques in dialogue act recognition. – Estonian Papers in Applied Linguistics, 3, 117–134. Gerassimenko, Olga; Hennoste, Tiit; Kasterpalu, Riina; Koit, Mare; Rääbis, Andriela; Strandson, Krista; Valdisoo, Maret; Vutt, Evely 2007. Kliendi soovide automaatne tuvastamine eestikeelsetes infodialoogides. – Eesti Rakenduslingvistika Ühingu aastaraamat, 3, 134–154. 126 Hennoste, Tiit 2000. Eesti suulise kõne uurimine: transkriptsioon, taust ja korpus. – Keel ja Kirjandus, 2, 91–106. Hennoste, Tiit 2002. Suulise kõne uurimine ja sõnaliigi probleemid. – R. Pajusalu, I. Tragel, T. Hennoste, H. Õim (toim.). Teoreetiline keeleteadus Eestis. Tartu Ülikooli üldkee- leteaduse õppetooli toimetised 4. Tartu: TÜ Kirjastus, 56–73. Hennoste, Tiit 2003. Suulise eesti keele uurimine: korpus. – Keel ja Kirjandus, 7, 481–500. Hennoste, Tiit; Lindström, Liina; Rääbis, Andriela; Toomet, Piret; Vellerind, Riina 2000. Eesti suulise kõne korpus ja mõne allkeele võrdlemise katse. – T. Hennoste (toim.). Arvutuslingvistikalt inimesele. Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 1. Tartu: TÜ Kirjastus, 245–284. Hennoste, Tiit; Koit, Mare; Kullasaar, Maret; Rääbis, Andriela; Vutt, Evely 2002a. Eesti dialoogikorpuse loomise probleemid. – R. Pajusalu, T. Hennoste (toim.). Tähenduse- püüdja. Pühendusteos professor Haldur Õimu 60. sünnipäevaks 22. jaanuaril 2002. Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 3. Tartu, 143–160. Hennoste, Tiit; Lindström, Liina; Gerassimenko, Olga; Jansons, Airi; Rääbis, Andriela; Strandson, Krista; Toomet, Piret; Vellerind, Riina 2002b. Suuline kõne ja morfoloo- giaanalüsaator. – R. Pajusalu, T. Hennoste (toim.). Tähendusepüüdja. Pühendusteos professor Haldur Õimu 60. sünnipäevaks 22. jaanuaril 2002. Tartu Ülikooli üldkee- leteaduse õppetooli toimetised 3. Tartu: TÜ Kirjastus, 161–171. Hennoste, Tiit; Koit, Mare; Rääbis, Andriela; Strandson, Krista; Valdisoo, Maret; Vutt, Evely 2003. Directives in Estonian information dialogues. – V. Matoušek, P. Mautner (Eds.). Text, Speech and Dialogue. Proceedings of the 6th International Conference, TSD 2003, České Budĕjovice, Czech Republic, September 8–12, 2003. Lecture Notes in Com puter Science, 2807. Berlin, Heidelberg: Springer Verlag, 406–411. doi:10.1007/ b13236 Hennoste, Tiit; Rääbis, Andriela 2004. Dialoogiaktid eesti infodialoogides: tüpoloogia ja analüüs. Tartu: TÜ Kirjastus. Hennoste, Tiit; Koit, Mare; Strandson, Krista; Rääbis, Andriela; Valdisoo, Maret; Vutt, Evely 2004. Küsimuste ja direktiivide märgendamine eestikeelsetes infodialoogides. – H. Metslang (koost.), M.-M. Sepper, J. Lepasaar (toim.). Toimiv keel II. Töid raken- duslingvistika alalt. Tallinna Pedagoogikaülikooli eesti fi loloogia osakonna toimetised 3. Tallinn: TPÜ Kirjastus, 138–154. Hennoste, Tiit; Gerassimenko, Olga; Kasterpalu, Riina; Koit, Mare; Rääbis, Andriela; Strand- son, Krista 2008. From human communication to intelligent user interfaces: Corpora of Spoken Estonian. – Proceedings of the Sixth International Language Resources and Evaluation (LREC’08), 2008, European Language Resources Association (ELRA), Marrakech, Morocco, May, 28–30. http://www.lrec-conf.org/proceedings/lrec2008/ summaries/518.html (29.09.2008). Hutchby, Ian; Wooffi tt, Robin 1998. Conversation Analysis. Principles, Practices and App- lications. Cambridge, UK: Polity Press. Jefferson, Gail 2004. Glossary of transcript symbols with an introduction. – G. H. Lerner (Ed.). Conversation Analysis. Studies from the First Generation. Amsterdam/Phila- delphia: John Benjamins, 13–59. Jokinen, Kristiina; Hurtig, Topi; Hynna, Kevin; Kanto, Kari; Kaipanen, Mauri; Kerminen, Antti 2001. Selforganizing dialogue management. – Proceedings of the Natural Lan- guage Pacifi c Rim Symposium (NLPRS). Workshop Neural Networks and Natural Language Processing, Tokyo, Japan. Kaalep, Heiki-Jaan 1997. An Estonian morphological analyser and the impact of a corpus on its development. – Computers and Humanities, 31 (2), 115–133. doi:10.1023/ A:1000668108369 Kaalep, Heiki-Jaan 1998. Tekstikorpuse abil loodud eesti keele morfoloogiaanalüsaator. – Keel ja Kirjandus, 1, 22–29. 127 Kasterpalu, Riina; Gerassimenko, Olga 2006. Vestlusanalüüs. – I. Tragel, H. Õim (toim.). Teoreetiline keeleteadus Eestis II. Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 7. Tartu: TÜ Kirjastus, 112–126. Koit, Mare 2003. Märgendatud dialoogikorpus kui keeleressurss. – M. Langemets, H. Sah- kai, M-M. Sepper (toim.). Toimiv keel I. Töid rakenduslingvistika alalt. Eesti Keele Instituudi toimetised 12. Tallinn: Eesti Keele Sihtasutus, 119–136. Koit, Mare 2007. Arvuti suhtluses. – Eesti Rakenduslingvistika Ühingu aastaraamat, 3, 193–209. Koit, Mare; Valdisoo, Maret; Gerassimenko, Olga; Hennoste, Tiit; Kasterpalu, Riina; Rääbis, Andriela; Strandson, Krista 2006. Processing of requests in Estonian institutional dialogues: Corpus analysis. – Petr Sojka, Ivan Kopecek, Karel Pala (Eds.). Text, Speech and Dialogue. 9th International Conference, TSD 2006. Brno, Czech Republic, Sep- tember 11–15, 2006. Proceedings. Lecture Notes in Computer Science, 4188. Berlin, Heidelberg: Springer Verlag, 621–628. doi:10.1007/11846406_78 Koit, Mare; Gerassimenko, Olga; Rääbis, Andriela; Strandson, Krista 2008. Developing a dialogue system: How to grant a customer´s directive? – P. Sojka, A. Horak, I. Kopecek, K. Pala (Eds.). Text, Speech and Dialogue. Proceedings of the 11th Interna- tional Conference, TSD 2008, Brno, Czech Republic, September 8–12, 2008. Lecture Notes in Computer Science, 5246. Berlin, Heidelberg: Springer-Verlag, 593–600. doi:10.1007/978-3-540-87391-4_75 Muischnek, Kadri; Müürisep, Kaili; Orav, Heili; Rääbis, Andriela; Uibo, Heli 2000. Süntak- tiline märgendamine – arvutiga ja käsitsi. – T. Hennoste (toim.). Arvutuslingvistikalt inimesele. Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 1. Tartu: TÜ Kirjastus, 219–243. Müürisepp, Kaili; Nigol, Helen; Uibo, Heli 2006. Eesti suulise keele korpuse automaatne pindsüntaktiline analüüs. – M. Koit, R. Pajusalu, H. Õim (toim.). Keel ja arvuti. Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 6. Tartu: TÜ Kirjastus, 72–84. Müürisep, Kaili; Nigol, Helen 2008. Where do parsing errors come from: The case of spoken Estonian. – P. Sojka, A. Horak, I. Kopecek, K. Pala (Eds.). Text, Speech and Dialogue. Proceedings of the 11th International Conference, TSD 2008, Brno, Czech Republic, September 8–12, 2008. Lecture Notes in Computer Science, 5246. Berlin, Heidelberg: Springer-Verlag, 161–168. doi:10.1007/978-3-540-87391-4_22 Roosmaa, Tiit; Koit, Mare; Muischnek, Kadri; Müürisep, Kaili; Puolakainen, Tiina; Uibo Heli 2003. Eesti keele arvutigrammatika: mis on tehtud ja kuidas edasi? – Keel ja Kirjandus, 3, 192–209. Schegloff, Emanuel A. 1979. The relevance of repair to Syntax-for-Conversation. – Talmy Givon (Ed.). Discourse and Syntax. Syntax and Semantics 12. New York: Academic Press, 261–288. Schegloff, Emanuel A.; Sacks, Harvey 1973. Opening up closings. – Semiotica, 4, 289–327. Stolcke, A.; Coccaro, N.; Bates, R.; Taylor, P.; Van Ess-Dykema, C.; Ries, K.; Shriberg, E.; Jurafsky, D.; Martin, R.; Meteer, M. 2000. Dialogue act modeling for automatic tag- ging and recognition of conversational speech. – Computational Linguistics, 26 (3), 339–373. doi:10.1162/089120100561737 Treumuth, Margus 2005. A software tool for the Estonian Dialogue Corpus. – Proceedings of Second Baltic Conference on Human Language Technologies, Tallinn, 4–5 April, 341–346. Treumuth, Margus; Alumäe, Tanel; Meister, Einar 2006. A natural language interface to a theater information database. – T. Erjavec, J. Žganec Gros (Eds.). Language Techno- logies, IS-LTC 2006: Proceedings of 5th Slovenian and 1st International Conference, 9–10 October, Ljubljana, Slovenia. Ljubljana, 27–30. Valdisoo, Maret; Vutt, Evely; Koit, Mare 2003. On a method for designing a dialogue system and the experience of its application. – Journal of Computer and Systems Sciences International, 42 (3), 456–464. 128 Lisa. Kesksed transkriptsioonimärgid

Lausungid (vooruehitusüksused) . langev intonatsioon ? tõusev intonatsioon , poollangev intonatsioon Pausid (.) mikropaus: 0.2 sekundit või lühem (0.8) mõõdetud paus kümnendiksekundites Prosoodilised ja paralingvistilised nähtused ` graavis, rõhutatud sõna või silp >… < kiirem segment <… > aeglasem segment *… * vaiksem segment AHA valjem segment mhemhe naer s(h)õna naerdes hääldatud sõna @...@ hääletooni muutus, nt imiteerimine - sõna poolelijäämine : hääliku venitamine .hhh häälekas sissehingamine .jaa sissehingamise ajal hääldatud sõna =h häälekas väljahingamine (sõna lõpul) Pealerääkimine ja otsarääkimine = otsarääkimine (kahe üksuse vahel ei ole vaikust) [ pealerääkimise algus ] pealerääkimise lõpp Kommentaarid {--} transkribeerimatu segment (( )) transkribeerija kommentaar

Tiit Hennoste (Tartu Ülikool) on uurinud suulist eesti keelt ja suhtlust. [email protected]

Olga Gerassimenko (Tartu Ülikool) on uurinud tagasisidevahendeid eesti ja vene suulises suhtluses. [email protected]

Riina Kasterpalu (Tartu Ülikool) uurimisvaldkonnad on suuline suhtlus, dialoogi struktuur. [email protected]

Mare Koit (Tartu Ülikool) on uurinud dialoogi modelleerimist arvutil. [email protected]

Andriela Rääbis (Tartu Ülikool). Uurimisvaldkonnad on suuline kõne, telefonisuhtlus, infodialoogide struktuur. [email protected]

Krista Strandson (Tartu Ülikool) on uurinud parandusi suulises eesti keeles. [email protected]

129 CORPUS OF SPOKEN ESTONIAN AND HUMAN-COMPUTER INTERACTION

Tiit Hennoste, Olga Gerassimenko, Riina Kasterpalu, Mare Koit, Andriela Rääbis, Krista Strandson University of Tartu

We argue for the necessity of studying human-human spoken conversations of various kinds in order to create user interfaces to databases. An effi cient human- computer dialogue system benefi ts from a well-organized corpus that can be used for investigating the strategies people use in conversations in order to be effi cient and to handle the problems of spoken communication. For modelling natural behaviour and for testing the model we need a dialogue corpus where the roles of participants are close to the roles of a dialogue system and its user. For creating a user interface the corpus of one institutional conversation type is insuffi cient, since we need to know what phenomena are inherent to spoken language in general, what means are used only in certain types of conversations and what the differences are. For that reason, we collect and investigate the Corpus of Spoken Estonian and the Estonian Dialogue Corpus (a subcorpus of the former) as sources for investigating human-human interaction. The transcription conventions and annotation typology of spoken human-human dialogues in Estonian are introduced. Application of the Estonian Dialogue Corpus for investigating formal and functional characteristics of requests in information dialogues is presented

Keywords: corpus of spoken language, dialogue corpus, transcription, dialogue acts, annotation, spoken interaction, Estonian

130 HALDUSTEKSTI STRUKTUURIST TARTU LINNAVALITSUSE KORRALDUSTE NÄITEL

Katrin Mandra

Ülevaade. Artiklis vaadeldakse Tartu Linnavalitsuse korralduste näitel, milline on sellistes haldustekstides lause süntaktiline struktuur ning mis tähendusi struktuurist lähtuvalt korraldustele omistada võib.

Haldustekste ei ole tekstiliigi seisukohast palju uuritud, mistõttu ongi 5, 131–141 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT huvitav ajakirjandustekstide ja õigustekstide kõrval välja selgitada haldustekste iseloomustavad erijooned. Autorit huvitab korraldustes esitatud otsuste süntaks, funktsionaalsete protsesside ja protsessi- osaliste väljendamise viisid. Protsessiliike vaadeldakse eesmärgiga välja selgitada, kas verbide primaarne leksikaalne tähendus ja kor- ralduskontekstis representeeritav tegevustähendus langevad kokku. Agendianalüüsi eesmärgiks on osaliste tegelike sotsiaalsete rollide ja tekstis esitatavate grammatiliste rollide võrdlus – kas ja kuivõrd nad ühilduvad mis tegevusi neile omistatakse.* Võtmesõnad: tekstilingvistika, tekstiliik, funktsionaalne grammatika, süntaks, eesti keel

Sissejuhatus

Haldustekste loovad ja kasutavad seadusandlik, täidesaatev ja kohtusüsteem. Halduse keele all mõistetakse haldussüsteemi kirjalikku keelekasutust ja haldusdo- kumentide keelekasutust. Haldusdokumendil on järgmised funktsioonid: tõenda- mine, info edastamine, info liigendamine ja korrastamine. Tõendusfunktsiooniga haldusdokumente vormistatakse praegu paberil, informatiivse funktsiooniga hal- dusdokumendid võivad esineda ka ainult elektroonilisel kujul. (Kukk 2003: 96) Artikli analüüsimaterjal on pärit avalikust dokumendiregistrist Tartu Linna- valitsuse koduleheküljel.1 Uurimisobjektiks on valitud korraldused, sest materjali- hulk on selgesti piiritletav, piisavalt mahukas ning kergesti ligipääsetav. Tüüpiline korraldus koosneb kahest poolest – esimeses ehk preambulis esitatakse korralduse

131 * Artikkel on valminud Eesti Teadusfondi grandi nr 6236 osalisel toel. 1 http://www.tartu.ee/?page_id=1257&lang_id=1&menu_id=2&lotus_url=/webaktid.nsf/WebKorraldused?Open View&Start=1&Count=100&RestrictToCategory=Tartu_Linnavalitsuse_2007.a._korraldused (16.02.2009). aluseks olev seadustekst ja teises osas on kirjas seadusest lähtuv otsus. Siinses artiklis vaadeldakse korralduse teist poolt ehk seda, kuidas on esitatud korralduses sisalduv otsus. Fookusesse on võetud kolm küsimust: 1) milline on korralduse otsuseosa süntaktiline struktuur; 2) milline on otsuse sisu, s.t direktiivsete protsesside funktsionaalne liigitus; 3) kes peab korralduse täitma, s.t kas ja kuidas on esitatud deontilisuse agent. Analüüsi materjaliks on 2007. aasta novembris registreeritud korraldused, mida kokku oli 91. Lauseid, mis otseselt andsid korralduse, otsustasid midagi, oli kokku 206. Valim on koostatud lähtudes artikli eesmärgist, s.t korraldusteksti otsustus- osa laused on oma olemuselt direktiivsed, sest neis fi kseeritakse kellelegi antav korraldus. Protsesside funktsionaalne liigitus näitab, milliste verbidega korraldusi esitatakse ja milline on nende verbide tegevustähendus. Korralduste agendianalüüs annab valimis ülevaate, kes on protsessiosalised, kuidas vormistatakse neid gram- matiliselt ja milline on nende tegelik sotsiaalne roll. Töö teoreetiline raamistik toetub M. A. K. Halliday funktsionaalsele grammati- kale, Roger Fowleri käsitlusele protsessiliikidest ja protsessiosalistest, viimaste osas ka Theo van Leeuweni seisukohtadele. Iga vaatenurga teoreetiline taust esitatakse vastava osa alguses.

Korralduste otsuslausete süntaks

Siinse ülevaate eesmärgiks on näidata, milline on tüüpiline korraldustekstis esitatav otsuslause ja kui püsiv või varieeruv on selle ülesehitus. Otsuslausete lauseehitus on aluseks hilisemale protsessi ja agendianalüüsile. Eristuvad kolm struktuuritüüpi. Kõik otsuslaused sisaldavad subjektist ja predikaadist koosnevat pealauset Tartu linnavalitsus otsustab, millele järgneb koolon. Korraldust ennast esitav osa on vormistatud sekundaarse verbitarindina, mille peasõnaks on da-infi nitiiv (1, 2), või kõrvallausena, mille alguses puudub alistav sõna (3), nt (1) (Tartu Linnavalitsus otsustab): moodustada alates 3. detsembrist 2007. a Tartu Lasteaed Lotte juhataja asetäitja õppe- ja kasvatustöö alal ameti- koht. (27.11.2007. a nr 1383) (2) (Tartu Linnavalitsus otsustab): arhitektuuri ja ehituse osakonnal avalda- da kahe nädala jooksul informatsioon kasutusloa andmise kohta ajalehes Postimees ja Tartu linna koduleheküljel. (27.11.2007. a nr 1397) (3) (Tartu Linnavalitsus otsustab): koosseisuväliste ametikohtade teenistus- tähtaega pikendatakse järgmiselt .. (27.11.2007. a nr 1393) da-infi nitiivi juurde võib kuuluda adessiivis agentadverbiaal (2) või mitte (1). Sta- tistiliselt esineb otsustes kõige enam tüüpi (1) näiteid, järgnevad tüüpi (2) ja kõige vähem on (3) variante. Korraldustekstide laused on erineva keerukusastmega, sõltuvalt sellest, kui palju ja missugust infot peale korralduse sisu määrava verbi ja korralduse adressaadi neis lausetes veel sisaldub. Siinses artiklis sellele aspektile ei keskenduta, ent illustratsiooniks olgu esitatud mõned näitelaused, millest on näha, et silmatorkavalt palju esineb sisestatud konstruktsioone, eriti sekundaarse poolt-agendiga passiivseid partitsiiptarindeid, nominalisatsioone ja viiteid teistele 132 dokumentidele, mis muudavad lausest arusaamise keerukaks, kuna ühte lausesse mahutatakse sel viisil palju informatsiooni.

(4) (Tartu Linnavalitsus otsustab): kooskõlastada Raudteeinspektsiooni poolt esitatud ehitusloa taotlus nr 1065610 Tartu raudteejaama reisijate ooteplatvormi rekonstrueerimiseks ja ASi Eesti Raudtee poolt koostatud ehitusprojekt “Tartu raudteejaam. Reisijate ääreooteplatvorm” (töö nr E 03-07). (06.11.2007. a nr 1338) (5) (Tartu Linnavalitsus otsustab): korrigeerida planeeringut vastavalt Tartu Linnavalitsuse 2. oktoobri 2007. a korraldusele nr 1183 “Seisukoha võtmine Vahi 62 krundi ja lähiala detailplaneeringu avaliku väljapaneku jooksul laekunud ettepanekute ja vastuväidete osas, detailplaneeringu ava- liku arutelu aja ja koha määramine ning detailplaneeringu keskkonnamõju strateegilise hindamise algatamata jätmine” ning arvestades järgnevaid märkusi .. (06.11.2007. a nr 1335) (6) (Tartu Linnavalitsus otsustab): korralduses märgitud eesmärkide saavu- tamiseks anda linnaplaneerimise ja maakorralduse osakonna juhatajale UA-le õigus kinnistute ühendamiseks, katastriandmete muutmiseks ja uute katastriandmete alusel kinnistute jagamiseks ning ettenähtud võla- ja asjaõiguslepingute sõlmimiseks, samuti Tartu linna nimel vajalike doku- mentide allakirjutamiseks. (06.11.2007. a nr 1332)

Kõikide näidete puhul on lausestusaste kõrge, s.t ühte lausesse on koondatud nii palju protsesse, et nende eristamine ja lausest arusaamine on raskendatud. On kujunenud kindlad lausemallid, millega otsuseid esitatakse. Kaks silmatorkavamat süntaktilist tunnust on, et osalausete eraldamiseks kasutatakse harva sidesõnu ja et kogu edastatav info tahetakse mahutada ühte lausesse.

Korralduste otsuslausete funktsionaalsed rühmad

Eespool selgus, et korraldused vormistatakse kas sekundaarse verbitarindina, mille peasõnaks on da-infi nitiiv koos adessiivis agentadverbiaaliga või ilma selleta, või kõrvallausena, mille algusest puudub sidend. Sellest lähtub järgnev funktsionaal- sete rühmade liigitus: millist tähendust otsuslause esitab, kui tema peasõnaks on da-infi nitiiv, ning millist rolli mängib sidendi puudumine otsuslause tähenduse seisukohast. da-infi nitiiv võib olla käsku väljendava lause predikaadiks (Mitte suitsetada! Jutt jätta! – vt nt Metslang 2004: 243−255). Samas on see üsna tavaline verbilaiend. Mati Erelt (1984: 4) defi neerib da-infi nitiivi kui sekundaarset predikaati, mis edastab sõltuvat, sisestatud, sekundaarset tegevust. Et korraldustes eelneb da-infi nitiivile koolon, rõhutab see da-infi nitiivi positsiooni iseseisva lause predikaadina, mitte sekundaarse verbilaiendina (vrd Tartu linnavalitsus otsustab korraldada näi- tuse .. ~ Tartu linnavalitsus otsustab: korraldada näitus ..). Vaatlen järgnevalt, mil- lise tähendusega da-infi nitiivis verbe korraldustes kasutatakse. Verbide primaarne leksikaalne tähendus ja korralduskontekstis representeeritav tegevustähendus ei lange alati kokku. Verbe liigitan funktsionaalsete protsesside järgi. 133 Protsesside liikide kohta on tuntuima käsitluse esitanud M. A. K. Halliday (1994: 88–92), kes oma funktsionaalses grammatikas eristab tekstina edastatavas situatsioonis kolme kategooriat: osalisi (ingl participant), protsesse (process) ning tingimusi (circumstance). Protsessi all mõistab Halliday sündmust, mis kee- lendatakse lauseks järgmiste küsimuste abil: “kes tegi mida, kus, millal, kuidas ja kellele”. Halliday järgi saab eristada kolme põhiprotsessi, milleks on materiaalsed, mentaalsed ja suhteprotsessid. Materiaalsed protsessid konstrueerivad tegelikku või kujuteldavat muutust, liikumist või tegevust. Neil on tavaliselt mingi konk- reetne, tajutav tulemus. Halliday liigitab materiaalseteks ka abstraktsed tegevused ja sündmused. Mentaalsed protsessid väljendavad mõtlemist, tundmist, tahtmist, tajumist ning suhteprotsessid kirjeldavad seisundit või olemist. Oma protsessiliigituse on välja töötanud ka Roger Fowler, kes toetub Halli- dayle ja kelle liigitus on n-ö modifi katsioon Halliday omast. Tekstis eristab Fowler järgmisi kategooriaid: tegevus (ingl action), protsess (process) ja seisund (state). Esimese puhul keegi teeb midagi, teise puhul midagi toimub ja kolmas lausetüüp annab edasi staatilist olukorda. Kõik need kategooriad omakorda võivad esineda kas materiaalsete, mentaalsete või verbaalsetena. (Fowler 1991: 73–74) Siinses artiklis toetutakse protsesside liigitamisel mõlemale autorile, eristades 1) materiaalseid (sh konkreetseid ja abstraktseid), 2) mentaalseid, 3) suhte- ehk seisun- diprotsesse ning 4) verbaalseid protsesse. Selgub, et korralduste funktsioonid on erinevad sõltuvalt sellest, kas kor- ralduse adressaat on linnavalitsus ise või keegi teine, keda kohustatakse. Neis näitelausetes, kus deontilisuse autoriteet (korralduse andja) ja deontilisuse agent (korralduse adressaat, vt järgmist peatükki) on erinevad, on ülekaalus konkreetsed materiaalsed protsessid. Alljärgnevates näideteski on variandis (7) arhitektuuri ja ehitusosakonnal kohustus avaldada oluline info meedias, samuti on ära määratud ajavahemik, millal korraldus peab täidetud olema. Konkreetsel tegevusel peab olema konkreetne resultaat. Samuti on näites (8), kus allüksusel tuleb korraldada registreering katastris. See on samuti tegevus, millel on reaalne resultaat ja on liht- salt kontrollitav, kas registreering on muudetud või mitte. Ka näites (9) on selline korraldus, kus linnamajanduse osakond peab esitama konkreetse paberi selleks, et saada mingi rahasumma. Tegemist on taas korraldusega teha mingi reaalne tegu, mille väljundiks on konkreetne dokument.

(7) (Tartu Linnavalitsus otsustab): Arhitektuuri ja ehitusosakonnal avalda- da kahe nädala jooksul informatsioon ehitusloa väljastamise kohta ajalehes Postimees ja Tartu linna koduleheküljel. (06.11.2007. a nr 1326) (8) (Tartu Linnavalitsus otsustab): Linnaplaneerimise ja maakorralduse osakonnal korraldada Turu tn 45D katastriüksuse sihtotstarbe muutmise registreerimine maakatastris. (06.11.2007. a nr 1327) (9) (Tartu Linnavalitsus otsustab): Linnamajanduse osakonnal esitada taotlus raha eraldamiseks 2007. a reservfondist p 1 nimetatud lepingu ettemaksu ja I osamaksu katteks summas 40 120 (nelikümmend tuhat ükssada kakskümmend) krooni. (27.11.2007. a nr 1390) Mitmekülgsem on protsesside pilt lausetes, kus deontiline autoriteet ja deontiline agent langevad kokku: linnavalitsus määrab, mida ta ise peab tegema. Ka selles rühmas on ülekaalus materiaalsed protsessid. Samas on tähelepanuväärne see, et 134 erinevalt eelmisest rühmast väljendab väga suur hulk neist tegelikult abstraktseid materiaalseid tegevusi. Ilmnes, et neil juhtudel, kui korralduses fi kseeritakse mõni tegevus, mis on suunatud linnavalitsusele endale, ei pruugi verbi primaarne leksi- kaalne tähendus ja korralduskontekstis representeeritav tegevustähendus kokku langeda. (10) (Tartu Linnavalitsus otsustab): võtta informatsioon Vahi 62 krundi ja lähiala detailplaneeringu avaliku väljapaneku tulemusi tutvustava avaliku arutelu tulemuste kohta teadmiseks. (06.11.2007. a nr 1335) (11) (Tartu Linnavalitsus otsustab): moodustada alates 3. detsembrist 2007. a Tartu Lasteaed Lotte juhataja asetäitja õppe- ja kasvatustöö alal ametikoht. (27.11.2007. a nr 1383) (12) (Tartu Linnavalitsus otsustab): muuta Pikk tn 60, 64 katastriüksuse (katastritunnus 79514:028:0009, registriosa nr 436403, sihtotstarve 100% ühiskondlike hoonete maa) sihtotstarvet ning määrata uueks katastriüksuse sihtotstarbeks 100% ärimaa (Ä). (13.11.2007. a nr 1350) Kõigi kolme näitelause verbid tähistavad materiaalseid protsesse: võtma, moo- dustama, muutma. Lausekontekstis saavad nad aga teise tähenduse ning muu- tuvad kasutatud konstruktsioonis konkreetsetest abstraktseteks. Näites (10) on materiaalne võtma konstruktsioonis võtma teadmiseks tegelikult mentaalne. Näidetes (11) ja (12) saavad materiaalsed moodustama ja muutma konstruktsioo- nides moodustama ametikohta ja muutma sihtotstarvet aga abstraktse sisulise tähenduse. Korralduste kontekst muudab nad abstraktseteks, kuna reaalselt ei moodusta Tartu linnavalitsus ametikohta mujal kui paberil ning samamoodi toimub ka sihtotstarbe muutmine. Samuti esineb korraldustes selliseid näiteid, kus ver- baalne tegevus osutub ütleja institutsionaalse võimurolli tõttu tegelikult reaalseks tegevuseks. Selliste funktsioonidega on lähemalt tegelenud kõnetegude teooria, vt nt Austin 1984: 94–164, Searle 1970: 22–50. (13) (Tartu Linnavalitsus otsustab): nimetada perearsti nimistu moodus- tamise õiguse andmise konkursikomisjoni Tartu linna esindajaks tervis- hoiuosakonna juhataja SK. (06.11.2007. a nr 1315) (14) (Tartu Linnavalitsus otsustab): nõustuda Narva mnt 84a maa erasta- misega aadressil Narva mnt 84 paiknevate korteriomandite omanikele. (12.11.2007. a nr 1353) (15) (Tartu Linnavalitsus otsustab): Keskkonnamõju hindamise algatamise otsusest teatada ametlikus väljaandes Ametlikud Teadaanded ja ajalehes Postimees 14 päeva jooksul. (20.11.2007. a nr 1367)

Primaarselt on kõigi kolme verbi (nimetama, nõustuma, teatama) tähendusväli verbaalne, ent korraldustes tähendab nii nimetamine, nõustumine kui ka teatamine reaalset tegevust, mille tulemusena reaalne isik SK kuulub komisjoni, kuhu ta enne ei kuulunud (näide 13), reaalsete isikute ring saab maaomanikeks (näide 14) ja otsus ilmub ajalehes (näide 15). Korralduste otsuslauseid vaadeldi ka sellest seisukohast, mil määral sisaldub tekstides direktiivseid protsesse. Eesti keele direktiivverbe on uurinud Heili Orav oma magistritöös, toetudes direktiivverbe defi neerides John R. Searle’ile, kelle 135 järgi on direktiivse kõneakti taotluseks panna kedagi midagi tegema. Tüüpiliselt mõeldakse sellise defi nitsiooniga käske ja palveid (Orav 1998: 26). Linnavalitsuse korralduste puhul ilmnes tendents, et lausetes, kus agendiks oli Tartu Linnavalitsus, kasutati kõige sagedamini just direktiivverbe. Viis tavalisemat verbi korraldus- näidetes olid määrama (26 korda), volitama (20), tunnistama (15), sõlmima (13) ja kinnitama (10), millest kolm (määrama, volitama, kinnitama) võib liigitada direktiivverbideks. Põhjuseks on ilmselt korralduste olemus – jagada käske-korral- dusi, teha otsuseid ja need fi kseerida. Alljärgnevalt ka levinumate direktiivverbide lausenäited.

(16) Määrata Ravila tänav 65T kinnistule nimetuseks Klaasi tänav T5. (27.11.2007. a nr 1392) (17) Volitada lepingut sõlmima linnaplaneerimise ja maakorralduse osa- konna juhataja UA. (06.11.2007. a nr 1333) (18) Kinnitada haridusosakonna 2007. a fi nantseerimis- ja majandamiseel- arves ümberpaigutused vastavalt lisadele 1-2. (27.11.2007. a nr 1402)

Korralduste otsuslausete funktsionaalne analüüs näitas, et korralduste funktsioon sõltub sellest, kes on korralduse adressaadiks. Eristumine materiaalsete, mentaal- sete ja verbaalsete protsesside vahel toimub vaid grammatiliselt. Verbi leksikaalne tähendus ja korraldustähendus langevad enamasti kokku, kui korralduse agent ja autoriteet on erinevad. Kui aga korraldus on suunatud autoriteedile endale, tekkivad erinevused verbi leksikonitähenduse ja korralduses esitatava tegevustähenduse vahel. Eraldi nüansi lisas otsuslausetele ka direktiivverbide vaatlus – neid esines palju, mis ei ole üllatav, arvestades korralduste direktiivset iseloomu.

Korralduste otsuslausete protsessiosalised

Korralduste protsessiosalistest vaatlen kaht rolli: deontilisuse autoriteeti ja deontilisuse agenti. Theo van Leeuwen viitab, et osaliste rollijaotuse uurimine on paljude kriitilise tekstianalüüsiga tegelejate huviobjektiks, nimetades Norman Fairclough’d, Rodger Fowler’it, Gunther Kressi ja Robert Hodge’i ning Teun A. van Dijki. Teema on neil kõigil üks: keda esitatakse kui agenti (ingl actor) ja mis on agendi tegevuse eesmärk (goal). Küsimus on tekstiuurimises oluline, kuna osaliste tegelikud rollid sotsiaalses tegevuses ja grammatilised rollid, mida esitatakse tekstis, ei pruugi üldse ühilduda (Leeuwen 1996: 43). Esitusviis võimaldab osalejatel olla kas aktiivsetes või passiivsetes rollides (Leeuwen 1996: 43). Aktiivses rollis on osaline siis, kui teda esitatakse kui tegevuse liikumapanevat jõudu, passiivne on osaline aga käimasolevas tegevuses või tegevuse vastuvõtva poolena, aga samuti on passiivne ka toimumisprotsesside ja seisundi- protsesside osaline. Deontilisuse autoriteet (Tartu Linnavalitsus otsustab ..) on korraldusteksti aktiivne osaline, deontilisuse agendil on kaksipidine roll: korral- duse andja vaatepunktist on ta korralduse vastuvõtja ehk siis passiivne osaline, samas on ta süntaktiliselt sisestatud protsessi aktiivne tegija ehk see osaline, kes korralduse täidab. Teine tähtis moment osaliste nimetamise ja kategoriseerimise juures on nende üldistamine ja identifi tseerimine. Osalisi saab esitada kui üldistatud klasse 136 (rühma, hulka jmt) või täpsustatud, identifi tseeritavat osalist. Viimasel juhul on omakorda võimalik eristada identifi tseerimist üksikisiku või rühmana (kodanikud, meie) või kvantitatiivselt piiritletud hulgana (kolm ministrit). Nii rühmi kui ka üksikisikuid on võimalik esitada kas indefi niitselt (indefi niitsete pronoomenite või impersonaali abil) või defi niitselt (nimeliselt või funktsiooni ja identiteedi järgi). Indeterminatsiooniga on tegemist juhul, kui osalisi esitatakse täpsustamata, ano- nüümsete indiviidide või gruppidena; determinatsioonist saame rääkida siis, kui nende osaliste identiteet on ühel või teisel viisil täpsustatud. Tüüpiliselt väljendub indetermineeritus umbmääraste asesõnade abil, nt keegi, miski, mingi, mingi- sugune. Kategoriseerimist vaadeldakse põhiliselt kahest aspektist: kas osaline on määratletud tema tegevuse või isiklike omaduste kaudu. (Leeuwen 1996: 46, 51, Kasik 2006: 23) Tartu Linnavalitsuse korraldustes on kõigile protsessiosalistele ühine see, et alati on tegemist kollektiivse osalisega, kelleks on kollektiivsubstantiiviga väljen- datud institutsionaalne üksus. Protsessiosaliste vahel saab eristada kolmesuguseid suhteid: 1) Tartu Linnavalitsus esineb mõlemas rollis – ise ollakse nii autoriteet (korralduse andja) kui ka agent ehk korralduse täitja; 2) korralduse täitja on korralduse andjast erinev osaline, kelleks tavaliselt on linnavalitsuse allüksused, nt linnakantselei; 3) korraldustes esineb ka selliseid näiteid, kus on küll olemas autoriteet, kelleks alati on Tartu Linnavalitsus, ent agent on nimetamata. Vaatluse all olnud korraldustest u 70% otsuslausetes oli nii autoriteediks kui ka agendiks Tartu Linnavalitsus ise, seega on korraldus iseendale suunatud tegevuse fi kseerimine, nt (19) (Tartu Linnavalitsus otsustab): eraldada linnavalitsuse reservfondist kokku 74 000 tuh krooni. (13.11.2007. a nr 1360) (20) (Tartu Linnavalitsus otsustab): tunnistada kehtetuks Tartu Linnavalit- suse 04. septembri 2007. a korraldus nr 1057 “Korteriomandite ostmine”. (27.11.2007. a nr 1387) (21) (Tartu Linnavalitsus otsustab): osaleda juhtpartnerina projektis “Dendropargi matkaraja rajamine”, mis esitatakse rahastamiseks Sihtasu- tusele Keskkonnainvesteeringute Keskus keskkonnaprogrammi raames. (13.11.2007. a nr 1348) Näites (19) otsustab linnavalitsus, et peab eraldama raha, (20) puhul otsustab tunnis- tada enda varasema korralduse kehtetuks ning näites (21) fi kseeritakse ära enda osalus projektis. Osalejate vaatlemise seisukohast on korraldused huvipakkuv materjal, sest ehkki tegemist on ametlike dokumentidega, kus määratakse ära eri poolte kohustused, on esitusviisis paras hulk ebamäärasust. Verbi laiendava da-infi nitiivitarindi korral on tegevussubjekt sama kui lause subjekt, juhul kui sekundaarse tegevuse subjekti eraldi ei märgita. Samas koolon pealause ja da-infi nitiiviga tarindi vahel võimaldab viimast käsitada omaette osalausena, kus da-infi nitiivse predikaadiga kaasneb umb- isikulisus, ühine subjekt eelneva lausega ei ole enam nii enesestmõistetav. Seega Tartu Linnavalitsus võib küll loogiliselt olla agendiks, ent kellele konkreetselt korraldus antakse, jääb sel juhul otsuses ühemõtteliselt fi kseerimata. Korraldustes otsustatu tegematajätmise puhul on väga raske kedagi konkreetset vastutavaks teha. Umbes 20% lausenäidetes oli üheks osalejaks Tartu Linnavalitsuse allüksus. Autoriteetne linnavalitsus jagab käske oma allüksustele, vaid harvadel juhtudel 137 on agent keegi muu kui linnavalitsuse allosakond. Süntaktiliselt on deontilisuse agent alati vormistatud adessiivivormis agentadverbiaalina. Antud materjalis domineerisid kolm agenti: arhitektuuri ja ehituse osakond (22), linnaplaneerimise ja maakorralduse osakond (23) ja haridusosakond (24). (22) (Tartu Linnavalitsus otsustab): Arhitektuuri ja ehituse osakonnal väljastada ehitusluba Eha 11 krt 7 rekonstrueerimiseks. (06.11.2007. a nr 1326) (23) (Tartu Linnavalitsus otsustab): Linnaplaneerimise ja maakorralduse osakonnal korraldada korrigeeritud detailplaneeringu lahenduse tut- vustamiseks avalik arutelu. (06.11.2007. a nr 1335) (24) (Tartu Linnavalitsus otsustab): Tartu Linnavalitsuse Haridusosakonnal on õigus teha kuni 01. detsembrini 2007. a. kontsernikonto vahenditest punktis 1 märgitud summa ulatuses väljamakseid. (13.11.2007. a nr 1342) Nagu eespool märgitud, on tegevused, mille puhul linnavalitsus on vaid autori- teediks, oluliselt konkreetsemad võrreldes nende tegevustega, mida linnavalitsus endale suunatud korraldustes näitab. Näidetes (22) ja (23) esitatakse reaalsed tegevused, mida üks või teine osakond peab ära tegema. Näites (24) annab linnava- litsus oma osakonnale õiguse teatud summadega opereerimiseks. Kuna tegevused, mida esitatakse, on konkreetsed ja osalejadki on konkreetsemad kui eelmises näi- deteplokis esitatud Tartu Linnavalitsus, siis on neil osalejatel ka suurem vastutus. Osakond on kitsam üksus kui linnavalitsus tervikuna, ent kedagi individualiseeritult agendina ka ei nimetata. Kõige vähem esines uuritud materjalis selliseid näiteid, kus agent oli nime- tamata. Need näited moodustasid u 10% kogu materjalist. Võiks eeldada, et neid näiteid, kus agenti pole nimetatud, on võimalik tõlgendada nii, et see on linnavalitsus ise, ent tegelikult selgub korralduse ülejäänud tekstist, et agent on olemas, ehkki ta pole esitatud konkreetselt selles otsuslauses: (26) (Tartu Linnavalitsus otsustab): korrigeeritud planeerimislahendus esitada Tartu Linnavalitsusele avaliku väljapaneku korraldamiseks. (20.11.2007. a nr 1377) (27) (Tartu Linnavalitsus otsustab): planeeringu eskiislahendust tutvus- tada linnavolikogu arengu- ja planeerimiskomisjonis. (20.11.2007. a nr 1378) Niisiis iseloomustab protsessiosalisi kollektiivsus: osalejad on pea eranditult ins- titutsionaalsed kollektiivsed üksused, kes omavad otsuslausetes kolmesuguseid suhteid. Kuna suurema osa analüüsimaterjalist moodustasid sellised laused, kus nii autoriteet kui agent oli Tartu Linnavalitsus ise, siis näitab see ühelt poolt endale suunatud korralduste andmist, teiselt poolt aga seda, et päris täpselt ei öelda, kellele korraldus antakse. Väiksema rühma moodustasid sellised näited, kus agendiks oli linnavalitsuse allüksus, selline korraldus on konkreetsem, ent allüksus ei ole siiski konkreetne isik. Kõige vähem oli näiteid, kus agent oli nimetamata. Samas varase- mast tekstist saab aru, et selleks pole mitte linnavalitsus ise, vaid keegi anonüümne tegija. Agendikasutuse järgi saab korraldust iseloomustada kui teksti, mis ühelt poolt on dokument, mis fi kseerib kohustusi, teisalt aga ei ütle konkreetselt, kes peab tegema, kes on vastutav. 138 Kokkuvõte

Artiklis on vaadeldud korralduslausete süntaksit ning sellest lähtuvalt protsessiliike ja -osalisi. Analüüsitud korralduste süntaksit iseloomustab vormiliselt üheks lauseks liidetud protsesside suur hulk. Seetõttu on lausetes palju infi nitiiv- ja partitsiiptarin- deid ning nominalisatsioone, mis teeb laused pikaks ja struktuurilt keeruliseks. Verbidega edastatavate protsesside liigid on seostes protsessiosalistega. Lausetes, kus agendiks on linnavalitsuse allüksused, on otsuslausetes ülekaalus konkreetsed materiaalsed protsessid. Kui nii korralduse andjaks kui ka täitjaks on Tartu Linnavalitsus ise, siis on otsustena vormistatud protsessid abstraktsemad ja sagedamini mentaalsed või verbaalsed. Vaadeldi ka, kas verbide primaarne leksi- kaalne tähendus ja korralduskontekstis representeeritav tegevustähendus langevad kokku. Linnavalitsuse kui võimuinstitutsiooni iseloomu tõttu osutub verbaalne tegevus paljudel juhtudel reaalseks tegevuseks. Agendianalüüsi eesmärgiks on osaliste tegelike sotsiaalsete rollide ja tekstis esitatavate grammatiliste rollide võrdlus: kas ja kuivõrd nad ühilduvad, mis tegevusi neile omistatakse. Korralduste otsuslausete protsessiosaliste puhul on üheks pooleks, autoriteediks kõikidel juhtumitel Tartu Linnavalitsus. Enamasti ongi ka korralduste otsused suunatud linnavalitsusele endale, mis samas muudab vastutuse otsuste eest häguseks. Väiksem osa korralduste otsuseid on suunatud mõnele linnavalitsuse allüksusele ning sel juhul on ka tegevused konkreetsemad. Kui korralduse täitja on selle andjast erinev, siis on täitja vormistatud adessiivis agentadverbiaalina. Korraldustekstid on seega valdavalt suunatud korralduse andjale endale. Sellest tulenevalt aga ei ole neis esitatud protsessid alati oma tähenduselt sama konkreet- sed, kui võiks eeldada verbivalikust lähtudes.

Viidatud kirjandus Austin, John L. 1984. How to Do Things with Words. Oxford: Oxford University Press. Erelt, Mati 1984. da-infi nitiivi süntaktilised funktsioonid tänapäeva eesti keeles. Eesti NSV Teaduste Akadeemia Ühiskonnateaduste osakonna preprint KKI-24. Tallinn: Eesti NSV Teaduste Akadeemia. Fowler, Roger 1991. Language in the News. Discourse and Ideology in the Press. London and New York: Routledge. Halliday, M. A. K. 1994. An Introduction to Functional Grammar. Second edition. London: Arnold. Kasik, Reet 2006. Nominaliseeritud protsessi agent meediauudistes. – Emakeele Seltsi aastaraamat, 51 (2005), 21–37. Kukk, Inga 2003. Õiguse ja halduse keel. – Maire Raadik (toim.). Eesti kirjakeele kasutus- valdkondade seisundi uuring. Tallinna Pedagoogikaülikooli eesti fi loloogia osakonna toimetised 4. Tallinn: TPÜ Kirjastus 96–117. Leeuwen, T. van 1996. The representation of social actors. – C. R. Caldas-Coulthard, M. Coult- hard (Eds.). Texts and Practices. London: Routledge, 32–70. Metslang, Helle 2004. Imperative and related matters in everyday Estonian. − Linguistica Uralica, 4, 243–255. Orav, Heili 1998. Eesti keele direktiivverbide semantilise välja struktuur tesaurusena. Magistritöö. Tartu Ülikool, eesti keele õppetool. Searle, John R. 1970. Speech Acts: An Essay in the Philosophy of Language. Cambridge: Cambridge University Press. 139 Võrgumaterjalid Tartu Linnavalitsuse veebileht http://www.tartu.ee/?page_id=1257&lang_id=1&menu_ id=2&lotus_url=/webaktid.nsf/WebKorraldused?OpenView&Start=1&Count=100& RestrictToCategory=Tartu_Linnavalitsuse_2007.a._korraldused (16.02.2009).

Katrin Mandra (Tartu Ülikool) uurimisvaldkonnad on avaliku halduse keelekasutus, kriitiline teksti analüüs. [email protected]

140 THE STRUCTURE OF THE ADMINISTRATIVE TEXTS ON THE EXAMPLE OF TARTU CITY GOVERNMENT

Katrin Mandra University of Tartu

Administrative language is the written language used by administrative organiza- tions and performed in administrative documents. These documents have the fol- lowing functions: to affi rm and impart information; to articulate and coordinate information. The present article has three subjects in focus: syntactic structure of regulations as an example of administrative texts; functional classifi cation of directive processes in these regulations and how the deontic agent (actor) is represented. Two main features characterize the syntactic structure of regulations. Con- junctions are rarely used between clauses. One can feel an urge to package all the information into one sentence. Therefore infi nitives, participles and nominaliza- tions with their complements are frequently used. It makes the sentences long and complicates their structure. Verbs impart processes in regulations. These processes are strongly tied in with the participants of the processes. If the city government subunits are represented as the deontic agent, material processes predominate. If the city government itself is the deontic agent, the represented processes are more abstract and more often mental or verbal. City government is always represented as the deontic authority. Mostly they address the regulations to themselves and it makes responsibility bleary. Lesser regulations are addressed to the subunits and then the actions are more concrete. If the agents differ from the authority, they are formulated as agent-adverbials in the adessive case. The fewest are examples with individual agents or without agents at all.

Keywords: text linguistics, text types, functional grammar, syntax, Estonian

141

EESTI VOKAALIKATEGOORIATE PIIRID VENE JA EESTI EMAKEELEGA KÕNELEJATE TAJURUUMIS

Lya Meister

Ülevaade. Vaatluse all on eesti ja vene emakeelega keelejuhtide eesti vokaalikategooriate taju. Töös püstitatud hüpoteeside kohaselt tajuvad

vene emakeelega kuulajad eesti vokaale /i/, /e/, /u/, /o/, /a/ ja /ä/ 5, 143–156 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT sarnaselt eesti keelejuhtidega – vokaalikategooriate piirid on mõlema rühma puhul lähedased. Probleemiks on aga vene häälikusüsteemi jaoks võõraste eesti vokaalikategooriate /ü/, /ö/ ja /õ/ eristamine, sest need on foneetiliselt lähedased vene /õ/-le. Tajukatse tarvis sünteesiti neljaformandilised eesti vokaaliprototüübid ja vahepealse kvaliteediga stiimulid, muutes formantsageduste väärtusi kindla sammuga, nii et saadud stiimulijada moodustas vokaaliprototüüpide vahelises ruumis diskreetse rastri (16–18 stiimulit iga vokaalipaari vahel, kokku 14 vokaa- lipaari). Stiimulid esitati kuulajatele juhuslikus järjekorras ja neil tuli otsustada, millist vokaali kahest võimalikust nad tajusid. Eksperimendi tulemused andsid kinnitust püstitatud hüpoteesidele.∗ Võtmesõnad: kategoriaalne taju, vokaal, kategooria piir, K1, K2, eesti keel, vene keel

1. Sissejuhatus

Reeglina on täiskasvanud võõrkeeleõppijal raskusi õpitava keele häälikute perfektse omandamisega nii häälduse kui taju tasemel – tulemuseks on sihtkeele tüüpilisest hääldusest hälbiv kõne, mida sihtkeele sünnipärased kõnelejad tajuvad aktsendina. Üldtunnustatud seisukoha järgi on võõrkeelse aktsendi peamiseks põhjuseks imi- kueas omandatud emakeelsed hääldus- ja tajumallid (Polivanov 1931, Trubetzkoy 1939, Lado 1957, Lenneberg 1967, Selinker 1972, Kuhl 1991, Best 1994, Flege 1995, Major 2001 jt).

143 * Artikkel on valminud riikliku programmi “Eesti keele keeletehnoloogiline tugi” ja sihtfi nantseeritava teema “Usaldus väärsed tarkvara- ja inimkeeletehnoloogiad” toel. Esimese eluaasta jooksul omandab laps oma emakeele põhilised fonoloogi- lised kategooriad (Cheour jt 1998) ja õpib segmenteerima pidevat kõnesignaali diskreetseteks segmentideks – vokaalideks ning konsonantideks. Eksperimentaal- sed uuringud on näidanud, et vokaalikategooriad kujunevad välja esimese 6 kuu jooksul (Kuhl jt 1992, Polka, Werker 1994), konsonantide kategooriad aga 10-12 kuu vanuselt (Werker, Tees 1984). Emakeele häälikumallide omandamise järel kurdistub lapse kõnetaju emakeeles mitte-esinevate kategooriate suhtes. See nn “fonoloogiline kurtus” on püsiv ja põhjustab raskusi võõrkeeles esinevate kontras- tide tajumisel ning võõrkeele häälduse omandamisel (Dupoux, Peperkamp 2002). Fonoloogiline kurtus on määratud eelkõige emakeele fonoloogilise süsteemiga, see ilmneb erinevate võõrkeelte puhul erinevalt (sõltuvalt võõrkeele fonoloogilisest süsteemist) ja võib esineda nii segmentaalsete kui ka prosoodiliste kategooriate tajumisel. Mõned näited: 1) jaapanlastel on raskusi eristada inglise keele foneeme /r/ ja /l/ (Yamada 1995, jt), sest jaapani keeles on ainult üks liikvida – /r/, mis kuuldeliselt on lähedasem pigem inglise /l/-le kui /r/-le (Takagi 1993); 2) hispaania emakeelega kõnelejad ei erista inglise vokaalfoneeme /i/ ja /I/ ning vastendavad neile hispaania keele /i/-vokaali (Flege 1991); 3) kontrastiivne kestus (lühikeste- pikkade foneemide vastandus) on omane kvantiteedi-keeltele, näiteks jaapani, eesti ja soome keelele, kuid kestusvastandust ei esine näiteks prantsuse, vene ja hispaania keeles; 4) rõhu akustilisteks korrelaatideks on valjus, põhitooni sagedus ja kestus (Lehiste 1970), kuid mitte kõik keeled ei kasuta neid tunnuseid rõhu väljendamiseks – kontrastiivse kestusega keeltes ei ole kestus rõhu korrelaadiks (Hayes 1995), näiteks eesti keeles on rõhk seotud valjuse ja põhitooniga, kuid vene keeles eelkõige kestusega (Bondarko 1977). Võõrkeele häälikusüsteemi omandamine on otseselt seotud kõnetajuga ja sõltub sellest, kui lähedastena tajutakse emakeele ning sihtkeele akustiliselt ja arti- kulatoorselt sarnaseid häälikuid, ehk teisiti öeldes, kui suur on tajutud foneetiline kaugus emakeele ja sihtkeele vastenduvate üksuste vahel. Kõnetaju rolli võõrkeele fonoloogiliste kategooriate omandamisel käsitlevad kaks teoreetilist mudelit: pert- septiivse assimilatsiooni mudel (ingl Perceptual Assimilation Model – PAM) (Best 1994) ja kõne õppimise mudel (ingl Speech Learning Model – SLM) (Flege 1995). Kuigi nimetatud mudelid lähtuvad kõnekommunikatsiooni erinevatest aspektidest, sõltub mõlema mudeli kohaselt võõrkeele häälikusüsteemi omandamise edukus emakeele (K1) ja võõrkeele (K2) üksuste foneetilise kauguse tajust: 1) akustiliselt ja pertseptiivselt lähedasi K2 kategooriaid on raske eristada ja need assimileeruvad vastava(te) K1 kategooria(te)ga; 2) K1 kategooriast akustiliselt ja pertseptiivselt erineva K2 häälikuklassi jaoks luuakse uus kategooria. Töös uuritakse vene emakeelega eesti keelt võõrkeelena kõnelevate isikute eesti vokaalikategooriate taju, lähtudes eelnimetatud teoreetilistest mudelitest. Tajukatsetes kasutatakse sünteesitud stiimuleid, mis hõlmavad kõigi eesti vokaa- likategooriate piire. Vene emakeelega kuulajate testitulemusi hinnatakse võrdluses eesti keelt emakeelena kõnelejate kategooriapiiridega.

144 2. Eesti vs. vene vokaaliruum

Akustilises ruumis kirjeldatakse vokaale nelja esimese formandi (F1–F4) sage- dusega hertsides, kuid olulisemad vokaali kvaliteedi määramisel on kaks esimest formanti. Vokaalide artikulatoorseteks tunnusteks on keele kõrgus, keele ees/tagapool- sus ja huulte ümardatus. Eesti keeles eristatakse kolme keele kõrgusastet: [kõrge], [keskkõrge] ja [madal], kolme positsiooni ees-taga dimensioonis: [ees], [kesk] ja [taga] ning binaarset huulte ümardatuse tunnust [±ümar] (Eek 2008). Artikulatoor- sed ja akustilised tunnused on omavahel seotud järgmiselt: F1 sagedus on seotud keele kõrgusega – mida madalam on keele asend, seda kõrgem on F1 sagedus; F2 sagedus korreleerub keele tagapoolsuse tunnusega – mida eespoolsem, seda kõrgem on F2 sagedus; F3 sageduse alusel on võimalik eristada ümardatud ja ümardamata eesvokaale – ümardatud vokaalide F3 sagedus on madalam. F4-l ei ole vokaali arti- kulatoorsete tunnustega otsest seost, tegemist on kõnetrakti resonantssagedusega, mis mõjutab kõneleja isikupärast kõnetämbrit. Eesti keeles on üheksa vokaalfoneemi, mis binaarsete artikulatoorsete tunnuste alusel klassifi tseeritakse järgmiselt (Eek 2008).

Tabel 1. Eesti keele üheksa vokaalfoneemi artikulatoorsed tunnused

/ iüeöäõoua/ [taga] – ––––++++ [madal] – – + – – + [ümar] – + – + – + + [kõrge] + + – – – +

Vene keeles on 6 vokaali, mis keele kõrgusastme järgi jagunevad kõrgeteks – /i, u, õ/, keskkõrgeteks – /e, o/ ja madalaks /a/; häälduskoha paiknemise järgi ees- taga dimensioonis jagunevad need eesvokaalideks /i, e/ ja tagavokaalideks /u, o/. Raskusi on /a/ ja /õ/ määratlemisega – neid klassifi tseeritakse kui keskvokaale või siis nii ees- kui tagavokaalide hulka kuuluvateks (Ljubimova 1977: 24). Ainsa madala vokaalina on /a/ häälduskoht varieeruv, realiseerudes foneetilisest kon- tekstist sõltuvalt erinevate allofoonidena, näiteks palataliseeritud konsonantide vahel kui [æ] – сядь [s’æt’] ‘istu’, enne palataliseeritud konsonanti kui [a] – дать [dat’] ‘andma’ või palataliseerimata konsonandi järel kui [], kui talle järgneb [l]̴ – палка [plk̴ ] ‘kepp’ (Bondarko jt 2000: 26–28). Arikulatoorselt on vene /a/ siiski lähedasem taga- kui eesvokaalidele, seetõttu klassifi tseeritakse seda valdavalt tagavokaaliks (Bondarko 1977: 80). Sarnaselt /a/-ga esineb vene /õ/ erinevate allofoonidena sõltuvalt naaber- konsonantide artikulatoorsetest tunnustest, lisaks iseloomustab teda keeleasendi muutus vokaali häälduse jooksul keskmisest positsioonist eespoolsemaks, mistõttu kuuldub vokaal pigem diftongina /õi/. Tüüpiliselt realiseerub vene /õ/ keskvokaa- lina [] – ты [t] ‘sina’, velaarklusiilide ja postalveolaarsete frikatiivide naabruses aga tagavokaalina – шишка [∫∫k] ‘käbi’ (Bondarko jt 2000: 28). Et vene /õ/ on artikulatoorselt lähedasem pigem /u/-le kui /i/-le, siis klassifi tseeritakse teda kui ettepoole nihutatud tagavokaali (Ljubimova 1977: 27-28). 145 Vene emakeelega kõnelejate eestikeelse kõne uuringud on näidanud, et vene aktsendi sagedaseks tunnuseks on hälbed eesti vokaalide hääldamisel (L. Meister 2005). Et hääldus on otseselt seotud kõnetajuga, siis võib oletada, et uuritud K2 kõnelejad ei ole piisavalt hästi omandanud eesti keele vokaalikategooriaid. Kinni- tust sellele oletusele annavad uurimistulemused, mille kohaselt K2 taju areng on eelduseks K2 kategooriate korrektsele hääldamisele (Flege 1993, Llisterri 1995). Samuti on leitud, et väljakujunenud K2 tajumallide puhul on K2 hääldamine täpsem ja seetõttu pakub K2 tajukategooriate testimine hea võimaluse hääldusraskuste prognoosimiseks (Barry 1989). Vene emakeelega kõneleja jaoks on uuteks fonoloogilisteks kategooriateks eesti vokaalid /ü/, /ö/, /ä/ ja osaliselt ka /õ/, nende produktsioonis esinesid ulatusli- kumad hälbed eelkõige /ü/, /ö/ ja /õ/ korral; vokaalid /i/, /e/, /u/, /o/ ja /a/ on mõlemas keeles suhteliselt lähedase kvaliteediga, nende puhul langes K2 kõnelejate hääldus üsna hästi kokku eesti keelejuhtide hääldusega (L. Meister 2005). Kuidas seletada K2 kõnelejate hääldusvariatsioone ja millised hüpoteesid on otstarbekas püstitada eesti vokaalikategooriate tajueksperimendiks? Lähtudes PAM ja SLM mudelitest võib püstitada järgmised hüpoteesid. 1. Foneetiline kaugus eesti ja neile vastenduvate vene vokaalide /i/, /e/, /u/ ja /o/ vahel on väike ning seetõttu assimileeruvad eesti vokaalid vastavate vene vokaalidega: eesti vene /i/ /i/ /e/ /e/ /u/ /u/ /o/ /o/ 2. /a/ on vene vokaaliruumis ainus madal vokaal, vastav piirkond eesti vokaa- liruumis on jagatud vokaalide // ja /æ/ vahel, seega on tegemist binaarse kontrastiga: eesti vene //  /a/ /æ/ Kahe kategooria vastendumine K2 häälikusüsteemis ühele kategooriale emakeeles tekitab suuri probleeme K2 kategooriate eristamisel, näiteks on jaapanlastel raske tajuda inglise keele /l/ ja /r/ kategooriate erinevust. Olu- kord on tõenäoliselt erinev vene-eesti madalate vokaalide korral – et vene vokaal /a/ realiseerub kontekstist sõltuvalt [æ] või [] allofoonina, siis ei ole vastavate eesti vokaalide kvaliteedi kontrast vene emakeelega kuulajale võõras ja kategooriate eristamine kujuneb lihtsaks. Seda prognoosib ka SLM teooria hüpotees, mille kohaselt K1 ja K2 häälikud suhtestuvad teineteisega allofoonilisel tasemel, mitte abstraktsete foneemide tasemel (Flege 1995). Foneetiline kaugus vene allofoonide ja vastavate eesti vokaalikategooriate vahel on väike ning seetõttu võib oodata eesti vokaalide assimileerumist vastavate vene vokaalivariantidega: eesti vene // [] /æ/ [æ] 146 3. Eesti vokaalide /y/, /ø/ ja // lähimaks vasteks on vene vokaal //, seega on tegemist mitme kategooria assimilatsiooniga: eesti vene /y/ /ø/ // //

Foneetiline kaugus vastenduvate vokaalide vahel on suhteliselt väike, mistõttu on nende pertseptiivne eristamine ja seega ka uute kategooriate tekkimine K2 tajuruumis raskendatud. 4. Kui uued vokaalikategooriad on kõneleja K2 tajuruumis kinnistunud, siis on nende piirid lähedased eesti emakeelega keelejuhtide vastavate piiridega; kui kategooriad on alles kujunemisfaasis, siis on nende piirid hägusad.

3. Metoodika

Igale abstraktsele vokaalikategooriale vastendub akustilises ruumis mingi for- mantsagedustega F1–F4 määratletav piirkond, mille keskpunktis paikneb vastava vokaali prototüüp. Et vokaalid oleksid kuuldeliselt hästi eristatavad, paiknevad vokaalid akustilises ruumis üksteisest võrdsetel kaugustel (Liljencrants, Lindblom 1972). Kui vokaalisüsteemi lisandub uus vokaal, siis põhjustab see vokaalipiiride ümberjaotuse kogu süsteemis – nii peab näiteks eesti keelt õppiv vene emakeelega kõneleja “mahutama” seni kuue vokaali vahel jaotunud ruumi kolm uut vokaali. See saab toimuda ainult vanade kategooriapiiride ümberpaigutuse teel. Vokaalikategooria piiridele vastavate formantsageduste väärtuste leidmiseks kasutatakse tüüpiliselt metoodikat, mille raames viiakse läbi tajukatsed sünteesitud vokaalidega. Vokaalide formantsageduste väärtusi on muudetud kindla sammuga, nii et saadud stiimulijada moodustab kogu akustilist ruumi katva rastri. Näiteks eesti vokaalide sihtväärtuste ja vokaalipiiride leidmisel kasutati kaheformandilisi sünteesvokaale, mille puhul formantide väärtusi muudeti sammuga 0,33 barki (Eek, E. Meister 1994). Analoogses Turu ülikooli vokaalitestis kasutati kolmeformandi- seid stiimuleid, mille puhul F1 sammuks oli 30 melli, F2 sammuks 40 melli ja F3 muudeti 200 melli kaupa (Raimo, Savela, Aaltonen 2002). Stiimulite sünteesiks kasutatakse tüüpiliselt Klatt’i formantsünteesi mudelit (Klatt 1980). Stiimulid esitatakse keelejuhtidele vokaalipaaride kaupa juhuslikus järjekorras ja kuulajate ülesandeks on iga stiimuli kohta märkida, kas nad kuulevad vokaali X või vokaali Y. Tegemist on kategoriaalse taju testiga, kus stiimuleid, mille formandi- väärtused varieeruvad ühe kategooria piires, tajutakse valdavalt vokaalina X (vt joo- nis 1, stiimulid 1–6) või vokaalina Y (vt joonis 1, stiimulid 10–16), kategooriapiiri ümbruses jaotuvad tajuotsustused kahe kategooria vahel. Tulemusena saadakse tajukõver (vt joonis 1), kus kategooria piirina defi neeritakse stiimul, mille puhul kahe kategooria tajuskoor on võrdne (0,5), piirialasse kuuluvaks defi neeritakse tüüpiliselt stiimulid, mille puhul tajuskoor on vahemikus 0,25–0,75.

147 1 Piiriala laius 0,75

0,5

0,25 Kategooriapiiri

Kateggoria X tuvastuse osakaal tuvastuse X Kateggoria asukoht 0 1 2 3 4 5 6 7 8 9 10111213141516

Stiimulid Joonis 1. Kategooriatesti tajukõver

Järgnevalt kirjeldatava katse tulemusena saadakse K1 ja K2 keelejuhtide vokaali- kategooriate tajuskoorid, eelkõige pakuvad huvi kategooriapiiri asukoht ja piiriala laius K1 ja K2 keelejuhtide võrdluses.

3.1. Stiimulikorpus

Stiimulikorpuse sünteesil võeti vokaaliprototüüpide aluseks isoleeritult hääldatud eesti vokaalide formantsageduste mõõteandmed (kuue meeskõneleja keskmised) (Liiv, Remmel 1970), sest vokaalitüüpi esindavad paremini just hüperartikuleeritud vokaalid (Eek, E. Meister 1994).1 Vokaaliprototüüpide sünteesiks kasutati tarkva- rapaketti KlattWorks (tuntud Klatt’i mudeli realisatsioon) (McMurray, ilmumas). Sünteesi käigus kohandati (ümardati edasiste arvutuste lihtsustamiseks) mõningaid formandiväärtusi ja lõplikud neljaformandilised vokaaliprototüübid sünteesiti tabelis 2 toodud formandisagedustega.

Tabel 2. Sünteesitud vokaaliprototüüpide formandisagedused hertsides

/i/ /e/ /ä/ /ü/ /ö/ /õ/ /u/ /o/ /a/ F1 250 400 670 260 410 380 300 450 650 F2 2220 1950 1550 1750 1550 1150 660 800 1000 F3 3000 2580 2400 2200 2400 2160 2250 2460 2250 F4 3430 3350 3400 3220 3220 3220 3220 3300 3220

Järgnevalt sünteesiti baasvokaalidevahelised stiimulijadad (vt joonis 2) – igas jadas 16 kuni 18 stiimulit – muutes sammhaaval formantväärtusi F1–F4 (ΔF1 = 1–16 Hz, ΔF2 = 0–30 Hz, ΔF3 = 0–50 Hz, ΔF4 = 0–15 Hz sõltuvalt vokaalipaarist), koos baasvokaalidega kokku 243 stiimulit. Iga stiimuli kestus on 160 ms ja põhitooni sagedus 120 Hz.

148 1 Stiimulite sünteesil testiti ka muid formantsageduste mõõteandmeid, kuid ühel juhul (Eek, E. Meister 1994) on tegemist ainult ühe meeskõneleja andmetega, kus eesvokaalide [i] ja [y] kaugus akustilises ruumis on pigem ebatüü- piline, teise allika (Eek, E. Meister 1998) mõõteandmed pärinevad loetud sidusast kõnest, mille hääldus (s.t ka vokaali- de kvaliteet) erineb oluliselt isoleeritud hääldusest. 2300 2100 1900 1700 1500 1300 1100 900 700 500 200 /i/ /ü/ /u/ 300 /õ/ /ö/ 400 /e/ /o/ 500 F1, Hz

600 /a/ /ä/ 700

800

Joonis 2. Baasvokaalid (•) ja nendevahelised stiimulid (+) akustilises ruumis

3.2. Tajukatse

Tajukatseks kasutati eksperimendikeskkonda Praat (Boersma, Weenink 2008). Katse sisaldas 14 katseseeriat (14 vokaalipaari, 16–18 stiimulit igas jadas); iga stiimul kordus testis juhuslikus järjekorras kolm korda, seega esitati kuulajale hindamiseks kokku 729 stiimulit. Katseisikule esitati küsimus “Kas kuuldud häälik on V1 või V2?”, kus V1 ja V2 on vastava vokaalipaari vokaalid. Tegemist oli sundvalikuga, kus tajuotsustus tuli teha kahe alternatiivi vahel. Test viidi läbi müravabas ruumis, stiimulid esitati kuulajatele arvutist läbi kõrgekvaliteediliste kõrvaklappide, katse kestus oli ca 20 minutit. Katseisikutena osalesid 5 eesti emakeelega (2 meest, 3 naist) ja 9 vene emakee- lega (4 meest, 5 naist) isikut vanuses 20 kuni 52 aastat, kõik kõrgharidusega. K2 keelejuhid oskasid eesti keelt kesk- või kõrgtasemel, kuuldelise hinnangu põhjal oli nende kõnes tajutav nõrk kuni keskmine aktsent; eesti keelt hakkasid nad õppima vanuses 3 kuni 20 aastat.

4. Tulemused

Katsetulemuste töötlemisel arvutati K1 ja K2 gruppide keskmine tajuskoor iga stiimuli kohta, kusjuures välja jäeti üksikud selgelt hälbivad juhuslikud tajuotsus- tused (näiteks kui vokaaliprototüübile A lähedaste stiimulite korral tajuti vokaali B. Kategooriapiiri asukohaks defi neeriti stiimul, mille tajuskoor oli kõige lähem väärtusele 0,5; piiriala laius määrati tajuskoori väärtuste 0,25 ja 0,75 vahele jäävate stiimulite arvuga. Tajukatse tulemused on esitatud kokkuvõtvalt tabelis 3, kus on toodud ka piiri asukohale vastava stiimuli formandiväärtused F1 ja F2 ning piiri- ala laius hertsides. Joonisel 3 on esitatud baasvokaalid koos K1 ja K2 keelejuhtide tajutud vokaalikategooriate piirialadega.

149 Tabel 3. K1 ja K2 keelejuhtide tajutud vokaalikategooriate piirid ja piiriala laiused

K1 piir K2 piir Asukoht Laius Asukoht Laius Vokaali- Stiimuli- Stiimuli Stiimulite Stiimuli Stiimulite F1 F2 F1 F2 F1 F2 F1 F2 grupp jada number arv number arv a-ä 10 661 1275 2 2 61 10 661 1275 2 2 61 Ia a-o 8 538 888 1 13 13 8 538 888 1 13 13 i-ü 8 254 2014 2 1 59 9 255 1985 2 1 59 Ib ö-ä 10 556 1550 2 32 0 11 573 1550 2 32 0 u-o 9 375 730 2 19 18 10 384 739 2 28 26 õ-u 9 346 932 2 8 54 9 346 932 3 13 82 i-e 8 320 2094 2 20 36 8 320 2094 3 30 54 Ic õ-a 10 515 1075 2 30 17 10 515 1075 3 45 25 e-ä 11 559 1715 2 32 47 11 559 1715 3 48 71 õ-o 9 409 994 3 11 58 10 413 975 4 15 78 II e-ö 8 404 1794 2 1 44 7 403 1817 3 2 67 õ-ü 9 311 1483 3 19 100 8 304 1517 5 32 167 II ö-ü 9 335 1650 3 28 38 8 326 1663 5 47 63 õ-ö 9 401 1417 3 5 67 7 397 1372 5 8 111

F2, Hz 2300 2100 1900 1700 1500 1300 1100 900 700 500 200 /i/ /ü/ /u/ 300 /õ/ /ö/ 400 /e/ /o/ 500 F1, Hz

600 /a/ /ä/ 700

800 Joonis 3. Baasvokaalid (•) ning K1 (+) ja K2 () keelejuhtide tajutud vokaalikategooriate piirialad

Tabelis 3 on stiimulijadad jagatud kahte gruppi sõltuvalt K1 ja K2 keelejuhtide tulemuste võrdlusest. I grupi moodustavad stiimulijadad (vt joonis 4), mille puhul K1 ja K2 tulemused langevad kokku või siis erinevad ühe stiimulisammu võrra, jäädes loomuliku variatiivsuse piiridesse. See grupp on omakorda jagatud järg- misteks alamgruppideks: Ia – K1 ja K2 tajutud kategooriapiirid ning piiri laiused on identsed; Ib – K1 ja K2 piiriala laius on võrdne, kuid piiri asukoht on nihkes ühe stiimulisammu võrra; Ic – K1 ja K2 kategooriapiirid langevad kokku, kuid K2 piiriala on laiem; Id – K1 ja K2 piirid erinevad ühe stiimuli võrra ja piiriala laius on K2 tajuruumis suurem.

150 Ia: K1 ja K2 tajutud kategooriapiirid ning piiri laiused on võrdsed

/a/-/ä/ piir /a/-/o/ piir

1 1

0,75 0,75

0,5 0,5

0,25 0,25

0 0 123456789101112131415161718 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Ib: K1 ja K2 piiriala laius on võrdne, piiri asukoht on nihkes ühe stiimulisammu võrra

/i/-/ü/ piir /ö/-/ä/ piir

1 1

0,75 0,75

0,5 0,5

0,25 0,25

0 0 1234567891011121314151617 1 2 3 4 5 6 7 8 9 1011121314151617

/u/-/o/ piir

1

0,75

0,5

0,25

0 1 2 3 4 5 6 7 8 9 1011121314151617

Ic: K1 piir = K2 piir, K2 piiriala on laiem

/õ/-/u/ piir /i/-/e/ piir

1 1

0,75 0,75

0,5 0,5

0,25 0,25

0 0 1 2 3 4 5 6 7 8 9 101112131415161718 12345678910111213141516

151 /õ/-/a/ piir /e/-/ä/ piir

1 1

0,75 0,75

0,5 0,5

0,25 0,25

0 0 ' 1 2 3 4 5 6 7 8 9 101112131415161718 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Id: K1 ja K2 piirid erinevad, K2 piiriala laius on suurem

/õ/-/o/ piir /e/-/ö/ piir

1 1

0,75 0,75

0,5 0,5

0,25 0,25

0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Joonis 4. K1 (•, pidevjoon) ja K2 (, punktiirjoon) keelejuhtide tajukõverad vokaaligruppide Ia, Ib, Ic, Id stiimulijadade korral. Vertikaalteljel tajuskoor, horisontaalteljel stiimulite numbrid

II gruppi liigitati need stiimulijadad, mille puhul K1 ja K2 testitulemused on sel- gelt erinevad – tajutud kategooriapiirid ei lange kokku ning piiriala laiused on K2 tajuruumis tunduvalt suuremad (vt joonis 5).

/õ/-/ü/ piir /ö/-/ü/ piir

1 1

0,75 0,75

0,5 0,5

0,25 0,25

0 0 123456789101112131415161718 1 2 3 4 5 6 7 8 9 1011121314151617

/õ/-/ö/ piir

1

0,75

0,5

0,25

0 1 2 3 4 5 6 7 8 9 1011121314151617

Joonis 5. K1 (•, pidevjoon) ja K2 (, punktiirjoon) keelejuhtide tajukõverad II vokaaligrupi stiimulijadade korral. Vertikaalteljel tajuskoor, horisontaalteljel stiimulite numbrid 152 Tajutesti tulemused annavad kinnitust töös püstitatud hüpoteesidele. 1) Foneetiline kaugus eesti ja neile vastenduvate vene vokaalide /i/, /e/, /u/ ja /o/ vahel on väike ning seetõttu assimileeruvad eesti vokaalid vastavate vene vokaalidega. K2 keelejuhid tajusid vokaalide /i/, /e/, /u/ ja /o/ kate- gooriapiire oma lähinaabritega sarnaselt K1 keelejuhtidega: /i/-/e/ piir K1 ja K2 puhul paiknes samas kohas, K2 puhul oli piiriala pisut laiem; /u/-/o/ piir oli K2 tajuruumis pisut nihutatud /o/ suunas, piiriala laius oli mõlemal juhul sama. Piiride hälbed teiste naabervokaalidega (/i/-/ü/ ja /o/-/a/) jäid samuti ühe stiimulisammu piiresse. 2) Foneetiline kaugus vene vokaalfoneemi /a/ allofoonide [] ja [æ] ning vas- tavate eesti vokaalikategooriate /a/ ja /ä/ vahel on väike, assimileerumine leiab aset allofoonilisel tasandil. K2 keelejuhtide tajutulemused eesti /a/-/ä/ kategooriate eristamisel on lausa identsed K1 rühma tulemustega, sama tulemus saadi vokaalipaari /a/-/o/ puhul; K2 ja K1 rühmade tulemused teiste naaberkategooriate (/a/-/õ/, /ä/-/ö/ ja /ä/-/e/) piiride tajumisel erinevad minimaalselt. 3) Eesti vokaalide /ü/, /ö/ ja /õ/ lähimaks vasteks on vene vokaal //. Foneeti- line kaugus vastenduvate vokaalide vahel on suhteliselt väike, mistõttu on nende pertseptiivne eristamine ja uute kategooriate tekkimine K2 tajuruumis raskendatud – tulemustest nähtub, et K2 rühma /ü/-/ö/-/õ/ kategooriapiirid on laiemad ja piiri asukoht erinev võrreldes K1 rühmaga. Eelkõige on probleemiks uute kategooriapiiride asetus nimetatud vokaalide vahelises “siseruumis”, sest K2 kategooriapiirid “välisnaabritega” (/u/, /o/, /a/, /ä/, /e/ ja /i/) on hästi paigas ja hälbivad minimaalselt K1 vastavatest piiridest. 4) K2 tajuruumis kinnistunud vokaalikategooriate piirid on lähedased K1 keelejuhtide vastavate piiridega; kujunemisfaasis kategooriate piirid on hägusad – eesti vokaalikategooriate /i/, /e/, /u/, /o/ ja /ä/ piirid langevad K2 ja K1 rühmade puhul hästi kokku, s.t neid eristatakse lähedaselt eesti emakeelega kuulajatega. Võib järeldada, et nende vokaalikategooriate omandamine ei valmista K2 rühmale erilisi probleeme. K2 kategooria- piirid on hägusad uute vokaalikategooriate /ü/, /ö/ ja /õ/ puhul, nende kvaliteedierinevuste taju ja seetõttu ka produktsioon on vene emakeelega kuulajatele probleemiks.

5. Kokkuvõtteks

Tajukatsed näitasid, et 1) eesti vokaalide /i, e, u, o, a, ä/ kategooriapiire tajuvad vene emakeelega keelejuhid sarnaselt eestlastega, kuid 2) vokaalide /ü, ö, õ/ piirid on K2 tajuruumis tunduvalt hägusamad. Esimesel juhul on tegemist eesti vokaalikate- gooriate assimileerumisega akustiliselt ja pertseptiivselt lähedaste vene vokaaliva- riantidega, teisel juhul on tegemist vene vokaalisüsteemi jaoks uute kategooriatega, mis osaliselt assimileeruvad vene /õ/-vokaaliga. See, et uute vokaalikategooriate piirid K2 tajuruumis hälbivad vastavatest K1 piiridest, näitab, et need kategooriad ei ole omandatud emakeelega võrdsel tasemel. Saadud eksperimenditulemused on kooskõlas tuntud aktsenditeooriatega (SLM ja PAM).

153 Viidatud kirjandus Barry, William 1989. Perception and production of English vowels by German learners: Instrumental-phonetic support in language teaching. – Phonetica, 46, 155–168. Best, Catherine T. 1994. The emergence of native-language phonological infl uence in infants: A perceptual assimilation model. – J. Goodman, H. Nusbaum (Eds.). The Develop- ment of Speech Perception: The Transition from Speech Sounds to Spoken Words. Cambridge, MA: MIT Press, 167–224. Boersma, Paul; Weenink, David 2008. Praat: doing phonetics by computer. Version 5.0.36. Computer program. http://www.praat.org/ (20.07.2008). Bondarko 1977 = Бондарко, Л. В. 1977. Звуковой строй современного русского языка. Москва: Просвещение. Bondarko jt 2000 = Бондарко, Л. В.; Вербицкая, Л. А.; Гордина, М. В. 2000. Основы общей фоне тики. Санкт-Петербург: Филологический факультет Санкт- Петербургского государственного университета. Cheour, Marie; Ceponiene, Rita; Lehtokoski, Anne; Luuk, Aavo; Allik, Jüri; Alho, Kimmo; Näätänen, Risto 1998. Development of language-specifi c phoneme representations in the infant brain. – Nature Neuroscience, 1, 351–353. doi:10.1038/1561 Dupoux, Emmanuel; Peperkamp, Sharon 2002. Fossil markers of language development: phonological deafnesses in adult speech processing. – B. Laks, J. Durand (Eds.). Pho- netics, Phonology, and Cognition. Oxford: Oxford University Press, 168–190. Hayes, Bruce 1995. Metrical Stress Theory: Principles and Case Studies. Chicago, London: The University of Chicago Press. Eek, Arvo; Meister, Einar 1994. Eesti vokaalide sihtväärtused hääldus- ja tajuruumis. – Keel ja Kirjandus, 7, 404–413; 8, 476–483; 9, 548–553. Eek, Arvo; Meister, Einar 1998. Quality of Standard Estonian vowels in stressed and unstressed syllables of the feet in three distinctive quantity degrees. – Linguistica Uralica, 34 (3), 226–233. Eek, Arvo 2008. Eesti keele foneetika I. Tallinn: TTÜ Kirjastus. Flege, James E. 1991. The interlingual identifi cation of Spanish and English vowels: Ortho- graphic evidence. – Quarterly Journal of Experimental Psychology, 43A, 701–731. Flege, James E. 1993. Production and perception of a novel, second-language pho- netic contrast. – Journal of the Acoustical Society of America, 93, 1589–1608. doi:10.1121/1.406818 Flege, James E. 1995. Second language speech learning: Theory, fi ndings, and problems. – W. Strange (Ed.). Speech Perception and Linguistic Experience: Issues in Gross- Language Research. Timonium: York Press, 233–275. Klatt, Dennis H. 1980. Software for a Cascade/Parallel Synthesizer. – Journal of the Acousti- cal Society of America, 67, 971–995. doi:10.1121/1.383940 Kuhl, Patricia K. 1991. Human adults and human infants show a “perceptual magnet effect” for the prototypes of speech categories, monkeys do not. – Perception & Psycho- physics, 50, 93–107. Kuhl, Patricia K.; Williams, Karen A.; Lacerda, Francisco; Stevens, Kenneth N.; Lindblom, Bjorn 1992. Linguistic experience alters phonetic perception in infants by six months of age. – Science, 255/5044, 606–608. doi:10.1126/science.1736364 Lado, Robert 1957. Linguistics across Cultures: Applied Linguistics for Language Teachers. Ann Arbor: University of Michigan Press. Lehiste, Ilse 1970. Suprasegmentals. Cambridge MA, London: The MIT Press. Lenneberg, Eric H. 1967. The Biological Foundation of Language. New York: John Wiley. Liiv, Georg; Remmel, Mart 1970. On acoustic distinctions in the Estonian vowel system. – Soviet Fenno-Ugric Studies, 1, 7–23. Liljencrants, J.; Lindblom, B. 1972. Numerical simulation of vowel quality systems: the role of perceptual contrast. – Language, 48 (4), 839–862. doi:10.2307/411991 154 Ljubimova 1977 = Любимова, Н. А. 1977. Обучение русскому произношению. Москва: Русский язык. Llisterri, Joaquim 1995. Relationships between speech production and speech perception in a second language. – K. Elenius, P. Branderud (Eds.). Proceedings of the XIIIth International Congress of Phonetic Sciences. Vol 4. Stockholm, Sweden, 13-19 August 1995. Stockholm: KTH / Stockholm University, 92–99. Major, Roy C. 2001. Foreign Accent: The Ontogeny and Phylogeny of Second Language Phonology. Mahwah, New Jersey, London: Lawrence Erlbaum Associates Publish- ers. McMurray, Bob (ilmumas). KlattWorks: A [somewhat] new systematic approach to formant- based speech synthesis for empirical research. Meister, Lya 2005. Vene aktsent eesti keeles. Akustiline analüüs. Magistritöö. Tallinn: Tallinna Pedagoogikaülikool. Polivanov, E. D. 1931. La perception des sons d’une langue étrangère. – Travaux du Cercle linguistique de Prague, 4, 79–96. Polka, Linda; Werker, Janet F. 1994. Developmental changes in perception of non-native vowel contrasts. – Journal of Experimental Psychology: Human Perception and Per- formance, 20, 421–435. doi:10.1037/0096-1523.20.2.421 Raimo, Ilkka; Savela, Janne; Aaltonen, Olli 2002. The Turku vowel test. – P. Korhonen (Ed.). Fonetiikan Päivät 2002. The Phonetics Symposium 2002. Helsinki University of Technology, Laboratory of Acoustics and Audio Signal Processing. Report 67. Espoo, 45–52. Selinker, Larry 1972. Interlanguage. – International Review of Applied Linguistics, 10, 209–231. Takagi, Naoyuki 1993. Perception of American English /r/ and /l/ by Adult Japanese Learners of English: A Unifi ed View. PhD. dissertation. University of California, Irvine. Trubetzkoy, N. S. 1939. Grundzüge der Phonologie. – Traveaux de Cercle Linguistique de Prague, 7, 272. Werker, Janet F.; Tees, Richard C. 1984. Cross-language speech perception: evidence for perceptual reorganization during the fi rst year of life. – Infant Behavior and Develop- ment, 7, 49–63. doi:10.1016/S0163-6383(84)80022-3 Yamada, Reiko A. 1995. Age and acquisition of second language speech sounds perception of American English // and /l/ by native speakers of Japanese. – W. Strange (Ed.). Speech Perception and Linguistic Experience: Issues in Gross-Language Research. Timonium: York Press, 305–320.

Lya Meister (Tallinna Tehnikaülikooli Küberneetika Instituudi foneetika ja kõnetehnoloogia laboratoorium). Uurimisvaldkonnad on kõne analüüs, eksperimentaalfoneetika, võõrkeelne aktsent, kõnekorpused. [email protected]

155 ESTONIAN VOWEL CATEGORY BOUNDARIES IN THE PERCEPTION SPACE OF RUSSIAN AND ESTONIAN SUBJECTS

Lya Meister Tallinn University of Technology

Adult second language (L2) learners often face diffi culties in the pronunciation and perception of L2 speech segments. It is mainly due to the so-called phonological deaf- ness towards certain phonetic contrasts of L2, which develops after the acquisition of a child’s fi rst language (L1) phonetic inventory during its early years of life. The ability to perceive and distinguish L2 sounds depends on the phonetic distance between similar segments in L1 and L2. The aim of the study is to test the perception of Estonian vowel categories by L2 learn- ers of Estonian whose L1 is Russian. Estonian vowel system includes nine vowels whereas Russian has only six. Five of the Estonian vowels, /i/, /e/, /u/, /o/ and /a/, have their counterparts in Russian; the new vowel categories are /ü/, /ö/, /ä/, and partly /õ/. Four hypotheses were posed: 1. The Estonian vowels /i/, /e/, /u/ and /o/ will assimilate well with their Russian counterparts as their phonetic distance is close. 2. The Estonian /a/ and /ä/ will assimilate with the corresponding allophones in Russian. 3. The Estonian /ü/, /ö/ and /õ/ will all partly assimilate with the Russian /õ/; due to their close phonetic distance the ability of discrimination of these three categories is poor. 4. The boundaries of well-established vowel categories are similar for both L1 and L2 subjects, the boundaries of new vowel categories, if not acquired yet, are rather fuzzy. For the perceptual experiments four-formant vowel stimuli were synthesized including nine Estonian prototype vowels and intermediate steps (16 to 18 steps) between the proto- types. The stimuli set covered 14 vowel-pairs (vowel category boundaries); the duration of a single stimulus was 160 ms, the stimuli were played three times in random order, while the listeners had to answer the question “Did you hear vowel X or vowel Y?” by clicking the corresponding character on a computer screen. Five (2 male, 3 female) native Estonian subjects and nine (4 male, 5 female) non-native (Russian as L1) ones were involved in the experiment. All L2 subjects had low or mid-level foreign accent, their knowledge of Estonian was reported from average to high. Based on the perception results the location and the width of the vowel category boundaries were found for the L1 and the L2 subjects. The results of the perception tests confi rm our hypotheses: L2 subjects perceive Estonian vowels /i/, /e/, /u/, /o/, /a/ and /ä/ similarly as L1 subjects – just minor differences in the location and width of the vowel boundaries were found; whereas the boundaries of new vowel categories /ü/, /ö/ and /õ/ deviate signifi cantly in L2 subjects from those of L1 subjects. The fi ndings presented in the paper are in good harmony with accent theories such as Perceptual Assimilation Model (PAM) (Best 1994) and Speech Learning Model (SLM) (Flege 1995).

Keywords: categorical perception, vowel, category boundary, L1, L2, Estonian, Rus- 156 sian EESTI KEELE PÜSIÜHENDID ARVUTILINGVISTIKAS: MIKS JA KUIDAS

Heiki-Jaan Kaalep, Kadri Muischnek

Ülevaade. Artikkel räägib püsiühendite automaattöötlusest arvuti- lingvistikas. Püsiühendi all mõeldakse siin kahe või enama sõna(vormi) ühendit, mida mingi tähenduse väljendamiseks on tavaks koos kasuta- da; selle defi nitsiooni alla mahuvad nii idiomaatilised kui ka kolloka- EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT 5, 157–172 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT tiivsed ühendid. Arvutilingvistikas on püsiühendid probleemiks, sest nad komplitseerivad teksti alt-üles analüüsimudelit, mille järgi lause struktuuri ja tähenduse ehituskiviks on üksiksõna. Artikkel annab üle- vaate püsiühendite automaattöötluse kolmest etapist – püsiühendite tuvastamisest, nende leksikoni koostamisest ja püsiühendite märgen- damisest tekstis. Nende ülesannete lahendamiseks on arvutilingvistikas välja töötatud tüüpilised meetodid, kuid need meetodid on eesti keele kui vaba sõnajärjega morfoloogiliselt keeruka keele analüüsil raken- datavad ainult teatud reservatsioonide ja modifi katsioonidega. Artiklis analüüsitaksegi eesti keele “erivajadusi” selles vallas.* Võtmesõnad: arvutilingvistika, püsiühendid, püsiühendite tuvasta- mine, püsiühendite leksikon, püsiühendite märgendamine, eesti keel

1. Sissejuhatus

1.1. Mis on püsiühend?

Termini püsiühend inglise vaste multiword expression võttis arvutilingvistikas kasutusele Ivan A. Sag koos kaasautoritega 2002. aastal avaldatud paljuütleva pealkirjaga artiklis “Multiword expressions: A pain in the neck for the NLP” (Sag jt 2002).1 Püsiühendi all mõeldakse kahe või enama sõna(vormi) ühendit, mida mingi tähenduse väljendamiseks on tavaks koos kasutada. Need on keelendid, mida inimese mälus arvatavasti, aga hea arvutilingvistilise tarkvara leksikonis kindlasti talletatakse tervikutena. Samas on püsiühend omamoodi katustermin, mille alla

157 * Artikli valmimist on toetanud sihtfi nantseeritav teadusteema SF0180078s08. Autorid tänavad anonüümseid retsen sente asjatundlike märkuste ja kommentaaride eest. 1 Eesti traditsioonis on püsiühendi kohta kasutatud ka terminit fraseem (vt nt EKK 2007: 679). koondatud sõnaühendite grupid erinevad üksteisest nii oma püsivuse astme, tähen- duse moodustumise viisi kui ka süntaktilise struktuuri poolest. Miks on püsiühendid arvutilingvistikas omaette probleemiks? Võrreldes lauseid (1) ja (2) näeme, et nende sõnavormiline koostis on täpselt sama. Kui läheme ainult selle teadmisega edasi süntaktilisse analüüsi, siis saavad nii sõnavorm aru kui ka sõnavorm piima süntaktilise objekti analüüsi. Kuid need laused on erineva predikaadi, erineva argumendistruktuuri ja erineva tegevus- objektiga: ühe lause süntaktiliseks keskmeks on lihtverb saama, kuid teisel hoopis püsiühend: väljendverb aru saama. (1) Peeter ei saanud ülesandest aru. (2) Peeter ei saanud poest piima.

Seega: kui morfoloogia-tasandil ehk võibki käsitleda iga tühikutevahelist stringi omaette analüüsiüksusena, mis saab oma sõnaliigi ja grammatiliste kategooriate analüüsi, siis edasi, süntaktilise ja semantilise analüüsi jaoks, on oluline mitme- sõnalise leksikaalse üksuse või mitmesõnalise minimaalse semantilise üksuse tunnistamine ja äratundmine. Kui sagedased on püsiühendid tekstides? Tabelis 1 on toodud andmed lihtver- bide ja verbikesksete püsiühendite esinemise kohta u 314 000 sõnast koosnevas tekstikorpuses.

Tabel 1. Verbikesksete püsiühendite hulk tekstikorpuses

Tekstiklass Sõnesid Verbikeskseid püsiühendeid Üksi esinevaid põhiverbe Ilu 104000 4000 16800 Aja 111000 2600 14500 Hor 98000 2000 12600 Kokku 314300 8600 42900

Tekstiklassi märkivad lühendid tabelis 1: ilu – ilukirjandustekst, aja – ajakirjandus- tekst, hor – populaarteadusliku ajakirja Horisont tekstid. Põhiverbide all on siin mõeldud mitte-abiverbe (s.t nt verbi liitajavormist oli teinud läks arvesse ainult teinud) ja mitte-modaalverbe (s.t ühendist sai teha läks arvesse ainult teha). And- metest järeldub, et ilukirjanduse, ajakirjanduse ja populaarteaduse peale kokku on keskmiselt enam-vähem iga viies põhiverb mingi verbikeskse püsiühendi osa; ilukirjandustekstis on seda iga neljas põhiverb.

1.2. Püsiühendite liigitusest

Kuna erinevat liiki püsiühendid käituvad tekstis erinevalt ja järelikult tuleb neile ka automaattöötlusel erinevalt läheneda, siis vaadeldakse selles osas veidi lähemalt püsiühendite liigitust ja selle liigituse aluseid. Nagu juba eespool kirjas, on püsiühend omamoodi katustermin, mille alla koon- datud sõnaühendite grupid erinevad üksteisest oma püsivuse astme, süntaktilise struktuuri ja tähenduse moodustumise viisi poolest. Püsivuse astme all mõistetakse järgmisi tunnuseid. Kas püsiühendi kompo- nendid esinevad tekstis alati samas järjekorras, kas komponendid on alati kõrvuti või võib nende vahel olla püsiühendisse mittekuuluvaid sõnu? Nii on adverbifraas 158 läbi ja lõhki mõnes mõttes tühikuid sisaldav muutumatu sõna: selle püsiühendi komponentide vorm tekstis ei muutu ja komponentide järjestus on samuti alati sama, kuju *lõhki ja läbi ei esine. Püsivuse astmega on lähedalt seotud ka see, kas püsiühend on ainukordne sõnaühend või moodustatakse ta ühe sõna kombineerumisel mingi sõnade loendi või semantilisse välja kuuluvate sõnadega. Nii on väljendverb lööb lokku ainukordne ühend, kuid ühendid lööb/laseb/viskab hundiratast on moodustatud käändsõna kombineerumisel kindlasse sõnaloendisse kuuluvate verbidega ning ühendid ajab marru/raevu/vihale verbi kombineerumisel ühte semantilisse välja kuuluvate sõnavormidega. Oma süntaktiliselt struktuurilt võivad püsiühendid olla nii noomenifraasid – Egiptuse nuhtlus, löök allapoole vööd; adverbifraasid – läbi ja lõhki, maani täis; adpositsioonifraasid – (kellegi) käe läbi, metsa poole, kui ka verbi ja tema seotud laiendi püsivad ühendid – jalga laskma, läbi saama, kõnet pidama. Verbist ja tema laiendist koosnevate püsiühendite hulka saab omakorda jagada laiendi sõnaliigilise või fraasiliigilise kuuluvuse järgi (adverb või afi ksaaladverb vs. noomen või noo- menifraas vs. adpositsioonifraas) või süntaktilise (formaalselt objekti positsioonis vs. muu seotud laiend) kuuluvuse järgi. Järgnevalt vaatleme püsiühendi tähenduse moodustumise viise ja püsiühendite liigitumist selle alusel. Kui püsiühendi tähendus ei ole teda moodustavate sõnade tähenduste summa, on tegu idioomiga (nt laskis jalga, käis alla, lai leht). Idiomaatilisi ühendeid saab edasi liigitada, üks võimalik liigitus on näiteks läbipaistev–läbipaistmatu idiomaati- line ühend. Kui sõnad esinevad ühendis oma tavatähenduses, on tegu kollokatsioo- niga (nt kissitab silmi, kange kohv). Probleemiks on siin muidugi tavatähenduse piiritlemine, eriti väga polüseemsete või veidi laialivalguva ja ebamäärase tähen- dusega sõnade puhul, nagu seda on näiteks verbid tegema ja ajama või substantiiv asi. Kas liigitada väljend ajas asju kollokatiivseks või idiomaatiliseks ühendiks? Lõpuks sellest, kuidas need püsiühendite liigitamise alused omavahel kombi- neeruvad. Vaatleme lihtsuse mõttes ainult verbikeskseid püsiühendeid. Tähenduse moo- dustumine jagab nad idiomaatilisteks ja kollokatiivseteks ühenditeks. Idiomaa- tilised verbikesksed püsiühendid (eesti traditsioonis väljendverbid) jagunevad läbipaistmatuteks (peab lugu, saab vatti, tuleb toime) ja läbipaistvateks (laseb mingi ettevõtmise põhja, valib mingi tee, võtab sõna) idioomideks vastavalt sellele, kas keelekasutaja on võimeline mingit ühendit mõistma ilma seda eelnevalt vormi- tähenduse paarina omandamata või mitte. Läbipaistvus on skalaarne tunnus (vt nt Moon 1998: 23) ja keelekasutajati erinev. Püsivuse astmelt on läbipaistmatud idioomid üldjuhul ainukordsed ühendid. Läbipaistvate idioomide hulgas esineb ka neid, mis moodustatakse ühe sõna kom- bineerimisel mingi sõnaloendi või semantilise väljaga, ja kollokatsioonide hulgas on nii ainukordseid ühendeid kui ka ühe sõna kombinatsioone sõnaloendi või seman- tilise väljaga. Kõigi eesti keele verbikesksete püsiühendite komponentide järjestus muutub sõltuvalt lausetüübist ning komponentide vahel võib olla püsiühendisse mittekuuluvaid sõnu. Laiendi sõnaliik jagab verbikesksed püsiühendid verbi ja (afi ksaal)adverbi ühenditeks (ühendverbid) ning verbi ja noomeni(fraasi) või adpositsioonifraasi ühenditeks. Kuigi ühendverbe käsitletakse tavaliselt homogeense hulgana, on 159 nendegi seas nii idiomaatilisi kui ka mitte-idiomaatilisi ühendeid (nt sai kaotusest üle vs. hüppas kraavist üle). Huno Rätsep (1978) jagab verbi ja adverbi ühendid ainukordseteks (Toots kirjutas naabri pealt maha) ja korrapärasteks (alla/ üles/sisse/välja jne tulema/minema/jooksma jne) ühendverbideks. Esimesed moodustavad süntaktilise terviku, millest sõltuvad seotud laiendid (s.t on tervikuna predikaadiks), ent korrapäraste ühendverbide adverbilised komponendid ei kuulu H. Rätsepa järgi lihtlause verbaalsesse tsentrumisse, vaid on verbi seotud laiendid (Rätsep 1978: 28–29). Verbi ja käändsõna püsivate ühendite hulgas on samuti nii idiomaatilisi (nt needsamad peab lugu, võtab sõna) kui ka kollokatiivseid (vastab küsimusele, kehitab õlgu) ühendeid. Omaette rühmana eristuvad siin tugiverbiühendid, s.t verbi püsivad ühendid tegevust väljendava noomeniga, kus ühendi põhitähenduse annab noomen, verbi osaks on vaid verbile omaste grammatiliste tähenduste väljendamine ja noomeni sidumine muude osalistega selles lauses, nt teeb tööd, peavad sõda. Kui järgida aritmeetika-metafoori – fraaside või lausungite tähendus on seotud sõnade tähendustega nagu summa on seotud liidetavatega –, siis tugiverbiühendite puhul on tugiverbi enda tähendus null. Püsiühendite piiritlemisest ja liigitamisest on palju kirjutatud, kuid vähemalt Rosamund Mooni (1998: 2) ega Wolfgang Fleischeri (1982: 8) väitel pole selles kirjanduses üldaktsepteeritud ega üldkasutatavat terminoloogiat, eriti terminid kollokatsioon ja idioom on erinevates käsitlustes erineva mahuga. Üldiselt pais- tab korduvat väide, et püsiühendid moodustavad sellise jada, mille ühes otsas on täiesti fi kseerunud ühendid, millele saab tähenduse omistada ainult tervikuna, ja teises otsas kollokatiivsed ühendid, mille komponendid on oma põhitähendustes ja ühendi kui terviku tähendus moodustub tema osade tähenduste summast, kuid neid on mingi tähenduse väljendamiseks tavaks koos kasutada (nt Benson jt 1986: 252–254, Moon 1998: 19). Praktikas tähendab see seda, et püsiühendite hulga alamhulkadeks jagamisel jääb piirialadele ikkagi teatud hulk vaieldavalt klassifi tseeritud väljendeid.

1.3. Millest räägib see artikkel?

See artikkel räägib püsiühendite töötlemisest arvutilingvistikas, kusjuures kesken- dutakse selle töö kolmele etapile: püsiühendite tuvastamisele (artikli 2. osas), nende leksikoni koostamisele ja püsiühendite märgendamisele tekstis. Kuna viimased kaks etappi on omavahel tihedalt seotud, käsitletakse neid koos artikli 3. osas. Paar terminoloogilist märkust. Edaspidi kasutame väljendit püsiühendite tuvastamine tähistamaks sõnaühendite loendi moodustamist tekstikorpuse põhjal. Inglise keeles on käibel terminid collocation / multi-word expression / multi-word unit extraction. Kasutame väljendit püsiühendite märgendamine tähistamaks püsiühendite eksplitsiitset tähistamist tekstis. Esmapilgul jääb mulje, et püsiühendite töötlemise kaks etappi – nende tuvasta- mine ja püsiühendite märgendamine tekstis – moodustavad omamoodi ringtsükli: tekstist tuvastatud püsiühendid tuleb (kas samas või mõnes teises) tekstis uuesti märgendada. Milleks need kaks etappi, kas tuvastamise käigus ei saaks tuvastatavaid püsiühendeid kohe ka märgendada? Vastus on eitav, sest nagu järgnevas 2. osas täpsemalt kirjeldatud, põhineb püsiühendite tuvastamine sagedusel ja statistikal, 160 mis võimaldavad küll öelda, et selles tekstikorpuses esinevad näiteks sõnad järgi ja vaatama nii sageli üksteise naabruses, et tõenäoliselt on tegemist püsiühendiga. Kuid püsiühendite tekstist tuvastamise statistilised meetodid, millest osas 2.2 täpsemalt juttu tuleb, on võimetud otsustama, kas muutumatu sõna järgi ja verbi vaatama vormid moodustavad püsiühendi igas üksikus lauses, näiteks lausetes (3) ja (4). (3) Vaatan kohe märkmikust järgi. (4) Statistika järgi vaatab ETV saateid üle 60% eestimaalastest. Otsustada, kas püsiühendi potentsiaalsed komponendid nendes lausetes kokku kuuluvad ja püsiühendi moodustavad või mitte, saab ka statistiliste meetodite abil, mis aga erinevad meetoditest, mida kasutatakse püsiühendite tuvastamisel. Artikkel üritab läheneda teemale võimalikult laialt ja analüüsida igat tüüpi püsi- ühendite arvutitöötlusega seotud probleeme. Ent kuna autorid ise on põhjalikumalt tegelenud just verbikesksete püsiühenditega, siis on nendega seotud problemaatikat käsitletud suurema detailsusega.

2. Püsiühendite tuvastamine

Lühidalt, tekstikorpuse põhjal püsiühendite loendi moodustamiseks tuleb lahen- dada järgmised ülesanded. Kõigepealt tuleb tekstikorpusest leida n-ö ühendikan- didaadid, s.o sõnapaarid, ka -kolmikud või isegi -nelikud, mille komponendid paiknevad tekstis üksteise (kindlalt defi neeritud) naabruses või on omavahel seotud mingil muul moel, näiteks süntaktiliselt. Nende ühendikandidaatide hulgast leitakse tõenäolised püsiühendid kas lihtsa sageduse abil (esinevad sageli koos, järelikult kuuluvad kokku) või mõnda statistilist meetodit kasutades. Saadud tõenäoliste püsiühendite loend vajab pea alati inimese poolt ülevaatamist, enne kui selle põhjal saab koostada püsiühendite leksikoni või andmebaasi. Viimase loomisel liigitatakse püsiühendid alamhulkadesse ning lisatakse sõnaühendite loendile mitmesugust grammatilist ja/või kontekstuaalset infot, mis peaks hõlbustama nende püsiühen- dite märgendamist tekstis.

2.1. Ühendikandidaatide moodustamine

Püsiühendite tekstist tuvastamist alustatakse n-ö ühendikandidaatide moodusta- misega. Olgu meil lause (5): (5) Karjane kaotas lambad silmist, kuid leidis nad õhtu hakul jälle metsast üles. Kui me eelnevalt oleme teksti jaganud lauseteks, kuid mingil muul moel pole teksti töödelnud ning me ei sea ühendikandidaatide vahel esinevate sõnade arvule mingit ülempiiri, siis saame sellest lausest väga palju ühendikandidaate. Näiteks ühendi- kandidaadid, mille üks komponent on verbivorm kaotas, on järgmised: karjane kaotas, kaotas lambad, kaotas silmist, kaotas kuid, kaotas leidis, kaotas nad, kaotas õhtu, kaotas hakul, kaotas jälle, kaotas metsast, kaotas üles, lambad kaotas, silmist kaotas, kuid kaotas, leidis kaotas, nad kaotas, õhtu kaotas, hakul kaotas, 161 jälle kaotas, metsast kaotas, üles kaotas. On selge, et sellisel ühendikandidaatide moodustamise viisil on palju puudusi. Esiteks, valesid paare, s.t müra on liiga palju, sest paaride moodustamise kon- tekst on liiga pikk. Teiseks, moodustades ainult sõnavormide paare, hajub koos- esinemise sagedus sama ühendi eri muutevormide vahel. Kolmandaks, sellisel viisil moodustatud kandidaatpaaride komponentide järjekord järgib jäigalt sõnavormide järjekorda lauses. Näiteks lausetes (5), (6) ja (7) esineb ühendverb üles leidma kokku kolmel korral, kuid kirjeldatud viisil kandidaatpaare moodustades saaksime kolm erinevat ühendit: leidis üles, leidnud üles ja üles leidnud.

(6) Karjane ei leidnud lambaid üles. (7) Kui karjane oli lambad üles leidnud, läks ta nendega koju.

Loetletud probleemid ei ole üllatavad, kui me eeldame, et ühes lauses olevad sõnad on omavahel seotud, kuid sõnade lauses käitumise kohta ei ole meil mingeid tead- misi. Tegelikult saame oma keelealaseid teadmisi ja hüpoteese kasutades kandidaate siiski täpsemalt valida. Liiga pika konteksti vältimise lihtsaim viis on eeldada, et tihedamalt seotud sõnad on ka lauses üksteisele lähemal, ja määrata kindlaks kandidaatühendi komponentide maksimaalne kaugus üksteisest. Praktikas lubatakse tavaliselt komponentide vahele maksimaalselt neli sõna. Kuid näites (5) on ühendverbi komponentide leidis ja üles vahel viis sõna. Parem viis oleks piirata kandidaatpaaride moodustamist osalause- piiridega, kuid osalausete piiride määramine pole triviaalne ülesanne – see eeldab teksti täielikku morfoloogilist ühestamist ja vähemalt osalist süntaktilist analüüsi. Selleks, et ühendid leidis üles ja leidnud üles suudetaks lugeda sama ühendi muutevormideks, on tekstikorpus, millest püsiühendeid otsitakse, vaja morfoloogili- selt ühestada, s.t lisada igale tekstisõnale selles kontekstis ainuõige info tema lemma ja grammatiliste kategooriate kohta. Samas, ekslik oleks arvata, et morfoloogiliselt ühestatud korpust kasutades saame tekstisõnad kõrvale jätta ning tegeleda ainult lemmade koosesinemistega. Ühendverbide kui muutumatu sõna ja tekstis muutuva verbi ühendite tuvastamiseks võib tõesti kõik tekstisõnad asendada lemmadega, s.t leidis → leidma, leidnud → leidma ja üles → üles. Kuid verbi ja noomeni kindla muutevormi püsivate ühendite, näiteks väljendverbide puhul on asi teisiti. Näiteks näites (5) esineva väljendverbi silmist kaotama leidmiseks tuleb tekstis esinev verbivorm asendada lemmaga, kuid kui käändevorm silmist asendatakse tema lemmaga silm, saame ühesugused sõnapaarid silm kaotama lausetest (5), (8) ja (9), s.t eemaldatakse statistika poolt kasutatav info. (8) Ta kaotas oma alluvate silmis igasuguse usalduse. (9) Ta kaotas enne surma silma. Veelgi keerulisemaks teeb lemma vs. tekstisõna valiku asjaolu, et paljude verbi ja noomeni püsivate ühendite nominaalne komponent muutub tekstis vastavalt objekti käändevahelduse reeglitele (nt pidas kõne vs. ei pidanud kõnet, sirutas abistava käe vs. ei sirutanud abistavat kätt), vt täpsemalt (Muischnek 2006). Verbiühendite tuvastamisel tuleb arvestada ka eesti keelele omast vaba sõna- järge. Lausetest (6) ja (7) saame muude hulgas sõnapaarid üles leidma ja leidma üles, mis tuleb enne statistilisse töötlusse suunamist kas samale kujule viia või siis kasutada meetodit, mis ei arvesta paariliste järjekorda. 162 Eelpool öeldust saab järeldada, et korraga püüda tekstikorpusest kätte saada kõiki seal esinevaid püsiühendite liike on küllalt keeruline, sest nad käituvad tekstis niivõrd erinevalt. Näiteks vastupidiselt verbiühenditele nimisõnafraaside nagu kange kohv komponentide järjekord tekstis ei muutu, ka ei saa nende vahel olla muid sõnu; ühend käändub tekstis, kuid ühendi komponendid on alati samas käändes ja arvus (v.a neli viimast käänet). Ja vastupidi, ühendi hullu lehma tõbi esi- komponendid tekstis ei muutu. Nii et lihtsam on läheneda püsiühendite eri liikidele n-ö individuaalselt. Üks häid tulemusi andev meetod on süntaktiliselt analüüsitud korpuse kasutamine, piisab ka osalisest süntaktilisest analüüsist. Süntaktilise analüüsi põhjal saab tuvastada näiteks verbi ja tema objekti, verbi ja tema muude seotud laiendite paare, noomenifraasilisi püsiühendeid jms.

2.2. “Tõeliste” püsiühendite väljasõelumine

Kui tekstikorpuse põhjal on püsiühendikandidaadid moodustatud, järgneb n-ö müra väljafi ltreerimine ja püsiühendikandidaatide järjestamine. Mida keerulisemat meetodit kasutades (osalausepiiride arvestamine, morfoloogiline, süntaktiline analüüs) on moodustatud püsiühendite kandidaadid, seda vähem on vaja hiljem jõupingutusi teha müra väljafi ltreerimiseks. Mis on müra? Näiteks moodustades analüüsimata tekstist sõnapaare maksimaalse distantsiga neli sõna ja järjestades need sõnapaarid sageduse alusel, on sagedusloendi tipus sellised sõnavormipaarid nagu see on, ta on, ta oli, ja on, ja et, s.t sagedusloendi tipu paarid koosnevad väga sagedaste sõnavormide kombinatsioonidest. Aitab siin nn stopp-sõnade loend, s.t loend sõnadest või sõnavormidest, mida sisaldavad paarid ei ole kunagi otsitavad püsiühendid. Tavalised stopp-sõnad on enamik asesõnu, enamik sidesõnu, verbi olema vormid, sellised adverbid nagu ikka, enam, ainult jne. Kui otsitakse teatud tüüpi püsiühendeid, näiteks verbiühendeid, saab kasutada nn morfoloogilist fi ltrit, s.t statistilisse töötlusse suunatakse ainult need paarid, mille üks komponent on verb. Nüüd järgneb statistilise töötluse etapp. Lihtsaim statistiline meetod on lihtne sagedusloend, seda saab üpris edukalt kasutada siis, kui vähemalt üks otsitava püsiühendi komponent ei kuulu väga sagedaste sõnade hulka. Näiteks annab lihtsa sageduse kasutamine paremaid tulemusi väljendverbide kui ühendverbide puhul. Põhjuseks on asjaolu, et püsiühendeid kalduvad moodustama just sellised sagedased verbid nagu tegema, saama, pidama jt. Ka ühendverbi koosseisus esinev partikkel on väljaspool ühendverbi tekstis sagedasem kui väljendverbi komponendiks olev käändsõnavorm. Seega võivad partikkel ja verb küllaltki sageli esineda samas osalauses ilma tegelikult kokku kuulumata (vt näide 4), käändsõnavormi ja verbi puhul esineb sellist “müra” tunduvalt vähem. Sõnadevahelise seose tugevuse arvutamise aluseks keerulisemate statistiliste meetodite puhul on järgmine mõttekäik. Teades sõnaühendit moodustavate üksik- sõnade esinemissagedusi ühes tekstikorpuses, saame arvutada, kui sageli satuksid need kaks sõna üksteise naabrusse (nt samasse osalausesse) eeldusel, et sõnad esinevad tekstis juhuslikult. Seda teoreetilist/hüpoteetilist koosesinemise sagedust nimetatakse oodatavaks sageduseks. Tekstikorpusest leiame tegeliku (empiirilise) sageduse, mis näitab, kui sageli need sõnad tegelikult üksteise naabruses esine- 163 vad. On mitmesuguseid meetodeid, mis võimaldavad hinnata oodatava ja tegeliku sageduse erinevuste olulisust. Arvutilingvistikas on vastavaid valemeid kirjeldatud üle 80 (nt Pecina 2005) ja nende hulgast just käsiloleva ülesande lahendamiseks sobivaima leidmine pole lihtne. Põhjaliku ülevaate nendest seosetugevuse arvutusviisidest annab Stefan Evert (2004) oma doktoritöös, kus analüüsitakse rohkem kui 30 statistikut. Korpuslingvistika käsiraamatu kollokatsioone käsitlevas artiklis ütleb S. Evert (2008), et on pea või- matu soovitada üht, igasuguste andmete jaoks alati sobivat statistikut ning soovitab valida mitu, kuna need pakuvad koosesinemise andmestikule erinevaid vaatenurki. Eesti keele jaoks on rakendatud seosetugevuse mõõdikut nimega ühine ooda- tavus tuvastamaks verbikeskseid püsiühendeid tekstikorpuses (Kaalep, Muischnek 2003). Iga selliselt saadud püsiühendikandidaatide loend vajab inimese poolt üle- vaatamist. Mida rohkem tööd on tehtud korpuse eeltöötlemisel (osalausepiirid, morfoloogiline ja süntaktiline analüüs), stopp-sõnade loendi koostamisel ja just selle materjali jaoks sobiva statistiku(te) valimisel, seda “puhtam” on tulemuseks saadud sõnaühendite loend.

3. Püsiühendite automaatne märgendamine tekstis: programm ja andmebaas

Artikli see osa räägib püsiühendite andmebaasipõhisest märgendamisest. And- mebaasi ülesehitus ja seal esitatava info hulk sõltuvad märgendamisprogrammi algoritmist ja vastupidi: tarkvara loomisel tuleb otsustada, millist infot püsiühendite käitumisomaduste kohta peab sisaldama andmebaas ja mida saab hallata program- miga. Edasi analüüsitaksegi osas 3.1 kõigepealt neid nähtusi, millega püsiühendite märgendamise tarkvara peab toime tulema. Siis, osas 3.2 arutletakse, kuidas seda infot otstarbekalt jagada programmi ja andmebaasi vahel.

3.1. Püsiühendid tekstis

Mingi keelenähtuse automaatse märgendaja loomise eeltööks on märgendatava nähtuse käitumisomaduste uurimine. Püsiühendi leksikaalse andmebaasi põhise märgendamise korral on oluline teada, kas püsiühendid esinevad tekstis täpselt sellistena, nagu nad andmebaasi aluseks olevas väljendiloendis kirjas on, või, ole- nevalt püsiühendi tüübist, muutuvad suurema või väiksema vabadusega. Inglise keele keskses arvutilingvistikas peetakse reegliks sellist olukorda, et püsiühendid käituvad nagu “tühikutega sõnad” (nt ee läbi ja lõhki), mis esinevad alati samal kujul, ja alles hiljaaegu on avastatud, et ka näiteks idiomaatilised püsi- ühendid käituvad tekstis palju mitmekesisemalt kui seni arvatud (vt nt Riehemann 2001 3. ptk). Siinjuures kehtib üldine seaduspärasus, et mida läbipaistmatum on sõnaühendi tähendus, seda vähem ta (eesti keele puhul siiski ainult tema käänd- sõnaline komponent) tekstis varieeruda saab. Pikemalt saab verbikesksete püsiühendite varieerumisest tekstis lugeda artik- list (Muischnek 2006). Siinkohal peatume lühidalt püsiühendite märgendamise seisukohalt olulistel asjaoludel. 164 Eesti keele puhul on ilmselt olulisim muutemorfoloogia – kas otsitav keelend koosneb muutumatutest, käänd- või pöördsõnadest ja kuidas käänd- ja pöörd- sõnad selle ühendi koosseisus muutekategooriatega kombineeruvad. Eesti keele verbikeskse püsiühendi süntaktiliseks tuumaks olev verb kombineerub üldjuhul vabalt kõigi verbi jaoks relevantsete morfoloogiliste kategooriatega, tema käitu- mist piiravad pigem sellised tegurid, mis piiravad üldse verbide kombineerumist grammatiliste kategooriatega (näiteks üldiselt ei saa impersonaali moodustada verbist, mille tegevussubjektiks ei ole inimene, nt sajatakse), aga mitte verbi püsi- ühendisse kuulumisest tingitud piirangud. Siiski on verbikesksete püsiühendite hulgas ka selliseid, peamiselt pragmaatilise funktsiooniga ühendeid, mis esinevad ainult imperatiivis (nt võta näpust, võta või jäta, võta üht ja viska teist), mida tuleb automaattöötlusel kohelda muutumatute stringidena. Verbikeskse püsiühendi käändsõnaline komponent on enamasti n-ö kivistunud mingisse kindlasse käände- ja arvuvormi. Nii näiteks esineb ühendi joonde ajama käändsõnaline komponent ainult ainsuse lühikeses sisseütlevas; väljend pole võimalik kujul *joonesse ajama või *joontesse ajama või *joonele ajama. Ent teatud tingi- mustel võib verbikeskse püsiühendi käändsõnaline komponent siiski käändes ja/või arvus varieeruda. Järgnevalt vaatlemegi neid varieerumisvõimalusi lähemalt.

3.1.1. Varieerumine käändes

Suur osa verbikesksete püsiühendite käändsõnalistest komponentidest on vormili- selt verbi objektiks (nt saab aru, lööb lokku, teeb otsuse, paneb punkti). Eesti keele objekti iseloomustab teadagi käändevaheldus vastavalt objekti käändevahelduse reeglitele. Üldine reegel on see, et mida idiomaatilisem, kivinenum on väljend, seda kindlamini on tema käändsõnaline komponent kivistunud objekti markee- rimata käändesse – partitiivi. Läbipaistmatutes idioomides totaalobjekti ei esine, läbipaistvate idiomaatiliste ühendite puhul on aga umbes neljandik objektidest tekstikorpuses totaalsed, s.t genitiivis või nominatiivis (nt rääkis augu pähe, vahtis silmad peast, andis rohelise tee, tegi puhta töö). Tugiverbiühendites esitab objektnoomen subjekti poolt sooritatavat tegevust (nt tegi tööd, ajas juttu, tegi otsuse, sai alguse jne). Objekti käändevaheldus ei sõltu siin mitte niivõrd verbi, kuivõrd tegevust väljendava noomeni tähendusest – kas kirjeldatav tegevus on teeline, s.t kas tähenduse oluliseks tunnuseks on tegevuse tulemuslikkus (nt otsustamine, algamine), või ateeline, s.t tegevuse tulemuslikkus ei ole tähenduse oluliseks osaks (nt töötamine, vestlemine). Kui objektiga väljendatav tegevus on ateeline, on objekt alati partsiaalne ja sarnaneb selles mõttes ainesõnaga (10). Kui objektiga väljendatav tegevus on teeline, otsustab tema käändevahelduse lause perfektiivne/imperfektiivne aspekt (11-12).

(10) Pühapäeval pidasid nad suvilas pidu. (11) President pidas piduliku kõne. (12) President pidas parajasti kõnet, kui ..

165 3.1.2. Varieerumine arvus

Nii nagu varieerumine käändes, sõltub ka püsiühendi nominaalse komponendi arvuvahelduse võimalus püsiühendi tüübist. Läbipaistmatu idiomaatilise ühendi nominaalne komponent arvus ei muutu. Tugiverbiühendite ja kollokatiivsete ühen- dite objektnoomeni arvuvahelduse võimalus sõltub objektnoomenist: on kolloka- tiivse ühendi objektiks ainesõna (nt nõudis õigust, soovis õnne), arvuvaheldust ei toimu. Tugiverbiühendid käituvad vormiliselt sama üldreegli järgi, ent ainesõna sarnaselt mitmuses mitte esinev objektnoomen väljendab ateelist tegevust, mille puhul on rõhk tegevusel endal, mitte selle tulemuslikkusel (nt tegi tööd, avaldas mõju, andis abi). Kõige heterogeensemad on selles suhtes jällegi läbipaistvad idiomaatilised ühendid, mille hulgas leidub selliseid sõnapaare, mille nominaalne komponent võib olla nii ainsuses kui ka mitmuses (nt kortsutab kulmu~kulme, teeb silma~silmi, heidab varju~varje, toob ohvri~ohvreid). Predikaadina toimiva ühendi nominaalne komponent võib n-ö ühilduda arvus subjektiga (tema murrab pead vs. nemad murravad päid). Siiski esineb läbipaistvate idiomaatiliste ühendite varieerumist arvus vähem kui varieerumist käändes.

3.1.3. Püsiühendi komponentide paigutus

Lisaks muutemorfoloogiale on oluline ka püsiühendi komponentide võimalik sõnajärg – näiteks käändsõnafraasilistel püsiühenditel on see püsiv: sellises järje- korras nagu sõnad leksikoni on kantud, esinevad nad ka tekstis. Ent verbiühendi komponentide omavaheline järjestus sõltub lausetüübist ning verbiühendi puhul tuleb arvestada ka sellega, et püsiühendi komponentide vahel võib olla mitu püsi- ühendisse mittekuuluvat sõna (vt näiteid 5, 6 ja 7); verbi ja noomeni või (afi ksaal) adverbi püsiva ühendi komponendid võivad asuda lausa teine teises (osa)lause otsas (13). (13) Saa nüüd oma kaotusest ometi ükskord üle! Kas püsiühendid saavad ületada osalausepiire? Vastus on jah, kuid harva. Nagu näha näitelausest (14), võivad osalausepiire ületada isegi läbipaistmatud väljendverbid ja muidugi ka tugiverbiühendid (15, 17) ning kollokatiivsed ühendid (16). Näidetes (14) ja (15) jätkub püsiühendit sisaldav pealause pärast kõrvallauset ja püsiühendi komponendid asuvad siiski samas osalauses (kuigi seda, et pärast kõrvallauset jätkub sama osalause, on automaatselt raske kindlaks teha), kuid tugiverbiühendite (17) ja kollokatiivsete ühendite (16) nominaalseid komponente saab aga laiendada püsiühendi verbilist komponenti sisaldava relatiivlausega, sellisel juhul asuvad püsiühendi komponendid tõesti eri osalausetes. (14) Pealegi lasid mõlemad taksojuhid, kes minu autot blokeerisid, jalga, ja .. (15) Samal hetkel tundsid mõlemad, nii Luik kui Sergejev, kergendust .. (16) Naine nendib, et sai haiglast abi, mida vajas. (17) See teema läbis presidendi kõnet, mille ta pidas ..

166 3.2. Kuidas varieerumisega toime tulla: mida esitada andmebaasis ja mis jätta programmi hooleks?

Kui märgendatava nähtuse keelelised omadused on kaardistatud, tuleb vastu võtta põhimõttelised otsused selle kohta, kuidas jagada märgendatava keelendi varia- tiivsusega toimetulekuks vajalikud ülesanded optimaalseimal viisil andmebaasi ja märgendusprogrammi vahel. Samuti tuleb leida optimaalne tekstiüksus, mille piires püsiühendi komponente otsida. Artikli selles osas analüüsitaksegi esiteks osalause- piiridega arvestamise vajadust ning teiseks sõnajärje-, käände- ning arvuvahelduse haldamist püsiühendite märgendamise tarkvara poolt. Püsiühendite alaliigid erinevad üksteisest selle poolest, kas nende märgenda- misel on vajalik osalausepiiride eelnev märgendamine või mitte. Käändsõna- fraasiline püsiühend saab nagunii koosneda ainult üksteisele vahetult järgnevatest komponentidest, nii et tuvastamata osalausepiirid nende märgendamisel segadust ei tekita. Nagu eelmises osas näidatud, võivad verbikesksed püsiühendid ületada osa- lausepiire, kuigi harva. Kuid lubades püsiühendite automaatsel märgendajal otsida potentsiaalse ühendi komponente üle osalausepiiride, põhjustame palju müra. Nii koosneb lause (18) kahest rinnastatud osalausest, milles mõlemas on predikaadiks väljendverb, vastavalt nõu pidama ja aru saama. Kuid verbid pidama ja saama ning käändsõnavormid nõu ja aru võivad kombineeruda ka verbikeskseteks püsi- ühenditeks aru pidama ja nõu saama. Seega, kui lubame tarkvaral otsida ühendi komponente erinevatest osalausetest, siis peame rohkem jõupingutusi tegema selle nimel, et tarkvara suudaks eristada tõelisi püsiühendeid püsiühendite potentsiaal- sete komponentide juhuslikest koosesinemistest. Kui aga piirame püsiühendi võimaliku esinemispiirkonna osalausega, siis lähevad kaotsi lausetes (14–17) esinenud ühendid.

(18) Valitsus pidas nõu ja sai siis aru, et ..

Nagu kirjeldatud osas 3.1, käituvad püsiühendite erinevad liigid erinevalt selle suhtes, kas ja kuidas nad on võimelised tekstides morfoloogiliselt muutuma. Selle muutumisega toimetulekuks on mitu võimalust. Esiteks võib kõik võimalikud muutevormid esitada andmebaasis ja otsida neid puhtast tekstist kui erinevaid püsiühendeid. See paisutab andmebaasi mahtu ja muudab tema struktuuri keerulisemaks: info, mis kuulub iga püsiühendi juurde, peab olema kajastatud ka iga esinemisvormi juures. Väljendi otsimine tekstist on seejuures aga lihtne. Teine võimalus on kasutada sisendina morfoloogiliselt ühestatud teksti ja andmebaasis hoida iga väljendi juures info tema komponentide algvormi ja temaga tekstis kombineeruda võivate morfoloogiliste kategooriate kohta. See eeldab, et sisendteksti töötlemise programmid, näiteks morfoloogiline ühestaja, teevad oma töös väga vähe vigu. Kui andmebaas on suur ja heterogeenne, nagu on näiteks eesti keele verbikesk- sete püsiühendite andmebaas,2 mis sisaldab ühendverbe, idiomaatilisi väljendverbe, tugiverbiühendeid ja kollokatiivseid verbi ja käändsõna ühendeid, siis tuleb sealsed kirjed varustada mingi infoga, mis ütleks märgendusprogrammile näiteks ühendi

167 2 http://www.cl.ut.ee/ressursid/pysiyhendid/ (12.02.2009). üle saama kohta: see on ühendverb, genereeri/otsi kõiki verbi vorme, kuid mitte- verbilist komponenti ära muuda; aga ühendi otsust tegema kohta: see on tugiverbi- ühend, mille nominaalne komponent muutub arvus ja objektikäänetes, genereeri/ otsi kõiki verbi vorme ja käändsõnalise komponendi vorme objektikäänetes nii ainsuses kui mitmuses. Nicole Grégoire (2007) on lahendanud selle probleemi hollandi keele püsi- ühendite leksikoni koostades nii, et on jaganud kõik püsiühendid nn ekvivalent- siklassidesse (ingl Equivalence Class), mille kõik liikmed käituvad tekstides täpselt ühte moodi. Nii saab püsiühendite andmebaasis korraga määrata terve klassi jaoks, millised vormid genereerida või milliseid vorme otsida. On selge, et mida täpsematesse klassidesse on leksikon jaotatud, seda täpsem on tulemus. Nagu osas 3.1 kirjeldatud, on eesti keele verbikesksete püsiühendite hulgas homogeensed klassid ühendverbid ja läbipaistmatud idiomaatilised ühen- did. Seevastu näiteks läbipaistvad idiomaatilised ühendid on heterogeenne klass ja vajab täpsemat liigitamist vastavalt ühendi käändsõnalise komponendi muutu- misvõimele. Kui püsiühendite märgendamise programm on leidnud, et samas osalauses esinevad koos andmebaasis oleva püsiühendi komponendid nõutavates vormides, siis tuleb veel otsustada, kas nad kuuluvad tõesti kokku või esinevad samas osalauses juhuslikult. Näiteks on eesti keele ühendverbide afi ksaaladverbiline komponent sageli kasutatav ka adpositsioonina. Kui püsiühendeid üritatakse märgendada mor- foloogiliselt ühestamata tekstis, puudub seal info tekstisõna sõnaliigilise kuuluvuse kohta. Nii on näites (19) olemas ühendverbi üle kuulama komponendid, mis seda ühendverbi ometi ei moodusta.

(19) Poole kõrvaga kuulas ta teise kurtmist oma raske elu üle.

Verbikesksesse püsiühendisse kuuluda võiv käändsõnavorm esineb üldiselt harva püsiühendit moodustava verbiga samas osalauses püsiühendit moodustamata, aga vahel siiski. Nii ei ole lauses (20) tegelikult väljendit kätt paluma, kuigi selle komponendid seal mõlemad esinevad.

(20) Vaadake palun minu kätt!

Näites (19) esitatud probleemi lahendamiseks piisab morfoloogilisest ühestamisest, mis annab teada, et sõnavorm üle on kaassõna. Kõige kindlam rohi lause (20) tüüpi vigade vastu on süntaksianalüüs, piisab ka osalisest ja pindmisest analüüsist, mis ütleb, et sõnavorm kätt on verbi vaatama, mitte verbi paluma objekt. Raske on ka automaatselt eristada sama sõnaühendi idiomaatilist ja sõna- sõnalist kasutust. Üldiselt on väidetud, et kui mingid sõnavormid koos esinedes moodustavad idioomi, siis sõnasõnalises tähenduses neid sõnavorme samas sün- taktilises suhtes ei kasutata (vt näiteid 21 ja 22), välja arvatud juhul kui sõnaühend ühe leksikaalse üksusena on polüseemne (näited 23 vs. 24).

(21) Tegi näo, et ei saa midagi aru. (22) Lilla värv teeb talvevalguses näo kahvatuks. (23) Ta neelas tableti kähku alla. (24) Vaikides neelas ta solvangu alla.

168 Paul Cook jt (2007) aga väidavad, et inglise keeles esinevad ca 40% fraasidest, millel on idiomaatiline tähendus, tekstis sõnasõnalises tähenduses. Järelikult lisandub idiomaatiliste ühendite puhul püsiühendite tekstis märgendamisel veel üks alamülesanne: otsustada, kas sõnaühendit on kasutatud idiomaatilises või sõnasõnalises tähenduses. Eristamaks sama väljendi idiomaatilist ja mitte-idiomaatilist kasutust pakuvad mainitud autorid välja süntaktilisel jäikusel (ingl syntactic fi xedness) põhineva meetodi. Selle all mõtlevad autorid seda, et idiomaatiline ühend esineb tavaliselt tekstis vähestes n-ö kanoonilistes vormides ja et sõnasõnalise tähendusega ühend, vastupidi, varieerub rohkem. Süntaktiliseks jäikuseks võiks pidada näiteks nimisõna atribuudiga laiendamise võimatust või piiratust. Nii saab idiomaatilisse ühendisse üle piiri minema (tähenduses ‘liialdama, mõõdu- või sündsusetunnet minetama’) kuuluvat nimisõna piir laiendada ainult atribuudiga igasugune (25). Sama ühendi sõnasõnalise kasutuse puhul on atribuudi valik aga piiramatu (nt 26).

(25) Lapsed läksid oma ülemeelikusega üle igasuguse piiri. (26) Jalakäijad võivad üle Eesti-Läti piiri minna enda valitud kohas.

Graham Katz ja Eugenie Giesbrecht (2006) püüavad automaatselt eristada sama sõnaühendi idiomaatilisi ja mitte-idiomaatilisi tähendusi konteksti põhjal. Aluseks on eeldus, et mitte-idiomaatilises tähenduses kasutatud sõnaühendi naabruses peaksid sageli esinema samad sõnad, mis esinevad selle sõnaühendi komponentide naabruses siis, kui need komponendid esinevad tekstis iseseisvalt. Eeldus on tuleta- tud sõnatähenduste ühestamisel kasutatavast seaduspärast, et mitmetähendusliku sõna tähenduse konkreetses kontekstis saab järeldada temaga koos esinevatest sõnadest (vt nt Schütze 1998). Kirjeldatud meetod lähtub püsiühendiga samas lauses või osalauses esinevatest sõnavormidest või lemmadest. Ilmselt oleks veelgi otstarbekam kasutada mingit infot lauses või osalauses esinevate sõnade grammatiliste kategooriate või süntak- tiliste funktsioonide kohta. Loob ju lauses (27) esinev sõnasõnalise tähendusega ühend maha saama argumendistruktuuri, milles tegevusobjekti on väljendatud süntaktilise objektiga (seda plekki), ent lauses (28) esinev idiomaatiline maha saama argumendistruktuuri, milles tegevusobjekti on väljendatud hoopis komi- tatiivse adverbiaaliga (elu pikima kõnega). (27) Ega seda plekki enam riidelt maha ei saa. (28) Fidel sai möödunud suvel maha elu pikima kõnega.

4. Kokkuvõtteks

Püsiühendite automaattöötlusel tuleb lahendada esiteks küsimus, mis on püsi- ühend, ja teiseks tuleb need püsiühendid tekstis ära tunda. Arvuti- või korpus- lingvistikas tähendab see nende märgendamist. Seejuures küsimus püsiühendite olemusest ei ole pelgalt teoreetiline, defi neerimise probleem, vaid arvutilingvistikas tähendab see ka defi nitsiooni rakendamist: püsiühendite loendi koostamist. Püsiühendite loendi koostamisel kasutatakse statistilisi meetodeid, mis või- maldavad tekstikorpusest leida sõnu, mis esinevad koos küllalt sageli, et võiks kahtlustada nende poolt püsiühendi moodustamist. Seejuures tuleb arvestada, et 169 sõltuvalt püsiühendi tüübist valitaks sobiv statistiline meetod ja et “sõnade koos- esinemine” nõuab keeletegelikkusega arvestamist: kas “sõna” all mõista sõnavormi või lemmat, kas “koosesinemine” tähendab sõnadevahelise kauguse, süntaktilise seose ja/või sõnade järjekorra arvestamist või ignoreerimist lauses. Püsiühendite äratundmine ehk märgendamine tekstis tähendab seda, et iga lause puhul kontrollitakse, kas seal esineb mingis loendis, nt püsiühendite and- mebaasis olevaid väljendeid. Püsiühendite märgendaja peab toime tulema esiteks sellega, et püsiühendid ei esine tekstis alati täpselt samas vormis, mis loendis, ning teiseks sellega, et püsiühendi komponentide olemasolu lauses ei tähenda automaat- selt, et nad seal ka püsiühendi moodustavad. Eesti keele verbikesksete püsiühendite puhul verbi vormi valik ei ole kuidagi kitsendatud asjaoluga, et verb kuulub püsiühendi koosseisu. Verbikeskse püsi- ühendi käändsõnaline komponent võib varieeruda seda enam, mida läbipaistvamalt on ühendi kui terviku tähendus moodustatud tema komponentide tähenduste põhjal. Püsiühendisse kuuluvate üksiksõnade sagedus tekstis on erinev. Sõnad, mis esinevad tekstis sageli, esinevad sageli ka samas lauses koos ilma püsiühendit moodustamata. Valdavalt puudutab see muutumatuid sõnu (nt üle), mis võivad olla kasutusel nii kaas- kui määrsõnana. Et eristada sõnaühendi idiomaatilist kasutust mitte-idiomaatilisest, võib arvesse võtta sõnaühendi vormi jäikust – mida rohkem väljendi vorm tekstikor- puses varieerub, seda tõenäolisem on, et antud korpuses kasutavad autorid seda väljendit mitte-idiomaatilisena.

Viidatud kirjandus Benson, Morton; Benson, Evellyn; Ilson, Robert (Eds.) 1986. BBI Combinatory Dictionary of English: A Guide to Word Combinations. Amsterdam: John Benjamins. Cook, Paul; Fazly, Asfaneh; Stevenson, Suzanne 2007. Pulling their weight: Exploiting syntactic forms for the automatic identifi cation of idiomatic expressions in context. – Proceedings of the Workshop on A Broader Perspective on Multiword Expressions. June 28, 2007. Prague, 41–48. Evert, Stefan 2004. The Statistics of Word Cooccurences: Word Pairs and Collocations. PhD dissertation. Institut für maschinelle Sprachverarbeitung, Universität Stuttgart. elib. uni-stuttgart.de/opus/volltexte/2005/2371/pdf/Evert2005phd.pdf (19.08.2008). Evert, Stefan 2008. Corpora and collocations. – Anke Lüdeling, Merja Kytö (Eds.). Corpus Linguistics. An International Handbook, Vol. 1. Handbücher zur Sprach- und Kommu- nikationswissenschaft 29.1. Berlin: Mouton de Gruyter, 1212–1248. [Extended manu- script http://purl.org/stefan.evert/PUB/Evert2007HSK_extended_manuscript.pdf (19.08.2008).] Fleischer, Wolfgang 1982. Phraseologie der deutschen Gegenwartssprache. Lepzig: WEB Bibliographisches Institut. Grégoire, Nicole 2007. Design and implementation of a lexicon of Dutch multiword expres- sions. – Proceedings of the Workshop on A Broader Perspective on Multiword Expres- sions. June 28, 2007. Prague, 17–24. Kaalep, Heiki-Jaan; Muischnek, Kadri 2003. Püsiühendite leidmine suurtest tekstikorpus- test. – Margit Langemets, Heete Sahkai, Maria-Maren Sepper (toim.). Toimiv keel I. Töid rakenduslingvistika alalt. Eesti Keele Instituudi toimetised 12. Tallinn: Eesti Keele Sihtasutus, 101–118. 170 Katz, Graham; Giesbrecht, Eugenie 2006. Automatic identifi cation of non-compositional multi-word expressions using latent semantic analysis. – Multiword Expressions: Identifying and Exploiting Underlying Properties. Proceedings of the Workshop. ACL/ COLING-06. July 23, 2006. Sydney, 12–19. Moon, Rosamund 1998. Fixed Expressions and Idioms in English: A Corpus-Based Approach. Oxford: Clarendon Press. Muischnek, Kadri 2006. Eesti keele verbikesksed püsiühendid tekstikorpuses. – Emakeele Seltsi aastaraamat, 51 (2005), 80–106. Pecina, Pavel 2005. An extensive empirical study of collocation extraction methods. – 43rd Annual Meeting of the Association for Computational Linguistics (ACL 2005). Pro- ceedings of the Student Research Workshop, June 2005. Ann Arbor, Michigan, 13–18. http://ufal.mff.cuni.cz/~pecina/publications/ (21.08.2008). Riehemann, Susanne 2001. A Constructional Approach to Idioms and Word Formation. PhD dissertation. Stanford University. http://doors.stanford.edu/~sr/sr-diss.pdf (18.09.2008). Rätsep, Huno 1978. Eesti keele lihtlause tüübid. Tallinn: Valgus. Sag, Ivan A.; Baldwin, Timothy; Francis, Bond; Copstake, Ann; Flickinger, Dan 2002. Multi- word expressions: A pain in the neck for NLP. – Alexander Gelbukh (Ed.). Proceedings of the 3rd International Conference on Intelligent Text Processing and Computational Linguistics (CICLing-2002). Mexico City, Mexico, 1–15. http://lingo.stanford.edu/ pubs/WP-2001-03.pdf (21.08.2008). Schütze, Hinrich 1998. Automatic word sense discrimination. – Computational Linguistics, 24 (1), 97–124.

Heiki-Jaan Kaalep (Tartu Ülikool). Peamised uurimisvaldkonnad on korpuslingvistika, arvutimorfoloo- gia, elektroonilised sõnastikud, püsiühendid arvutilingvistikas. [email protected]

Kadri Muischnek (Tartu Ülikool). Peamised uurimisvaldkonnad on korpuslingvistika ja eesti keele korpuste koostamine; püsiühendid lingvistikas ja arvutilingvistikas; eesti keele süntaktiline struktuur ja selle formaliseerimine. [email protected]

171 ESTONIAN MULTIWORD EXPRESSIONS IN COMPUTATIONAL LINGUISTICS

Heiki-Jaan Kaalep, Kadri Muischnek University of Tartu

Multiword expressions are known to pose problems for natural languge analysis. By multiword expressions we mean combinations of two or more word(form)s that are habitually used together to express a certain meaning; the term covers both idiomatic and collocational word combinations. This article concentrates on three main tasks in multiword expression processing: extraction, lexicon compilation and annotation. The standard methods for solving these tasks are analysed from the viewpoint of automatic analysis of Estonian, a language with a rich and complicated morphological structure and a free word (or constituent) order.

Keywords: computational linguistics, multiword expressions, multiword expres- sion extraction, lexicon of multi-word expressions, multi-word expression anno- tation, Estonian

172 MLU AND IPSYN MEASURING ABSOLUTE COMPLEXITY

Lea Nieminen

Abstract. This article compares the results of Mean Length of Utterance (MLU) and Index of Productive Syntax (IPSyn) with the structural complexity of spontaneous utterances produced by 30-month-old Finnish children in a semi-structured playing situation. The comparison was carried out in order to determine the aspects of 5, 173–185 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT structural complexity which can be detected with MLU and IPSyn. This research adopts the frameworks of absolute complexity together with a multidimensional view of utterance structure and, furthermore, applies it through Utterance Analysis (UA). The results of the comparison between the metrics and changes in structural complexity discovered by UA reveal that MLU and IPSyn do function as measures of structural complexity but only if used in close relation to each other. Because they focus on different aspects of utterances, the results of both metrics should be interpreted in relation to one another. Keywords: morphosyntax, acquisition, structural complexity, child language, Finnish

Introduction

This article focuses on the morphosyntactic complexity of spontaneous speech of children and on the methods used to evaluate structural complexity. The study aims to fi nd out how structural complexity grows in children’s utterances and how the existing metrics that have been developed to measure this react to changes in complexity. The study was originally inspired by two crucial facts. Firstly, complexity is a frequently used notion in child language studies and it is often connected to development. The growth in complexity is perceived as an index of development in linguistic abilities and, therefore, complexity is an essential concept in language acquisition studies. However, despite its essential role, the concept of complexity has been used in acquisition studies without being properly defi ned, and this is the 173 second fact that has led to the current frame of research. The lack of an adequate defi nition often leads to a situation in which it is not clear what the results actually mean and which properties of language they do and do not describe. In this study, two well-known complexity metrics, Mean Length of Utterance (MLU) and Index of Productive Syntax (IPSyn), are linked to an absolute approach to complexity. The main research questions are whether these metrics react to the growth of absolute complexity and whether the ways in which the metrics react to it are similar or dissimilar. Linguistic complexity is a complicated concept that can be defi ned in several different ways. Chapter 2 introduces two separate perspectives of the concept, while Chapter 3 provides a short summary of how complexity has been traditionally dis- cussed in language acquisition studies, and Chapter 4 focuses more on MLU and IPSyn, which are the most common metrics in evaluations of complexity. Chapters 5, 6 and 7 describe the current study in detail, and Chapter 8 concludes the paper with a discussion of the most important fi ndings.

Multifaceted complexity

Complexity has been and may still be a somewhat dangerous notion in the fi eld of linguistics, because it is easy to connect the complexity or simplicity of language to the cognitive abilities of the language users in an over-simplifi ed manner (Kusters 2003: 2). There is also a well known claim that all languages are equal in terms of their complexity (Hockett 1958). This theory suggests that if a given language has a more complex morphology than another, this is offset by, for example, a simpler syntax, meaning that the overall complexity of the given language is kept in balance with all other languages. These are probably the main reasons why more detailed defi nitions and discussions regarding linguistic complexity have not been addressed until the last few years. As a consequense of recent discussions, especially among language typologists (e.g. McWhorther 2001, Kusters 2003, Dahl 2004 and Miestamo 2006) the multifaceted nature of linguistic complexity has become an important issue. Linguistic complexity can be viewed as a relationship between a language user and the language. According to this so-called relative approach to complexity, it is crucial to emphasise who perceives a given language to be complex (Kusters 2003: 6), where complexity is defi ned as the level of diffi culty or ease experienced by a language user. It is clear, for example, that a native speaker and a language learner will evaluate the complexity of the same language or linguistic structure differently, and that a person’s evaluations may vary over time. In connection to relative approach, answering questions such as “What causes the diffi culty?” or “Why is X easier than Z?” requires a user-based perspective. When using language, a language user is involved in several processes, both for receiving and producing language. Are some linguistic structures diffi cult to perceive but easy to produce, or does the complexity become apparent only when pronouncing the structure? Are the linguistic means relatively easy, while the understanding of the ultimate meaning of the structure places extra pressure on cognitive processes? Is reading easier than listening or vice versa? Do all linguistic processes have equal 174 weight when language users attempt to analyse their experiences of diffi culty? These questions, among others, highlight the need to discuss as many factors as possible in connection with complexity evaluations from a relative point ov view. Another approach to linguistic complexity focuses on the language itself and excludes the language users. This so-called absolute view approaches linguistic complexity from an information theoretical perspective, viewing complexity as a measurable object and defi ning it as the length of the shortest specifi cation or description of the object. The notion of complexity should be kept distinct from the use and the users of the system whose complexity is evaluated, in order to main- tain objectivity. (Dahl 2004: 21, 39–40) The absolute approach concentrates on counting the number of linguistic units, elaborations, rules, and so on (Miestamo 2006). The more such counted units there are, the more complex the language or evaluated linguistic structure. Three important remarks must be made in connection with the absolute approach to linguistic complexity. Firstly, the defi nition of a language or a linguistic structure as being more complex than another does not constitute proof that that language is more diffi cult than any other. In other words, complexity and diffi culty are not the same thing in the absolute approach. Secondly, a simpler grammar does not necessarily mean that a language is somehow primitive or ineffi cient as a means of communication (Miestamo 2006, McWorther 2001), and therefore the evaluation of complexity is by no means a value judgement. Thirdly, the absolute approach is, in a way, relative in nature because the demarcation of units to be counted depends on the linguistic theory that is represented or applied by the evaluator. As Kusters (2003: 6) has claimed, this approach is logically impossible if “absolute” is interpreted literally. It may be less provocative, therefore, to describe the absolute approach as a language-based approach to complexity as a contrast to the relative, user-based view of complexity (Nieminen 2007: 34).

Complexity in child language studies

Complexity is a commonly used notion in child language acquisition studies. In this particular fi eld of linguistics, complexity has not been considered as a dangerous or provocative notion. On the contrary, the growth of complexity is synonymous with linguistic development; more advanced is also more complex. Comparing children in terms of their linguistic development is akin to comparing their positions on a scale of complexity. Acquisition studies have assumed that children acquire simple structures fi rst and then more complex structures (Smith, van Kleeck 1986, Smith 1988), so the acquisition order would also reveal the complexity order. Whether this order is determined by the relative or absolute complexity of the items (or both) is not clear. The concept of complexity is usually taken for granted and neither proper identifi cation nor thorough consideration of this multifaceted notion has been covered in detail (Nieminen 2007: 17). Signifi cant issues, such as considering linguistic or cognitive complexity, as well as their mutual relationship (cf. Bowerman 1996), have tended to be left to one side. Furthermore, only a few researchers have considered the role of various linguistic processes in complexity: whether linguistic items are diffi cult to perceive, acquire, produce or understand and how these processes affect the overall complexity of an item (cf. Peters 1997). As stated above, the complexity of a given linguistic item 175 may originate from various sources, and researchers should carefully defi ne which of these factors is the focus of their studies. Even in acquisition studies that clearly focus on linguistic structure, the demar- cation of complexity has been implicit, and what is considered as complex has usually become evident only after interpretation of the methods and the results. The defi nition of complexity has thus far been conducted more comprehensively in disfl uency studies, which are confi ned to dealing with, for example, sentence structure (e.g. Ratner, Sih 1987, Yaruss 1999). A more careful and limited defi ni- tion of complexity has been found to be essential, due to fi ndings claiming a strong connections between disfl uencies and the structural complexity of utterances (see Ratner 1995, and Silverman, Ratner 1997, for review).

Complexity metrics and utterance structure

One thing that acquisition studies present clearly is that complexity is a measurable property of language, and different scales of measurement are used to execute this. The best known and most widely used measure for this purpose is Mean Length of Utterance (MLU), which was fi rst introduced in its present form by Roger Brown ([1973] 1976). Another commonly used measure is the Index of Productive Syntax (IPSyn; Scarborough 1990a). The basic premise of MLU is very simple: the number of productive morphemes produced in 100 consecutive intelligible utterances is calculated and divided by the number of utterances to determine the average number of morphemes per utterance. MLU is based on the idea that “almost every new kind of knowledge increases length: the number of semantic roles expressed in a sentence, the addition of obligatory morphemes, coding modulations of meaning, the addition of negative forms and auxiliaries used in interrogative and negative modalities, and of course, imbedding and coordinating” (Brown [1973] 1976: 77). MLU calculations can vary in many ways, and the results are not unambiguously cross-linguistically comparable. Also, its relation to complexity has been formulated in various expressions. MLU has been described as “a developmental index of language profi ciency” (Johnston 2001: 161), “a general indicator of structural development” (Miller 1981: 25), “a valid predictor of syntactic complexity and diversity” (Rondal et al. 1987: 444) and an “index of clausal complexity” (Blake et al. 1993: 139). IPSyn is based on morphological forms and syntactic structures that have been found to be essential in child language. The selection of predefi ned structures is always language specifi c, so the results of IPSyn are not cross-linguistically com- parable. The IPSyn score is determined based on the number of fi rst occurrences of the predefi ned structures in a child’s spontaneous speech and possible second occurrences in a different linguistic context. The ranking of the structures is usually done for 100 intelligible spontaneous utterances (for detailed instructions, see Scarborough 1990a, and Nieminen, Torvelainen 2003). MLU and IPSyn have several similarities. Firstly, they both represent an abso- lute approach to complexity, since the complexity of a child’s utterances or their linguistic repertoire is determined by the number of calculated units, that is, mor- phemes in MLU and predefi ned structures in IPSyn (Nieminen 2007: 56). Secondly, 176 they are both used to analyse spontaneous speech, and thirdly, the section of speech to be analysed in both methods is an utterance, which is considered to be the most fundamental psycholinguistic unit (Tomasello 2000: 63). Finally, they both focus on morphosyntactic structure of utterances. Previous studies, such as Scarborough et al. (1991), found a high positive correlation between the two measures. It has also been argued that they both measure the same properties of language, so they have been used in studies to validate one another (e.g. Scarborough 1990b). Despite the high positive correlation, however, Nieminen (2007) presents opposing conclusions concerning the properties of language that are actually measured with these metrics. She claims that MLU offers a general view of utterances as a whole, although this is done by fl attening the utterance structure into a string of morphemes. In contrast, IPSyn is a more analytic metric in that it attempts to extract the different morpho- syntactic structures used to build the utterances and, therefore, it also deals with relations between linguistic elements. However, the overall structure of utterances is set aside when focusing on separate building blocks. Probably the most striking difference between these two metrics is the fi nal targets of their evaluation. MLU evaluates actual speech production, while the target of IPSyn is the size and quality of a child’s morphosyntactic repertoire. (Nieminen 2007: 58–59) Both MLU and IPSyn are used to analyse the complexity of spontaneous speech. According to Nieminen (2007), utterance structure should be understood as a multidimensional whole consisting of individual syntactic components that may be composed of several morphological and syntactical elaboration layers. The structural complexity of an utterance therefore emerges not only from the number of components but also from their layered inner structures. Thus, complexity can grow in at least two ways: by adding new components or by adding new layers to existing components (Nieminen 2007: 39). Acceptance of two different dimensions for the growth of complexity raises the question of how MLU and IPSyn react to this, because they each seem capable of noticing only one kind of structural change. In other words, the metrics imply that complexity can only grow in one way, although the utterance structure offers several possibilities for complexity to change. This study was conducted in order to investigate this clear discrepancy. Its primary area of interest is the aspects of absolute complexity recognised by MLU and IPSyn and how the metrics work together in analysing the speech production of young children.

Subjects, data and methods

The participants of the study were 40 normally developing 30-month-old children (22 boys and 18 girls) acquiring Finnish as their fi rst language. The data was recorded at the children’s homes, in a semi-structured playing situation in the presence of an adult. All children were given the same toys to play with and each recording lasted for approximately 20 minutes. The recordings were transcribed and the children’s productions were coded morphologically using CHILDES (MacWhinney 1991). The MLU programme provided by CHILDES was used for the MLU calculation, which was based on the 80 longest utterances produced by each child. The 80 longest utterances were chosen instead of 100 consecutive intelligible utterances to ensure that each child’s production skills were represented by the data sample in the most versatile manner. The same utterances were also analysed using the Finnish ver- 177 sion of IPSyn, which focuses on 49 morphological, syntactic and morphosyntactic structures in the Finnish language (Nieminen, Torvelainen 2003). The basic purpose of this study was to test what kind of features of structural complexity these metrics could detect and react to. Therefore, the results from MLU and IPSyn measures needed to be contrasted with a detailed analysis of structural complexity, so a new analysis method was created for this purpose. The Utterance Analysis (UA) provides a detailed description of syntactic components and layers in each utterance. Because of the multidimensional approach to utterance structure it provides a comprehensive picture of the structural features that are involved in the composition of complexity.1

MLU and IPSyn results

The 80 longest utterances in terms of the number of morphemes were extracted from each child’s productions and analysed. Both MLU and IPSyn showed a wide variation in the data sample, as shown in Figure 1. The MLU values ranged from 1.233 to 7.862, whereas the IPSyn scores varied between 10 and 86 points. This is not surprising since, at the age of 30 months, children usually have widely varying levels of speech production. However, the high MLU values are particularly striking, but this is explained by the selection criteria. When only the longest utterances are included, all or most of the one-morphemic and even two-morphemic utterances are omitted and therefore do not decrease the average values.

90

80

70

60

50

IPSyn scores 40

30

20

10

0 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5

Figure 1. The relationship between MLU values and IPSyn scores

One way to evaluate the relationship between MLU values and IPSyn scores is to calculate the correlation between the results. The correlation was found to be very high in this study, (r = .92), which is in keeping with the fi ndings of Scarborough et

178 1 For a more detailed description of UA, see Nieminen 2007: 86–99. al. (1991). However, a closer look at the individual scores presents a different picture of the relationship. There are points at which IPSyn scores imply great differences between children but MLU remains in a very narrow range, and vice versa. In other words, some linguistic features seem to be detected and interpreted as development only by one of the metrics, while the other metric does not react to these changes or reacts only very mildly. These contradictory results are circled in Figure 1. The fi rst of these contradictory points is between the MLU values 3.688 and 4.388. On the MLU scale the change is very small but in IPSyn scores the variation is as wide as from 42 to 68 points, covering more than 25% of the whole IPSyn scale (the maximum number of points is 98). In practice this implies that the utterance length is approximately four morphemes but different children create these four- morphemic utterances in signifi cantly different ways. The same kind of discrepancy between the MLU and the IPSyn can also be seen in the upper part of the fi gure: the MLU stays constantly between 6.050 and 6.350 but the IPSyn scores vary between 62 and 84 points. A contrasting case of discrepancy can be found between the cases mentioned above. While the MLU values vary from 3.688 up to 6.350, the IPSyn scores remain between 60 and 70 points. In other words, while the length of utter- ances grows, the repertoire of structures used to build them remains at a constant level. This is possible only if the structures that fi rst occur alone in utterances are gradually combined to create longer productions of speech.

Detailed analysis of structural complexity – contradictory MLU values and IPSyn scores against Utterance Analysis

Utterance Analysis describes in detail the kind of units that an utterance consists of and the relationship between the units. It provides a picture of the number of syntactic components (NP, V, AP, PP, CONJ etc.) involved in an utterance and what kind of elaboration (infl ection, use of determiners or qualifi ers) is present in each component (see Figure 2 for an example of Utterance Analysis).

ADVP 1. VNP ADV:INT 2. INES PRON:DEM N 3. GEN Missä on sel lautanen? Mi-ssä on se-n lautanen? Wh-INES is it-GEN plate? ‘Where is its plate?’ Figure 2. An example of Utterance Analysis

When the data samples presenting contradictory MLU and IPSyn results were subjected to more detailed analysis through Utterance Analysis, different strate- gies and unexpected similarities were found in the creation of structural complex- ity. The fi rst survey revealed that the number and type of syntactic components that the children used in their utterances were very similar, although the varia- 179 tion in MLU and IPSyn results seemed to suggest that the utterances were quite different. Approximately 90% of all utterances consisted of two, three or four syntactic components and approximately 90% of these components represented nominal phrases, verb constructions and adverb phrases. This suggests that the basic component structure of utterances is created during an early developmental phase and that the growth of structural complexity is mainly created by syntactic and morphological elaboration of the components. However, even in elaboration of utterances the children who were fi rst found by MLU and IPSyn to be at dif- ferent developmental levels showed remarkable similarities, especially when their utterances contained more than two syntactic components. Thus, the distinctive features of elaboration and structural complexity are clustered, especially in two- component utterances. The fi rst contradictory group of children had the MLU values ranging between 3.688 and 4.388 but the IPSyn scores showed remarkable variation, between 42 and 68 points. This group of children used a very limited repertoire of elaborations in their utterances. The limitations were two-fold in nature. Firstly, in most cases only one syntactic component of an utterance was elaborated while the others were left unelaborated. Secondly, these children almost exclusively used morphological elaboration, that is, infl ection, and modifi ers or other kind of syntactic elaborations remained quite rare. The variation in IPSyn scores can be explained by the fact that these children seem to be in a rapid phase of morphological acquisition. Their morphological repertoires are remarkably different but all of the children use their repertoires in a similar way, no matter how large or narrow it is. The second contradictory group represents the children with similar IPSyn scores (60–70 points) together with a wide range of MLU values (3.688–6.350). Utterance Analysis revealed that, for these children, it is characteristic to expand elaboration to several syntactic components in utterances, and children do not need to apply many new linguistic means in order to achieve this. At the same time the elaboration is still mainly morphological, although syntactic elaboration does increase its proportion, and the elaboration does not, therefore, create many “new” morphosyntactic structures that could be recognised by IPSyn either. These factors explain why IPSyn scores remain on a constant level. The growing MLU is explained by the increased use of morphological elaboration, the spreading of elaboration from one to several syntactic components, and the combination of several resources in one utterance but not yet within one syntactic component. Structural complexity is grown by means that were acquired earlier and are now gradually put into full use. The third group of contradictory results represented a similar pattern to that of the fi rst group. MLU exhibited only very small changes (6.050–6.350) whereas the IPSyn varied between 62 and 84 points. Utterance Analyses revealed that these children constantly combined individual resources, not only within an utterance but also within a syntactic component. In other words, these children elaborated syntactic components by creating more elaboration than children in the other two groups. Both morphological and syntactic elaborations are used, and they occur together in the same syntactic components, a combination of linguistic resources that also creates structures that are recognised by IPSyn as “new”. Naturally, this raises the number of IPSyn points, but the length of utterances does not necessarily grow because the average of six morphemes already provides space for many kinds 180 of expressions and linguistic variations. Earlier, structural complexity had spread into more components but now expansion occurs simultaneously in more compo- nents and also adds new layers to the components. Comparing MLU values and IPSyn scores with Utterance Analysis results reveals several interesting aspects of structural complexity and how it is recog- nised by the commonly used complexity metrics. Both MLU and IPSyn results show growth as well as steady phases, but the metrics do this crosswise. Utterance Analysis, however, reveals that although one metric or the other indicates a steady phase, the structural complexity of utterances is in a state of change. This strongly suggests that neither of the metrics can recognise all means of complexity growth. A more realistic picture of the changes in structural complexity can only be gained if MLU and IPSyn are used together in close mutual collaboration and are interpreted in relation to each other. Interpretation of the results requires resources to be in proportion to the average length of utterances.

Discussion

The goal of this research was to test how well the commonly used complexity metrics, MLU and IPSyn, carry out the basic task for which they were originally invented. Is it possible for them to recognise the growth of complexity? What aspects of absolute complexity do they react to? Do both of the metrics react to the same aspects or do they differ in terms of the type of language properties they focus on? Are these metrics compatible with a multidimensional view of utterance structure? MLU in particular has been a target for wide and varying criticism (for a review, see Rollins et al. 1996). However, this study indicates that a simple measure of average utterance length can catch some valuable aspects of growing structural complexity. When children’s MLU values were close to 4.000, the structural com- plexity of their utterances did not change very much; instead, it was the repertoire of structural resources that varied. MLU was also able to detect the starting point of the combining of resources, because this process also automatically increased the length of utterances. The resource combinations also increase the structural complexity at both the component and utterance levels. However, MLU stopped reacting to the combining of resources once it was spread wider. The utterances are now so long that there is ample space for a range of structure combinations and complexity levels without a need to expand the utterance length. At this point of development, resource combinations create “new” structures from IPSyn’s perspective. IPSyn is a cumulative metric (Nieminen, Torvelainen 2003, Nieminen 2007: 54) and therefore it observes growth within an individual structure and also gives credit for it. Although MLU was found to probably be a better detector of growth in structural complexity than the former criticism would suggest, the interpretation of MLU values could not be possible without the help of IPSyn scores. If IPSyn results were not available it would not have been possible to conclude that utterance structures do not vary a lot from child to child when MLU is approximately 4.000 but that children’s linguistic skills may vary considerably according to the resources they have. In addition, it is impossible to say that growth of MLU from approximately 4.000 to 6.000 is due to a combination of structures in utterances with the corre- sponding IPSyn scores that stay at a constant level. These kinds of interpretations 181 suggest that neither of the metrics can be used as a reliable index of structural complexity without the other. A valid evaluation of complexity requires the use of both metrics and, in particular, synchronous interpretation when the fi nal results are concluded. The patterns of structural development that were discovered in this study should provide food for thought for those who have used MLU as a selection device. In many studies, for example, normally developing children and language-impaired children have been matched according to their MLU values, because similar MLUs have been connected to similar skills in expressive language. However, the results of this study indicate that the concepts of similarity must be considered with caution and that one metric does not equate to a thorough investigation in this respect. A secondary result of this study was the discovery of developmental trends in growth of structural complexity. The starting point was that utterance structures are multidimensional rather than linear, and structural complexity may therefore grow in several dimensions. The Utterance Analysis results demonstrated that Finnish children start with morphological elaboration, in other words they use infl ectional forms of nouns and verbs. Whether these forms are memorised as a whole or are actually infl ected by a child remains unclear, but the fact that children differed sub- stantially in their linguistic resources but not in their use of these resources might suggest that at this point of development it is more a lexical than morphological phenomenon. In other words, the infl ectional forms are likely to be rote learnt forms. Unanalysed chunks and frame patterns have long been strongly supported as candidates for units of acquisition (see, for example, Peters 1983, Kauppinen 1998, Tomasello 2003). The next developmental phase, which involved adding elaboration to several syntactic components, may still basically be the addition of rote learnt units, but more research would be needed for this to be proven. The last development phase detected in this study was that at which elaboration had spread into several syntactic components of an utterance and children also combined dif- ferent elaborations within a component, thereby creating multilayered structures. In particular, the combining of elaboration resources within a syntactic component suggests that these children already use analytic processing of smaller linguistic units. Combining elements requires that these elements have been extracted from the units where they were originally acquired. This research was initially conducted in order to shed light on the concept of complexity and to fi nd out what is actually being investigated when so-called com- plexity metrics are used as an analysing method. The study’s results have shown that MLU and IPSyn function as spotlights that shed light on children’s expres- sive language from different perspectives. The best and most reliable results can be achieved when both metrics are used simultaneously and interpreted in close relation to one another.

References Blake, Joanna; Quartaro, Georgia; Onorati, Susan 1993. Evaluating quantitative measure of grammatical complexity in spontaneous speech samples. – Journal of Child Language, 20, 139–152. doi:10.1017/S0305000900009168 Bowerman, Melissa 1996. The origin of children’s spatial semantic categories: Cognitive versus linguistic determinants. – John J. Gumperz, Stephen C. Levinson (Eds.). Rethinking 182 Linguistic Relativity. Studies in the Social and Cultural Foundations of Language 17. Cambridge: Cambridge University Press, 145–176. doi:10.2277/0521448905 Brown, Roger [1973] 1976. A First Language. The Early Stages. Harmondsworth: Penguin Education. Dahl, Östen 2004. The Growth and Maintenance of Linguistic Complexity. Studies in Lan- guage Companion Series 71. Amsterdam: John Benjamins. Hockett, Charles B. 1958. A Course in Modern Linguistics. New York: Macmillan. Johnston, Judith R. 2001. An alternate MLU calculation: Magnitude and variability of effects. – Journal of Speech, Language, and Hearing Research, 44, 156–164. doi:10.1044/1092-4388(2001/014) Kauppinen, Anneli 1998. Puhekuviot, tilanteen ja rakenteen liitto. Tutkimus kielen omak- sumisesta ja suomen konditionaalista. Suomalaisen kirjallisuuden seuran toimituksia 713. Helsinki: Suomalaisen kirjallisuuden seura. Kusters, Wouter 2003. Linguistic Complexity. The Infl uence of Social Change on Verbal Infl ection. LOT Dissertation Series 77. University of Leiden. Utrecht: LOT. MacWhinney, Brian 1991. The CHILDES Project: Tools for Analyzing Talk. Hillsdale, NJ: Lawrence Erlbaum Associates. McWhorter, John H. 2001. The world’s simplest grammars are creole grammars. – Linguistic Typology, 5, 125–166. doi:10.1515/lity.2001.001 Miestamo, Matti 2006. On the feasibility of complexity metrics. – Krista Kerge, Maria-Maren Sepper (Eds.). FinEst Linguistics. Proceedings of the Annual Finnish and Estonian Conference of Linguistics. Tallinn, May 6–7, 2004. Tallinn: Tallinn University Press, 11–26. Miller, Jon F. 1981. Assessing Language Production in Children. Experimental Procedures. London: Edward Arnold. Nieminen, Lea 2007. A Complex Case: A Morphosyntactic Approach to Complexity in Early Child Language. Jyväskylä Studies in Humanities 72. Jyväskylä: University of Jyväskylä. Nieminen, Lea; Torvelainen, Päivi 2003. Produktiivisen syntaksin indeksi – suomenkielinen versio. – Puhe ja kieli, 23, 119–132. Peters, Ann M. 1983. The Units of Language Acquisition. Cambridge Monographs and Texts in Applied Psycholinguistics. Cambridge: Cambridge University press. Peters, Ann M. 1997. Language typology, prosody, and the acquisition of grammatical morphemes. – Dan I. Slobin (Ed.). The Crosslinguistic Study of Language Acquisi- tion. Volume 5: Expanding the Context. Mahwah, NJ: Lawrence Erlbaum Associates, 135–197. Ratner, Nan Bernstein 1995. Language complexity and stuttering in children. – Topics in Language Disorders, 15 (3), 32–47. Ratner, Nan Bernstein; Sih, Catherine C. 1987. Effects of gradual increases in sentence length and complexity on children’s disfl uency. – Journal of Speech and Hearing Disorders, 52, 278–287. Rondal, Jean A., Ghiotto, Martine; Brédart, Serge; Bachelet, Jean-François 1987. Age-relation, reliability and grammatical validity of measures of utterance length. – Journal of Child Language, 14, 433–446. doi:10.1017/S0305000900010229 Rollins, Pamela R.; Snow, Catherine E.; Willet, John B. 1996. Predictors of MLU: Semantic and morphological developments. – First Language, 16, 243–259. doi:10.1177/014272379601604705 Scarborough, Hollis S. 1990a. Index of productive syntax. – Applied Psycholinguistics, 11, 11–22. doi:10.1017/S0142716400008262 Scarborough, Hollis S. 1990b. Very early syntactic defi cits in dyslexic children. – Child Development, 61, 1728–1743. doi:10.2307/1130834

183 Scarborough, Hollis S.; Rescorla, Leslie; Tager-Flusberg, Helen; Fowler, Anne E.; Sudhalter, Vicki 1991. The relation of utterance length to grammatical complexity in normal and language-disordered groups. – Applied Psycholinguistics, 12, 23–45. doi:10.1017/ S014271640000936X Silverman, Stacey W.; Ratner, Nan Bernstein 1997. Syntactic complexity, fl uency, and accuracy of sentence imitations in adolescents. – Journal of Speech, Language and Hearing Research, 40, 95–107. Smith, Carlota 1988. Factors of linguistic complexity and performance. – Alice Davison, Georgia M. Green (Eds.). Linguistic Complexity and Text Comprehension: Readability Issues Reconsidered. Hillsdale, NJ: Lawrence Erlbaum Associates, 247–279. Smith, Carlota; van Kleeck, Anne 1986. Linguistic complexity and performance. – Journal of Child Language, 13, 389–408. doi:10.1017/S0305000900008126 Tomasello, Michael 2000. First steps toward a usabe-based theory of language acquisition. – Cognitive Linguistics, 11, 61–82. doi:10.1515/cogl.2001.012 Tomasello, Michael 2003. Constructing a Language. A Usage-Based Theory of Language Acquistion. Cambridge, MA: Harvard University Press. Yaruss, J. Scott 1999. Utterance length, syntactic complexity, and childhood stuttering. – Journal of Speech, Language, and Hearing Research, 42, 329–345.

Lea Nieminen (University of Jyväskylä) research interests include the structural complexity of language and the acquisition of morphosyntax. She has taught general linguistics and research methodology to students of Finnish Sign Language at Jyväskylä University and has also taught courses focusing on language acquisition at Helsinki and Jyväskylä Universities. [email protected]

184 VKP JA IPSyn ABSOLUUTSE KEERUKUSE MÕÕTJAINA

Lea Nieminen Jyväskylä Ülikool

Artiklis vaadeldakse, kuidas suhtestuvad struktuurilise keerukuse mõõtmiseks kasutatavad vahendid, nagu VKP (väljendite keskmine pikkus, inglise keeles MLU) ja produktiivse süntaksi indeks IPSyn, millega mõõdeti 30 kuu vanuste soome laste kasutatud spontaanseid lauseid. Võrdluse eesmärk oli teha kindlaks, milliseid struktuurilise keerukuse aspekte kumbki mõõdik näitab. Struktuurilise keerukuse defi neerimiseks on lähemalt peatutud nii absoluutsel kui ka mitmeta- sandilisel lähenemisel lause keerukusele, lisaks on neid vahendeid rakendatud ka lauseanalüüsis. Mõõdikute kasutamise ja struktuurilise keerukuse muutumise tulemuste ana- lüüs näitas, et VKP ja IPSyn on mõlemad struktuurilise keerukuse mõõtmiseks kasutatavad, kuid ainult juhul, kui neid rakendatakse samaaegselt. Mõõdikud on suunatud keelekasutuse eri aspektidele ning mõlema mõõdiku abil saadud tulemusi tuleks interpreteerida omavahelises suhtes. Uurimuse tulemustel jõuti järeldusele, et lastel toimub morfoloogiline areng kõigepealt ühe süntaktilise komponendi piires, seejärel jätkub morfoloogiline areng ühes ja süntaktiline areng mõnes teises komponendis ja alles lõpuks areneb üks ja sama keeleline komponent nii morfoloogiliselt kui ka süntaktiliselt. Seetõttu võib väita, et struktuuriline keerukus kasvab eri arengufaasidel eri keelelistel tasanditel. Kumbki siinses kirjutises esitatud mõõdik ei näita aga keelelise arengu kõiki aspekte, seetõttu ongi vajalik kasutada korraga mõlemat mõõdikut ning saadud tulemusi põhjalikult interpreteerida.

Võtmesõnad: morfosüntaks, keeleomandamine, struktuuriline keerukus, laste- keel, soome keel

185

SÕNAVARA LOOMULIK RIKKUS HARITUD KEELEOSKAJA TEKSTIDES

Hille Pajupuu, Krista Kerge, Pilvi Alp

Ülevaade. Keeleoskuse üheks näitajaks on sõnavara rikkus ja selle ulatus. Uurimuses võrdlesime kõrgtaseme eesti keele eksami edukalt EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT 5, 187–196 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT sooritanud kohalike venelaste sõnavara eesti keelt emakeelena rääki- vate kõrgharidusega mittefi loloogide sõnavaraga kolme tüüpi tekstis: suuline dialoog, suuline esinemine ja kirjalik essee. Sõnavara rikkuse mõõtmiseks kasutasime Uber’i indeksit, sõnavara ulatuse määramiseks võrdlesime L1 ja L2 sõnavara sagedussõnastiku sõnavaraga (10 000 sagedasemat sõna). Sõnavara rikkus erines kahel rühmal oluliselt: L1 oli L2-st rikkam dialoogis ja monoloogis, eriti aga essees. Sõnavara ulatus näitas seevastu sarnast mustrit: elementaarsõnavara e sagedussõnastiku esimese 3000 sõna hulka kuulus nii suulises kui ka kirjalikus keelevormis u 65% L1 sõnavarast ja 70% L2 omast. Harvaesinevaid sõnu oli nii L1 kui ka L2 suulistes ja kirjalikes tekstides u 20%. Võrreldes tulemusi samade L1 ja L2 tekstide formaalsusindeksitega, mis on L1 ja L2 puhul küllaltki sarnased, jõudsime järeldusele, et vaesem sõnavara ei ole vabal rääki- misel ja kirjutamisel takistuseks, juhul kui sõnakasutus on registri- ja žanrikohane.* Võtmesõnad: sõnavara rikkus, sõnavara ulatus, tekstitüüp, žanr, Uber’i indeks, formaalsusindeks, L1, L2, eesti keel

Sissejuhatus

Uurimisprojekti “Rääkimise loomulikkus ja hindamine” raames üritame kirjeldada seda keelt, mida eesti ühiskond peab aktsepteeritavaks ehk loomulikuks. Loomulik keel avaldub (situatsiooni ja žanrit arvesse võttes) hästistruktu- reeritud tekstina, mida iseloomustab spontaansus ja ladusus; oskus kasutada 187 * See artikkel on valminud tänu Eesti Teadusfondi grandile nr 6742. keelt paindlikult ja tulemuslikult nii isiklikes kui ka avalikes oludes väljendeid eriti otsimata (vrd Raamdokument 2007: 39). Selline keel võimaldab suhtlejatel keskenduda sõnumi sisule, sõnumist arusaamist ei sega kõne kõla, keeleüksuste valik, vorm, järjestamine ega sidumine jm. Loomulikku keelekasutust ei samasta me standardiseeritud ehk normatiivse keelekasutusega, s.t sellise keelekasutusega, milleni isegi fi loloogist L1-kõneleja ei pruugi jõuda ja mis seetõttu ei saa olla aluseks ka L2 keeleoskuse hindamisel (vt ka Ratcliff jt 2002). Eeldame, et L1 loomulikkuse etaloniks on kõrgharidust nõudval ametikohal töötava mittefi loloogi spontaanne kõne ja enesekontrolli all kirjutamine (ingl self- controlled writing). Oleme loomulikku L1-kasutust kirjeldanud mitmest aspektist ja võrrelnud tulemusi sama haridustasemega L2-kõnelejate keelekasutuse tunnustega: aktsent ja selle taju (L. Meister, E. Meister 2007), lauseintonatsioon (Asu, ilmumas), erinevate tekstitüüpide pauseerimine (Pajupuu, Kerge 2006, Kerge jt 2008a, 2008b) ning nende kontekstuaalsus-formaalsus (Kerge jt 2007). Valdavalt tulevad loomu- liku keelekasutuse tahkude juures tugevasti esile žanrilised erinevused. Käesolev uurimus keskendub sõnavarale. Euroopa keeleõppe raamdoku- ment kirjeldab vilunud keelekasutaja (C1) sõnavarakompetentsi kahest küljest: 1) sõnakasutus: “Tuleb ette väiksemaid keelevääratusi, kuid märkimisväärseid sõnakasutus vigu pole”; 2) sõnavara ulatus: “Valdab rikkalikku sõnavara ja oskab sõnavaralünkadest üle saada kaudse väljenduse abil; sõnade otsimist või mõne väljendi vältimist tuleb ette harva. Kasutab ka idioome ja argikeeleväljendeid” (Raamdokument 2007: 130). Nii sõnakasutus kui ka sõnavara ulatus on lingvistilise kompetentsuse ja kõne voolavuse (ingl fl uent speech) näitajaid (Little 2005, Read, Chapelle 2001). Hästi kirjeldab neid Eeva Tuokko (2007) doktoritöö, kust leiab ka terve rea asjakohase teooria vahendusi. Keeletestimises hinnatakse rääkimis- ja kirjutamisoskust sub- jektiivselt, toetudes hindamisskaaladele (Bachman 2001: 76). Oleme veendunud, et hindamisskaalade põhjal on võimalik hinnata, kuivõrd ladus on jutt ja kui sidus tekst (terminikasutuse kohta pikemalt Kerge 2008: 52–55), kuid hinnata sõnavara ulatust ja selle aspektina sõnavara rikkust (s.o jälgida iga teemaringi adekvaatset käsitlust lähtudes just sõnavarast) on – iseäranis suulise keelekasutuse juures – väga keeruline ülesanne, seda enam, et sõnavara rikkus on seejuures mitmel meetodil mõõdetav objektiivne näitaja ning et sõnavara ulatuse objektiivne mõõtmine nõuab sõnade keskmise kasutussageduse tundmist (vt tagapool). Tekib küsimus, kas C1-taseme küllaltki nõudlike ülesannete muidu sujuva, kommunikatiivse ja asjakohase esituse hindamisel ongi mõtet L2 sõnavara ulatuse aspektidele eraldi tähelepanu pöörata. Nii oleme seadnud eesmärgi kirjeldada sõnavara rikkust ja ulatust kõne loomu- likkuse ühe tunnusena ja kaaluda selle kriteeriumi tähtsust L2 oskuse subjektiivse hindamise puhul. Meie uurimisküsimused on järgmised. 1) Kui rikas on haritud keeleoskaja L1 ja L2 sõnavara? 2) Kuidas iseloomustada haritud keeleoskaja L1 ja L2 sõnavara ulatust sõnade üldise sageduse aspektist eesti keeles? 3) Kas sõnavara rikkus ja ulatus erineb keelevormiti ja tekstitüübiti (suuline dialoog ja monoloog, kirjalik essee kui monoloog)? 4) Kas tulemustest lähtudes peaks keeleeksamitel eraldi keskenduma sõnavara rikkuse ja ulatuse hindamisele? 188 Sõnavara rikkust käibivate andmebaaside järgi Eestis uuritud ei ole. Ülle Rannuti doktoritöö küll viitab sõnavara rikkuse uurimisele kui oma eesmärgile (vt Rannut 2005: 11), kuid ei teosta seda läbipaistval meetodil ega võrdlemist lubaval viisil: jälgitakse intervjuude sõnavara liigilist koostist ja omandatud sõnade hulka ühe tekstiliigi (intervjuu) valitud lausetes, osutamata täpselt, kas ja kuidas on suhestatud sõnesid ja sõnu1 (vt samas 19, 27–29).

Taust, materjal, meetod

Kuna materjal on kogutud eesti keele tasemeeksamil (täpsemalt vt allpool), siis valgustame pisut selle tausta. Eestis on 2000. aasta rahvaloenduse järgi veidi üle 1,37 mln elaniku ja see arv langeb (u 1,341 mln inimest jaanuaris 2008). Eesti riigi- keelt räägib 2000. aasta andmetel emakeelena u 921 800 inimest; nende osatähtsus elanikkonnas kahaneb samuti (2000–2007 u 0,5% võrra).2 Tulenevalt riigikeelse suhtlemise kohustusest testib Eesti riik eesti keele oskust eri tasemetel.3 Kõrgeim keeleoskustase on nõutav peamiselt kõrgharidust vajavatel ametikohtadel (asutuste juhid, kõrgemad riigi- ja omavalitsusametnikud, juristid, arstid, psühholoogid, logopeedid, eesti keele või eestikeelsete ainete õpetajad, kõrgemad ohvitserid jne). Igal aastal on senisel kõrgtaseme eksamil osalenud u 1000 inimest, kelle emakeeleks on valdavalt vene keel4 (vt REKK 2007). Uurimuses kasutatava tekstimaterjali kogusime standardiseeritud situatsioonis: mitte-eestlaste oma kõrgtaseme (u B2+/C1) eesti keele eksamil, eestlaste oma selle eksamiga sarnastatud olukorras (sama eksamineerija, sama ajalimiit, samad üles- anded). Ülesandeid oli kolm: kirjalik essee (u 250 sõna, kirjutamise aeg 60 min), kahe testitava vestlus (suuline dialoog, kestus 5–7 min), lühiettekanne (suuline monoloog, kestus 1–2 min). Ette antud teemasid sidus valdkond: keskkond ja ühis- kond. Materjal litereeriti arvutifailideks ja seda töödeldi programmiga WordSmith Tools 3.0 (Scott 1996). Keelejuhid valisime põhimõttel, et tekiksid keelenõuete poolest hästi võrrelda- vad rühmad: 8 eestlast (4 naist, 4 meest, keskmine vanus 31,5, standardhälve 3,4) ja 8 eesti keelt kõrgtasemel oskavat mitte-eestlast (4 naist, 4 meest, keskmine vanus 32,5 standardhälve 14,2). Kõik nad töötavad kõrgharidust nõudvatel ametikohtadel, kasutavad töösuhtluses eesti keelt, kirjutavad ja räägivad eesti keeles vabalt. 2 Sõnavara rikkuse mõõtmiseks valisime Uber’i indeksi: U = (logN) /(logN – logV), kus N on sõnede arv (ingl tokens) ja V eri sõnade arv (ingl types). Valem kujutab endast V/N matemaatilist transformatsiooni, mis vähendab mõnevõrra teksti pik- kuse mõju sõnavara rikkuse hinnangule (vt Vermeer 2000). Sõnadeks tunnistasime

1 Rannut (2005: 19) on oma materjali määratlenud järgmiselt: “Valitud intervjuudest selekteerisin välja keskmiselt 25–30 lauset intervjuu kohta vastavalt õpilaste jutukusele. Lausete arvu määras sõnavara hulk lauses, mis pidi andma mõlema rühma uuritavaks sõnavarahulgaks 2500 sõna ja sõnavormi (kokku 5000)”. Nii on väga raske mõista ka tema analüüsi (vt samas: 27–29). 2 Vt Eesti statistika andmebaas http://pub.stat.ee/px-web.2001/Dialog/statfi le2.asp (30.09.2008). 3 Kuni 1. juulini 2008 mõõdeti keeleseaduse alusel eesti keele oskuse alg-, kesk- ja kõrgtaset; alates 1.07.2008 kehtivad keeleseaduse muutmise seaduse tagajärjel Euroopa Nõukogu keeleoskustasemed A, B ja C, mida mõõde- takse A2-, B1-, B2- ja C1-taseme eksami vormis. Vt keeleseaduse § 5 lõige 4. Vastu võetud keeleseaduse muutmise seadusega 8. veebruaril 2007. a. Vt Elektrooniline Riigi Teataja. https://www.riigiteataja.ee/ert/act.jsp?id=12795872 (11.06.2008). 4 Kõrgtaseme eksam on eesti keele oskuse riiklik standardeksam, mida Riiklik Eksami- ja Kvalifi katsioonikeskus on ALTE liikmena korraldanud 1999. aastast. C1-taseme standardeksameid hakati juurutama 1. juulist 2008. Siin kirjel- datav kõrgtase on juriidiliselt võrdsustatud tasemega C1, s.t kõrgtaseme tunnistus annab samasugused õigused kui 189 C1-taseme oma. (Vt “Avalike teenistujate, töötajate ning füüsilisest isikust ettevõtjate eesti keele oskuse ja kasutamise nõuded”. Vabariigi Valitsuse 26. juuni 2008. a määrus nr 105, § 16 lõige 3. Elektrooniline Riigi Teataja. https://www. riigiteataja.ee/ert/act.jsp?id=12983186 (30.09.2008).) Kogemuslikult võib oletada, et kõrgtase kaldub mõneti pigem B2-plusstaseme ehk väga hea B2-taseme suunas (pikemalt tasemesuhestuse kohta vt Kerge 2008: 17 jj). ainult täielikult omandatud sõnad (need, mida ei ole kasutatud sobimatus kontekstis ega sellises vormis, mis raskendaks teksti mõistmist).5 Et standardiseeritud situatsioon tagas võrreldavate tekstide ligilähedaselt võrdse mahu, siis pidasime Uberi’i indeksit oma materjalile piisavalt sobivaks ega hakanud otsima teksti pikkuse mõju minimeerimise keerukamaid viise (vrd Duran jt 2004). Mitmed autorid on sõnavara rikkuse hindamise kõrval pidanud otstarbekaks pöörata tähelepanu ka kasutatud sõnavara raskusele, lähtudes seisukohast, et sagedamini esinevaid sõnu teatakse paremini kui harvaesinevaid (vt diskussioon Vermeer 2000: 79, Witalisz 2007: 107). See viis meid mõttele võrrelda uuritavate keelekasutajarühmade sõnu eesti keele sagedussõnastikuga: 10 000 avalike tekstide sagedasima sõnaga (Kaalep, Muischnek 2002), mille jagasime sagedusjärkudeks (kuni 1000 sagedasimat sõna; 1001–3000 sõna, mis koos 1000 kõige sagedasema sõnaga moodustab elementaarsõnavara; 3001 kuni 10 000 sõna, mis koos 3000 sagedasima sõnaga moodustab tavalise sõnavara; väljapoole sagedussõnastiku 10 000 sõna piire jääv harvaesinev sõnavara). Selle võrdlusega üritasime saada pilti sõnavara ulatusest kitsamas tähenduses. Sõnavara rikkust mõõtsime eraldi kõigis uuritavates tekstitüüpides: suulises esinemises, dialoogis ning kirjalikus essees, sõnavara (sagedus)ulatust suulises (monoloog + dialoog) ja kirjalikus keelevormis. Tulemusi võrdlesime sama materjali peal saadud teksti formaalsusindeksitega (Kerge jt 2007), millest lähemalt tulemuste peatükis.

Tulemused

Keelekasutuse loomulikkuse sõnavaraga seotud parameetrite hulka kuulub nii siin kajastuv sõnavara rikkuse indeks ja sõnavara ulatus sagedusjärguti kui ka sõnaliigi- suhteid kajastav formaalsusindeks F. Indeks näitab kontekstivaba ja kontekstisidusa sõnavara suhet kindlat liiki tekstis, iseloomustades seega teksti ühetimõistetavust ja jälgitavust: mida kõrgem on see indeks, seda ühemõttelisem on tekst. (Vt Hey- lighen, Dewaele 2002) Formaalsusparameeter on siinkohal oluline seepärast, et kõne loomulikkusele ei viita sõnakasutuse aspektist rikkus üksi, vaid kooskõlas loomuliku olukohase lausestusega, mida sõnaliigisuhe osutab. Meie varasem eesti keele kontekstuaalsuse-formaalsuse uurimus6 sellesama L1-L2 materjali võrdlusena viis kahe selge tulemuseni: 1) L1 ning L2 kõnelejad sellel dimensioonil ei erine ning 2) sõltumata uuritavate emakeelest on kõige ilmekam erinevus keelevormide ja tekstitüüpide vahel – kõige kontekstuaalsem on dialoog, kõige formaalsem kirjalik essee (vt joonis 1). Üldistatult: kontekstuaalsus kahaneb ja formaalsus kasvab suuliselt kirjalikule ja dialoogilt monoloogile. (Kerge jt 2007)

5 Välja on arvatud näiteks pulpulistlik (Pulpulistliku riigi juhtimine tõi sellist vilja) jms ja paar täiesti arusaamatuks jäänud häälikukooslust. 190 6 Teksti kontekstuaalsuse-formaalsuse andmed on saadud eesti keele jaoks kohandatud Heyligheni ja Dewaele (2002) valemiga, mis põhineb eeldusel, et mõnede sõnaliikide (pronoomenite, verbide, adverbide, interjektsioonide) sage esinemine tekstis muudab selle kontekstuaalsemaks ja seega mitmemõttelisemaks, samal ajal kui teiste (noo- menid, adjektiivid, adpositsioonid, artiklid) sage esinemine langetab kontekstuaalsust, muutes teksti ühemõttelise- maks ehk formaalsemaks. Tekstitüüp kontekstuaalsuse/formaalsuse kontiinuumis

60 40 L1 20 L2 0 Formaalsusindeks F Formaalsusindeks Suuline dialoog Suuline Kirjalik essee monoloog Tekstitüüp Joonis 1. L1 ja L2 kontekstuaalsuserinevused tekstitüübiti. Mida suurem F, seda formaalsem tekst (Kerge jt 2007)

Tekstitüüpide erinevusest lähtuvalt esitame ka sõnavara rikkuse mõõtmistulemu- sed Uber’i indeksiga tekstitüüpide kaupa, tuues välja L1 ja L2 kasutajate indeksid (vt tabel 1).

Tabel 1. L1 ja L2 sõnavara rikkus erinevates tekstitüüpides. Esitatud on sõnade ja sõnede arv uuritavas tekstitüübis ning teksti sõnavara rikkust iseloomustav Uber’i indeks U. Mida suurem on U, seda rikka- maks võib pidada sõnavara

Uber’i index (U) Tekstitüübid Eri sõnu (V) Sõnesid (N) 2 (log N) /(log N logV ) L1 L2 L1 L2 L1 L2 Suuline dialoog 548 517 1752 2346 20,4 16,6 Suuline monoloog 477 402 1326 1348 24,0 19,2 Suuline kõne 845 713 3078 3694 20,5 18,6 (dialoog + monoloog) Kirjalik essee 736 666 1685 1824 34,0 21,2 (monoloog)

Visuaalselt ilmekam on samade rühmade võrdlus tulpdiagrammil (vt joonis 2).

Sõnavara rikkus 40 30 L1 20 L2 10 Uber'i indeks U 0 Suuline dialoog Suuline Kirjalik essee monoloog Tekstitüüp

Joonis 2. L1 ja L2 sõnavara rikkus tekstitüübiti. Mida suurem on U, seda rikkamaks võib pidada sõnavara

191 Tulemustest nähtub, et tekstitüübid erinevad sõnavara rikkuselt. Loomulikuks võib pidada sõnavara rikkuse kasvamist dialoogilt monoloogi suunas ja suuliselt keelevormilt kirjaliku keelevormi suunas. Nii L1 kui ka L2 kasutajatel on sõnavara rikkuse indeks väikseim kõige kontekstuaalsemas uuritud tekstitüübis (dialoog) ja kõige suurem kõige formaalsemas tekstitüübis (kirjalik essee). L2 sõnavara on siiski iga tekstitüübi piires märkimisväärselt vaesem kui L1 oma ja maksimaalne erinevus loomulikust ilmneb kirjalikus essees. Uuritud rühmade sõnu eesti keele sagedussõnastikuga võrreldes (10 000 avalike tekstide sagedasimat sõna) jõudsime üsna üllatavale tulemusele: haritud emakeelekasutaja väga sagedase sõnavara osatähtsus oli kõigis tekstitüüpides mär- kimisväärselt suur – sageduselt esimese 3000 sõna järku jäi suulises tekstis 65,7% ja kirjalikus 65,9% sõnadest. L2 sõnavara ulatus on L1-ga väga sarnane: esimese 3000 sõna sagedusjärku jäi suulises tekstis 70,8% ja kirjalikus 70,6% sõnadest. Ka ülejäänud sõnade jaotus sagedussõnastiku taustal ei erine: sagedusrühma 3001–10 000 sõna jäi L1 puhul 12% ja L2 puhul 14% suulise teksti sõnadest ning vastavalt 7,5 ja 9,3% kirjaliku teksti sõnadest. Harvaesinevaid sõnu oli mõlemal kasutajarühmal sõltumata keelevormist veidi üle 20% (vt joonis 3).

Sõnavara ulatus

100% 22,3 21,7 20,1 20,1 80% 12 7,5 14 9,3 Muud 60% 20,6 19,5 20,2 22 3001-10000 1001-3000 40% kuni 1000 51,1 45,5 50,2 43,9 20%

0% L1 suuline L2 suuline L1 kirjalik L2 kirjalik Tekstitüüp

Joonis 3. L1 ja L2 sõnavara võrdlus sagedussõnastikuga

Diskussioon ja järeldused

Sõnavara rikkuse kui osava (vilunud) suhtleja loomuliku keelekasutuse näitaja juu- res näib tähtsaim joon minevat kirjaliku ja suulise keelekasutuse vahelt ning teksti vormide vahelt (monoloog, dialoog). See tulemus toetab ja rikastab nn sõnavara rikkuse variatiivsuskeskset käsitlust (vt ingl variationist view on lexical richness: Gijsel jt 2005). Suulisus-kirjalikkus ja monoloogilisus-dialoogilisus on ennekõike parameetrid, mis kirjeldavad žanrit (vt Chafe, Tannen 1987: 385): antud juhul kolme ühiskonna- ja keskkonnatemaatilise diskursuse kaudu seotud žanrit, s.o läbirääkimisi (arutelu ühise seisukoha leidmiseks), ettekannet ja esseed. Loomulikus keelekasutuses on kõige vaesem sõnavara interaktiivses arutelus, järgneb ettekanne, kõige rikkama 192 sõnavaraga on essee. See tulemus on kooskõlas näiteks Wallace Chafe’i tulemusega, et suulises tekstis on muuhulgas enam kordamist kui kirjalikus (vt osutust samas). L2-kasutajate sõnavara on sõltumata žanrist märgatavalt vaesem kui L1 oma. Nii tekib oletus, et sõnavara rikkust oleks vaja testida eraldi. Seda tulemust inter- preteerides tuleb aga arvestada, et kõigile uuritud L2-kasutajatele on juba antud eesti keele oskuse kõrgtaset kinnitav tunnistus (de iure C1) – tegemist on niisiis vilunud suhtlejatega. Siit võib järeldada, et keeleoskuse muud tahud kompensee- rivad sõnavara suhtelist vaesust. Kuivõrd suhteliselt vaene sõnavara ei ole seganud hindamast uuritavate keele- oskustaset suhteliselt kõrgeks, satub kahtluse alla ka eeltoodud oletus, et sõnavara rikkust oleks eraldi vaja testida. Rikkusparameetri reaalse tulemuse näivad korvavat teksti loomulik sõnaliigiline koostis, mis seisab sarnase formaalsusindeksi taga (joonis 1), ning sagedusjärkude L1-sarnane jaotus kui sõnavara ulatuse näitaja, mis tuvastati siinses uurimuses (joonis 3). Ka satuks sõnavara koostise detailne testimine rahuldava keelelise toimetuleku juures vastuollu raamdokumendi tege- vus- ehk toimingupõhise ja õppijakeskse ideoloogiaga, millega seostub keelekasutaja vabadus valida suhtlusstrateegiaid (vt Raamdokument 2007: 24–28, 73, 143 jm; vt ka Kerge 2008: 25 jj, 55–56 jm). Siiski väärib eritähelepanu L2 sõnavaene kirjalik keelekasutus (U-indeks 21,2): see sarnaneb pigem emakeelsete suulise keelekasutusega (20,5) kui kirjalikuga (34). Nii võib kaaluda sõnavara rikkuse mõõtmist kirjaliku teksti hindamise lisavahendina neil puhkudel, kui muud tunnused ei luba eksaminandi kirjaliku keelekasutuse taset kindlapiiriliselt määrata. (Suulise keelekasutuse juures, kus meetodi rakendamine oleks äärmiselt tüsilik, ei ole sellist lisavahendit meie andmetel vaja.) Raske on interpreteerida tulemust, et elementaarsõnastiku osatähtsus läheneb loomulikus keelekasutuses kahele kolmandikule sõnadest. Edasises vajab sõnavara ulatuse see mõõde võrdlemist nii eri registrites kui ka suuremas tekstimassiivis. Siiski, vahendades paljude autorite tulemusi enam kui 30 aasta vahemikust, veenavad Wallace Chafe ja Deborah Tannen (1987: 385–86) lugejat, et suulise keelekasutuse puhul on sõnavara lihtsam ning verbide, asesõnade ja adverbide osatähtsus suurem. Seega iseloomustavad suulisust varasemate uurimuste järgi samad parameetrid, mis osutavad suurele kontekstuaalsusele Francis Heyligheni ja Jean-Marc Dewaele (2002) mõistes. W. Chafe’i ja D. Tannen’i seisukohad toetavad niisiis eespool viidatud kontekstuaalsusuurimuse tulemusi, millega kinnitasime L1- ja L2-kõnelejate sõnavara liigilise koostise suhtelist sarnasust, iseloomustamata täpsemalt, kuidas mõista sõnavara lihtsust (kas see haakub elementaarsõnavara leitud osatähtsusega).

Kokkuvõte

Tulemused lisavad loodavasse rääkimise loomulikkuse mudelisse vähemalt ühe, sõnavara loomuliku rikkuse kriteeriumi ja annavad uue mõõtme ka varem uuritud kontekstuaalsusele (F-indeksile). Uuringust ilmneb järgmine. 1) L1 kirjalikus kasutuses on sõnavara oluliselt rikkam kui suulises, samuti kasvab vähemsagedaste sõnade määr suuliselt kirjaliku suunas. 2) Sõnavara on monoloogis rikkam kui dialoogis. 3) Elementaarsõnavara osatähtsus L1 tekstides on ootamatult suur. 193 Funktsionaalne toimetulek L2 nõudlike tekstidega emakeelekõnelejast selgelt vaesema sõnavara juures suunab võrdlema keelekasutuse muid parameetreid. Sõnavara rikkuse mõõtmine võib seejuures osutuda kirjaliku keelekasutuse hin- damise lisavahendiks.

Viidatud kirjandus Asu, Eva Liina, ilmumas. Rising intonation in native and non-native Estonian. – Language History and Dialectology Issues. Vilnius: Lithuanian Language Institute. Bachman, Lyle F. 2001 [1990]. Fundamental Considerations in Language Testing. Oxford Applied Linguistics. Oxford: Oxford University Press. Chafe, Wallace; Tannen, Deborah 1987. The relation between written and spoken lan- guage. – Annual Review of Anthropology, 16, 383–407. doi:10.1146/annurev. an.16.100187.002123 Duran, Pilar; Marven, David D.; Richard, Brian J.; Chipere, Ngoni 2004. Developmental trends in lexical diversity. – Applied Linguistics, 25 (2), 220–242. doi:10.1093/ applin/25.2.220 Gijsel van, Sophie; Speelman, Dirk; Geeraerts, Dirk 2005. A variationist, corpus linguistic analysis of lexical richness. – Proceedings from The Corpus Linguistics Conference Series 1 (1). Corpus Linguistics 2005, July 14-17 2005, , UK. http://www. corpus.bham.ac.uk/pclc/index.shtml (30.09.2008). Heylighen, Francis; Dewaele, Jean-Marc 2002. Variation in the contextuality of language: An empirical measure. – Foundations of Science, 7 (3), 293–340. doi:10.1023/ A:1019661126744 Kaalep, Heikki-Jaan; Muischnek, Kadri 2002. Eesti kirjakeele sagedussõnastik. Tartu: TÜ Kirjastus. Kerge, Krista 2008. Vilunud keeleoskaja. C1-taseme eesti keele oskus. Tallinn: HTM, TLÜ, EKSA. Kerge, Krista; Pajupuu, Hille; Altrov, Rene 2007. Tekst, kontekstuaalsus ja kultuur. – Keel ja Kirjandus, 8, 624–637. Kerge, Krista; Pajupuu, Hille; Tamuri, Kairi 2008a. Where should TTS-synthesizer pause and breathe? – The Third Baltic Conference on Human Language Technologies. Vilnius: Vytauto Didžiojo Universitetas; Lietuviu kalbos institutas, 143–149. Kerge, Krista; Pajupuu, Hille; Tamuri, Kairi; Meier, Heidi 2008b. Kõnetehnoloogia vajab žanrilist lähenemist. – Eesti Rakenduslingvistika Ühingu aastaraamat, 4, 53–65. Little, David 2005. The Common European Framework and the European language portfo- lio: Involving learners and their judgements in the assessment process. – Language Testing, 22 (3), 321–336. doi:10.1191/0265532205lt311oa Meister, Lya; Meister, Einar 2007. Perceptual assessment of Russian-accented Estonian. – ICPhS XVI: Proceedings of the 16th International Congress of Phonetic Sciences, 6–10 August 2007, Saarbrücken Germany. Saarbrücken: Universität des Saarlandes, 1717–1720. Pajupuu, Hille; Kerge, Krista 2006. Hingav süntesaator ja pausid tekstiliigiti. – Keel ja Kirjandus, 3, 202–210. Raamdokument 2007 = Euroopa keeleõppe raamdokument: õppimine, õpetamine ja hinda- mine. Tartu: Haridus- ja Teadusministeerium, 2007. Rannut, Ülle 2005. Keelekeskkonna mõju vene õpilaste eesti keele omandamisele ja integrat- sioonile Eestis. Analüütiline ülevaade. TLÜ humanitaarteaduste dissertatsioonid 14. Tallinn: TLÜ Kirjastus.

194 Ratcliff, Ann; Coughlin, Sue; Lehman, Mark 2002. Factors infl uencing ratings of speech naturalness in augmentative and alternative communication. – AAC: Augmentative & Alternative Communication, 18 (1), 11–19. doi:10.1080/714043393 Read, John; Chapelle, Carol A. 2001. A framework for second language vocabulary assess- ment. – Language Testing, 18 (1), 1–32. doi:10.1177/026553220101800101 REKK 2007 = Riiklik Eksami- ja Kvalifi katsioonikeskus. Eesti keele tasemeeksamid. Statistika ja analüüsid. Vt http://www.ekk.edu.ee/eksaminandile/eesti-keele-tasemeeksamid/ statistika-ja-analuusid (18.10.2008). Scott, Michael 1996. WordSmith Tools. Oxford: Oxford University Press. Tuokko, Eeva 2007. Mille tasolle perusopetuksen Englannin opiskelussa päästään? Perus- opetuksen päästövaiheen kansallisen arvioinnin 1999 Eurooppalaisen viitekehyksen taitotasoihin linkitetyt tulokset. Jyväskylä Studies in Humanities 69. Jyväskylä: University of Jyväskylä. Vermeer, Anne 2000. Coming to grips with lexical richness in spontaneous speech data. – Language Testing, 17 (1), 65–83. doi:10.1177/026553220001700103 Witalisz, Ewa 2007. Vocabulary assessment in writing: Lexical statistics. – Z. Lengyel, J. Navracsics (Eds.). Second Language Lexical Processes: Applied Linguistics and Psycholinguistic Perspectives. Second Language Acquisition. Clevedon: Multilingual Matters Ltd, 99–116.

Hille Pajupuu (Eesti Keele Instituut) uurimisvaldkonnad on kõneakustika, kultuuridevaheline kommunikatsioon, keeletestimine. [email protected]

Krista Kerge (Tallinna Ülikool) uurimisvaldkonnad on keele variatiivsus, tekstianalüüs, rakendus- lingvistika (L1 ja L2 omandamine, õigus- ja haldussuhtlus, kõne paralingvistiliste komponentide ja süntaksi seosed). [email protected]

Pilvi Alp (Riiklik Eksami- ja Kvalifi katsioonikeskus) uurimisvaldkond on keeletestimine. [email protected]

195 NATURAL LEXICAL RICHNESS IN EDUCATED LANGUAGE USE

Hille Pajupuu, Krista Kerge, Pilvi Alp Institute of the Estonian Language, Tallinn University, The National Examinations and Qualifi cations Centre

Lexical richness/diversity and vocabulary range belong to measures of language competence. The vocabulary of local Russians with advanced Estonian profi ciency (B2+/C1) was compared to the vocabulary of native Estonians with non-philological tertiary education. Three types of texts were used: oral dialogue, oral presentation and written essay. Lexical richness was measured by the Uber index. The vocabulary range was found by comparing the L1 and L2 vocabularies used by the subjects to a list of 10,000 most frequent words. The two groups differed considerably on lexical richness: L1 results surpassed those of L2 in dialogue as well as in monologue, but most of all in essay. Vocabulary range, however, showed a similar pattern for the two groups: 65% of the L1 voca- bulary used and 70% of that of L2 belonged, both in oral and written use, to the basic vocabulary, i.e. to the fi rst 3000 words on the frequency list. The proportion of rare words (range over 10.000) was about 20%, in oral as well as written texts in both L1 and L2. Considering the above results together with the indices of text formality, which were rather similar for L1 and L2, we reached the conclusion that poorer vocabulary is no real hindrance to either free talking or writing, if the word use is adequate to register and genre.

Keywords: L1, L2 acquisition, C1, lexical richness, vocabulary range, frequent words, text type, Uber index, Estonian

196 EESTI ASULANIMEDE TRANSKRIBEERIMISEST JA KÄÄNAMISEST VENE KEELES

Oksana Palikova, Katrin Karu

Ülevaade. Artiklis käsitletakse probleemi, mis kerkib aeg-ajalt esile vene keelde tõlkijate ja vene keele toimetajate praktikas: kuidas tuleks sihtkeeles (vene keeles) kirjutada lähtekeele (eesti keele) pärisnime-

sid? Antud uurimuses keskendutakse ühe Eesti toponüümide rühma 5, 197–207 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT funktsioneerimisele vene keeles. Probleemi võib vaadelda kahest aspektist: kohanime transkribeerimine ja morfoloogiline vormistus. Transkribeerimisele on erialakirjanduses pööratud rohkem tähelepanu võrreldes kohanime morfoloogiaga. Viimase puhul lähtutakse pigem keelevaistust, mitte kindlatest reeglitest. Eesti asulanimede näitel vaa- deldakse neid kahte aspekti lähemalt. Artikli lõpus antakse praktilisi soovitusi kõige rohkearvulisema asulanimede rühma moodustavate a-lõpuliste nimede kirjutamiseks venekeelses tekstis. Võtmesõnad: toponüümid, praktiline transkriptsioon, ümberkirju- tusreeglid, morfoloogia, keelekorraldus

1. Lähtealused

Võõrnimede kirjutamisel tuleb tõlkijal otsustada, milline peab olema sõna graafi - line vormistus sihtkeeles. Probleem tekib nende võõrnimede puhul, mille kirjapilt ei ole määratud traditsiooniga. Seetõttu on tõlkija jaoks oluline tunda praktilise transkriptsiooni reegleid.

1.1. Praktiline transkriptsioon

Praktilist transkriptsiooni tuleb eristada nii “tavalisest” transkriptsioonist, mille puhul toetutakse sõna foneetilisele vormile, kui ka translitereerimisest, mil antakse edasi sõna tähekuju. Praktilise transkriptsiooni jaoks on oluline sõna üldise (osali- selt ka graafi lise) kuju säilitamine sihtkeeles (Гиляревский, Старостин 1985: 21). Seetõttu kasutatakse praktilises transkriptsioonis translitereerimise elemente. Just 197 sellega on näiteks seletatav eestikeelsete pikkade häälikute märkimine vene keeles kahe tähe abil: uu → уу, аа → аа jne. Eesti nimede praktilises transkriptsioonis vene keelde saab peamiselt toetuda kahele allikale: 1) “Vene-eesti ja eesti-vene ümberkirjutusreeglid” ning selle alajaotus “Ees- ti-vene tähetabel. (Emakeele Seltsi keeletoimkonna 23.11.1995 soovitus)” (Keeletoimkond 2000: 111–114). See reeglistik on ümbertöötatud variant 1973. a ilmunud brošüürist “Eesti pärisnimede kirjutamine vene keeles” (Eesti pärisnimed 1973). Lisaks on olemas tähetabel “Eesti nimede kirjuta- mine vene tähestikus”, mille on kinnitanud Eesti haridus- ja teadusminister 2005. a. 2008. a aprillis toimus Eesti Keele Instituudis nõupidamine, kus arutati eesti kohanimede ümberkirjutusreeglite optimeerimist. Parandus- ettepanekud edastati Emakeele Seltsi keeletoimkonnale. 29.10.2008 võttis Emakeele Seltsi keeletoimkond vastu “Muudatused eesti-vene tähetabelis” (Keeletoimkond 2008). Haridus- ja teadusminister on 20.11.2008 täheta- beli muudatused kinnitanud (vt Riigiteataja 2008). 2) “Võõrnimed vene tekstis. Käsiraamat” (Гиляревский, Старостин 1985). Kuna eesti keelel, sarnaselt teiste liiduvabariikide keeltega, ei olnud Nõu- kogude Liidus võõrkeele staatust, siis R. Giljarevski ja B. Starostini teat- mikus ei ole eesti nimede ümberkirjutusreegleid. Samas ei ole ka uuemaid venekeelseid allikaid, mis täidaksid seda lünka. Ent võrdluseks võib vaa- delda, milliseid soovitusi antakse nimetatud teatmikus soome pärisnimede ümberkirjutamiseks vene keelde. Ilmnes, et soome nimede ümberkirjutusreegleid ei saa kasutada eesti nimedes. Teatmikus on öeldud, et juba alates 1961. aastast eksisteerib nüüdseks välja kuju- nenud eesti kohanimede ümberkirjutamise traditsioon, mille kohaselt nt pikka i-d transkribeeritakse täheühendi ий abil (Гиляревский, Старостин 1985: 237), nt Iisaku – Ийзаку.1 Samas soome perenime Niitemaa puhul soovitatakse ümber- kirjutamisel kasutada kahte i-d: Ниитемаа (samas: 236). Teatmikust leiame ka sellise soovituse: “[Soome] kohanimede ümberkirjutamisel kaotatakse topelttäht, isikunimede puhul see säilitatakse” (samas: 237) ning edasi: “ent ee, yy, ää, öö puhul kasutatakse vene keeles ühekordset tähte” (samas: 238). Eesti (koha)nimede puhul on vene keeles alati kehtinud teistsugune reegel. Vrd: ее – еэ kaashääliku järel (Муствеэ) ning ээ sõna alguses (Ээрику); üü – юй (Кюйни); ää – яэ sõna keskel või lõpus (Отепяэ), ээ sõna alguses (Ээрма); öö – ёэ (Сёэди) (Keeletoimkond 2000: 111–113). Kõnealused soovitused on välja töötatud orienteerudes sõna foneetilisele (mitte graafi lisele) kujule.

1.2. Morfoloogiline vormistus

Kuna vene keel on valdavalt fl ekteeriv, arenenud deklinatsiooniga, siis püütakse võõrpäritolu sõna integreerida oma grammatilisse süsteemi. Seetõttu kuulub iga laenatud nimisõna sõltuvalt selle lõpuhäälikust vene keeles ühte kolmest käänd- konnast ning sellele omistatakse kõik vastava käändkonna muutelõpud. Nt Лондон (London) – I käändkond, Куба (Kuuba) – II käändkond jne.

198 1 R. Giljarevski ja B. Starostin (1985) viitavad J. Tamme soovitustele, mis on avaldatud “Eesti-vene sõnaraamatus“ (Tamm 1961: 750). Samas eksisteerib rida piiranguid, mis takistavad laenatud pärisnimede kää- namist. Nii näiteks ei käänata ühesilbilisi võõrpäritolu nimesid, samuti selliseid nimesid, mille lõputähtedeks on -о, -е, -и (Суперанская 1965: 118). Mis puudutab mitmesilbilisi a-lõpulisi rõhuta lõpuga võõrnimesid, siis neid “enamasti [O.P., K.K. sõrendus] käänatakse nagu II käändkonna nimisõnu, sõltumata grammatilisest soost. Sama kehtib sõnade kohta, mille lõpus on -я või -ия. Kui sõnad on ühesilbi- lised või nimetava lõpus on teine täishäälik, siis neid ei käänata.” (Гиляревский, Старостин 1985: 45)

1.3. Keelelise korrektsuse kriteeriumid

Võõrnime transkribeerimise ja morfoloogilise vormistuse seisukohalt võib pidada määravaks kolme järgmist kriteeriumi. Esimesed kaks lähtuvad vormist, viimane on tähenduslik. 1) “Transkribeeritud sõna peab olema äratuntav” (Суперанская 1978: 125). Oluline on püüelda selle poole, et tõlketeksti lugeja viiks tekstis kasutatud nimega vastavusse sama objekti (nt asula), mis originaalteksti lugeja. 2) Transkribeeritud sõna peab olema adekvaatselt retranskribeeritav (Суперанская 1978: 126–127). Sõltumata võõrnime vormistusest, peab olema võimalik maksimaalselt täpne tagasipöördumine lähtekeele graafi lise kuju juurde. 3) Ümberkirjutamisel tuleb püüelda selle poole, et säiliksid võõrnime tähen- duslikud elemendid (Суперанская 1978: 69). Ehk teisisõnu: kui võõrnimi sisaldab elemente, millel on lähtekeeles olemas tähendus, siis peab nimi olema transkribeeritud nii, et selle struktuur oleks maksimaalses vastavu- ses lähtekeele nime struktuuriga: “.. võõrnimede foneetilise vormi säilita- mine ei tohi olla eesmärgiks omaette. Transkribeerimise käigus on kõige olulisem säilitada ümberkirjutatavas sõnas sisalduv info.” (Суперанская 1978: 152)

2. Eesti asulanimede transkriptsioonist ja morfoloogilisest vormistusest vene keeles

Vaatleme lähemalt Eesti asulanimesid. Seejuures keskendume nende lõputähtede transkribeerimise võimalustele ning muutemorfoloogilistele omadustele ning sellest tulenevalt ka käänamisvõimalustele.

2.1. Eesti asulanimede praktiline transkriptsioon

2.1.1. Pikad täishäälikud

Et eesti asulanimedes esineb pikki lõpuvokaale, mida graafi liselt tähistavad topelt- tähed, kerkib esile küsimus, mismoodi tuleks need vene keelde ümber kirjutada. Üldiselt võib kõnealuse olukorra liigitada nende juhtumite hulka, mil ühe keele mitmele keeleühikule vastab teises keeles kaks või isegi üks keeleühik (Суперанская 199 1978: 131). Huvitav on märkida, et Aleksandra Superanskaja illustreerib kõnealust juhtu eesti keele näitel: “eesti lühikestele, pikkadele ja ülipikkadele vokaalidele vas- tavad vene keeles “keskmised”, mis fonemaatiliselt ei eristu kui pikad ja lühikesed.” (Суперанская 1978: 131) Vokaali pikkuse märkimine topelttähtede abil on vastavuses retranskriptsiooni nõudega, ent taoline retranskriptsioon ei ole ilmne ettevalmistamata kasutaja jaoks, vrd: üü = юй, öö = ёэ, ää = яэ / ээ, ее = еэ / ээ. Kusjuures see puudutab ka neid juhtumeid, mil esineb täielik graafi line kokkulangevus kahes keeles: аа – аа, оо – оо, uu – уу. Vene keeles tähendab topelttähtede kasutamine neist kummagi eraldi hääl- damist (vrd зоопарк ‘loomaaed’, воочию ‘oma silmaga’)2, seetõttu tuleks eesti pikkade ja ülipikkade vokaalide ümberkirjutamise reeglid vene keeles topelttähtede või tähekombinatsioonide abil samuti formuleerida eraldi. Nt Emakeele Seltsi keeletoimkonna soovitustes on selgelt sõnastatud vaid kolme topelttähe ümber- kirjutamise reeglid. Need on ää (2 varianti), öö ja üü. Teiste topelttäishäälikute ümberkirjutamise reeglid sisalduvad implitsiitselt näidetes, kuid ei ole eraldi sõnastatud, samas vene keele seisukohalt on see hädavajalik: аa – Ааспере; eе – kaks võimalust, mis ei ole formuleeritud, kuid nende olemasolule viitavad näited (Муствеэ, Ээрику); ii – Ийзаку, Сийм “.. i=й (i järel, samuti diftongi järelosisena)”; оo – Оонурме, Каансоо; uu – Йыэсуу; õõ – Лыыла (Keeletoimkond 2000: 111–113). Mitte mingil juhul ei tohi lubada eesti (või soome) topeltvokaalide ümberkirjuta- misel vene keelde ühe tähe kasutamist, sest üksiktähe kasutamine topelttähtede asemel võib viia olulise infokaoni lähtekeele sõna tähendusliku struktuuri osas. Topelttähtede kasutamine ümberkirjutamisel “aitab kaasa retranskriptsioonile ning nime infostruktuuri säilimisele” (Суперанская 1978: 196–197). Vrd: Põltsamaa, Virumaa – Võhma, Matjama. Seega Eesti (asula)nimede ümberkirjutamise optimaalne moodus on ühest küljest olemasolevate ümberkirjutusreeglite kasutamine (need vajavad siiski täien- damist), teisest küljest – ümberkirjutamine koos originaalnimede äratoomisega (eriti dokumentides ja ametlikes tekstides).

2.1.2. Veel kord Tallinnast

Kui ülaltoodud näited, mis illustreerivad topeltvokaalide ümberkirjutamist, ei tekita üldiselt vastuväiteid, siis küsimus sellest, kuidas tuleks vene keeles kirjutada Eesti pealinna nime, on juba muutunud traditsiooniliseks. Püüame siinkohal abstrahee- rida probleemi keelevälisest küljest ning vaatleme lingvistilisi argumente. Üks vastuväide, et Tallinn (Таллинн) tuleks vene keeles kirjutada kahe n-iga, seisneb selles, et vene keeles ei ole võimalik hääldada pikalt sõna lõpukonsonanti. Ent nii nagu topeltvokaalid, nõnda ka topeltkonsonandid “muutuvad vene keelde ümberkirjutamisel lihtsalt topelttähtedeks, millel puudub morfoloogiline või ortograafi line funktsioon, kuid millel on tähtis roll sõnade ja nende

200 2 Vrd: “Mõnedes keeltes märgivad topeltvokaalid pikki vokaale .. Vene keelde ümberkirjutamise süsteemipärasuse tagamiseks on sellistel puhkudel tarvis säilitada topelttäht: soome Ivaarit – Иваарит, eesti Tartumaa – Тартумаа ..” (Суперанская 1978: 196). Vrd vastupidist põhimõtet: “[Soome] toponüümide ümberkirjutamisel topelttähti ei kasuta- ta ..” (Гиляревский, Старостин 1985: 237). vormide eristamisel.” [O.P., K.K. sõrendus] (Суперанская 1978: 214). Ehk teisisõnu: topeltkonsonandi kirjutamine vene keeles ei tingi selle pikka hääldust. Nt sõnades финн ‘soomlane’, мусс ‘mannavaht’, В. Скотт (V. Scott), Стокманн (Stockmann) jms topeltkonsonante e i hääldata pikalt. A. Superanskaja märgib, et vene keelele on omane tendents hääldada pikalt konsonante, mis asuvad vokaalide vahel pärast rõhulist silpi (samas: 215), ehk sellises positsioonis nagu l sõnas Tallinn. Veelgi enam: sellises positsioonis võib pikalt hääldada ka ühekordset konsonanti, nt Гавана (Havanna), драма ‘draama’ (Суперанская 1978: 215). Seejuures toetub uurija A. Reformatski arvamusele, kes samuti märkis, et foneetilistel argumentidel topeltkonsonantide kirjutamise kasuks vene keeles ei ole piisavat alust (samas: 215). Niisiis, topeltkonsonandi kirjutamine sõna Tallinn (Таллинн) lõpus ei tekita vastuolu sõna graafi lise ja foneetilise kuju vahel. Teisest küljest eksisteerib nõue, et arvestada tuleb võõrpäritolu nime struktuuri. See tähendab, et sõna tähenduslikud komponendid peavad lähte- ja sihtkeeles kokku langema, nt sellised struktuurselt erinevad nimed nagu Bergson ja Bergs- son, Janson ja Jansson, milles “kaashäälikurühma ühe komponendi ärajätmine muudaks sõnade eristamise võimatuks” (Суперанская 1978: 127). Kuna eesti keeles ei ole peale Tallinna linnanimesid, mille struktuuri kuuluks sõnaosa linn, siis võib tunduda, et see probleem polegi oluline. Kuid on terve rida linnaosade nimetusi, mis sisaldavad sama komponenti ning mille lõpus kirjutatakse topelt -n. Sellise kirjapildi aktsepteerimine vene keeles ei ole kunagi tekitanud kahtlusi ega vaidlusi. Vrd nt Tartu linnaosade nimesid: Annelinn – Аннелинн, Tammelinn – Таммелинн, Supilinn – Супилинн. Kõige tugevamaks ja võib-olla ainsaks argumendiks selle vastu, et kirjutada sõna Tallinn (Таллинн) lõppu topeltkonsonant, on traditsiooni arvestamise nõue, kui- võrd pikka aega kirjutati seda sõna tõepoolest ühe n-iga. Traditsioon ongi peamiseks põhjuseks, miks ei saa kõikide võõrpäritolu nimede kirjutamist allutada ühtsetele reeglitele. Samas, vaatamata uutele reeglitele, mille kohaselt venekeelses tekstis ei tohi l-i järel, millele omakorda järgneb konsonant, kasutada pehmendusmärki, säilib siiski tuntud isikute perekonnanimede traditsiooniline kirjutusviis: Вильде, Крейцвальд (Keeletoimkond 2000, 2008). Teisest küljest on traditsiooni muut- mine õigustatud, kui see tingib lähtekeele sõna struktuuri taastamise ega muuda olulisel määral nime graafi list ja foneetilist kuju. Seejuures on lihtsam unifi tseerida selliste sõnade kirjutamist, kus muutused on väikesed ega puuduta sõna algust, nt Ливерпуль → Ливерпул (Liverpool), Лос-Анджелос → Лос-Анджелес (Los Angeles) (Суперанская 1978: 155). Lõpetuseks võiks lisada, et aastate jooksul, mis on möödunud hetkest, kui hakkas kehtima nõue kirjutada Таллинн kahe n-iga, on vähemalt osal vene keelt kõnelevast elanikkonnast jõudnud välja kujuneda uus traditsioon – kirjutada Eesti pealinna nime lõppu topeltkonsonant. Seda toetavad ka koolinõuded, mis on ise- enesest tugev argument.

201 2.2. Eesti asulanimede käänamisest

2.2.1. Eesti asulanimed lõpuhäälikute seisukohalt

Statistikaameti andmetel on Eestis 2008. a veebruari seisuga 4670 asulat (linnad, külad, alevid, alevikud). Kasutades statistikapaketti SPSS analüüsime neid lõpu- häälikute seisukohalt. Selgus, et Eesti asulanimede hulgas: 1) leidub vaid üks konsonantlõpuline nimi (Tallinn); 2) ei ole ü- ja ö-lõpulisi asulanimesid; 3) on väga harvad lõpuvokaalid y (0,2 %), õ (0,5 %), ä (0,8 %), o (1,6 %); 4) on umbes ühepalju u- ja i-lõpulisi asulanimesid, vastavalt 14,1% ja 15,4%; 5) esinevad kõige sagedamini lõpuvokaalid е (25,9 %) ja а (41,5 %). Analüüsi tulemused on koondatud tabelisse 1.

Tabel 1. Eesti asulanimede lõputähed ja nende esinemissagedus

Lõputäht Sagedus Protsent Näited a 1936 41,5% Lehola, Tuulna e 1211 25,9% Naage, Kose i 717 15,4% Vansi, Heigi u 658 14,1% Sõmeru, Maeru o 76 1,6% Piissoo, Loo ä 38 0,8% Lüütsepä, Küllätüvä õ 22 0,5% Ignasõ, Kitsõ y 11 0,2% Borrby, Saxby n 1 0,0% Tallinn Kokku 4670 100,0%

2500

2000

1500

1000

500

0 ae inouõä y Joonis 1. Lõpuvokaali esinemissagedus Eesti asulanimedes

Vene keele seisukohalt on sõna käänamise probleem relevantne vaid konsonant- lõpuliste nimede puhul või kahe- ja enamasilbiliste a-lõpuliste rõhuta lõpuga 202 nimede puhul. Seega huvitavad meid olemasolevatest asulanimedest vaid a- ja ä-lõpulised. Kuna ää transkribeeritakse kui -яэ, siis sellise lõpuga sõna satub vene keeles muutumatute sõnade hulka. aa-lõpulist sõna ei saa samuti käänata, sest tao- line sõnalõpp ei ole vene keelele omane, järelikult on ka sellised asulanimed vene keele seisukohalt muutumatud sõnad. Järgnev graafi k illustreerib asjaolu, et just a-lõpulised asulanimed moodustavad lõviosa kõigist Eesti asulanimedest.

2.2.2. Kas vene keeles tuleb käänata a-lõpulisi asulanimesid?

Vaatamata sellele, et vene keele süsteem justkui nõuaks a-lõpuliste nimisõnade käänamist, omistades neile II käändkonna muutelõppe, ei ole see reegel absoluutne. Sageli tekitab vastuväiteid a- või я-lõpuliste gruusia, jaapani jm perenimede kää- namine: “Lõputähtede a või я mõtestamine nominatiivi lõpuna ja sellest tulenev isikunimede käänamine (nt Окуджавы (genitiiv) [Okudžavat], Куросаве (daativ) [Kurosavale], Данелией (instrumentaal) [Danelijaga]) tekitab vastuväiteid nende hulgas, kes peavad sellist morfeemjaotust valeks ning liigitavad taolisi nimesid muutumatuteks sõnadeks (беседовал с Гулия [‘rääkis Gulijaga’])” (Ермолович 2001: 28).3 Kui kohanimi esineb koos liiginimega, on vene keelele omane käänata mõle- mat: nt в городе Серпухове ‘Serpuhhovi linnas’ (Гиляревский, Старостин 1985: 47). Samas meediatekstide jaoks on iseloomulik mitte käänata võõrpäritolu kohanime, käänates vaid liiginime: из города Плейнс ‘Pleinsi linnast’, в порту Эгвекинот ‘Egvekinoti sadamas’) (Гиляревский, Старостин 1985: 47). Sama tendents on täheldatav ka vene päritolu kohanimede puhul “tekstides, kus kajasta- takse sõjatemaatikat, nt kõrgema ülemjuhatuse teadetes: Армия Тормасова была послана .. к селу Доброе [‘Tormasovi armee saadeti Dobroje küla juurde’]”. A. Superanskaja toob analoogseid näiteid, kus ei käänata a-lõpulisi kohanimesid, nt из городов Кодза и Кинован ‘Kodza ja Kinovani linnadest’; из индийского города Симла ‘India linnast Shimla’ jms. Loetlemata kõiki näiteid võib öelda, et need on üldistatavad kui tendents säilitada lähte- ja sihtkeele nimede identsus (Суперанская 1965: 137–139). Teisest küljest on vene keelele omane “mitte käänata võõrpäritolu kohanimesid isegi siis, kui nende lõpud ei välista käänamist” (Суперанская 1965: 119). Seetõttu sageli ei käänata võõrpäritolu a-lõpulisi kohanimesid, kuigi keelesüsteem justkui nõuaks nende käänamist:4 “.. приехать к нам .. в Кочкор-Ата .. На северной оконечности Пегу-йома (Чжу Чжи-хэ).” ‘tulla meile .. Kotškor-Atasse .. Pegu Yoma põhjatipus’ (Суперанская 1965: 135). Vaatleme mõnda interneti näidet:5 (1) БАДАЛОНА: Матчем в Бадалоне ЦСКА начинает второй круг ТОП-16 Евролиги. Что касается самой Бадалоны, то этот город располагается непода- леку от Барселоны на левом берегу небольшой речки Besos и Среди- земного моря.

3 Sama probleemi kohta vt ka (Калакуцкая 1984: 62–97). 4 Teatud sõnarühmade mittekäänamise tendentsist, mis tekkis 19. saj ja on muutunud tugevamaks 20. saj, eriti selle teisel poolel, on räägitud vastses uuringus, kus käsitletakse tänapäeva vene keele aktiivseid protsesse (Гловинская 2008: 203 227–239). 5 Kõik interneti näited on saadud lihtotsingu tulemusena 2008. a aprillis. Kasutati otsingumootorit Google. Otsiti a-lõpulisi asulanimesid, allikana kasutati maailma atlast (Сергеева, Антонов 1990). Eesmärgiks oli kontrollida reaalset keelekasutust kinnitamaks või ümber lükkamaks hüpoteesi selle kohta, et vene keeles kiputakse neid mitte käänama. (2) ФУЛЬДА: В Фульде же находится резиденция епископа – главы епископата Фульда. (3) АСАХИГАВА: – Что дальше делать будете, Рэйко? – В Асахигава хочу поехать. Естественно ведь, с таким трудом пришла наконец в себя, и ехать в Асахигаву, чушь какая-то. (4) КОУВОЛА: Туры в Коувола. Отели Коуволы. Найти отель в Коу- воле. (5) ХЮВИНКЯ: Впервые с Финляндией, ее природой, жизненным укла- дом, Ахматова познакомилась в 1915 году, когда оказалась в Хювинкя под Хельсинки. (6) ЮВЯСКЮЛЯ: Только что вернулись в Питер из Ювяскюля. В Ювяскюля много зелени – прямо с главной улицы можно попасть в настоящий лес, в центре которого – на вершине горы – находится стадион. (7) ЯМСЯ: В ближайшем городе Ямся (Jämsä) предлагается посетить ресторан гостиницы “Ямся”.

Isegi toodud näidetest ilmneb, et a) suhteliselt “lihtne” on vene keelt emakeelena kõneleja jaoks käänata a-lõ- pulisi hispaania ja itaalia päritolu kohanimesid (nt Бандалона); b) sama kehtib ka jaapani ja soome päritolu kohanimede kohta, ent kuna nendel on teisi võõrpäritolu sõna tunnuseid (vene keelele mitteomased häälikuühendid, nt hiaatus Kouvola), võivad nad tekstis esineda kui muutu- matud sõnad: поехать в Асахигава ‘sõita Asahigavasse’, туры в Коувла ‘ringreisid Kouvolas’; c) ei käänata я-lõpulisi [-’а] kohanimesid. See võib tuleneda asjaolust, et nt prepositsionaali lõpp -e takistab sõna algvormi taastamist, vrd: ?в Ямсе = Ямся või Ямса.

2.2.3. Eesti a-lõpuliste asulanimede käänamisest vene keeles

Vene keeles ei saa käänata ühesilbilisi asulanimesid (Aa küla), samuti topeltvokaa- liga lõppevaid asulanimesid (Põltsamaa). Teiste Eesti a-lõpuliste asulanimede käänamine võib kaasa tuua ebasoovitava homonüümia, mis takistab retranskribeerimist. Iga a-lõpuline asulanimi võib obliikvakäänetes olla identifi tseeritav kui e- või u-lõpuline. Nt on olemas kaks asulanime, mis erinevad teineteisest vaid lõpuvokaali poolest: Langa küla ja Lange küla. On arusaadav, et nime Langa käänamine vene keeles võib põhjustada nende kahe kohanime mitteeristamise ning lähte- ja sihtkeelse nime identsuse kao. Eesti a-lõpuliste kohanimede käänamine võib tingida nende struktuuriinfo (morfeemiinfo) kao. Nt kui kohanimedes Laimetsa, Laimjala, Laiusevälja, Laa- neotsa on lõpuvokaal obliikvakäände tunnuseks, siis nende sõnade käänamine sihtkeeles põhjustab olulise infokao, vrd: в ?Лайметсе ‘Laimetsas’, из ?Лаанеотсы ‘Laaneotsast’, до ?Лаймялы ‘Laimjalani’, в ?Лайусевялью ‘Laiusevälja’ jne. 204 Ülalöeldu ei kehti vaid ühe asulanimede rühma kohta. Tegemist on sõnadega, mis on vene keeles kohanenud, nn vanade laenudega. Ent nende hulka võib arvata vaid vähesed linnade nimed (laenude kohanemise põhjustel me siinkohal ei peatu): Elva, Narva, Valga. Seejuures tuleks ära märkida, et käänamine on kohustuslik vaid toponüümi Narva (Нарва) jaoks, teiste nimede puhul on lubatud nii sõna algvormi kasutamine kui käänamine. Ülejäänud Eesti linnade nimede käänamine ei tundu otstarbekas. Lõpetuseks võiks anda mõned soovitused eesti a-lõpuliste asulanimede kää- namise kohta vene keeles. 1) Vene keeles võib käänata kohanenud a-lõpulisi asulanimesid nagu из Нарвы ‘Narvast’, в Эльву ‘Elvasse’, рядом с Валгой ‘Valga lähistel’ jne. 2) Ülejäänud a-lõpulised asulanimed venekeelses tekstis ei käändu: поехать в Йыгева ‘sõita Jõgevale’, рядом с Тапа ‘Tapa lähistel’, приехать из Рапла ‘tulla Raplast’ jne. 3) Dokumentides tuleks asulanimele lisada lähtekeele kirjapilt (see puudutab eriti külasid, aleveid ja alevikke): житель Ряэса (Rääsa) ‘Rääsa elanik’, сведения о Саувялья (Sauvälja) ‘andmed Sauvälja kohta’ jne. 4) Dokumentides tuleks asulanimedele võimalusel lisada liiginimi (ka see keh- tib ennekõike külade, alevite ja alevike kohta): жители деревни Паэкюла (Paeküla) ‘Paeküla küla elanikud’, дом в деревне Оэла (Oela) ‘maja Oela külas’.

3. Kokkuvõte

Võõrnime praktilise transkriptsiooni puhul kehtib kaks peamist reeglit: 1) võõr- nime peab saama adekvaatselt retranskribeerida; 2) tuleb püüelda selle poole, et ümberkirjutamisel säiliksid võõrnime tähenduslikud elemendid. Järgides neid reegleid ning lähtudes eesti ja vene keelesüsteemide iseärasustest (nii graafi listest ja foneetilistest kui ka morfoloogilistest), tuleb Eesti asulanimede ümberkirjutamisel vene keelde arvestada järgmist: 1) vene graafi liste vahendite abil ümber kirjutada topeltvokaalid ja -konso- nandid (Eesti pealinna nimi ei ole erandiks); 2) vene keeles tuleb vältida võõrpäritolu asulanimede käänamist. Ametlikes dokumentides on otstarbekas asulanimele lisada liiginimi ning sõna ori- ginaalne tähekuju.

Viidatud kirjandus Eesti pärisnimed 1973 = Eesti pärisnimede kirjutamine vene keeles. Русская транскрипция эстонских имен собственных. Eesti NSV Teaduste Akadeemia Keele ja Kirjanduse Instituut. Tallinn: Valgus, 1973. Ермолович, Дмитрий 2001. Имена собственные на стыке языков и культур. Москва: Р. Валент. Гиляревский, Руджеро; Старостин, Борис 1985. Иностранные имена и названия в русском тексте. Справочник. Москва: Высшая школа. Гловинская, Марина 2008. Активные процессы в грамматике. – Л. П. Крысин (ред.). Современный русский язык: Активные процессы на рубеже XX–XXI веков. Москва: Языки славянских культур, 187–270. 205 Калакуцкая, Лариса 1984. Склонение фамилий и личных имен в русском литературном языке. Москва: Наука. Keeletoimkond 2000 = Vene-eesti ja eesti-vene ümberkirjutusreeglid. – Kirjakeele teataja II. 1993–2000. Emakeele Seltsi keeletoimkonna soovitused. Tallinn: Emakeele Selts, 106–114. Keeletoimkond 2008 = Muudatused eesti-vene tähetabelis. Emakeele Seltsi keeletoimkonna otsus (29.10.2008). http://www.emakeeleselts.ee/otsused/eskt_otsus_2008_ttab. pdf (07.02.2009). Riigiteataja 2008 = Kohanimede transkribeerimist ja translitereerimist reeglistava täheta- beli kehtestamine. – Haridus- ja teadusministri 20. novembri 2008. a määrus nr 64. https://www.riigiteataja.ee/ert/act.jsp?id=13073380 (07.02.2009). Сергеева, С. И.; Антонов, В. М. (pед.) 1990. Атлас мира. Москва: ГУГК. Суперанская, Александра 1965. Склонение собственных имен в современном русском языке. – Орфография собственных имен. Москва: Наука. Суперанская, Александра 1978. Теоретические основы практической транскрипции. Москва: Наука. Tamm, Johan 1961. Juhiseid eesti pärisnimede kirjutamise kohta vene keeles. – Johan Tamm. Eesti-vene sõnaraamat. Tallinn: Eesti Riiklik Kirjastus, 749–750.

Oksana Palikova (Tartu Ülikool) peamised uurimisvaldkonnad on kakskeelne leksikograafi a, semanti- ka, leksikoloogia. [email protected]

Katrin Karu (Tartu Ülikool) peamised uurimisvaldkonnad on funktsionaalne grammatika, eesti ja vene keele kõrvutav grammatika ning mööndkonstruktsioonid. [email protected]

206 ON THE TRANSCRIPTION AND DECLENSION OF THE ESTONIAN TOPONYMS IN RUSSIAN

Oksana Palikova, Katrin Karu University of Tartu

The article discusses a practical problem faced by interpreters and editors: how should Estonian toponyms be handled in the Russian language. The authors regard this problem from two points of view. In the fi rst place, the problems of tran- scription are analyzed – in particular the requirements of practical transcription. Secondly, the morphological structure and declension of the Estonian toponyms are scrutinized. As it turned out, nearly half (41.5%) of all Estonian place-names end in -a, like nouns of the Russian second declension. In accordance with the general rules of the Russian language the nouns with the ending -a are declined. However, taking into account various other factors, the authors of the given article make the conclu- sion that only those few names of towns which are old loans should be declined in Russian. Recommendations are given for using the names of Estonian settlements in Russian written texts.

Keywords: toponymy, practical transcription, morphology, language planning

207

INTERVJUU KEELEANDMETE KOGUMISE MEETODINA

Kristiina Praakli

Ülevaade. Keelekasutuse uuringutes tuntakse erinevaid ainestiku- tüüpe, nagu intervjuu, argivestlused, osalusvaatlustel põhinevad aines- tikud, päevikumärkmed, ankeetküsitlused, eksperimendid, kirjalikud

tekstid, autobiograafi ad, helimaterjalid, raadio- ja telesaated, e-kirjad 5, 209–223 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT jne. Tõenäoliselt nõustub iga empiirilise ainestikuga töötav uurija väitega, et ideaalset keeleandmete kogumise meetodit ei ole olemas. Artiklis käsitletakse intervjueerimise ja intervjuuainestike spetsiifi kat keeleuuringute eesmärkidest ja vajadustest lähtuvalt. Vaadeldakse selliseid empiiriliste uuringute põhiprobleeme nagu vaatleja paradoks, intervjueerija ja intervjueeritava suhe ja koostöö ning nende vastas- tikune mõjutamine. Nimetatud aspektid on tegurid, millest oleneb keeleandmete kogumise edukus. Võtmesõnad: suuline kõne, keeleainestikud, keeleline käitumine, sotsiolingvistika, empiiriline ainestik, eesti keel

1. Intervjuu mõiste ning intervjuude põhitüübid

Intervjuu tähendab ühiselt konstrueeritud vestlust intervjueerija ja intervjueeritava vahel (Codó 2008: 163). Intervjuumeetod on kiire, süstemaatiline ning paindlik suuliste keeleandmete kogumise meetod, mis võimaldab hankida detailset teavet “siin ja praegu”. Sirkka Hirsjärvi, Pirkko Remes ja Paula Sajavaara (2005: 192) nimetavad intervjuuainestike eelistena paindlikkust ning võimalust andmekogumist vastavalt olukorrale ja vastajale reguleerida. Eva Codó (2008: 159) toob intervjuu- meetodi puhul välja kaks eelist: esiteks, intervjuud on lihtsam ette valmistada selleks valitud keelejuhtidega kui hankida luba loomuliku suulise kõne lindistuste tegemiseks; teiseks, erinevalt loomulikust sotsiaalsest suhtlusest võimaldab mee- tod kontrollitumat keskkonda teatud keelevormide kogumiseks. See tähendab, et uurijal on võimalik intervjuu vajalikus suunas ette valmistada ning viia vestlus teadlikult nendele teemale, mis suurendaksid ühe või teise teema kaudu uuritavate 209 keelevormide sagedamat kasutust. Keeleandmete hankimine toimub justkui kaud- selt: intervjueerija vestleb intervjueeritavaga erinevatel teemadel, pidades silmas, et vestlusteemad võimaldaksid soovitud keeleainestikku hankida. Samas annab igasugune teave kogukonna normide ja üldise sotsiaalse ja kultuurilise tausta kohta ainestikule lisaväärtust (Milroy, Gordon 2003). Intervjuu on ühtlasi hea meetod uuritavate “maailma pääsemiseks” (Lehtonen 2004: 8). Sotsioloogia ja sotsiolingvistika tunnevad erinevaid intervjuutüüpe: avatud intervjuu (ingl open-ended interview), teemaintervjuu (non-directive interview; focused interview), struktureerimata / poolstruktureeritud intervjuu (non-structu- red, semi-structured interview), süvaintervjuu (in-depth interview) jne. Järgnevas ülevaates esitatakse Eskola, Suoranta põhjal (2003: 86) intervjuutüüpide tähtsai- mad tunnusjooned. Struktureeritud intervjuus on küsimuste formuleerimine ja nende esitamise järjekord kõikidele küsitletavatele alati ühesugune. Teine oluline tunnusjoon on intervjueeritavale vastusevariantide nimetamine. Pakutud variantide hulgast palutakse valida kõige sobivam. Struktureeritud intervjuud on võrreldud juhendatud ankeetküsitluste täitmisega. Poolstruktureeritud intervjuu erineb struktureeritud intervjuust selle poolest, et kuigi küsimused on kõikidele interv- jueeritavatele ühesugused, ei anta küsitletavatele vastusevariante, intervjueeritav tohib vastata oma sõnadega. Teemaintervjuus määratakse eelnevalt kindlaks teemavaldkonnad, millest intervjueeritavaga vesteldakse. Puudub struktureeritud intervjuule tüüpiline küsimuste täpne formuleering ning järjekord. Intervjueerija peab tagama selle, et kõik intervjuuks valitud teemavaldkonnad oleksid käsitletud. Intervjueerija ei kasuta eelnevalt kindlaks määratud küsimusi. Avatud intervjuu on lähedane tavalisele vestlusele. Intervjueerija ja intervjueeritav vestlevad teatud teemal, kuid kõikide intervjueeritavatega ei käsitleta samu teemavaldkondi (Eskola, Suoranta 2003: 86). Sotsiolingvistilised intervjuud on üldjuhul vähem struktureeritud ning paindli- kumad (lähemalt Milroy, Gordon 2003: 57). Lawrence Neuman (2003: 391) esitab erinevatele uurijatele tuginedes prototüüpse survey-tüüpi intervjuu (küsitlus) ning väliintervjuu (ingl fi eld interview) võrdluse. Väliintervjuusid, mis on ülesehituselt poolstruktureeritud, mittedirektiivsed või süvaintervjuud, markeerivad järgmised tunnusjooned: 1) intervjuu algus ja lõpp ei ole selged, intervjuud on võimalik ka hiljem jät- kata; 2) küsimused ja küsimuste esitamise järjekord kohandatakse vastavalt keele- juhtidele ja situatsioonidele; 3) intervjueerija näitab üles huvi intervjueeritava vastuste vastu, julgustades detailide lisamist; 4) meenutab sõbralikku mõttevahetust, kuid sisaldab rohkem intervjuu küsi- musi; 5) intervjuusse võib olla põimitud teemaväliseid nalju, kõrvalmärkusi, lugusid jne, mis samuti lindistatakse; 6) intervjueerija ja intervjueeritav kontrollivad koos intervjuu tempot ja suunda; 7) vastuste interpreteerimiseks on oluline intervjuu sotsiaalne kontekst ehk toimumiskoht, osalejad jne; 8) intervjueerija kohandab ennast rääkijate normide ja keelekasutusega. 210 Sotsiolingvistika kasutab keeleainestike kogumisel üldjuhul teemaintervjuusid. Uurija, kes on seadnud eesmärgiks koguda keeleainestik intervjueerimise teel, langetab eri intervjuu tüüpide vahel valides otsuse niisuguse intervjuutüübi kasuks, mis oleks struktuurilt lähedane argivestlusele, kuid mis võimaldaks koguda vaja- liku mahu ja kvaliteediga keeleainestikku. Keeleuurija esmane huvi keeleainestike kogumisel lasub indiviidi või rühma keelekasutuse ning keelelise käitumise või- malikult autentsel salvestamisel, seetõttu rakendatakse teemaintervjuusid neid kõige sagedamini. Ükski sotsiolingvistiline intervjuu ei kuulu kunagi ainult ühte kategooriasse, sest uurija vajab vähemalt kahte tüüpi andmeid: esiteks sotsiobiograafi lisi andmeid intervjueeritava, teiseks andmeid keelekasutuse kohta. Uuritavate sotsiodemograa- fi lise profi ili kaardistamine eeldab vähemalt intervjuu algetapis uurija liikumist struktureeritud või poolstruktureeritud intervjuutüübi tasandil, seejärel toimub üleminek teemaintervjuule:

(1) KP: Nii. Esimesed on siis taustaküsimused. Kui kaua sa oled elanud Soo- mes? INF: Neli aastat. KP: Ja oled sa elanud kogu aeg samas kohas Soomes? INF: Jah. KP: Kogu aeg Tamperes? INF: Jah. KP: Mhmh. Ja Eestis elasid sa? INF: Tallinnas. KP: Kes on sinu pereliikmed? INF: Mees ja kolmeaastane laps. KP: Ja abikaasa on INF: soomlane. (näide autori erakogust)

Taustaküsimustele vastamine on läbi viidud intervjuu vormis. Autori varasemale kogemusele tuginevalt suurendab ankeetküsimustike kasutamine ametlikkust, mistõttu on nendest teadlikult loobutud. Enne küsimustele vastama asumist oli keelejuhil võimalik otsustada, kas ja kui põhjalikult ta taustaküsimustele vastata soovib. Intervjuu tüüpide piirid ning üleminekud ühelt tüübilt teisele ei ole rangelt määratletud, oluline on, et teema ning küsitlusviisi muutumine ei mõjutaks interv- juusituatsiooni, edasist suhtlust ning vestlejatevahelist koostööd halvavalt. Sõltuvalt intervjueerija kogemusest võimaldavad teemaintervjuud vähendada märgatavalt intervjuude formaalsusastet ning oskusliku küsitleja puhul ei pruugi intervjuu tavavestlusest üldjoontes erinedagi. Intervjuu ametlikkuse vähendamiseks esitatakse küsimused võimalikult vabas vormis. Küsimuste esitamise järjekord varieerub sõltuvalt kontakti saavutamisest keelejuhiga ning intervjuu alguses valitsenud vestlussituatsioonist. Intervjuu toimub sina-vormis. Küsimusi esitades on välditud terminite ja erialasõnavara kasutamist. Tüüpilist teemaintervjuud, mille eesmärk on koguda nii keeleandmeid kui ka taustateavet Soome eestlaste kakskeelsuse kohta, kirjeldab näide (2), milles soomemõjuline fraas on esitatud paksus kirjas. 211 (2) KP: Kuidas sa iseloomustaksid nimodi üldiselt eesti keele kasutamist Soo- mes? INF: Ma arvan, et et on ülekaalus on see, et räägitakse nii väljaspool kui ka kodus soome keelt. KP: Soome keelt ikkagi? Miks? INF: Sellepärast, et nende laste pealt, keda ma seal lasteringis ja nüüd ka nüüd ka seal esimeses klassis ma olen õpetanud, ma olen märganud, et nad ei saa arugi eesti keelest, et sellisel juhul on ka küsimus sellest, et seda ei ole lihtsalt kuuldudki, sest laps võib küll otsustada, et ta ei räägi ühte keelt, aga aru saab ta ikkagi. KP: Mis sa arvad, mis selle taga võiks olla? INF: Tahe samastuda siia ühiskonda, sest ((taustal lapse kilked)) väliselt on see ju tege: tegelikult lihtne. Et kui me väliselt oleme nii sarnased, siis ainult see keel ja me olemegi soomlased, kui ainult seda kasutame. (näide autori erakogust)

2. Intervjuumeetodi probleemid

Hoolimata eelpool nimetatud plussidest ei ole intervjuu kindlasti ideaalne suulise kõne kogumise viis ja võimalus. Intervjuu puhul on üldiselt tegemist suhteliselt ametliku vestlusega, mis mõjutab lindistuse läbiviimist, intervjueeritava käitumist ja keelekasutust. Intervjueerimisega kaasneb probleeme, mida ainestiku kogumisel ja hilisemas keeleanalüüsis kindlasti arvesse võtta tuleb. Intervjuuainestikke on kritiseerinud paljud keeleteadlased (nt Labov 1972: 209, Schlobinski 1996: 46, Sarhimaa 1999: 76, Milroy, Gordon 2003: 57–60, Lehtonen 2004: 8, Lappalainen 2004: 16).

2.1. Intervjuu vs. argivestlus

Argivestluse eeliseks on loomulikum ja mitmekülgsem keeleainestik ning suurem tõenäosus koguda keelematerjali eri kohtades ja situatsioonides. Lesley Milroy ja Matthew Gordon nimetavad intervjuu ning argivestluse peamise erinevusena paarisinteraktsiooni (ingl dyadic interaction), mis leiab aset tundmatute vestlus- partnerite vahel (2003: 61–62). Intervjuud iseloomustavad järgmised omadused: 1) intervjuu on eelnevalt kavandatud; 2) intervjuu algatab ja intervjuud juhib intervjueerija; 3) intervjueerijal tuleb tihtipeale intervjueeritavat motiveerida ning hoida vestlust üleval; 4) intervjueerija tunneb oma rolli, mida intervjueeritav alles õpib; 5) intervjueeritaval tuleb usaldada intervjueerijat, et tema räägitud juttu usalduslikult käsitletaks (Hirsjärvi, Hurme 1980: 41, viidatud Eskola, Suoranta 2003: 85 järgi). Liina Lindström esitab oma artiklis (2001: 213–218) Tiit Hennoste kritee- riumidele tuginevalt intervjuude (L. Lindströmil murdetekstid) ning argivestluse struktuuri võrdluse. T. Hennoste nimetab argivestlust spontaanseks, sundimatuks dialoogiks, milles osaleja põhieesmärk on vestluses osalemine; vestluste infoväärtus on tüüpiliselt madal, sisu on üldistatud, afektiivne ja interaktsionaalne (pikemalt Lindström 2000: 265). Tüüpilises argivestlustes vestlevad head tuttavad informaal- 212 sel territooriumil ning suhtluse eesmärk on suhtlus ise. Puudub kindel rollijaotus, suhtlejate rollid võivad vestluse käigus muutuda, vooruvahetus on vaba (Lindström 2001: 214). Ametlike vestluste kriteeriumidele vastavates murdekorpuse tekstides kõnelevad omavahel võõrad (või peaaegu võõrad) inimesed, kelle rollid on selgelt jagunenud ega muutu suhtluse käigus: küsitleja küsib ja keelejuht vastab. Suhtlus toi- mub tavaliselt ühe osapoole jaoks tuttaval territooriumil (Lindström 2001: 214). Vaatamata intervjuude eritasemelistele formaalsusastmetele ei ole probleemid välistatud ka teiste meetodite puhul. Näiteks argivestlustes ja osalusvaatlustes ei suuda uurija korraga jälgida kõikide kõnelejate tegevust ning keelelist käitumist; päevikumärkmete abil ei ole võimalik koguda suurt hulka keelematerjali (salaja tehtud lindistused on lubamatud), rühmalindistuste puhul võib uurija kaotada kontrolli lindistusolukorra üle ning tekib küsimus, kas igalt rääkijalt on piisavalt kõnet lindistatud (vt ka Milroy, Gordon 2003: 70).

2.2. Vaatleja paradoks

Uurimisprotsess on erinevate kohtumiste sari, mis mõjutab ühel või teisel viisil kõiki osapooli (Vuorinen 2001: 243). Uurija mõju ei ole võimalik vältida ka kõige põhjalikumalt ette valmistatud keeleainestiku kogumises. Uurija mõjutab aines- tiku kujunemist ainuüksi sellega, et ta on sunnitud tahes-tahtmata intervjuu käiku sekkuma, esitama intervjueeritavale suunavaid ja täpsustavaid küsimusi, võib- olla ka ebameeldivaid küsimusi. Annamaria Marttila (2007) rõhutab, et uurija ja keelejuhi vahelise koostöö tulemus on tehislikult uurimuse jaoks loodud jutustus, mitte loomulik vestlus. Paljud rääkijad muudavad oma tavalist käitumist olukorras, kui nendega vestleb ja nende kõnet lindistab tundmatu uurija. William Labov (1972: 61) on seda nimetanud vaatleja paradoksiks (ingl Observer’s Paradox), mille all ta peab silmas loomuliku kõne avaldumise probleeme intervjuu situatsioonis, kui uurija eesmärk on uuritava tegelike keelekasutusmustrite analüüsimine. Sotsiolingvis- tiliste intervjuude põhitingimus on, et kogutav ainestik peab olema spontaanse kõnega nii sarnane kui võimalik. Seetõttu on oluline luua keelejuhtidega usaldus- lik suhe, et nad tunneksid ennast uurijaga rääkides mugavalt ning keskenduksid vähem oma kõne kontrollimisele (Codó 2008: 160). W. Labovi soovituse järgi peab intervjueerijal olema õppija ning madalamat autoriteeti omava inimese positsioon kui inimesel, kellega ta räägib (Milroy, Gordon 2003: 62). Kuigi uurija ülesanne on panna intervjueeritav tundma ennast lindistussituatsioonis vabalt, jääb interv- jueerimise teel kogutud “puhas” keel uurija jõupingutustest hoolimata alati min- gil määral “ebapuhtaks”, kuna vestlused lindistatakse ning diktofoni juuresolek muudab vestlussituatsiooni ebaharilikuks (Nuolijärvi 1986: 35). Mai Loog rõhutab oma uurimuse ning ainestiku kogumise protsessi näitel, et lindistusolukorra pitser jääb kogu ainestikule: kõik tulemused kajastavad keelt (Loogi uurimuses noorte kõnekeelt), mida räägiti just sellistel ja sellistel tingimustel, just sellises olukorras, just sel väljatöötatud viisil ning sellel valitud teemal (Loog 1992: 32). Ideaalis peaks vestlust lindistav diktofon või fi lmiv videokaamera olema kui mööbliese, mille ole- masolu jääb märkamatuks nii intervjueeritavale kui intervjueerijale. Samas on intervjuude puhul tegemist kompaktse materjaliga, mis võimaldab kogutud ainestikku ja saadud tulemusi teiste intervjueerimise teel kogutud aines- 213 tikega võrrelda. Oluline on ka kontekst ja vestlustingimused. Kõik keelejuhid (ja ka intervjueerija ise) on keeleainestiku kogumises ühesugustes tingimustes: suhteli- selt tundmatu vestluspartner ja keelejuhid; kindlad vestlusteemad; intervjueerija kohustus küsida ning keelejuhtide kohustus vastata ning intervjuu lindistamine.

3. Suulise keeleainestiku kogumise puudused

Mis tahes suulise keeleainestiku kogumisel tuleb arvestada sellega, et kõik kee- lejooned ei pruugi intervjuu käigus ilmneda. Eri keelejooned avalduvad erineval määral, rääkija võib ka teadlikult keelekasutust muuta ning uurimiseesmärki teades vältida uuritavate keelejoonte kasutamist (Riionheimo 2007: 37, Kunnas 2007: 33, Halmari 1997: 22). Näiteks võib kakskeelne keelekasutaja vältida tema keelekasutuses muidu ootuspäraste võõrkoodi (L2) elementide või struktuurijoonte kasutamist, seetõttu ei pruugi intervjuu situatsioon peegeldada kakskeelse kõne avaldumisvorme niisugusel kujul, nagu need muudes situatsioonides ilmneda või- vad (lähemalt Riionheimo 2007: 37). Näiteks on koodivahetus pigem rühmasisene keelelise käitumise ilming, millega keeleainestiku kogumisel kindlasti arvestada tuleb (Halmari 1997: 22). Samas on esitatud ka vastupidiseid seisukohti. Kuigi formaalsetes situatsioonides suureneb kirjakeele kasutamine, ei ole Matti Suojaneni hinnangul kõik keelejooned inimese pideva kontrolli all, samuti väheneb intervjuu jooksul kontroll keelekasutuse üle (1982: 16–17). Sotsiolingvistid on välja töötanud uurija mõju ületamiseks või vähendamiseks ja keelejuhtide argikeelekasutuse julgustamiseks mitmeid tehnikaid (nt rühmain- tervjuude läbiviimine, intervjuu struktuuri muutmine; vestlusteemade muutmine jne) (Milroy, Gordon 2003: 49, Labov 1972: 61, Sarhimaa 1999: 78, Wardhaugh 2002: 151). Mõned uurijad on seisukohal, et kui keelejuhid on intervjuusse emot- sionaalselt kaasatud (on põnevil, vihased, hirmunud), keskenduvad nad rohkem sellele, mida öelda, mitte sellele, kuidas öelda (Milroy, Gordon 2003: 65). Siinkohal on ilmselt tuntuimad W. Labovi (1972: 209–210) soovitused kasutada intervjuee- rimisel emotsionaalseid reaktsioone tekitavaid küsimusi ja teemasid, mis juhivad keeljuhi tähelepanu keelekasutuselt kõrvale. W. Labov palus intervjueeritavatel kirjeldada ohtlikke situatsioone nende elus (W. Labov: have you ever been in a situation where you were in serious danger or being killed?). Samas ei pruugi need teemad kõikidele keelejuhtidele sobida (Milroy, Gordon 2003: 61). W. Labovi intervjuutehnilisi soovitusi on järginud näiteks Anneli Sarhimaa (1999). Intervjuumeetodi valiku puhul tuleb kõigepealt lähtuda sellest, kas uurimus on kvantitatiivne või kvalitatiivne. Mitmete uurijate hinnangul sobibki intervjuu eelkõige sageli esinevate keelejoonte (nt fonoloogiliste ja morfoloogiliste) kogumi- seks (Kunnas 2007: 33 ja sealsed viited). Intervjuud on levinud ennekõike kvanti- tatiivsetes variaablusuuringutes, vähemal määral kasutatakse intervjuuainestikke ka kvalitatiivsetes uurimustes. Uurimisainestike erinevust kirjeldavad allpool esitatud näited (3) ja (4). Esimene näide (3) demonstreerib kvalitatiivse, teine (4) kvantitatiivse variaab- lusuuringu eesmärkidel kogutud ainestikku. Esimeses näites on uurija eesmärk analüüsida kakskeelse rääkija koodivahetuse avaldumisvormide struktuuri eesti- soome koodivahetuse põhjal (uurimuse aluseks on kvalitatiivne meetod). Näeme, et 214 üleminek eesti keelelt soome keelele on hetkeline, hõlmates ühesõnaliste võõrkoodi substantiivide morfoloogilist sisestamist vestluse põhikoodi vastavalt eesti keele morfosüntaktilisele struktuurile. Kuigi esitatud näites toimub üleminek soome keelele ühe lause sees kolm korda, on koodivahetuse esinemissagedus tervikuna keelejuhi idiolektis minimaalne. Koodivahetuse keeleainestiku kogumine on töö- mahukam ja pikemaajalisem protsess.

(3) INF: Näiteks kui ma helistasin sinna (.) verotoimistosse:ja küsisin verokortti endale:ja siss uut verokortti ja kontrollis mu andmeid:ja küsis kodakondsuse ja kui ma olin või nime järgi või kodakondsuse järgi ilmselt vaatas et pole soomlane ja siss hakkas kohe pakkuma ee ingliskeelset verokortti. (näide autori erakogust) Teine näide (4a) kirjeldab kahe võru keelealal elava keelejuhi argivestlust; (4b) on näite eestikeelne tõlge. Kvantitatiivset meetodit rakendaval uurijal on võimalik ka lühikese vestluse põhjal saada esimesed andmed näiteks vokaalharmoonia kasu- tamise kohta. (4a) JR: ke̮ ǹ́ ᴅ́i om̀ nî ras̆ se͔ ((KP-le)) koɢu˛aèɢ ke̮ ik̀ valut̆ taʙ AK: kui vane͔ mʙas̀ sa⃐ t̀ JR: kui ̀ pikkäl´ĭ aɢà mûᴅ mul̀ polè͔ miᴅä̀ ɢi hät̆ tä no pik̆ käl´i {--} pik̆ käl´i sis̄ ole͔ š́ si {--} koɢò aìɢ piät̀ li⃐ kkuma KP: mhmh JR: vimänē käik ̀ vaijă tet̆ tä käümä piät̀ JR ((KP-le)): ei ve̮ i  vôᴅis̆ se maɢàma jä̂ ᴅa KP: mhmh (4b) JR: ‘kõndida on nii raske ((KP-le)) kogu aeg kõik valutab’ AK: ‘kui vanemaks saad’ JR: ‘kui pikali aga muud mul pole midagi häda no pikali {--} pikali siis oleks {--} kogu aeg pead liikuma’ KP: ‘mhmh’ JR: ‘viimane käik vaja teha käima pead’ JR ((KP-le)): ‘ei või voodisse magama jääda’ KP: ‘mhmh’ (näide Mets, Praakli 2007: 814–815)

Vaatluse all olevate keeleilmingute esinemissageduse põhjal võib järeldada, et kvantitatiivsete variaablusuuringute puhul on intervjuumeetodi kasutamine õigustatud. Kuigi uurimused kinnitavad (nt Gardner-Chloros 1991, Sarhimaa 1999, Verschik 2008) koodivahetuse eri funktsioonide ning keeleilmingu mitmetahulisuse avaldumist ennekõike argivestlustes, ei ole koodivahetusvormide minimaalsest esinemissagedusest hoolimata põhjust kvalitatiivsetes uurimustes intervjuumee- todi rakendamist välistada, küll aga tuleb arvestada tunduvalt töömahukama ning aeganõudva protsessiga, et kogutud ainestik võimaldaks täita uurimiseesmärgid.

215 4. Intervjueerija keeleoskus ja keelekasutus

Suulise keeleainestiku kogumisel ei ole tähtsusetu ka intervjueerija keeleoskus. Mitmekeelsuse uuringute puhul võimaldab uurija keeleoskus rakendada samu keelelisi võimalusi, mis on keelejuhilgi (nt koodivahetus, laensõnade kasutamine jne). Intervjuunäide (5) iseloomustab intervjueerija teadlikult algatatud soome keele kasutust. Keelejuht reageerib intervjueerija algatusele sõna kordamisega edasistes voorudes, mida võib tõlgendada ka vestluspartneri kõne loomuliku kordamisena või kõne kohandamisena vastavalt kaaskõnelejale. Vestluse eesmärkidest lähtudes võib aga soome keele kasutust tõlgendada ka teadliku katsega mõjutada keelejuhi keelekasutust. Keelelisse manipuleerimisse suhtutakse keeleainestiku kogumises erinevalt (vt nt Codó 2008, Milroy, Gordon 2003). Tihtipeale ei olegi võimalik tuvastada selget piiri, kust algab keeleline manipuleerimine, millal on tegemist rollisuhete muutumisega, millal on intervjuust saanud argivestlus, mis mõjutab automaatselt nii intervjueerija kui ka keelejuhi keelekasutust. (5) KP: aga kas on võimalik niimoodi öelda, et=et et kui on tegemist eesti- soome soome segaperega, et=et siis pere keeleks kujuneb kujuneb soome keel võivõi see ei pida ei=ei pea paika? EV: no see ei see siis alati pea paika. KP: [alati] EV: [ei pea paika] (näide autori erakogust) Ka järgmisesse näitesse (6) tuleb suhtuda kriitiliselt. Intervjueerija ja keelejuht vestlevad Soome koolisüsteemi teemadel. Intervjueerija esitab keelejuhile küsimuse õpilase emakeele ja soome keele õppeainete kohta, kasutades õppeainete nimetusi soome keeles. Keelejuht vastab intervjueerija küsimusele soomekeelseid termineid kasutades: (6) KP: aga need õppeained, üks ongi siis see oppilaan äidinkieli ja teine on siis on see suomi toisena kielenä? INF: meil on küll suomi äidinkielenä ((naerab)) KP: ahah ((naerab)) (näide autori erakogust)

5. Intervjuu planeerimine ja keelejuhtide leidmine

Edukas intervjueerimine eeldab hoolikat läbi mõeldud strateegiat ning tegevuse planeerimist. Enne tegeliku ainestiku kogumist on soovitatav läbi viia eelintervjuud, mis annavad uurijale vajalikku teavet intervjuude struktuuri ning valitud teemade sobivuse kohta. Mida rohkem õnnestub uurijal intervjuu käiku n-ö läbi mängida, seda paremad tulemused andmekogumisel saadakse. Eva Codó (2008: 168) esitab (eduka) intervjueerimise põhinõuded: 1) enne andmete kogumist tuleb hinnata intervjuu teostatavust ning sobivust; 2) uurija peab olema teadlik kultuurispetsiifi listest piirangutest (kellelt, mida ja millal küsida); 3) mida otsesem intervjuu, seda altimad on keelejuhid laskuma detailidesse; 4) intervjueerija peab vältima jah- ja ei-vastuseid eeldavaid küsimusi ning keelejuhi 216 vastuste suunamist; 5) erinevad küsimuste formaadid ja tüübid muudavad intervjuu vähem monotoonseks; 6) küsimused peavad olema lühikesed, lihtsalt mõistetavad ja ühetähenduslikud. Intervjuu optimaalne pikkus on 60–90 minutit, W. Labovi hinnangul üks kuni kaks tundi igalt rääkijalt (Milroy, Gordon 2003: 61). Lühemate intervjuude puhul osutub uurimisainestiku hankimine problemaatiliseks, kuid siinkohal tuleb arves- tada ka uuritavate keelejoonte eripäraga. Kui näiteks aktsendi uurimisel piisab ka lühikese kestusega intervjuudest, siis kakskeelse keelekasutuse analüüsimine eeldab ühelt keelejuhilt vähemalt ühe tunni pikkust ning korduvaid, eri situatsioonides tehtud lindistusi. Läbi tuleb mõelda ka intervjuude temaatiline ülesehitus. Kuigi näiteks teemain- tervjuud ei eelda küsimuste loogilist järgnevust, tuleb uurijal iga intervjuu strateegia ning ülesehitus läbi mõelda. Arukas oleks intervjuuteemad struktureerida temaati- liselt lähedaste, võrgustiku moodustavate moodulitena, see võimaldab sujuvat ning loogilist üleminekut ning tagasipöördumist ühelt teemalt teisele. Sotsiolingvistika tunneb erinevaid keelejuhtide leidmise meetodeid. Efektiiv- seimaks keelejuhtide leidmise meetodiks peetakse nn lumepallimeetodit, inglise keeles network sampling või snowballmethod (lähemalt Milroy, Gordon 2003). Lumepallimeetodi puhul on keelejuhtide valiku aluseks teiste keelejuhtide soovi- tused ja nende sotsiaalsed kontaktid. Lumepallimeetodit kasutades on uurijal või- malik siseneda keelejuhtide võrgustikesse, mis annab intervjueerijale keelejuhtide kogukonnas teise staatuse (intervjueerija läheneb uuele keelejuhile mitte enam tundmatu isikuna, vaid n-ö sõbra sõbra rollis), võimaldades erinevalt võrgustikku mittekuuluvast intervjueerijast hankida vabamas vormis keeleainestikku (Sarhi- maa 1999: 81, Milroy 1987: 53). Kui uurija kuulub keelejuhtidega samasse rühma, saadakse keelematerjali kogumises paremad tulemused, kuna intervjueerija on üks rühma tegevuses osalejatest (Suojanen 1982: 18). Artikli autori keeleainestike kogumiste kogemustele tuginevalt võib lumepallimeetodi abil sobivate keelejuhtide leidmises suhteliselt kindel olla, kuna üldjuhul soovitatakse uuteks keelejuhtideks inimesi, keda soovitaja (vahendaja) hästi tunneb ning kelle iseloomuomadusi ja keelelist käitumist hinnata osatakse. Vahendajate kasutamine loob keelejuhile ka parema ettekujutuse intervjuu käigust. Ühtlasi on keelejuhil olemas informatsioon nii intervjueerija, uurimuse kui esitatavate küsimuste kohta, see lihtsustab tunduvalt intervjuu toimumist. Keelejuhi või potentsiaalse keelejuhikandidaadi tundmine ja tema soovitamine uurijale ei garanteeri inimese tegelikku sobivust. Keelejuhtide valik eeldab paljude faktoritega arvestamist (lähemalt Vaux, Cooper 1999: 7–9). Universaalset hea keelejuhi kriteeriumit ei ole olemas, keelejuhtide sobivuskriteeriumid on alati uuri- museesmärkide põhised ehk töötatud välja konkreetse uurimuse jaoks. Keelejuhi sobivus moodustub eri komponentidest, milles ühinevad uurija ja intervjueeritava iseloomujooned ning käitumismallid, mida omakorda mõjutavad vestlussituat- sioon, vestluse eesmärgid ning mõlema osapoole motiveeritus. Mõned keelejuhid (inimtüübid) on intervjuuks alati sobivamad kui teised.

217 6. Intervjueerija ja intervjueeritava suhe

Intervjuud ei saa pidada ühepoolseks ainestiku kogumiseks, vaid intervjueerija ja intervjueeritava vahelises dialoogis sündinud ainestikuks, mille kujunemine sõltub nendevahelistest suhtest (Kokkonen, Pyykkönen 2007). Pihla Vuorinen nimetab uurimisprotsessi erinevate kohtumiste sarjaks, mis mõjub ühel või teisel viisil kõiki uurimuse osapooli (Vuorinen 2001: 243). Keeleainestiku kogumisel saavutab paremad tulemused uurija, kes on ise uuri- tava rühma liige või rühmaga lähedalt seotud. Seega peaks lingvistilist uurimust tegev isik vähemalt mingil määral kuuluma uuritavasse kogukonda või vähemalt tundma kogukonna suhtlusnorme (Kunnas 2007: 35). Sotsiolingvistikas peetakse mis tahes uurimisainestiku kogumisel ideaalseimaks isikuks uuritava rühma akt- septeeritud või kogukonnaga lähedaselt seotud inimest. Eriti oluliseks peetakse seda suuliste keeleainestike kogumisel: kui uurija kuulub keelejuhtidega samasse rühma, saadakse keelematerjali kogumises paremad tulemused, kuna intervjueerija on üks rühma tegevuses osalejatest (Suojanen 1982: 18; samal teemal ka Lappalainen 2004: 25, Kunnas 2007: 35, Codó 2008: 159–160). Hoolimata kriitikast uurija osalemise kohta keelejuhtide igapäevases tegevuses (uurija mõjutab keelekasutust, ei suuda olla objektiivne), on näiteks Hanna Lappalaise hinnangul tema kogutud ainestik väga loomulik just sel põhjusel, et ta on uurijana vastavates situatsioonides luge- matuid kordi viibinud (Lappalainen 2004: 26). Samas ei ole uurija rühma osalise liikme staatus kindlasti probleemivaba. Kahe rolli tasakaalustamisel tekivad uued probleemid, millest üks on kahene identiteet. Uurija asub samaaegselt nii uuritava rühma sees kui ka väljas, sageli on ta korraga kahel pool (Vuorinen 2001: 238). Rollisuhete muutumine on kahtlemata üks olulisemaid keeleainestiku kuju- nemist mõjutavaid tegureid. Näide (7) kirjeldab mõlema vestleja jaoks ootamatut vestlussituatsiooni, kus ühest vestluspartnerist saab intervjuu läbiviija. Rollimuu- tus on ootamatu mõlema jaoks. Intervjuu alguses on täheldatav intervjueerija ja intervjueeritava ebakindlus lause formuleerimises, küsimuste esitamises ja nendele vastamises. Vestlejad kohanevad uue situatsiooniga suhteliselt kiiresti, kuid vest- lust jääb saatma situatsiooni ametlikkus ning argivestlustega võrreldes erinevad käitumis- ja suhtlusmallid. (7) KP: et teadsid=sa sakslasi enne kui sa Saksamaale kolisid? INF: ee (.) einoh ma teadsin muidugi et sakslased on olemas (.) äh jah (.) raamatutest=ja (.) kirjanikke (.) jaja seriaalidest=ja ((naerab)) KP: ei: ma mõtlesin et et oli sul omal kokkupuuteid olnud (.) varem (..) elades Eestis? (näide Praakli, Warnecke 2005: 8)

Intervjueerimise teel keeleainestikku koguv uurija seisab silmitsi intervjuu situat- sioonilisusega. See, milliseks ainestik kujuneb, ei ole täna samasugune nagu homme või isegi tunni aja pärast. Tähendusetu ei ole loomulikult ka see, kus ja kuidas aines- tik tekib ja mis toimub enne intervjuud (Marttila 2007). Tõenäoliselt on iga isikliku keeleainestikuga töötav uurija tundnud piinlikkust ja ebakindlust nii keelejuhtidega kontakteerumise kui ka lindistatud materjali läbikuulamise ning litereerimise ajal ning (osalisest) rühma liikme staatusest tulenevalt mõelnud rollide – uurija vs. rühma liige – segunemise ja põimumise ning piiride ületamise peale. Keelejuhtide 218 tundmine ning nendega kohtumine ka väljaspool intervjuusituatsiooni lihtsustab kahtlemata keeleainestiku kogumist, kuid osutub problemaatiliseks kohanemise tõttu uute rollisuhetega, kus ühest osapoolest saab uurija, teisest uuritav. Seda on käsitlenud näiteks Pihla Vuorinen (2001), kes peatub probleemidel, nagu era- elu ning uurimistöö põimumine, uurijale lähedalseisvate inimeste rakendamine keelejuhtidena, jagatud kogemuste ning ühise mineviku mõju uurimisainestiku kogumisele, aga ka keelejuhtide ja intervjueeritava ootused teineteise suhtes ning intervjueeritava suhtumine keelejuhtidesse. P. Vuorinen (2001: 238–243) esitab mõned küsimused, millega puutub ilmselt kokku iga empiirilise uurimisainestikuga tegelev uurija: mida pakub keelejuhile osalemine uurimisprotsessis? Kas ja kuidas muutub keelejuhi suhtumine uuritavatesse? Kas uurija mõtleb keelejuhtidest kui ainult “oma materjalist”? Kas uurija lähedased (keelejuhid) peavad uurijat pidevalt jälgivaks kaaslaseks?

7. Keeleainestiku esinduslikkus

Keeleainestiku kogumise universaalsed probleemid on ainestiku maht (kvantiteet), laad (kvaliteet) ning esinduslikkus. Mis tahes uurimuse aluseks on hästi kogutud ainestik, mille suurus ning laad võimaldavad uurimust teostada ning püstitatud eesmärkidele vastavalt uurimisprobleemi lahendada. Ideaalne keeleainestik peaks esindama uuritavat kogukonda maksimaalselt, koosnema erinevatelt keelejuhtidelt kogutud keelematerjalist ning kirjeldama mõlemast soost, erineva sotsiaalse tausta ja vanusega rääkijate keelelist käitumist (Milroy 1987: 21). Iga keeleainestiku kogumisega tegelev uurija esitab endale varem või hiljem küsimuse, kui suur peab olema keelejuhtide arv ning kas ainestik on esinduslik. Väikese rühma puhul osutub probleemiks tulemuste paigutamine laiemasse lingvis- tilisse konteksti, sest ühe rühma keeleline käitumine ei esinda kogukonda tervikuna (Lappalainen 2004: 17, Milroy 1989: 19, Milroy 1987: 38). Paraku ei ole keelejuhtide arvu eelnev kindlaksmääramine kvalitatiivse uurimuse puhul võimalik ega mõtte- kas. Keelejuhtide lõplik arv kujuneb töö käigus, vastavalt kogutud materjali hulgale ja laadile. Soome keeleteadlane Hanna Lappalainen (2004: 16) on seisukohal, et kui eesmärgiks on seatud indiviiditasandi keeleanalüüs, ei tohi uuritavate arvu ning ainestikku eriti suureks paisutada. Samal seisukohal on veel mitmed uurijad, rõhutades, et valimi täpne suurus ei ole keelelistel eesmärkidel nõutav: tähtis ei ole mitte see, et ainestikud vastaksid rangetele statistilise representatiivsuse nõuetele, vaid see, et kogutaks piisav hulk keelelist materjali, mis võimaldaks täita uurimis- eesmärgid (Sarhimaa 1999: 100; Milroy 1989: 21–25). Keelejuhtide käitumist mõjutavaks teguriks võib osutuda ka uurimuse eesmär- kide detailne avaldamine. Sotsiolingvistid on lahendanud eesmärkide avaldamise erineval viisil. P. Nuolijärvi on seisukohal, et intervjuude eesmärk tuleks umbkaud- selt lahti seletada ning öelda keelejuhtidele, et uurimus on mingil määral keeleka- sutusega seotud (Nuolijärvi 1986). A. Sarhimaa (1999) ei avaldanud keelejuhtidele uurimuse tegelikku teemat, et mitte suurendada uurija mõju, teatades, et uurimus käsitleb karjalaste igapäevaelu, kuid küsimused puudutavad ka keeleprobleeme. Uurimuse eesmärkide avaldamine keelejuhile on keeleainestiku kogumisel üks uurija eetika põhialuseid. Uurijal tuleb ainestiku kogumisel lähtuda kolmest aspek- tist: intervjueeritav peab teadma intervjuu sisu ja eesmärke (keeleainestike puhul 219 piisab, kui intervjueeritav teab, et uuritakse tema keelt, üksikasjalikesse selgitustesse laskumata) ning uurija peab garanteerima keelejuhi ja keeleainestiku anonüümsuse. On iseenesest mõistetav, et suulise keeleainestikuga töötamine eeldab uuritavatelt kirjaliku nõusoleku saamist, uurija peab tagama kõikide keelejuhtide anonüümsuse. Kõik kogutud materjalid jäävad üldjuhul uurija valdusse (kui ei ole teisiti kokku lepitud) ning neid kasutatakse ainult uurimiseesmärkidel.

8. Kokkuvõte

Artiklis on käsitletud intervjuumeetodi rakendamist keeleandmete kogumises. Peatutud on erinevatel ainestike tüüpidel, kirjeldatakse keeleainestiku kujunemise protsessi ning seda mõjutavaid tegureid. Vaatluse all olnud intervjuuainestike kogumise eri aspektid kirjeldavad meetodi vastandlikke tahke. Ühelt poolt on intervjueerimine süstemaatiline, paindlik ning suhteliselt lihtsalt rakendatav meetod, mis võimaldab uurijal keeleainestiku kogumi- sel kiiresti eesmärgile jõuda, teisest küljest ei garanteeri ka parimal võimalikul viisil planeeritud ning struktureeritud intervjuu loodetud tulemust, kui uurija ei arvesta intervjueerimisega lahutamatult kaasnevaid kõrvalnähte, nagu vaatleja paradoks, vastastikune mõjutamine, keelelise käitumise (ala)teadlik muutumine, mis otsese tulemusena avaldub rääkija suulises keelekasutuses. Mis tahes intervjuuainestik kujuneb alati mõlema osapoole koostöö tulemusena, koostööd suunavad omakorda vestlussituatsioon ning seda mõjutavad tegurid. Mitmed intervjuumeetodiga kaas- nevad probleemid on lahendatavad uurimuse planeerimise varases etapis. Uurija otsus kvantitatiivse või kvalitatiivse uurimismeetodi rakendamise kohta aitab mit- meid probleeme vältida ning intervjuu vastavalt ühe või teise meetodi vajadustele ning tingimustele ette valmistada. Ükskõik millisel meetodil keeleainestik ka kogutud ei oleks, isiklikult kogutud ainestik annab igale uurijale selle analüüsimisel paremad eelised kui võõra ainesti- kuga töötamine, kus paratamatult palju olulist teavet, nagu vestlussituatsioon, kee- lejuhi käitumine, keelekasutuse muutumine jne, uurijal kirjeldamata võib jääda.

Transkriptsioonimärgid = otsarääkimine (kahe üksuse vahel ei ole vaikust) [ pealerääkimise algus ] pealerääkimise lõpp (.) mikropaus: 0.2 sekundit või lühem .jaa sissehingamise ajal hääldatud sõna (( )) transkribeerija kommentaar {--} transkribeerimatu segment : hääliku venitamine (0.8) mõõdetud paus kümnendiksekundites

220 Viidatud kirjandus Codó, Eva 2008. Interviews and questionnaires. – Li Wei, Melissa G. Moyer (Eds.). The Blackwell Guide to Research Methods in Bilingualism and Multilingualism. Oxford: Blackwell Publishing, 158–177. Eskola, Jari; Suoranta, Juha 2003. Johdatus laadulliseen tutkimukseen. Tampere: Vasta- paino. Gardner-Chloros, Penelope 1991. Language Selection and Switching in Strasbourg. Oxford Studies in Language Contact. Oxford: Clarendon Press. Halmari, Helena 1997. Government and Codeswitching: Explaining American Finnish Codeswitching. Studies in Bilingualism 12. Amsterdam: John Benjamins. Hennoste, Tiit; Lindström, Liina; Rääbis, Andriela; Toomet, Piret; Vellerind, Riina 2000. Eesti suulise kõne korpus ja mõnede allkeelte võrdluse katse. – Tiit Hennoste (toim.). Arvutuslingvistikalt inimesele. Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 1. Tartu: TÜ Kirjastus, 245–285. Hirsjärvi, Sirkka; Hurme, Helena 1980. Teemahaastattelu. Helsinki: Gaudeamus. Hirsjärvi, Sirkka; Pirkko, Remes; Sajavaara, Paula 2005. Uuri ja kirjuta. Tallinn: Medicina. Kokkonen, Lotta; Pyykkönen, Miikka 2007. Tutkija, tukija vai ystävä? Haastattelijan ja haas- tateltavan suhde maahanmuuttajuuden tutkimuksessa. – III kulttuurintutkimuksen päivät. Joensuun yliopisto, 14.-15.12.2007. http://www.jyu.fi /kultut/III_kt_pai- vat_haastattelu_abstraktit.html (20.04.2008). Kunnas, Niina 2007. Miten muuttuu runokylien kieli. Reaaliaikatutkimus jälkitavujen A-loppuisten vokaalijonojen variaatiosta vienalaismurteissa. Oulun yliopiston suomen kielen, informaatiotutkimuksen ja logopedian laitos. Oulu: Oulun yliopisto. Labov, William 1972. Sociolinguistic Patterns. Philadelphia: University of Pennsylvania Press. Lappalainen, Hanna 2004. Variaatio ja sen funktiot: erään sosiaalisen verkoston jäsenten kielellisen variaation ja vuorovaikutuksen tarkastelua. Suomalaisen kirjallisuuden seuran toimituksia 964. Helsinki: Suomalaisen kirjallisuuden seura. Lehtonen, Heini 2004. Maahanmuuttajataustaisten helsinkiläisnuorten puheen variaatio ja monikielisyys. Pro gradu-tutkielma. Helsingin yliopiston suomen kielen laitos. Lindström, Liina 2001. Eesti murrete korpuse iseloomustus argivestlustega võrrelduna. – Reet Kasik (toim.). Keele kannul. Pühendusteos Mati Erelti 60. sünnipäevaks 12. märtsil 2001. Tartu Ülikooli eesti keele õppetooli toimetised 17. Tartu: TÜ Kirjastus, 212–222. Loog, Mai 1992. Nende sõned, sõnad: uurimus eriealiste tüdrukute ja poiste kõnekeelest. Opera fennistica & linguistica 6. Tampere: Tampereen yliopiston suomen kielen ja yleisen kielitieteen laitos. Marttila, Annamaria 2007. Aineiston rakentumisen tilanteisuus. http://www.jyu.fi /kultut/ III_kt_paivat_haastattelu_abstraktit.html (20.04.2008). Mets, Mari; Praakli, Kristiina 2007. Suhtlusvõrgustikud võrukeste keelelise käitumise tõl- gendajaina. – Keel ja Kirjandus, 10, 799–817. Milroy, Lesley 1987. Language and Social Networks. Language in Society 2. Oxford: Black- well. Milroy, Lesley 1989. Observing and Analysing Natural Language. Oxford: Blackwell. Milroy, Lesley; Gordon, Matthew 2003. Sociolinguistics. Methods and Interpretations. Mal- den, MA: Blackwell Publishing. Neuman, Lawrence William 2003. Social Research Methods. Qualitative and Quantitative Approaches. Fifth edition. Boston: Allyn & Bacon. Nuolijärvi, Pirkko 1986. Kolmannen sukupolven kieli: Helsinkiin muuttaneiden suurten ikäluokkien eteläpohjalaisten ja pohjoissavolaisten kielellinen sopeutuminen. Suoma- laisen kirjallisuuden seuran toimituksia 436. Helsinki: Suomalaisen kirjallisuuden seura. 221 Praakli, Kristiina; Warnecke, Irmela 2005. Zweisprachiges Interview mit einer in Deutschland lebenden estnischen Muttersprachlerin. Hausarbeit. Johannes Gutenberg-Universität Mainz, Sprachen Nordeuropas und des Baltikums. Riionheimo, Helka 2007. Muutoksen monet juuret: oman ja vieraan risteytyminen Viron inkerinsuomalaisten imperfektinmuodostuksessa. Suomalaisen kirjallisuuden seuran toimituksia 1107. Helsinki: Suomalaisen kirjallisuuden seura. Sarhimaa, Anneli 1999. Syntactic Transfer, Contact-induced Change, and the Evolution of Bilingual Mixed Codes: Focus on Karelian-Russian Language Alternation. Studia fennica. Linguistica 9. Helsinki: Finnish Literature Society. Schlobinski, Peter 1996. Empirische Sprachwissenschaft. Opladen: Westdeutscher Verlag. Suojanen, Matti K. 1982. Sosiolingvistiikan näkymiä. Kielitieteen peruskirjallisuutta. Hel- sinki: Gaudeamus. Wardhaugh, Ronald 2002. An Introduction to Sociolinguistics. Massachusetts: Blackwell Publishers. Vaux, Bert; Cooper, Justin 1999. Introduction to Linguistic Field Methods. LINCOM Course- books in Linguistics 01. Muenchen: Lincom Europa. Verschik, Anna 2008. Emerging Bilingual Speech: From Monolingualism to Code-Copying. London, New York: Continuum Intl Pub Group. Vuorinen, Pihla 2001. Oma pere ja tuttavate ringis tehtava uurimistöö valguse- ja varju- pooled. – Tiiu Jaago (toim.). Pärimuslik ajalugu. Tartu: Eesti Kirjandusmuuseum, 235–244.

Kristiina Praakli (Tartu Ülikool) teaduslike huvide hulka kuuluvad kontaktlingvistika, mitmekeelsus (koodivahetus) ning suhtlusvõrgustike uuringud. [email protected]

222 INTERVIEW AS A METHOD TO COLLECT LINGUISTIC DATA

Kristiina Praakli University of Tartu

The article expands upon applying the method of interviewing in collecting language data. The article distinguishes between several types of linguistic data, describes the collecting of language material as a process and various factors infl uencing that process. The article describes different aspects of collecting material by way of inter- views, revealing some contrary aspects of the interview as a method. On the one hand the interviewing process is systematic, fl exible, and as a method, it can be applied quite easily, permitting the investigator to reach its purpose quickly; on the other hand there is no guarantee for a perfectly planned and structured interview to meet its purpose if the interviewer does not take into consideration the possible side-effects, for example the observer’s paradox, mutual infl uence, (sub)conscious changes in the language behaviour, which appear in the oral language use of the speaker. Whatever the material resulting from an interview it takes shape as a result of collaboration between two parties, which, in turn, is coordinated by the situation of the conversation and its aspects.

Keywords: oral language, language data, language behaviour, sociolinguistics, empirical material, Estonian

223

LADINA TERMINID TSIVIILÕIGUSES: EESTIKEELSED ORIGINAALÕPIKUD VERSUS TÕLKEÕPIKUD

Merike Ristikivi

Ülevaade. Artikkel käsitleb ladina terminite esinemist eestikeelses tsiviilõiguse õppekirjanduses. Uurimismaterjaliks on kaheksa õpikut

tsiviilõiguse eri valdkondadest (asjaõigus, võlaõigus, pärimisõigus, 5, 225–238 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT perekonnaõigus ja tööõigus). Kontinentaalne õigus lähtub Rooma tsiviilõigusel põhinevast mõistete süsteemist ning ladina terminite osa on tsiviilõiguses suurem kui teistel õigusaladel. Kuna Eesti praeguse õiguse aluseks on võetud Saksa õigus, siis on uuritavate õpikute hulgas lisaks eestikeelsetele originaalidele ka saksa keelest eesti keelde tõlgitud õppematerjal, eesmärgiga võrrelda ladina terminite kasutamist eesti ja tõlkeõpikutes ning Saksa õiguse võimalikku mõju terminoloogilisel tasandil. Artikkel uurib ka erinevusi ladina terminite kasutamisel tsiviilõiguse eri valdkondades, arvestades seoseid tsiviilõiguse harude ajaloolise arenguga. Võtmesõnad: õiguskeel, terminoloogia, keeleala uurimine, keelekon- taktid, ladina keel, eesti keel

Sissejuhatus

Ladina õigusterminite esinemise uurimine õpikutes on jätk varasematele töödele, milles olen käsitlenud ladina termineid õigusajakirjade artiklites ja võõrterminite kasutamisega kaasnevaid praktilisi probleeme (Ristikivi 2007, 2008). Need uuri- mused näitasid, et taasiseseisvusaja juriidilistes ajakirjades on ladina terminite kasutus aastate jooksul märgatavalt suurenenud. Terminikasutust on eriti muutnud Euroopa Liiduga liitumine, mis on sidunud Eesti jälle euroopaliku ja ladina keele alusel kujunenud õigusruumiga. Mis on aga alus, mille baasilt juuratudengid artiklites leiduvaid termineid peak- sid tundma ja mõistma? Kuidas omandatakse sõnavara ja milline see on? Ladina 225 keele ja õigusterminoloogia õppimine on tänastele juuratudengitele kohustuslik.1 Kuna ladina keelt õpetatakse praegu vaid üksikutes Eesti gümnaasiumides, puu- tub enamik üliõpilastest esmakordselt ladina keelega kokku alles ülikoolis. 30 auditoorse õppetunni (loengud ja seminarid) käigus omandatakse hääldusreeglid, grammatika põhitõed ja sõnavara, mis hõlmab küll ka karistusõiguse, rahvusva- helise õiguse jt termineid, kuid keskendub samuti esimesel õppeaastal toimuvat kohustuslikku Rooma eraõiguse kursust silmas pidades eelkõige vastavale leksi- kale ja allikmaterjalile. Enamik tänapäevases tsiviilõiguses (kus ladina keele mõju terminoloogiale on olnud kõige suurem) käibivatest ladina terminitest pärineb Antiik-Roomast ja nende vormiline külg õpitakse ära ka ladina keele kursusel. Seega näiks ju kõik korras olevat. Ent uurimistulemused näitavad, et ladina terminite kasutamisel esineb eksimusi ka semantilisel tasandil. Michael Halliday ütleb, et probleemid erialases terminoloogias ei tulene tavali- selt mitte termineist endist, vaid terminite vahelistest komplekssetest seostest. Ta märgib, et oskussõnu ei saa defi neerida isoleerituna, neid tuleb käsitleda kui osa suuremast raamistikust ning igaüht tuleb määratleda seoses kõigi teistega (Halliday 2004: 162). Seetõttu, kuigi ladina keele tunnis käsitletakse põhjalikult terminite ortograafi a ja morfoloogia küsimusi, ei ole samal ajal siiski võimalik edasi anda kõiki sisulisi aspekte. Täpsem teadmine termini toimimisest reaalses õigussituatsioonis omandatakse vastava valdkonna loengukursustel ja õppematerjali abil. Käesolevas artiklis uurin, millised ladina terminid esinevad eestikeelses tsiviil- õiguse õppekirjanduses ja kui palju neid on. Tsiviilõigus on valitud põhjusel, et selle valdkonna ajaloolise arengu tõttu on ladina keele osa selles suurem kui teistel õigusaladel. Varasematest uurimustest selles vallas saab nimetada Heikki E. S. Mattila artiklit, milles on võrreldud pärimisõiguses esinevaid ladina termineid Soome, Saksa, Inglise ja Prantsuse pärimisõiguse õpikutes (Mattila 2006b) ning käesoleva kirjatöö koostaja eelnimetatud artikleid. Uuritava kaheksa õpiku hulgas, mis puudutavad tsiviilõiguse eri valdkondi, on lisaks eestikeelsetele originaalidele ka saksa keelest tõlgitud õppematerjal. Ühelt poolt on Saksa õiguse mõju Eesti õiguskultuurile olnud märkimisväärselt suur ning Saksa õigus on võetud ka Eesti praeguse õigusloome aluseks. Teiselt poolt ei ole taasiseseisvumisaja jooksul kõigis tsiviilõiguse harudes eestikeelseid originaalõpikuid kirjutatud ning õppetöös kasutatakse eesti keelde tõlgitud õppe- vahendeid. Uurimisküsimusena vaatlen sellelt taustalt, kas Saksa õiguse mõju kajastub ka terminoloogilisel tasandil ehk milline on ladina terminite kasutamise suhe eesti ja tõlkeõpikutes? Ühtlasi vaatlen, millised erinevused esinevad ladina terminite kasutamisel tsiviilõiguse eri valdkondades. Oletan, et ladina terminite kasutamine on seotud tsiviilõiguse harude ajaloolise arenguga. Alamhüpoteese on kaks: 1) ladina keel esineb sagedamini asjaõiguses, võlaõiguses ja pärimisõiguses, kus terminoloogia on suuremas osas kujunenud antiik- või keskajal); 2) vähem võib leida ladina termineid töö- ja sotsiaalhooldusõiguses ning perekonnaõiguses, mille kujunemine ja uurimine on toimunud peamiselt 20. sajandil. Side Rooma õigusega, millest on käibesse läinud enamik ladina tsiviilõiguse termineid, neil puudub või on kaudne.

226 1 Ladina õigusterminoloogia kursus on Tartu Ülikooli õigusteaduskonna esimese aasta tudengitele kohustuslik õppeaine alates 2008/09. õppeaastast. 2002–2008 oli ladina keel valikaine, kus osales siiski 80–90% esmakursuse üliõpilastest. 1997–2002 õpetati ladina keelt Rooma eraõiguse kursuse osana kohustuslikult kõigile juuratudengitele. Ainestik

Mandri-Euroopa tsiviilõigus kuulub nende õigusharude hulka, mille terminoloogia ja alusmõisted on saanud alguse antiikajal ladina keele baasil. Aastatel 451–450 eKr pandi kirja “Kaheteistkümne tahvli seadused” (Leges duodecim tabularum), mis panid aluse Rooma õiguse edasisele arengule (Tamm 1997: 191).2 Ladinakeelsena koostati 6. sajandil keiser Justinianuse korraldusel ka Rooma õiguse tähtsaim koodeks Corpus Iuris Civilis (‘Tsiviilõiguse kogumik’), mis on otseselt mõjutanud Euroopa tsiviilõiguse kujunemist (Birks, McLeod 1987: 18). Corpus Iuris Civilis’e uurimisel põhines ka Rooma õiguse retseptsioon. Rooma õiguse taassündi seosta- takse Lääne-Euroopa aladel eelkõige ülikoolide rajamisega 11.–12. sajandil. Rooma õiguse taasavastamine Itaalias (eriti Bologna ülikoolis), Hispaanias ja Prantsusmaal, aga ka Inglismaal, viis Rooma õiguse uuesti õitsele. Peamiselt haaras retseptsioon tsiviilõigust, karistus- ja protsessiõiguse alal olid keskajal välja kujunenud juba uued normid või tavad (Hattenhauer 2007: 271–283, Wieacker 1967: 97–103, 124–152, 243–248, Koschaker 1966: 124–163). Kõige viimasena, 16. sajandil, tungis Rooma õigus Saksamaale, kus ta samas saavutas kõige ulatuslikuma rakenduse (Mattila 2006b: 132). Kuivõrd keskaegsed hariduskaanonid baseerusid nn seitsmel vabal kunstil (septem artes liberales), kandus õigusteaduslik traditsioon edasi eeskätt retoorika, grammatika, loogika/dialektika kaudu, mis moodustasid põhihariduse ehk kolmiktee (trivium) ja mille käigus loeti ja kirjutati ümber ka antiikõiguse säilinud tekste. Rooma õiguse retseptsioon tegi Corpus iuris civilis’est peamise õpetamis- ja uurimisobjekti, sellesse koondatud tekstid olid õigusteadlastele kirjaliku kuju oman- danud mõistus ja tarkus (ratio scripta). (Senn 2007: 166–167, Hattenhauer 2007: 271–277) Eriti põhjalikult uuriti võla- ja asjaõigusega seotud tekste, neid sätteid kommenteeriti ning püüti tõlgendada ja kohandada vastavalt kaasajale ja eluvajadus- tele ning praktiliste küsimuste lahendamiseks. Sajandite jooksul ei pälvinud uurijate tähelepanu sellise põhjaliku töö juures mitte ainult õigusteoreetiline ja -ajalooline aspekt, vaid püüti kindlaks määrata ka kodifi katsiooni algteksti ning seetõttu oli vaja ka tekste kriitiliselt ja fi loloogiliselt analüüsida (Görgen 2002: 39–46). 19. sajandil süstematiseeriti selline kirjalikult fi kseeritud ja dogmaatiliselt kommenteeritud õigus põhjalikult ja nii kujunes Rooma õigusest üks tänapäevase Mandri-Euroopa tsiviilõiguse põhialus (Narits 1997: 5). Eesti praeguses õiguses on terminid tsiviilõigus ja eraõigus sisuliselt sünonüü- mid.3 Eesti tsiviilõiguse süsteem on üles ehitatud Pandektide4 põhimõttele, mille järgi kõik tsiviilõiguse normid jaotatakse kahte rühma, millest üldosa reguleerib tsiviilõiguse üldpõhimõtteid ning eriosa puudutab asjaõigust, perekonnaõigust, pärimisõigust ja obligatsiooni- ehk võlaõigust ning viimase osana ka tööõigust. Rooma klassikalises õigusteaduses oli tsiviilõigus (ius civile) eraõiguse (ius priva- tum) üks allikas ning tähistas eelkõige riigi kodanikesse (cives) puutuvat ja nende õigussuhteid reguleerivat õigust.5 Tsiviilõiguse kasutamine praeguses tähenduses

2 Kaheteistkümne tahvli seaduste eestikeelset tõlget vt Annus jt 2001: 257–288. 3 Sama sisuline sünonüümia ka Saksamaal. Soomes on tsiviilõigus eraõiguse osa, mille juurde ei loeta töö- ja sotsiaal hooldusõigust ega keskkonnaõigust. Prantsusmaal aga jääb tsiviilõigusest välja kaubandusõigus (Mattila 2002: 173). 4 Pandektid (Pandectae) ehk Digestid (Digesta) on keiser Justinianuse korraldusel 530–533 a. koostatud 50 raamatust koosnev väljavõtete kogum klassikalise ajastu juriidilisest kirjandusest, Corpus Iuris Civilis’e tähtsaim ja mahukaim osa (Adomeit jt 2005: 47). 5 Dig. 1.1.1.2: Privatum ius tripertitum est: collectum etenim est ex naturalibus praeceptis aut gentium aut civilibus. 227 (‘Eraõigus koosneb kolmest osast: see on nimelt kokku kogutud loomuõiguse, rahvaste õiguse või tsiviilõiguse normidest.’); Dig. 1.1.9: Nam quod quisque populus ipse sibi ius constituit, id ipsius proprium civitatis est vocaturque ius civile. (‘Nimelt see õigus, mille iga rahvas ise on endale määranud, on selle riigi kodanike oma ja seda kutsutakse tsiviil õiguseks.’) (Autori tõlge.) hakkas välja kujunema keskajal, mil õigusteadus keskendus eelkõige Corpus iuris civilis’e nende osade uurimisele, mis puudutavad õigussuhteid üksikisikute vahel. See mõjutas aja jooksul ka keelekasutust ning nii omandas kõnealune termin Euroo- pas oma praeguse tähenduse – üksikisikute vahelisi suhteid reguleeriv normide kogum (Mattila 2002: 172–173, Roland, Boyer 1998: 240–241).

Uurimismaterjal

Tekst on sotsiaalse interaktsiooni keeleline vorm (Halliday 2007: 195) ning tema funktsiooni järgi määratletakse teksti liik. Autor loob teatud tunnustega ja teatud tähendusega teksti. Funktsionaalsest aspektist on teksti koostamine eesmärgipärane keelekasutus, keeleliste valikute tegemisel lähtutakse teksti eesmärgist ja funkt- sioonist (Kasik 2007: 168). Siin uuritavad õppevahendid liigituvad teadusteksti valdkonda. Teadusteksti eesmärk ei ole ainult edastada teadusala puudutavat infot, vaid uurida, laiendada ja selgitada oma valdkonna sisu (Beaugrande, Dressler 1981: 192, Love 2002: 76). Olen varem analüüsinud ladina termineid juriidilistes teadusartiklites (Risti- kivi 2007, 2008), siin käsitlen õpikuid. Õpiku funktsioon on eelkõige tutvustada teadusala ja selle terminoloogiat, anda (esmaseid) teadmisi. Laiemas mõttes õpi- kud ja teadusartiklid kattuvad, pidades silmas, et mõlemad sisaldavad käsitletava valdkonna oskussõnavara ja retoorilisi funktsioone. Samas võib neid kitsamalt käsitleda eraldi tekstiliikidena, mis erinevad näiteks diskursuse sisu poolest (õpikud esitavad olemasolevat, teadusartiklid uut teadmist), samuti osalussuhte poolest (õpikute puhul on autori ja lugeja suhe enamasti ebavõrdne, artiklite puhul pigem tasakaalustatud ja võrdne) (Bhatia 2002: 32–33). Eestis on sobiliku õpiku puudu- misel sageli õppematerjalina kasutusel eestikeelsed teadusartiklid. Õigusteaduse õppetöös kasutatakse ka ajakirja Juridica. Samas keskenduvad selle ajakirja artiklid enamasti mõnele kitsamale küsimusele, näiteks kommenteeritakse uut õigusakti, analüüsitakse õiguspraktikat jne. Uurimismaterjaliks on valitud tsiviilõiguse eri harude õpikud, mille hulgas on neli eestikeelset originaalõpikut (Tiivel 2007, Kull 1999, Liin 2005, Orgo jt 2003) ja neli saksa keelest tõlgitud õpikut (Schwab, Prütting 1995, Schlechtriem 2000, Brox 2003, Lüderitz 2005). Perekonnaõigust esindab praeguse seisuga ainult tõlkeõpik (Lüderitz 2005), tööõigust üksnes eestikeelne originaalõpik (Orgo jt 2003). Seega jaguneb oma- ja tõlkematerjal võrdselt tsiviilõiguse tähtsamate ja tänapäeva õigust rohkem mõjutanud valdkondade vahel. Samuti on võrdses olukorras perekonnaõi- gus ja tööõigus, mõlemad valdkonnad on kujunenud ajalooliselt Rooma õigusega mitte otseses seoses. Valdkondi esindavad järgmised õpikud: 1) asjaõigus: Tiivel 2007, Schwab, Prütting 1995; 2) võlaõigus: Kull 1999, Schlechtriem 2000; 3) pärimisõigus: Liin 2005, Brox 2003; 4) perekonnaõigus: Lüderitz 2005; 5) tööõigus: Orgo jt 2003. Mahuliselt sisaldab uuritav materjal kokku 2723 lehekülge, sellest Eesti autorite õppekirjandus moodustab 1151 lehekülge ning Saksa tõlkeõpikud 1572 lehekülge.

228 Ladina terminite hulk

Ladina õigustermineid oli kokku 158, neid esines igas õpikus.6 Esinemissageduse järgi reastusid õpikud järgmiselt.

Orgo jt 2003 2

Tiivel 2007 4

Schwab, Prütting 8 1995 Brox 2003 11

Liin 2005 19

Schlechtriem 2000 29

40 Kull 1999

Lüderitz 2005 45

0 5 10 15 20 25 30 35 40 45 Joonis 1. Ladina terminite absoluutne hulk tsiviilõiguse õpikutes

Terminikasutuse erinevus tsiviilõiguse eri valdkondades tuleb väga selgelt välja (vt joonis 1). Väga vähe võib leida ladina termineid tööõiguse ja asjaõiguse õpikutest (Orgo jt – kõigest 2, Tiivel 2007 – 4 terminit, Schwab, Prütting 1995 – 8 terminit). Pärimisõiguse õpikutes on ladina termineid mõnevõrra rohkem: 11 (Brox 2003) ja 19 (Liin 2005). Märgatavalt rohkem esineb ladina keelt võlaõiguse materjalides: 29 (Schlechtriem 2000) ja 40 (Kull 1999). Perekonnaõiguse õpikus esineb ladina väljendeid veelgi rohkem: 45 (Lüderitz 2005). Kuna uurimusse valitud õpikud olid väga erineva leheküljemahuga, ulatudes (Kull 1999) puhul 136 leheküljest kuni (Tiivel 2007) 496 leheküljeni (vt tabel 1), võrdlesin ka terminite esinemist uurimismaterjali mahu kohta. Eesti autorite neljas õpikus (kokku 1151 lk) esineb ladina termineid kokku 65 – keskmiselt kasutatakse ladinakeelseid väljendeid iga 17 lehekülje järel. Neljas tõlkeõpikus (kokku 1572 lk) leidus 93 ladina terminit, mis annab sageduseks ühe termini iga 16 lehekülje järel. Kui võtta ladina terminite esinemissageduse määramisel aluseks terminite ja õpiku lehekülgede arvu suhe (vt tabel 1), siis on esikohal (Kull 1999) – 0,29 väljendit lehekülje kohta. Järgneb (Lüderitz 2005) – 0,1. Peaaegu võrdselt on termineid lehekülje kohta (Schlechtriem 2000) ja (Liin 2005) õpikutes – vastavalt 0,09 ja 0,08. Maha jäävad (Brox 2003) ja (Schwab, Prütting 1995) – vastavalt 0,03 ja 0,02 ladina väljendit lehekülje kohta. Kõige vähem on ladina keelt kasutanud (Tiivel 2007) ning (Orgo jt 2003) – ainult 0,01 terminit.

229 6 Tänan Kersti Jõgit abi eest terminite väljakirjutamisel. Tabel 1. Ladina terminite esinemine õpikutes Terminite arv Lehekülgi Termineid lk kohta Lüderitz 2005 45 441 0,10 Kull 1999 40 136 0,29 Schlechtriem 2000 29 340 0,09 Liin 2005 19 227 0,08 Brox 2003 11 426 0,03 Schwab, Prütting 1995 8 365 0,02 Tiivel 2007 4 496 0,01 Orgo jt 2003 2 292 0,01

Võib tähele panna, et ehkki Saksa õiguskultuuris on ladina terminite kasutamisel pikk traditsioon ning neid leidub sealse õiguskeele kõigis valdkondades, ei ole siin vaadeldud tõlkeõpikutes terminite esinemine märkimisväärselt suurem kui eesti õpikutes. Samas on ladina keelest pärit ainese kasutus Eesti ja Saksa autorite töödes sarnane, kui käsitletakse sama valdkonda. Näiteks palju termineid võib leida (nii terminite üldarvu kui suhet õpiku mahuga arvestades) Eesti ja Saksa autorite puhul võlaõiguse juures (vrd Kull 1999 ja Schlechtriem 2000), millele järgneb pärimis- õiguse valdkond (vrd Liin 2005 ja Brox 2003). Oluliselt vähem on termineid asja- õiguse õpikutes (vrd Tiivel 2007 ja Schwab, Prütting 1995). Perekonnaõiguses on aga termineid kasutatud väga rohkelt (Lüderitz 2005). Kahjuks ei ole selles valdkonnas kõrvale võtta eesti õpikut. Tööõiguse valdkonnas (Orgo jt 2003) esineb vaid paar ladina terminit, ent puudub võrdlusmaterjal saksa õppekirjandusest. Hüpotees terminikasutuse seosest ajaloolise arenguga leiab nende andmete põhjal osalist kinnitust: ladina keel esineb sageli võlaõiguses ja pärimisõiguses, mille sõnavara pärineb Rooma õigusest. Samas oli ladina termineid väga vähe asjaõiguse õpikutes, mis samuti on terminoloogia kujundanud juba antiigis ja mõjutab oluliselt tänapäevast arusaama asjaõigusest. Tööõigus on valdkond, mis ei ole kujunenud Rooma õiguse baasil ning selles õpikus (Orgo jt 2003) esineb ka ladina keelt väga harva. Üllatav on aga perekonnaõiguse õpikus (Lüderitz 2005) väga rohkelt kasutatud ladina terminite hulk, sest sellel tsiviilõiguse harul pole Antiik-Rooma perekonnaõiguse temaatikaga tihedaid seoseid. Kuidas seda seletada? Keelekasutus on subjektiivne ning peegeldab ühtlasi autori keelelisi harjumusi ja terminoloogilisi eelistusi. (Lüderitz 2005) õpiku puhul põhineb ladina terminite kasutamine ilmselt just ajaloolistel traditsioonidel, olles õiguskeele loomulik osa.

Õpikutes esinenud ladina terminid

Teadusvaldkonna terminoloogilise ühtsuse aluseks on ühtne mõistevõrgustik. Õigusmõistete puhul rõhutatakse eeskätt nende funktsionaalsust ja seotust õigus- järelmitega, s.t nad on defi neeritud õiguslike tagajärgede kaudu, mis on nendega seotud (Neumann 2001: 784). Samas ei ole õigusmõiste tähistamine vaba nagu muude terminite puhul (Kerge 2004: 33). Juriidilised terminid peavad täpselt ja täielikult edasi andma sellega tähistatud mõistete sisu. Õigusterminitelt nõutakse täpsust, efektiivsust ja arusaadavust (Cornu 1990, Mattila 2002, Oksaar 1999). Eelkõige esinevadki ladina terminid tsiviilõiguse õpikutes oma põhifunktsioonis: kui normatiivsed argumendid, mis kannavad spetsiifi list juriidilist informatsiooni (Kramer 1995: 141–142). Kuna õiguse keel on tihedalt seotud õiguslike traditsioo- 230 nide, ajaloo ja kultuuriga, võib kitsalt juriidiliste terminite kõrval õpikutest leida ka teksti illustreerivaid ja üldkäibivaid ladina väljendeid. Osaliselt on see nn juriidilise retoorika küsimus: ladina keelt kasutatakse stiilielemendina, esteetilise meediumina või professionaalse kompetentsi väljendusena (Mattila 2006a: 136). Kõigist siin analüüsitud terminitest moodustavad sellised väljendid samas väga väikese osa ehk 5,7 % sõnavarast.7 Siia rühma paigutub 9 väljendit: ad hoc ‘selleks; kindlaks juh- tumiks’, eo ipso ‘iseenesest; just seeläbi’, expressis verbis ‘sõnaselgelt, rõhutatult’, iunctim ‘ühendatult, seoses’, lege artis ‘oskusnõuete kohaselt’, mutatis mutandis ‘vajalike muudatustega’, prima facie ‘esmapilgul’, status quo ‘praegune oluvõrd või seisund’ ja ultima ratio ‘viimne vahend; äärmine vajadus’. Samas on piiri juriidilise argumentatsiooni ja retoorika vahele küllaltki raske tõmmata selliste väljendite puhul, mis võivad juriidilises kontekstis omandada spetsiifi lise tähenduse. Ehkki juriidiliseks loetakse kitsamas tähenduses eelkõige sellised terminid, mida ei ole võimalik kasutada õigussuhte väliselt või mille vältimatuks eelduseks on õigussuhe, võivad laiemas tähenduses olla juriidilised ka need väljendid, mida võib küll kasutada ka muus seoses, kuid millel õigusteaduses on spetsiifi line tähendus (Mattila 2002: 170–171). Väljendid nagu ad hoc, ultima ratio, prima facie ongi näiteks sellised, mis kuuluvad küll üldkeelde, kuid mida juristid võivad kasutada ka juriidilises seoses. Lisaks õigusväljenditele esineb uuritavas materjalis ka kaks meditsiiniterminit: in vitro ja sclerosis multiplex. Termin in vitro esines kaks korda (Lüderitz 2005) perekonnaõiguse ja üks kord (Brox 2003) pärimisõiguse õpikus. Termin sclerosis multiplex esines perekonnaõiguse õpikus ühe korra. Selline terminikasutus juhib tähelepanu asjaolule, et oskuskeelel on võrreldes üldkeelega oma spetsiifi ka. Õiguskeele vahenditeks on üldkeele neutraalne sõnavara, õigusterminid, samuti reguleeritavate valdkondade terminid ja tänapäevane kirjakeele grammatika (Kerge 1995: 6). See tähendab, et õigustekstidel on küll oma spetsiifi ka, kuid juriidiliste terminite kõrval puutub õiguskeel kokku lisaks üldkeelele ka õigusteksti esemeks oleva eluvaldkonna oskusterminitega (Narits 1997: 80–82). Kõige sagedamini esinesid tsiviilõiguse õpikutes järgmised terminid (vt tabel 2). Peamine osa terminitest esines uurimismaterjalis ühe korra. 13 terminit esines vähemalt 2 korda.

Tabel 2. Tsiviilõiguse õpikutes kõige sagedamini esinevad ladinakeelsed terminid

Termin Tähendus Arv causa ‘(lepingu) alus’ 17 aliud ‘muu, teine’ 5 ex nunc ‘alates nüüdsest (hetkest)’ 5 culpa in contrahendo ‘lepingueelne vastutus’ 4 invitatio ad off erendum ‘kutse pakkumuse tegemiseks’ 4 ‘nõue ekslikult makstud olematu või juba condictio indebiti 3 tasutud võlasumma tagasisaamiseks’ consensus ‘üksmeel, nõusolek’ 3 de lege ferenda ‘välja antava seaduse järgi’ 3 in vitro ‘katseklaasis’ 3 ipso iure ‘õiguse enese põhjal, õiguse enda järgi’ 3 peius ‘halvem’ 3 ultima ratio ‘viimne vahend; äärmine vajadus’ 3

231 7 Võrreldes juriidilise perioodika sõnakasutusega, kus üldtuntud ladina väljendite kasutamine on rohkem levinud, vt lähemalt Ristikivi 2007. Teemade kaupa jagunevad enim kasutatud terminid järgmiselt: 1) asjaõiguse materjalides esines kõige rohkem termin causa (3 korda), kõik teised väljendid esinevad ainult ühe korra; 2) võlaõiguse õpikutes olid kõige sagedamini terminid causa (14 korda), aliud (5), invitatio ad offerendum (4), condictio indebiti (3), culpa in contrahen- do (3), peius (3). Vähemalt kaks korda esinesid terminid condictio ob rem, conditio sine causa, consensus, consensus ad idem, ex nunc, ius commune, lex specialis ning mutatis mutandis; 3) pärimisõiguses on sagedamad terminid, mida oli kasutatud vähemalt kaks korda: eo ipso, ex nunc, expressis verbis, hereditas iacens, inter vivos, legis fi ctio, ipso iure; 4) perekonnaõiguse õpikus esineb kõige rohkem ehk kolm korda termin de lege ferenda. Vähemalt kaks korda on materjalis kasutatud termineid argumen- tum, ex tunc, in praeteritum non vivitur, in vitro, manus, prima facie; 5) tööõiguse õpikus esineb ainsa ladina väljendina kaks korda termin ultima ratio. Tähelepanu väärib, et suur osa võlaõiguses nimetatud terminitest pärineb Rooma õigusest. Pärimis-, perekonna- ja tööõiguses on sageli esinevate väljendite hulgas mitmeid selliseid, mis võivad esineda ka teiste õigusvaldkondade juures. Näiteks väljendid de lege ferenda, ex tunc, argumentum, prima facie ja in vitro ei ole tähen- duse poolest ainult kitsalt perekonnaõiguse väljendid. Samamoodi võib tööõiguse õpikus kasutatud terminit ultima ratio ja pärimisõiguse materjalides esinenud termineid eo ipso, ex nunc, expressis verbis ja ipso iure ning asjaõiguse õpikutest leitud terminit causa kohata ka õiguskeeles üldiselt. Näitena võib siinjuures välja tuua veel termini bona fi des ‘heausksus’ kasutuse, mis tähenduse poolest on pigem seotud võlaõiguse sõnavaraga. Uuritavates võlaõiguse õpikutes seda väljendit ei kasutatud, küll aga võib selle leida asjaõiguse õppevahendist.

Terminoloogiline variatiivsus

Kogu uurimismaterjalis sisalduva 158 terminikasutuse juures võib leida 100 eri- nevat väljendit. Õpikute puhul, mis annavad ülevaate kogu vastavast tsiviilõiguse valdkonnast, on üsna ootuspärane, et sõnavara ei kordu ja tutvustatakse erinevaid termineid. Joonis 2 näitab, et selgelt eristub teistest perekonnaõiguse õpik (Lüderitz 2005), milles on kasutatud 37 erinevat ladina terminit. Võlaõiguse õpikutes on eesti ja tõlkeõpiku terminite hulk üsna sama – vastavalt 19 (Kull 1999) ja 17 (Schlechtriem 2000). Pärimisõiguses on eesti õpikus (Liin 2005) termineid ligi kolmandiku võrra rohkem kui tõlkeõpikus (Brox 2003), vastavalt 14 ja 10. Asjaõiguses joonistub eesti originaalõpiku (Tiivel 2007) ja tõlkeõpiku (Schwab, Prütting 1995) terminikasutuse vahele suurem vahe: vastavalt 3 ja 8. Tööõiguse õpikus (Orgo jt 2003) esines ladina termineid kõige vähem, kõigest üks termin kaks korda. Samas tuleb märkida, et terminite kvantitatiivne ja kvalitatiivne kasutus ei anna uuritava materjali puhul tulemuseks suuri erinevusi. Need autorid, kelle töödest võib leida ladina termineid kõige sagedamini, paistavad enim silma ka kasutatud sõnavara mitmekülgsuse ja vahelduslikkuse osas. 232 Orgo jt 2003 1

Tiivel 2007 3

Schwab, Prütting 8 1995 Brox 2003 10

Liin 2005 14

Schlechtriem 17 2000 Kull 1999 19

Lüderitz 2005 37

0 5 10 15 20 25 30 35 40 Joonis 2. Terminoloogiline variatiivsus

Eesti ja tõlkeõpikute võrdluses tuleb omakorda tõdeda, et terminoloogiline varia- tiivsus on eesti õpikutes märkimisväärselt väiksem. Et võrrelda terminoloogilist variatiivsust tsiviilõiguse valdkondade vahel, on kokku liidetud kõikides sama teemat käsitlenud õpikutes esinenud erinevate ladina terminite arvud (vt joonis 3).

1 Tööõigus

24 Pärimisõigus

37 Perekonna- õigus

36 Võlaõigus

11 Asjaõigus

0 5 10 15 20 25 30 35 40 Joonis 3. Variatiivsus tsiviilõiguse valdkondades

Tsiviilõiguse valdkondade võrdlus (joonis 3) näitab, et kõige rohkem võib erinevaid termineid leida võlaõiguse (Kull 1999 ja Schlechtriem 2000) ja perekonnaõiguse (Lüderitz 2005) õpikutest, vastavalt 36 ja 37 eri väljendit. Ligi kolmandiku võrra vähem ehk 24 erinevat terminit esines pärimisõiguse õpikutes (Liin 2005 ja Brox 2003). Asjaõiguse õpikutes (Tiivel 2007 ja Schwab, Prütting 1995) oli erinevaid termineid 11. Tööõiguse puhul (Orgo jt 2003) on kasutatud kaks korda ühte ja sama terminit.

233 Ühe õigusvaldkonna terminoloogia uurimisel võib tavaliselt näha, et sõnavara kattub ka selle harude puhul põhimõistete osas: teatud valdkonda iseloomustab kindel ühine tuumiksõnavara. Ehkki käesolevas töös uuritav materjal kuulub kõik tsiviilõiguse alla, ilmneb õpikute sõnavara võrdlemisel, et terminoloogiline ühisosa on üllatavalt väike. Kõige rohkemates teemades esineb väljend ex nunc, mida on kasutatud nii võlaõiguse, pärimisõiguse kui ka perekonnaõiguse õpikus. Väljendeid, mis esinevad vähemalt kahes tsiviilõiguse harus, on kõigest 7: causa, cessio legis, culpa in contrahendo (võlaõiguses ja perekonnaõiguses); in vitro (perekonna- õiguses ja pärimisõiguses); ipso iure, nasciturus (võlaõiguses ja pärimisõiguses); ultima ratio (perekonnaõiguses ja tööõiguses). Peamiselt esinevad leitud terminid ainult ühe kindla haru materjalides. Sama teema käsitlemisel ei lange kokku ka eesti ja tõlkeõpikutes esinenud väljendid. Näiteks asjaõiguses on ainult üks selline termin – causa –, mida autorid ühiselt kasutavad. Kõik teised väljendid esinevad asjaõiguses autoritel ainukordselt. Ülejäänud teemade puhul on terminite kokkulangevus sama valdkonna käsitlemisel sama harv või veelgi väiksem. Pärimisõiguses on näiteks samuti ainult üks termin (ipso iure), mis esineb mõlema autori töös. Võlaõiguse õpikutes ei langenud ter- minikasutus mitte ühegi termini puhul kokku, ehkki üldkasutuse poolest on selle haru autorid kasutanud termineid suhteliselt palju. Eesti autorite puhul on ühine ainult termin causa, mis esineb võlaõiguse ja asjaõiguse õpikus. Tõlkeõpikutes on eri valdkondade ühised terminid ex nunc, cessio legis, in vitro, ipso iure, nasciturus. Samas ei esinenud ükski nendest terminitest eesti originaalõpikutes. Väljend ultima ratio on ainus, mis esines eesti originaal- õpikutest tööõiguse materjalis ning tõlkeõpikutest perekonnaõiguses. Termin causa esineb kahel eesti autoril (asjaõigus ja võlaõigus) ning asjaõiguse tõlkeõpikus. Tulemus, et eesti ja tõlkeõpikutes ei lange terminid sama teemakäsitluse puhul kokku, on üsna üllatav. Õiguskeele uurijad muidugi viitavad, et õiguskeel erineb teistest erialakeeltest eelkõige selle poolest, et see on seotud ühe kindla ühiskonna ja selle õigussüsteemiga (Lauzière 1974: 111). Ent kas see väide võiks kehtida käesoleval juhul, kui mõlema riigi autorid on kasutanud küll erinevaid, kuid siiski ühtviisi peamiselt Rooma õigusest pärinevaid termineid? Kui võrrelda nii tõlke- õpikutes kui ka eesti õpikutes esinenud termineid ajakirjas Juridica leiduvaga, siis seal on neid kõiki vähemalt ühe korra kasutatud ning seega ei ole need terminid õiguskeeles tundmatud ja võõrad. Kahtlemata on selle artikli uurimismaterjal liiga vähene ning kaugeleulatuvaid järeldusi ladina terminite üldise efektiivsuse kohta rahvusvahelises suhtlemises ei ole mõtet teha. Just asjaolu, et ladina termineid seob ühtne ajalooline taust, kindlustab neile juriidilise identiteedi kandjana kindla koha eri riikide juristide kommunikatsioonis.

Kokkuvõte

Artikkel käsitles ladina termineid tsiviilõiguse õpikutes. Rooma õigusest pärit ladina õigusterminid kannavad ja vormistavad tsiviilõiguse eriala mõistestikku, nad on aine objekti ja sisu põhilised väljenduselemendid. Uuritav materjal sisaldas nii eestikeelseid originaalõpikuid kui saksa keelest tõl- gitud õppevahendeid. Nende terminikasutuse võrdlemisel ilmneb, et tõlkeõpikutes esineb termineid rohkem nii üldmahult kui ka erinevate terminite kasutuselt. Samas 234 erineb tõlkeõpikute terminivara eesti õpikute omast niivõrd palju, et otsest mõju, mis muidu Saksal õigusel on Eesti õigusele, terminoloogilisel tasandil ei saa välja tuua. Tõlkeõpikute terminirohkus võib olla seletatav ajaloolise järjepidevusega. Kui sirvida enne Teist maailmasõda ilmunud eestikeelseid tsiviilõiguse originaalõpikuid, torkab silma, et ladina terminid olid ka Eestis sel perioodil õigushariduse keeles väga laialdaselt kasutusel. Mõtlemapanev on siinjuures veel asjaolu, et Euroopas on sageli ladina keele elementaarkursus ülikooli tulles juba läbitud. Eesti üliõpilastel aga on tihti alles ülikoolis esimene kontakt ladina sõnavaraga ning seetõttu tuleks autoritel rohkem tähelepanu pühendada erialase sõnavara tutvustamisele. Terminikasutuse võrdlemine tsiviilõiguse valdkondade vahel näitas, et ilmnevad selged vahed nii terminite kvantitatiivsel kui kvalitatiivsel tasandil. Tulemused kin- nitasid põhiosas hüpoteesi, et termineid esineb rohkem neis tsiviilõiguse harudes, mille sõnavara on välja kujunenud peamiselt Rooma õiguse baasil, s.t võlaõiguses ja pärimisõiguses. Samas oli ladina termineid väga vähe kasutatud asjaõiguse õpikutes, mis ometi on üks nendest tsiviilõiguse valdkondadest, mis on otseselt Rooma õigusest kujunenud ja mõjutab olulisel määral tänapäevast arusaama asja- õigusest. Tööõiguses, millel on Rooma õigusega ainult kaudsed seosed, kasutati ladina termineid väga vähe. Samas ei leidnud kinnitust oletus, et ladina termineid võiks esineda vähem perekonnaõiguses. Ka selle valdkonna tänapäevane õiguslik käsitlus erineb oluliselt Rooma perekonnaõiguse temaatikast. Uurimuses kasutatud perekonnaõiguse õpikus esines ladina termineid arvuliselt palju, samuti saab seda õppevahendit esile tõsta ka terminoloogilise variatiivsuse poolest.

Viidatud kirjandus Adomeit, Klaus; Ristikivi, Merike; Siimets-Gross, Hesi 2005. Ladina-eesti õigussõnastik. Peeter Kask (toim.). Tallinn: Eesti Keele Sihtasutus. Annus, Amar; Kolk, Kaspar; Puhvel, Jaan; Päll, Janika 2001. Muinasaja seadusekogumike antoloogia. Tallinn: Varrak. Beaugrande, Robert A. de; Dressler, Wolfgang U. 1981. Introduction to Text Linguistics. London, New York: Longman. Bhatia, Vijay K. 2002. A generic view of academic discourse. – John Flowerdew (Ed.). Aca- demic Discourse. London: Longman, 21–39. Birks, Peter; McLeod, G. 1987. Justinian’s Institutes. London: Gerald Duckworth & Co. Cornu, Gerard 1990. Linguistique juridique. Paris: Montchrestien. Dig. = Iustiniani Digesta (Corpus Iuris Civilis) 1922. Recognovit Theodorus Mommsen. Berolini: Apud Weidmannos. Görgen, Andreas 2002. Rechtssprache in der Frühen Neuzeit. am Main: Peter Lang. Halliday, Michael A. K. 2004. The Language of Science. London, New York: Continuum. Halliday, Michael A. K. 2007. Language and Society. London, New York: Continuum. Hattenhauer, Hans 2007. Euroopa õigusajalugu. Tallinn: Juura. Kasik, Reet 2007. Võimu keel: asutus suhtleb kodanikuga. – Eesti Rakenduslingvistika Ühingu aastaraamat, 3, 161–176. Kerge, Krista 1995. Õiguskeel, tema vahendid ja väljavaated. – Õiguskeel, 4, 6–8. Kerge, Krista 2004. Terminid leksikaalse ja grammatilise keelendina. – Sirje Mäearu (toim.). Rahvusvaheline terminoloogiakonverents “Eesti oskuskeel 2003” 10. ja 11. oktoobril 2003. Ettekanded. Tallinn: Eesti Keele Sihtasutus, 19–46. Koschaker, Paul 1966. Europa und das römische Recht. 4. Aufl . München, Berlin: Beck. 235 Kramer, Ernst A. 1995. Lateinische Parömien zur Methode der Rechtsanwendung. – Steuer- recht. Ausgewählte Probleme am Ende des 20. Jahrhunderts. Festschrift zum 65. Geburtstag von Ernst Höhn. Bern: Verlag Paul Haupt. Lauzière, Lucie 1974. Un vocabulaire bilingue canadien. – Meta, 24, 109–114. Love, Alison 2002. Introductory concepts and ‘cutting edge’ theories: Can the genre of the textbook accommodate both? – John Flowerdew (Ed.). Academic Discourse. London: Longman, 76–92. Mattila, Heikki E. S. 2002. Vertaileva oikeuslingvistiikka. Helsinki: Kauppakaari Lakimies- liiton Kustannus. Mattila, Heikki E. S. 2006a. Comparative Legal Linguistics. Aldershot: Ashgate. Mattila, Heikki E. S. 2006b. De Latinitate recentiorum doctrinarum ad iura hereditaria per- tinentium. – Syntymästä kuolemaan, oikeudesta informaatioon. Ahti Saarenpää 60 vuotta. Suomalaisen Lakimiesyhtistyksen julkaisuja E-sarja, 17, 113–136. Narits, Raul 1997. Õigusteaduse metodoloogia I. Tallinn: Juura. Neumann, Ulfrid 2001. Juristide keel. – Akadeemia, 4, 782–794. Oksaar, Els 1999. Kõnekeel, erialakeel, õiguskeel. – Juridica, 4, 199–207. Ristikivi, Merike 2007. Lexica iuridica in Juridica: Latin terms as a refl ection of Europanisa- tion of Estonian legal culture. – Juridica International, 12, 173–179. Ristikivi, Merike 2008. Ladina õigusterminite vormilisest ja sisulisest korrektsusest. – Eesti Rakenduslingvistika Ühingu aastaraamat, 4, 157–170. Roland, Henri; Boyer, Laurent 1998. Locutions latines du droit français. Paris: Litec. Senn, Marcel 2007. Rechtsgeschichte – ein kulturhistorischer Grundriss. 4. Aufl . Zürich: Schulthess. Tamm, Ditlev 1997. Roman law and European legal history. : DJØF Publish- ing. Wieacker, Franz 1967. Privatrechtsgeschichte der Neuzeit. 2. Aufl . Göttingen: Vandenhoeck & Ruprecht.

Õpikud Brox, Hans 2003. Pärimisõigus. Tallinn: Juura. Kull, Irene 1999. Lepinguõigus. Tallinn: Juura. Liin, Urve 2005. Pärimisõigus. Tallinn: Ilo. Lüderitz, Alexander 2005. Perekonnaõigus. Tallinn: Juura. Orgo, Inge-Maret; Muda, Merle; Tavits, Gaabriel; Treier, Thea 2003. Tööõigus. Tallinn: Juura. Schlechtriem, Peter 2000. Võlaõigus. Eriosa. Tallinn: Juura. Schwab, Karl Heinz; Prütting, Hanns 1995. Asjaõigus. Tallinn: Juura. Tiivel, Rein 2007. Asjaõigus. Tallinn: Juura.

Merike Ristikivi (Tartu Ülikool) on erialalt klassikaline fi loloog, uurimisteemaks on ladina keele mõju- tused eesti õiguskeeles. [email protected]

236 LATIN TERMS IN CIVIL LAW: ORIGINAL TEXTBOOKS IN ESTONIAN VERSUS TRANSLATED TEXTBOOKS

Merike Ristikivi University of Tartu

The article discusses the occurrence of Latin terms in Estonian textbooks on civil law. As the object of study there have been selected eight textbooks that focus on different areas of civil law (property law, right of obligation, right of succession, family law and labour law). The genre type of a text is identifi ed according to the function that the text acquires in communicative interaction. The materials analysed in the current article are classifi ed as scientifi c texts. The purpose of a scientifi c text is to impart knowledge and to examine, elaborate and explicate the factual infor- mation concerning a particular discipline. The target group of the study aid which qualifi es as a scientifi c text comprises university students, and its function is the introduction to the historical trends and the current principles of the various areas of civil law, as well as familiarisation with specialist lexis (Beaugrande, Dressler 1981: 192, Love 2002: 76). The terminological unity within the discipline is achieved by the common net- work of concepts. The legal terminology in Continental Europe has been modelled on the reception of Roman Law which in the Middle Ages mainly consisted of investigating and teaching Roman civil law. Thus, the continental law developed for several centuries on the basis of the Latin language and it relies heavily on the system of concepts stemming from Roman civil law. Therefore the role of Latin terms in civil law is more signifi cant than in other areas of law. Since the infl uence of German law on the Estonian legal culture has been con- siderable and German law has also been taken as the basis of current legislation in Estonia, the textbooks chosen for this study include besides original Estonian textbooks also study aids translated into Estonian from German. to the study com- pares the usage of Latin terms in Estonian books and translated books. The results of the research indicate that German infl uences on Estonian legislation can also be observed on the terminological level. In translated study aids, Latin terms are more abundant, and the authors use a greater variety of terms. In addition, the article analyses the differences among the uses of Latin expres- sions in the various areas of civil law as viewed from the historical perspective, presuming that the usage of terminology is closely connected to the development of the subfi elds. The results largely confi rm the hypothesis that Latin terms are more commonly used in those areas of civil law whose vocabulary has largely developed from Roman law, i.e. right of obligation and right of succession. Labour law, which is connected with Roman law only remotely, has adopted relatively few Latin phrases. Property law textbooks also contain few Latin terms despite the fact that this is one of the areas of civil law that have developed directly from Roman Law. Similarly, the hypothesis that Latin terms may be less numerous in family law could not be confi rmed. In this area, the modern legal treatment differs signifi cantly from the 237 family law matters in Roman Law. As for the family law study aid under scrutiny in the current research, it appeared that a great number of various Latin terms can be detected in this textbook.

Keywords: legal language, terminology, language area studies, language contact, Latin, Estonian

238 CORPORA FOR APPLIED PURPOSES: A CASE STUDY OF QUANTIFIERS IN ENGLISH AND LITHUANIAN

Jūratė Ruzaitė

Abstract. The present paper aims to show how a cross-linguistic analysis based on a parallel corpus can be used for numerous practical

applications in such areas as translation, lexicography and language 5, 239–250 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT teaching. The paper examines non-numerical quantifi ers (e.g. a bit, a few, few, etc.) in English and Lithuanian. The analysis is based on the Parallel Corpus of the Lithuanian Language and The Corpus of Spoken Lithuanian. Where relevant, the issue of equivalence between English and Lithuanian is discussed by comparing the data to results obtained from the British National Corpus. The study shows that a parallel cor- pus is especially useful when searching for equivalents in the target language since it clearly displays the differences in the inventory of a particular category in two languages. The establishment of equivalent categories in English and Lithuanian is especially important in terms of lexicography and translation. Keywords: parallel corpus, quantifi ers, translation, equivalents, language teaching, English, Lithuanian

1. Introduction

The present paper is a cross-linguistic analysis of non-numerical quantifi ers based on a parallel corpus, the results of which, as will be argued further, can be used for numerous practical applications in such areas as translation, lexicography and language teaching. The paper examines non-numerical quantifi ers (e.g. a bit, a few, few, etc.) in English and Lithuanian. The analysis is primarily based on the Parallel Corpus of the Lithuanian Language, which contains almost 70 000 parallel sen- tences translated from English into Lithuanian and 1614 sentences translated from Lithuanian into English. In addition, the data are supplemented with the results 239 obtained from the Corpus of Spoken Lithuanian1, the Corpus of the Contemporary Lithuanian Language2, and the British National Corpus. The present study shows that a parallel corpus is especially useful when search- ing for equivalents in the target language since it clearly displays the differences in the inventory of a particular category in two languages. The establishment of equivalent categories in English and Lithuanian is especially important in terms of lexicography and translation. Equivalents for most lexical items in Lithuanian bilingual dictionaries are often presented on the basis of lexicographers’ intuition; synonymous equivalents are often provided as interchangeable items without any usage specifi cations. However, as corpus data show, there exist important usage differences between apparently synonymous equivalents presented as interchange- able items. Hence, a parallel corpus provides a more extensive inventory of cross- linguistic correspondences than a bilingual dictionary. Therefore, it can be argued that corpus-based contrastive analysis may at least partly solve the problem of equivalence, which is often encountered when using dictionaries, especially bilin- gual ones. As Granger (2003: 19) so aptly points out, despite some drawbacks of parallel corpora, they are “an ideal resource for establishing equivalence between languages since they convey the same semantic content”. Thus the main aims of the study are as follows: • to analyse the Lithuanian equivalents of English paucal quantifi ers in a parallel corpus; • to show how English and Lithuanian differ in the use of quantifi ers; • to suggest how a cross-linguistic analysis based on a parallel corpus could be used for practical applications in translation, lexicography and language teaching; • to show how a parallel corpus can be supplemented with data from com- parable monolingual corpora. Thus the present paper focuses primarily on the issue of equivalence from the perspective of corpus linguistics.

2. Theoretical preliminaries

Paucal quantifi ers in the present investigation are defi ned as non-numerical quanti- fying expressions that refer to small quantities. The quantifi ers under investigation are: a few, few, a bit, a little bit, little, a little, and several. Paucal quantifi ers are contrasted to multal quantifi ers, which refer to large quantities, e.g. a lot, many, and much. The distinction of paucal and multal quantifers is based primarily on the classifi cation of Quirk et al. (1985), according to which such quantifi ers as many and much are assertive multal pronouns, whereas a few and a little are assertive paucal pronouns. The distinction between multal and paucal quantifi ers is of special importance since these quantifi ers differ in their communicative function. Some results obtained in a study of quantifi ers in spoken academic discourse (Ruzaitė 2007) suggest that small quantities have a special importance in spoken interaction taking place in academic settings; it has been observed that paucal quantifi ers are often used

240 1 See http://www.vdu.lt/LTcourses/ (see MOKSLAS ‘education’) (23.01.2009). 2 See http://donelaitis.vdu.lt (23.01.2009). for mitigation and help to avoid categorical statements. Since paucal quantifi ers are often used to mitigate statements, they are frequently classifi ed as hedges or downtoners. For instance, Dubois (1987: 531) calls a little and a bit as hedges since they function as “a means of diminishing precision”. Some quantifi ers, e.g. a bit, a little, little, few, are sometimes referred to as downtoners, which are understood as a category that reduces the scalar intensity of verbs and adjectives (e.g. Hinkel 2003). Quantifi ers perform the functions of mitigating or downtoning since, as Powell (1985) observes, the meaning of quantifi ers frequently encodes some evaluative content concerning the signifi cance of a quantity. The evaluative function is an important and intended speaker’s message, which is lost if reformulated into a precise expression. In addition, as Powell points out, not all expressions have an evaluative dimension, for example, a few, many, a large number of, and a great many are evaluative, whereas some is neutral. Some studies of quantifi ers do not distinguish between multal and paucal quan- tifi ers, but they still emphasise that speakers consciously employ quantifi ers instead of numbers for certain communicative purposes (e.g. Channell 1990, Swales 1990, Altenberg 1990, Drave 2002). The preference for non-numerical quantifi ers over precise numbers is explained by Moxey, Sanford (1993, 1997), which are based on a psycholinguistic approach and focus on how speakers perceive quantifi ers. They observe that “passages seem to be easier to recall when they are quantifi ed with natural language expressions, rather than with numbers” (Moxey, Sanford 1993: 211). According to Moxey and Sanford (1997: 211), “natural language quantifi ers can convey far more than is conveyed by mere numerical denotation”. It is important to note that, as Channell (1994) observes, some quantifi ers have a metaphoric meaning. Metaphorical extensions of literal meanings are characteristic of such multal quantifi ers as a load of, oodles of, a bag of, bags of, a lot of and lots of, and such paucal quantifi ers as a bit and a little bit (see also Biber et al. 1999). When used metaphorically, these quantifi ers specify not a true measure (e.g. a bit or a bag), but a large or small quantity. Such expressions are of special importance in translation and language learning since they may pose problems when fi nding an appropriate equivalent in different languages. Though quantifi ers, as has already been pointed out, are especially important for their communicative functions, which may differ across language communities, cross-linguistic studies of quantifi ers are not numerous. However, some of the most recent research shows that a proper command of quantifying expressions is to be taken into account in language teaching. For example, Labrador de la Cruz’s (2003) cross-linguistic investigation of the most prototypical quantifi ers in Spanish and English suggests that the functions of quantifi ers in the two languages are very similar, but they differ signifi cantly in their speech realisations. Hinkel (2003), who studies the use of downtoners in the essays of native and non-native speakers, demonstrates that downtoners are used infrequently by both native and non-native speakers. In contrast, emphatics (e.g. v + a lot) and amplifi ers (e.g. very much, a lot + comparative adj, much + comparative adj), are considerably more frequent in the essays of non-native speakers than in those of native speakers. The excessive use of emphatics and a signifi cantly less frequent use of downtoners make the essays of non-native speakers sound colloquial, too assertive and categorical (Hinkel 2003). 241 On the basis of previous research of English quantifi ers (research of Lithuanian quantifi ers is limited to just a few grammar books) it can be hypothesised that English and Lithuanian differ mainly in the inventory of quantifying expressions, since morphologically the two languages are very different. Furthermore, it can be hypothesised that there exist some differences in the metaphoric expressions used for quantifi cation in English and Lithuanian. It can also be assumed that quantifying expressions, being a category of hedging devices, are used to a different extent in the two languages. It is expected that the results of the present analysis will show how corpus data can supplement the information available in bilingual dictionaries and how corpora can be used as an aid in translation and language teaching.

3. Methods and data

In this study quantifi ers will be analyzed within the framework of corpus linguistics and contrastive linguistics. Corpora and especially parallel corpora can be said to have instigated the revival of contrastive linguistics in recent years since corpus linguistics offers a reliable methodology of collecting and systematizing data in more than one language (for some examples of such analysis see Hallebeek, Spaans 2000, Granger 2003, Frankenberg-Garcia 2006, McEnery, Xiao 2007). As Frankenberg- Garcia (2006: 142) rightly observes, “using the technology of corpus linguistics ... it is possible to analyse enormous quantities of translated text in unprecedented ways”. Corpus-based contrastive linguistics offers a chance to study both language-specifi c and cultural differences and similarities, as well as universal features. The results obtained in such a cross-linguistic analysis can be used for numerous practical applications in such areas as translation, lexicography and language teaching. Computer corpora can serve as a reliable source of empirical data in a contras- tive study of two or more languages, for several reasons. A corpus-based approach enables a linguist to make well-substantiated generalizations on the basis of natu- rally occurring stretches of language. The main advantages of such a study are the reliability of data (due to its abundance and carefully proportioned design of the corpus) and the naturalness of the language. Corpus data also bring to attention such cases that may otherwise go unobserved and can even be unsuspected in the language intuitively. A combination of different types of corpora, e.g. monolingual and multilingual corpora, can further increase the validity of the results. Since both monolingual and multilingual corpora have advantages and disadvantages, in cross- linguistic studies both types of corpora should be used concurrently to enhance the accuracy of the results (Granger 2003). The main advantages and disadvantages of the two types of corpora are well summed up by Granger (2003: 19):

Comparable corpora have the major advantage of representing original texts in the two or more languages under comparison, i.e. language spontaneously produced by native speakers of those languages. They are therefore in principle free from the infl uence of other languages, which is obviously not the case of translation corpora as the original source text is in a different language and will quite naturally exert some kind of infl uence on the target text. The main drawback of comparable corpora lies in the diffi culty of establishing compa- rability of texts. Some types of text are culture-specifi c and simply have no 242 exact equivalent in other languages. Translation corpora are an ideal resource for establishing equivalence between languages since they convey the same semantic content. The main drawback of translation corpora, however, is that they often display traces of the source text and therefore cannot really be con- sidered as reliable data as regards the target language, especially in frequency terms. In addition, it is not always possible to fi nd translations of all texts.

These disadvantages can be compensated for by the combination of a parallel cor- pus with comparable monolingual corpora, as each can be used to supplement the other’s data and double-check the fi ndings obtained in any one of them. Thus, to make the present cross-linguistic analysis more accurate, I will make use of several different corpora, both bilingual and monolingual. The primary source for collecting data will be The Parallel Corpus of the Lithuanian Language (PCLL).3 It contains almost 70 000 parallel sentences translated from English into Lithuanian and 1614 sentences translated from Lithuanian into English. In addition to the parallel corpus, the data will be supplemented with the fi nd- ings obtained from three monolingual corpora, one of which is the British National Corpus (BNC).4 The latter will be used to study quantifi ers in English. The BNC contains 100 million words and is composed of samples of written and spoken language from a variety of spoken and written sources. Lithuanian quantifi ers will be further studied in The Corpus of the Contempo- rary Lithuanian Language (CCLL), which consists of 100 million words, thus being of a similar size as the BNC. The CCLL represents a wide range of contemporary written Lithuanian and contains mainly printed material from Lithuania’s inde- pendence period (since 1990). The largest part of the corpus consists of general press (texts from regional and national newspapers), popular press, and special press (specialised newspapers and magazines). The rest of the corpus comprises fi ction, memoirs, other literature (scientifi c and popular), and various offi cial texts. Spoken language forms just a small part of this corpus; it consists of Parliament debates that constitute 2% of the corpus (or approximately 20 000 words). To rep- resent spoken Lithuanian more fully, the Corpus of Spoken Lithuanian will be used to supplement the data obtained from the Corpus of the Contemporary Lithuanian Language. The Corpus of Spoken Lithuanian consists of 50 000 words.

4. Results

4.1. Frequency of quantifiers in the parallel corpus

The English-Lithuanian part of the parallel corpus has provided 943 occurrences of the seven quantifying expressions under investigation. The raw frequency of each quantifi er is presented in Table 1. Table 1 shows that a few is the most frequent quantifi er (309 occurrences), as opposed to the least frequent a little bit, which occurs only 6 times. The main types of equivalents of these quantifi ers will be discussed in greater detail in the following section, which will compare the equivalents available in a bilingual dictionary and those that can be obtained from a parallel corpus.

243 3 See http://donelaitis.vdu.lt (23.01.2009). 4 Available via the University of Zurich (English Seminar Corpus Server), see http://escorp.unizh.ch/ (23.01.2009). Table 1. Frequency of quantifi ers in the parallel corpus

Quantifi er Frequency a few 309 a little 172 several 167 little 142 few 113 a bit 34 a little bit 6 Total 943

4.2. Main types of equivalents of paucal quantifiers in Lithuanian

One of the major observations that can be made on the basis of the data obtained from the parallel corpus is that the parallel corpus provides a considerably larger number of equivalents than a bilingual dictionary. The equivalents of a bit presented in Table 2 clearly demonstrate that there is a greater variety of equivalents in the parallel corpus (PC) than in the bilingual dictionary (BD).

Table 2. Equivalents of a bit (frequency in brackets)

Bilingual dictionary (BD) Parallel corpus (PC) truputį truputį (8) nedaug šiek tiek gana kiek lyg grammatical equivalent (affi x) (4) emphatic equivalent (e.g. kur kas, kaip) (4) ‘not a bit’: visai ne, nė kiek ‘not a bit’: nieko panašaus no equivalent (8)

As can be seen in Table 2, almost no equivalents coincide in the PC and BD; the only equivalent that coincides (truputį) is underlined in the table above. In addition, there are cases (8 occurrences) where there is no equivalent in the translated texts. The comparison of the information available in the parallel corpus and the bilingual dictionary (Piesarskas 2005) has also demonstrated that some quantifying expressions (e.g. a little bit) are not represented in any way in the BD. A little bit is not defi ned either in a separate entry or in the entry of bit in the BD. In the parallel corpus, in contrast, the latter quantifi er is left untranslated only once, but in other cases it is rendered by using a variety of equivalents such as šiek tiek, truputis, ne taip, and the emphatic equivalent labai. As the corpus data have revealed, in Lithuanian quantifi ers are often realized only grammatically or both grammatically and lexically. There are numerous cases in the PC where equivalents of quantifi ers are not lexicalized but are represented only grammatically. In such instances affi xes (esp. suffi xes) are added to nouns (gurkšnelis), verbs (prunkštelėjo, šnekteldavo) and adjectives (keistoku) that are modifi ed by quantifi ers in English, as can be seen in examples (1)–(4):

244 (1) The savages sniggered a bit and one gestured at Ralph with his spear. Laukiniai prunkštelėjo, ir vienas parodė į Ralfą ietimi. (2) Perhaps a little water would restore her. Gal gurkšnelis vandens ją atgaivins? (3) Langdon’s friends had always viewed him as a bit of an enigma – a man caught between centuries. Lengdono draugai jį visuomet laikė truputį keistoku – jiems jis buvo žmogus, pasimetęs tarp kelių šimtmečių. (4) He usually stopped to talk with Mr. Charrington for a few minutes on his way upstairs. Prieš lipdamas viršun, Vinstonas sustojęs visada šnekteldavo su juo keletą minučių. In examples (3) and (4) English quantifi ers are rendered into Lithuanian by pro- viding a lexical equivalent (truputį in (3) and keletą in (4)) and by adding suffi xes to the quantifi ed notions. Those suffi xes reinforce the small quantity expressed by the quantifi er since they convey the idea of smallness: a limited amount of a quality (in the adjective keistokas) and a short duration of an action (in the verb šnekteldavo). Though paucal quantifi ers typically function as mitigators, they are sometimes translated into Lithuanian by providing emphatic equivalents (EN ‘paucity’ → LT ‘multitude’). It is diffi cult to fi nd an explanation for such a tendency without knowing the real translators’ intentions but such results may suggest some cross-cultural/ cross-linguistic differences. As far as cross-linguistic differences are concerned, some words typically are not mitigated in LT as their most typical collocational patterns suggest; see examples (5)–(7):

(5) The Vatican, it seemed, took their archives a bit more seriously than most. Vatikanas, atrodo, į savo archyvų apsaugą žiūrėjo kur kas rimčiau nei dauguma kitų įstaigų. (6) a few emotional storms daugelį emocinių audrų (7) There are times when, for your sake, I have been a little uneasy at his marked preference, and have wished to put you on your guard... Aš labai rūpinaus, matydama, kad jis kreipia į jus ypatingą dėmesį, ir, mylėdama jus, rengiausi su jumis pasikalbėti.

The Lithuanian equivalents in (5)–(7) kur kas, daugelį and labai express multitude or intensity but not paucity; therefore, they function as intensifi ers. A set of equivalents that can be of special interest in cross-cultural investiga- tions are metaphoric equivalents. As the data have revealed, there exist cases when a non-metaphoric English quantifi er is translated by using a metaphoric expression in Lithuanian, as in example (8):

245 (8) ...but restricted his generosity to those few supporting the PRI (Partido Revolucionario Institutional), the government party. ...bet buvo dosnus tik tai saujelei žmonių, kurie rėmė vyriausybinę partiją PRI (Institucinė revoliucinė partija). The English quantifi er few is translated by using a metaphoric equivalent saujelė, which literally means ‘a handful’, but metaphorically refers to a small quantity. Such metaphoric quantifi ers exist in English as well (e.g. a bit, a load of, oodles of, a bag of, bags of, a lot of and lots of; for a discussion of such quantifi ers, see also Channell (1994), Biber et al. (1999)). One of the most unexpected fi ndings was that in some instances the target text (TT) provides numerical equivalents for non-numerical English quantifi ers. A more specifi c numerical reference is used instead of a non-numerical quantifi er in examples (9)–(10):

(9) A few du trys (‘two three’) (10) his spectacles needed wiping every few minutes akinius reikėjo šluostyti kas penkios minutės

Such a use of equivalents is revealing since it shows how the speakers of a language perceive and interpret quantifi ers. A non-specifi c quantifi er is a fuzzy concept whose interpretation may vary in different contexts and language communities. To study how quantifi ers are perceived by English language speakers, Channell (1994) devised a questionnaire that respondents had to fi ll out. As the present research shows, a large database of translated texts could provide a reliable source for analysing the perception and interpretation of quantifi ers, which could supplement, or be even more informative than, a questionnaire. Interestingly, in a number of cases quantifi ers are not translated into Lithua- nian. This is especially typical of a little; in 48 cases (or 28% of the total number) a little is not translated into Lithuanian, as in example (11):

(11) “I don’t mean to be baffl ed by a little stiffness on your part; I’m prepared to go to considerable lengths.” “Aš nesutriksiu nuo šito jūsų manieringumo; taip lengvai neišsisuk- site.”

As example (8) demonstrates, the quantifi ed noun (underlined in the examples) is not preceded by a quantifi er in the Lithuanian version. All the instances where English quantifi ers are not represented in the target text (TT) are presented in Table 3.

Table 3. Quantifi ers omitted in the target text

a little a bit few a few Frequency 48 8 13 33 Percentage 28.1% 23.5% 11.5% 10.7%

246 As Table 3 demonstrates, the quantifi ers that have no equivalent in the TT most frequently include two synonymous quantifi ers a little and a bit (they are not translated into Lithuanian in 28.1% and 23.5% of the cases, respectively). Few and a few are omitted to a considerably lesser extent (11.5% and 10.7% of the cases, respectively). There are several possible explanations for such a tendency. First, it is easily noticeable (see Table 3) that the quantifi ers that are the most commonly omitted in the TT are those that are used primarily not for their informative content, but that are primarily important as hedges or mitigators. Therefore, it may be argued that quantifi ers functioning as hedges are omitted since their communicative func- tion is underestimated by the translator. This suggests that translators still give too much prominence to the informative content and thus may neglect the lexical items mainly necessary for other purposes such as persuasion. A second explanation is based on the structural differences between the two languages under investigation. Lithuanian, being a synthetic language, can express quantifi cation by the genitive case (partitive use) and thus a quantifi er is of less importance in Lithuanian than in English. In English a paucal quantifi er is abso- lutely necessary if the speaker needs to refer to just a part of something, whereas in Lithuanian the partitive use of the genitive case immediately suggests a part of the quantifi ed notion. Finally, since the translation equivalent is a unit typically larger than one word, the notion of quantifi cation is often encoded in a longer phrase without a quanti- fi er in the TT. This is especially common when set phrases, fi xed expressions and idioms are translated, as in the following instances:

(12) In the past/last few years – pastaruoju metu/pastaraisiais metais/per pastaruosius metus (13) In the next few days – artimiausiu metu (14) a few moments ago – neseniai (15) for a few moments/minutes – valandėlę (16) To name but a few – sunku viską ir išvardinti (17) you’re a few crumpets short of a proper tea – iš tavęs jam menka nauda (18) A person of few words – nešnekus

The time references in (12)–(14) above contain no quantifi ers in Lithuanian but they still refer to the shortness of certain time periods just as their English counterparts. In (15), the diminutive form is used to refer to a short period, not a quantifi er. Examples (16)–(18) show how quantifi ers are omitted in fi xed expressions and idioms. Thus, the omission of quantifi ers in the TT can sometimes, albeit not always, be explained by the dependence of the equivalent on a collocational pattern.

247 5. Concluding remarks

The present analysis is just a brief investigation of a limited set of quantifying lexemes in two languages and could profi tably be expanded in many different respects. For instance, a closer study of monolingual corpora in the two languages could reveal a more detailed picture including more information on collocational pat- terns and usage differences between different modes of speaking or discourse types. However, even an investigation of such a limited scope enables some important generalisations with regard to some possible applications of such corpus results. First of all, a contrastive study of English and Lithuanian can have some appli- cations in lexicography, especially with regard to both monolingual Lithuanian dictionaries and bilingual English-Lithuanian / Lithuanian-English dictionaries. The use of corpora could contribute to the development of a new generation of grammars and dictionaries in Lithuanian, which so far have been highly conservative. The data have clearly demonstrated that dictionary equivalents should be necessarily supplemented with corpus data since very few of them coincide in both sources. Data obtained from parallel and comparable monolingual corpora are also important in translation studies. A corpus-based contrastive analysis may at least partly solve the problem of equivalence, which is often encountered when using dictionaries, especially bilingual ones. As Granger (2003: 25) rightly points out, bilingual corpora are “an extremely valuable pedagogical resource in translation teaching”. She suggests that corpus-based classroom activities for translator trainees could “involve comparable and parallel corpora of general or specialised language” (Granger 2003: 25). Finally, corpus results should be taken into consideration when teaching English or Lithuanian as a foreign language. The appropriate usage of such expressions as quantifi ers should be treated as a special strategy of successful communication, the use of which contributes to the linguistic fl uency and thus should be acquired by foreign speakers in order to sound natural and polite. Interesting cross-cultural and cross-linguistic differences (e.g. metaphoric uses) that have been highlighted by a parallel corpus can be useful in language teaching and translation. The results of the present analysis show that, although some important differences with regard to mitigation can be observed in English and Lithuanian, in general these two languages use quantifi ers for similar purposes and in similar patterns. It should be emphasised that when teaching, both differences and similarities between the native and the target language should be taken into account. Making learners aware of cross-linguistic similarities could enhance the learning process: if students can draw parallels with their own native language(s), the feeling of familiarity can help them adopt certain language properties more easily.

References Altenberg, Brigitte 1990. Some functions of the booster. – Jan Svartvik (Ed.). The London- Lund Corpus of Spoken English: Description and Research. Lund: Lund University Press, 193–210. Biber, Douglas; Johansson, Stig; Leech, Geoffrey; Conrad, Susan; Finegan, Edward 1999. Longman Grammar of Spoken and Written English. London, New York: Longman. Channell, Joanna 1994. Vague Language. Oxford: Oxford University Press. 248 Drave, Neil 2002. Vaguely speaking: A corpus approach to vague language. – Peter Collins, Pam Peters, Adam Smith (Eds.). New Frontiers of Corpus Research. Amsterdam: Rodopi, 25–40. Dubois, Betty Lou 1987. “Something on the order of around forty to forty-four”: Imprecise numerical expressions in biomedical slide talks. – Language in Society, 16, 527–541. doi:10.1017/S0047404500000361 Frankenberg-Garcia, Ana 2006. Using a parallel corpus in translation practice and research. – Actas da Contrapor 2006, 1ª Conferência de Tradução Portuguesa, Faculdade de Ciên- cias e Tecnologia. Universidade Nova de Lisboa, 11-12 de Setembro de 2006. Lisboa, 143–148. www.linguateca.pt/documentos/Frankenberg-GarciaContrapor2006.pdf (10.05.2008). Granger, Sylviane 2003. The corpus approach: A common way forward for Contrastive Linguistics and Translation Studies. – Granger Sylviane, Jacques Lerot, Stephanie Petch-Tyson (Eds.). Corpus-based Approaches to Contrastive Linguistics and Transla- tion Studies. Amsterdam, Atlanta: Rodopi, 17–29. Hallebeek, Jos; Vakgroep Spaans 2000. English parallel corpora and applications. – Cuader- nos de Filologia Inglesa, 9 (1), 111–123. Hinkel, Eli 2003. Adverbial markers and tone in L1 and L2 students’ writing. – Journal of Pragmatics, 35, 1049–1068. doi:10.1016/S0378-2166(02)00133-9 Labrador de la Cruz, Belén 2003. Typicality in the use of English and Spanish indefi nite quantifi ers. – Babel, 49/1, 41–58. McEnery, Anthony; Xiao, Zhonghua R. 2007. Parallel and comparable corpora: What is hap- pening? – Margaret Rogers, Gunilla Anderman (Eds.). Incorporating Corpora: The Linguist and the Translator. Clevedon: Multilingual Matters, 18–31. Moxey, M. Linda; Sanford, Anthony J. 1993. Communicating Quantities: A Psychological Perspective. Hove: Lawrence Erlbaum Associates. Piesarskas, Bronislovas 2005. The English-Lithuanian Dictionary. Vilnius: Alma littera. Powell, Mava Jo 1985. Purposive vagueness: An evaluative dimension of vague quantifying expressions. – Journal of Linguistics, 21, 31–50. doi:10.1017/S002222670001001X Quirk, Randolph; Greenbaum, Sidney; Leech, Geoffrey; Svartvik, Jan 1985. A Comprehensive Grammar of the English Language. London: Longman. Ruzaitė, Jūratė 2007. Vague Language in Educational Settings: Quantifi ers and Approxima- tors in British and American English. Europäische Hochschulschriften. Angelsäch- sische Sprache und Literatur 433. Frankfurt am Main: Peter Lang. Swales, John M. 1990. Genre Analysis: English in Academic and Research Settings. Cam- bridge: Cambridge University Press.

Jūratė Ruzaitė (Department of English Philology, Vytautas Magnus University, Lithuania). Her research interests include discourse analysis (esp. spoken academic discourse), discourse and ideology, corpus linguistics, and vague language. [email protected]

249 KORPUSTE RAKENDUSI: HULGASÕNADEST INGLISE JA LEEDU KEELES

Jūratė Ruzaitė Vytautas Magnuse Ülikool

Artikli eesmärk on juhtida tähelepanu paralleelkorpustel põhineva kõrvutava kee- leanalüüsi rakendusvõimalustele tõlkimisel, sõnaraamatutöös ja keeleõpetuses. On uuritud ingliskeelseid hulgasõnu (nt a bit, a few, few jt) ja nende leedu vasteid, kasutades leedu keele paralleelkorpuse ja suulise leedu keele korpuse ning vajadusel ka briti inglise keele korpuse British National Corpus andmeid. Selgub, et paralleelkorpus pakub tunduvalt rohkem vasteid kui kakskeelne sõnaraamat. Leedu keeles antakse kvantori tähendus sageli edasi kas ainult gram- matiliselt või siis grammatiliste ja leksikaalsete vahendite koostoimel. Leksikali- seerimata, s.o puhtgrammatilisi kvantorivastendusi, kus inglise nimi-, tegu- või omadussõna on piiritletud hulgasõnaga, vastavale leedu sõnale aga lisandub liide (sagedamini järelliide), leidub paralleelkorpuses hulganisti. Kuigi vähest hulka, kogust või määra tähistavatel kvantoritel on tavaliselt vähendav funktsioon, tõlgitakse neid vahel hoopis tunderõhulise leedu vastega. Tõlkija kavatsusi tundmata on nähtust küll raske seletada, kuid tegemist võib olla ka keelelis-kultuuriliste erinevustega. Nagu nähtub tüüpilistest kollokatsioonidest, mõne leedu sõna puhul vähendusvormi lihtsalt ei kasutata. Sageli jäetakse inglise hulgasõnad üldse leedu keelde tõlkimata. Võimalikke seletusi on rohkem kui üks. Esiteks torkab silma, et kõige sagedamini loobutakse tõlkimast kvantoreid, mis toimivad pigem leevendaja või vähendajana kui kannavad muud informatsiooni. Niisiis võib väita, et tõlkijad alahindavad sääraste kvantorite kommunikatiivset rolli. Paistab, et tõlkijad kipuvad ikka veel üle tähtsustama teksti informatiivsust selle muude võimalike aspektide (nt sisenduslikkuse) ees. Teiseks võib nähtust seletada ka vaatlusaluste keelte struktuurilise erinevusega. Sünteesiva keelena võib leedu keel kvantori asemel (partitiivselt) genitiivi kasutada, mistõttu hulgasõnadel pole sama tähtsust mis inglise keeles. Kolmandaks, kvantifi tseerida saab ka mitmesõnalise fraasiga (sellised ongi analüüsitud vastete hulgas enamu- ses), kus hulgasõna kui selline puudub. Selliselt tõlgitakse tavaliselt käibefraase, püsiväljendeid ja idioome.

Võtmesõnad: paralleelkorpus, hulgasõnad, tõlkimine, vasted, keeleõpe, inglise keel, leedu keel

250 KORPUSTE TÜKELDAMINE: RAKENDUSI SILPIDE NING ALLKEELTEGA

Kairit Sirts, Leo Võhandu

Ülevaade. Keelekorpustes sisalduvat materjali on võimalik erineval moel tükeldada, andes sellega võimaluse uurida keele erinevaid tah- kusid. Artiklis uurime kahte oma omadustelt väga erinevat tükeldust:

teksti tükeldamist silpideks statistilise keelemudeli leidmise eesmärgil 5, 251–266 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT ning keele tükeldamist erinevateks allkeelteks eesmärgiga leida eesti keele põhisõnavara. Silpidel baseeruv statistiline keelemudel hõlmab endas 500 kõi- ge sagedamini esinenud silpi ning on kolmetasandiline, koosnedes silpide, silbipaaride ja silbikolmikute järgnevuse sagedustabelitest. Sagedustabel on oma olemuselt maatriks, mille ridadeks on kas silbid, silbipaarid või silbikolmikud ning veergudeks silbid. Ridade ja veergu- de ristumispunktides on arv, mis näitab, mitu korda vastav veeru silp esines tekstikorpuses vastava reaelemendi järel. Eesti pseudokeele generaator on silpidel baseeruva statistilise keelemudeli rakendus. Eesti pseudokeele generaatorit kasutades on võimalik genereerida teksti, mis ei ole küll päris eesti keel, aga kahtle- mata kõlab eesti keelena. Silpide kategoriseerimise eesmärgiks on rühmitada silbid vastavalt nende võimalikele asukohtadele sõnas. Pakume välja algoritmi silpide automaatseks rühmitamiseks kasutades silpide sagedustabelit. Näita- me eksperimentaalselt kümne silbi abil, kuidas silbid jagunevad algus-, lõpu- ja kesksilpideks. Keelt võib tükeldada n-ö põhisõnavara sisaldavaks üldkeeleks ning erinevateks allkeelteks, mis sisaldavad vastavat oskussõnavara. Käes- olevas artiklis arutleme, kas ja kuidas on käesoleval ajal defi neeritud üldkeel. Ühtlasi pakume välja algoritmi sellise põhisõnavara üheseks määratlemiseks arvuti abil. Võtmesõnad: arvutilingvistika, keelemudel, silbitamine, silbiseostus, graafesitus, silpide rühmitamine, üldkeel, allkeeled, eesti keel

251 1. Sissejuhatus

Selle artikli autorid on hariduselt ja mõtteviisilt informaatikud, mitte fi loloogid, raallingvistid või keeleõpetajad. Meie igapäevase teadustöö põhieesmärgiks on otsida paljuparameetriliste objektsüsteemide peidetud struktuure ja korrapärasid. Loodud meetodid on semantikavabad ning võimaldavad tunnuste abil kirjeldatud objektsüsteemide olemust küllalt kiiresti avada. Paari viimase aasta jooksul oleme katsetanud neid meetodeid ka keelekorpus- tel. Internetis paiknevaid Tartu Ülikooli töörühmade loodud materjale1 kasutades oleme uurinud eesti keele silbistruktuuri (Võhandu, Sirts, Aab 2008, Sirts 2008) ja üritanud fi kseerida esmaseid tähelepanekuid. Samas selgus, et mingit standardselt esinduslikku keelekorpust ei eksisteerigi. Kõrvaltvaataja pilgule avanes hoopis üpris selgelt vajadus formaalselt defi neerida eesti keele allkeeled, sest kõikehõlmavate mudelite ehitamine on praegu ilmselt liiga raske. Järgnevas kirjeldamegi kõigepealt tööd korpustega ja seejärel eelnevast tule- nevalt mõningaid mõtteid eesti keele allkeelte defi neerimisvõimalustest. Arvutile võib keelt õpetada mitmel moel – programmeerides kogu grammatika reeglistiku ning andes ette terve sõnastiku või siis õpetades programmi olemasole- vate keeleressursside abil. Nendeks ressurssideks on inimeste poolt realiseeritud keel näiteks kirjaliku keele tekstikogude ehk korpuste näol. Korpuste baasil õppimine on induktiivne meetod. On olemas keeleressurss, mida on juba mingil moel kasutatud. Õppima asudes ei ole keelereeglistik teada ning see tuletatakse õpitud korpuste baasil vastavalt valitud õppemetoodikale. Tulemuseks võib olla reeglistik, mida me grammatikaõpikus ei kohta. Samuti võib keeleelementide valik, millel reeglistik baseerub, olla sootuks harjumatu. Artiklis on keeleelementideks valitud silbid, millele on üles ehitatud eesti keele mudel. Mudeli silpidevahelised seostusreeglid esitatakse silpide järgnevuse statistiliste sageduste abil. Silpide järgnevuse sagedused on õpitud eesti kirjakeele korpuse abil.2

2. Korpuse töötlemine

2.1. Korpuse valik

Eesmärgiks oli saada kogum eesti keeles esinevaid silpe, mis oleks piisav, et ära katta suurem osa kogu keelest. Esmapilgul võib tunduda, et selle eesmärgi saavu- tamiseks on üsna ükskõik, milline korpus valida. Eeldusel, et korpus on piisavalt suur, võiks esinduslik silpide hulk igasuguse korpuse puhul n-ö pinnale ujuda, olgu siis tegemist ilukirjanduslike või ajakirjanduse tekstidega. Olles läbi teinud silbitamise ning mudeli koostamise protsessi nii ilukirjanduse kui ka ajakirjanduse korpusega, võib öelda, et mõlemal valikul on nii oma eelised kui ka puudused. Ilukirjandustekstide korpuse puudusena võib välja tuua selle, et ilukirjanduse tekstide sõnavara on oluliselt laiem kui igapäevases (kõne)keeles kasutatav. Seda aspekti võib käsitleda loomulikult ka eelisena, kui ülesande püs- titus nõnda sätestab. Antud juhul on eesmärgiks aga leida võimalikult kompaktne silpide hulk, mis võimalikult palju kataks n-ö tavakeelt. Sellise ülesande puhul on

252 1 Vt http://www.cl.ut.ee/korpused/index.php?lang=et (28.12.2008). 2 Vt http://www.cl.ut.ee/korpused/baaskorpus/ (28.12.2008). ilukirjanduses kasutatava sõnavara, mida tavakeeles reeglina ei kasutata, olemasolu igal juhul võimalikuks puuduseks. Ajakirjandustekstide eeliseks on see, et sõnavara hulk on väiksem ja lähedasem tava(kõne)keelele. Siiski on ajakirjandusetekstidel ka omad puudused. Seal leidub mitmeid sageli korduvaid sõnu, mis on omased just päevakajalistele ajaleheartikli- tele, näiteks Euroopa, sotsiaal-, aktuaal- jne. Seetõttu omandavad sellistes sõnades sisalduvad silbid koos vastava järjestusega ebaproportsionaalselt kõrge sageduse. Peale selle leidub ajakirjanduslikes tekstides palju pärisnimesid ning võõrkeelseid sõnu. Kui võõrkeelsetest sõnadest tekkiv probleem on kergesti hoomatav, siis eestipäraste pärisnimede esinemine ei tundugi esialgu problemaatiline olevat. Kui hakata neid pärisnimesid aga lähemalt uurima, siis selgub, et need koosnevad tihti eesti keeles sagedamini kasutatavatest silpidest, neist moodustuv sõna aga ei olegi eesti keeles mujal kasutusel kui ainult selles konkreetses pärisnimes. Näitena võib tuua perekonnanime Tammet. Silbid tam ja met on mõlemad suhteliselt sagedalt esinevad, kuid järgnevus tam-met esineb ainult pärisnimes. Võttes arvesse ülaltoodud kaalutlusi oleks kõige sobivam kasutada optimaalse silpide kogumi leidmiseks tasakaalustatud korpust, mis sisaldaks võrdsel määral nii ajakirjandustekste kui ka ilukirjandust. Lisaks võib üritada teksti töödelda selliselt, et silpide kogumi leidmisel jäetakse vaatluse alt välja pärisnimed (tuvastatavad lause keskel esineva suure algustähe põhjal) ja võõrkeelsed sõnad (tuvastatavad võõrtähtede esinemise põhjal sõnas).

2.2. Korpuse silbitamine

Käesolevas artiklis kajastatud tulemuste aluseks on ajakirjandustekste sisaldav korpus.3 Selleks, et korpuse tekstist saaksid silbid ning silpidest mudel, oli vaja korpust kõigepealt natuke töödelda. Kasutatud korpuse iga rida oli märgendatud allikaviitega, mis tuli enne silbitamist eemaldada. Ka olid täpitähed märgendatud vastavate koodidega, mis tulid asendada. Seejärel oli teksti silbitamiseks võimalik kasutada Eesti Keele Instituudi (EKI) loodud silbitamise tarkvara.4 Järgmiseks ülesandeks oli kõikide korpuses esinenud silpide esinemise arvu kokkulugemine ning sageduse järgi järjestamine. Keelemudeli loomiseks kaasati viissada kõige sagedamini esinenud silpi, mille baasil loodi silpide järgnevuse sagedustabel. Kirjeldatud protsessi käigus tekkis ka mitmeid probleeme. Põhilised problee- mid, mis seoses korpusega esinesid, olid täpitähtede valed kodeeringud ning ohtrad õigekirjavead korpuse tekstis. Õigekirjavigade tõttu tekkis silpide vahele selliseid seoseid, mida eesti keeles tegelikult ei esine. Samas on selliste seoste kindlaks tegemine ning mudelist eemaldamine väga ajamahukas töö. Et aimu anda, millisel kujul tekst korpuses on esitatud, toome siinkohal frag- mendi (1). (1) A JAE1990\ee0283 Järgnes ülekuulamine, mida viis läbi Tomingas. AJAE1990\ee0283 Mis on teie nimi? AJAE1990\ee0283 Mihhail Konstantinovitš Krupski (siin Tomingas eksib nimedega). AJAE1990\ee0283 Kas teil on õde?

253 3 Vt http://www.cl.ut.ee/korpused/baaskorpus/txt/1999aja_txt_elan.zip (28.12.2008). 4 Vt http://www.eki.ee/tarkvara/silbitus/ (28.12.2008). AJAE1990\ee0283 Jaa. AJAE1990\ee0283 Mis nimi? AJAE1990\ee0283 Nadežda. AJAE1990\ee0283 Kus teid vangi võeti? AJAE1990\ee0283 Gatšinas. AJAE1990\ee0283 Kas olete olnud kohtu all? AJAE1990\ee0283 Jaa.

Teksti mõistlikuks esitamiseks tuleb teha parasjagu eeltööd. Me kasutame J-keel- seid5 programmilõike, mille abil on teksti ettevalmistamine lihtne ja lühike:

tekst =: asenda_koodid tekst_vaikeseks kustuta_muster loe_fail 'c:\ j601\user\proov.txt' silbid =: silbita tekst

Teksti puhastamisprogramm haarab rea lõpust ülakomade vahel oleval aadressil paikneva teksti, kustutab rea eesotsas oleva lisainformatsiooni, teeb siis kõik tähed väikeseks ja lõpuks asendab umlaudid normaaltähtedega. Umlautide asendusprogramm on selline:

asenda_koodid =: 3 : 0 vana =: 'õ';'ä';'ö';'ü';'š';'ž' uus =: 'õ';'ä';'ö';'ü';'š';'ž' vanauus =: vana ,. Uus y rplc vanauus ) Silbitamise käigus tekkinud põhiline probleem oli see, et EKI silbitajaga ei ole või- malik korrektselt silbitada kõiki liitsõnu. Raskusi tekkis selliste liitsõnadega, mille puhul oleks tarvis eelnevalt teada, et tegemist on liitsõnaga ja mille puhul oleks tarvis silbitada iga liitsõnaosa eraldi. Näiteks võib tuua võib-ol-la vs. või-bol-la.

3. Statistiline keelemudel ja sellel baseeruvad rakendused

Eesti keele silbistruktuuri tundus olevat kõige lihtsam ja sobivam uurida silpide järgnevuse abil, modelleerides silpide seostusreeglid stohhastilise lõpliku automaadi abil, mis on esitatud maatrikskujul. Tegemist on ruutmaatriksiga, mille ridadeks ja veergudeks on teatud hulk välja valitud silpe ning rea ja veeru ristumiskoht näitab, mitu korda veerusilp järgnes analüüsitavas tekstis reasilbile.

(2) T = ||tij|| i = 0...n-1, j = 0...n-1

Tõenäosus, et j-silp järgneb i-silbile on võrdne maatriksi ij-elemendi väärtuse ning i-rea summa jagatisega.

(3) P(tj|ti) = tij / ∑j

254 5 Vt http://www.jsoftware.com/ (28.12.2008). Edaspidi nimetame seda maatriksit sagedustabeliks. Sagedustabeli leidmiseks tuli kõigepealt välja valida, kui palju ja millised silbid analüüsi kaasata. Kokku esines silbitatud korpuses 7225 erinevat silpi, lisaks sõnade vahe ehk tühik, mis sai samuti defi neeritud eraldi silbina. Analüüsi jaoks said valitud 501 kõige sage- damini esinenud silpi (500 silpi ning tühik), mis ühtekokku katsid 86 protsenti tekstist. Tühik eraldi silbina pakub huvi seetõttu, et meie huviks on modelleerida mitte ainult silpide järgnevust sõnas, vaid ka sõnade vahelised piirid. Ilma tühikuta oleks üpris keeruline aru saada, milliste silpide järel saabub sõna lõpp või milliste silpidega võiks sõna alustada. Viimase silbina pääses valitud silpide hulka gib, mis esines tekstis 266 korda. Muuhulgas jäeti analüüsist välja osa silpe, mis kuulusid 500 kõige sagedamini esinenud silbi hulka, kuid sisaldasid võõrtähti, ning mille kõrge esinemissagedus oli tingitud ajakirjandustekstide spetsiifi kast. Välja jäeti silbid: ca, co, fo, fi , fi r. Silpe, mis oleks tulnud analüüsist välja arvata, on ka järelejäänud 500 silbi hul- gas, aga nende tuvastamine ei ole enam nii lihtne. Selleks tuleks käsitsi läbi vaadata kõik silpide järgnevused, et kindlaks teha, millised neist esinevad ainult päris- või kohanimedes või on tekkinud liitsõnade mittekorrektsel silbitamisel. Tabelis 1 toome esimesed viiskümmend kõige sagedamat silpi koos sagedus- tega.

Tabel 1. Sagedamini esinevad silbid tühik 388338 va 11311 di 5581 le 21640 o 11292 lu 5411 ta 21340 ri 10002 ko 5361 se 20458 on 9973 ju 5256 ja 19081 e 9962 sel 5243 ma 17316 na 9420 su 5147 te 16589 ka 9094 du 5079 da 15611 gi 8527 ei 5057 li 15532 ku 7758 i 4832 si 13784 la 7655 ha 4575 a 13186 de 7336 ge 4461 ga 12418 me 7210 ki 4446 mi 12219 sa 6877 kui 4176 ti 11982 nud 6457 vad 4107 tu 11646 gu 6178 he 3988 ne 11610 et 6012 ü 3960 ni 11549 ra 5988

Välja valitud 500 silbi ja tühiku baasil koostasime erinevaid sagedustabeleid: 1. silpide järgnevuse sagedustabel; 2. silbipaaride järgnevuse sagedustabel; 3. silbikolmikute järgnevuse sagedustabel. Silpide järgnevuse sagedustabel on seosmaatriks, mis näitab ära järgnevus- seose ning selle tugevuse kahe silbi vahel. Sagedustabeliks on nxn-maatriks, mille ridadeks ja veergudeks on silbid kindlaks määratud järjestuses. Antud juhul on silbid järjestatud esinemissageduse 255 järgi kahanevas järjekorras ning iga silp on kodeeritud oma järjekorranumbriga 0..n-1.

Olgu S = {s0, s1,..., sn-1) analüüsitavate silpide hulk. Silpide si ja sj vaheline järg- nevusseos R(si, sj) = 0, kui silp sj ei järgnenud mitte kordagi analüüsitavas tekstis silbile si. Silpide si ja sj vaheline järgnevusseos R(si, sj) > 0, kui silp sj järgnes vähe- malt ühe korra analüüsitavas tekstis silbile si. Järgnevusseose R(si, sj) väärtuseks on arv, mitu korda silp sj järgnes tekstis silbile si. Siinkohal esitame fragmendi silpide järgnevuse sagedustabelist (tabel 2), mis kajastab andmeid kümne enim esinenud silbi kohta.

Tabel 2. Silpide järgnevuse sagedustabel

tühik le ta se ja ma te da li si tühik 0 730 4961 1830 10399 3271 4402 90 1124 800 le 13599 324 298 31 120 636 55 72 26 32 ta 6551 12 142 223 914 763 103 1382 130 55 se 12211 1096 121 19 13 157 188 1190 90 9 ja 14035 265 60 11 16 50 679 58 212 6 ma 8844 248 533 157 436 12 255 75 169 65 te 7431 1421 64 9 2 859 46 196 104 4 da 8990 214 262 17 354 309 48 456 21 302 li 4333 75 168 909 70 116 103 90 11 202 si 4479 187 247 215 37 83 40 94 60 20

Kuna ridade ja veergude summad on erinevad, siis ei ole veergude ega ridade väärtused otseselt võrreldavad. Selleks, et neid saaks omavahel võrrelda, tuleks read normeerida. Silbipaaride järgnevuse sagedustabel on seosmaatriks, mis näitab ära järgnevusseose ning selle tugevuse kahe järjestikuse silbi ehk silbipaari ning üksiku silbi vahel. Silbipaaride sagedustabeliks on mxn-maatriks, mille ridadeks on silbipaarid ja veergudeks silbid vastavas järjestuses. Nii silbid kui ka silbipaarid on järjestatud esinemissageduse järgi kahanevas järjekorras. Iga silp ja silbipaar on kodeeritud oma järjekorranumbriga vastavalt 0..n-1 ja 0..m-1.

Olgu SP = S x S = {sisj} silbipaaride hulk. Silbipaari sisj ja silbi sk vaheline järg- nevusseos R(sisj, sk) = 0, kui silp sk ei järgnenud mitte kordagi analüüsitavas tekstis silbipaarile sisj. Silbipaari sisj ja silbi sk vaheline järgnevusseos R(sisj, sk) > 0, kui silp sk järgnes vähemalt ühe korra analüüsitavas tekstis silbipaarile sisj. Järgnevusseose R(sisj, sk) väärtuseks on arv, mitu korda silp sk järgnes silbipaarile sisj. Uuritavas korpuses esines kokku 57092 erinevat silbipaari. Neist said analüüsi kaasatud 5000 kõige sagedamini esinevat silbipaari, mis koosnesid 500 enim esi- nenud silbist ja mis katsid ära 76 protsenti kogu analüüsitud tekstist. Toome ära fragmendi silbipaaride sagedustabelist (tabel 3), mis kajastab kümne enam esinenud silbipaari ning silbi vahelisi seoseid.

256 Tabel 3. Silbipaaride järgnevuse sagedustabel

tühik le ta se ja ma te da li si ja tühik 0 24 148 67 146 131 197 12 51 46 le tühik 0 16 158 64 392 120 116 0 58 28 se tühik 0 32 138 36 395 88 96 1 38 44 tühik ja 9930 0 0 0 0 17 0 3 0 0 tühik o 29 1653 0 0 14 2482 18 114 1854 2 tühik on 9849 0 2 0 000010 ga tühik 0 28 112 49 182 124 165 3 33 28 on tühik 0 11 126 55 20 73 146 0 29 18 da tühik 0 12 114 57 277 91 134 1 31 7 ma tühik 0 9 77 44 188 74 87 1 22 16

Silbikolmikute järgnevuse sagedustabel on seosmaatriks, mis näitab ära järgnevusseose ning selle tugevuse kolme järjestikuse silbi ehk silbikolmiku ning üksiku silbi vahel. Silbikolmikute sagedustabeliks on mxn-maatriks, mille ridadeks on silbikol- mikud ja veergudeks silbid vastavas järjestuses. Nii silbid kui ka silbikolmikud on järjestatud esinemissageduse järgi kahanevas järjekorras. Iga silp ja silbikolmik on kodeeritud oma järjekorranumbriga vastavalt 0..n-1 ja 0..m-1.

Olgu SK = {sisjsk} silbikolmikute hulk. Silbikolmiku sisjsk ja silbi sl vaheline järgnevusseos R(sisjsk, sl) = 0 siis, kui silp sl ei järgnenud mitte kordagi analüüsita- vas tekstis silbikolmikule sisjsk. Silbikolmiku sisjsk ja silbi sl vaheline järgnevusseos R(sisjsk, sl) > 0 siis, kui silp sl järgnes vähemalt ühe korra analüüsitavas tekstis silbikolmikule sisjsk. Järgnevusseose R(sisjskj,sl) väärtuseks on arv, mitu korda silp sl järgnes silbikolmikule sisjsk. Uuritavas korpuses esines kokku 257240 erinevat silbikolmikut. Neist said analüüsi kaasatud 10000 kõige sagedamini esinevat silbikolmikut, mis koosnesid 500 enim esinenud silbist ning mis kokku katsid ära 51 protsenti kogu analüüsitud tekstist. Toome ära fragmendi sagedustabelist, mis kajastab kümne enim esinenud silbikolmiku ja silbi vahelisi seoseid (tabel 4).

Tabel 4. Silbikolmikute järgnevuse sagedustabel

tühik le ta se ja ma te da li si tühik ja tühik 0 17 83 57 20 103 166 6 36 39 tühik on tühik 0 11 126 55 20 73 146 0 29 18 tühik et tühik 0 8 169 39 1 76 153 0 8 11 tühik ei tühik 0 4 158 3 7 15 24 0 3 7 tühik kui tühik 041152626757069 tühik ka tühik 0 2 19 17 3 21 39 2 6 11 tühik o ma 1935 8 0 2 3 3 0 10 0 0 tühik ta tühik 0 1 22 21 7 11 18 0 24 5 tühik ees ti 1893 30 0 0 0 6 0 0 1 0 tühik see tühik 02864419032

257 3.1. Eesti pseudokeele generaator

Eesti pseudokeele generaator on programm, mille abil saab genereerida eesti keelele sarnanevat keelt. Kuigi tegemist pole eesti keelega, on tema kõla vägagi sarnane eesti keelele. Eesti pseudokeele generaatori aluseks on silpidest koosnev statistiline keelemudel. Pseudokeele teksti genereeritakse silp-silbi haaval ning iga järgmise silbi genereerimisel arvestatakse maksimaalselt kolme viimati genereeritud silbiga. Võimalusel kasutatakse järgmise silbi genereerimiseks silbikolmikute järgnevuse sagedustabelit. Kui see pole võimalik, siis üritatakse kasutada silbipaaride järgne- vuse sagedustabelit ning kui ka see pole võimalik, siis kasutatakse silpide järgnevuse sagedustabelit. Järgmine silp valitakse välja juhuslikult statistilise tõenäosuse alusel. Kuna ka sõnavahe on defi neeritud silbina, millel on oma esinemise sagedus iga silbi ees ja järel, siis järgmise silbi juhuslikul valikul genereeritakse piisavalt ka sõnavahesid, mis tagab teksti liigendumise mõistliku pikkusega sõnadeks. Kuna muid teksti liigendamise märke (koma, punkt jms) mudelis ei ole, siis on genereeritud tekst lihtsalt sõnade jada ilma lauseteks liigendamiseta. Toome näite pseudokeele generaatoriga genereeritud tekstist (2). (2) ja tiiu vahel pakitunudki europarlamendi kevade asi medate inseni mitme positsioonist kui kasu mistada sellest arutamine on sul liiba pinnaga torma on hoopis venelased suureneb usa kinnisvarast seda istuda väga rusikapanu üle miljoni krooni esimest korda

3.2. Silpide kategoriseerimine

Genereerides teksti eesti pseudokeele generaatoriga võib juhtuda, et ühe sõna lõpusilbist alustatakse kohe järgmise sõnaga. Selleks, et taoliseid juhtumeid mini- meerida, oleks vaja natuke heuristilist teadmist selle kohta, millised silbid millistes sõnaosades esineda võivad. Sellest eesmärgist lähtuvalt üritamegi jagada silbid rühmadesse ning defi neerida, millal üks või teine silp sõnas ette tulla võib. Katsetusteks valisime juhuslikult 10 silpi sagedaima 50 hulgast: ti, va, ri, e, gi, la, di, sel, i, kui järjekorraindeksitega vastavalt 13, 17, 19, 21, 24, 26, 34, 38, 42, 46 (vt tabel 5).

Tabel 5. Juhuslikult valitud silbid kategooriate eksperimentaalseks leidmiseks

ti va ri e gi la di sel i kui ti 1394862420200 va 40 11 93 0 1 56 10 5 0 0 ri 285383352345702 e 31 11 708 0 7 554 1 0 0 0 gi 22272207737700 la 173 166 104 0 8 3 10 22 0 0 di 12405782234500 sel 000017010000 i 12720802000 kui 0130025400100 258 Defi neerime silbi kvantitatiivse parameetri (kvantp) kui vastava silbi rea summa jagatise vastava silbi veerusummaga:

(3) kvantpk = ∑j=0...n-1tkj / ∑i=0...n-1tik Defi neerime silpide seostusmaatriksi K:

(4) K = ||kij||, (kij = 1, tij > 0), (kij = 0, tij = 0) Defi neerime silbi kvalitatiivse parameetri (kvalp) kui seostusmaatriksi K vastava silbi rea summa jagatise vastava silbi veerusummaga:

(5) kvalpk = ∑j=0...n-1kkj / ∑i=0...n-1kik Sõnavahe ehk tühiku parameetri (tparam1) defi neerime kui vastavate silpide väär- tused tühiku reas jagatise vastavate silpide väärtustega tühiku veerus:

(6) tparamk = t0k / tk0 Arvutame näiteandmetele kirjeldatud parameerite väärtused (tabel 6).

Tabel 6. Kategoriseerimise parameetrite väärtused

silp kvanp kvalp tparam ti 0.258232 0.875 0.0283775 va 0.505855 0.777778 2.33881 ri 0.411464 1.125 0.070059 e 19.0145 1.5 6.7093 gi 0.314885 0.8 0.00749951 la 0.771429 0.875 0.403023 di 4.31429 1.14286 0.119798 sel 1.43697 0.285714 1.77266 i – – 21.9409 kui 134 3 1.19471

Tabelis 7 defi neerime järgmised silpide kategooriad.

Tabel 7. Silpide kategooriad

Lühend Nimetus Kirjeldus Esinevad ainult sõnade alguses, neile võib eelneda ainult sõna- VA välistav algussilp vahe. Sagedased sõnade alustajad, aga neile võib olla omistatud ka TA tugev algussilp muid kategooriaid. Võivad samuti esineda sõna alguses, aga neil on päris kindlasti NA nõrk algussilp veel omistatud ka muid kategooriaid. Sageli kuuluvad need silbid ka kesksilpide hulka. Esinevad sõna keskel, reeglina on nad ka veel kas alustajad ja/või KS kesksilbid lõpetajad. NL nõrk lõpusilp Lõpetajad, aga sageli võivad mängida ka kesksilbi rolli. Lõpetavad sageli sõnu. Peale neid võib tulla kas sõnavahe või TL tugev lõpusilp veel üks tugev lõpusilp. VL välistav lõpusilp Esinevad ainult sõna lõpus, neile võib järgneda ainult sõnavahe.

259 Selleks, et sõnu kvanp, kvalp ja tparam alusel kategooriatesse jagada, on vaja kind- laks määrata süsteemi parameetrite väärtused. Katseliselt defi neerime süsteemi parameetrid järgmiselt (6).

(6) kvanp parameetrid: a = 10 b = 1/a c = 2,5 d = 1/i kvalp parameetrid: e = 1,5 f = 1/c tparam parameetrid g = 5 h = 1/e i = 2 j = 1/g

Silpide kategooriad arvutatakse tabelis 8 esitatud reeglite abil.

Tabel 8. Kategooriate arvutamise reeglid

Kategooria Reeglid VA kvanp = _ TA (kvanp >= a JA kvalp > 1) VÕI (kvalp >= e JA kvanp > 1) VÕI tparam > g NA 1 < kvanp < a VÕI 1 < kvalp < e VÕI h < tparam < j VÕI tparam > 1 KS c < kvanp < d VÕI f < kvalp < e NL b < kvanp < 1 VÕI f < kvalp < 1 VÕI i < tparam < g TL (kvanp <= b JA kvalp < 1) VÕI (kvalp <= f JA kvanp < 1) VÕI tparam < h VL kvanp = 0

Katse tulemused on ära toodud tabelis 9.

Tabel 9. Silpide kategoriseerimise eksperimendi tulemused

Kategooria Silbid VA i TA e, i, kui NA va, ri, la, di, sel KS ti, va, ri, gi, la, di, sel NL va, la TL ti, ri, gi, di, sel VL

Katse tulemused on mõnevõrra moonutatud, sest parameetrite kvanp, kvalp ja tparam arvutamisel on arvestatud ainult katsesilpe sisaldavat fragmenti sagedus- tabelist. Seetõttu langeb näiteks silp ti ainult kesksilbi ja tugeva lõpusilbi kate- gooriasse, samas kui keeleline vaist nõuaks selle silbi paigutamist ka algussilbi kategooriasse.

260 4. Eesti keele allkeelte formaalse defineerimise vajadusest

Eesti rahvuskeel tekkis 19. sajandi teisel poolel ning tagab suhtlemisvõimaluse kõigil elualadel (EE). Keelt võib tükeldada õige mitmeti. Erialasest kallutusest tingituna vaatleksime lähemalt seda jaotust, kus kirjakeel loetakse koosnevana üldkeelest ja oskuskeeltest (T. Erelt 1982: 17, Kull 2000: 143). Eesti semiootilise mõtte suurmees Jakob Linzbach kirjutas 1916. aastal oma venekeelse raamatu “Filosoofi lise keele printsiibid. Täpse keeleteaduse kogemus.” 38. peatükile väga ilmeka pealkirja: “Keel ja teadus. Teaduse jagunemise paratama- tus. Paljukeelsuse õigustus.” Napilt seitsmel leheküljel annab J. Linzbach hiilgava ülevaate formaalselt kirjeldatud erikeelte tekke vajadusest keeruka maailma näh- tuste ja protsesside lõpmatu hulga eri külgede täpsel kirjeldamisel ning võimalikult mitmekülgsel ja selgel esitamisel. J. Linzbach näitab seejuures, et on vaja tervet formaalsete reeglite kohaselt toimivate märgisüsteemide (keelte) kogumit. Seega pole J. Linzbachi arvates lootagi mingi universaalkeele teket, vaid igal juhul on tegu paljukeelsusega. Eesti keele korpus koosneb faktiliselt mitmes allkeeles kirjutatud tekstidest. T. Hennoste ja K. Muischnek osundavad (2000), et baaskorpuse kategooriad on aja- kirjandus, religioosne kirjandus, hobid ja harrastused, populaarkirjandus, esseed ja biograafi ad, dokumendid, teadus, ilukirjandus, entsüklopeediad ja propaganda. Kerge on märgata, et nende kategooriate tekstikäsitlus ja sõnavara on vägagi erinev. Kõigepealt on ilmne, et põhisõnavara süvaossa kuuluvad sõnad (tuumsõnad) on nii Wierzbicka kui R. Langackeri mõttes primitiivid (Luuk 2008). Iga allkeel on tekkinud nende primitiivide baasil loomuliku evolutsiooni tulemusel ja on paraku nii J. Linzbachi mõttes kui kaasaegse ontoloogilise süsteemikirjelduse aspektist tegelikult siiani täpselt fi kseerimata. Tsiteerime siinkohal T. Hennostet: “Eesti keele allkeelte teaduslik süstemaati- line määratlemine on olnud väga juhuslik (vt mõned varased katsed Rätsep 1976; Pajusalu 1992). Praktiliselt on kasutatud mõnda mõistet (kirjakeel, ühiskeel, argikeel, kõnekeel, murre), kusjuures need on üsna uduselt defi neeritud ja prak- tilises kasutuses pigem intuitiivsed.” (Hennoste 2000: 9) T. Hennoste (2002: 231) väidab, et tema (Hennoste 2000) ja K. Kerge (2000) allkeelte süsteemide skeemid on tugevalt ja põhimõtteliselt erinevad. M. Erelt ja T. Hennoste avaldasid kogumikus “Tähendusepüüdja” paljuütleva pealkirjaga artikli “Vaja on veel üht eesti keele grammatikat” (M. Erelt, Hennoste 2002). Huvitavad on veel kogumikus “Tuumsõnade semantikast ja pragmaatikast” (R. Pajusalu jt 2004) avaldatud seisukohad, kus põhiliselt käsitletakse tuumsõna keskset, suhteid väljendavat osa, mida nimetatakse põhisõnavara operaatoriks. Niipalju siis juhtfi loloogide vaadetest eesti keele allkeeltele ja keelele endale. Allkeelte kui piiritletud süsteemide formaalsete täiskirjelduste – ontoloogiate loomine on ilmselt tuleviku probleem ning nõuab fi loloogide ja raallingvistide kõrval ka keeruliste infosüsteemide formaalkirjeldajate – ontoloogide otsest osa- võttu. Siinkohal piirduksime lihtsama, kuid siiski huvitava ülesandega. Kuidas mää- ratleda eesti üldkeele põhisõnavara, millega saab kõike soovitavat selgelt ja täpselt üles kirjutada ning välja ütelda? Praegusel hetkel oleme veendunud, et põhisõnavara koostamisel tuleb kiire (võib-olla ligikaudse) lahenduse saamiseks kasutada juba 261 olemasolevaid avalikke, üldkättesaadavaid sõnastikke, mis kindlasti peavad olema käideldavad digikujul. Kiire kõrvalpõige Keelevara koduleheküljele näitab, et praegu on üldnimekirjas kümme eesti keele sõnaraamatut.6 Kaks meile vajalikku põhisõnastikku, “Eesti kirjakeele seletussõnaraamat” (EKSS) ja “Võõrsõnastik” on Keelevara tasulises nn profi paketis andmebaasina käideldavad. Kuidas nende sõnastike abil üritada defi neerida eesti üldkeele põhi- sõnavara, laskumata võõrsõnadesse ja nendega sageli seonduvatesse oskuskeelte sõnadesse? Usaldame EKI sõnastikumeistreid ja valime üldkeele sõnavarasse mitte EKSS-i märksõnad, vaid nende kirjeldamiseks kasutatud semantiliste kirjelduste sõnavara. Arvuti abil ei ole selle töö tegemine kuigi raske. Ilmselt on tekkiv sõna- nimistu veel kõlbmatu, sest seal on vastavalt EKSS-i autorite subjektiivsusele sees ka võõrsõnu ja oskuskeelte sõnu. Esimese lähendina võiksime defi neerida eesti üldkeele põhisõnavara kui EKSS-i seletussõnad, millest elimineerime “Võõrsõnastiku” sõnad. Võõrsõnad on tavaliselt kas rahvusvahelised üldsõnad või väga sageli osutuvad mingi oskuskeele terminiteks. Oluline on seejuures veel asjaolu, et sageli on erinevates oskuskeeltes (metakeeltes) ühe ja sama sõna tähendus erineva semantikaga. Toome siinkohal triviaalse näite sõnaga programm. EE osundab kava, eeskava, saatekava, tegevus-, toimimis- või juhtkava, õppekava, eeskiri, algoritm. Kerge on endale ette kujutada, kuidas erinevatel elualadel on mängus selle sõna erinevad semantikad. (Muide, siit saaks omaette huvitava uuriva artikli EKSS-i toimetajate uskumustest selgitavate ja kõigile eelduslikult üldarusaadavate sõnade valiku osas.) Umbes selline võiks siis olla üldkeele eestikeelne põhisõnavara. Nüüd saame püstitada uue probleemi. Milline peaks olema järgmine kõrgem keeleline tavatase, mis enamikku eestlasi rahuldaks ja annaks piisava stiililise mitmekesisuse esitusliku ja grammatilise lihtsuse juures? See ühiskeel võiks olla midagi soomlaste selkokieli (klaarkeel?!) ja inglaste Plain English-i mõtteviisi ja tasemega määratut. Inglise keele valdajatele võib samal teemal soovitada lugeda Arvi Parbo mõnusa eessõnaga varustatud ja otseselt eesti lugejale mõeldud Michael Haagenseni raamatut “Writing in Plain English” (2007). Mida meil on eesti keele kohta taoliselt üldloetavalt vastu panna? Tingimisi ehk Martin Ehala ja Tiina Veismanni 2001. a ilmunud raamat “Noor keelekasutaja”. Tõsisem koondlugu, mis oleks lihtne, põnev ja õhuke, on aga ikka kirjutamata. Üldkeele sõnavaraline tase oleks määratud varem koostatud põhisõnavaraga, millele lisanduksid ühiskeelele omased ühesed võõrsõnad või laensõnad. Need looksid keskse tuuma ümber hägusa sõnapilve. Mis sellest kasu on? Eesti lastele on see vajalik muu maailmaga lõimumiseks. Paar aastat tagasi tegi L. Võhandu arvutused, mis näitasid, et meie õpilane peab kogu kooliskäi- mise jooksul iga päev omandama keskmiselt 15 talle võõrast mõistet, võõrsõna ja võõrkeelset sõna. Kõik need sõnad vajavad memoreerimist, kordamist (efektiivne võõrkeeleõpe väidab, et uut sõna saab vabalt kasutada alles pärast 50-kordset kordamist). On päris ilmne, et selline omandamiskoormus on üpris suur. Võõra- maalastele, kes eesti keelt õpivad, on see hägus sõnavaraline lisakiht vastupidiselt suhteliselt kergesti õpitav, sest mõisted on juba tuttavad. Nende õppekiirus kasvaks kindlasti märgatavalt.

262 6 Vt http://www.keelevara.ee/teosed/ (28.12.2008). Alles sellise fi loloogide ja pedagoogide poolt hoolikalt läbi vaadatud ja heaks kiidetud üheselt määratud põhisõnavara abil saaks hakata oskuskeelte sõnavarasid korrektsemalt koostama, uurima ja ühestama. Mitmes oskuskeele komisjonis osa- lenuna võin7 täie tõsidusega väita, et semantiline ühestamine pole sugugi triviaalne probleem.

5. Kokkuvõte

Kuigi silpidest koosneva statistiline keelemudeli loomine ning eesti keele tükelda- mine allkeelteks tunduvad esmapilgul olevat täiesti erinevad uurimisvaldkonnad, siis on neil ka oluline ühisosa. Mõlema ülesande sisuks on keele tükeldamine mingil viisil: esimesel juhul tükeldamine silpideks eesmärgiga uurida silpide järgnevusi ning koostada nendel järgnevustel baseeruv keelemudel, teisel juhul tükeldamine allkeel- teks eesmärgiga defi neerida n-ö põhisõnavara ning erinevad oskussõnavarad. Artiklis kirjeldasime silpidest koosnevad statistilise keelemudeli koostamist. Mudelisse sai kaasatud 500 sagedamini esinenud silpi, mis kattis 85% kogu kor- pusest. Varem oleme loonud sarnase mudeli ka 1000 silbi baasil, mis protsentuaal- selt ei andnud olulist efekti. Mudeli hetkel oli silpide arvu piiravaks teguriks selle koostamiseks kasutatud arvutiprogrammi suur ressursitarve. Tulevikus on plaanis katsetada sellise mudeli loomist, mis sisaldaks peagu kõiki korpuses esinenud silpe, jättes välja ehk ainult need silbid, mis esinesid seal vaid ühe korra. Hinnanguliselt peaks selles mudelis silpide arv jääma 5000 ja 7000 vahele. Kirjeldatud mudel on kolmetasandiline koosnedes silpide, silbipaaride ja silbikolmikute järgnevuse sagedustabelitest. On selge, et mida rohkem tasandeid mudelis on, seda täpsem ja adekvaatsem ta on. Artiklis kirjeldatakse eesti pseu- dokeele generaatorit, mis baseerub sellel kolmetasandilisel mudelil. Töö käigus sai pseudokeele generaatorit kasutatud muuhulgas ka selleks, et hinnata mudeli tasandite hulga piisavust. Ühetasandilist mudelit (silpide järgnevusi) kasutava pseudokeele generaatori väljund ei sarnanenud veel kuigivõrd eesti keelele, pigem oli tegemist üksteisele järgnevate silbijadadega, mis mõistlikke eestikeelseid sõnu ei moodustanud. Kahetasandilist mudelit kasutava pseudokeele generaatori väljund hakkas juba rohkem sarnanema eesti keelele, kuid ei tundunud siiski veel piisa- valt hea. Antud hinnangud on loomulikult subjektiivsed, kuid kolmetasandilisele mudelile baseeruva generaatori väljund tundus piisavalt hea, et sellise tasandite arvuga piirduda. Edaspidi on kavas moodustada sarnane keelemudel ka kasutades (pseudo)morfeeme ning loodame, et just eesti pseudokeele generaatori väljund aitab hinnata, millisteks algosakesteks on taolise mudeli loomise puhul mõistlikum eesti keelt tükeldada. Silpide kategooriatesse jagamisel oli hüpoteesiks, et eristuvad mingid konk- reetsed silpide hulgad, mis esinevad sõnades ainult teatud positsioonil. Kuna selle ülesande lahendamisel aluseks olnud andmetabel (silpide järgnevuse sagedustabel) on oma mõõtmetelt liiga suur, et visuaalse vaatluse abil mingisuguseid järeldusi teha silpide grupeeruvuse kohta, siis tuletasime lihtsad valemid, mis, rakendatuna sagedustabelile, annavad hinnangu, millises positsioonis võib iga silp sõnades esineda. Selles artiklis on esitatud vaid väikese hulga silpide kategooriatesse jaota- mine algoritmi näitlikustamiseks. Kõigi 500 silbi kategoriseerimise tulemused on

263 7 Leo Võhandu (toimetaja märkus). K. Sirtsu magistritöös (2008). Selgus, et vaid väike hulk eesti keeles esinevaid silpe on sellised, mis esinevad sõnades mingil kindlal positsioonil (kas ainult alguses või ainult lõpus). Enamik silpe on paraku universaalsed, mis võivad esineda erinevates sõnades erinevatel positsioonidel. Seega oleks tulevikus tarvis uurida muid algo- ritme, kuidas silpe väiksematesse ja hoomatavamatesse rühmadesse grupeerida ning muid tunnuseid, mille alusel seda teha. Viimases alajaotuses arendatakse sissejuhatuses tehtud tähelepanekut, et eesti keele jaoks mingit standardselt esinduslikku keelekorpust ei eksisteerigi. Kõigepealt viidatakse peagu sajandivanustele J. Linzbachi mõtetele formaalsete reeglite kohaselt toimivate keelte terve kogumi kohta. Igal juhul on meil tegu sisulise paljukeelsusega. Teades, et võrguvarana on olemas mitmeid eesti keele sõnastikke, pakutakse välja üks suhteliselt lihtne tee eesti ühiskeele põhisõnavara eraldamiseks ja korrektseks korrastamiseks. Loodud baasile saab mitmeti ehitada konkreetsete allkeelte erisõnastikke.

Viidatud kirjandus Ehala, Martin; Veismann, Tiina 2001. Noor keelekasutaja. Tallinn: Künnimees OÜ. Erelt, Mati; Hennoste, Tiit 2002. Vaja on veel üht eesti keele grammatikat. – Renate Pajusalu, Tiit Hennoste (toim.). Tähendusepüüdja. Pühendusteos professor Haldur Õimu 60. sünnipäevaks 22. jaanuaril 2002. Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 3. Tartu: TÜ Kirjastus, 126–131. Erelt, Tiiu 1982. Eesti oskuskeel. Tallinn: Valgus. Haagensen, Michael 2007. Writing in Plain English. Tallinn: Koolibri. Hennoste, Tiit 2000. Allkeeled. – Hennoste, Tiit (toim.). Eesti keele allkeeled. Tartu Ülikooli eesti keele õppetooli toimetised 16. Tartu: TÜ Kirjastus, 9–56. Hennoste, Tiit 2002. Keelekasutuse uurimine. – Emakeele Seltsi aastaraamat, 48 (2001), 217–262. Hennoste, Tiit; Muischnek, Kadri 2000. Eesti kirjakeele korpuse tekstide valiku ja mär- gendamise põhimõtted ning kahe allkeele võrdluse katse. – Tiit Hennoste (toim.). Arvutuslingvistikalt inimesele. Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 1. Tartu: TÜ Kirjastus, 183–217. Kerge, Krista 2000. Kirjakeel ja igapäevakeel. – Tiit Hennoste (toim.). Eesti keele allkeeled. Tartu Ülikooli eesti keele õppetooli toimetised 16. Tartu: TÜ Kirjastus, 75–110. Kull, Rein 2000. Kirjakeel, oskuskeel, üldkeel. Tallinn: Eesti Keele Sihtasutus. Linzbach, Jacob 1916. Printsipõ filosofskago jazõka. Opõt totšnago jazõkoznanija. Petrograd. Luuk, Erkki 2008. Semantilised tasandid ja semantilised primitiivid. – Keel ja Kirjandus, 12, 949–967. Pajusalu, Renate; Tragel, Ilona; Veismann, Ann; Vija, Maigi 2004. Tuumsõnade semantikat ja pragmaatikat. Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 5. Tartu: Tartu Ülikooli kirjastus. Sirts, Kairit 2008. Eesti keele silbisüsteemi uurimine J-keele vahenditega. Magistritöö. Tallinn: Tallinna Tehnikaülikool. Võhandu, Leo; Sirts, Kairit; Aab, Eiki 2008. Eesti silbisüsteemi struktuurist. – Eesti Rakendus- lingvistika Ühingu aastaraamat, 4, 263–269.

264 Kaudviited Pajusalu, Karl 1992. Regional and Social Varieties of Estonian. – Ural-Altaische Jahrbücher. Ural-Altaic Yearbook, 64, 23–34. Rätsep, Huno 1976. Lindu tuntakse laulust, inimest keelest. – Keel, mida me harime. Tallinn: Valgus, 116–120.

Võrgumaterjalid Eesti keele korpused. http://www.cl.ut.ee/korpused/index.php?lang=et (28.12.2008). Eesti Kirjakeele Korpus 1890-1990. http://www.cl.ut.ee/korpused/baaskorpus/ (28.12.2008). Ajakirjandustekstid 1999. http://www.cl.ut.ee/korpused/baaskorpus/txt/1999aja_txt_elan. zip (28.12.2008). EKI silbitamise tarkvara. http://www.eki.ee/tarkvara/silbitus/ (29.12.2008). J programmeerimiskeel. http://www.jsoftware.com/ (28.12.2008). Elektroonilised eesti keele sõnaraamatud. http://www.keelevara.ee/teosed/ (29.12.2008).

Kairit Sirts (Tallinna Tehnikaülikool). Uurimisteemaks on statistiline keelemudel ja selle rakendused. [email protected]

Leo Võhandu (Tallinna Tehnikaülikool) uurimisvaldkonnad on andmeanalüüs, keerukate andmekogu- mite peidetud struktuuri avamine, graafi teooria. [email protected]

265 CUTTING THE TEXT CORPORA: APPLICATIONS WITH SYLLABLES AND SUB-LANGUAGES

Kairit Sirts, Leo Võhandu Tallinn University of Technology

In this paper we study different aspects of language by using different cuts of lan- guage corpora. There are two particular cuts under observation, which are very different by their nature: mincing the text into syllables for developing a statistical language model and dividing the language into sub-languages for identifying the base vocabulary. Our syllable based statistical language model includes the 500 most frequently observed syllables. It is a three-level model consisting of frequency tables for syllables, syllable pairs and syllable triplets. A frequency table is a matrix with syllables, syllable pairs or syllable triplets in rows and syllables in columns. The numbers in matrix cells show how many times the syllable in the column happened to follow the element in the row. The Estonian pseudo language generator is an application of the syllable based statistical language model. Using the Estonian pseudo language generator it is pos- sible to generate a text which is not fully Estonian, but defi nitely sounds like one. The purpose of categorizing syllables is to assort the syllables according to their possible locations in a word. We propose an algorithm for automatic syllable grouping using the data in the syllable frequency table. We show experimentally how syllables are grouped into word-initial, word-internal and word-fi nal syllables. Language can be divided into general language using a base vocabulary and different sub-languages, which contain particular terminology. In this paper we discuss the defi nition of general language. We also propose an automatic algorithm for defi ning its base vocabulary.

Keywords: computational linguistics, syllabifi cation, syllable association, graph representation, language model, syllable grouping, general language, sub-languages, Estonian

266 KOMMUNIKATIIVSE SITUATSIOONI DÜNAAMILINE DIMENSIOON

Silvi Tenjes, Ingrid Rummo, Kristiina Praakli

Ülevaade. Artiklis käsitletakse inimese suhtluse uurimist reaalses situatsioonis ning esitatakse multimodaalse suhtluse analüüs, milles

näidatakse, kuidas suuline keel ehk kõnekeel üksi ei suuda kommu- 5, 267–285 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT nikatiivset tähendust esitada. Kommunikatiivsesse situatsiooni kui sotsiaalsesse tegevusse kuuluvad peale suhtlejate kõnekeele ka pilk, käeliigutus ning situatsioon tervikuna. Analüüs toob esile olulised inimese suhtlusmodaalsused. Artiklis võrreldakse peamiselt sotsioloogide poolt läbiviidud uurin- guid, mida nimetatakse konversatsioonianalüüsiks ehk vestlusanalüü- siks, ning lingvistide käsitletud diskursusuuringuid. Kui vestlusanalüüs on uurimismeetod, mis lubab suhtlus- ja käitumissituatsioone analüü- sida, siis diskursusanalüüsi võib käsitleda uurimisvaldkonnana. Suhtlussituatsioonis me kasutame oma erinevaid suhtlusvõimeid. Käežestid on oluliseks faktoriks tähenduste ja kavatsuste edasiandmi- sel, nendel peatutakse artiklis suhtlussituatsiooni tähenduse loomise temaatika juures. Defi neeritakse multimodaalne suhtlemine, esita- takse videoainestike eelised materjalide kogumisel ja analüüsimisel. Analüüsitakse Patau sündroomiga tütarlapse erinevate modaalsustega suhtlust, seejuures tõdevad autorid, et suhtluse osapoolte koostööga ja multimodaalsete komponentide arvessevõtmisega kujuneb parem mõistmine suhtlussituatsioonis.* Võtmesõnad: vestlusanalüüs, diskursusanalüüs, suhtlus, mittesõna- line keel, kognitsioon, kõnekahjustused, Patau sündroom

267 * Artikkel on valminud Eesti Teadusfondi grandi nr 8008 osalisel toel. Täname prof Helle Metslangi väärtuslike kommentaaride eest artikli varasemas versioonis. Sissejuhatus

Artiklis antakse ülevaade valdkonnast, mis on sotsiaal- ja humanitaarteaduste toimiva ühisosana saanud 21. sajandil oluliseks uurimisalaks: inimese suhtluse uurimisest reaalses situatsioonis, kirjeldades sealhulgas tema keelekasutust mul- timodaalses võtmes koos ümbritsevate ja käsitsetavate vahenditega. Keeleteaduses käsitletakse inimese keelekasutust rõhuasetusega keelesisestel faktoritel: analüüsitakse suhtlejate kõnekeelt keeletasandite raamistuses semantika ja/või pragmaatika aspekte kaasates või ka sotsiolingvistilisi meetodeid rakendades. Keeleteaduse kui teadusdistsipliini sünnist alates 19. sajandil on suurim rõhu- asetus olnud tekstide uurimisel ja analüüsil. Keele uurimine tema kasutuses on olnud küllaltki lühiajaline, jäädes peaasjalikult 20. sajandi teise poolde. Erinevate teoreetiliste aluste (Saussure, Peirce jt) ja sotsiaalmajanduslike põhjuste (II maail- masõda ja kodeeritud sõnumite dekodeerimine formaallingvistiliste meetoditega) tõttu oli 20. sajandi keeleteadus läbivalt ideaalkeele kategooriatega (Chomsky) ning strukturaal- ja formaallingvistiliste eelistustega valdkond. Peavoolust kõrva- letõrjutud muude keeleteaduse alldistsipliinide kõrval (morfoloogia, semantika, funktsionaalne keeleteadus) polnud ruumi ka inimesel – keele kasutajal reaalses sotsiaalses kontekstis. Kommunikatiivsesse situatsiooni kui sotsiaalsesse tegevusse (Heath, Hind- marsh 2002) kuuluvad peale suhtlejate kõnekeele ka nende kehaliigutused – pilk ja käeliigutus (vt nt Kendon 1986, 1995, 2004, McNeill 1992, Streeck 1988, Streeck, Knapp 1992). Kommunikatiivse tähenduse seisukohalt on oluline situatsioon ter- vikuna (Schegloff 1984, Goodwin 1986, 2003, 2007). Keele mõiste pole siin enam kõnekeele ja tekstides leiduva kirjakeele tähenduses. Meie töödefi nitsioon keele ja keeleuuringute jaoks on järgmine: keel on inimese kõne, käeliigutus, näo- ilme ja kehaliigutus üheskoos, ning ka kirjakeel. Keeleuuringud tähendavad inimese tähenduse loomise ja edastamise viiside uuringuid reaalses situatsioonis või tekstide vahendusel. Suhtluslikkus ja kehaline kogemus on inimesele olnud tähtsad kogu mõtesta- tud inimeksistentsi kestel. Meid ümbritsevat ruumi õpib inimene läbi liigutuste. Korduvad liikumismustrid leiavad kehastununa koha inimese taju andmetes. Taju, mälu ja keel moodustavad osa inimese kognitsioonist. Juhtivaid mälu-uurijaid Endel Tulving on öelnud, et mälu detailsus on seotud kehalise liigutusega. See, mis eristab inimest kogu ülejäänud loomariigist, on E. Tulvingu järgi meie auto- biograafi line mälu (Allik, Tulving 2003). Keele, taju ja mälu seosed tulevad esile näiteks liigutuse kaudu. Inimese maailmakäsitus, maailmapilt, kujuneb konkreetses sotsiokultuu- ris. Inimese eneseteadvus avaldub nt tema aja- ja ruumikäsituses, suhtumises õigusesse ja vabadusse, töösse, omandisse, rikkusesse ja vaesusesse, suhtumises surma ja religiooni. Aeg ja ruum on maailma eksistentsi määravad parameetrid ja inimliku kogemuse põhivormid. Seega on inimese teadvuse määravad kategooriad väljendatud selliste mõistete kaudu nagu aeg, ruum, muutumine, põhjus, saatus, arv, osa ja terviku suhe (Gurevitš 1992). Need universaalsed mõisted on igas kul- tuuris omavahel seotud ja moodustavad koos omamoodi maailmamudeli – see on võrgustik, mille vahendusel inimesed tajuvad tegelikkust ja ehitavad maailmapildi oma teadvuses. Seega juhindub inimene oma teadvuses ja tegevuses ühtedest või teistest maailmapildi põhikategooriatest. Nende tõlgendamisest sõltub palju tema 268 enese, teda ümbritsevate sotsiaalsete gruppide ja kogu ühiskonna käitumises. Need kategooriad on kätketud keelde, aga samuti teistesse märgisüsteemidesse (kunsti, teaduse, religiooni keeltesse) ja mõelda maailmast nende kategooriateta on niisama võimatu nagu mõelda väljaspool keele kategooriaid. Keelekasutus uurimisvaldkonnana moodustab tänapäeval osa interdistsip- linaarsetest uuringutest, kuhu kuuluvad vestlusanalüüs (ingl conversational analysis), diskursusanalüüs (discourse analysis), mitmekeelsuseuuringud, teise keele omandamine, antropoloogia, mikrosotsioloogia jm. Interdistsiplinaarsus on ühelt poolt avanud uued tahud keelekasutuse uurimises, kuid teisalt on keeleuuri- mise võimalused ise avardunud tänu lõimumisele teiste distsipliinidega ning uute tehnoloogiate arendamisele ning rakendamisele.

Keelekasutus suhtluses

Normaalne keelekasutus käitumiskompleksi osana sisaldab nii verbaalse kui mitteverbaalse1 aspekti. Teise maailmasõja järgseid verbaalse kommunikatsiooni uuringuid mõjutasid tugevasti Noam Chomsky seisukohad keelest. Teadmisel, et keelekasutaja on võimeline esitama lõpmatu hulga tähenduslikke lauseid, oli suur mõju verbaalse käitumise analüüsile, kuid see suurendas distantsi verbaalse ja mitteverbaalse kommunikatsiooni uuringute vahel. Nüüdseks on juba ammu leitud, et nii verbaalne kui ka mitteverbaalne kommunikatsioon on suhtlusprotsessid, milles saatja edastab infot, mis kodeeritakse märkidesse või teadetesse erinevates kanalites vastuvõtja jaoks, kes dekodeerib märgid infoks. Kuigi teateid ei edastata ei ainult verbaalselt ega ainult neljasilmavestlustes, on terminid kõneleja ja kuulaja kasutusel sünonüümselt terminitega saatja ja vastuvõtja. Lähtudes üldiselt tunnustatud inimkäitumise uuringutest, võib kommunikat- sioonis eristada kolme liiki infot: info kognitiivsuse kohta, motivatsiooniline info ja kõneleja tundmuslikud seisundid (Fiske 1990). Üldiselt on kognitiivne seisund see, mida kõneleja parajasti mõtleb; motivatsiooniline seisund vastab eesmär- kidele, mida kõneleja tahab saavutada – see, mida ta kavatseb; ja tundmuslik seisund vastab tema tundmuste füsioloogilisele astmele. Seisundid muutuvad pidevalt ja on üksteisest sõltuvad. Kognitiivsed seisundid võivad näiteks tekitada tundmuslikke seisundeid ja vastupidi. Kognitiivsete seisundite uurimine viib ka küsimuse juurde, kuidas meie teadmised maailmast on esindatud mälus ja kuidas me nende teadmistega suhtleme keele kaudu. Motivatsioonili- sed ja tundmuslikud seisundid võivad olla aluseks meie mõnele ideele või mõttele. Kanalid, milles info kodeeritakse inimestevahelises suhtluses, on vastavuses ini- meste meeleorganitega. Käitumine või signaalid on vaid märgid niivõrd, kuivõrd nad kannavad infot kõnelejalt kuulajale.

1 Siinjuures oleks sobiv märkida, et tänaseks ei seo uurijad žeste enam mitteverbaalse kommunikatsiooni mõis- tega. Adam Kendon on sellekohase märkuse teinud S. Tenjesele tema doktoridissertatsiooni arvustuses (Kendon 2001: 1). Ka David McNeill ütleb: “Sagedasem viga on võrdsustada žeste mitteverbaalse kommunikatsiooniga. Žesti üks tähendus on tõesti mitteverbaalne, s.t žesti esitatakse kätega, käsivartega, peaga, jalgadega ja isegi kogu 269 kehaga ning mitte kõne jaoks spetsialiseerunud artikulatoorse aparaadiga. Siiski kasutatakse terminit mitteverbaalne kommunikatsioon tavaliselt .. tähenduses .. kui semioosise kolm nurka: regulatsioon, representatsioon, ekspressioon .. Seega, traditsioonilises tähenduses ei ole žest mitteverbaalne kommunikatsioon. Žest on keele osa, s.t verbaalse kommunikatsiooni osa.” (McNeill 1999: 5) Meetodi järjepidevuse hoidjad

Indiviidide ja gruppide vaheliste tegevuste, reaktsioonide ja käitumise uuringute aluseks on lihtne fakt, et kõnelemine on sotsiaalne tegevus. Üks esimesi, kes inimese käitumise uurimise meetodeid kombineeris, oli Poolas sündinud briti ant- ropoloog Bronislaw Malinowski (1884–1942). Oma uurimistööde käigus märkas ta, et oluline oli mitte ainult küsitleda uuritavaid, vaid ka kuulata ja vaadata, kuidas nad omavahel igapäevaselt suhtlevad. B. Malinowskilt pärinevad kaks keele etnograafi lise teooria põhimõistet: 1) situatsioonikontekst (ingl context of situation) ja 2) vaade keelele kui tegevusviisile (language as a mode of action) (Duranti 1999: 215). B. Malinowski märkas ka üsna ruttu, et ütluste sõnasõnaline tõlge või keeleväljendite otsene tõlge ei aita uurijal konkreetsest keelekõnelejast aru saada – vaja on mõista situatsiooni, milles neid sõnu kasutati. Nii pakkuski ta välja situatsioonikon- teksti mõiste. Mõiste töötati välja keeleuurimiseks, kuid ei sobinud surnud keelte (nt ladina või sanskriti) jaoks. Nii aga saigi alguse keele etnograafi line teooria. Kirjutades oma teose “Coral Gardens and Their Magic” (“Korallaiad ja nende maa- gia”) teist osa (1935), jõudis B. Malinowski (1978 [1935]: 7) järeldusele, et keele peamine funktsioon pole mitte mõtte väljendamine ega mentaalsete protsesside dubleerimine, vaid keele roll on pigem olla aktiivne pragmaatiline osa inimese käi- tumises. 21. sajandil võime öelda, et need ideed on leidnud oma interdistsiplinaarse pinnase Euroopas (nt Levinson 1983) ning isegi Malinowski verbaalse akti mõiste (1978 [1935]: 9) on mõjutanud John Austini kõneakti tulekut. Ka George Herbert Mead on andnud panuse vestlusanalüüsi alustesse. Temalt pärineb sümbolilise interaktsionismi mõiste, mille järgi inimeste isesus (ingl self) on sotsiaalne produkt (Blumer 1969). Ideed arendasid edasi tema õpilased Herbert Blumer jt. Otseselt on mõistega seotud sotsiaalne interaktsionism (Mead 1934, 1938). Vestlejad on sotsiaalse ühenduse (ingl community) liikmed, kes jagavad selle ühenduse reegleid ja kokkuleppeid. See võimaldab neil vestlustest osa võtta. Kõnelejad ja kuulajad peavad vestluse käigus pidevalt aimama üksteise reaktsioone ja kavatsusi ning oma käitumist vastavalt modifi tseerima. See on võimalik, kuna interlokuutorid ehk vestluse osapooled teavad, et nad mõlemad on konkreetse sotsiaalse ühenduse liikmed, jagades selle ühenduse sotsiaalsete ins- titutsioonide reegleid. Üks selline sotsiaalne institutsioon on õigussüsteem, teine on keel. Vestluse osapooled teavad keelereegleid ning nende kasutust. See annab kõnelejatele ja kuulajatele võimaluse aimata üksteise eesmärke, oletada üksteise reaktsioone ning järjestada neid, et teha panus koostööle. Kõnelejad ja kuulajad arvestavad üksteisega kui nn üldistatud teisega (Mead 1934, 1938), nii et nad võivad aimata üksteise reaktsioone ja ära tunda üksteise intentsioone. Seeläbi on võimalik nendevaheline kommunikatsioon. Näiteks kõneleja ütleb: “Mul on janu.” Kuulaja, kasutades keelereegleid ja teadmisi keelekasutusest ning teades, et mõlemad neid mõistavad, võib omistada kõnelejale kindlaid intentsioone. Kuulaja võib eelneva lausungi puhul omistada kõnelejale intentsiooni, et too soovib kuulajale selgeks teha oma joogisoovi. Veelgi enam – kindlas kontekstis ja situatsioonis (nt jalutades mööda kohvikust) ning keelereeglitest, mis on mõlemale teada, võib kuulaja eelnevast lausest teha järelduse, et kõneleja soovib peatuda ja pisut juua. Käsitlusest on tänapäeval välja kasvanud laialt kasutatav mõiste ühiselt jagatud teadmised, mis põhineb Herbert Clarki koostööprotsessi mudelil, kus informatsioon jagatakse interaktantide vahel, kes 270 mõjutavad üksteist, omades ühist alust (ingl common ground) või ühiseid teadmisi ja uskumusi (Clark 1992). 1960. aastate nn kognitiivse revolutsiooni ajal tundus B. Malinowski tugevalt biheivioristlik suund lausa anakronistlik: oli peen rääkida mind’ist kui arvutist jms. Selle vooluga ei läinud kaasa need, kes uurisid kehaliigutusi. Sest kui keha funktsioon ja kõnelemise koht suhtluse ajal on oluline keeleliste praktikate jaoks, on järelikult oluline ka keeleline käitumine situatsioonis. Üks tuntumaid selle suuna esindajaid on Charles Goodwin (1981 jm), samuti ka Adam Kendon, David McNeill jt. Tuleb märkida, et kõik nad uurivad käežeste, kuid C. Goodwin suundus vestlusanalüüsi meetodeid kasutades situatsioonide analüüsi juurde, A. Kendon ja D. McNeill on olnud – kuigi erinevalt – kõne ja žesti seoste uurijad. Kuigi J. Austin oli loonud süstemaatilise teooria keelest kui tegevusest (Austin 1962), eitas lingvistika vestluse uurimist pikka aega. Lingvistide jaoks oli konver- satsioon liiga segane asi (ingl too messy, Duranti 1999: 245), täis valesid algusi, ebakorrektset grammatikat, mis ei andnud neile võimalust grammatikat sobival viisil analüüsida. Seda, et analüüs võiks minna väljapoole grammatikat, ei peetud lingvistikale sobivaks. Liigutuste uurimine ja välitööde tegemine on alati olnud peamiselt antropoloogide valdkond. Kuigi konversatsioonilised muutused olid alati olnud olulisteks informatsioo- niallikateks igaühele, keda huvitasid kultuurilised praktikad ja sotsiaalne organi- satsioon, ei saanud konversatsioon per se uurimisobjektiks enne 1970ndaid. See toimus tänu väikesele sotsioloogide grupile eesotsas Harvey Sacksi ja Emanuel Schegloffi ga, kes keskendusid konversatsioonilistele muutustele. Oma programmi nimetasid nad vestlusanalüüsiks (ingl conversation analysis), et rõhutada fakti, kuidas vestlus võib olla sotsioloogilistes uuringutes tõeline uurimisvaldkond. Nende jõupingutuste tõttu said konversatsioonianalüüsi uuringud olulisteks nendele, keda huvitas keele kasutamine sotsiaalses interaktsioonis. Vestlusanalüüs on teatava kaarega lingvistikas jõuliselt edasi liikunud. Kaare all mõtleme seda, et vestlusanalüüs on tulnud sotsioloogide juurest tagasi keele- teadlaste juurde, kellel on huvi samade probleemide vastu, kuid samas soov rohkem arvestada keeleliste aspektidega. 21. sajandi alguses võime öelda, et vestlusanalüüs on meetod, mis lubab suhtlus- ja käitumissituatsioone analüüsida ning seda meetodit saab kasutada diskursusuuringutes.

Vestlusanalüüs ja diskursusanalüüs

Uuringutes keele kasutamisest vestluses on võimalik leida kaks erinevat suunda. Need on omavahel seotud eri distsipliinide kaudu, mis neid uurimusi on suunanud. Esimene distsipliin, milles vestlusi uuritakse, on sotsioloogia, ja konkreet- selt just see sotsioloogiaharu, mis tegeleb sotsiaalse interaktsiooniga sotsiaalse ühenduse üksikute liikmete vahel. Olulise panuse sotsioloogilistesse uuringutesse tavavestluses on andnud uurijad, kes kuuluvad etnometodoloogia koolkonda. Tuntumad esindajad on siin Harold Garfi nkel, Harvey Sacks, Emanuel A. Scheg- loff, Gail Jefferson ja John Heritage. Etnometodoloogid on huvitatud implitsiit- setest teadmistest, meetoditest ja protseduuridest, mida sotsiaalse ühenduse liikmed kasutavad ja mille kaudu suhtluses osalejad määravad, interpreteerivad 271 ja edastavad tähendusi oma igapäevases tegelikkuses. Etnometodoloogide jaoks on olulised sotsiaalsed tegevused, esmased valdkonnad, milles luuakse vestlejate sotsiaalne maailm. Etnometodoloogid loodavad vestlusi uurides avastada märke toimimisviisidest, mida osapooled oma sotsiaalseteks interaktsioonideks kasutavad, ja viise, milles suhtlejad omavahel määratlevad sotsiaalset situatsiooni vestluses. (van Rees 1992: 19) H. Garfi nkel leidis, et sotsiaalsete nähtuste uurimine kaasamata inimese keelekasutust on kasutu. Ta lülitas vestlusanalüüsi meetodi uuringutesse inimese ja sootsiumi vahekorra küsimuste lahendamisel ning hakkas California ülikoolis lugema vestlusanalüüsi kursust. Tänastes sotsioloogiauuringutes on see meetod kindlalt juurdunud.2 Vestlusanalüüs on üheks meetodiks, kuid uurimisobjektiks on inimene, kes reaalses situatsioonis käitub, sealjuures suhtleb nii kõne- kui käe- liigutuste kaudu ning näoilmetega, kogu kehaga. Inimene suhtlebki kompleksselt – edastab tähendusi erinevate kanalite/modaalsuste kaudu. Teine distsipliin tavavestluse uurimiseks on lingvistika alldistsipliin sotsio- lingvistika. Selle teadusharu olulisemad esindajad on nt William Labov, Malcolm Coulthard, John McH. Sinclair ja William Edmondson. Sotsiolingvistid on alati olnud huvitatud tavalisest, igapäevasest keelekasutusest, kuid alles 20. sajandi lõpupoole hakkasid nad huvi tundma rohkem keele variatiivsuse vastu sotsiaalsete makrovariaabluste raames. Variatiivsusi esindavad sugu, etniline taust, klassi- kuuluvus ja vanus. Samuti on sotsiolingviste 20. sajandi lõpul hakanud huvitama konversatsioonitemaatika. Konkreetselt on vestluste sotsiolingvistilised uuringud keskendunud seostele keele lausungite vormi ja funktsiooni vahel ning viisidele, kuidas lausungeid vestlustes kombineeritakse. Selliseid uuringuid, mida viivad läbi sotsioloogid, nimetatakse sageli kon- versatsioonianalüüsiks; uuringuid, mille eesotsas on peamiselt lingvistid ja sotsiolingvistid, nimetatakse diskursusanalüüsiks. Need kaks uurimissuunda erinevad nii oma eesmärgilt kui meetodilt. Konversatsiooniuurijad peavad oma eesmärgiks anda interaktsiooniliste protseduuride kirjeldus, mida vestluse osapooled kasutavad, kui nad moodus- tavad ja interpreteerivad kaaspanuseid vestlusesse. Uurija kirjeldab, kuidas interaktsioon iga vestleja jaoks samm-sammult areneb. Ta väldib sihilikult eel- nevalt omaksvõetud teoreetilisi seisukohti. Erinevused tuuakse esile vaid siis, kui empiiriliste andmete alusel on selgeks saanud, et need on esitatud vestlejate poolt. Üks omaksvõetud seisukoht on nn. vaatluslik naiivsus (van Rees 1992: 20): iga detail võib osutuda tähtsaks. See on ka üks põhjusi, miks nad nii palju kui võimalik töötavad lindistuste “musta” materjaliga või nende võimalikult täpse transkriptsiooniga. Lühidalt olulisemad pidepunktid vestlusanalüüsi temaatikast: 1) vestlusanalüüs arenes välja H. Sacksi töödest; 2) vestlusanalüüs uurib keelt kui sotsiaalset tegevust; 3) vestlust interaktsioonis peetakse süstemaatiliselt organiseerituks ja kor- rastatuks; 4) esmased andmed uuringuteks on loomulikult esineva interaktsiooni audiolindistused (ja seal, kus see on vajalik või sobiv, videolindistused). Transkriptsioonid abistavad audio-/videoanalüüsi materjale;

272 2 Eesti sotsioloogide uuringutes pole me siiski märganud konversatsioonianalüüsi meetodite järjekindlat raken- damist. 5) transkriptsioonisüsteem esitab igapäevavestluse n-ö segaduse detailse iseloomustuse, keskendudes kõne esitamisele ja vooruvahetuse3 organi- seerimisele. (Wooffi tt 2006: 13) Mõiste, mida palju kasutatakse, aga mida on keeruline defi neerida, on diskursus (ingl discourse). Diskursus on eri autoritel pisut erineva sisuga täidetud mõiste ja mõnedel neist pole midagi pistmist keelega. Nt rassilise diskrimineerimise dis- kursus on seotud pigem ideoloogiate ja uskumuste süsteemidega kui konkreetsete keeltega, veinidiskursus4 hõlmab lisaks veininduse tootmisprotsessides ja degustee- rimises kasutatavale erisõnavarale ka alldiskursusi nagu pudelisildi tekst ja disain ning ristub muude diskursustega (nt triipkoodil kaubandusliku diskursusega). Diskursust võib määratleda kui situatiivset keelekasutust (He 2003: 429) nii kirjalikes kui suulistes tekstides. Esiteks sisaldab ta rohkem kui ühte lauset ja on ses suhtes paralleelmõiste tekstile. Nii sotsioloogide kui keeleteadlaste jaoks seos- tuvad diskursusuuringud esmalt just tekstiuuringutega. Aga lisaks tekstile haarab diskursus ka relevantseid konteksti komponente: kõigepealt kõneleja ja kuulaja relevantseid aspekte alustades nende eesmärkidest, eeldustest, taustteadmistest jne ning lõpetades suhtlejate sotsiaalsete parameetritega. Peale selle kuuluvad siia veel suhtlussituatsiooni parameetreid: kas räägitakse kohtus või kohvikus jne. Ülevaat- likult on diskursuseuuringute teemat käsitlenud Teun van Dijk (nt 1997: 1–34). Kui vestlusanalüüs on uurimismeetod, siis diskursusanalüüsi võib käsitleda uurimisvaldkonnana. Diskursusanalüüs vaatab, kuidas inimestevaheline vestlus on üles ehitatud. Varasemas etapis uuriti tavaliselt dialoogi ja analüüsiti seda, hiljem lisandus situatiivne analüüs. Kui diskursuse-uurijate poolt vaadata, siis kuulub siia ka pragmaatika.5 Vaadeldakse suhtlusstrateegiaid, suhtlussituatsiooni kui tervikut, mitte ainult kõnet; jälgitakse konteksti. Vaadeldakse vooruvahetust, nt kuidas keel lubab katkestada repliiki. Uuritakse, millal ja kuidas saab inimest katkestada jne. Eelkõige Ameerikas on uuritud telefonikõnesid õnnetuste puhul politseisse ja kiirabisse. Need on olukorrad, kus tuleb kiiresti anda maksimaalselt infot. Ka Eestis on telefonivestluste uurimine olnud tähelepanuväärne, sellega on mitme aasta jooksul tegelnud Tiit Hennoste uurimisrühm (vt nt Hennoste 2003a, Hennoste 2003b, Rääbis 2000, 2002). Võib arvata, et vestlusanalüüsi meetodi populaarsus ja mõju Soomes lõi tänu professor Auli Hakulise töödele (eesti keeles vt Hakulinen 1986) esmased võimalused teemaga tutvumiseks ning mõjutas Eesti suhtlusuuringute tegevuse algust. Täna on Soome humanitaar- ja sotsiaalteadlased, kes tegelevad diskursus- ning vestlusanalüüsiga, koondunud mitmete ülikoolide juurde üle Soome. Tuntumad neist on Helsingi, Tampere, Jyväskylä ja Oulu grupid, kuid uurijaid leidub ka näiteks Kajaanis.6 Diskursuse analüüsijad seavad oma eesmärgiks kirjeldada vestluste ülesehituse põhimõtteid. Nad otsivad reegleid, mis võiksid selgitada keele lausungite edukust vestluses. Lingvist uurib vestlust mitte vestlejate seisukohast, kelle jaoks interakt- sioon areneb samm-sammult, vaid kui eemalseisja, kes analüüsib vestlust kui tervi- kut siis, kui see on läbi. Oma analüüsis kasutab ta sageli analüütilise raamistikuna kõneaktiteooriat. Eelkõige on ta huvitatud seosest keele lausungite formaalsete joonte

3 Kõnevoor on intuitiivselt määratletud dialoogiüksus, ühe kõneleja jätkuv häälesolek. 4 Näide pärineb Raili Põldsaarelt doktoriseminarist “Suhtlusandmete analüüs ja analüüsi meetodid” (26.11.2008). 5 Kuigi me nimetasime pragmaatikat ja keelefi losoof J. Austinit, jääb pragmaatika käsitlus sellest artiklist välja. Näeme pragmaatikas piiritletud keeleteaduslikku uurimisvaldkonda, mis hõlmab eelkõige kõneaktide teooriat ja 273 küsimuse-vastuse uuringuid, sealhulgas küsimise erinevaid viise ning viisakusteooriaid, ega sisalda piisavalt süsteem- set meetodit suhtlus- ja käitumissituatsioonide analüüsiks. 6 Teema aktuaalsuse kohta Põhjamaade ülikoolides ja selle seotust Tartu Ülikooliga vt ka http://www.placeme.hum.aau.dk/ (30.09.2008). ja kõneaktide vahel, mida võib esitada koos nende lausungitega konkreetsel ajal vestluses. Samuti on ta huvitatud kõneaktide järgnevusest ja sellest, kui suure hulga kõneaktide puhul võib erinevaid kõneakti järgnevusi kirjeldada edukalt moodusta- tutena. Spontaanne kasutus, mis sisaldab materjali analüüsi jaoks, “puhastatakse” tavaliselt neist elementidest, mis arvatakse olevat analüüsi jaoks ebaolulised, nagu valed algused, pausid, osalised kattumised jms. Mõnikord töötab uurija omaenda väljamõeldud näidetega (nn tugitooliteadus). Peamine on sõnaselgelt esitada ja tes- tida uurija intuitsioone, mis puutub seosesse keele lausungite vormi ja funktsioonide vahel, ning reeglite suhtes, mis määravad nende esitamise korra. Lühidalt olulisemad pidepunktid diskursusanalüüsi temaatikast: 1) diskursusanalüüs on kasvanud välja teaduslike teadmiste käsitlemisest sotsioloogias (vt nt Wooffi tt 2006); 2) ta rajas kõrvalharu teadlaste tegevuste realistlike seletuste juurest teadus- like selgituste uurimise praktikate juurde; 3) diskursusanalüüs väidab, et kuna keelt kasutatakse varieeruvalt, siis uurimisel konstrueeritakse selgitused deskriptiivsete võimaluste hulgast, selgitused on tihedalt seotud kontekstiga, kus nad esile tuuakse ja funkt- sioonidega, mida nad esitavad (Wooffi tt 2006: 18). Mõlemal suunal on arvestatavaid tulemusi suhtluse uurimises.

Kommunikatiivse situatsiooni dünaamilisus: tähendus luuakse suhtluses

Suhtlussituatsiooni käsitlemisel on oluline tähele panna suhtlusvõime arenguid inimesel. Peamisteks mehhanismideks sümbolilise keele arengul on paljud uurijad pidanud ikoonilisust ja analoogiat (vt nt Place 1998, Koch 2001, Sinha 2001, 2005, Itkonen 2005). Ikoonilisus võib olla inimese evolutsiooni käigus arenenud aluseks- olev võime keelelisteks modaalsusteks. Ikoonilisus kui koopiategemise võime on üks võimeid kommunikatsiooni evolutsioonis, mis võis areneda ja mitmel erine- val korral siseneda suhtlusvõimete ja -viiside arengusse. Keele üleüldine esmane väljund võis olla pantomiim, hiljem kondenseerub pantomiim žestiks ja lõpuks võtab hääleline žest ehk foneemide kaudu esitatud keel juhtimise üle (Koch 2001). Ameerika viipekeele uuringud, ja Hiina piktogrammide arengu ajalugu näitavad, et häälelisest kõnest sõltumatu lingvistilise kommunikatsioonisüsteemi arengus on kõige varasemad märgid reeglipäraselt ikoonilised. Nad imiteerivad selle objekti visuaalset välimust, mida nad kujutavad. Kõikidel juhtudel oli näha märgisüsteemi arengutendentsi liikuda eemale ikoonilisusest ja suunduda arbitraarsete sümbolite poole, millel pole sarnasust sellega, mida nad esindavad. (Place 1998: 2) Suhtlussituatsioonis on koos kõne oma eripäraga, nt intonatsiooniga, näomii- mika ja spetsiifi lised käeliigutused. Käežeste on mitmesuguseid, aga ikoonilised on äärmiselt levinud. Ikoonilises žestis on kindel hulk samakujulisust (isomorfi smi) žesti kuju ja entiteedi vahel, mida selle žestiga väljendatakse. Seda tüüpi žestidel on suhteliselt läbipaistev vormi-funktsiooni seos, neil on kommunikatsioonis oluline roll (Kita 2000: 162). Žestid koos visuaalse ja verbaalse komponendiga toovad esile liigutuse funkt- sionaalse tähtsuse või tähenduse inimkommunikatsioonis. Varasemad uuringud 274 on juba näidanud, et käežestid on oluliseks faktoriks tähenduste ja kavatsuste edasiandmisel (vt nt Kendon 1980, Kendon 1986, Goodwin, Goodwin 1986, Calbris 1990, McNeill 1992, Bavelas 1994, Bavelas jt 1995, Cienki 1998, Cassell jt 1999). On näiteks teatud vähemärgatavad käeliigutused, mis kaasnevad ainult dialoogis ja mida mõlemad kõnelejad tajuvad ning millele nad ka reageerivad. Selliseid žeste nimetatakse vestlusžestideks (Bavelas jt 1995), nt käe ringitav liigutus, millel on kontekstist olenevalt erinevaid nimetusi, aga eelkõige võiks ta nimi eesti keeles olla aita leida õige sõna (nt lauses Mis selle kuti nimi oligi, kes ..) (selle kohta vt ka Tenjes 2002). Käeliigutuse kommunikatiivsed funktsioonid tulevad esile eelkõige kujutamise, suuna või referendile viitamise kaudu. Ka muudest kehaliigutustest võib rohkesti infot kätte saada, võrreldes pelga kõnelise situatsiooniga (nt laseb naine oma sigaretile tuld pakkuda, tõstab jala üle põlve jne). Multimodaalse suhtluse uuringute kaudu saabki uurida kahte omavahel seo- tud tasandit: inimese keelekasutust mingis kommunikatiivses situatsioonis ning kommunikatiivse situatsiooni dünaamikat. Suhtluse ja keelekasutuse sügavamaks mõistmiseks on vajalikud just multimodaalse interaktsiooni struktuuriuuringud, mis analüüsivad seoseid inimese kognitsiooni ja suhtlusvahendite repertuaari valiku vahel ning suhtlusstrateegiate valikuid mõjutavaid sotsiaalseid ja kultuurilisi aspekte. Multimodaalses suhtluse analüüsis vaadeldakse erinevate kom- munikatiivsete vahendite kasutamist suhtluse käigus. Nende kasutamisega loovad suhtlejad tähendusliku kommunikatiivse situatsiooni.

Videolindistused suulise keeleainestiku kogumise meetodina

Suhtluse erinevad komponendid sotsiaalses interaktsioonis lubavad keele kasuta- mist vaadelda detailsemalt, kas läbi erinevate keeletasandite või läbi kehastunud interaktsiooni. Keelekasutuse uuringud, kus keelekasutajad suhtlevad ning üksteist ja oma tegevusi komplekses multimodaalses keskkonnas (ka virtuaalses) mõjutavad, nõuab uurimiseks videoainestikku. Keeleainestiku kogumine videokaamera(te) abil, videoainestike töötlus ja analüüs on kaasaegsete interaktsiooniliste keeleuuringute asendamatu instrument ning esmane nõue detailse ning mitmekülgse uurimis- ainestiku saamiseks (Scollon, Scollon 2001, Heath, Hindmarsh 2002, Goodwin 2003, 2007). Videoainestikud on multimodaalsed ning multidimensioonilised, markeeri- des kommunikatsiooni nelja põhiaspekti: keelekasutus, situatsioon, aeg ja ruum. Mitteverbaalse suhtluse uurimise kõrval on videoainestike kasutamisest saamas või saanud lahutamatu tööriist näiteks mitmekeelse suhtluse (nt Lehtonen 2004) või lapsekeele uurimises (nt Hassinen 2002). Suhtluse uurimisel, kus mõni suhtlusmodaalsus – nt kõne – on takistatud, tuleb videolindistuste kasulikkus eriti esile. Kui kõnepuude korral pole võimalik midagi diktofoniga lindistada, on videolindistuse kaudu muude suhtluskomponentide kasutamine jäädvustatud ning analüüsitav. Brigitte Jordan ja Austin Henderson (1995) jagavad sotsiaalse interaktsiooni ainestikud kahte tüüpi: otsene vaatlus (ingl direct observation) ja taastatud sünd- mus (reconstructing event) ehk toimunu uuesti jutustamine. Videoainestikud kuuluvad otsese vaatluse hulka. Videomaterjal tagab suurema metodoloogilise 275 objektiivsuse, mis konversatsioonianalüüsi, aga ka diskursusanalüüsi puhul on oluline nõue. Videoainestikul on mitmeid eeliseid traditsiooniliste suulise kõne ainestiku kogumise meetodite ees. Videokaamera jäädvustab kommunikatsiooni terviklik- kuse: ühelt poolt sõnalise osa ehk suhtluse kõneosa, teiselt poolt aga žestide, viibete, asendite osa ning ruumilise asukoha ja liikumise. Niisiis paljastab videoainestik uuritava ilmingu sellisena nagu see on, nii verbaalsest kui visuaalsest küljest, nii verbaalne kui mitteverbaalne kommunikatsioon on alati nähtaval kohal. Videosse salvestatud ainestik sisaldab rohkem konteksti uuritavast materjalist kui diktofo- nilindistused, ja tänu võimalusele videolinti korduvalt vaadata on kontekst kogu aeg n-ö kohal. (Vuokila-Oikkonen 2002: 72) Vähetähtis ei ole ka asjaolu, et videoainestik võimaldab mitme informandi suhtluse samaaegset ning mitmetasandilist uurimist. Uurides suulist kõnet audio- ainestiku põhjal, jääb osa tegureid paratamatult välja. Videoainestiku rakendamine aitab meie hinnangul paljudele varem peitujäänud küsimustele vastuseid otsida ja leida. Videoainestiku eeliseid näeme selles, et ta võimaldab 1) uurida interaktsiooni mitmekülgsust; 2) uurida suhtlust tervikuna (kõne, žestid, näoilmed, kehaasendid jne); 3) jäädvustada situatsiooni ajas ja ruumis; 4) analüüsida kommunikatsiooni selle “nähtavas” kontekstis; 5) uurida detailselt sotsiaalset interaktsiooni. Hoolimata videomaterjali loetletud eelistest, ei ole videoainestiku kogumine ning videomaterjaliga töötamine uurija jaoks kindlasti probleemitu. Päivi Vuokila- Oikkonen (lähemalt vt 2002: 72–73) nimetab videoainestiku uurija suurimaks väljakutseks mitmekülgsest ja rikkalikust materjalist uuritava ilmingu jaoks oluliste tegurite eristamist. Analoogselt mis tahes muude empiiriliste uuringutega ei ole ka videoainestike puhul võimalik vältida üldisi keeleainestike kogumise probleeme. Iga uurimisprotsessi võib pidada erinevate kohtumiste sarjaks, mis mõjutavad ühel või teisel viisil kõiki osapooli (Vuorinen 2001: 243). Uurija mõju ei ole kuidagi võimalik vältida. Uurija mõju lindistussituatsioonile nimetatakse vaatleja paradoksiks (ingl Observer´s Paradox, Labov 1972: 209) ning sellega puutub kokku iga keeleaines- tiku koguja. Nii informant kui intervjueerija muudavad alateadlikult oma käitumist ning keelekasutust, soovides käituda “korralikult” ning uurijale meeldida. Seepärast ongi põhjendatud konversatsiooniuurijate püüd koguda materjali loomulikes tin- gimustes ning nad käsitlevad ka uurimisgrupi liikmete endi käitumist kui veel üht andmete liiki, mida peab edaspidi arvesse võtma (Duranti 1999). Vestlusanalüüsi esmane uuendus oligi lihtne metodoloogiline nõue, et uurimis- objektidena peab kasutama võimalikult loomulikult toimunud vestluste lindistusi, s.t vestlusi, mis toimusid juhuslikult, mida uurijad ei olnud planeerinud ega kont- rollinud. See oli vastupidine materjalile, mida saadi etnograafi liste intervjuude ajal või hiljem katseolukordades, kus inimestel paluti mingit rolli täita. Keeleainestiku kogumist mõjutavad ka ainestiku kogumise vahendid, nt dik- tofon või videokaamera. Ideaalses töösituatsioonis peaks lindistav diktofon või fi lmiv videokaamera olema kui mööbliese, mille olemasolu jääb märkamatuks nii intervjueeritavale kui intervjueerijale. Et keeleainestiku kogumine õnnestuks, on uurija ülesandeks panna intervjueeritav ennast lindistusolukorras vabalt tundma, et informandi keelekasutus oleks ka lindistussituatsioonides niisugune nagu tava- 276 situatsiooniski (vt nt Labov 1972: 61). See metoodika kuulub eelkõige sotsioling- vistika uurimisvaldkonda. Videoainestike kogumine ning ainestiku analüüsimine on töömahukas ja aeganõudev mitmeetapiline, loogilist järgnevust eeldav tööprotsess, mis koosneb järgmistest etappidest: 1) ainestiku kogumise meetodi ja informandi valik; 2) tehni- liste küsimuste lahendamine (kaamera, fi lmija, aeg ja ruum); 3) fi lmimine; 4) ana- lüüsitavate lõikude valik; 5) videolõikude visuaalne, nn väline analüüs; 6) lõikude litereerimine ning 7) ainestiku detailne analüüs vastavalt uurimiseesmärkidele. Uurimiseesmärkide suhtes võime väita, et just loomulikus situatsioonis jäädvus- tatud suhtlussituatsiooni materjal annab ise aluse, millest kasvavad välja uued ja relevantsed tulemused.

Materjali esitamine

Oleme valinud suhtlussituatsiooni dünaamilise dimensiooni esiletoomiseks kat- kendi fi lmitud videomaterjalist. Videolõigu litereeringule on lisatud selle analüüs. Detailne vestlusanalüüs baseerub G. Jeffersoni süsteemil (Sacks jt 1974) ning Paul ten Have (2004, 2006) töödel. Materjal keskendub 17-aastase, tavaarusaamade kohaselt kõnetu tütarlapse suhtlusele. Väidame, et kommunikatiivses situatsioonis saab tähendus tekkida ka siis, kui ühe osapoole kõnekeelelised võimed on piiratud. Tütarlapse diagnoos on 13. kromosoomi mosaiikne trisoomia ehk Patau sündroom.7 Patau sündroomiga kaasneb alaalia ehk düsfaasia8, kuigi kuulmine on normis. Kuna Patau sündroomiga inimesed on sageli sündides surnud või elanud väga lühikest aega, pole selle diagnoosi kohta väga palju informatsiooni kogu maailmas. Seda hinnatavam on antud materjali analüüsi võimalus. Analüüsimiseks valitud näide on salvestatud informaalses situatsioonis vest- luspartnerite kodus. Aeg: 16. juuni 2007, umbes kell kaks päeval. Osalejad: 17-aastane tütarlaps, tema vanem vend, nende ema. Osalejate asetus: vend istub arvuti taga, õde seisab tema kõrval, ema seisab kaameraga 1,5 meetrit eemal ja fi lmib. Salvestusvahendina on kasutatud ainult üht videokaamerat. Situatsiooni pea- mised osapooled on tütarlaps ja tema vend. Ema, kes salvestab situatsiooni kaa- meraga, osaleb abistavate küsimuste või kommentaaridega. Salvestussituatsiooni spetsiifi kast tulenevalt jääb üks osapool, ema, kaamera taha, mistõttu on temalt salvestatud vaid kõnekeelne osa. Vestluses osalejate markeerimisel on kasutatud lühendite süsteemi. Kuna kõnes mainitakse mitmel korral erinevaid eesnimesid, kasutatakse nende asemel peitelü- hendeid. Kõikide informantide anonüümsus on garanteeritud ning salvestusi kasu- tatakse osapoolte nõusolekul. Situatsioonis osalejad on tähistatud järgmiselt: T – 17-aastane tütarlaps; V – tema vend; E – nende ema;

S1 – sugulane 1, 4-aastane tüdruk; S2 – sugulane 2, 3-aastane poiss.

277 7 Patau sündroom ehk 13. kromosoomi trisoomia võib avalduda mosaiikvariandina. Sellisel juhul on mõnedel keharakkudel 13. kromosoomist 2 koopiat, mõnedel aga 3 koopiat. Seda sündroomi esineb suhteliselt harva (1:12 000…1:29 000) ja mosaiikset varianti on kirjeldatud ainult üksikutel juhtudel. 8 Alaalia ehk düsfaasia on peaaju koore kõnekeskuste orgaanilisest kahjustusest tingitud kõne arengu häire. Vaadeldavas vestluses soovib T teada, kus on S1 – 4-aastane tüdruk, väike sugulane. Sellisel teemavalikul on oma tagamõte. T teab, et S1 on vanavanemate suvilas Pan- godis. T tahaks ise sinna pääseda, niisiis juhib ta jutu endale sobivale teemale.

(1) 1 T: öhö? (( Kasutab viipeid ja hoiab vasakut kätt venna õlal, et V talle kindlasti vas- taks. Näitab eesti viipekeele viibet LAPS, s.t näitab käega inimese kasvu))

((lausungi tõlge: Kus S1 on? või Mida S1 teeb?)) 2 V: kodus on 3 T: [öhö?] 4 V: [mängib] 5 T: [öhö?] 6 E: näita T veel seda [märki] 7 T: [öhö?] ((Hoiab ühte kätt venna õlal, teisega viipab kaugusse. Vaidleb vastu, ütleb,

et S1 on ju Pangodis)) 8 E: [S1 või] 9 V: [pangodis või] 10 T: aa ((jaatusüneem)) 11 V: jah olime pangodis 12 T: öhö? 13 V: [käis] ujumas

14 E: [kas] S1 tuli tagasi ka või 15 V: jaa 16 E: tartusse

17 V: mängib S2-ga seal 18 T: iaa? ((Tõlge: siia. Näitab põranda poole, s.t kasutab viibet SEE KOHT SIIN)) 19 V: siia. 20 T: aa ((jaatusüneem)) ((Kasutab uuesti viibet SIIN)) 21 V: ma ei tea seda 22 T: AA-AAA (( tõlge: ahjaa, nüüd tuli meelde)) ((Koputab endale vastu rinda, raputab kätt õhus ja võtab lõpuks sõrmedega ninajuurest kinni. Tõlge: mulle tuli meelde, et mina ka pidin Pangodisse minema)) 23 (.) ((Õde vaatab pingsalt vennale otsa ja ootab vastust: ta tahab ka Pangodisse pääseda, vend oleks see, kes ta sinna viiks.)) 24 T: ühaäe? ((Tõlge: ühaäe on adapteeritud pühapäev, mis tähendab üldis- tatult ükskõik millist nädalapäeva → Mis päeval sa Pangodisse sõidad? Osutab vennale, sest küsimus on mõeldud talle.)) 25 V: homme võib-olla lähen jah 26 T: öhö? 27 V: aga võib-olla hoopis tõlgin 28 T: aua? ((Tõlge: silbiga aua tähistab kõneleja ennast → Mis mina homme teen? Osutab endale.)) 29 T: emme ((Tõlge: kõnetab ema)) 278 ((Näitab eesti viipekeele viibet LAEV (kaks kätt kausikujuliselt ühte külge pidi koos), liigutab käsi endast eemale → Kas ma lähen laevaga sõitma?)) 30 E: laevaga sõitma või 31 T: jah ((noogutab)) 32 E: nojah memm planeeris seda et 33 V: ((naer)) 34 T: eee memmu ((võtab telefonitoru)) 35 E: et kui on hea ilm siis 36 T: ee-memmu-memmu ((Tõlge: Helistame vanaemale!)) ((Hoiab telefonitoru käes, tahab vanaemale helistada.)) 37 E: hakkad memmele helistama või 38 T: aa-aa ((jaatusüneem)) 39 E: no V valib sulle numbri siis

Materjali analüüs

Vestluses avaldub T motiveeritus ja järjekindlus jutuajamise suunamisel. T suht- lemisvahendid on omavahel keerukalt kombineeritud ja allutatud ühele eesmär- gile − ennast arusaadavaks teha. T kasutab suhtlemiseks eelkõige liigutuslikke vahendeid (žestid, näomiimika, kehaasendid), kuid tema eneseväljenduses esineb ka kõnekeelelisi elemente (adapteeritud emakeel, häälitsused, silbid). Tema keel koosneb seega auditiiv-verbaalsest ja visuaalsest poolest. Viibete ja žestide tähen- dusväljad on laiad ja sõltuvad konkreetsest kontekstist. Vesteldes tahab T küsimusi esitada eelkõige selleks, et vestlust talle soovitud suunas juhtida. Samuti ootab ta oma dialoogipartneritelt abi enda mõtete sõnastamisel, s.t täpsemal väljendamisel: ta soovib, et tema žestid sõnadeks dešifreeritaks, misjärel saab ta märku anda, kas “tõlkimine” õnnestus või mitte. Seda tüüpi keelelist käitumist võib tõlgendada T kontrollimehhanismina, mille abil ta saab aimu, kas vestluspartnerid on temast aru saanud (vt näiteks voorud 1–5). T universaalne küsisõna on Öhö?, mis kombineeritult viibete ja/või žestidega võib toimida ükskõik millise eestikeelse küsisõna rollis. Vestlus algabki sellise küsimusega ja tähendab eesti keelde tõlgituna “Kus S1 on?” või “Mida S1 teeb?”. Õde hoiab vasakut kätt venna õlal, et viimane talle kindlasti vastaks. Füüsiline kontakt tagab suurema läheduse ja nii pole küsijat võimalik ignoreerida.9 Häälitsusele lisaks kasutab T eesti viipekeele viibet LAPS, s.t näitab käega madalale, maapinna lähedale, mis markeerib väikest kasvu inimest. Vend vastab, et S1 on kodus. Kuna see ei olnud soovitud vastus, pärib õde edasi, kasutades sama lihtsustatud küsi- must (tähendusega silpi). Nüüd saab ta vastuseks, et S1 mängib, kuid ka see pole loodetud vastus. Ema, kes fi lmib, sekkub vestlusesse ja palub T-l uuesti näidata viibet LAPS. T kordabki viibet ja ka oma küsimust Öhö?, hoides samal ajal vasakut kätt venna õlal ja viibates parema käega kaugusesse. Niimoodi vaidleb ta vennale vastu väitega, et S1 on ju Pangodis. Samal ajal vaatab ta küsivalt vennale otsa, otsekui kontrollides, kas tema küsimusest saadi ikka aru (abiotsimine). Lausungitest 9 ja 10 ongi näha, et teised kaks vestluses osalejat proovivad teda üksteisele peale rääkides täpsustavate küsimustega aidata, millele T omakorda vastab jaatusüneemi kasutades.

279 9 Samuti on puudutus eraldi suhtlusmodaalsus, millega T loob oma suhtlusruumi. Sellele modaalsusele juhtisid tähelepanu Mathias Broth ja Paul McIlvenny “PlaceMe” 5. workshop’il “Distributed and Mobile Interactions” 10.-11.11.2008 Aalborgis, Taanis. Dialoogis ei tekiks tähendust ega seda poleks võimalik edasi arendada, kui vestluses osalejatel poleks ühiseid eelteadmisi. Samal teemal on varemgi räägitud ja seetõttu on vestlejatel lihtsam üksteist mõista. Viibe, mis sel korral omab tähendust ‘Pangodi’, on eesti viipekeeles muidugi üldisem ja selle tähendused on ‘seal’ või ‘kaugel’. T käeliigutused ei ole enamasti korrektsed viiped, ta on neid lihtsustanud ja endale mugavamalt sooritatavateks muutnud. Samuti kasutab tütarlaps žeste. Analüüsitavas vestluses pakub psühholoogilist huvi lausung 22, kus T väidab, et talle meenub äkki, et temagi pidi Pangodisse külla minema. Selle mõtte väljen- damine on väga keeruline intellektuaalne tegevus (meenutagem: tegemist on teatud kromosoomihäirega isikuga). Mõtte väljendamine on ilmekas, kaasatud on kogu keha, hääl ja näoilme. T koputab endale vastu rinda, see tähendab MINA, raputab siis kätt õhus – see märk näitab, et ta püüab midagi meelde tuletada, ja võtab lõpuks sõrmedega ninajuurest kinni. Kõneliselt venitab ta vokaali a, varieerides seda laias ulatuses ja ilmekalt. Tütarlapse ilme on samal ajal väga väljendusrikas, kortsus kul- muga murelik nägu, mis lööb särama, kui meenub see, mida meenutada taheti. Tütarlaps saab ise kaasvestlejate jutust aru, mis teeb omakorda teistele temast arusaamise lihtsamaks. Samuti on T võimeline otsustama, kas tema jutt sai õigesti “tõlgitud”. A. Kendonile (1986) tuginedes teame, et tähendused ei transformeeru žestideks ja kõneks ühel ja samal viisil. Žestid võidakse moodustada otse, iseseisvalt ja suulisest keelest ehk kõnest sõltumatult.

Kokkuvõte

Artiklis esitati multimodaalse suhtluse analüüs, milles näidati, kuidas suuline keel ehk kõnekeel üksi ei suuda kommunikatiivset tähendust esitada. Näidati tähen- duse esilekerkimist osapoolte koostöö kaudu.10 Suhtlusanalüüsi puhul arvestati eelnevaid traditsioone: vestlusanalüüsi metoodikat ja diskursusanalüüsi situatsioonikäsitlust. Multimodaalsete komponentide arvessevõtmisega kuju- neb suhtlussituatsiooni parem mõistmine. Artikli materjalianalüüsis esitatud Patau sündroomiga tütarlapse suhtlusmustrid markeerivad selgelt videoainestiku eeliseid diktofonilindistuse ees. Videoainestik võimaldab jälgida suulise kõne ning käelii- gutuste seost, mis diktofonilindistustes paratamatult varju jäävad või edastatakse ebatäielikul kujul, tuginedes uurija mälule ning üleskirjutustele. Tähtsuseta ei ole ka situatsiooni ning suhtluspartnerite detailse keelelise ja liigutusliku käitumise jälgimine nii sõnas, viipes kui pildis: mis toimub suhtluses? kuidas reageerivad suhtluse osapooled üksteise kaaspanustele? kes on aktiivsed ja passiivsed vest- luspartnerid ja milline nende käitumine? millised on käeliigutuste ja sõnalise osa seosed või seoste puudumised jne? Situatsioon oli heaks näiteks koostegevusest, kus keel, kognitsioon ja tegevus on situatsiooni koostisosad. Selles situatsioonis osalejad püüavad oma erinevate modaalsustega hõlmata olulisi nähtusi ümbritse- vast (nt objektile osutamine kauguses – Pangodi jms). Antud situatsioonianalüüsis oli tütarlaps võimeline edastama isegi minevikus toimunut ja tulevikus toimuma saavat. Kommunikatiivse situatsiooni dünaamiline toimimine ning selle analüüs annab rohkem võimalusi üksteisemõistmiseks igal suhtlustasandil.

280 10 Täname dr Paul McIlvenny’t Aalborgi Ülikoolist usu ülevalhoidmise eest diskursus- ja konversatsiooniuuringute teema tulevikku. Transkriptsioonimärgid (.) mikropaus (0,2 sekundit või lühem) . langev intonatsioon ? tõusev intonatsioon [ pealerääkimise algus ] pealerääkimise lõpp (( )) kommentaar suurtähed (nt AHA) hääle kõvendamine

Viidatud kirjandus Allik, Jüri; Tulving, Endel 2003. Ajas rändamine ja kronesteesia. – Akadeemia, 5 (170), 915–939. Austin, John L. 1962. How to do Things with Words. Oxford: Clarendon Press. Bavelas, Janet Beavin 1994. Gestures as part of speech: Methodological implications. – A. Kendon (Ed.). Research on Language and Social Interaction. Special Issue on Ges- tures, 27 (3), 201–221. doi:10.1207/s15327973rlsi2703_3 Bavelas, Janet Beavin; Chovil, Nicole; Coates, Linda; Roe, Lori 1995. Gestures specialized for dialogue. – Personality and Social Psychology Bulletin, 21, 394–405. doi:10.1177/0146167295214010 Blumer, Herbert 1969. Symbolic Interactionism: Perspective and Method. Berkeley: Uni- versity of California Press. Calbris, Geneviève 1990. Semiotics of French Gesture. Bloomington: Indiana University Press. Cassell, Justine; McNeill, David; McCullough, Karl-Erik 1999. Speech-gesture mismatches: Evidence for one underlying representation of linguistic and nonlinguistic informa- tion. – Pragmatics and Cognition, 7 (1), 1–33. Cienki, Alan 1998. Metaphoric gestures and some of their relations to verbal metaphorical expressions. – J.-P. Koenig (Ed.). Discourse and Cognition: Bridging the Gap. Stanford, CA: Center for the Study of Language and Information, 189–204. Clark, Herbert H. 1992. Arenas of Language Use. Chicago: University of Chicago Press. Dijk, Teun A. van 1997. The study of discourse. Discourse as structure and process. – T. van Dijk (Ed.). Discourse Studies: A Multidisciplinary Introduction. Vol. 1. London: SAGE Publications, 1–34. Duranti, Alessandro 1999. Linguistics Anthropology. Second edition. Cambridge Textbook in Linguistics. Cambridge: Cambridge University Press. Fiske, John 1990. Introduction to Communication Studies. Second edition. London, New York: Routledge. Goodwin, Charles 1981. Conversational Organization: Interaction between Speakers and Hearers. New York: Academic Press. Goodwin, Charles 1986. Gestures as a resource for the organization of mutual orientation. – Semiotica, 62 (1-2), 29–49. Goodwin, Charles 2003. Pointing as situated practice. – Sotaro Kita (Ed.). Pointing: Where Language, Culture and Cognition Meet. Mahwah. NJ: Lawrence Erlbaum, 217–241. Goodwin, Charles 2007. Environmentally coupled gestures. – Susan Duncan, Justine Cassell, Elena Levy (Eds.). Gesture and the Dynamic Dimensions of Language. Amsterdam/ Philadelphia: John Benjamins, 195–212. Goodwin, Marjorie H.; Goodwin, Charles 1986. Gesture and coparticipation in the activity of searching for a word. – Semiotica, 62 (1-2), 51–72. Gurevitš, Aron 1992. Keskaja inimese maailmapilt. Tallinn: Kunst. Hakulinen, Auli 1986. Vestlus keelenähtusena. – Keel ja Kirjandus, 8, 449–458. Hassinen, Sirje 2002. Simultaaninen kaksikielisyys: läheiset sukukielet viro ja suomi rinnak- kain. Oulun yliopiston suomen ja saamen kielen ja logopedian laitos. 281 Have, Paul ten 2004. Understanding Qualitative Research and Ethnomethodology. London, Thousand Oaks, New Delhi: Sage Publication. Have, Paul ten 2006. Doing Conversation Analysis: A Practical Guide. 5th edition. London, Thousand Oaks, New Delhi: Sage Publication. He, Agnes Weiyun 2003. Discourse analysis. – Mark Aronoff, Janie Rees-Miller (Eds.). The Handbook of Linguistics. London: Blackwell Publishers, 428–425. Heath, Christian; Hindmarsh, Jon 2002. Analysing interaction: Video, ethnography and situated conduct. – T. May (Ed.). Qualitative Research in Action. London: Sage, 99–121. Hennoste, Tiit 2003a. Keelekasutuse uurimine. – Emakeele Seltsi aastaraamat, 48 (2002), 217–262. Hennoste, Tiit 2003b. Suulise eesti keele uurimine. – Keel ja Kirjandus, 7, 481–500. Itkonen, Esa 2005. Analogy as Structure and Process: Approaches in Linguistics, Cognitive Psychology and Philosophy of Science. Human Cognitive Processing 14. Amsterdam/ Philadelphia: John Benjamins. Jordan, Brigitte; Henderson, Austin 1995. Interaction analysis: Foundations and practice. – The Journal of the Learning Sciences, 4 (1), 39–103. doi:10.1207/s15327809jls0401_2 Kendon, Adam 1980. Gesticulation and speech: Two aspects of the process of utterance. – Mary R. Key (Ed.). The Relationship of Verbal and Nonverbal Communication. The Hague: Mouton and Co., 207–227. Kendon, Adam 1986. Current issues in the study of gesture. – Jan-Luc Nespoulous, Paul Perron, André Roch Lecours (Eds.). The Biological Foundations of Gestures. Hillsdale N.Y.: Lawrence Erlbaum Associates, 23–48. Kendon, Adam 1995. Gestures as illocutionary and discourse structure markers in Southern Italian conversation. – Journal of Pragmatics, 23 (3), 247–279. doi:10.1016/0378- 2166(94)00037-F Kendon, Adam 2001. Review article: Gesture as communication strategy. – Semiotica, 135 (1-4), 191–209. doi:10.1515/semi.2001.060 Kendon, Adam 2004. Gesture: Visible Action as Utterance. Cambridge: Cambridge Univer- sity Press. Kita, Sotaro 2000. How representational gestures help speaking. – David McNeill (Ed.). Language and Gesture. Language, Culture and Cognition 2. Cambridge: Cambridge University Press, 162–185. Koch, Walter A. 2001. Consciousness, communication, speech – a condensed view of the origins of language. http://www.trismegistos.com/IconicityInLanguage/Articles/ Koch/Koch.htm (12.12.2003). Labov, William 1972. Sociolinguistic Patterns. Philadelphia: University of Pennsylvania Press. Lehtonen, Heini 2004. Maahanmuuttajataustaisten helsinkiläisnuorten puheen variaatio ja monikielisyys. Pro gradu -tutkielma. Helsinki: Helsingin yliopiston suomen kielen laitos. Levinson, Stephen C. 1983. Pragmatics. Cambridge: Cambridge University Press. McNeill, David 1992. Hand and Mind: What Gestures Reveal About Thought. Chicago: University of Chicago Press. McNeill, David 1999. One ontogenetic universal and several cross-linguistic differences in thinking for speaking. Based on a plenary lecture of the same title given at the 6th International Cognitive Linguistics Conference, Stockholm, Sweden, 13 July. Manu- script, 1–28. Place, Ullin T. 1998. The role of the hand in the evolution of language. http://dbiref.kub. nl:2080/~place/utplace/HAND98.htm (20.06.2001). Rees, Maria Agnes van 1992. The Use of Language in Conversation. Amsterdam: SICSAT – International Society for the Study of Argumentation (ISSA). 282 Rääbis, Andriela 2000. Telefonivestluste sissejuhatus. – Keel ja Kirjandus, 6, 409–424. Rääbis, Andriela 2002. Ametlike telefonikõnede lõpetamine. – Emakeele Seltsi aastaraamat, 47 (2001), 107–125. Sacks, Harvey; Schegloff, Emanuel; Jefferson, Gail 1974. A simplest systematics for the organization of turn taking for conversation. – Language, 50 (4), 696–735. doi:10.2307/412243 Schegloff, Emanuel A. 1984. On some gestures’ relation to talk. – J. M. Atkinson, J. Heritage (Eds.). Structures of Social Action: Studies in Conversational Analysis. Cambridge: Cambridge University Press, 266–296. Scollon, Ron; Scollon, Suzanne Wong 2001. Intercultural Communication: A Discourse Approach. 2nd ed. Cambridge, MA: Blackwell Publishers. Sinha, Chris 2001. The epigenesis of symbolization. – C. Balkenius, J. Zlatev, H. Kozima, K. Dautenhahn, C. Breazeal (Eds.). Proceedings of the First International Workshop on Epigenetic Robotics. Lund: Lund University, 85. Sinha, Chris 2005. Biology, culture and the emergence and elaboration of symbolization. – Anjum P. Saleemi, Ocke-Schwen Bohn, Albert Gjedde (Eds.). In Search of a Language for the Mind-Brain: Can the Multiple Perspectives be Unifi ed? Aarhus: Aarhus Uni- versity Press, 311–335. Streeck, Jürgen 1988. The signifi cance of gesture: How it is established. – Papers in Prag- matics, 2 (1), 25–59. Streeck, Jürgen; Knapp, Mark L. 1992. The interaction of visual and verbal features in human communication. – F. Poyatos (Ed.). Advances in Nonverbal Communication. Amster- dam/Philadelphia: John Benjamins, 3–24. Tenjes, Silvi 2002. Kus keel ja käsi kokku saavad? – Renate Pajusalu, Ilona Tragel, Tiit Hennoste, Haldur Õim (toim.). Teoreetiline keeleteadus Eestis. Tartu Ülikooli üld- keeleteaduse õppetooli toimetised 4. Tartu: Tartu Ülikooli Kirjastus, 255–271. Vuokila-Oikkonen, Päivi 2002. Akuutin psykiatrisen osastohoidon yhteistyöneuvottelun keskustelussa rakentuvat kertomukset. Oulun yliopiston hoitotieteen ja terveyshal- linnon laitos. Vuorinen, Pihla 2001. Oma pere ja tuttavate ringis tehtava uurimistöö valguse- ja varju- pooled. – Tiiu Jaago (toim.). Pärimuslik ajalugu. Tartu: Eesti Kirjandusmuuseum, 235–244. Wooffi tt, Robin 2006. Conversation Analysis and Discourse Analysis. Second edition. London, etc.: SAGE Publications.

Kaudviited Malinowski, Bronislaw 1978 [1935]. Coral Gardens and Their Magic: A Study of the Methods of Tilling the Soil and of Agricultural Rites in the Trobriand Islands. Vol. 2. New York: Dover Publications. Mead, George Herbert 1934. Mind, Self, and Society: From the Standpoint of a Social Beha- viorist. Chicago: University of Chicago Press. Mead, George Herbert 1938. The Philosophy of the Act. Chicago: University of Chicago Press.

283 THE DYNAMIC DIMENSION OF A COMMUNICATIVE SITUATION

Silvi Tenjes, Ingrid Rummo, Kristiina Praakli University of Tartu

The current article presents an overview of a domain which has become essential as an intersection of social sciences and the humanities: research of human com- munication in a real situation, among this the describing of language usage in a multimodal way including all kinds of means that are available to the collocutors or used by them. Also, a survey of previous research upon the use of language (e.g. in sociolinguistics) is provided. The communicative situation as a part of social activity includes, besides the spoken language of the communicators, also their bodily movements – glance, hand movement – and the situation as a whole. Currently research into language use serves as part of interdisciplinary investigations including conversation analysis, discourse analysis, research on multilingualism, anthropology, second language acquisition, micro sociology etc. The researches carried out by sociologists are often called conversation analysis, while the investigations made mainly by linguists and sociolinguists are referred to as discourse analysis. These two fi elds of research differ from each other both in their objectives and methods, and this is a point discussed in the present article. The main principles of studying speaking as a social activity are also viewed in the current article. The pioneers in the fi eld as well as the founders of the method discussed and the guardians of its continuity are introduced. The ability to communicate and physical experience have been important for a human being all through the existence of the thinking mankind. We discover the space surrounding us by means of various movements. Perception, memory and language are parts of human cognition. The way we see the world, our conception of it takes shape in a concrete social culture. In communication it is possible to fi nd three different types of information: info about cognition, motivation and the emotional condition of the speaker. The role of language is to play an active pragmatic part in the behaviour of a person. In a communicative situation we are using different abilities of communication, among which the authors of the article mention analogy. The concept of icon is looked at more closely. Hand gestures are important factors in forwarding meanings and intentions; they are discussed in the part of the article where the creating of the meaning is in focus. The concept of multimodal communication is defi ned; the advantages of using video data in the process of gathering and analysing the mate- rial are presented. As an example the authors provide analysis of a communicative situation where one interlocutor is a 17-year-old girl with the mosaic variant of the Patau syndrome. While doing the conversational analysis the authors considered different traditions, combining, e.g., the method of conversational analysis with the treatment of situation typical of discourse analysis. The communication patterns 284 of the girl with the Patau syndrome underline very clearly the advantage of video material over dictaphone recordings. In their analysis the authors affi rm that if one takes into consideration col- laboration between the collocutors as well as the multimodal components, one will certainly get a better understanding of a communicative situation. The dynamic functioning of a communicative situation and our analysis of this process will give us more opportunities to understand each other on every level of communication.

Keywords: conversational analysis, discourse analysis, communication, nonverbal language, cognition, aphasias, Patau syndrome

Silvi Tenjes (Tartu Ülikool) on uurinud käeliigutusi, kõnekeelt ja kommunikatsiooni, metafoorsust, ruumisemantikat. Uurib suhtlust multimodaalses kommunikatsioonis ning sotsiaalses interaktsioonis. Huvitub tegevusrepresentatsiooni seosest tajuruumiga liigutuste sooritamiseks ning õppimiseks. [email protected]

Ingrid Rummo (Tartu Ülikool) teaduslikud huvialad on arvutipõhine keeleõpe, eesti keele ortograafi a küsimused, mitteverbaalne suhtlus, žesti- ja viipeuuringud, intellektipuue ja keel. [email protected]

Kristiina Praakli (Tartu Ülikool) teaduslike huvide hulka kuuluvad kontaktlingvistika, mitmekeelsuse (eriti koodivahetuse) ning suhtlusvõrgustike uuringud. [email protected]

285

VENE ÕPPEKEELEGA PÕHIKOOLI ÕPILASTE JA ÕPETAJATE HOIAKUD EESTIKEELSE AINEÕPPE SUHTES VAHETULT ENNE 2007. AASTA GÜMNAASIUMIREFORMI ALGUST

Natalia Vaiss

Ülevaade. Artiklis uuritakse kvantitatiivselt üheksanda klassi õpilaste ja neid eesti keeles õpetanud pedagoogide hoiakuid osalise eestikeelse 5, 287–301 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT aineõppe suhtes ning analüüsitakse, millised tegurid soodustavad õpi- laste positiivsete hoiakute kujunemist eesti õppekeele suhtes, pöörates erilist tähelepanu uuringus täheldatud erinevusele osa õppeaineid eesti keeles omandanud ja kõiki õppeaineid vene keeles õppinud põhikooli- lõpetajate hoiakute vahel. Artikli lõpuosas vaadeldakse kvalitatiivselt eestikeelse aineõppe positiivseid ja negatiivseid mõjusid, näidatakse probleeme, millega eestikeelses aineõppes osalenud õpilased ja õpeta- jad on kokku puutunud, ning tutvustatakse nende pakutud võimalikke lahendusi. Analüüs põhineb 2006/2007. õppeaastal läbiviidud kirja- likel küsitlustel vene õppekeelega põhikooli lõpetajate ja eestikeelses aineõppes osalenud õpetajate seas. Võtmesõnad: kakskeelne haridus, üleminek eestikeelsele õppele, teise keele omandamine, eesti keel teise keelena

Sissejuhatus

Kakskeelset haridust (ingl bilingual education) on määratletud mitmel moel, nii laiemas kui ka kitsamas tähenduses (vt Baker 2006: 213). Klassikalise defi nitsiooni järgi mõistetakse kakskeelse hariduse all õppetöö sellist korraldust, kus õppekeelena kasutatakse kaht või enamat keelt. Selles tähenduses kasutatakse kakskeelse hari- duse mõistet, osutamaks erinevatele kaks- ja mitmekeelsetele õppetöö mudelitele, mis on suunatud nii rahvusvähemustest kui ka -enamustest õpilastele ja mis suu- remal või vähemal määral soodustavad õppijate mitmekeelsust. Mõned autorid laiendavad kakskeelse hariduse tüpoloogiat ka õppetöö sellistele korraldustele, mis ei ole oma loomult kakskeelsed ega soodusta õppijate kakskeelsust, kuid mille 287 taga on reeglina kindlad sotsiaalsed ja keelepoliitilised eesmärgid, nagu näiteks assimilatsioonile või segregatsioonile suunatud rahvusvähemuslaste õpetamine enamus- või vähemuskeelses koolis (Baker 2006: 215–216, Skutnabb-Kangas, McCarty 2008: 4). Üheks maailmas levinumaks kakskeelse hariduse mudeliks võib tänapäeval pidada lõimitud aine- ja keeleõppe strateegiat (LAK-õpe; ingl CLIL – Content and Language Integrated Learning). Eesti keeles nimetatakse seda lähenemisviisi keeleõppele sageli ka kakskeelseks (aine)õppeks. Katusmõistena hõlmab LAK-õpe endas kõik kakskeelse hariduse rikastavad, s.o siht- ja emakeele arengut edenda- vad mudelid. Sellises tähenduses kasutatakse seda terminit ka käesolevas artiklis. Varajane ja hiline keelekümblus, osaline võõrkeelne õpe, mitmesugused keelelaag- rid ja -projektid on LAK-õppe tuntumaid vorme. (Hausenberg, Saarso 2008: 17, Mehisto jt 2008: 9) Eestis on LAK-õppe arengustrateegiad muutunud viimasel aastakümnel aktuaalseks eelkõige seoses vene õppekeelega kooli lõpetajate vähese riigikeele oskuse ja sellest tuleneva üha suureneva vajadusega ühise keeleruumi järele ning 2007. aasta gümnaasiumireformiga. Vastavalt põhikooli- ja gümnaasiumiseaduse ning põhikooli ja gümnaasiumi riikliku õppekava viimastele muudatustele (PGS 1997, PGS 2000, RÕK 2007) alustasid 2007/2008. õppeaastal kõik vene õppekeelega riigi- ja munitsipaal- gümnaasiumid üleminekut osalisele eestikeelsele õppele. Reformi esimesel aastal õppisid 10. klassi õpilased eesti keeles üht eesti kirjanduse kursust (s.t 35 aine- tundi). Käesoleval, 2008/2009. õppeaastal peavad 10. klassi astunud gümnasistid lisaks eesti kirjandusele õppima eesti keeles ka kaht ühiskonnaõpetuse kursust või kolme muusikaõpetuse kursust. Järgneval kolmel õppeaastal gümnaasiumisse astujate jaoks lisandub igal aastal veel üks eestikeelne õppeaine, kuni 2011/2012. õppeaastal moodustab eestikeelne õpe vähemalt 60% gümnaasiumiastme õppe- mahust. Lisaks eesti kirjandusele, ühiskonna- ja muusikaõpetusele viiakse eesti õppekeelele üle geograafi a ja Eesti ajalugu. Reformi peamiseks eesmärgiks on muukeelse gümnaasiumi lõpetajate riigikeele oskuse arendamine, laiendamaks nende edasiõppimisvõimalusi ja konkurentsivõimet tööturul ning soodustamaks integreerumist Eesti ühiskonda. Juba enne gümnaasiumireformi õpetati paljudes vene õppekeelega koolides mõnd õppeainet eesti keeles, seda nii õpilaste eesti keele oskuse arendamiseks kui ka 2007. aasta ülemineku ettevalmistamiseks. Selline õpetamine ei olnud riiklikult koordineeritud ja koolide lõikes oli olukord väga erinev (vt TNS Emor 2006: 12, Vare 2006: 321). Enamikus koolidest õpetati eesti keeles vaid üksikuid aineid. Mõned koolid (nt Tartu Annelinna Gümnaasium, Tallinna Humanitaargümnaa- sium) koostasid oma kakskeelse õppekava, mille põhjal on õpilased saanud järk- järgulist eestikeelset aineõpet. Alates 2000. aastast, pärast Keelekümbluskeskuse ametlikku avamist, on paljud koolid liitunud varajase või hilise keelekümbluse programmiga.1 Alates gümnaasiumireformi esimesest kavandist (PGS 1993, § 9, § 52) on sellega seotud teemadele pühendatud terve rida uuringuid. Näiteks on uuritud muukeelsete laste kohanemist eesti õppekeelega koolis (Valk 1998, Pavelson, Viha- lemm 2002, Rannut 2003 jt), eesti keele õpetamise efektiivsust vene õppekeelega

288 1 Vt www.kke.ee (15.02.2009). koolis (Vare 1999, 2004 jt), keelekümblusmetoodikat (Asser 2003a, Rannut 2001 jt), keelekeskkonna ja õppemudeli mõju muukeelsete õpilaste keeleoskusele ja integratsioonimotivatsioonile (Asser 2001, Rannut 2005). Samuti on analüüsitud vene kooli võimalikke arengumudeleid ja hinnatud koolide valmisolekut gümnaa- siumireformiks (Vassiltšenko jt 1998, Läänemets 2002, Asser 2003b, TNS Emor 2004, 2006, Vare 2006 jt). Mõnel määral on juba jõutud jälgida ka vene õppe- keelega gümnaasiumide kohustuslikule eestikeelsele õppele ülemineku sujumist (nt Hausenberg, Saarso 2008). Reformieelsetel aastatel on populaarseks uurimisobjektiks olnud ka kooliuuen- dustega seotud osapoolte hoiakud. Eesti ühiskonna hoiakuid eelseisva gümnaasiumi- reformi suhtes on kajastanud Integratsiooni Sihtasutuse tellimusel läbiviidud uuring eestivenelaste keeleoskusest ning eestlaste ja eestivenelaste suhtumisest 2007. aasta reformi (Proos 2005). Uuring näitas, et paar aastat enne gümnaasiumireformi pool- das seda vaid kolmandik eestivenelastest (34%) ja valdav osa eestlastest (76%). Haridus- ja Teadusministeeriumi tellitud uuringud 2004. ja 2006. aastast andsid hea ülevaate eestikeelse aineõppe olukorrast vene koolis ning vene kooli juhtkonna ja õpetajate seisukohtadest osalisele eestikeelsele õppele ülemineku suhtes (TNS Emor 2004, 2006). 2004. aasta uuringu raames viidi läbi ka rühma- vestlused kahe Tallinna ja ühe Ida-Virumaa gümnaasiumi õpilastega; 2006. aasta kordusuuringus oli palutud koolijuhtidel ja õpetajatel hinnata õpilaste valmis- olekut eesti keeles õppida. Need uuringud näitasid, et kahe aasta jooksul on vene koolide juhtide ja õpetajate hoiakud eestikeelse aineõppe suhtes muutunud tun- duvalt positiivsemaks. 2006. aastal toetas üleminekut eestikeelsele aineõppele 94% küsitletud koolijuhtidest ja 85% õpetajatest. Seevastu on õpilased ja nende vanemad olnud ja jäänud kõige kriitilisemaks eestikeelse õppe suhtes (TNS Emor 2004: 117, 2006: 29). Üks aasta enne reformi algust oli koolijuhtide hinnangul ligi kaks kolmandikku õpilastest ja lastevanematest huvitatud eestikeelsest aineõppest (TNS Emor 2006: 29). Siiski polnud enne reformi algust eesti keeles õppima asuvate õpilaste endi suhtumist eestikeelsesse õppesse kvantitatiivselt uuritud, olgugi et asjaosaliste motivatsioon kuulub mitte-emakeelse õppe olulisemate tegurite hulka. Põhjalikult ja pikaajaliselt on Eestis seni uuritud vaid keelekümblusprogrammis osalenud õpilaste toimetulekut eri õppeainetes ja nende hoiakuid programmi suhtes (Asser jt 2005). Eesti keeles üksikuid aineid õppinud õpilaste arvamused on jäänud veel kajastamata. Käesolev artikkel tutvustab kvantitatiivseid ja kvalitatiivseid meetodeid kombi- neerivat hoiakute uuringut, mille artikli autor kavandas ja teostas Jyväskylä ülikooli doktorantuuris õppimise raames. Uuringut aitas läbi viia sihtasutuse Archimedes doktoriõppe toetus. Uuringul oli neli põhieesmärki: 1) uurida vene õppekeelega põhikooli lõpetajate suhtumist eestikeelsesse aineõppesse vahetult enne gümnaasiumireformi algust; 2) selgitada õpilaste eestikeelsesse aineõppesse suhtumist mõjutavaid tegu- reid; 3) selgitada põhjusi, mis määravad põhikooli õpilaste ja eestikeelses aineõppes osalenud õpetajate hinnangu 2007. aasta gümnaasiumireformi vajalikkuse kohta; 4) analüüsida eestikeelses aineõppes osalenud õpilaste ja õpetajate kogemusi mitte-emakeelsest aineõppest. 289 Andmekogumismeetod ja respondendid

Tutvustatavad uurimistulemused põhinevad detsembrist 2006 maini 2007 läbi- viidud internetiküsitlustel vene õppekeelega põhikooli lõpetajate ja eesti keeles õpetavate pedagoogide seas. Elektroonilised ankeedid koosnesid nii valikvastusega kui ka avatud küsimustest, mis võimaldas saada nii kvantitatiivseid kui ka kvali- tatiivseid andmeid. Uuringus osalesid 24 kooli õpilased Eesti kolmest sotsiolingvistiliselt erinevast piirkonnast: Harjumaa, Ida-Virumaa ja muu Eesti. Uuringu hüpoteesi järgi võisid eestlaste ja mitte-eestlaste osakaalul ja eestikeelse õppe levikul põhinevad regio- naalsed erinevused mõjutada olulisel määral õpilaste seisukohti. Koolide regionaalselt stratifi tseeritud valim moodustati lihtsa juhusliku valiku abil. Uuringus osalesid valimisse sattunud ja uuringust osa võtma nõustunud koo- lide kõik vene või eesti-vene õppekeelega üheksandad klassid. Juhul, kui väljavalitud koolis õpetati eesti keeles mõningaid põhikooli ainetest, paluti uuringus osaleda ka kõigil 5.–9. klassis eesti keeles õpetavatel pedagoogidel. Enne küsimustiku täitmist tutvustati respondentidele uuringu eesmärke, gümnaasiumireformiga seotud muudatusi ning küsimustiku täitmise reegleid. Õpi- laste ankeedid olid venekeelsed, õpetajatel oli võimalik valida eesti- ja venekeelse variandi vahel. Enamik õpilasi vastas küsimustikule ootuspäraselt vene keeles, üksikud õpilased siiski ka eesti keeles. Enamik vene emakeelega õpetajatest eelistas vastata eesti keeles. Kokku võttis uuringust osa 30 eestikeelse LAK-õppe õpetajat ja 815 vene või eesti-vene õppekeelega üheksanda klassi õpilast, mis on veidi üle 20% kõikidest õpilastest, kes õppisid 2006/2007. õppeaastal üheksandas klassis kõiki või osa aineid vene keeles. Vastavalt tolleaegsele regiooniti jagunemisele2 moodustasid lõppvalimi 400 õpilast Harjumaalt (49%), 315 õpilast Ida-Virumaalt (39%) ja 100 õpilast Eesti teistest maakondadest (12%). Selleks, et tagada õpilaste lõppvalimi statistiline representatiivsus eestikeelse aineõppe kogemuse suhtes, kallutati valim vastavusse eestikeelses aineõppes osa- lenud põhikoolilõpetajate osakaaluga kõigis kolmes sotsiolingvistilises piirkonnas3. Kokku on valimis esindatud 279 eestikeelses aineõppes osalenud õpilast ja 536 õpilast, kes olid õppinud põhikooli vältel üksnes vene keeles (välja arvatud eesti keele tunnid). Enamik uuringust osa võtnud õpilasi (97%) oli vanuses 15–16 eluaastat. Üksikud respondendid olid 14- või 17-aastased. Enamikul (99%) oli emakeeleks vene keel, veel nimetati emakeelena ukraina, läti, aserbaidžaani ja gruusia keelt. Uuringus osalenud LAK-õppe õpilased omasid väga erinevat eestikeelse aine- õppe kogemust. Umbes pooled neist (n = 139) olid õppinud põhikooli jooksul vaid üht või kaht ainet eesti keeles ning pooled (n = 140) üht või mitut õppeainet igal õppeaastal. Viimaste hulgas olid ka 44 hilises keelekümblusprogrammis osalenud õpilast, kes õppisid vähemalt 50% ainetest eesti keeles. LAK-õppe õpetajatele mõeldud küsimustikule vastasid 13 kooli pedagoogid, kelle hulgas oli 13 õpetajat Harjumaalt, 7 Ida-Virumaalt ja 10 teistest maakondadest. 12 õpetajat märkis oma emakeeleks eesti keele ja 17 vene keele; ühel respondendil

2 Haridus- ja Teadusministeeriumi statistikaandmete kohaselt (EHIS, 11.10.2006) õppis Eestis 2006/2007. õppeaastal 290 vene või eesti-vene õppekeelega üheksandas klassis 3917 õpilast, nende hulgas Harjumaal 1921 (49%), Ida-Virumaal 1515 (39%) ja ülejäänud Eestis 481 (12%). 3 Üldkogumi moodustavate koolide täiendavast telefoniküsitlusest saadud andmete põhjal õppis põhikooli vältel vähemalt üht ainet eesti keeles 34% 2006/2007. õppeaastal vene või eesti-vene õppekeelega üheksanda klassi lõpe- tajatest. Harjumaal oli selliseid õpilasi 36%, Ida-Virumaal 26% ja ülejäänud Eestis 53%. olid mõlemad keeled (nii eesti kui vene keel) kasutusel emakeelena. Kõik vastajad peale ühe olid naisõpetajad. Kõige noorem vastanutest oli 26-aastane ja vanim 59-aastane. Nende tööstaaž ulatus kahest 38 aastani, eesti keeles õpetamise koge- mus ühest üheksa aastani, jäädes enamikul alla kolme aasta. Suurema osa pedagoogidest moodustasid eesti keele õpetajad (12) ja klassi- õpetajad (5). Loodus- ja reaalainete õpetajatest oli respondentide seas neli füü- sika- ja matemaatikaõpetajat, kaks keemia- ja bioloogiaõpetajat ja üks informaa- tikaõpetaja. Humanitaarainete õpetajatest osales uuringus kaks ajalooõpetajat ning loov- ja oskusainete õpetajatest kaks kehalise kasvatuse õpetajat, muusika ja tööõpetuse õpetaja. Respondendid õpetasid eesti keeles valdavalt nende erialale vastavaid aineid. Eesti keele õpetajad õpetasid lisaks keeletundidele põhiliselt eesti kirjandust ning erinevaid loodus-, oskus- ja loovaineid. Neljal eesti keele õpetajal oli ülikoolis omandatud lisaeriala kirjanduses, ajaloos, muusikas või tööõpetuses. Ülejäänud juhtudel on keeleõpetajad kas läbinud erialase täiendkoolituse või on saanud LAK-õppe pedagoogideks tänu oma heale eesti keele oskusele.

Põhikoolilõpetajate hoiakud eestikeelse aineõppe suhtes

Õpilaste hoiakuid eestikeelse aineõppe suhtes uuriti mitmete küsimuste abil. Olulisemad neist on “Kas sa pead 2007. aasta gümnaasiumireformi vajalikuks?”, “Kas sinu arvates peaksid gümnaasiumiõpilased õppima vähemalt mõningaid aineid eesti keeles?”, “Millise eesti- või võõrkeelse õppemahuga gümnaasiumis sa eelistaksid oma õpinguid jätkata?” ning “Kui sa oleksid võinud valida, mis keeles sa tahaksid õppida suuremat osa (üle 60%) aineid gümnaasiumis?”. Vastused nen- dele küsimustele aitasid hinnata õpilaste üldisemat psühholoogilist valmidust eesti keeles õppida, nende hoiakuid gümnaasiumireformi suhtes ning eelistusi põhilise õppekeele valikul. Lisaks esitati respondentidele nende keeleoskust, tulevikuplaane, vanemate hoiakuid gümnaasiumireformi suhtes ja muud taustinformatsiooni puu- dutavaid küsimusi selgitamaks, millised tegurid soodustavad õpilaste positiivsete hoiakute kujunemist eestikeelse aineõppe suhtes. Ilmnes, et põhikoolilõpetajate hoiakud gümnaasiumireformi suhtes sõltusid suurel määral sellest, kuidas suhtusid sellesse õpilaste endi hinnangul nende vanemad (r = 0,6, p < 0,01). Vanemate arvatav suhtumine reformi korreleerus ka õpilaste üldise motivatsiooniga eesti keeles õppida (r = 0,4, p < 0,01). Lisaks olid mõnevõrra positiivsemad hoiakud reformi ja eestikeelse õppe suhtes õpilastel, kes seostasid oma tulevikku Eestiga, ning neil, kes kavatsesid jätkata õpinguid kõrg- koolis (mõlemal juhul r = 0,1, p < 0,01). Soov jätkata õpinguid gümnaasiumis ei osutanud uuringu andmete põhjal statistiliselt olulist mõju õpilaste hoiakutele. Nii reformi kui ka üldisemalt eestikeelse aineõppe suhtes olid positiivsemalt häälestatud ka need õpilased, kes hindasid oma eesti keele oskust väga heaks või heaks (r = 0,2, p < 0,01), ning need, kes arvasid, et nende keeleoskus on piisav eesti keeles õppimiseks (r = 0,3, p < 0,01). Kõrgemad hinnangud oma eesti keele osku- sele olid omakorda tingitud eelnevast kogemusest eestikeelses aineõppes (tabel 1). Samuti leidsid LAK-õppes osalenud õpilased mõnevõrra sagedamini, et nad on andekad või üsna andekad keelte õppimisel. Sarnaste tulemusteni on jõutud ka mitmetes varasemates uuringutes (Asser 2001: 13, Cummins, Swain 1986: 98). 291 Tabel 1. LAK-õppes osalenud ja mitteosalenud õpilaste hinnangud oma eesti keele oskusele ja keeleandekusele (%)

LAK-õppes LAK-õppes Vahe LAK-õppes Kõik Hinnang osalenud mitteosalenud osalenud õpilaste r õpilased õpilased õpilased kasuks Hindab oma eesti keele oskust väga heaks või 47% 29% +18 0,2** 35% heaks Hindab oma keele- oskust piisavaks eesti 47% 18% +29 0,4** 28% keeles õppimiseks Peab ennast andekaks või üsna andekaks 76% 64% +12 0,1** 69% keelte õppimisel r = Pearsoni korrelatsioonikordaja ** seos on statistiliselt oluline olulisustõenäosusega (p) alla 0,01

Nii LAK-õppes osalenud kui ka kõiki aineid vene keeles õppinud põhikoolilõpe- tajate suhtumine eestikeelsesse õppesse sõltus märkimisväärselt ka eesti keeles õpitavate ainete üldmahust. Õpilaste suhtumine eestikeelsesse õppesse muutus tunduvalt negatiivsemaks, kui eesti keeles õpitavate ainete maht lähenes poolele gümnaasiumi õppekavast või ületas selle (tabel 2). Näiteks oli õpilaste valmisolek õppida mõningaid aineid eesti keeles vähemalt kaks korda suurem soovist õppida 50% ainetest riigikeeles. Samuti oli ka respondentide suhtumine üleminekusse eestikeelsele õppele tunduvalt kriitilisem võrreldes nende valmisolekuga üksikuid aineid eesti keeles õppida. Vaid 19% põhikoolilõpetajatest (sealhulgas 15% LAK- õppes mitteosalenud ja 25% osalenud õpilastest) arvas, et reform on vajalik kavan- datavas 60-protsendilises eestikeelse õppe mahus. Samas oli üle poole (56%) neist (sealhulgas 49% LAK-õppes mitteosalenud ja 68% osalenud õpilastest) nõus sellega, et gümnaasiumis võiks õppida vähemalt mõningaid aineid eesti keeles.

Tabel 2. LAK-õppes osalenud ja mitteosalenud õpilaste hoiakud eestikeelse aineõppe suhtes (%) LAK-õppes LAK-õppes Vahe LAK-õppes Kõik Hoiak osalenud mitteosalenud osalenud õpilaste r õpilased õpilased õpilased kasuks Arvab, et vene õppe- keelega gümnaasiumi õpilased peavad õppima 68% 49% +19 0,2** 56% vähemalt mõningaid aineid eesti keeles Soovib õppida gümnaa- siumis, kus umbes 50% 30% 16% +14 0,2** 21% ainetest õpetatakse eesti keeles Arvab, et 2007. aasta gümnaasiumireform (mil- le tulemusena õpetatakse 25% 15% +10 0,2** 19% 60% ainetest eesti keeles) on vajalik Soovib õppida üle 60% gümnaasiumiastme 14% 5% +9 0,1** 8% ainetest eesti keeles r = Pearsoni korrelatsioonikordaja ** seos on statistiliselt oluline olulisustõenäosusega (p) alla 0,01 292 Piirkondade lõikes erinesid Harjumaa ja Ida-Virumaa õpilased oma tunduvalt kriitilisemate hoiakutega Eesti teiste maakondade põhikoolilõpetajatest kõigi küsimuste puhul (tabel 3).

Tabel 3. Õpilaste hoiakud eestikeelse aineõppe suhtes regioonide lõikes (%)

Harjumaa Ida-Virumaa Ülejäänud Eesti Kõik Hoiak õpilased õpilased õpilased õpilased Arvab, et vene õppekeelega gümnaasiumi õpilased peavad 55% 50% 76% 56% õppima vähemalt mõningaid aineid eesti keeles Soovib õppida gümnaasiumis, kus umbes 50% ainetest õpeta- 17% 20% 40% 21% takse eesti keeles Arvab, et 2007. aasta gümnaa- 18% 17% 27% 19% siumireform on vajalik Soovib õppida üle 60% gümnaasiumiastme ainetest 6% 8% 19% 8% eesti keeles

Õpilaste hoiakuid gümnaasiumireformi suhtes aitasid sügavamalt mõista nende vas- tused täiendavatele avatud küsimustele. Viimastele vastas üle 70% respondentidest. Uuringu kvalitatiivsete andmete põhjal võiks teha järelduse, et kriitiline suhtumine reformi oli sageli tingitud hirmust haridussüsteemi põhjalike muutuste ees. Samas tajusid paljud, sealhulgas ka eestikeelset õpet pooldavad noored, et reform seab ohtu venekeelse gümnaasiumihariduse. Gümnaasiumireformi toetavad õpilased põhjendasid oma seisukohta enamasti selliste väidetega nagu “Me elame Eestimaal ja peame oskama riigikeelt”, “Kõik Eesti elanikud peavad valdama riigikeelt”, “Eesti keel on Eestis väga vajalik” jms (vt ka TNS Emor 2004: 96). Võiks järeldada, et ühelt poolt peegeldavad sellised seisukohad teadvustatud vajadust osata riigikeelt ning arusaama, et eestikeelne õpe aitab tõhusamalt arendada eesti keele oskust, teiselt poolt aga isiklikku seotust Eesti riigiga. Siiski olid enamikul reformi pooldavatest õpilastest pigem instrumentaalsed kui integratiivsed motiivid oma keeleoskuse arendamiseks. Enamik neist vastas, et parem eesti keele oskus “aitab neid tulevikus” kõrgkooli sisseastumisel ja seal õppimisel ning hea töökoha leidmisel tänu omandatud kõrgharidusele. Vaid mõned õpilastest (valdavalt LAK-õppe õpilased Harjumaalt ja Ida-Virumaalt) mainisid oma vastustes, et eestikeelne aineõpe annab neile (lisa)võimalused keelepraktikaks ning hõlbustab seega suhtlemist eestlastega. Üksikutel juhtudel vastati, et reform aitab Eesti ühiskonna integratsioonile kaasa ning et eestikeelne õpe võib arendada mõtlemisprotsesse ja soodustada kakskeelsust. Ülemineku vastu olevad õpilased tõid oma vastuseisu põhjendamiseks esile väga erinevaid seisukohti. Allpool on välja toodud kõige tüüpilisemad väited.4

(1) See muudab veelgi raskemaks niigi pingelise õppimise gümnaasiumis. (2) Kes tahtis, see sai eesti keele selgeks ka ilma reformita, las siis jääb kõik endist viisi.

293 4 Artiklis toodud õpilaste väited on tõlkinud eesti keelde artikli autor. (3) Kõik õpilased ei saa vähese keeleoskuse tõttu tulla toime eestikeelse aine- õppega. (4) Head haridust võib saada ainult emakeeles õppides. (5) Vene kooli õpilaste teadmiste tase jääb madalamaks võrreldes eesti kooli õpilastega; siis on juba mõttekam eesti kooli minna. (6) Paljud sooviksid pärast gümnaasiumi lõpetamist välismaale õppima minna ning kui neil on tunnistusel halvad hinded, ei saa nad enam seda teha. (7) Kõik ei soovi ju eesti keeles õppida. Samas neile, kes ei kavatse Eestisse jääda, pole see üldse vajalik. (8) Ma arvan, et venekeelsed koolid peaksid ka jääma. (9) Igal inimesel peab olema valikuvabadus.

Leidus ka üsnagi agressiivseid mõtteavaldusi ning meie-nemad-vastandamisi. Näiteks nähti reformis “tahet venelastest vägisi eestlasi teha”, “tahet hävitada vene- keelset haridust Eestis” jms. Sageli ei oldud nõus ka sellega, et eestikeelne aineõpe algab alles gümnaasiumis (vt ka TNS Emor 2004: 104). Õpilaste arvamuste kohaselt peaks eestikeelsele õppele üleminek algama juba alg- või põhikoolis. Seevastu güm- naasiumis sooviksid õpilased pöörata rohkemat tähelepanu emakeelele ning õppida eesti keeles nende enda sõnastuses “mitte rohkem kui 50% õppeainetest”. Mõned respondendid pakkusid ka omapoolseid alternatiive kohustuslikule reformile.

(10) Oleks parem, kui eksisteeriksid nii keelekümblusgümnaasiumid kui ka tavalised venekeelsed gümnaasiumid, kus need, kellel on tahtmist, saaksid õppida mõningaid aineid eesti keeles. (11) Mulle ei meeldi, et kõik peavad õppima valdavalt humanitaaraineid eesti keeles. Paljudel oleks vaja matemaatikat või bioloogiat kõrgkooli sisse- astumisel. Ma arvan, et oleks parem, kui õpilased saaksid ise valida, kui palju ja milliseid aineid nad tahavad eesti keeles õppida. Kui vene kooli ei saa leida kõikide ainete õpetajaid, siis võiks ju käia eesti koolis seda ainet õppimas. Nii suhtleks ka eestlastega rohkem.

Niisiis oleksid vähemalt pooled küsitletud põhikoolilõpetajatest huvitatud üksikute ainete õppimisest eesti keeles. Samas eelistas enamik neist õppida suuremat osa gümnaasiumiainetest endiselt vene keeles.

LAK-õppe pedagoogide hoiakud eestikeelsele õppele ülemineku suhtes

Nagu põhikooli lõpetajadki, olid küsitletud LAK-õppe õpetajad küllaltki kriitilised gümnaasiumireformi suhtes. Vaid alla poole neist (12 õpetajat 30-st) arvas, et reform on sätestatud kujul vajalik. Kuigi uuringus osalenud õpetajate arv oli väga väike, võib siiski välja tuua, et eesti emakeelega LAK-õppe õpetajad suhtusid reformi tunduvalt soosivamalt kui nende vene emakeelega kolleegid. Reformi toetas 17 vene emakeelega õpetajast 294 neli ning 12 eesti emakeelega õpetajast kaheksa. Uuringust osavõtnud kakskeelne pedagoog ei osanud ülemineku vajalikkuse suhtes kindlat seisukohta võtta. Regionaalses lõikes olid kõige skeptilisemad Ida-Virumaa õpetajad (kokku 7), kellest toetas reformi kaks õpetajat. Harjumaa õpetajatest (kokku 13) pooldas reformi elluviimist kuus ning teiste maakondade pedagoogidest (kokku 10) neli õpetajat. Täheldatud rahvuslikud ja regionaalsed erinevused on kooskõlas varase- mate uuringute tulemustega (Proos 2005: 30, TNS Emor 2006: 7). Erialade lõikes suhtusid üleminekusse kõige positiivsemalt eesti keele ja humanitaarainete õpetajad. Reformi toetasid mõlemad uuringust osavõtnud ajalooõpetajad ja 12 keeleõpetajast seitse. Kõige kriitilisemalt olid meelestatud loodus- ja reaalainete õpetajad (kokku 7) – nende hulgas polnud ühtegi reformi toetavat õpetajat. Neljast oskus- ja loovainete õpetajast pooldas reformi üks ning viiest klassiõpetajast kaks. Mõnevõrra positiivsemad ülemineku suhtes olid need õpetajad, kellel on eesti- keelse aineõppe kogemust üle kolme aasta. Reeglina jäid sellesse kategooriasse õpetajad vanuses 36–50 aastat. Nagu õpilasedki, arvasid ka reformi toetavad õpetajad, et osa õppeainete õppimine eesti keeles aitab tulevastel gümnaasiumilõpetajatel paremini omandada riigikeelt, hõlbustab kõrghariduse saamist ning tõstab nende konkurentsivõimet tööturul. Üksikud respondendid mainisid, et gümnaasiumireform soodustab integ- ratsiooniprotsesse. Paljud olid arvamusel, et reform peab algama gümnaasiumist varasemates kooliastmetes. (12) See on ainus võimalus, et noored omandaksid riigikeele ja integreeruksid Eesti ühiskonda. (13) Muukeelsel õpilasel on endal hiljem kergem saada Eestis head haridust. (14) See oleks pidanud toimuma tasapisi ja varem, nüüd on viimane aeg, kuna see on minu meelest kindlaim võimalus, et noored omandavad keele pare- mal tasemel kui siiani. Arvan, et reform peab algama juba altpoolt, et oleks olemas baas, kui jõutakse gümnaasiumi (õpilastel on raskeid ja uusi aineid kergem õppida, kui põhikoolis on omandatud parem keeleoskus).

Reformi vastu olevad õpetajad arvasid seevastu, et planeeritud muudatused ei aita gümnaasiumilõpetajatel eesti keelt omandada tasemel, mis oleks piisav nende konkurentsivõime tõstmiseks.

(15) Minu meelest ei tõsta see venekeelsete õpilaste konkurentsivõimet, vaid ainult halvendab olukorda. (16) Kui on üks ainetund nädalas, siis selle aine õpetamine eesti keeles ei anna midagi .. Terake siit ja sealt kaob ära ja tulemust ei anna.

Samuti rõhutati, et tähtis on õpilaste enda soov eesti keeles õppida.

(17) Ma arvan, et olemasolev keelekümblusprogramm annab võimaluse nen- dele, kes on asjast huvitatud. Kohustuslikku reformi ei poolda.

Paljud olid seisukohal, et reformi elluviimiseks ei ole veel piisavalt ettevalmistusi tehtud. 295 (18) On veel vara eesti keelele üle minna. Kõigis koolides ei ole piisaval hul- gal spetsialiste ja ka spetsialistidel on vaja aega kohanemiseks. Esineb probleeme õppematerjalide, töövihikute ja lihtsalt eesti keelde suhtumi- sega.

LAK-õppe õpetajate skeptilise suhtumise on tõenäoliselt kujundanud kokkupuude mitte-emakeeles õppimise ja õpetamisega kaasnevate probleemidega. Eestikeelse aineõppe positiivsed ja negatiivsed mõjud Uuringus osalenud 279 eestikeelset õpet kogenud õpilasest 109 ehk umbes 40% avaldas arvamust, et neile väga või suurel määral meeldib õppida eesti kee- les. Umbes sama paljud väitsid, et neile eestikeelne aineõpe eriti ei meeldi, ja 18% kinnitas, et ei meeldi üldse. Vastates küsimusele “Mis sulle meeldib eesti keeles õppimise juures?”, mainisid LAK-õppe õpilased põhiliselt eesti keele oskuse efektiivsemat arenemist. Erinevalt gümnaasiumireformi pooldamise põhjustest, kus esikohal olid instrumentaalsed motiivid, domineeris siin integratiivne motivatsioon. Paljud rõhutasid, et eestikeelse aineõppe tulemusena hakkasid nad paremini eestikeelsest kõnest aru saama ja õppisid oma mõtteid ladusamalt väljendama, mis võimaldab neil enesekindlamalt suhelda eesti keeles nii teenindusasutustes kui ka sõprade ja tuttavatega. Mõne- des vastustes leiti ka, et tänu eestikeelsele aineõppele on edaspidi lihtsam õppida gümnaasiumis ja kõrgkoolis; et eestikeelne õpe soodustab kakskeelsuse arenemist ja toob kaasa “topeltkasu” – võimaldab õppida nii ainet kui ka eesti keelt. Oli ka positiivseid hinnanguid põhjustel, et õpilastele meeldib eesti keel, õpetajad, keele- kümblusprogramm või et “eesti keeles on huvitavam õppida”. Peamiseks eestikeelse õppe negatiivseks küljeks nimetasid LAK-õppes osalenud õpilased asjaolu, et võrreldes emakeelse õppega muutus õppimine raskemaks, sest lisaks aine omandamisele peavad nad meelde jätma palju eestikeelseid termineid ja kulutama palju aega tõlkimisele. Sageli mainiti ka teisi ebapiisava keeleoskusega seonduvaid raskusi (ei saa aru õpiku materjalist ja õpetaja seletustest; ei oska vastata küsimustele, sest ei suuda formuleerida oma mõtteid korrektselt; raske on kirjutada kirjandeid ja kontrolltöid, teha koduseid ülesandeid jms). Mõnikord rõhutati, et aineteadmised ja emakeele oskused jäid veidi nõrgemaks ning hinded on läinud halvemaks. Sarnaseid probleeme on täheldatud ka keelekümblusõpilaste puhul (vt Cummins, Swain 1986: 17, Asser jt 2005: 61–62). Küsitluses osalenud LAK-õppe õpetajad olid samuti arvamusel, et eesti keeles kui mitte-emakeeles õppimise põhiliseks probleemiks on keelelised raskused ning sellega kaasnev lisakoormus. Õpilastest sagedamini rõhutasid õpetajad kõrvalise abi vajadust koduste ülesannete tegemisel, ainealaste teadmiste lünklikkust ja ras- kusi mõtete korrektsel väljendamisel emakeeleski. Oluliseks probleemiks pidasid õpetajad ka keeleliselt kohandatud õppematerjalide puudumist. Üksikud LAK-õppes osalenud õpilased ja mõned nende õpetajatest tõdesid, et ebapiisava keeleoskuse tõttu võivad tekkida psühholoogilised barjäärid, langeda õpimotivatsioon ja enesekindlustunne.

(19) Mulle tundub, et vene keeles omandan teadmisi kiiremini ja ilma pingu- tusteta, aga eesti keeles suudan palju vähem kui vene keeles .. Vahel tekib abituse ja alaväärsuse tunne.

296 (20) .. Vähese keeleoskusega õpilased püüavad tunnis märkamatuks jääda. Sageli loobuvad nad isegi vastamast, sest nad kardavad öelda midagi valesti

Sageli ei meeldinud õpilastele, et nende õpetajad ei oska tõlkida termineid või ras- keid sõnu vene keelde, annavad palju kirjalikke ülesandeid, jagavad tunnis vähe selgitusi, räägivad liiga kiiresti ja kasutavad oma kõnes liiga raskeid väljendeid ning “püüavad õpetada pigem keelt kui õppeainet”. Eelkirjeldatud probleemide leevendusena nägid LAK-õpet kogenud õpilased seda, et õpetajad ei oleks väga ranged hindamisel, arvestaksid õpilaste individuaal- seid võimeid, annaksid vähem kirjalikke ja koduseid ülesandeid ning tunni lõpus esitaksid kokkuvõtte kõige vajalikumast. Paljud sooviksid, et õpetajad tõlgiksid ras- ket informatsiooni vene keelde ja lubaksid vajadusel vastata vene keeles. Sarnaseid tulemusi on saadud ka Eesti keelekümblusõpilaste uuringus (Asser jt 2005: 62). LAK-õppe pedagoogid arvasid, et probleemi lahendamiseks peab eelkõige tõhustama eesti keele õpet kõikides kooliastmetes, looma rohkem võimalusi koo- liväliseks keelepraktikaks ja alustama ettevalmistust üleminekuks juba algkoolist alates. Samuti pidasid õpetajad oluliseks vene koolidele mõeldud eestikeelsete õppematerjalide loomist ja laste õpimotivatsiooni tõstmist. Eestikeelse aineõppe põhiliseks raskuseks nimetasid õpetajad suuremat ajakulu tunni ettevalmistamisel, mis on tingitud vajadusest leida sobivat õppematerjali ja kohandada seda laste vajadustele (vt ka TNS Emor 2006: 35, 46, 79). Sealjuures rõhutasid vene emakeelega pedagoogid, et neil ei tule mitte ainult leida laste keele- oskusele vastavat õppematerjali, vaid ka “valmistada oma tund keeleliselt ette”. Samuti tekitas õpetajatele muret “osa õpilaste vastumeelsus eesti keeles õppida” ning “lapsevanemate ja kolleegide poolse toetuse puudumine” (vt ka Hausenberg, Saarso 2008: 22). Vene emakeelega õpetajad muretsesid tihti oma hääldamise ja ebatäiusliku keeleoskuse pärast. Eesti emakeelega õpetajatel esines probleeme distsipliiniga vene ja eesti laste temperamendi erinevuse tõttu. Paljud mainisid, et vajaksid suuremat eesti keeles õpetamise kogemust, selleks et lisaks põhjalikele ainealastele teadmistele arendada edukalt ka keeleoskust. Kui õpetajatel paluti nimetada mitte-emakeelse õpetamisega kaasnevaid posi- tiivseid momente, vastas enamik LAK-õppe pedagooge, et rahuldust toovad neile õpilaste head tulemused, seda nii aine kui ka keele omandamisel. Samuti tunnevad nad rõõmu, nähes õpilaste huvi aine ja eesti keele vastu ning saades positiivset tagasisidet õpilastelt ja nende vanematelt. Paljud õpetajad rõhutasid, et eesti keeles õpetamine annab neile häid võimalusi erialaseks enesearendamiseks (vt ka TNS Emor 2006: 35). Vene emakeelega õpetajad nägid eestikeelses aineõppes lisaks ka suurepärast võimalust igapäevaseks keelepraktikaks ja oma eesti keele oskuse arendamiseks. Niisiis rõõmustavad eestikeelses aineõppes osalevad õpetajad ja õpilased, nagu ka nende emakeeles õppivad ja õpetavad kaaslased, eelkõige saavutatud tulemuste üle. Mitte-emakeelse aineõppe vaieldamatuks eeliseks emakeelse aineõppe ees on võimalus omandada mitte ainult head ainealased teadmised, vaid ka märgatavalt parem teise keele oskus. Samas on mainitud lisaväärtusel ka oma hind: tuleb ületada keelelised raskused ja psühholoogilised barjäärid ning teha rohkem jõupingutusi selleks, et saavutada püstitatud eesmärgid.

297 Kokkuvõte

Uuringu tulemused näitasid, et valdav osa vene õppekeelega põhikooli lõpetajatest oli vahetult enne gümnaasiumireformi algust teadvustanud eestikeelse aineõppe praktilist ehk instrumentaalset vajadust, kuid siiski ei soovinud enamik neist õppida suuremat osa gümnaasiumiainetest eesti keeles. Vaatamata sellele, et eestikeelses aineõppes osalenud õpilaste hoiakud mitte- emakeelse aineõppe suhtes olid märgatavalt positiivsemad kui nende tavalise ainekava järgi õppinud kaaslaste seisukohad, leidus ikkagi ka nende hulgas kaks- keelse haridusmudeli vajalikkuses ja tulemuslikkuses kahtlejaid. Mõned uuringus osalenud LAK-õppe õpetajad olid samuti küllaltki skeptilised kohustusliku güm- naasiumireformi suhtes. Õpilaste kartused olid sageli tingitud hirmust harjumuspärase haridussüsteemi põhjalike muutuste ees, olles tihedalt seotud nende vanemate suhtumisega eestikeel- sesse õppesse. Eestikeelses aineõppes osalenud õpetajad olid sageli kriitilised reformi ettevalmistuse taseme suhtes ning kahtlesid selles, kas üleminek osalisele eestikeel- sele õppele aitab kõigil õpilastel omandada tunduvalt parema riigikeele oskuse. Eestikeelset aineõpet kogenud õpilaste raskused olid enamasti seotud nende ebapiisava keeleoskusega. Seega on paljud eesti õppekeelele gümnaasiumiastmes ülemineku probleemid lahendatavad õpilaste parema keelelise ettevalmistusega põhikoolis. Vene koolis eesti keeles õpetavad pedagoogid vajavad seevastu riigipoolset abi õppekirjanduse väljaandmise ja metoodikaalase täiendusõppe korraldamise näol. Samuti tunnevad nad puudust kolleegide ja lapsevanemate poolsest toetusest. Eesti keeles õpetavate pedagoogide kogemuste tõhusamaks vahetamiseks võiks näiteks luua interaktiivse veebikeskkonna, kus kogenud pedagoogid toetaksid nooremaid kolleege. Samuti võiks heaks lahenduseks olla eestikeelse õppe laiendamine põhi- kooli valikainete arvelt. Ühelt poolt tekitaks see vähem stressi kui kohustuslike ainete eesti keeles õppimine ja õpetamine, teiselt poolt annaks õpilastele eestikeelse õppe kogemuse ja võimaldaks õpetajatel arendada oma professionaalseid ning vajadusel ka keelelisi oskusi. Reformi esimesed aastad on kindlasti katsetamise ja samas ka õigete lahenduste leidmise aeg. Tahaks loota, et esilekerkivad raskused leiavad õigeaegse lahenduse ning järgmistel aastatel muutub prioriteediks veelgi tõhusamate õppemeetodite väljatöötamine, mitte aga enam hoiakute ja keeleoskuse temaatika.

Viidatud kirjandus Asser, Hiie 2001. Keelekeskkonna ja õppekava mõju vene kooli õpilaste eesti keele oskusele 1994–1999. – Kasvatus ja aated, 11, 7–16. Asser, Hiie 2003a. Varajane osaline ja täielik keeleimmersioon eesti muukeelse hariduse mudelitena. Dissertationes pedagogicae Universitatis Tartuensis 3. Tartu: Tartu Ülikooli Kirjastus. Asser, Hiie 2003b. Tendentsid ja tingimused muukeelse kooli arenguks Eestis. http://www. hm.ee/ (20.06.2006). Asser, Hiie; Küppar, Maire; Kolk, Peeter 2005. Keelekümblusõpilaste õpitulemuste ja lapse- vanemate hinnangute uuring. Uurimise aruanne. Õppeaasta 2004/05. Tartu. www. kke.ee (21.08.2006). 298 Baker, Colin 2006. Foundations of Bilingual Education and Bilingualism. Fourth edition. Clevedon: Multilingual Matters Ltd. Cummins, Jim; Swain, Merrill 1986. Bilingualism in Education: Aspects of Theory, Research and Practice. London, New York: Longman Group Limited. EHIS = Eesti Hariduse Infosüsteem. Haridus- ja Teadusministeerium. Hausenberg, Anu-Reet; Saarso, Kristi 2008. Eesti kirjanduse õpetamine eesti keeles. – Hari- dus, 9/10, 17–23. Läänemets, Urve 2002. Multikultuursus ja muukeelse kooli üleminek kakskeelsele õppe- kavale. Tallinn: Jaan Tõnissoni Instituut. Mehisto, Peeter; Marsh, David; Frigols, María Jesús 2008. Uncovering CLIL: Content and Language Integrated Learning in Bilingual and Multilingual Education. Oxford: Macmillan Publishers Limited. Pavelson, Marje; Vihalemm, Triin 2002. The Russian child in the Estonian language school. – Marju Lauristin, Mati Heidmets (Eds.). The Challenge of the Russian Minority: Emerging Multicultural Democracy in Estonia. Tartu: Tartu University Press, 265–276 PGS 1993 = Põhikooli- ja gümnaasiumiseadus. Riigi Teataja, I 1993, 63, 892. PGS 1997 = Põhikooli- ja gümnaasiumiseaduse § 52 muutmise seadus. Riigi Teataja, I 1997, 69, 1111. PGS 2000 = Põhikooli- ja gümnaasiumiseaduse §-de 9 ja 52 muutmise seadus. Riigi Teataja, I 2000, 33, 195. Proos, Ivi 2005. Eestivenelaste keeleoskus ja suhtumine 2007. aasta gümnaasiumireformi. Uuringu “Integratsiooni monitooring 2005” aruanne. Tallinn: TLÜ Rahvusvaheliste ja Sotsiaaluuringute Instituut, 20–32. http://www.meis.ee/pictures/terve_aruanne. pdf (18.07.2007). Rannut, Ülle 2001. Varase keelekümbluse ja eesti keele kui teise keele õppe teooria ja praktika. Magistritöö. Tallinn: Tallinna Ülikool. Rannut, Ülle 2003. Muukeelsete õpilaste integreerimine eesti koolis. Õpik kõrgkoolile ning muukeelsete õpilastega töötavale aine- ja klassiõpetajale. Tallinn: Tallinna Pedagoogikaülikooli Kirjastus. Rannut, Ülle 2005. Keelekeskkonna mõju vene õpilaste eesti keele omandamisele ja integ- ratsioonile Eestis. Tallinn: Tallinna Ülikooli Kirjastus. RÕK 2007 = Vabariigi Valitsuse määrus nr 235. Määruse nr 56 “Põhikooli ja gümnaasiumi riiklik õppekava” muutmine. Riigi Teataja, I 2007, 61, 392. Skutnabb-Kangas, Tove; McCarty, Teresa 2008. Key concepts in bilingual education: Ideo- logical, historical, epistemological, and empirical foundations. – Jim Cummins (Ed.). Encyclopedia of Language and Education. Volume 5: Bilingual Education. New York: Springer, 3–17. TNS Emor 2004 = Eestikeelne aineõpe vene õppekeelega koolides: hetkeolukord ja vajadused. November–detsember 2004. TNS Emor. http://www.hm.ee/ (08.05.2005). TNS Emor 2006 = Eestikeelne aineõpe vene õppekeelega koolides: hetkeolukord ja vajadused. November–detsember 2006. TNS Emor. http://www.hm.ee/ (11.07.2007). Valk, Aune 1998. Mitte-eesti noorte psühholoogiline kohanemine mitmerahvuselises klassis: enesehinnang ja etniline identiteet. Tartu: Tartu Ülikool. Vare, Silvi 1999. Eesti keele õpetamine vajab uuendamist. – Silvi Vare (koost., toim.). Kee- lekümblus kui integratsioonivõti. Projekti “Keelekümblus kui integratsiooni võti” väljaanne. Tallinn: Haridusministeerium, 45–56. Vare, Silvi 2004. Eesti keel vene koolis. Haridus- ja Teadusministeerium. Eesti keelenõukogu. Tallinn: Eesti Keele Sihtasutus. Vare, Silvi 2006. Vene koolide valmisolekust üleminekuks eesti õppekeelega gümnaasiumile 2007. aastal. – Eesti Rakenduslingvistika Ühingu aastaraamat, 2, 303 –326. 299 Vassiltšenko, Larissa; Pedastsaar, Tiia; Soll, Maie; Kala, Ulve; Kera, Silvia 1998. Venekeelse kooli erinevate mudelitega seotud ootused ja kartused haridussubjektide seas. – M. Lauristin, S. Vare, T. Pedastsaar, M. Pavelson (toim.). Mitmekultuuriline Eesti: väljakutse haridusele. Projekti “Mitte-eesti noorte integratsioon Eesti ühiskonnas” väljaanne (VERA II). Tartu: Tartu Ülikooli Kirjastus, 149–186.

Natalia Vaiss (Jyväskylä Ülikool). Uurimisvaldkondadeks on eesti keele verbiaspekt ning kakskeelne haridus. [email protected]

300 ATTITUDES OF RUSSIAN-MEDIUM SCHOOL LEARNERS AND THEIR TEACHERS TOWARDS PARTIAL ESTONIAN LANGUAGE INSTRUCTION BEFORE IMPLEMENTATION OF THE EDUCATION REFORM IN 2007

Natalia Vaiss University of Jyväskylä

This article is concerned with the development of bilingual education in Estonia. The extended use of CLIL (Content and Language Integration Learning) in the Estonian school system is related to a recently implemented education reform. According to this reform as of the 2007–2008 academic year, Russian-medium upper secondary schools began teaching one subject in Estonian. Furthermore, every forthcoming academic year, one additional subject is required to be added to the curriculum taught in Estonian until the offi cial language instruction reaches a minimum limit of 60 per cent in the 2011–2012 academic year. The present article is aimed at highlighting select fi ndings of a study conducted around 4–9 months before implementation of the education reform. The research data was gathered with the help of online questionnaires. Participants included 30 CLIL teachers and 815 Russian-speaking ninth grade students. The sample represented not only students from different parts of Estonia but also CLIL and non-CLIL students. This article focuses on exploring the attitudes of Russian-speaking ninth grade students and of Estonian CLIL teachers towards the education reform and study- ing in Estonian as a non-native language. Different aspects of student and teacher experience with CLIL are also analyzed, and both sides of CLIL – the positive and the negative – are shown from the respondents' perspective. The results revealed that about a half of the ninth grade students participating were psychologically ready to study a few subjects in Estonian at upper secondary school. However, most of the respondents preferred to continue their studies at upper secondary school in Russian as the main language of instruction. Analys- ing the factors promoting the development of positive student attitudes towards learning in Estonian as a second language, some regional differences as well as some differences in the opinions of CLIL and non-CLIL students, in favour of CLIL students, were revealed. Some of the Estonian CLIL teachers were against the implementation of the obligatory education reform, mostly due to their previous experience with CLIL.

Keywords: bilingual education, education reform, second language acquisition, Estonian as a second language

301

JOHANNES SILVETI “INGLISE-EESTI SÕNARAAMAT”: KOLME VÄLJAANDE VÕRDLUS

Enn Veldi

Ülevaade. Käesolev uurimus kuulub sõnastikuajaloo ja sõnastikuvõrd- luse valdkonda. Johannes Silveti (1895–1979) “Inglise-eesti sõnaraamat”

on tuntuim inglise-eesti sõnaraamat. Uurimuse eesmärk on käsitleda 5, 303–312 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT sarnasusi ja erinevusi sõnaraamatu kolmes esimeses väljaandes. Käsit- lus põhineb sõnastiku nelja segmendi võrdlusel (checked–chimneypot, heap–hedgehog, pressure–primitive ja turquoise–Tzigany ). Silveti sõnaraamatu kolm esimest väljaannet on kumulatiivsed selles mõttes, et uus materjal lisandub vanale materjalile. Segmentide võrdlus näitas 2,8% kasvu sõnaraamatu teises ja 25% kasvu kolmandas väljaandes. Nii teises kui ka kolmandas väljaandes välja jäetud märksõnade arv on väike. Teise väljaande puhul saab väita, et osa lisandusi ja väljajätte tehti ideoloogilistel kaalutlustel. Kolmanda väljaande probleem seisneb aga selles, et kuigi sõnaraamat on võrreldes teise väljaandega tublisti kasva- nud, jääb ta ajale jalgu. Võimalikud on kaks lahendust – kas sõnaraamat radikaalselt ümber töötada või koostada täiesti uus sõnaraamat. Võtmesõnad: sõnastikuajalugu, kakskeelne leksikograafi a, sõnastiku- võrdlus, inglise keel, eesti keel

Sissejuhatus

Reinhard R. K. Hartmann on liigitanud sõnastiku-uuringud viide peamisse vald- konda: ajalugu, kriitika, struktuur, tüpoloogia ja kasutamine (Hartmann 2001: 30–31). Käesolev uurimus kuulub peamiselt sõnastikuajaloo valdkonda. Siiski on kokkupuutepunkte ka sõnastikukriitika ja sõnastiku struktuuriga, sest vaatluse all on nii koostaja kui ka sõnastiku profi il. Hartmanni järgi on sõnastikuajaloo uurimisel omakorda vähemalt seitse erinevat lähenemisviisi: universaal-antro- poloogiline, diakroonilis-keeleline, kultuuriajalooline, žanrispetsiifi lis-ajalooline, genealoogiline, personaalbiograafi line ja historiograafi line (Hartmann 2001: 40). 303 Siinses käsitluses on olulisemad neist kolm: diakroonilis-keeleline (keelemuutuste kajastus sõnastikus), žanrispetsiifi lis-ajalooline (kakskeelne sõnaraamat) ja perso- naalbiograafi line lähenemisviis (leksikograafi tegevus). Johannes Silveti (1895–1979) leksikograafi line pärand väärib teaduslikku uuri- mist mitmel põhjusel. Esiteks on kakskeelse leksikograafi a ajalugu tunduvalt vähem uuritud kui ükskeelse leksikograafi a ajalugu (Hartmann 2001: 132), inglise-eesti ja eesti-inglise sõnastikke pole aga süstemaatiliselt üldse uuritud. Teiseks annab Silveti “Inglise–eesti sõnaraamat” hea võimaluse võrrelda ühe sõnastiku eri välja- andeid. Wolfgang Rettigi (1976: 140–141) arvates aitab sõnastiku uute ja eelmiste väljaannete võrdlus vastata kolmele olulisele küsimusele: 1) milline on muutuste ulatus uues väljaandes, 2) missugustel muutustel lasub raskuspunkt, 3) kuidas on lisandused ja väljajätud trükitehniliselt vormistatud. J. Silvet koostas lisaks alg- väljaandele (1939–1940, edaspidi SILVET 1) kaks täiendatud ja ümbertöötatud väljaannet (1948–1949, edaspidi SILVET 2; 1989, edaspidi SILVET 3).1 Esimene ja teine ilmusid vihikutena, kolmas väljaanne ilmus kahes köites kümme aastat pärast autori surma.. Märkimisväärne on seegi, et ajavahe teise ja kolmanda vahel on nelikümmend aastat, mis võimaldab jälgida tunnustatud leksikograafi aastaküm- neid kestnud tööd sõnaraamatu täiendamisel ja ümbertöötamisel. Esimese ja teise väljaande ajavahe oli kümme aastat. Johannes Silvet ise on kirjeldanud oma tööd sõnaraamatu kolme väljaande kallal 1976. aastal ilmunud artiklis (Silvet 1976).

Märksõnade loendamise metoodika

Et jälgida lähtekeele (inglise keele) märksõnastiku (makrostruktuuri) muutumist sõnaraamatu kolmes väljaandes, valisin neli segmenti tähestiku erinevatest osa- dest (checked–chimneypot, heap–hedgehog, pressure–primitive ja turquoise– Tzigany), mille põhjal koostasin kolme väljaande märksõnaloendid. Märksõnade loendamisel lähtusin Sidney I. Landau (2001: 109–114) kriteeriumidest, loendades üldjuhul koostisosi, mis olid esitatud poolpaksus kirjas (sidekriipsu ja tilde abil lühendatud sõnavormid ja mitmesõnalised ühendid kirjutasin täiskujul välja). Otstarbekas oli hõlmata ka näitefraasid ja -laused, sest neid pole Silveti sõnaraama- tus palju, samas võimaldavad nad näha huvitavaid kokkupuutepunkte kasutatud leksikograafi liste allikatega. Märksõnaloendisse kaasasin järgmised üksused: • põhimärksõnad, nt type-write; • sama põhimärksõna eraldi tähendusena antud sõnaliigid, nt chicken on loendatud kolme märksõnana: 1) ‘tibu, kanapoeg’; 2) ‘arg’; 3) chicken out ‘verest ära lööma, araks lööma’. Ühe sõnatähenduse juures antud tegusõna sihilist ja sihitut kasutust eraldi märksõnaks ei ole loetud; • põhimärksõna ortograafi lised variandid, nt praetorian (sub pretorian), nt -ity, -ety (sub -ty); • põhimärksõna sünonüümid ja regionaalsed teisendid, nt double-cross (sub two-time), pretence (sub pretense); • põhimärksõna (ebareeglipärased) muutevormid, nt type-wrote, type-writ- ten (sub type-write), tympana (sub tympanum) (vähemad tüvemuutused jätsin loendamata: nt kahe sidekriipsu abil esitatud -tt- sub twit);

304 1 Käesolev uurimus ei käsitle 2002. aastal ilmunud J. Silveti “Inglise-eesti sõnaraamatu“ neljandat väljaannet (SILVET 4), mille võrdlus kolmanda väljaandega väärib eraldi käsitlust. • allmärksõnana esitatud tuletised, nt typically (sub typical), typifi able (sub typify); • sõnaosade (nt liidete) artiklis allmärksõnana esitatud näitesõnad, nt gene- rosity, obscenity, polarity, propriety, variety (sub -ty); • ühendverbid, väljendid, fraseologismid, vanasõnad, nt to prick in (off) (or out) (sub prick), pride of place (sub pride), twist and turn (sub twist); • ingliskeelne näitestik, nt to work at high (low pressure), he did it under pressure. Tabel 1. Märksõnade arv sõnaraamatu kolmes väljaandes (sulgudes kasv võrreldes eelmise väljaandega)

Segment SILVET 1 SILVET 2 SILVET 3 checked–chimneypot 265 273 (+ 3,0%) 333 (+ 25,7%) heap–hedgehog 192 196 (+ 2,1%) 234 (+ 21,9%) pressure–primitive 214 223 (+ 4,2%) 262 (+ 22,4%) turquoise–Tzigany 297 303 (+ 2,0%) 384 (+ 29,3%) Kokku 968 995 (+ 2,8%) 1213 (+ 25%)

Tabel 1 näitab märksõnade arvu kasvu sõnaraamatu teise ja kolmanda väljaande kõigis neljas uuritud segmendis. Märksõnaloendid on elektrooniliselt hõlpsasti võrreldavad. Mis järelduse saab nende andmete põhjal teha? Sõnaraamatu kolme väljaande võrdlus näitab märksõnade arvu järk-järgulist suurenemist. Kasv on märgatavalt suurem kolmandas väljaandes ja on seletatav pikema tööperioodiga selle väljaande ettevalmistamisel. Võrdluseks võib tuua George A. Milleri andmed inglise üks- keelsete sõnaraamatute kohta, kus nelja sajandi jooksul on märksõnastik kasvanud 2500 märksõnast kuni 600 000 märksõnani (Miller 1991: 135). Selliste mahtude valguses seisab suure inglise-eesti sõnaraamatu koostamine meil alles ees. Järgnevalt käsitlen esimese väljaande (SILVET 1) koostamise leksikograafi list tausta ning teise ja kolmanda väljaande võrdlemisel ilmnenud muutusi.

SILVET 1

Sõnaraamatu aluseks oleva sõnasedelite kartoteegi jaoks hakkas J. Silvet materjali (sõnavara ja fraseoloogiat) koguma juba 1924. aastal (Silvet 1976: 148). SILVET 1 sündis 1930-ndate aastate leksikograafi lises keskkonnas. Kasutatud allikate nime- kiri näitab, et autor oli hästi kursis tolleaegsete sõnaraamatute ja leksikograafi liste suundadega. Kõige olulisemaks tolleaegseks sõnaraamatuks pean “The Concise Oxford Dictionary of Current English” kolmandat väljaannet (COD 3), mille tas- kuväljaanne on Silveti toodud nimekirjas esimene. Selle sõnaraamatu (esimene väljaanne ilmus 1911) koostasid vennad H. W. Fowler ja F. G. Fowler suure Oxfordi sõnaraamatu põhjal. Kahtlemata oli COD 3 omal aja kohta usaldusväärne inglise keele sõnaraamat, mida tasus eeskujuks võtta. Samas esindab COD 3 ajaloolise sõnaraamatu traditsiooni selles mõttes, et kõigepealt tuuakse ära sõna esialgne tähendus, mis ei pruugi kaasaajal enam käibel ollagi. Sobiv näide on siinkohal sõnaartikkel slogan:

305 COD 3: slogan, n. (Sc.). Highland war-cry; party cry, watchword, motto. SILVET 1: slogan s. (eriti šoti mägilaste) lahinguhüüd; (erakonna) juhtlause; (reklaami) juhtlause; lööksõna SILVET 2: slogan s. (eriti šoti mägilaste) lahinguhüüd; loosung, juhtlause; (reklaami) hüüdlause; lööksõna SILVET 3: slogan s. (er. šoti mägilaste) lahinguhüüd; loosung, juhtlause; hüüdlause; lööklause

COD 3, samuti selle taskuvariandi (“Pocket Oxford Dictionary”) mõju Silveti sõnaraamatule on märgata näitefraaside ja -lausete sarnasuses. Nendest lähtu- mist tunnistas ka Silvet ise, kui ta kirjutas, et “oma fraseoloogiliselt koosseisult tugineb käesolev sõnaraamat veelgi rohkem kui sõnavara-valikult tuntud “Pocket Oxford Dictionary’le”, kuigi on laenatud materjali ka paljudest teistest allikatest” (SILVET 1: 5). Vrd näiteks:

COD 3: features twisted in pain (sub twist) SILVET 1: his features were ~ed in pain ‘ta näojooned olid valust moondunud’ (sub twist) COD 3: t. can play at that game ‘threat of retaliation’ (sub two) SILVET 1: ~ can play at that game ‘sellesamaga võib mõni teine ka hakkama saada (ähvardus samaga tasuda)’ (sub two)

COD 3 suur voorus on defi nitsioonide lühidus ja täpsus. COD 3 mõju Silveti sõna- raamatule on tunda seletustega varustatud pärisnimeartiklite puhul, nt

COD 3: Tyburn, n. (hist.) Place of execution in London; T. ticket (hist.), exemption from parish offi ces &c. granted to one who prosecuted a felon to conviction; T. tippet, halter; T. tree gallows. Hence SILVET 1: Tyburn pn. (endine roimarite hukkamispaik Londonis) ║ ~ tree võllas COD 3: Tyburnia n. fashionable London district north of Hyde Park. SILVET 1: Tyburnia pn. (moodne aristokraatlik linnaosa Lääne-Londo- nis)

Lisaks seletustega varustatud pärisnimedele leidub Silveti sõnaraamatus aga palju teisigi pärisnimesid. Näiteks märksõna Tyburnia järel on hulk ilma seletuseta esi- tatud pärisnimesid: Tycho, Tydeus, Tyldesley, Tyler, Tyndale. Need pärisnimed puuduvad ka COD 3-s – seega pärinevad nad kuskilt mujalt. Mõningase mõtlemise järel leidsin, et Silvet võis need pärisnimed ära tuua põhjusel, et nende hääldus leidub Daniel Jonesi koostatud hääldussõnaraamatus “Everyman’s English Pro- nouncing Dictionary” (Jones 1958). Johannes Silvet oli kursis 1920-ndate ja 1930-ndate aastatel saadud tulemus- tega sõnasageduste kohta. Näiteks kirjutab ta SILVET 1 eessõnas järgmist: Sõnatuletistest ja liitsõnadest oleks muidugi võimatu sõnaraamatus anda kõiki. On valitud kõigepealt need, mis kuuluvad statistiliselt sagedaimate hulka (valikul tuginedes Thorndike’i sõnaraamatule, kus on antud esimese 20 tuhande sagedaima ingliskeelse sõna sagedusindeksid), või antud need, mille tähendus ei ole tüvisõnade tähenduse teada olles ilma pikema jututa selge. (SILVET 1: 6)

306 Tänapäeval ollakse üldiselt arvamusel, et tolleaegsed tulemused sõnasageduse kohta olid piisavalt täpsed esimese tuhande kõige sagedama sõna kohta – ülejäänute osas erinesid andmed oluliselt, sõltudes kasutatud allikatest (Cowie 1999: 16).

SILVET 2 vs. SILVET 1

SILVET 2 ilmus kaheksa aastat pärast SILVET 1 uutes ühiskondlikes oludes. Muutusi ei ole küll palju, aga osa neist kannab nõukogude korra pitserit. Nii näitab uuritud segmentide võrdlus, et sõnaraamatust on eemaldatud religiooniga seon- duvaid märksõnu ja näitelauseid (näites alla joonitud), nt:

SILVET 1: Hebrew 1. s. heebrealane, vanaaegne juut; (Am.) juut; heebrea keel, muistne juutide keel; 2. a. heebrea, heebreakeelne; (Am.) juudi ║ Epistle to the ~ s (nn. Pauluse ) Kiri heebrea rahvale, “Heebrea rahva raamat” SILVET 2: Hebrew 1. s. heebrealane, vanaaegne juut; (Am.) juut; heebrea keel, muistne juutide keel; 2. a. heebrea, heebreakeelne; (Am.) juudi SILVET 1: chiliasm s. kiliasm, usk (Kristuse) tuhande-aastasse rahuriiki enne viimset kohtupäeva (vrd. millennium) SILVET 2: (märksõna chiliasm puudub) SILVET 1: prevenient a. (haruld.) vastutulev, eelnev ║ ~ grace (teol.) patu- kahetsusele või patustpöördumisele eelnev Jumala arm SILVET 2: prevenient a. (haruld.) vastutulev, eelnev SILVET 1: primitive 1. a. primitiivne, algeline, algaegne, alg-; vähearenenud, lihtne, lihtis, liht-; 2. s. primitiiv, primitiivses stiilis maalija või maal(ing); tüvisõna (~ word) ║ ~ Church kristlik algkirik, varane kristlik kirik; P- Methodists a. 1812 tekkinud metodistlik usulahk; ~ painters (pictures) ennerenessansiaegsed maalikunstnikud (maalid); ~ colour = primary colour SILVET 2: primitive 1. a. primitiivne, algeline, algaegne, alg-; vähearenenud, lihtne, lihtis, liht-; 2. s. primitiiv, primitiivses stiilis maalija või maal(ing); tüvisõna, mittetuletatud sõna (~ word) ║ ~ painters (pictures) ennerenes- sansiaegsed maalikunstnikud (maalid); ~ colour = primary colour

Nõukogude korra tingimustes tuli aga laiendada sellele ühiskonnakorrale oluliste reaalide kajastamist sõnaraamatus (näites alla joonitud), nt

SILVET 1: communist s. kommunist; (atrib.) kommunistlik (näit. partei, valitsuse jne. kohta) SILVET 2: communist s. kommunist; (atrib.) kommunistlik ║ C- Manifesto kommunistlik manifest; C- Party of Great Britain Suurbritannia Kom- munistlik Partei; C- Party of the Soviet Union (Bolsheviks) Üleliiduline Kommunistlik (bolševike) Partei; Young ~ League Kommunistlik Noor- sooühing

Seega vahetus osa sõnavara SILVET 2-s ideoloogilistel kaalutlustel. Ometi ei saa väita, et teisi parandusi ja täiendusi pole. Lisatud on näiteks:

307 ~’s shop apteek (sub chemist) to cash a ~ tšekki kasseerima, tšeki järgi raha saama (sub cheque) ~-stone kirsimarja-kivi; (Am.) teatav söödav merikarp (sub cherry) Cherbourg pn. Ches. (lüh.) = Cheshire chesty a. rinnakas; (Am. sl.) upsakas, uhke chewing-gum s närimiskummi

Mõnel juhul on lisandunud uus tähendus (näites alla joonitud):

SILVET 1: chic a. šikk, peen, peenemoeline SILVET 2: chic 1. a. šikk, peen, peenemoeline; 2. s. šikk, peenemoelisus

J. Silvet ise selgitas erinevusi esimese ja teise väljaande vahel järgmiselt:

Silveti sõnaraamatu teine trükk ilmus aastail 1948–1949, ka vihkude kaupa. Märkus «Parandatud ning täiendatud» on kõigiti õigustatud, kuigi esimesel pilgul võib näida, et täiendusi ei saa olla, kuna lehekülgede arv on esimeses trükis 1207, teises aga 1184. Kui aga võrrelda esimese ja teise trüki teksti, siis on ilmne, et teises trükis on märksa rohkem olulisi ning eriti nüüdisaegse anglo-ameerika keelepruugi mõistmiseks vajalikke märksõnu kui esimeses trükis. Ruumi on võidetud tarbetute seletuste ja ebaoluliste märksõnade kus- tutamise arvel. Samuti on püütud täpsustada ning keeleliselt revideerida eesti tõlkevasteid. (Silvet 1976: 149)

SILVET 3 vs. SILVET 2

SILVET 3 ilmus 1989. aastal, kümme aastat pärast autori lahkumist manalateele. Selleks ajaks oli esimese väljaande ilmumisest möödunud viiskümmend aastat. J. Silvet oli kolmandat väljaannet ette valmistanud kolmkümmend aastat. Külas- tasin J. Silvetit koos kolleeg Ilmar Anveltiga 1978. aasta suvel tema Elva kodus. Mäletan tollasest külaskäigust seda, et J. Silvet oli oma sõnaraamatu lehthaaval kleepinud mõnevõrra suurematele paberilehtedele ning lisas sinna parandusi ja täiendusi. Võrreldud nelja segmendi alusel kasvas SILVET 3 märksõnade arv võr- reldes SILVET 1-ga umbes 25 protsenti (vt tabel 1). Millised erinevused tunduvad olulised? Esiteks torkab silma, et J. Silvet lisas kolmandasse väljaandesse arvestatava hulga taimenimetusi, nt viis lisandunud taimenimetust sõnaartiklis cherry (vt näide 1) (osutatud muutused on näidetes alla joonitud). Märkigem sedagi, et cherry-pie ja cherry-stone on uues väljaandes pesast välja võetud ning on antud eraldi. Lisan- dunud on valdkonnamärgend bot. ja ka trükitehniliselt on kõik märksõnad nüüd rasvases kirjas. Teiseks on lisandunud uusi teaduse- ja tehnikatermineid (näide 2). Kolmandaks leiame SILVET 3-s arvukalt muidki sõnu, mida SILVET 2-s veel pole, nt central heating ‘keskküte’, turtle-neck ‘rullkaelus; rullkaelusega kampsun’, tele- vision, TV ‘televisioon; televisiooniaparaat’ jt. Neljandaks on laiendatud Ameerika inglise keele osa sõnaraamatus (näide 3). Ameerika reaalid on ka näiteks Tennessee Valley Authority, TVA ja toidunimetus chilli con carne. Viiendaks on lisandunud 308 mõned kohanimed, nt Heathrow ja Tuvalu. Kuuendaks on täpsustatud ja täienda- tud grammatilisi vorme (näide 4). Seitsmendaks on märgata mõningaid erinevusi sõnade õigekirjas, nt SILVET 2 tussock-grass, SILVET 3 tussock grass. Sisse on lipsanud trükiviga chevel-glass pro cheval-glass ‘(suur) pöördpeegel’.

(1) cherry 1. s. kirss, kirsipuu või -mari; 2. a. kirsipunane ◊ to make two bites at (or of) a ~ kõhklema, kõhelema; ~ brandy kirsiliköör; crab ~ bot. magus kirsipuu; ~ apple bot. ida-mariõunapuu; ~ birch bot. suhkrukask; ~ laurel bot. loorberkirsipuu; ~ plum bot. haraline ploomipuu, alõtša; ~ ripe! küpsed kirsid! (tänavamüüja hüüd; tuntud inglise rahvalaule algussõnad) (2) chemical 1. a. (-lly) keemiline, keemia-; 2. s. kemikaal, keemiline aine ◊ ~ engineering keemiline tehnoloogia; ~ warfare keemiasõda tweeter s. raad. fam. «piuksuja», piiksuva heliga (väike valjuhääldi) (3) tycoon s. Am. fam. rahatuus, suurtööstur või börsimagnaat, suurkapitalist, suurnik (4) chef-d’oeuvre s. pr. (pl. chefs-d’oeuvre, ka chef-d’oeuvres) kunst šedööver, meistriteos, peateos, suurteos. Paradoksaalne on aga see, et kuigi SILVET 3 sisaldab arvukalt lisandusi võrreldes teise väljaandega, oli SILVET 3 juba ilmumise hetkel tublisti ajast maha jäänud. Selles on kerge veenduda, kui sirvida John Ayto (1999) 20. sajandi inglise keele sõnaraamatut, kus uued sõnad ja tähendused on esitatud aastakümnete kaupa. Järgnev valik uusi sõnu ja tähendusi tuli inglise keelde 1960-ndatel aastatel (esma- esinemus Ayto järgi), kuid neid me J. Silveti sõnaraamatus ei leia: acid (1966) ‘LSD, inform hape’, African-American (1969) ‘afroameeriklane’, Afro (1966) ‘afrosoeng’, ageism, agism (1969) ‘vanuseline diskrimineerimine’, anchor (1961) ‘uudisteankur’, Beatlemania (1963) ‘biitlimaania’, be-in (1967) ‘hipide kogunemine’, blow-dry (1966) ‘fööniga kuivatama’, blusher (1965) ‘põsepuna’. Sellest probleemist kirjutas ka Jaak Rähesoo oma SILVET 3 arvustuses, kes leidis, et “võrreldamatult suurem on nende viimastel aastakümnetel üldtuttavaks saanud keelendite hulk, mis sealt puuduvad” (Rähesoo 1990: 375). Seega seisneb SILVET 3 probleem selles, et kuigi sõnaraamatu kolmanda väljaande maht on võrreldes esimese väljaandega kasvanud umbes 25 protsenti, pole paljud vahepeal käibele tulnud sõnad ja tähendused seal kajastust leidnud. Huvitaval kombel on 20. sajandi jooksul inglise keele sõnavara hinnanguliselt kasvanud samuti 25 protsenti (Ayto 1999: iii). Seega oleks olnud vaja sõnaraamatut 1960-ndatel ja 1970-ndatel aastatel hoopis radikaalsemalt uuendada pärast Teist maailmasõda toimunud muutuste kajastamisel ning palju rohkem aktuaalsust kaotanud materjali kõrvale heita. Ei saa väita, et J. Silvet pole oma sõnaraamatut vähem olulisest materjalist puhastanud, nt

SILVET 2: Chelsea pn. ║ ~ Hospital invaliidide ja vanade sõdurite kodu Londonis SILVET 3: Chelsea pn. SILVET 2: chevy, chivy (fam.) 1. s. tagaajamine, -kihutamine; (poiste tagaaja- mis-mäng; teatav inglise jahihüüd; 2. v.t. & i. taga ajama, (taga) kihutama; (haril. chivy) tööga või muredega vaevama ║ C- Chase tuntud inglise 309 rahvaballaad, mis käsitleb a. 1388 asetleidnud lahingut Šoti-Inglise piiril SILVET 3: chevy, chivy, chivvy fam.1. s. tagaajamine, (taga)kihuta- mine, (poiste) tagaajamismäng; teatav inglise jahihüüd; 2. v.t. & i. taga ajama, (taga) kihutama; (haril. chivy) «sõitu tegema», tagant kihutama, tööga vaevama Samas on selliste muutuste arv tagasihoidlik ja pigem kumab läbi alateadlik soov võimalikult palju senist materjali alles jätta. Uurimist vajab see, millisel määral muutus samal ajavahemikul J. Silvetile eeskujuks olnud “The Concise Oxford Dictionary of Current English”. On teada, et seda sõnaraamatut uuendati radikaal- selt kuuenda väljaande jaoks, mis ilmus 1976. aastal. J. Silvetil oli kasutada selle sõnaraamatu viies väljaanne, mis ilmus 1964. aastal (SILVET 3: 7). Võib oletada, et J. Silvet jätkas oma elu lõpuaastatel sõnaraamatu täiendamist vanas vaimus, samal ajal kui talle eeskujuks olnud sõnaraamatute uued väljaanded tegid läbi kiireid muutusi. Näiteks COD 7, mis ilmus 1982. aastal, ei sisalda enam COD 3-st SILVET 1 sisse võetud pärisnimesid Tyburn ja Tyburnia. SILVET 3-s (ja ka SILVET 4-s) on need märksõnad endiselt sees.

Kokkuvõtteks

J. Silveti “Inglise-eesti sõnaraamatu” kolme väljaande võrdlus pakub palju mõtteai- net. Nelja segmendi (checked–chimneypot, heap–hedgehog, pressure–primitive ja turquoise–Tzigany) võrdlus sõnaraamatu kolmes esimeses väljaandes näitas 2,8% kasvu teises ja 25% kasvu kolmandas väljaandes. Teise väljaande puhul saab väita, et osa lisandusi ja väljajätte tehti ideoloogilistel kaalutlustel. J. Silveti sõnaraamatu kolm esimest väljaannet on kumulatiivsed selles mõttes, et uus materjal lisandub vanale materjalile juurde. Kolmanda väljaande probleem seisneb selles, et kuigi sõnaraamat on võrreldes teise väljaandega tublisti kasvanud, jääb ta ajale jalgu. Võimalikud on kaks lahendust – kas sõnaraamat radikaalselt ümber töötada või koostada täiesti uus sõnaraamat.

Viidatud kirjandus Ayto, John 1999. Twentieth Century Words. Oxford: Oxford University Press. COD 3 = Fowler, H. W.; le Mesurier, H. G. 1934. The Concise Oxford Dictionary of Current English. Third edition. Oxford: Oxford University Press. COD 7 = Sykes, J. B. (Ed.) 1982. The Concise Oxford Dictionary of Current English. Seventh edition. Bombay, Delhi, Calcutta, Madras: Oxford University Press. Cowie, A. P. 1999. English Dictionaries for Foreign Learners: A History. Oxford: Oxford University Press. Hartmann, Reinhard R. K. 2001. Teaching and Researching Lexicography. Harlow: Pearson Education. Jones, D. 1958. Everyman’s English Pronouncing Dictionary. Eleventh edition. London: J. M. Dent & Sons. Landau, Sidney I. 2001. Dictionaries. The Art and Craft of Lexicography. Second edition. Cambridge: Cambridge University Press. Miller, George A. 1991. The Science of Words. New York: Scientifi c American Library. Rettig, Wolfgang 1976. Ein Verfahren zum Vergleich von Wörterbuchaufl agen. – Zeitschrift für romanische Philologie, 92, 138–149. 310 Rähesoo, Jaak 1990. Arvustuse asemel. – Keel ja Kirjandus, 6, 374–375. SILVET 1 = Silvet, Johannes 1939–1940. Inglise-eesti sõnaraamat. Tartu: Eesti Kirjanduse Selts. SILVET 2 = Silvet, Johannes 1948–1949. Inglise-eesti sõnaraamat. Tartu. SILVET 3 = Silvet, Johannes 1989. Inglise-eesti sõnaraamat I-II. Kolmas trükk. Tallinn: Valgus. SILVET 4 = Silvet, Johannes 2002. Inglise-eesti sõnaraamat. 4. täiendatud ja ümbertöötatud trükk. Tallinn: TEA. Silvet, Johannes 1976. Kuidas valmis inglise-eesti sõnaraamat? – M. Mäger (toim). Keel, mida me uurime. Tallinn: Valgus, 145–149.

Enn Veldi (Tartu Ülikool) uurimisvaldkonnad on kakskeelne ja ükskeelne leksikograafi a, oskus- sõnastikud, eksitussõnad, fonosemantika. [email protected]

311 “AN ENGLISH-ESTONIAN DICTIONARY” BY JOHANNES SILVET: COMPARISON OF THREE EDITIONS

Enn Veldi University of Tartu

“An English-Estonian Dictionary” by Johannes Silvet (1895–1979) is the best-known English-Estonian dictionary. The aim of the study was to establish the similarities and differences on the English side of three editions of the dictionary on the basis of four segments (checked–chimneypot, heap–hedgehog, pressure–primitive ja turquoise–Tzigany). The entry count was carried out according to the guidelines provided by Sydney I. Landau (with some modifi cations). Comparison of the four segments showed a 2.8 per cent growth in the second and 25 per cent growth in the third edition. The number of discarded entries was low in both the second and the third editions. In the case of the second edition one can claim that one part of the additions and ommissions were made due to ideological considerations. The fi rst three editions of the English-Estonian dictionary by Silvet reveal a cumulative character in the sense that new material is added to the previous material. The prob- lem of the third edition is that although the dictionary has grown to a considerable degree in comparison with the second edition, it has become outdated. There are two possible solutions – whether to radically revise the dictionary or compile a new dictionary from scratch.

Keywords: dictionary history, bilingual lexicography, dictionary comparison, English, Estonian

312 “LETOSVET”: KAS LABANE LAUL VÕI (RAHVA)SOTSIOLINGVISTILINE EKSPERIMENT?

Anna Verschik, Jim Hlavac

Ülevaade. Artikkel käsitleb laulu pealkirjaga “Letosvet”, mis esindas Eestit 2008. a Eurovisiooni võistlusel Belgradis. Laul on märkimis-

väärne, sest 1) see imiteerib serbia keelt, millega eestlastel pole 5, 313–327 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT kokkupuudet ning mistõttu puudub imiteerimisvõtete komplekt; 2) laul on tekitanud vastakaid arvamusi, mis annavad tänuväärset materjali rahvalingvistika uurimiseks; 3) laul pakub mõtlemisainet sotsiolingvistile teemal, missugune imiteerimine on sihtkeele kõnele- jatele arusaadav. Laulu autorid on oskuslikult toetunud sugulaskeelele, nimelt vene keelele. Analüüsi käigus näidatakse, et vaatamata eesti meedias väljendatud negatiivsetele hoiakutele ja väidetele, et laulu keel on vigane ning emakeelsetele kõnelejatele arusaamatu, pole siiski kõr- valekalded serbia keele normidest märkimisväärsed. Mõistmist segab sidususe puudumine ja teksti ilmne kõrvalekaldumine Eurovisiooni laulu žanrist. Laulu autorid on püüdnud lahti mängida mitmekeelsust, kuhu ei kuulu inglise keel. Võtmesõnad: mitmekeelsus, Eurovisioon, rahvalingvistika, eesti keel, serbia keel

Sissejuhatus

Olenemata sellest, kuidas suhtutakse Eurovisiooni võistlusesse ja seal esitata- vatesse lauludesse, on need laulud tihtilugu väärt sotsiolingvistilist uurimust (näiteks Ukraina laul 2007. a Eurovisioonil). Tundub kummaline, et sotsioling- vistiline kirjandus Eurovisiooni kohta puudub sootuks, seda enam, kui mitmed populaarkultuuri žanrid (nt hip-hop, räpp) on köitnud mitmekeelsuse ja noorte keelega tegelevate sotsiolingvistide tähelepanu (Androutsopoulos 2004, 2005, 2006, Cutler 1999).1 Antud artikli teema on 2008. a Eurovisiooni võistlusel Eestit

313 1 Mõned Eurovisiooni-alased uurimused on ilmunud, kuid nad ei käsitle Eurovisiooni sotsiolingvistikat, keelekasu- tust ega mitmekeelsust. Nt Haan jt (2005) käsitlevad erinevusi publiku ja ekspertide arvamuste vahel kultuuriöko- noomika (ingl cultural economics) perspektiivi seisukohalt; Le Gem (2000) puudutab Eurovisiooni võistluse muutmist kitšiks jne. esindama valitud laul “Letosvet”.2 Laul on märkimisväärne mitmel põhjusel: 1) see imiteerib serbia keelt, millega eestlastel pole reeglina kokkupuudet; seega puudub serbia keele imiteerimisvõtete “pakett” valmiskujul ning see tuleb nullist välja töötada; 2) laul on tekitanud vastakaid arvamusi, mis annavad rikkaliku materjali uurimaks tavainimeste suhtumisi, oletusi ja arusaamu oma ja võõraste keelte kasu- tusest, olemusest ehk teisisõnu rahvalingvistika uurimiseks (ingl folk linguistics; perceptual dialectology, selle tähtsuse kohta vt Niedzielsky, Preston 2003). Nõnda näiteks Google’i otsingu tulemused olenevalt kirjapildist või “Letosvet” olid vastavalt 7 570 000 ja 11 500 vastet, sh ka Wikipedia artikkel;3 3) laul pakub mõtlemisainet teemal, mida on vaja teise keele edukaks imiteerimiseks ja milline imitatsioon on sihtkeele emakeelsetele kõnelejatele arusaadav. Siinses kontekstis tuleb kindlasti arvestada uurimustega, mis käsitlevad teiste keelte kõnelejate imiteerimist ja stereotüpiseerimist (nt Campbell-Kibler 2007, Coupland 2001, 2004, 2007, Hill 1993, Lippi-Green 1997), noorte mitmekeelsust ja (teadlikku) keele hübridiseerimist (Auer, Dirim 2003, Rampton 1995, 1999), sümboolsete keeleliste ja etniliste piiride ületamist (ingl language crossing, Auer 2006, Cutler 1999, Rampton 1995). Ette rutates võib öelda, et antud juhul on tegemist põhimõtteliselt teistsuguse nähtusega: imiteerimine ei ole sisserändajaid ja üldse “teist” põlastava diskursuse osa, nagu seda on mock Spanish (Hill 1993); ka piiride ületamine ei toimu “Letosveti” puhul selles mõttes nagu Ben Ramptoni (1995) klassikalises käsitluses. Artikkel on üles ehitatud järgmiselt: eeskätt kirjeldatakse Eurovisiooni võistluse tähendust ja selle muut(u)mist eestlaste jaoks; seejärel analüüsitakse laulu teksti, et vastata küsimusele, kas ja kuivõrd see erineb serbia keele normidest; siis järgneb eestlaste ja serblaste/horvaatide seas korraldatud küsitluste andmete analüüs ja lõpuks esitatakse järeldused.

Lühiajalugu: Euroopasse tagasipöördumisest kuni “mul on kõrini”

Nõukogude ajal võisid Eurovisiooni jälgida vaid need Eesti elanikud, kelle kodudes oli nähtav Soome televisioon. Iseseisvuse taastudes oli osavõtt Eurovisiooni lau- luvõistlusest oluline sümboolses mõttes, kuna see oli samm Euroopa identiteedi taastamise suunas. (Eesti hakkas Eurovisiooni võistlusel osalema alates 1993. aastast.) Teatud mõttes oli see samasugune tagasipöördumine Läände, nagu Eesti liikmestaatuse taastamine ÜRO-s, vastuvõtt Euroopa Nõukogusse, NATO-sse jms. Seetõttu oli suhtumine Eurovisiooni vähemalt alguses üpris tõsine – Eesti laulu valikust, lauljatest, edu šanssidest ja hääletamisest kirjutati nn kvaliteetajakirjan- duses, ka muusikakriitikud tavatsesid sõna võtta. Eesti laulu “Come on, everybody and say hello” võit 2001. a oli tähtis just sümbolina: see tähendas täisväärtuslikku osavõttu Euroopa ühisüritusest, ärateenitud edu ja Eesti tunnustust (võidu posi- tiivsest mõjust integratsioonile vt Verschik 2005: 305). Laulusõnade kirjutamisele ja kandidaatide valimisele on kogu aeg mõjunud Eurovisiooni reeglistik, mida on korduvalt muudetud. Reeglid puudutavad esma- joones laulude keelt. Esimesest võistlusest 1956. a kuni 1966. a ei olnud esinemise

314 2 Alternatiivne kirjaviis Leto svet. Muusika ja sõnade autorid Peeter Oja, Tarmo Leinatamm, Hannes Võrno, Priit Paju- saar ja Glen Pilvre, esitaja . Sõnad serbia, soome ja saksa keeles. Vt www.etv.ee/?0545699 (01.11.2008). 3 Google’i otsing 30.11.2008, Wikipedia artikkel vt http://en.wikipedia.org/wiki/Leto_svet (19.11.2008). keel sätestatud, kuid 1966. a lõi Rootsi pretsedendi ingliskeelse lauluga ning aastatel 1966–1973 tohtisid laulud olla vaid rahvuskeeltes. Ajavahemikul 1974–1976 oli keele valik jälle vaba. Rahvuskeeles esinemise nõue taastati ja see kehtis aastatel 1977–1999, seejärel tühistati uuesti. Vabal valikul on olulised sotsiolingvistilised tagajärjed: ükskeelsete, s.o kas rahvus- või ingliskeelsete laulude kõrvale tekkisid nn mitmekeelsed laulud, lisaks sellele ka laulud täiesti väljamõeldud keeles (Belgia 2003. ja 2008. a; 2006. a esitas Holland kakskeelse laulu, kus üheks keeleks oli inglise, teiseks väljamõeldud keel). Samuti on korduvalt muudetud rahvusliku vooru reegleid: kord valivad laulu eksperdid, kord vaatajad. Lisaks pidevast reeglite muutmisest põhjustatud ebakindlusele mõjutavad vali- kut ja lõpptulemust viimasel kümnendil oluliselt kasvanud Eurovisioonis osalevate riikide arv ning nn uustulnukad ise oma hääletajaskonna eelistuste, muusikaliste ja kultuuriliste tavadega, aga ka vaatajate poliitilised ja esteetilised hetkesümpaatiad või -antipaatiad. Nüüd tekitab kogu lauluvõistlus vastakaid tundeid: ühelt poolt, tahetakse “heal tasemel” laulu, teiselt poolt soovitakse võitu, mis ei sõltu otseselt muusika kvaliteedist, sõnadest ega nende keelest. Etteheidetele, justkui sõnad on mõttetud, vastasidki “Letosveti” autorid järgmiselt: kuivõrd on mõtet n-ö tavalistes Eurovisiooni lauludes? Muusika ja sõnade autorid on niisiis dilemma ees: kas järgida hetke “eurostandardit” või püüda olla originaalne. Kuristikku kahe võimaluse vahel näitlikustas 2005. a ansambli “Neiokõsõ” esitatud laul “Tii”: Lõuna-Eesti rahva- laulu traditsiooni arendava ansambli laul oli küll vaatajate valik, kuid paraku jäi Eurovisiooni kontekstis võõrkehaks ning saavutas vaid kaheteistkümnenda koha. Nõnda on esialgne vaimustus kadunud, asemele tuli resignatsioon. Seda tunnet väljendab kõige selgemalt Eesti Päevalehe ajakirjanik Kersti Kaldoja (2008) oma artikli pealkirjaga: “Sardellist on kõrini, ehk kuidas eestlased Eurovisiooni pühaduse minetasid”,4 viidates seega nii Kreisiraadio Eurovisiooni parodeerivale, pilkavale hoiakule kui eestlaste üldisele pettumusele kogu ürituses. Laulu sõnad on koos tõlkega ära toodud siinse artikli lisana. “Letosveti” võit rahvuslikus voorus tekitas tugevaid emotsioone. Siinkohal pole võimalik teha ammendavat pressianalüüsi, kuid isegi põgusast lugemisest selgub ajakirjanduse pigem ettevaatlik või negatiivne hoiak, kuna Kreisiraadio avameelselt komejantlik ja groteskne esitus vastandub “tõsidusele”, mida oodatakse potent- siaalselt Eesti esindajalt. “Letosveti” vastaste argumendid (kirjutavas pressis, aga ka blogides, inter- netikommentaarides) jagunesid põhiliselt järgmistesse kategooriatesse: 1) laul on labane, seetõttu ei kõlba meie riiki esindama; 2) “vigase” keele tõttu võidakse eestlasi pidada rassistideks, serblastele võib laul tunduda solvav; 3) miks ei valitud hoopis paremat laulu, nagu näiteks “Ice cold story” Iiris Vesiku esituses (2. koht rahvuslikus voorus); 4) laul võib olla isegi teravmeelne, kuid huumor on mõistetav vaid Eestis; karta on, et eestlasi hakatakse pidama hoopis vene või mõnda slaavi keelt kõne- levaks rahvaks või Borati tüüpi tegelasteks.5 Sotsiolingvistilises mõttes on oluline (2) ja kuigivõrd (4). “Letosveti” pooldajate arust ei väärivatki Eurovisioon midagi paremat, kuna võistlus on kaotanud mõtte, muutunud politiseeritud ürituseks ning alla käinud. Pealegi polevat ka n-ö “õigetes” lauludes erilist sügavmõttelisust. Nõnda on kommentaarides nimetatud Eurovisiooni ka juravisiooniks.

315 4 Ajakirjanik viitab laulu reale sardela – to je dosta, mille ametlik tõlge ‘sardellist on kõrini’ on vale; serbia keeles tähendab sardela ‘anšoovis’ ja to je dosta ‘sellest piisab’. 5 Vt internetikommentaarid portaalis ELU24, 06.02.2008, http://eurovisioon.elu24.ee/?id=10072 (17.06.2008). “Letosveti” keel

Et eesti lugeja on harjunud mõistega “serbo-horvaadi keel”, on kohane järgmine selgitus. Serbia ja horvaadi keel on sarnased, kuid siiski erineva traditsiooniga keeled, seda vaatamata poliitilistele ja ideoloogilistele katsetele luua ühine keel kui “jugos- laavia” ühendava identiteedi sümbol. Ametliku ideoloogia ja keelepoliitika kiuste eelistasid eeldatavad serbo-horvaadi keele kõnelejad end kirjeldada serbia või hor- vaadi keele kõnelejatena. Pärast Jugoslaavia lagunemist taastati kaks lingvonüümi “serbia” ja “horvaadi”. Serbia keelt võib kirjutada nii ladina tähestikus kui kirillitsas, horvaadi keelt kirjutatakse juba 1967. aastast alates ainult ladina tähestikus. “Letosveti” vastaste väitel mõjus kuulajatele halvasti “vigane” keel. Tõepoolest, mitmed vormid on serbia keeles ebagrammatilised ja on kohati selgelt venemõjuli- sed; tekstis on ka mõni horvaadi sõna (sellest allpool). Pooldajad on püüdnud isegi leida salakoodi või -sõnumit ning välja lugeda poliitilise olukorra hinnangut (üks näide on toodud intervjuus ajakirjale Just!, vt Rattus 2008: 15). Siiski rõhutasid autorid nii internetikommenteerijatele vastates kui intervjuus ajakirjale Just!, et salatähendus puudub täiesti (Rattus 2008: 16). Autorite sõnul sündis esialgu laulu- viis, mis teatud määral dikteeris sõnu. Samas intervjuus ütlevad autorid, et sõnad on pärit serbia-horvaadi-inglise vestmikust. Seega on kasutatud juba valmis elemente, nagu seda on vestmiku fraasid, teemade järgi esitatud sõnade loetelud jms. Tekib küsimus, kas ja kuivõrd grammatiline korrektsus on lauluteksti mõist- miseks vajalik. Väited, et emakeelne inimene ei saavat tekstist aru, kuna keel on vigane, on pigem emotsionaalsed kui objektiivsed, ning nõuavad kontrollimist. Autorid väljendasid selgelt, et nad ei olnud kavatsenud kirjutada “tõsist” teksti (Rattus 2008). Ilmselt oli oluline markeerimine ja stiliseerimine, mitte aga gram- matiliselt korrektse serbiakeelse teksti loomine. Seega heidetakse neile ette millegi puudumist, mida autorid ei taotlenudki. Üks “Letosveti” legitiimsuse vaidlustamise võtteid ongi apelleerimine ema- keelse kõnelejale: nõnda väitis Postimehe artiklis Verni Leivak (2008), et “Leto- svet” on tekitanud Serbias ägeda diskussiooni ja et keelevigade tõttu on serblaste suhtumine negatiivne. Samas vaimus väitis uudisteportaalis ELU24 ajakirjanik Martin Šmutov, et serblastest ja horvaatidest “Kalevi” mängijad ei mõista teksti ning et serblasest treener Veselin Matić ei saavat sõnadest “mõhkugi aru”.6 (Mõni väljaanne läheb Matićile viidates veelgi kaugemale ja nendib, et Matić soovitavat panna pealkirjaks letnij svet.)7 Selline nõuanne tundub siiski rohkem kui kaheldav, kuna letnij svet ei tähenda ‘suvevalgus’ serbia, vaid hoopis vene keeles (sellest all- pool). Kuigi mitteasjatundjatele tundub teksti “vigasus” enam kui piisav argument laulu legitiimsuse vastu, ei ole see väide sotsiolingvistilises mõttes kuigi veenev8, ja seda järgmistel põhjustel. 1) (Ükskeelse) emakeelse kõneleja idealiseerimine pole teoreetiliselt õigusta- tud, sest pole selge, mis on emakeele täielik valdamine ning ei ole arusaadav, milline emakeelne kõneleja on mõõdupuuks (vt kasvavat kirjanduse hulka nn ükskeelsete silmaklappide kohta (ingl monolingual bias), nt Cook 1997, Pavlenko 2002). Pole teada, mismoodi Matićit küsitleti ja kuidas ta suhtub mitmekeelsusesse või sellesse, kui “võõrad võtavad üle” tema emakeele jms.

316 6 ELU24, 06.02.2008, http://eurovisioon.elu24.ee/?id=10072 (10.11.2008). 7 Õhtuleht, 07.02.2008, http://www.sloleht.ee/index.aspx?id=265635&q=leto%20svet (12.11.2008). 8 Ida-Euroopa juutide laulurepertuaari kuuluvad rahvalaulud niisuguses ida-slaavi keelevariandis, mida võiks imp- ressionistlikult kirjeldada kui “vigast” ukraina keelt (samas leidub juudi laule “õiges” ukraina keeles). Sellele vaatamata pole uurijad avaldanud kahtlust nende legitiimsuses. 2) Sotsiolingvistilised uurimused suhtumisest aktsenti ja õppijakeelde on näidanud, et “mõistetamatus” ja “vigasus” on tihtilugu pigem diskursiivne konstruktsioon kui reaalsus (Lippi-Green 1997: 224–225): mõne tunnuse põhjal (välimus, nahavärv jms) kuulaja teab ette või arvab end teadvat, et tegemist on välismaalasega, seega “vale” keelekasutus on ette oodatav ning aktsenti ja “vigu” kuuldakse seal, kus objektiivselt neid ei ole (vt ka Piller 2002). Samas pole avalikult tähelepanu pööratud mõne eesti laulja tõesti raskesti arusaadavale inglise keelele. See viib meid järgmise argumendi juurde. 3) On loogiline küsida, kui “vigane” peaks olema tekst, et seda oleks võimatu mõista; näiteks, kas eksimised morfosüntaksi ja konventsionaalse seman- tika vastu paaris-kolmes lauses muudavad kogu lauluteksti arusaamatuks. Tõenäoliselt võib “Letosveti” teksti “mõistetamatust” seletada teisiti: kesk- mise Eurovisiooni laulu tekst on laias laastus ennustatav (nt teades teemat, žanri, tavasid, hetkemoodi jms on sisu suurelt osalt aimatav); “Letosvet” aga rikub kõiki Eurovisiooni kaanoneid ja sisu pole seega ennustatav; pealegi puudub üksiklausete ja -sõnade omavaheline loogiline seos. Samas väitsid antud uurimuse käigus küsitletud eestlased, et enamasti polnud neil arusaamisega probleeme (sellest lähemalt küsitluse analüüsi osas). Selline lahkheli pressis ja uudistes levitatava ning miniküsitluse teel saadud info vahel sunnib veelgi rohkem arutlema, kui paljud vormid on tegelikult “viga- sed” ja kas vead segavad ühtemoodi serblastel ja eestlastel teksti mõista. Serbia grammatika normidele ei vasta ei laulu pealkiri “Letosvet” ega refrään eto letosvet ‘see on suvevalgus’ (vt ka lisa: laulu sõnad). Nii pealkiri kui ka refrään on küllalt markantsel positsioonil laulutekstis, seetõttu on võimalik, et see mõjutab ka ülejäänud teksti vastuvõtmist. Nüüd pöördumegi ebakorrektsete vormide juurde:

(1a) eto letosvet ‘see on suvevalgus’

Demostratiivpronoomen tähendusega ‘see’ on serbia keeles ovo. Tõsi küll, ka eto eksisteerib, kuid selle tähendus on ‘seal’. Selge, et eeskujuks oli vene pronoomen это ‘see’. Noomenifraas/liitsõna leto ‘suvi’ + svet ‘valgus’ on moodustatud eesti liitsõnamalli järgi, s.o tegemist on N GEN + N NOM või N NOM + N NOM liitumi suvevalgus / suve valgus komponentide semantika ja järjestuse kopeerimisega, kusjuures eesti malli on täidetud leksikaalsete ühikutega лето (vene) / leto (serbia) ‘suvi’ ja свет ‘valgus’ (vene, vrd serbia svetlo ‘valgus’). Lekseem svet eksisteerib serbia keeles, kuid tähendusega ‘maailm’ või ‘rahvas, inimesed’. Et vajaduse korral ammutatakse lekseeme vene keelest, pole juhuslik: esinejad oskavad vene keelt arvestataval tasemel. Pealegi, kuna see on serbia keele sugulaskeel, oskavad autorid eeldada teatud materiaalseid ja strukturaalseid sarnasusi ning nendele toetuda (vt Clyne 2003 teisest keelest kui toest kolmanda keele omandamisel; De Angelis 2005 sõnavara kohta sugulaskeeltes K2 ja K3). Seega moodustusmall on selline nagu näites (1b). (1b) suve-valgus → (pseudo-serbia) leto-svet suvi.GEN-valgus suvi.?-valgus 317 Jääb alles küsimus, kuidas tõlgendada vormi leto: kas nominatiivi või genitiivina? Vene geniitivi vorm on лета – esitajad hääldavad aga selgesti [o], mitte venepäraselt redutseeritud rõhuta vokaali, seega kõlab see identselt nominatiivi vormiga. Samas on tegemist eesti morfosüntaktilise malliga ja seetõttu võib öelda, et vene vokaali- lõpulist sõna tõlgendatakse eesti morfoloogia reeglite järgi: paljudes muutkondades langevad vokaalilõpuliste noomenite nominatiivi ja genitiivi vormid kokku. Mui- dugi pole välistatud ka analüüsimata tüvede liitmine, mis annab sisuliselt kokku N NOM + N NOM ühendi. Eesti liitsõnadele vastab vene keeles tihtilugu konstruktsioon relatiivadjektii- viga, mõnikord ka konstruktsioon N NOM + N GEN, kus komponentide järjestus on eesti mallile vastandlik (n-ö paremale hargnev). Esimesel juhul oleks vene keeles oodatav (1c) ja teisel (vähemtõenäolisem ja markeeritum) (1d). (1c) лет-н-ий свет suvi-AFFIX-M.NOM.SG valgus (1d) свет лет-а valgus suvi-GEN Ootuspärane serbia lause oleks analoogiline vene näitega (1c). Serbia keeles on konstruktsioon relatiivadjektiviga antud juhul soovitav, genitiivne konstruktsioon aga mitte, vt (1e). (1e) ovo je letnje svetlo see olema.3SG suvi.ADJ valgus

Tundub loogiline, et seda fraasi ei olnud vestmikus, kust autorid ammutasid serbia- keelseid sõnu ja lauseid, seetõttu pidi selle tuletama, toetudes olemasolevatele keeleressurssidele (kaasa arvatud vene keel). Seda ei tohiks tõlgendada “vigase keele” ega “lohakusena”, vaid leidliku stiliseerimisstrateegiana. Lause (2a) eksib serbia morfosüntaksi, täpsemalt, sõnajärje reeglite vastu – tavapärane serbia lause on (2b).

(2a) Ko ja sam? kes PRON.1SG olema.1SG ‘kes ma olen?’ (2b) Ko sam ja? kes olema.1SG PRON.1SG Pole teada, kas see lause on vestmikust võetud. Juhul kui on, siis kerkib küsimus, kuivõrd on vestmikus pakutu usaldusväärne. Tundub siiski, et fraas kes ma olen? on mis tahes vestmikus küllalt ootamatu, kuna eksistentsiaalsed probleemid ei kuulu tavaliselt vestmikuteemade hulka. Võimalik, et (2a) on kokku pandud elementidest, mida võib küll eraldi võetuna vestmikust leida: nimelt lausemallist ma olen (mida tuleb täiendada sobivate nimisõnade või omadussõnadega, nt insener, vihane jne) ja küsisõnade nimekirjast. Kuid isegi juhul, kui (2a) on tõesti pärit vestmikust, võib täheldada kaudset vene keele mõju: nimelt kõlab serbia sam ‘olen’ nagu vene сам ‘ise’; ko ‘kes’ meenutab kõlalt vene кто ‘id.’. Seega lause (2a) kõlab peaaegu nagu vene keeles grammatiliselt täiesti võimalik, kuigi sisu poolest mõnevõrra ebatavaline (3): 318 (3) Кто я сам? kes PRON.1SG ise ‘kes ma ise olen?’ Vene grammatika mõju avaldub ka lauses (4a), kus tort on tõlgendatud venepäraselt meessoost nimisõnana (vene торт) ja seetõttu on arvsõna ja nimisõnaga ühilduvad omadussõnad samuti meessoost (Doboš on kuulsa kondiitri nimi; omadussõnana ei käändu): (4a) dv-a dupl-a doboš tort-a kaks-M kahekordne-GEN Doboš tort-GEN ‘kaks kahekordset Doboš-torti’ Võrdluseks on venekeelne lause (4b): (4b) дв-а (двойн-ых) торт-а kaks-M (kahekordne-GEN.PL) tort-GEN ‘kaks kahekordset tükki torti’ Serbia keeles on ‘tort’ naissoost nimisõna, seega arvsõna peaks ühilduma soos (dve). Nagu vene keeleski, nõuab arvsõna dve genitiivi, kuid naissoost nimisõnade genitiivi vorm on teistsugune (tähendus jääb samaks): (4c) dv-e dupl-e Doboš tort-e kaks-F kahekordne-GEN Doboš tort-GEN Mõnes kohas äratab kahtlust ortograafi a, nt to jedosta pro to je dosta ‘sellest piisab’, kraska pro graška ‘pirn’. Siiski ei ole teada, kas selline ortograafi a on pärit vestmi- kust, laulu autorite sulest või kellegi kolmanda käest, kes on paigutanud sõnad ETV kodulehele. Eksimused ortograafi a reeglite, eriti kokku- ja lahkukirjutamistavade vastu, ei mõjuta siiski laulu mõistetavust. Muid eksimisi serbia grammatika vastu laulutekstis ei esine, küll aga leidub mõningaid horvaadi lekseeme, nt plin ‘gaas’, mahun ‘kaun’, vrd vastavalt serbia gaz, boranija. Kuna algupärand (vestmik) pole tuvastatav, on võimatu öelda, kas vestmikus oli nii serbia kui ka horvaadi vasteid ja autorid olid otsustanud serbia teksti meelega “vürtsitada” mõne horvaadi lekseemiga, või kas vestmikus olid serbia ja horvaadi vasted läbisegi. Mõne lause tõlge eesti keelde on lausa vale või vähemalt problemaatiline. Põhju- seks võib olla vale tõlge inglise keelde kasutatud vestmikus. Näiteks ne stalo mi je plina on tõlgitud ‘mu kämpingus sai gaas otsa’, kuigi tegelikult tähendab see ‘mul lõppes gaas otsa’ (kämpingust ei ole juttu). Lause to jedosta (õiges ortograafi as to je dosta) on tõlgitud ‘mul on kõrini’ – selle tähendus on hoopis vähem kategooriline ‘sellest piisab’. Pärast laulu esitamist muutus fraas to je dosta just tähenduses ‘mul on kõrini’ käibefraasiks eestlaste seas. Kas sardela ‘anšoovis’ on meelega tõlgitud kui sardell (vrd ka vene сарделька sama tähendusega) või “süüdi” on taas vestmik, pole võimalik öelda, kuid igal juhul on siin oluline kõlaline sarnasus kolmes keeles, mida autorid/ esitajad kasutasid osavalt ära, näidates publikule sardelli kujutavat plakatit. Tervikuna võib öelda, et nn vestmiku keel on kergesti tuvastatav: isegi lugemata intervjuud ajakirjale Just!, kus sellest räägitakse otse, annab keskendumine teatud tüüpilistele teemadele (toit, arve jms), lausete katkendlikkus ja nimisõnade rohkus selget märku teksti päritoluallikatest. Mis puutub “vigasesse” keelde, siis autorid 319 pole sugugi keeleliselt naiivsed isikud: nende repertuaari kulub rohkesti palasid mitmes keeles, nad on osavad parodeerijad ja mitmesuguse keelelise materjaliga manipuleerijad (nn pseudo-soome keel palas “Kuinka pyydä jänhistä Lapinmaalla”, rootsi värvinguga eesti keel väliseestlasest groteskse personaaži Alef Strömi suus jms). Arvatavasti polnudki “õige” serbia keel nende eesmärk – soov oli pigem mar- keerida “serbialikkust”, mis on õnnestunud.

Rahvalingvistika: küsitluse tulemused

Mitteasjatundjate arvamused keeleküsimustes võivad üsna palju erineda eks- pertide omast ja olla lausa ekslikud. Sellegipoolest on rahvalingvistika auväärne uurimisobjekt, kuna on oluline teada, kes, mida ja miks arvab antud keelenähtusest (Niedzielski, Preston 2003). Olgu öeldud, et mingit “tormi”, skandaali ega massilist pahameelt Serbia pressis ei tekkinudki. Serbia meedias pälvis eestlaste eurolaul suhteliselt vähe tähelepanu. Üks väheseid näiteid on anonüümse autori M. M. kirjutis tabloidis Blic (2008) “Estonci na Evroviziji pevaju na srpskom” (“Eestlased laulavad Eurovisioonil serbia keeles”). Autor märgib, et see on esimene juhtum, kui Eestit esindav laul pole eesti ega inglise keeles. Tundub huvitav autori tähelepanek (mis langeb kokku laulu autorite arvamusega, vt Rattus 2008: 16), et kuigi laulus pole eriti palju mõtet, pole see sugugi esimene kord, kui Eurovisiooni võistlus meenutab pigem lapsikut eputamist kui tõsiste kunstiteoste esitamist. Ka Horvaatias ei tekkinud märkimisväärset vastukaja. Vaid elektrooniline tabloid 24 sata (‘24 tundi’) on maininud tõika, et eestlased esitavad oma laulu serbia keeles. Kommentaarides esines arvamusi, et eestlased “poevad” serblastele. Horvaatia Rahvustelevisiooni foorumis küsiti, kas horvaadid hääletaksid horvaa- dikeelse laulu poolt (Forum.hrt). Vastused olid pigem jaatavad, kuid samas pilgati Kreisiraadiot mõttetu ja seosetu serbiakeelse teksti pärast. Kreisiraadio provotseeriski mitmesuguseid rahva(lingvistilisi) sõnavõtte. Ühest püsimotiivist “Letosveti” vastases diskursuses, justkui laulu keel on vigane ja serblastel on võimatu sellest aru saada, oli eelnevalt juttu. Küsitlus, olgugi et väikese valimi põhjal, näitab, et arvamused “Letosveti” suhtes pole sugugi kõik ühemõtteliselt negatiivsed, nagu seda on sõnavõtud ametlikus pressis (vt nt Pau 2008). Küsitlus aitas selgitada, millised rahvalingvistilised tõekspidamised on n-ö ringluses lisaks lausnegatiivsetele hoiakutele. Ükskõik, kuidas ametlik Eesti meedia “Letosveti” laulusse ka ei suhtuks, on üksikud laulu read muutunud lööklauseteks. See tõendab, et “Letosvet” on midagi muud kui “labane” laul. Nõnda võib aeg-ajalt kuulda to je dosta tähenduses ‘mul on kõrini’; mõni asi võib olla täielik letosvet; letosvet, ühesõnaga; veel jaburam kui letosvet või isegi vähem naljakas kui letosvet. Autoritel on teada juhtum, kui ametlikus kirjavahetuses kerkis küllalt emotsionaalne teema ning üks asjaosaline kutsus üles maha rahunema ja tühisel põhjusel mitte liiga ägedalt sõna võtma, kirjutades e-kirja teemalahtrisse letosvet. Eestis jagati 2008. a märtsis küsimustik Tallinna Ülikooli üliõpilastele ja Viru Keskuse müüjatele ning paluti levitada oma tutvusringkonnas (kokku 30 ankeeti, 21 naist ja 9 meest vanuses 20–60 aastat; kõigi vastajate esimene keel on eesti keel). 320 Teine küsimustik jagati samal ajal kuuele serblasele ja neljale horvaadile (5 meest ja 5 naist, vanuses 32–62 aastat). Küsimustik puudutas järgmisi teemasid: suhtu- mine mitmekeelsetesse lauludesse üldse; laulu keel (v.a soome ja saksa) ja teksti mõistmine; “Letosveti” iseloomustus (kas on “lahe”, “tore” või vastupidi; sinna sai lisada iseloomustusi omaltpoolt); suhtumine hüpoteetilistesse “võõrastesse”, kes esineksid “meie” keeles. Lõpuks küsiti, kas “Letosveti” edu šansid on kõrged. Küsimustikust selgus ambivalentne suhtumine mitmekeelsetesse lauludesse, seda nii eesti kui serbia/horvaadi respondentide rühmas. Eesti respondentidest eelistasid 17 ükskeelseid laule, 7 mitmekeelseid ja 6 ei osanud valikut teha. Serbia/ horvaadi informantidest eelistas 7 ükskeelseid laule, 2 ei osanud vastata ja 1 möö- nis, et mitmekeelsed laulud kõlbavad siis, kui teine keel on inglise keel. Vastused põhinevad eeldusel, et mitmekeelsete laulude üks keeli on inglise keel. Samas teistsugune keelte kombinatsioon (s.o. ilma inglise keeleta) tundub ebatavaline, eriti kui “võõrad” teevad haruldase valiku ja kasutavad väikest keelt, millel puudub inglise keele tuntus, levik ja prestiiž. Mõlemas rühmas küsiti, kuidas suhtutaks hüpoteetilisse välismaalasest lauljasse, kes esineks eesti/serbia/horvaadi keeles. Informantide vastused jagunesid järgmiselt (vt tabel 1).

Tabel 1. Suhtumine eesti/serbia/horvaadi keele kasutusse “võõraste” poolt

Kui mitte-eestlased laulaks eesti Meeldivat Uhkust Imestust Ükskõik Kokku keeles, mis tundeid see tekitab? üllatust Eestlased 17 8 3 2 30 Kui mitte-serblased/mitte-hor- Hea, kui laul Kena, kui vaadid laulaks serbia/horvaadi Uhkust Ükskõik Kokku on ilus pole vigu keeles, mis tundeid see tekitab? Serblased + horvaadid 71 1110

Neist vastustest võib järeldada, suhtumine mitmekeelsetesse lauludesse ei ole ühemõtteliselt eitav, vaid sõltub keelte “suurusest” ning subjektiivselt tajutavast ohustatusest. Kui hüpoteetilised “suurkeelte” kõnelejad kasutavad väikseid keeli, tekitab see väikeste keelte kõnelejates pigem positiivset reaktsiooni. Oluline on, kuivõrd on eesti vastajad suutnud tuvastada laulu keelt (see ei puu- duta küll saksa ja soome keelt, mida eestlane tuvastab raskusteta). Kuna oli juba eelnevalt teada, et 2008. a Eurovisiooni võistlus toimub Belgradis, võiks oletada, et just see määrab ebatüüpilise keelevaliku. Siiski on eestlaste vastused suhteliselt erinevad (vt tabel 2), ka serblaste/horvaatide vastused ei ole ühtlased:

Tabel 2. “Letosveti” keel

Eestlaste arvates Vene Serbo- Slaavi Serbia Horvaadi (k.a vene Muu Ei tea horvaadi segakeel segakeel) sloveenia 1 poola1 10 6 2 2 2 4 leedu 1 valgevene 1 Serblaste/horvaatide arvates Šumadija kandi serbia talupoegade Serbia Serbia mõne horvaadi sõnaga Ei tea keel (Kesk-Serbia) 62 1 1 321 Olgu märgitud, et rahvalik arusaam segakeelest, mille all mõistetakse erinevate keele elementide ükskõik millist kombinatsiooni, erineb oluliselt keeleteaduslikust defi - nitsioonist. On tähtis, et need keelejuhid, kelle arvates oli tegemist poola või leedu keelega, väitsid samas, et saavad tekstist aru. Teades, et poola või leedu keele oskus on eestlaste hulgas praktiliselt olematu, tundub see vastuoluline ja rahvalingvistika seisukohalt huvitav asjaolu. Seega on keele “silt” ja konkreetsed keelendid lahus: kui samalt keelejuhilt küsida, kas ta mõistab poola või leedu keelt, oleks vastus kindlasti eitav. Kahtlemata soodustas eestlaste hulgas mõistmist serbia keele sugulaskeele (vene keele) mõningane oskus: 19 keelejuhti teatas, et oskab vene keelt; soome keelt oskab 8 ja saksa keelt 11. Kõik serbia/horvaadi informandid tuvastasid raskusteta, et tegemist on serbia keelega, samuti (vastupidiselt Eesti meedias väidetavale) suutsid nad omaenda väitel tekstist aru saada. See kinnitab hüpoteesi, et tekst pole nii ebagrammatiline, et selle mõistmine oleks võimatu, küll aga eksimised konvent- sionaalse grammatika vastu võivad häirida ja mõjutada hinnangut. Mõlemas rühmas küsiti, milline iseloomustus sobib “Letosvetile” kõige pare- mini. Eestlastelt küsiti, kas laul on “kena”, “lahe”, “tore”, “atraktiivne” jms. 10 informanti vastas, et laul on “lahe”, kusjuures 10 eitas seda ja ülejäänud 10 ei osanud vastata (“ei tea”, “käib kah”). Siiski 18 informanti pakkus, et laul on “tore”/”naljakas”, vaid 8 väljendas selgelt oma vastumeelsust. Edu ennustamises oldi pigem ettevaat- likud: 17 eestlast arvas, et mitmekeelne tekst ei aita võita lisahääli. Serblaste/horvaatide seast 3 keelejuhti jätsid sellele küsimusele vastamata, 3 ei osanud vastata ja 4 keelejuhi suhtumine oli selgelt negatiivne. Üks põhjusi on juba mainitud sidususe puudumine, sest sõnadest ja lausetest arusaamine ei tähenda veel, et tekst funktsioneerib tervikuna. Seosetute lausete meelevaldne üks teise otsa kuhjamine ei luba võtta laulu “tõsiselt”, nii et seegi informantide rühm oli edu suhtes skeptiline.

Arutelu ja kokkuvõte

Mitmesuguste keeleliste stereotüüpide/keelelise imiteerimise uurimuste valguses (nt Hill 1993, Lippi-Green 1997, Lindemann 2005) tekib küsimus, mis rolli mängib üleüldistamine. Käesoleva artikli autorid on nõus, et teatud kontekstis on tegemist sisserändajate/muulaste vastase diskursusega, mille üks elemente ongi üleüldis- tamine (nt erinevuste teadlik eiramine ja/või geograafi liste, rassiliste, etniliste ja lingvistiliste kategooriate segamine: “aasia aktsent”, “ida-euroopa aktsent”, samuti Venemaa propaganda sünnitis “kaukaasia rahvusest isik” ja “kaukaasia aktsent”; teatud hispaania liidete kasutamine pejoratiivse või iroonilise suhtumise väljendamiseks, nt mistake-o numer-o uno jms). Samas pole sugugi igasugune üleüldistamine tingimata teisi kõnelejaid halvustav ja on mõnikord vältimatu isegi heasoovliku markeerimise/stiliseerimise puhul. Lauljad, koomikud, näitlejad, kir- janikud ja ajakirjanikud ei ole keeleteadlased ning tihtilugu opereerivad rahvalike kategooriatega. Seega on üleüldistamine stereotüpiseerimise (Apte 2001: 608) ja “teise” esitamise üks osa (Coupland 2001), olgu jutt negatiivsest, neutraalsest või koguni positiivsest stereotüübist. Üleüldistamine kui selline pole tingimata solvav ja teise etnilise taustaga kõnelejaid naeruvääristav. Vaatamata kõlanud kartustele, et “Letosvet” võib serblasi solvata, ei tundnud serbia/horvaadi informandid, et nende 322 keelt parodeeritaks. Kindlasti pole “Letosveti” autorite kavatsus naeruvääristada serbia keelt ega serblasi – see eristab “Letosveti” nt mock Spanish-nimelisest diskursusest. Keelte valikut tuleb täiendavalt kommenteerida. Serbia keele valik (või otsus seda markeerida) ei nõua antud juhul seletust. Märkimisväärne on aga inglise keele puudumine “keelte komplektist”.9 Loobudes inglise keelest, kuid mitte mitmekeel- susest, seavad laulu autorid kahtluse alla olemasoleva konventsiooni ja üleüldise arusaama prestiižikatest keeltest. Võib arvata, et seegi võis mingil määral mõjutada hääletajate arvamust. Keelte valikut võib tõlgendada kui sümboolset katset “män- gida”/näitlikustada mitmekeelsust ilma inglise keeleta. Isegi kui autoritel puudus tagamõte, on keelte valikul teatud sümbolism: soome keel on sugulaskeel, lähedaste naabrite keel, mis viitab keelelistele, kultuurilistele ja majanduslikele suhetele Soomega; saksa keel on kunagiste koloniseerijate, aristokraatia, Hansa kaupmeeste keel, aga ka regiooni ajalooline Kultursprache ja lingua franca, mis viitab vanale Euroopale; serbia keel esindab aga uut ja “eksootilist” Euroopat. Olenemata sellest, kas pakutud tõlgendus on õige või ekslik, pole inglise keele puudumine juhuslik: vastuseks ajakirja Just! intervjueerija küsimusele, miks üks salm on just saksa ja mitte inglise keeles, vastas Tarmo Leinatamm, et saksa keel tundus “letosvetilikum” (Rattus 2008: 16). Lõpetuseks peatume esilduvusel (ingl salience). Esmapilgul võiks tunduda, justkui igasugune mitterahvuskeelne laul on silmatorkav, markantne ehk esilduv. Tegelikult on tegemist pigem esilduvuse kontiinuumiga kui jah- või ei-vastusega. Esilduvus pole sama eri vaatajas- või kuulajaskonnas. Näiteks pole laulude esita- mine inglise keeles kuigivõrd märkimisväärne juhtum, kuigi inglise keel pole “oma”: populaarses kultuuris ei seostu inglise keel tingimata just angloameerika kultuuriga, vaid on “ei-kellegi”, neutraalne keel, kuna selles esinevad kõigi maade esindajad. Kui hüpoteetiline eesti esineja esitaks venekeelse laulu, oleks see sotsiokultuurilises mõttes markantsem valik (kuigi mõned eesti muusikud teevad oma lauludest ka venekeelseid variante, nt “Sõpruse Puiestee”).10 Esilduvuse skaalal järgmine oleks nt lätikeelne laul. Kui vene keeles esinemine oleks markeeritud ja palju kõneainet pakkuv variant, kuid siiski teoreetiliselt võimalik, siis läti keele valik oleks isegi teo- reetiliselt vähetõenäoline. Eestis puudub läti keele õppimise/õpetamise traditsioon ning lätikeelne tekst oleks täiesti ligipääsmatu.11 Iroonilisel kombel on serbia tekst läti omast kättesaadavam, kuna mõningane vene keele oskus aitab mõistmist. “Letosveti” esilduvus erineb Eesti ja Serbia kontekstis. Eesti vaatajaskonnale paistab silma eelkõige ebatavaline keelevalik. Esinejad soovivad markeerida “serbia- likkust” või isegi laiemalt “balkanipärasust”, joviaalsust, rahvalikkust. Ilmselt eeldati vaikimisi, et serbia keel teebki laulu esilduvaks kõigile vaatajatele. “Leto- sveti” võit rahvuslikus voorus näitab, et see arvestus on osutunud õigeks eestlaste suhtes. Kuid esilduvus serbia kuulajaskonna jaoks on paratamatult teistsugune, vaatamata autorite kavatsustele. Potentsiaalselt võimaliku positiivse vastukaja neutraliseerib seosetu tekst, seega “serbialikkuse” pinnapealsest markeerimisest ei piisa, sest paratamatult hakkab serbia-/horvaadikeelne kuulaja otsima sidusust, mida tekstis ei ole.

9 Autorid on tänulikud Michael Clyne'ile selle tähelepaneku eest. 10 Nõukogude ajal laulsid mitmed eesti populaarsed esinejad vene keeles, nt Anne Veski, Jaak Joala, Marju Länik, Tõnis Mägi jm, kusjuures Anne Veski on Venemaal siiani populaarne. Eesti (ja väiksemal määral Läti) lauljate popu- laarsust “üleliidulise” publiku seas pole uuritud, samas on sellel edul ka tähelepanuväärivaid sotsiolingvistilisi aspekte: kindlasti lisas atraktiivsust “balti aktsent” (järjekordne üleüldistamine), mis esindas “midagi läänelikku” (osa laiemast 323 diskursusest “Baltikum kui nõukogude Lääs”, mis hõlmas ka nn “tõsist” kultuuri, vt Sergei Dovlatovi teoseid). 11 2000. a üks eesti raadiojaam otsustas lõbustada oma kuulajaid 1. aprilli hommikul lätikeelsete saadetega. Läti- keelse saate ülekanne jätkus terve päeva. Nali seisneski lätikeelse kõne täielikus ligipääsmatuses ja samas läti keele äratuntavuses, kuna eesti kuulaja oskab siiski tuvastada, et tegemist on läti keelega. Ilmselt oligi viimatimainitud seik põhjuseks, mis Serbia ja teised Balkani riigid ei andnud hääli “Letosvetile”. Lisapõhjus on vist ka Eurovisiooni suhtes selgelt paro- deeriv hoiak, mis asetab “Letosveti” autsaiderite kategooriasse koos Belgia ja Iirimaa lauludega. “Letosvet” kukkus välja poolfi naalis, jäädes eelviimasele 18. kohale.

Viidatud kirjandus Androutsopoulos, Jannis 2004. Non-native English and sub-cultural identities in media discourse. – H. Sandøy (Ed.). Den fl eirspråklege utfordringa / The Multilingual Chal- lenge. : Novus, 83–98. Androutsopoulos, Jannis 2005. Hip-Hop and language: Vertical intertextuality and the three spheres of pop culture. – P. Dyndahl, L. A. Kulbrandstad (Eds.). High fi delity eller rein jalla? Purisme som problem i kultur, sprak og estetikk. Vallset: Oplandske Bokforlag, 161–188. Androutsopoulos, Jannis 2006. Online Hip Hop culture. – Shirley Steinberg, Priya Parmar, Birgit Richard (Eds.). Contemporary Youth Culture: An International Encyclopedia, Vol. 1. Westport: Greenwood Press, 217–233. Apte, Mahadev 2001. Stereotype and social attitudes. – Rajend Mestrie (Ed.). Concise Encyclopedia of Sociolinguistics. Oxford: Elsevier, 608–609. Auer, Peter 2006. Sociolinguistic crossing. – Keith Brown (Ed.). Encyclopedia of Language and Linguistics, Vol. 11. 2nd ed. Oxford: Elsevier, 490–492. Auer, Peter; Dirim, İnci 2003. Socio-cultural orientation, urban youth styles and the spon- taneous acquisition of Turkish by non-Turkish adolescents in Germany. – Jannis Androutsopoulos, Alexandra Georgakopoulou (Eds.). Discourse Constructions of Youth Identities. Amsterdam: Benjamins, 223–246. Blic 2008. Estonci na “Evroviziji” pevaju na srpskom [Eestlased laulavad serbia keeles Eurovisioonil]. Blic (võrguväljaanne), 07.02.2008. http://www.blic.co.yu/zabava. php?id=29244 (15.03.2008). Campbell-Kibler, Kathryn 2007. Accent, (ing), and the social logics of listener perception. – American Speech, 82 (1), 32–64. doi:10.1215/00031283-2007-002 Clyne, Michael 2003. Dynamics of Language Contacts. Cambridge: Cambridge University Press. Cook, Vivian 1997. Monolingual bias in second language acquisition research. – Revista Canaria de Estudios Ingleses, 34, 35–50. Coupland, Nikolas 2001. ‘Other’ representation. – Jef Verschueren, Jan-Ola Östmann, Jan Blommaert (Comps.). Handbook of Pragmatics Installment 1999. Amsterdam, Phila- delphia: John Benjamins, 1–24. Coupland, Nikolas 2004. Stylised deception. – Adam Jaworski, Nikolas Coupland, Dariusz Galasiński (Eds.). Metalanguage. Social and Ideological Perspectives. Language, Power and Social Process 11. Berlin: Mouton de Gruyter, 249–274. Coupland, Nikolas 2007. Style: Language Variation and Identity. Leiden: Cambridge Uni- versity Press. Cutler, Cecilia 1999. Yorkville crossing: white teens, hip hop and African American Eng- lish. – Roxy Harris, Ben Rampton (Eds.). The Language, Ethnicity and Race Reader. London: Routledge, 314–327. De Angelis, Gessica 2005. Multilingualism and non-native lexical transfer: An iden- tification problem. – International Journal of Multilingualism, 2 (1), 1–25. doi:10.1080/17501220508668374 Forum.hrt. Da li bi glasali na Eurosongu za pjesmu na hrvatskom jeziku? [Kas te hääletaksite horvaadikeelse eurolaulu poolt?] Horvaadi rahvustelevisiooni (HRT) foorum, http:// forum.hrt.hr/viewtopic.php?t=10695 (10.03.2008). 324 Haan, Marco; Dijkstra, Gerhard; Dijkstra, Peter 2005. Expert judgment versus public opinion – evidence from the Song Contest. – Journal of Cultural Economics, 29 (1), 59–78. doi:10.1007/s10824-005-6830-0 Hill, Jane 1993. Hasta la vista, baby: Anglo Spanish in the American Southwest. – Critique of Anthropology, 13, 145–176. doi:10.1177/0308275X9301300203 Hill, Jane 2003. Mock Spanish, covert racism and the (leaky) boundary between public and private spheres. – Roxy Harris, Ben Rampton (Eds.). The Language, Ethnicity and Race Reader. London: Routledge, 199–210. Kaldoja, Kersti 2008. Sardellist on kõrini ehk kuidas eestlased eurovisiooni pühaduse minetasid. – Eesti Päevaleht, 04.02.2008. Leivak, Verni 2008. Pajusaarele on “Leto svet” 20. eurolugu. – Postimees, 05.02.2008. Lindemann, Stephanie 2005. Who speaks “broken English”? US undegraduates’ perception of non-native English. – International Journal of Applied Linguistics, 15 (2), 187–212. doi:10.1111/j.1473-4192.2005.00087.x Lippi-Green, Rosina 1997. English with an Accent. London and New York: Routledge. Niedzelski, Nancy; Preston, Dennis 2003. Folk Linguistics. Trends in Linguistics. Studies and Monographs 122. Berlin: Mouton de Gruyter. Pau, Aivar 2008. Eesti blogimaailm eurolaulust: palju õnne debiilikud ja luuserid! – Eesti Päevaleht, 03.02.2008. Pavlenko, Aneta 2002. Poststructuralist approaches to the study of social factors in second language learning and use. – Vivian Cook (Ed.). Portraits of the L2 User. Clevedon: Multilingual Matters, 277–343. Piller, Ingrid 2002. Passing for a native speaker: Identity and success in second language learn- ing. – Journal of Sociolinguistics, 6 (2), 179–206. doi:10.1111/1467-9481.00184 Rampton, Ben 1995. Crossing: Language and Ethnicity Amongst Adolescents. New York: Longman. Rampton, Ben 1999. Styling the other: Introduction. – Journal of Sociolinguistics, 3 (4), 421–427. doi:10.1111/1467-9481.00088 Rattus, Sirje 2008. Leto svet! – eto leto svet ehk pointi pole! – Just! Nr. 2 (jaanuar), 15–16. Verschik, Anna 2005. The language situation in Estonia. – Journal of Baltic Studies, 36 (3), 283–316. doi:10.1080/01629770500000111

Lisa. Laulu sõnad Laulu tekst on võetud ETV kodulehelt (http://etv.err.ee/?0545699), ortograafi a on muutmata. Õige tõlge on lisatud, kui see erineb kodulehel leiduvast tõlkest. Originaal: leto svet serbia: letnje svetlo tõlge: suve valgus 1. ko ja sam? ko sam ja? Kes ma olen 2. racun molim (lauldakse siiski serbiapäraselt račun) račun molim palun arvet 3. nestalo mi je plina nestalo mi je plina mu kämpingus sai gaas otsa (õige: mul sai gaas otsa) 4. dva dupla dobosh torta dve duple doboš torte kaks topelt tükki šokolaaditorti (õige: Doboš-torti) 325 5. mahuna to jedosta boranija (mahuna on horvaadi sõna) to je dosta rohelistest ubadest on kõrini (õige: roheline uba, sellest piisab) 6. to jedosta (vt 5) 7. leto svet letnje svetlo suvevalgus 8. eto leto svet ovo je letnje svetlo see on suvevalgus 9. krompira krompira kartulid 10. krashka, luka graška, luka oad, sibul (õige: pirn, sibul) 11. jastoga to jedosta jastoga to je dosta lobsterist on kõrini (vt 5) 12. sardela to jedosta sardela to je dosta sardellist on kõrini (õige: anšoovis, sellest piisab) 13. Sommer licht (saksa) suvevalgus 14. das ist sommer licht See on suvevalgus 15. Mitäs nyt? (soome) mis nüüd? 16. Kesävalot nyt suvevalgus nüüd 17. letosvet, eto letosvet (vt 7-8)

Anna Verschik (Tallinna Ülikool). Uurimisvaldkonnad on kontaktlingvistika (koodivahetus, keelekontaktidest johtuv keelemuutus), Balti riikide sotsiolingvistika ja etnolektid. [email protected]

Jim Hlavac (Monashi Ülikool, Melbourne, Austraalia). Tema uurimisalad on koodivahetus ja keele mor- fosüntaktiline muutumine, keele säilitamise ja keelevahetuse problemaatika ning tõlketeadus. [email protected]

326 “LETOSVET”: A VULGAR SONG OR A FOLK-(SOCIO)LINGUISTIC EXPERIMENT?

Anna Verschik, Jim Hlavac Tallinn University, Monash University

The article explores the song Letosvet that represented Estonia in 2008 Eurovi- sion Song Contest in Belgrad. The song is remarkable in several respects: 1) it is an imitation of Serbian, a language that Estonians have practically no contact and, therefore, ready-made imitation devices do not exist; 2) the song has generated controversial opinions that provide an excellent material for a research in folk linguistics; 3) the song raises the question, what kind of imitation is intelligible to the native speakers. The authors have skillfully drawn on the resources of Russian, a closely related Slavic language. The analysis demonstrates that despite negative attitudes expressed in Estonian media and claims that the language of the song is erroneous and unintelligible to the Serbs, the non-target forms are in fact not numerous. It is rather incoherence and divergence from the genre of Eurovision songs that might hinder comprehension. The authors of the song have tried to perform an alternative type of multilingualism that, contrary to the mainstream expectation, does not include English.

Keywords: multilingualism, Eurovision, folk linguistics, Estonian, Serbian

327

TEGUMOOD EESTI LAPSEKEELES

Maigi Vija, Reeli Torn-Leesik, Renate Pajusalu

Ülevaade. Artiklis uuritakse tegumoekonstruktsioone eesti lapse- keeles. Esiteks vaadeldakse tegumoekonstruktsioonide esinemist lapse ja täiskasvanu vahelises vestluses. Analüüsitav keelematerjal pärineb korpusest CHILDES. Analüüsi tulemus näitab, et lapse ja täiskasva- nu vahelises vestluses kasutatakse sünteetilisi impersonaalivorme 5, 329–344 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT enamasti geneerilises funktsioonis üldkehtivate (käitumis)normide esitamiseks, kuid mõnikord ka ebaolulise tegija taandamiseks. Enamik lapsekeele impersonaalivorme on moodustatud sihilistest tegusõna- dest. Perifrastilisi tud-partitsiibiga vorme kasutatakse resultatiivsuse märkimiseks ja neid võib pidada ka aspektikategooria väljenduseks. Artikli teises pooles esitatakse 4–6-aastaste lastega läbi viidud mõist- miskatse tulemused, mis osutavad, et impersonaali vormid iseenesest ei valmista lastele raskusi, mõnevõrra raskendab aga impersonaalse lause mõistmist testlauses esinev poolt-konstruktsioon. Vaadeldud lau- setüüpidest tekitasid tõsiseid mõistmisraskusi ainult OVS-sõnajärjega aktiivilaused, milles puudus objekti käändemarker.* Võtmesõnad: keeleomandamine, sisendkeel, grammatilised kate- gooriad, impersonaal, passiiv, eesti keel

1. Sissejuhatus

Artikkel kajastab esimest etappi uurimusest, mis keskendub tegumoekonstruktsioo- nide arengule eesti laste keeles. Artiklis vaadeldakse esimeste tegumoekonstrukt- sioonide ilmumist lapse kõnesse kolmanda eluaasta jooksul ja nende konstrukt- sioonide funktsioone. Materjal pärineb CHILDES-i1 korpuse eesti laste (vanuses 0;11.22–3;1.13)2 ja nende hoidjate igapäevastest spontaansetest dialoogidest. Samuti

* Uurimus viiakse läbi osana Eesti Teadusfondi fi nantseeritavast grandist nr 7492 “3–7-aastaste laste keelelise arengu leksikaalsed ja grammatilised seaduspärad” ja on eeltöö Euroopa Teadusfondi COST-i projektile “Cross-linguistical- ly Robust Stages of Children’s Linguistic Performance”. Osaliselt fi nantseerib projekti ka sihtfi nantseeritav teema SF0180056s08. Tegumoe kui grammatilise kategooria uuringuid on osaliselt toetatud ETF-i grandist nr 7006. Täname 329 anonüümseid retsensente asjalike kommentaaride eest. 1 CHILDES (Child Language Data Exchange System) http://childes.psy.cmu.edu/ on rahvusvaheline lapsekeeleand- mebaas. 2 Lapse vanus aastates;kuudes.päevades. esitatakse artiklis 4–6-aastaste laste seas läbi viidud tegumoekonstruktsioonide mõistmiskatse tulemused. Seega kasutame kahte erinevat meetodit: spontaanse kõne lindistuste analüüsi produktsiooni uurimiseks ja katset mõistmise uurimiseks. Kuna impersonaali ja passiivi vormid ei ole spontaanses kõnes väga sagedased, on selline metodoloogiline mitmekesisus paratamatu. Eesti laste spontaanse kõne korpused on lihtsalt liiga väikesed ja lindistatud lapsed liiga noored, et kogu lapse keelelise kompetentsuse areng tegumoekategooria osas oleks vaadeldav. Eksperi- ment on küll kunstlik olukord, kuid annab suhteliselt kiiresti materjali paljude laste kohta. Tulevikus on uurimustööd plaanis jätkata ka produktsioonitestide abil, kuigi tegumoekategooria puhul on suhteliselt keeruline leida kontekste, kus laps oleks temaatiliselt sunnitud kasutama impersonaali või passiivi. Uurimuse eesmärgiks on teha esimene sissevaade impersonaali ja passiivi omandamisesse, sest eesti keele tegumoekategooria omandamist siiani põhjalikult uuritud ei ole. Valminud on vaid üks magistritöö (Truman 2008), milles on osaliselt kasutatud sama mõistmiskatse tulemusi. Üks põhjalikumaid olemasolevaid uurimusi eesti keele morfoloogia omandamisest on Reili Arguse doktoritöö (2008). Kuna R. Argus keskendub põhiliselt käände-, aja- ja aspektikategooriate omandamisele, on käesolev tegumoekonstruktsioonide uurimus oluline täiendus eesti lapsekeele uurimisse. Püüame välja selgitada nii impersonaali omandamise aja teiste gramma- tiliste kategooriate omandamise aja suhtes kui ka impersonaali eri vormide (eelkõige preesensi ja perfekti) omandamise omavahelise järjekorra. Üritame vastata küsimu- sele, millised on tüüpilised kontekstid, milles lapsed ja nende vanemad kõigepealt impersonaalivorme kasutavad. Mõistmiskatse põhjal esitame andmeid selle kohta, millised tavalisest subjektialgulisest lausest erinevad konstruktsioonid on mõistmise seisukohalt lihtsamad ja millised raskemad ning mis võiks olla selle põhjuseks. Artiklis esitatakse kõigepealt teoreetiline taust tegumoe kui grammatilise kate- gooria kohta (2. osa) ja antakse lühiülevaade varasematest tegumoe omandamise käsitlustest (3. osa). Neljandas osas analüüsitakse tegumoekonstruktsioone lapse igapäevases kõnes ja sisendkeeles CHILDES-i andmebaasi lindistuste põhjal. Viies osa annab ülevaate mõistmiskatsest ja selle tulemustest.

2. Tegumood kui grammatiline kategooria

Grammatilise tegumoe kirjeldused keskenduvad tavaliselt aktiivi ja passiivi vas- tandusele, mida leiame paljudes indoeuroopa keeltes (näiteks germaani, romaani ja slaavi keeltes). Passivisatsioon toob endaga kaasa argumentstruktuuri muutuse, mille tulemusena aktiivilause objekt ülendatakse passiivilauses subjektiks, aktiivi- lause subjekt aga alandatakse agentadverbiaaliks või jäetakse lausest üldse välja. Verb saab passiivikategooriale omase markeri ja tüüpiliselt ühildub subjektiga. Aktiivi ja passiivi tegumoekonstruktsioonide vastandust iseloomustavad järgnevad inglise ja saksa keele näited (1a-b) ja (2a-b). Laused (1a) ja (2a) on aktiivis, laused (1b) ja (2b) aga vastavate lausete passiivivormid.

(1a) The boy kissed the girl. (aktiiv) (1b) The girl was kissed (by the boy). (passiiv) (2a) Das Mädchen schrieb den Brief. (aktiiv) (2b) Der Brief wurde (vom Mädchen) geschrieben. (passiiv) 330 Kui inglise keeles on võimalik passiivi moodustada ainult transitiivsetest verbidest, siis saksa keeles saab seda teha ka intransitiivsetest verbidest (vt näide 3). (3a) Die jungen Leute haben in der Küche geraucht. (aktiiv) (3b) In der Küche wurde (von den jungen Leuten) geraucht. (passiiv) Teine tegumoeline vastandus, mida leidub läänemeresoome keeltes (välja arvatud liivi keeles (Viitso 1998)), keldi keeltes ja mõnes slaavi keeles, hõlmab vastan- dust personaalse (aktiivi) ja impersonaalse (aktiivi) tegumoe vahel. Passiiv ja impersonaal on erinevad konstruktsioonid, millest mõlemal on oma spetsiifi lised morfosüntaktilised piirangud. Kui passivisatsioon on valentsi redutseeriv ope- ratsioon, mille tulemusena aktiivi tegevussubjekt alandatakse (ingl demote), siis impersonalisatsioon kujutab endast protsessi, mis pelgalt piirab argumendi reali- seerumist ega mõjuta verbi valentsi. Lisaks on impersonaali võimalik moodustada mitteakusatiivsetest verbidest, passiivi aga mitte (Perlmutter 1978).3 Passiivis toimub tegevussubjekti taandumine, millest järeldub, et “no passive clause in any language can be based on an unaccusative predicate” (Perlmutter, Postal 1984: 107), sest mitteakusatiivsetel verbidel puudub tegevussubjekt, mida taandada. Erinevused avalduvad ka kahe tegumoe väljundis ja interpretatsioonis, mis vasta- vatele konstruktsioonidele omistatakse (vt Blevins 2003). Erinevalt passiivist säilib impersonaalis objekt ega muutu subjektiks. Peale selle viitab impersonaal tavaliselt indefi niitsele inimagendile (Frajzyngier 1982, Siewierska 1984). Eesti keelele on omane just vastandus personaali ja impersonaali vahel, olgugi et meie keeles on olemas ka perifrastiline (resultatiivne) seisundipassiiv (Rajandi (1999 [1968]), Pihlak 1993, Torn 2002).4 Impersonaali ja seisundipassiivi para- digmad on toodud tabelis 1.

Tabel 1. Impersonaali ja seisundipassiivi paradigmad

Impersonaal Seisundipassiiv Olevik Joostakse õues. Loetakse raamatuid. Raamatud on loetud. Lihtminevik Joosti õues. Loeti raamatuid. Raamatud olid loetud. Täisminevik On joostud õues. On loetud raamatuid. Raamatud on olnud loetud. Enneminevik Oli joostud õues. Oli loetud raamatuid. Raamatud olid olnud loetud.

Kuna mõlema tegumoekonstruktsiooni moodustamine mõjutab subjekti rolli, siis võib impersonaalil ja passiivil olla sarnane kommunikatiivne funktsioon (seda eriti, kui võrdleme eesti impersonaali ja näiteks inglise passiivi). Samas tuleb aga täheldada, et neil konstruktsioonidel on erinevad süntaktilised ja semantilised pii- rangud (nt Torn 2002, Torn-Leesik 2007, Torn-Leesik 2009). Eesti impersonaali on võimalik moodustada nii transitiivsetest kui ka intransitiivsetest verbidest, passiivi aga ainult transitiivsetest verbidest. Oluline erinevus kahe konstruktsiooni vahel seisneb selles, et passiivi on võimalik moodustada ainult mitteergatiivsetest

3 Perlmutteri (1978) mitteakusatiivsuse hüpoteesi (ingl The Unaccusativity Hypothesis) järgi jagunevad intransitiivsed verbid mitteergatiivseteks ja mitteakusatiivseteks, mis erinevad üksteisest oma süntaktilise konfi guratsiooni poolest. Põhiline erinevus kahe tüübi vahel on see, et mitteergatiivsed verbid, nagu suusatama, helistama, seostatakse loogilise subjektiga, samas kui mitteakusatiivsetel verbidel, nagu jääma, kaaluma, puudub loogiline subjekt. See klassifi katsioon ühtib ka seisukohaga, et passiivisatsioon on protsess, mis alandab (ingl demotes) loogilise subjekti (Comrie 1977). 331 4 See, et impersonaali perfektivormid ja passiivi vormid koosnevad samadest elementidest, on põhjustanud vaidlusi eesti lingvistide hulgas, kas tegemist on eri tegumoekonstruktsioonide (nt Rajandi 1999 [1968], Pihlak 1993, Torn 2002, 2006a, Blevins 2003, Vihman 2004, Torn-Leesik 2007) või üldisema konstruktsiooniga, mis hõlmab nii imperso- naali kui ka passiivi (e.g. Tauli 1980, Erelt 1989, Erelt jt 1993). Siinsed autorid pooldavad esimest lähenemist. verbidest, aga impersonaali ka mitteakusatiivsetest (Torn 2002). Agentadverbiaali kasutust, mis vormistatakse enamasti poolt-konstruktsioonina5, impersonaali vormides paljudel juhtudel standardkeeles ei aktsepteerita. Poolt-konstruktsioone saab nende puhul kasutada vaid teatud kontekstides (vt Torn 2006b). Ka passiivi- lausetes ei ole poolt-konstruktsioonid väga levinud ja neid peetakse indoeuroopa keelte mõju väljenduseks (Nemvalts 1998). Impersonaali saab üldjuhul moodus- tada ainult verbidest, mis nõuavad inimtegijast subjekti nominatiivis (Torn 2002, Torn-Leesik 2007).

3. Tegumood lapsekeeles: varasemad uurimused

Tegumoekategooria omandamist eesti keeles seni teadaolevalt vaadeldud ei ole, kuid seda on uuritud teistes keeltes. Üldlevinud on seisukoht, et inglise lapsed ei moodusta ise passiivilauseid enne 4.-5. eluaastat. Sellele faktile on püütud leida erinevaid seletusi, mis võib üldiselt jagada kaheks: generativistlikuks ja kasutus- põhiseks seletuseks. Generativistlikku paradigmat esindav Maria Teresa Guasti (2004: 251–252) nimetab oma passiivi omandamise uurimise kokkuvõttes eelkõige kahte varasemat tulemust. Ühelt poolt on inglisekeelsete laste puhul leitud, et nad mõistavad paremini tegevusverbide (näiteks kammima, kratsima, puudutama) kui näiteks tajuverbide (nägema, kuulma, kartma) passiivikonstruktsioone, teiselt poolt on leitud, et (vähemalt) inglise, saksa ja heebrea keelt omandavad lapsed alus- tavad nii mõistmist kui ka tootmist lühikestest (ilma by-fraasita) ja eelkõige gram- matilise subjekti omadust väljendavatest passiivikonstruktsioonidest (näiteks ingl tree is broken ‘puu on lõhutud’). Seega tajuvad lapsed mingi protsessi või tegevuse lõppresultaati, kuid ei suuda seda ühendada lõppenud tegevuse ega ka selle tegi- jaga, mistõttu tegija väljendamine by-fraasiga ei ole nende jaoks võimalik. Hiljem on leitud ka, et lapsed nii toodavad kui ka mõistavad erinevaid, ka tajuverbide ja by-fraasiga passiivikonstruktsioone väga varakult (juba 3-aastasena, kõige hiljem vanuses 3;6–4 (Guasti 2004: 260–263)). Raskusi paistab siiski olevat nende kahe kategooria ühendamisel: lapsed mõistavad selgelt halvemini lauseid, milles on nii mittetegevuslik (üldjuhul taju-) verb kui ka by-fraas (näiteks ingl the boy is seen by the horse sõna-sõnalt: ‘poiss(i) on nähtud hobuse poolt’). Raskuse põhjuseks on peetud by-fraasi sobimatust mittetegevusliku verbi temaatilise struktuuriga, kuna by-fraas vormistab eelkõige agenti või põhjustajat, mitte kogejat (Fox, Grodzinsky 1998, Guasti 2004: 267). Seega on generatiivses traditsioonis oletatud, et teatud passiivikonstruktsioonid on lapse keelelises arengus suhteliselt hilised selle tõttu, et passiivilausete mõistmine ja tootmine nõuab keerukaid transformatsioone. Kasutuspõhise (ingl usage-based) lähenemise pooldajad aga oletavad, et pigem on tegemist nende konstruktsioonide haruldase esinemisega sisendkeeles ja spetsiaalse treenimise korral suudab laps ka enne 3-aastaseks saamist mis tahes tüüpi passiivilauseid moodustada, nagu on näidanud Michael Tomasello ja tema kolleegide katsed (Brooks, Tomasello 1999). Ka muude kui indoeuroopa keelte uurimused näitavad, et kui sisendkeeles on passiivikonstruktsioonid sagedased, on need ka lapsekeeles tunduvalt varasemad (vt ülevaadet Tomasello 2003: 173–175).

332 5 Rajandi (1999 [1968]: 81) mainib ka võimalust, kus agentadverbiaal on elatiivis, samas aga ei ole selline kasutus väga sage. Adessiivse argumendi kasutust impersonaalis ja passiivis on lähemalt vaadelnud Lindström ja Tragel (2007). Eesti keele tegumoekategooria omandamise uurimisel kerkib eelkõige esile küsimus, kas see toimub sarnaselt indoeuroopa keelte passiivi arenguga või on selles oma eripära. Impersonaalsed tegijamääruseta laused võiksid olla sarnased inglise by-fraasita passiivlausetega: neis on ainult üks nominaalfraas ja verb on markeeritud. Kuna varasemad uurimused (Argus 2008, Vija 2000) on juba näidanud, et ka eesti lastel ei ole tegumood esimeste omandatud kategooriate hulgas (verbikategooriatest eelnevad kindlasti aeg ja isik), siis püüame siinses uurimuses eelkõige vastata küsi- mustele, millal ja millistes kontekstides tegumoekategooria omandatakse. Kasutuspõhises lähenemises on oluline seos sõnavara ja grammatika vahel. Kuna laps omandab algetapil grammatikat eelkõige konstruktsioonidena, mis on seotud konkreetsete sõnadega, ei ole sõnavara ja grammatika omandamine põhi- mõtteliselt eristatavad. Seega on grammatika omandamine tihedas korrelatsioonis sõnavara suurusega: mida suurem on lapse sõnavara, seda rohkem on tema keeles eri grammatilisi konstruktsioone. Selle põhjuseks on ilmselt see, et mida rohkem on lapsel sõnu, seda rohkem on ka nende sõnadega seotud konstruktsioone (Dabrowska 2004: 160−161). Just valmisvormelite rohkus annab võimaluse keelesüsteemi aren- guks (Lieven jt 1997). Siinses artiklis jääb sõnavara hulga ja grammatilise süsteemi komplekssuse seos siiski vaatlemata, kuna meil ei ole võimalik määrata vaadeldud laste sõnavara hulka.

4. Tegumoekonstruktsioonid eesti lapse igapäevases suhtluses CHILDES-i andmebaasi põhjal

Tegumoekonstruktsioonide kasutuse uurimiseks analüüsisime CHILDES-is leidu- vaid eesti laste lindistusi, mis alljärgnevalt tulevad vaatluse alla kahes grupis. Jaotuse põhimõtteks on olnud lindistuste pikkused ja sagedus. Materjalist otsisime6 välja impersonaali oleviku sünteetilised (kse-lõpulised) vormid ja oleviku perifrastilised on -dud/-tud-konstruktsioonid7. Samu konstruktsioone testiti ka mõistmiskatses (vt 5. ptk). Esimese grupi moodustavad üheksa lapse lindistused (vt tabel 2), mis on lühemad ja kogutud lühema aja jooksul. Nende lindistuste analüüs on siin siiski ära toodud selleks, et saada täielikum ülevaade CHILDES-i andmebaasi eesti laste lindistustes võimalikest leiduvatest tegumoekonstruktsioonidest. Tabeli esimeses tulbas on lapse kood (CHILDES-i andmebaasist), teises tulbas lapse nimi ja temaga suhelnud ning lindistanud isik. Veel on tabelis ära toodud lapse vanus kogu lindis- tusperioodi jooksul ja lindistuste kogupikkus tundides. Viimases kahes tulbas on esi- tatud neis lindistustes esinenud tegumoevormide arv koos leitud näitelausetega. Tabelist 2 on näha, et ükski üheksast lapsest nendes lindistustes imperso- naalivorme ei kasutanud. Samuti kasutasid lindistaja ja emad neid vähe või üldse mitte. Samas ei saa selle analüüsi põhjal veel laiema põhjaga üldistusi teha, kuna enamik lindistusi olid lühikesed ja neid ei tehtud järjepidevalt. Parema ülevaate tegumoekonstruktsioonide esinemisest igapäevases suhtluses eesti lapsekeeles annab Andrease allkorpus. Andrease lindistusi on CHILDES-i andmebaasis kõige rohkem; teda lindistati pikiuurimuse jaoks järjepidevalt, iga kord tund aega. Sal- vestusi alustati siis, kui Andreas oli 1 aasta, 7 kuud ja 24 päeva vana. Kokku on materjali 74 tundi ja see ulatub vanuseni 3;1.13.

333 6 Keelematerjali on analüüsitud programmiga CLAN. 7 on -dud/-tud konstruktsioonide puhul impersonaali ja passiivi ei eristatud ning impersonaali eitused jäid analüüsist välja. Tabel 3 võtab kokku Andrease ja tema ema dialoogides leiduvate oleviku tegu- moekonstruktsioonide analüüsi tulemused.

Tabel 2. Tegumoevormid 9 eesti lapse korpuse põhjal

Lindistuste Lapse nimi// Kood Lapse vanus pikkus -kse -tud/-dud lindistaja tundides Annabel 1;10.8–2;1 1 t 45 min –– ANN 1 (trummiga põris- – KAJ (lindistaja) tatakse) Carlos 1;7.17–1;10.29 2 t 15 min –– KAJ (lindistaja) –– CAR 1 (siit võetakse – MOT (ema) bensiini) Hendrik 1;8.13–2;5.30 2 t 58 min –– 5 (tehakse ai ai (3), 1 (mäu on kinni CHI küüsi lõigatakse, õmmeldud) MOT (ema) sinna pannakse jalg peale) Mariliis 2;5.7–2;8.10 2 t 50 min –– MAR 1 (plomm pan- – MOT (ema) nakse) Sandor 1;2.0–2;2.22 4 t 5 min –– SAN 1 (kapsast tehakse – KAJ (lindistaja) suppi) Taimo 1;11.13–1;5.8 5 t 5 min –– TAI KAJ (lindistaja) –– Stella 0;11.22–1;6,4 6 tundi –– 2 (kus papu pan- – STE MOT (ema) nakse? kuhu papu pannakse?) KAJ (lindistaja) –– Helen 1;1.17–1;10.17 3 t 10 min –– 1 (juua antakse – MOT (ema) jälle) HEL 2 (papu pandakse – KAJ (lindistaja) jalga, ei panda suhu) HEN Henri 2;2.12–2;3.8 1 t 30 min –– 1 (seal tehakse 2 (seal ka on auto terveks) kirjutatud, mõle- KAJ (lindistaja) mal pool uste pea- le on kirjutatud)

Tabelis on antud Andrease vanus ja konkreetse perioodi8 lindistuste kogupikkus tundides. Samuti on eristatud tegumoevormide sünteetilised ja perifrastilised vor- mid, eraldi on märgitud ka impersonaali eituse vormide arv. Ema ja lapse vastavate vormide esinemisjuhtude arv on ära toodud eraldi veergudes. Konstruktsioonid ei ole -dud/-tud jäid siinkohal vaatluse alt välja.

334 8 Perioodideks jagamine on seotud eri projektide jaoks kogutud lindistustega. Tabel 3. Ema (E) ja Andrease (A) oleviku tegumoekonstruktsioonid 74 lindistuses

1;7−2;0 (7 tundi) 2;0−2;1 (30 tundi) 2;3−3;0 (7 tundi) 3;0–3;1 (30 tundi) ei on ei on ei on ei on -kse -ta/ -dud/ -kse -ta/ -dud/ -kse -ta/ -dud/ -kse -ta/ -dud/ -da -tud -da -tud -da -tud -da -tud E 3 – – 26 8 16 8 3 4 97 13 39 A – – – 1 – 8 7 – 3 84 3 36

Nagu tabelist näha, Andrease esimese kahe eluaasta lindistustes impersonaali konst- ruktsioone ei esinenud. Samas võib täheldada, et ka sisendkeeles, st ema kõnes, ei esine eriti impersonaali- või passiivikonstruktsioone. Seitsmetunnises materjalis leidus ema kõnes ainult kolm impersonaali oleviku vormi, milleks olid sagedaste verbide tegema ja andma vormid tehakse ja antakse. Need andmed langevad kokku ka tabelis 2 toodud andmetega tegumoevormide sageduse ning kasutatud verbide kohta. Sarnast arengut on märgatud personaalpronoomenite kasutuses. Nii ema kui ka lapse kõnes kasvab nii impersonaalivormide kui pronoomenite hulk hüp- peliselt kolmanda sünnipäeva paiku (Vija 2007: 376). Selleks ajaks, kui esimesed impersonaalivormid Andrease kõnesse ilmuvad, on tal esinenud kõiki ainsuse ja mitmuse isikupöördelõppe ning ajakategooria väljendamisel lihtminevikku ning täisminevikku (vt ka Vija 2000). Esimesed impersonaalivormid ilmuvad Andrease kõnesse kolmandal eluaas- tal. Lindistuste põhjal on esimeseks neist piima kallatakse. Ka ema kõnes leidub impersonaalivorme juba rohkem kui varasemates lindistustes. Andreaselt võib leida vanuses 2;3–3;0 selliseid impersonaalivormis tegusõnu nagu pannakse, kuu- latakse, visatakse, nätsutakse [*]9 ja on -tud/-dud konstruktsioone, nagu telitud [*] (= teritatud), kiljutud [*] on (= kirjutatud on). Kolmeaastaselt suureneb impersonaali ja passiivi kasutusjuhtude arv märga- tavalt nii Andrease enda kui ka talle suunatud kõnes. Tähelepanuväärne on see, et selles vanuses on ema ja lapse impersonaalivormide kasutusjuhtude arv peaaegu sama. Andreas kasutab selliseid verbe nagu süüakse, juuakse, tehakse, ravitakse, nimetakse [*], vajutatatakse [*], tehtakse [*], ei pestakse [*], lähakse [* ] (= min- nakse), pandakse [*] jne ja on -tud/-dud vorme on tehtud, on kirjutatud, on ehi- tatud, on katki lõigatud, on ära värvitud. Nii Andrease kui ka ema impersonaalsed verbid on sagedased igapäevased sõnad. Enamik impersonaalivormis verbidest nii ema kui ka Andrease kõnes on transitiivsed verbid: transitiivseid ja intransitiivseid verbe esineb emal vastavalt 211 ja 4, lapsel aga 135 ja 7. Üheteistkümnest intransitiivsest impersonaalivormis verbist pärinevad ema kõnest minnakse, kõnnitakse, päevitatakse, hakatakse ja Andrease kõnest ujutakse, *lähakse, võimeldakse, päevitatakse, helistatakse, kasvatakse. Kontekstid, milles ema ja laps impersonaalivorme kasutavad, võib üldiselt jagada kaheks. Esimest liiki kontekstid on sellised, mis kirjeldavad situatsioone, milles ini- mesed tavatsevad käituda teatud viisil ja sageli on tegemist n-ö konventsionaalsete reeglite õpetamisega. Näites (4) kõnelevad ema ja laps sellest, mida inimesed tava- liselt nätsuga teevad. Näites (5) aga arutavad ema ja laps seda, millal tehakse lapsele kaitsesüsti. Mõlema näite puhul on impersonaalivormi tõlgenduseks üldisik.

335 9 Nurksulgudes tärniga on märgitud täiskasvanupärasest keelest hälbivaid vorme. (4) [lapse vanus 2;8] *CHI: mina sain sealt tädi Eha juurest nätsu natukene. *MOT: ega sa alla ei neelanud? *CHI: äkkää, ma närisin katki. *MOT: nätsu ei närita katki, näts visatakse ära prügikasti. *CHI: nätsutakse [*] [= nätsutatakse] kõigepealt ära, siis visatakse. *MOT: nätsutatakse. *CHI: siis nätsutakse [*] [= nätsutatakse] ja siis pannakse prügi- kasti.10 (5) [lapse vanus 3;1.1] *MOT: me lähme bussiga sinna kopsuarstile. *CHI: aga kas kaheaasta [*] [= kaheaastasele] tehakse süsti vä? *MOT: kui lapsed kaheseks saavad, siis tehakse jah kaitsesüsti, vaktsi- neerimist. *MOT: sinule ka tehti, kui sa kaheaastaseks said. *CHI: kas süst kaitseb? *MOT: jaa, kaitseb erinevate haiguste eest. *CHI: aga süst on ju hästi kole. *MOT: miks ta kole on, vajalik on. *CHI: ei ole vaja, kui lapsed on kolmeaastased, siis võib teha, kui lapsed on kaheaastased, siis ei või teha. *MOT: seda otsustavad arstid, kaheaastaselt tehakse ja kolmeaastaselt ei tehta. *MOT: nüüd tehakse siis, kui sa kooli lähed, siis tehakse uus süst. *CHI: ei tehta. *MOT: siis ei tule pahad haigused kallale, kõikidele lastele tehakse.

Teist liiki kontekstid on sellised, kus ema ja Andreas kirjeldavad kõnehetkel toimu- vat situatsiooni ja kasutavad selleks impersonaali vorme, mis viitavad indefi niitsele tegijale. Tegija asemel on oluline tegevus, mida tehakse või millest räägitakse. Sellist kasutust illustreerib näide (6), milles laps ajab ema mängumajast ära, sest selles hakatakse justkui remonti tegema ja seal ei saa remondi ajal mängida.

(6) [lapse vanus 3;0.11] *CHI: jah, aga siin putkas tehtakse [*] [= tehakse] remont. *MOT: remont tehakse, ja kus sina sellel ajal elad, kui remont on? *CHI: enda kodus. *MOT: enda kodus? *CHI: putka on minu kodus. *CHI: seal putkas tehakse remont ja tehakse uus putka, vana putka tehakse, vana putka tehakse. *MOT: miks vana tehakse? *CHI: on vaja lihtsalt, ma tahtsin ja teevad vana putka. *CHI: mulle meeldib vana putka. *CHI: tule, tule, siin tehtakse [*] [= tehakse] remont, siin tehtakse [*] [= tehakse] remont. *MOT: tehakse remont jah.

336 10 Näited on esitatud programmi CLAN transkriptsioonireeglitele vastavalt, suurtäheline kood CHI tähistab last ja MOT ema, nurksulgudes on lisatud kommentaarid või sõna tegelik kuju/tähendus. Poolpaksus kirjas on esitatud impersonaalivormid. Kahe esitatud konteksti, st konventsionaalsete reeglite kirjeldamise ja õpetamise ning kõnehetkel toimuva situatsiooni kirjeldamise suhtarvud emal on 2:1 (lapse vanuses 2;0–2;1) ja 3:1 (vanuses 3;0–3;1), Andreasel aga 1:1 (vanuses 3;0–3;1). Seega kõneleb Andrease ema lapsest rohkem sellest, kuidas mingites olukordades on tavaks käituda, laps aga kasutab suhteliselt palju ka kõnehetkel toimuva kirjel- damist impersonaali abil. Perifrastilisi on -tud/-dud vorme kasutavad Andreas ja ta ema siis, kui on midagi tehtud või midagi on valmis saanud. Sellist kasutust illustreerivad näited (7) ja (8). (7) [lapse vanus 2;3.26] *CHI: kui on ära istuda, siis, siis ma panen selle pildiaparaadiu [= pildi- aparaadi] ära. *MOT: pildiaparaadiu [= pildiaparaadi]? *MOT: pildiaparaat. *CHI: pildiaparaat panen pärast ära, siis kui on tehtud valmes [= val- mis]. *MOT: mida on tehtud? *CHI: jaa, nüüd on tehtud ja hakkan lindistama. (8) [CHI sööb krõpse, laual on piimapakk. Lapse vanus 3;1.3] *CHI: piim on kirjutatud, p i i. *MOT: kaks i-d on keskel. *CHI: jahh. *CHI: ja repus [= lõpus] on m täht. *MOT: mhmh. *CHI: siis ongi piim. Andrease lindistuste põhjal võib väita, et eesti impersonaali vormid on üldiselt 3-aastase lapse keeles produktiivsed kahes ülalmainitud suhtlussituatsioonis. CHILDES-i andmebaasis leiduva keelematerjali põhjal ei esine ühegi lapse ega ema kõnes poolt-konstruktsioone, mis väljendaksid tegijat.

5. Tegumoekonstruktsioonide mõistmiskatse

5.1. Meetod ja informandid

Mõistmiskatses11 osales 33 normaalse keelelise arenguga 4–6-aastast last ühest Tartu linna lasteaiast. Nelja-aastaseid oli 9, viieaastaseid 11 ja kuueaastaseid 13 last. Katset viis läbi kaks eksperimenteerijat, üks – intervjueerija – tegeles lapsega, näidates pilte ning esitades testilauseid, teine – salvestaja – võttis materjali video- kaameraga lindile ning tegi kõrvaltvaatajana testimissituatsiooni käigus märkmeid lapse reageeringute kohta12. Tegemist oli mõistmiskatsega, mille käigus lapsele öeldi normaalsõnajärjega SVO-lause, impersonaalilause, pöördjärjega OVS-lause või passiivilause ning tal paluti osutada pildile, mille kohta tema arvates öeldud lause käis. Lapsele näidati kolmest pildist koosnevat seeriat, mille igal pildil oli kolm tegelast, samas pildisee-

337 11 Katse eesmärk oli leida põhikatsesse stiimulkonstruktsioonid, mis sarnaneksid tähenduselt inglise keele passiiviga, kuna edaspidi on plaanis eri keelte tulemusi võrrelda. 12 Eksperimendi viisid läbi Maigi Vija ja Mihkel Truman. rias alati ühed ja samad tegelased. Ühel pildil kolmest olid kõik osalejad tegevuseta, see oli nn neutraalne pilt, teisel pildil olid pealtvaataja, tegija ja kogeja ning kol- mandal pildil olid teise pildi tegija ja kogeja rollid vahetanud. Neutraalse pildi ja tegevust väljendavate piltide asukoht oli erinevates pildiseeriates erinev. Lauseid öeldi testimisel nii, et sama tüüpi laused ei korduks järjest. Katse käigus esitati lapsele 44 lauset, mis olid hajutatud 22 kolmest pildist koosneva pildikomplekti peale, st lauseid esitati läbisegi. Kuigi uurimuse eesmärgiks oli välja selgitada, kas ja kuidas lapsed mõistavad eesti keeles impersonaali ja passiivi, öeldi lastele ka normaalsõnajärjega aktiivilauseid (44 testilausest 7), et vältida testimise jooksul pidevalt korduvate passiivi või impersonaali konstruktsioonide äraõppimist. Piltide tegelased olid kaheksaliikmeline perekond: ema, isa, vanaema, vanaisa, väike õde, suur õde, väike vend ja suur vend. Nagu eelnevalt mainitud, võib eri keeli võrreldes täheldada seda, et impersonaali ja passiivi konstruktsioonid võivad täita sarnast kommunikatiivset funktsiooni, kuna mõlema moodustamisel subjekti roll muutub. Kuna indoeuroopa keelte passiivikonstruktsioonides on subjekti staatusesse tõstetud objekt enamasti lauses esimesel kohal, valisime ka oma testlausete hulka grupi selliseid lauseid, kus objekt oleks esimesel kohal, kuid lause ise on isikulise tegumoe aktiivi vormis ja sisal- dab ka subjekti. Selliseid pöördjärjega lauseid ongi peetud inglise passiivilausete sagedasteks tõlkevasteteks (vt nt Randma 1974). Oma katselausete hulka valisime järgmised konstruktsioonid: • agendita impersonaalilaused:

Opart Vimp Tüdruku-t pesta-kse. • perifrastiline seisundipassiiv:

Snom Vpass Tüdruk on pes-tud. • agendiga (poolt-fraasiga) impersonaalilaused:

Opart + Vimp + poolt-NFgen Tüdruku-t pesta-kse ema poolt. • aktiivilaused OVS sõnajärjega (agent olemas):

Opart + Vakt + Snom Tüdruku-t peseb ema. • aktiivilaused OVS sõnajärjega (agent olemas):

O(part)∅ + Vakt + Snom Ema-∅ peseb tüdruk. Testilausete verbideks olid valitud 15 verbi (kallistama, kandma, katma, kuiva- tama, kuulama, kõditama, lööma, lükkama, musitama, mäkerdama, pesema, pildistama, söötma, taga ajama ja tirima), mille puhul võib tegevust loogiliselt sooritada nii üks kui teine situatsioonis osalev inimene.

5.2 Mõistmiskatse tulemused

Tabelis 4 on välja toodud iga lausetüübi (vt eelnev osa 5.1) kohta esitatud õigete vas- tuste hulk ning nende osakaal selle tüübi lausete koguarvust. Esialgsete tulemuste põhjal võib öelda, et lapsed mõistavad kõige paremini OV-järjega impersonaalseid 338 lauseid ja seisundipassiivi lauseid, õigeid vastuseid on vastavalt 93% ja 91%. Erilisi raskusi ei valmistanud ka aktiivis, isikulises tegumoes olevad käändemarkeriga OVS-laused (83% õigesti) ega poolt-konstruktsioonid (79% õigesti). Poolt-konst- ruktsiooniga laused ei valmista lastele suuri raskusi seetõttu, et nende lausete algus kattub agentadverbiaalita impersonaalilausega ja see annab piisava vihje poolt-lause mõistmiseks. Siiski on poolt-laused lastele natuke raskemad kui ilma agentadverbiaalita impersonaalsed laused. Kõige rohkem valesid vastuseid anti objektimarkerita OVS-lausete kohta 13 (tabelis O(part)∅VaktS). Selles lausetüübis olid 64% vastustest valed. Ka soome ja leedu keele andmetel on OVS-konstruktsioon laste jaoks raske ning põhjustab enam eksimusi kui SVO (Leiwo 2007, Savickienė, Kamandulyte 2007).

Tabel 4. Õiged ja valed vastused lausetüübiti 4–6-aastastel lastel (n = 33) Lausetüüp Õige Vale (sh ei tea) Lausete koguarv

OVimp 307 (93%) 23 (7%) 330 resultatiivne ehk seisundipassiiv 150 (91%) 15 (9%) 165 poolt-konstruktsioon 157 (79%) 41 (21%) 198

OpartVaktS 219 (83%) 46 (17%) 265

O(part)∅VaktS 99 (36%) 175 (64%) 274

Kõige lihtsamatest ja kõige raskematest lausetüüpidest annab tulemuste toeta- miseks samasuguse pildi ka tabel 5, kuhu on paigutatud üksiklaused, mille kohta lapsed andsid kõige enam õigeid ja kõige enam valesid vastuseid. Seda, et imperso- naalilausetega (OVimp) said lapsed kõige paremini hakkama, näitab ka allolev tabel, millest selgub, et lihtsaimate lausete hulgas on viis impersonaalilauset.

Tabel 5. Kõige lihtsamad ja kõige raskemad testilaused

Lause Lausetüüp Õiged vastused (33 last)

Poissi tiritakse. OVimp 32

Isa mäkerdatakse. OVimp 31

Tüdrukut musitatakse. OVimp 31

Ema pestakse. OVimp 31

Tüdrukut söödetakse. OVimp 31 Poiss on mäkerdatud. seisundipassiiv 31 Ema on pestud. seisundipassiiv 31 Isa on kuivatatud. seisundipassiiv 31 Väikest venda kõditatakse suure venna poolt. poolt 31

Tüdrukut peseb ema. OpartVaktS31

Isa pildistab poiss. O(part)∅VaktS 15

Ema musitab tüdruk. O(part)∅VaktS 14

Ema peseb tüdruk. O(part)∅VaktS 10

Isa mäkerdab poiss. O(part)∅VaktS 6

Ema ajab taga tüdruk. O(part)∅VaktS 3

Tabelist 6 saab välja lugeda õigete vastuste hulga lausetüübiti vanuserühmade kaupa. Esimene number viitab konkreetse lausetüübi õigete vastuste arvule selles vanuserühmas, kaldkriipsu järel olev number näitab lausetüübi lausete koguhulka ja sulgudes esitatud protsent märgib õigete vastuste protsenti lausetüübi kõikidest

339 13 Ei tea-vastused on analüüsimisel loetud valede vastuste hulka. lausetest. Esialgseid tulemusi vanuseti ja lausetüübiti analüüsides on üldiselt mär- gata korrelatsiooni laste vanuse ning õigete vastuste arvu vahel – mida vanemate lastega on tegemist, seda kõrgem on ka õigete vastuste hulk. Kolme konstrukt- sioonitüübi puhul (OV-impersonaal, poolt-konstruktsioon ja seisundipassiiv) on vanuserühmade ja tulemuste vahel loogiline seos – nelja-aastaste vanusegrupist kuueaastaste poole liikudes tõusevad vastavalt ka õigete vastuste protsendid (vt tabel 6). OVS-lausetes on nelja- ja viieaastased saanud peaaegu sama tulemuse, kuid

käändemarkerita OVS-lausetes (O(part)∅VaktS) on nelja-aastaste tulemus (46% õigeid vastuseid) parem nii viie- (35%) kui ka kuueaastaste (34%) omast. Võib oletada, et nelja-aastased on valinud täiesti juhuslikult, vanemad lapsed on aga enamasti interpreteerinud valesti, pidades markerita objekti subjektiks.

Tabel 6. Õiged vastused lausetüübiti vanuserühmade kaupa

Lausetüüp 4-aastased (9 last) 5-aastased (11 last) 6-aastased (13 last)

OVimp 81/90 (90%) 103/110 (94%) 123/130 (95%) resultatiivne ehk seisundipassiiv 37/45 (82%) 49/55 (89%) 64/65 (98%) poolt-konstruktsioon 41/54 (76%) 51/66 (77%) 65/78 (83%)

OpartVaktS 59/72 (82%) 70/88 (80%) 90/104 (87%)

O(part)∅VaktS 33/72 (46%) 31/88 (35%) 35/104 (34%)

6. Arutelu ja kokkuvõte

Siinses artiklis esitatud tulemuste põhjal võime oletada, et esimesed imperso- naali ja passiivi konstruktsioonid ilmuvad lapse keelde suhteliselt vara (pärast teist sünnipäeva), kuid muutuvad suhteliselt sagedamaks alles aasta pärast. Väga suure ülekaaluga moodustatakse impersonaalivormid sihilistest tegusõnadest, kogu Andrease materjalis esines vaid 11 juhtumit (emal 4 ja lapsel 7 näidet), kus impersonaalne oli sihitu verb. CHILDES-i korpuse keelematerjali analüüsi tulemuste põhjal võib väita, et lapse ja täiskasvanu vahelises vestluses kasutatakse impersonaalivorme eelkõige geneerilistes kontekstides tavapärase käitumise väljendamiseks, sealhulgas ka n-ö moraalinormide esitamiseks. Teine oluline kontekstitüüp impersonaalivormidele on narratiivides ja olukorra kirjeldustes mitterelevantsete tegijate sooritatud/soo- ritatava tegevuse väljendamine. tud-partitsiipi kasutavad lapsed ja täiskasvanud vestluses siis, kui miski saab valmis. Kuna resultatiivne passiiv sisaldab endas teelist aspekti, mis on ka eesti lapse arengus üks esimesi omandatud kategooriaid üldse (Argus 2007), on selliste tud-partitsiipide esinemine lapse kõnes teistest partitsiipide kontekstidest varem loomulik. Mõistmiskatse tulemused osutavad omakorda, et vanuses 4–6 aastat mõis- tavad lapsed impersonaalseid ja passiivilauseid päris hästi. Ühelt poolt on see ka loomulik, kuna lapsed juba varasemas eas neid vorme produktiivselt moodustavad, teiselt poolt vajas impersonaali mõistmine aga siiski kontrollimist, sest varasemad impersonaalikasutused oleksid võinud olla ka niivõrd situatsiooniga seotud, et abstraktses katseolukorras ei oleks lapsed pruukinud neid mõista. Mõistmiskatse põhjal osutusid lausetest raskeimaks pöördjärjega OVS-laused, mida on peetud germaani keelte passiivikonstruktsioonide sagedaseks tõlkevasteks 340 (nt inglise keelest tõlkimise kohta vt Randma 1974). Nende sarnasus passiiviga seisneb selles, et objekt on viidud lauses esimesele positsioonile, kus tavaliselt on subjekt, samas aga säilib agendi positsioon (subjekt), mis eesti keelele omasemas ilma poolt-konstruktsioonita impersonaalses lauses kaduma läheb. Samas on verb aga markeerimata vormis (s.t isikulises tegumoes, aktiivis). Ainsaks grammatili- seks vihjeks lauses esinevate nimisõnafraaside rollide mõistmiseks on subjekti ja objekti käändevorm. Lauseid, milles objektil oli käändelõpp -t, mõistsidki lapsed palju paremini kui neid, milles objekt oli selline sõna, mis partitiivis käändelõppu ei saa. Kuigi katses ei olnud ühtegi tõeliselt kahetähenduslikku lauset (näiteks Ema ajab taga isa), oli ainult subjekti käändevormi järgi kogu lause (näiteks Ema ajab taga tüdruk) mõistmine siiski väga raske. Edaspidi tuleks uurida, kas OVS-lausete mõistmise raskus tuleneb sellest, et nad on sisendkeeles haruldased, või sellest, et nad on grammatiliselt läbipaistmatud. Omaette problemaatiline on poolt-konstruktsioonide staatus. Katses kasutatud poolt-konstruktsioonid ei ole kindlasti eesti kõnekeeles väga loomulikud. Nende kaasamine on ühelt poolt seotud tulevase võrdlusvõimalusega näiteks inglise by- fraasiga, teiselt poolt olid nad aga vajalikud ka eesti tegumoekategooria omandamise tervikpildi saamiseks (vt ka Kaiser, Vihman 2007). Meie vaatluste põhjal toodavad vähemalt kuue aasta vanused lapsed juba ka ise poolt-konstruktsioone, aga need on pigem kombineeritud resultatiivse passiiviga kui impersonaali olevikuga.14 Edaspidised uurimused peavadki näitama, kuidas lapsed toodavad ja mõistavad resultatiivse passiiviga kombineeritud poolt-konstruktsioone. Oluline tulemus on siiski poolt-konstruktsiooni sisaldavate lausete väiksem mõistmisprotsent: siin tundub, et informatsiooni lisamine hoopis raskendab, mitte ei hõlbusta lause mõistmist. Võiksime oletada, et see tuleneb poolt-fraaside ebaloomulikkusest, kuid see haakub eelpool käsitletud inglise keele omandamise andmetega üllatavalt hästi: ka inglise keeles, kus by-fraasi ei saa kuidagi pidada ebaloomulikuks, omandatakse need hiljem. Edasises uurimistöös võiks vaadelda ka reageerimisaega, sest näib, et poolt-lause paneb lapse pikemaks ajaks mõtlema ka siis, kui ta lõpuks õigesti vastab, ja kas on erinevusi poolt-fraasi ja eri tüüpi verbide (eelkõige tajuverbide, mille passiivid paistavad olevat problemaatilised inglise lastele) kombineerimisel. Samuti oleks tulevikus oluline vaadata poolt-lausega esitatud agentadverbiaali tegelikku staatust. Oleme lapsi vaadelnud muudeski kui siinse katse situatsioonides, ja näib, et kui agentadverbiaal on situatsiooni lähtepunkt, see tähendab, et miski tuleneb sõna otsese mõttes tema poolt, on lause mõistmine lapsele lihtsam. Samas ei näita seda siinse katse tulemused, sest kõige lihtsamaks osutus lause Väikest venda kõditatakse suure venna poolt. Edasist uurimist nõuavad ka eri tüüpi verbide mõistmine, sest siin kirjeldatud mõistmiskatses ei olnud kasutatud näiteks ühtki tajuverbi (kuulama esines tähen- duses ‘patsienti läbi kuulama’ ehk tegevusverbina). Kokkuvõtteks võib siinse uurimuse põhjal väita järgmist. • Eesti lapsed omandavad tegumoekategooria suhteliselt vara, kuid siiski pärast aja- ja isikukategooriat. Kiirema kõnearenguga laste keelde hakkab impersonaal tulema juba kolmanda sünnipäeva paiku (mitte 4−6-aastaselt, nagu on oletatud inglise keele passiivi kohta).

341 14 Oleme registreerinud 6-aastase lapse öeldud laused Ma leidsin siit täpikese! See [= hammas] on pisiku poolt puretud. • 3-aastased lapsed kasutavad impersonaalseid lauseid käitumisnormide sõnastamisel ja indefi niitse tegijaga sündmuste kirjeldamisel. • Impersonaalseid ja resultatiivpassiiviga lauseid mõistavad juba 4-aastased väga hästi, OVS-järjega isikulises tegumoes aktiivilause on raske veel ka 6-aastastele eesti lastele. • Poolt-fraasi olemasolu lauses raskendab mõnevõrra impersonaalsete ja resultatiivpassiivilausete mõistmist.

Viidatud kirjandus Argus, Reili 2007. Eesti keele verbi ajamorfoloogia ja aspektilisuse omandamisest. –Emakeele Seltsi aastaraamat, 52 (2006), 7–32. Argus, Reili 2008. Eesti keele muutemorfoloogia omandamine. Tallinna Ülikooli humani- taarteaduste dissertatsioonid 19. Tallinn: TLÜ Kirjastus. Blevins, James P. 2003. Passives and impersonals. – Journal of Linguistics, 39, 473–520. doi:10.1017/S0022226703002081 Brooks, Patricia; Tomasello, Michael 1999. Young children learn to produce passives with nonce verbs. – Developmental Psychology, 35, 29–44. doi:10.1037/0012-1649.35.1.29 Comrie, Bernard 1977. In defense of spontaneous demotion: The impersonal passive. – P. Cole, J. M. Sadock (Eds.). Grammatical Relations. Syntax and Semantics 8. New York: Academic Press, 47–58. Dabrowska, Eva 2004. Language, Mind and Brain. Some Psychological and Neurological Constraints on Theories of Grammar. Edinburgh: Edinburgh University Press. Erelt, Mati; Kasik, Reet; Metslang, Helle; Rajandi, Henno; Ross, Kristiina; Saari, Henn; Tael, Kaja; Vare, Silvi 1993. Eesti keele grammatika II. Süntaks. Lisa: kiri. Tallinn: Keele ja Kirjanduse Instituut. Erelt, Mati 1989. Eesti lauseliikmeist (grammatika marginaale). Preprint KKI−61. Tallinn: Eesti NSV Teaduste Akadeemia. Fox, Danny; Grodzinsky, Yosef 1998. Children’s passive: A view from the by-phrase. – Lin- guistic Inquiry, 29 (2), 311–332. doi:10.1162/002438998553761 Frajzyngier, Zygmunt 1982. Indefi nite agent, passive and impersonal passive: A functional study. – Lingua, 58 (3-4), 267–290. doi:10.1016/0024-3841(82)90036-5 Guasti, Maria Teresa 2004. Language Acquistion: The Growth of Grammar. Cambridge, MA: MIT Press. Kaiser, Elsi; Vihman, Virve-Anneli 2007. Invisible arguments: Effects of demotion in Estonian and Finnish. – B. Lyngfelt, T. Solstad (Eds.). Demoting the Agent: Passive, Middle and Other Voice Phenomena. Linguistik Aktuell / Linguistics Today 96. Amsterdam: John Benjamins, 111–141. Leiwo, Matti 2007. Pilot test of Finnish passive acquisition. – Suuline ettekanne COST-i projekti A33 konverentsil. Limassol, 25.–27.10.2007. Lieven, Elena V. M.; Pine, Julien M.; Baldwin, Gillian 1997. Lexically-based learning and early grammatical development. – Journal of Child Language, 24 (1), 187–219. doi:10.1017/ S0305000996002930 Lindström, Liina; Tragel, Ilona 2007. Eesti keele impersonaali ja seisundipassiivi vahekorrast adessiivargumendi kasutamise põhjal. – Keel ja Kirjandus, 7, 532–553. Nemvalts, Peep 1998. Kas väliseesti keeles on märgata süntaktilist omapära?. – L. Lindström (toim.). Väliseestlaste keelest. Tartu Ülikooli eesti keele õppetooli toimetised 9. Tartu: Tartu Ülikool, 55–66. Perlmutter, David M. 1978. Impersonal passives and the Unaccusativity Hypothesis. – Pro- ceedings of the Fourth Annual Meeting of the Berkeley Linguistics Society, 157–189.

342 Perlmutter, David M.; Postal, Paul M. 1984. The 1-Advancement Exclusiveness Law. – D. M. Perlmutter, C. G. Rosen (Eds.). Studies in Relational Grammar. Vol. 2. Chicago: University of Chicago Press, 81–125. Pihlak, Ants 1993. A Comparative Study of Voice in Estonian. Eesti Sisekaitse Akadeemia Toimetised 1. Tallinn: Eesti Sisekaitse Akadeemia. Rajandi, Henno 1999 [1968]. Eesti impersonaali ja passiivi süntaks. Eesti Keele Instituudi toimetised 3. Tallinn: Eesti Keele Instituut. Randma, Lilli 1974. Inglise passiivikonstruktsioonide eestindamine. Tallinn: Valgus. Savickienė, Ineta; Kamandulyte, Laura 2007. Passive in Lithuanian. – Suuline ettekanne COST-i projekti A33 konverentsil. Limassol, 25.–27.10.2007. Siewierska, Anna 1984. The Passive. A Comparative Linguistic Analysis. London: Croom Helm. Tauli, Valter 1980. Eesti grammatika II. Lauseõpetus. Uppsala: Finsk-ugriska institutionen. Tomasello, Michael 2003. Constructing a Language. A Usage-based Theory of Language Acquisition. Cambridge, MA: Harvard University Press. Torn, Reeli 2002. The status of the passive in English and Estonian. – H. Hendriks (Ed.). RCEAL Working Papers in English and Applied Linguistics 7. Cambridge: Research Centre for English and Applied Linguistics, 81–106. Torn, Reeli 2006a. The Estonian periphrastic passive. – K. Kerge, M-M. Sepper (Eds.). FinEst Linguistics. Proceedings of the Annual Finnish and Estonian Conference of Linguistics. Tallinn, May 6–7, 2004. Tallinn: TLÜ Kirjastus, 73–92. Torn, Reeli 2006b. poolt-tarind eesti keele impersonaalis ja passiivis. – P. Penjam (Ed.). Lause argumentstruktuur. Tartu Ülikooli eesti keele õppetooli preprindid. Tartu: Tartu Ülikool, 108–121. Torn-Leesik, Reeli 2007. Voice and modal verbs in Estonian. – Linguistica Uralica, XLIII (3), 173–186. Torn-Leesik, Reeli 2009. The voice system of Estonian. – Sprachtypologie und Univer- salienforschung, 62 (1/2), 72–90. Truman, Mihkel 2008. Tegumoekategooria eesti lapsekeeles: mõistmiskatsed 4–7-aastaste lastega. Magistritöö. Käsikiri Tartu Ülikooli eesti keele osakonnas. Tartu: Tartu Üli- kool. Vihman, Virve-Anneli 2004. Valency Reduction in Estonian. PhD dissertation. University of Edinburgh. Viitso, Tiit-Rein 1998. Fennic. – D. Abondolo (Ed.). The Uralic Languages. London: Rout- ledge, 96–114. Vija, Maigi 2000. Ühe eesti lapse keeleline areng vanuses 1;5–2;0. Bakalaureusetöö. Käsikiri Tartu Ülikooli eesti keele osakonnas. Tartu: Tartu Ülikool. Vija, Maigi 2007. Pronoomenid lapsekeeles: mõnda mina ja sina omandamisest. – Eesti Rakenduslingvistika Ühingu aastaraamat, 3, 373–384.

Maigi Vija (Tartu Ülikool) on uurinud esimese keele omandamist, sh morfoloogiat ja pronoomenikasutust. [email protected]

Reeli Torn-Leesik (Tartu Ülikool) on uurinud tegumoodi eesti ja inglise keeles, kakskeelsust ja koodivahetust, teise keele omandamist. [email protected]

Renate Pajusalu (Tartu Ülikool) põhilised uurimisvaldkonnad on semantika, pragmaatika ja keele omandamine. [email protected]

343 VOICE CONSTRUCTIONS IN ESTONIAN CHILD LANGUAGE

Maigi Vija, Reeli Torn-Leesik, Renate Pajusalu University of Tartu

This article analyses the production and comprehension of Estonian impersonal and passive constructions by Estonian children. The analysis of production involves counting and analysing the occurrence of voice constructions in the interaction between a child (around 1 to 3 years old) and an adult. The material for analysis is drawn from recordings of Estonian children in the CHILDES database. The results showed that impersonal constructions were generally used to express general rules of accepted behaviour. The impersonal was also sometimes used to avoid mentioning the actor. Most verbs in the impersonal were transitive. Periphrastic tud-participle constructions were used to mark resultativity, which was considered as an expression of aspect. The comprehension of Estonian impersonal and passive constructions was tested among 4−6-year-old children. The results of the test show that children have no diffi culty in understanding impersonal constructions. Diffi culties occur when the agentive poolt-construction (‘by-phrase’) is inserted in an impersonal construction. The test also included active OVS-type sentences. The children found these more diffi cult, especially when the object lacked an explicit object marker.

Keywords: child language acquisition, input, grammatical categories, impersonal voice, passive voice, Estonian

344 LÜHENDITE ALTERNATIIVSED TÕLGENDUSED – RAHVAHUUMOR JA ERIKEEL

Piret Voolaid

Ülevaade. Artiklis käsitletakse lühendinaljade olemust, võimalikke moodustusviise, seoseid huumori ja slängiga ning nende tõlgendussisu sõltumist sotsiokultuurilisest kontekstist. Allikmaterjaliks on Eesti

Kirjandusmuuseumi rahvaluulearhiivis leiduvad lühendmõistatused 5, 345–363 EESTI RAKENDUSLINGVISTIKA ÜHINGU AASTARAAMAT (u 3000 teksti, u 330 tüüpi), mis on koondatud 2004. aastal valminud andmebaasi “Eesti lühendmõistatused” (Voolaid 2004a). Lühend- mõistatuste andmebaas annab hea läbilõike lühendite folkloorsetest tõlgendustest eri aegadel ning võimaldab jälgida ja kirjeldada žanri muutusi diakrooniliselt sotsiaal-kultuurilisel taustal. Folkloori ja keele piirimaile jäävate lühendiparoodiate liigitus- võimaluste ja moodustusmallide tutvustamisel on tuginetud vene folkloristi Aleksandra Arhipova taksonoomiale. Folkloristlikust vaate- nurgast käsitletakse nähtust mõistatuste alaliigina: küsimuspooleks on üldtuntud lühend ehk abreviatuur, millele antakse vastuses üld- kasutatavast hoopis erinev, vaimukas ja naljakas, tihti poliitiliselt ja/ või seksuaalselt markeeritud seletus. Ühel ja samal lühendil esineb mitu tõlgendusvõimalust – üldtuntud ja folkloorne. Keeleteaduses saab lühendite (vaimukat) tõlgendamist pidada üheks oluliseks rühma- keelte (nt suletud subkultuuride või erialainimeste) slängisõnavara või salakeele allikaks.* Võtmesõnad: lühendid, akronüümid, kvaasilühendid, lühendinaljad, lühendiparoodiad, lühendmõistatused, rahvahuumor, rühmapärimus, släng, eesti keel

1. Sissejuhatuseks

Folklooritekstid pole enam ammu pelgalt folkloristide pärusmaa, ainese uurimist rikastab sageli interdistsiplinaarne lähenemine. Folkloori on uurinud näiteks kirjan- dusteadlased, ajaloolased, sotsioloogid, psühholoogid, ning kuna keel on folkloori 345 * Artikkel on valminud sihtfi nantseeritava teadusteema SF0030181s08 “Folkloori narratiivsed aspektid. Võim, isiksus ja globaliseerumine” raames. põhilisi ehitusmaterjale, siis on folklooritekstid olnud ka lingvistide huviorbiidis. Mõnes folkloorižanris (nt fraseologismid, kõnekäänud) on folkloori ja keele piirimaa hajusam kui teises. Üks hajusate piiridega nähtusi on ka mitmesugused mõistatused, mis on seni eesti keele- (ja ka huumori)uurijate vaateväljast eemale jäänud. Alates 1990. aastate teisest poolest on eesti folkloristid loonud arhiivikogude põhjal hulgaliselt digitaalseid tekstikorpuseid – žanriandmebaase, millest paljudele on tänapäeva infotehnoloogia-ajastul lihtne ligipääs ka interneti kaudu. Uuemate mõistatuste põhjal on viimastel aastatel valminud mitu sarnase ülesehitusega žanritüpoloogilist andmebaasi (vt Voolaid 2006). Mõistatuste žanrile on iseloomulik dialoogiline mäng (vt Hasan-Rokem, Shul- man 1996: 3) ja (kohustuslik) küsimuse-vastuse vormis ülesehitus. Neist viimane määrab mõistatuste alaliigi, millest levinumad on • klassikalised ehk tavamõistatused – küsimuspooleks on mingi objekti kirjeldus, nt Üks hani, neli nina? Padi; • keerdküsimused – konkreetse küsisõnaga algavad otseküsimused, nt Kumb on raskem, kas kilogramm rauda või kilogramm vatti? Mõlemad on üherasked; • liitsõnamängud – on enamasti algusvormeliga missugune? või milline?, vastuseks ei nõuta mitte omadussõna, vaid liitnimisõna, nt Missugused jalad ei kõnni? Lauajalad; • piltmõistatused – küsimuspooleks on visuaalne kujutis, vastuseks pildi kirjeldus, nt

Mis on pildil? Neli elevanti nuusutavad apelsini (eesti mõis- tatuste liigitamise kohta vt Voolaid 2005: 11–20). Sellesse ritta kuuluvad ka aegade jooksul Eesti Kirjandusmuuseumi folklooriarhiivi kogutud umbkaudu 3000 lühendmõistatust, mis on koondatud 2004. aastal valmi- nud interneti-andmebaasi “Eesti lühendmõistatused” (Voolaid 2004a).1 Lühendid ehk abreviatuurid on võetud kasutusele sõnade ja silpide kiiremaks kirjutamiseks kirjas või hääldamiseks kõnes. Martin Ollisaar on oma “Lühendi- raamatus” näidanud, et lühendada on võimalik: 1) päritolu järgi, eristades oma- ja võõrlühendeid, 2) kirjaliigi järgi, eristades suurtähtlühendeid, väiketähtlühendeid ning nii suur- kui ka väiketähti sisaldavaid lühendeid, 3) tuntuse järgi, liigitades üldkasutatavaiks ehk tavalühendeiks ja tekstilühendeiks, mis moodustatakse ühe väljaande tarbeks, 4) kirjavahemärgi järgi, eristades punktiga ja punktita lühendeid (Ollisaar 2006: 6–12). Kasulikus käsiraamatus on toodud üle 11 000 rohkem või vähem tuntud lühendi ja tähise koos tõlgendustega. Pealtnäha samasuguseid üld- tuntud ja laialdaselt levinud lühendeid on kogutud folklooriarhiivi, kuid aines on hoopis teistsugune. Nende eesmärk pole mitte suulises või kirjalikus tekstis ruumi säästa, vaid need sarnanevad žanrilt mõistatustega. Käsitledes nähtust mõistatuste alaliigina, moodustab lühendmõistatuste küsimuspoole peamiselt üldtuntud lühend ehk abreviatuur, nagu Mida tähendab AK? Vastuses antakse aga tavapärasest (ETV uudistesaade “Aktuaalne kaamera”) täiesti erinev, vaimukas, tihti poliitiliselt ja/või seksuaalselt markeeritud seletus (nt ainult kergeusklikele). Folkloristikas nimeta- takse seesuguseid lühendeid terminiga lühendmõistatused, ent rahvapärase nähtuse

346 1 Andmebaasi “Eesti lühendmõistatused” (ja teiste mõistatuste hilistekkeliste alaliikide andmebaaside) tehnilist teostust ja struktuuri olen varem kirjeldanud, vt Voolaid 2006. iseloomu annavad edasi ka mõisted lühendiparoodiad, lühendite alternatiivsed tõlgendused, kvaasilühendid. Käesoleva artikli eesmärk on lühendmõistatuste andmebaasi kui ühe folkloorižanriga piiritletud tekstikorpuse põhjal anda ülevaade eesti folkloorsetest lühenditõlgendustest, nende liigitamisest, moodustusmallidest ning seosest rahvahuumori, slängi ja ümbritseva kultuurikeskkonnaga.

2. Vaatlusalune arhiiviaines

Rahvaluulearhiivi kogutud u 3000 lühendmõistatusest varaseim üleskirjutus päri- neb 1938. aastast, mil on kirja pandud lühendi ETK kolm rahvapärast tõlgendust. Normatiivse tähendusega Eesti Tarvitajateühisuste Keskühisus (1917–1941, seejärel ETKVL) lühendit on rahvasuu tõlgendanud mitmeti: elab tarvitaja kasust, elab teiste kulul ja Eesti töörahva kurnaja. Põhiosa 1990. aastate keskpaigani kogutud lühendite lahtimõtestustest kuulub totalitaarse nõukogude režiimi aegse folkloori hulka, mis oli väga tugevalt politisee- ritud. Tollane rahvaluule seisnes enamjaolt ühiskondlike tabuteemade (suuresti sel ajal keelatud poliitiliste, erootiliste, olmeliste teemade) väljanaermises. Nagu kogu režiimivastast rahvahuumorit, nii tuli ka režiimi pilkavate lühendiseletuste olemas- olu jäigalt eitada. Loomulikult oli sellelaadset tabumaterjali ka arhiivis koguda ja säilitada keelatud, kuid õnneks illegaalselt koguti ja talletati vähesel määral siiski. Nõukogude ajal levinud lühendeid leidub näiteks Jüri Viikbergi kogus, mis on suulisest käibest kirja pandud aastatel 1967–1988 (RKM II 411, RKM II 420, RKM II 421, RKM II 422) ja laekus kirjandusmuuseumi aastatel 1975–1982 jaokaupa vihikutena ning võeti arhiivis ametlikult arvele alles uutmise ajal 1980. aastate lõpus. Tsensuuri tõttu on lõviosa nõukogudeaegset lühifolkloori, sh lühendmõis- tatusi (3000 tekstist tervelt 2200) arhiivi jõudnud alles üle-eestilise koolipärimuse kogumise aktsiooni käigus 1992. aastal. See oli viimane aeg koguda eelnenud nõu- kogude ajastut ja tolleaegset piiratud sõnavabadusega ühiskonda iseloomustavat ainest. 2007. aasta kevadel sai Eesti Kirjandusmuuseumi ja Tartu Ülikooli koostööna teoks järjekordne üleriigiline koolipärimuse kogumise suuraktsioon, mille käigus laekus rahvaluulearhiivi vähesel määral ka lühenditõlgendusi. Artiklis võrreldakse kahe ainese erinevusi.

3. Teoreetilisi lähtekohti – lühendmõistatuste liigid, moodustusmallid ning seosed huumori ja slängiga

3.1. Liigitamine ja moodustusmallid

Vene folklorist, huumoriuurija Aleksandra Arhipova (2008: 413–446) on rahvapä- rast lühendamist vaadelnud “uue folkloori” nähtuse ja keelemänguna ning kasuta- nud mõisteid normatiivne ja alternatiivne tõlgendamine. Üht ja sama lühendit saab järelikult tõlgendada mitmeti – esimene tõlgendus on üldtuntud, st normatiivne, teine aga alternatiivne. Ühel ja samal lühendil võib olla mitu normatiivset ja mitu alternatiivset tõlgendust. A. Arhipova on lühendite alternatiivset tõlgendamist nimetanud desabreviatsiooniks ning pakkunud välja desabreviatsiooni tüübid, mida rakendan ka eesti ainese liigitamisel. 347 I tüüp. Üldtuntud suurtähtlühend ehk akronüüm saab alternatiivse tõlgenduse. Eesti lühendmõistatuste allikaks on peamiselt akronüümid, mille annavad esisuurtähega või läbiva suurtähega kirjutatavad nimed või nimetused. Mitme sõna esitähtedest moodustataksegi sõnana häälduv akronüüm (nt ÕS, nor- matiivses kasutuses “Õigekeelsussõnaraamat”, folkloorne tähendus aga näiteks õhusuudlus). II tüüp. Tunduvalt vähem esineb eesti lühendmõistatuste hulgas selliseid, kus sõnavormist või sõnaühendist saadakse lühend hilisemal tõlgendamisel (nt KOOL, normatiivses kasutuses õppeasutus, ent lühendina tõlgendades kohus- tuslik orjanduslik orjade liit; UUTMINE = uus universaalne töörahva mõnitamine ilma nähtava eesmärgita). Kohtla-Järve linnaosa Sompa on leidnud lahtiseletuse Cамое опасное место после Aмерики ‘kõige ohtlikum paik peale Ameerika’. See lühenditüüp langeb eesti traditsioonis mõneti kokku mis on?-algulise nn defi neeriva keerdküsimusega, mis on žanriliselt umbmäärane ja võib esineda nii aforistliku vanasõnana kui ka keerdküsimusena (vt Voolaid 2005: 91). Mõlemad siintoodud näitesõnad esinevad eesti keerdküsimuste andmebaasis (Mis on kool? Vabatahtlik vangla. Mis on uutmine? Uus ulatuslik töörahva mõnitamine ilma nähtava efektita.) (Voolaid 2004b), kuid neid esitatakse ka aforistlikus laadis, nt Kool on vabatahtlik vangla. III tüüp. Abreviatuur on kasutusel kui sulandnimi, mis moodustatakse sobivate sõnade esisilpidest või valitud tähtedest. Sellisel viisil saadud lühendit on nimetatud ka sumadan- või kohvernimeks (Rehemaa 2006: 48). Üks tuntumaid ja vanemaid sulandmeetodil tuletatud eestikeelseid lühendeid on Kulka – selle nime all tuntakse Eesti Kultuurkapitali, mis loodi 1925. aastal, likvideeriti 1941. aastal ja taastati taasiseseisvunud Eesti Vabariigis 1994. aastal. Eesti ühiskondlik-poliitilises keskkonnas tuleb arvesse võtta, et sõnatüvede esiosadest koostatud lühendid olid vene nõukogulik väljamõeldis (paljude viidete järgi juurdus sellisel lühendamisviisil saadud sõnaloome vene keelde ilmselt 20. sajandi algul enamlaste keelekasutusest, esimene “lühendamisbuum” leidis Venemaal aset pärast 1917. aasta revolutsiooni, vt Stahejeva 2008: 9). Sellisel lühendimoodustusel põhineb kogu nõukogudeaegne “Glavbumsbõttide” perekonda kuuluv lühendamistraditsioon (venekeelse tõsisot- sialistliku sõnavara, k.a lühendirepertuaari kohta vt Mokijenko, Nikitina (1998)), mis ei vasta aga eesti keele lühendamistavadele. Nii ongi sellel lühendusviisil vene keeles arvukalt folkloorseid variante, kuid eesti materjalis ei ole tüüp kuigi produk- tiivne, üks väheseid selle moodustusviisi esindajaid on nt Jo-Te – jookse terviseks folkloorne tõlgendus joo terviseks. IV tüüp. Normatiivses kasutuses lühendit ei eksisteerigi, vaid tekib kohe folkloorse tõlgendusega lühend. Lähteks on esiteks teadmine, et teatud tüüpi organisatsioonide, nt uudisteagentuuride, kohta tavatsetakse kasutada lühendni- mesid: BBC, CNN, НТВ, ТАСС, ETA jne. Selle uudisteagentuuride lühendamistava ajel tekkinud tüübi alla kuuluvad nii rahvasuus kui ka meedias levinud “kuuluju- tuagentuuride” lühendid, nagu NSR – naised saunas rääkisid või KNR – keegi naine rääkis, millega tähistatakse kuulujutu rääkimist ja levitamist. Need võivad olla tekkinud ka venekeelse samalaadse variandi ОБГ – одна баба говорила ‘üks mutt rääkis’ mõjul. Vene lühendid on eesti ainest rohkemgi inspireerinud, nt 1970. aastate lõpus levis nali kahest tähtsast magistraalist PIM-ist ja BAM-ist, kus tuntud Baikali-Amuuri magistraali BAM-i eeskujul tekkis eesti lühend PIM – Pärnu-Ikla 348 maantee (Viikberg 1997: 497). Teiseks esineb allikana mingi ad hoc leiutatud sõnaühend, millest tehakse akronüüm. Nende tähendus võib pühendamatuile olla arusaamatu, nt vanade kõnekäändude hulgas märkused nagu Kitsed orasel! ‘kui naisterahval seelik istudes liiga kõrgel on’, Liigpalk on seinas! ‘soovimatu juuresolija juttu pealt kuulamas’ jmt, mille tähendust inimene esmakordsel kuul- misel iseseisvalt ei mõista. Oma tudengipõlvest mäletan, kui ühel Soome-reisil korraldasid võõrustajad eesti üliõpilaste auks õhtuse koosviibimise ning kohaliku pärimusrühma sees kehtis selliste tudengiõhtute korraldamisel reegel OPM (omat pullot mukana ‘oma pudelid (joogid) kaasa’) – toit peolaual on kõigile, kuid joogi eest tuleb igaühel endal hea seista. Siintoodud liigitamisviise üldistades võib öelda, et asjaomane žanr kätkeb endas nn kvaasiakronüüme, mis 1) mõtestavad ümber käibivaid suurtähtlühendeid või 2) mõtestavad akronüümidena ja seletavad lahti üksiksõnu või sõnaalguslühen- deid või 3) moodustuvad ad hoc konstrueeritud sõnaühenditest, mida võidakse ühtlasi näidata millenagi, mille pärisnimesid tavatsetakse kasutada lühendatult (nt agentuuridena).

3.2. Huumoriteoreetilised aspektid

Seesugused kvaasiakronüümid on üldjuhul oma allikaga (nt tavaakronüümide taga peituvad nimed, üksiksõnad jne) sisuliselt seotud. Kvaasiakronüümi ja allika omavaheline seos on üldjuhul koomiline ~ pilkav ~ parodeeriv ning esindatud on huumori kõik sisulised põhivormid – poliitiline, etniline, obstsöönne (seksuaalne või skatoloogiline) huumor. Lühendite rahvapäraste tõlgendustega kaasnev automaatne koomikataotlus realiseeritakse huumoriteoreetiliselt inkongruentsimudeli kaudu. Igasuguste koomiliste aktide aluseks on idee või situatsiooni kujutlemine kahes seesmiselt kooskõlalises, kuid tavapärasel viisil kokkusobimatus referentsifreimis (Krikmann 2004a: 10). Siit tulenevalt on lühendite normatiivne ja alternatiivne tõlgendus otsekui kaks kokkusobimatut tähendusplaani, millesse on koomiline akt hõlma- tud. Lühend moodustab kahe plaani ühisosa ja allika; kasutaja, teades lühendi üldkasutatavat ja tuntud (ehk normatiivset) tähendust, mängib selle teadmisega ning annab omapoolse vaimuka lahenduse. Huumoriuurija Victor Raskin on neid tähendusplaane (või tähendusvälju) nimetanud skriptideks. Tema semantilise huumoriteooria põhihüpoteesi järgi võib teksti lugeda naljakaks, kui on täidetud kaks tingimust: 1) tekst on täielikult või osaliselt kokkusobiv kahe eri skriptiga ning 2) need kaks skripti on omavahel mingis mõttes vastandlikud ja kutsuvad esile üllatuse (Raskin 1985: 99). Kahe sobimatu skripti või assotsiatiivse semantilise välja kokkupõrked on ka kogu kujundkõne (sh metafoori ja metonüümia) eeldus. Peale kujundkõne on koodide kokkusobimatuse üks alaliike ka nali ning lühendite tõlgendustes põhjustab tähendusväljade piisavalt tugev kokkupõrge koos üllatus- efektiga koomika. Lühendite (ja muude mõistatuste alaliikide) puhul tekib nali, kui teksti lahendamine on erilise infostruktuuri kaudu raskendatud, lahendusele jõudmine nõuab mitmesammulist tõlgenduskäiku, kuid vales suunas mõtlemine võib olla mitmesuguste tehniliste võtetega ka ette määratud.

349 3.3. Kvaasilühendid kui pärimusrühma erikeele osa

Parodeeriva lühendamise funktsioonid langevad vähemal või rohkemal määral kokku slängi olulisemate sihtidega, milleks on soov varjata kõrvaliste kuulajate eest infot; keeleline ökonoomsus (lühidus); afektiivsus (oma suhtumise rõhutatud väljendamine); huumori- ja uudsusetaotlus; enese eristamine teistest, oma olemuse rõhutamine; üldtuntud autoriteetide ja normide kõigutamine (Tender 2003: 17). Tõnu Tender on oma slängiuurimustes (nt Tender 1994: 352) lühendamist, mida tehakse ökonoomsuse saavutamiseks ja nalja saamiseks, ka nimetanud ning pidanud seda üheks oluliseks slängisõnavara allikaks. Erikeelena on lühendite tõlgendustel tähtis osa suletud subkultuuride (nt kinnipidamis-, karistusasutused või sõjavägi) suhtlussüsteemis või arvuti(inimeste ameti)keeles, mida rahvaluule- arhiivi pole seni kahjuks kogutud. Arvutiterminoloogias kasutatavaid humoorikaid akronüümitõlgendusi on põhjalikumalt uurinud Itaalia kognitivistid Oliviero Stock ja Carlo Strapparova (2003: 297–314), kes on välja töötanud akronüümide arvutianalüsaatori. Rait Maruste on kirjutanud uurimuse kuritegelike subkultuuride tätoveeringu- test, žestidest ja slängist. Huvipakkuv on tähtsümbolite suur osakaal nt 1980. aastail Kaagvere Erikutsekooli tütarlastelt kogutud tätoveeringuis (armmärgistustes). Koha- likud põhiliselt eestikeelsed tähtsümbolid, mis pole sisult veel kuritegeliku kultuuri kandjad, on tihtipeale inspireeritud populaarsete laulude sõnadest ning kannavad kindlaid tähendusi ja naivistlik-romantilisi püüdlusi, nagu AAS – austan ainult sind / armastan ainult sind, AS – austan sind / armastan sind, IMMSTMSH – iga mu mõte sulle teeb mu südamele haiget, KSPTESMEVSTEKOAA – kui sa praegu tunned, et sa mind ei vaja, siis tea, et kõik on alles alguses [Ruja laulust “Vaiki, kui võid”] (Maruste 1988: 20–26). R. Maruste on oma uurimuses esitanud terve hulga venekeelseid üleliidulisi tähtsümboleid ja kujundeid, mis subkultuuri suhteliselt suletud sotsiaalse rühma esindajate tätoveeringutes kõnelevad võimu- ja alluvus- suhetest ning väljendavad sageli hierarhiaid. Kui käsitleda alternatiivse tõlgendusega lühendit erikeele osana, siis on üks selle sihte kindlasti vajadus infovahetust varjata. Arvestades nõukogudeaegset tsensuuri ja avaldamiskeeldu, oli sotsialistlike lühendite alternatiivsete tõlgenduste valdamine kindlasti tunnusmärgiks, et keele valdaja on pärimusrühmas “oma”. Kui lühendit ei tunta, jääb ka lühendi taga peituv sõnum ja huumor mõistmatuks. Lühendite roll rühmakuuluvuse sümboolikas ilmneb kaudselt keeleteadlase Paul Ariste mälestusteraamatus. P. Ariste on selles meenutanud üht 1917. aastast pärinevat isikliku elu tähtsündmust, mil ta sai teada, et on vastu võetud Tallinna Nikolai Gümnaasiumi õpilaseks: Rõõm oli suur. Rõõmu oli vanematelgi. Mulle osteti kohe Nikolai Gümnaa- siumi müts ja pandlaga kuuerihm. Pandlal olid tähed ΡНГ (Ρевельская Николаевская Гимназия). Aleksandri Gümnaasiumi poisid narritasid meid: разбойники Новгородской губерний [‘Novgorodi kubermangu röövlid’]. Nende pandlal oli ΡAГ ja meie narritasime neid: разбойники Архангельской губерний [‘Arhangelski gubermangu röövlid’]. (Ariste 2008: 73) Vanema põlvkonna esindajad võivad mäletada Tartu kahe konkureeriva kõrgkooli nimede omaaegseid parodeerivaid mõtestusi, nagu EPA (Eesti Põllumajandus- 350 akadeemia) = elu parimad aastad versus TRÜ (Tartu Riiklik Ülikool) = tütar- laste riiklik ülalpidamine. Tallinna Tehnikaülikooli omaaegse nimetuse Tallinna Polütehniline Instituut lühendile TPI leidus rahvasuus aga otsekohene tõlgendus: tudengite piinamise instituut.

4. Reaktsioon ühiskondlik-kultuurilisele survele – nõukogude ajast tänapäevani

4.1. Nõukogudeaegne lühendipärimus

Tabelis 1 on sageduse järgi reastatud eesti allikmaterjalis enam kui 10 tõlgendusega esindatud suurtähtlühendid ning tsiteeritud nende populaarsemaid alternatiiv- tõlgendusi.

Tabel 1. Populaarsemate suurtähtlühendite normatiivsed ja alternatiivsed tõlgendused ning variantide arv

Suurtäht- Variantide Sõnaühend Populaarseim tõlgendus lühend arv I tüüp Союз Советских Социалистических CCCP Республик ‘Nõukogude Sotsialistlike Siberi sead situvad reas 470 Vabariikide Liit’ Eesti Tarbijate Kooperatiivide Vaba- ETKVL ela teiste kulul väga laialt 351 riiklik Liit Eesti naiste sukavabrik; enne ENSV Eesti Nõukogude Sotsialistlik Vabariik 300 nälg, siis viletsus Nõukogude Liidu Kommunistlik NLKP näljase Lenini kondine perse 127 Partei Nõukogude Sotsialistlike Vabariikide näljased silmad vaatavad NSVL 114 Liit läände EPA Eesti Põllumajandusakadeemia elu parimad aastad 105 kolhooside ehituskontor, kommu- KEK kerge elu kõigile 93 naalettevõtete kombinaat EÕM Eesti Õpilasmalev ema õmblusmasin 74 TPI Tallinna Polütehniline Instituut tudengite piinamise instituut 71 USA United States of America uus sigade armee 65 ESRA (koopera- Eesti sakste ja retsidivistide eriti suur rahaahnus 62 tiivtaksofi rma) ametkond TPL töö- ja puhkelaager tööpõlgurite laager 43 eriti kõva pidu; eestlane EKP Eesti Kommunistlik Partei 42 kardab punast Телеграфное Агентство Советского targad ajavad sitta suhu; ТАСС Союза ‘Nõukogude Liidu Teadete 41 targad ajavad suust sitta Agentuur’ SRÜ Sõltumatute Riikide Ühendus sabata rebase ülikond 36 ÜRO Ühinenud Rahvaste Organisatsioon üpris raske olukord 35 ETV Eesti Televisioon Eesti tolad, vaadake! 29 TRÜ Tartu Riiklik Ülikool tütarlaste riiklik ülalpidamine 26 ELO Eesti Laste Organisatsioon Eesti lollide organisatsioon 22 351 Kоммунистическая Партия KПСС Совецкого Союза ‘Nõukogude Liidu kõva pidu sauna ja seksiga 22 Kommunistlik Partei’ EV Eesti Vabariik elagu venelased 21 LP lugupeetud laku perset / panni 20 VTK valmis tööks ja NSV Liidu kaitseks viruta teisele kaikaga 19 NSV Nõukogude Sotsialistlik Vabariik naiste sukavabrik 17 RTV Reklaamitelevisioon rotid toodavad venelasi 17 ETA Eesti Teadete Agentuur Eesti tarkade asutus 16 MEK Majaehituskombinaat meie ehitame kehvasti 16 edaspidi rohkem sõnnikut ERSP Eesti Rahvusliku Sõltumatuse Partei põllule; Eesti riiklik sperma- 15 pank save our souls/ship ‘päästke meie SOS seisukord on sitt 15 hinged ~ päästke meie laev’ Кoмитет Государственной KGB Безопасности ‘Riikliku Julgeoleku kuritegelik Gorbatšovi bande 15 Komitee’ KP Kommunistlik Partei kõva pidu 13 LK lehekülg lollide koloonia 12 NLI noor liiklusinspektor nelja lapse isa 11 räketite rühm; rõhume rin- RR Rahvarinne 11 naga II tüüp ARS (kunstikombinaat ARS) anna raha siia 31 uus universaalne töörahva UUTMINE mõnitamine ilma nähtava 12 eesmärgita LOLL Leonid! Olen laudas. Leida 11

Tabelist 1 ilmneb, et folklooriarhiivi levinumad folkloorsed lühendid esindavad eespool nimetatud A. Arhipova tüübistiku esimest moodustusmalli: üldtuntud suurtähtlühend ehk akronüüm saab alternatiivse tõlgenduse. Üle kümne üleskir- jutusega esindatud lühendeist kuuluvad ARS ja UUTMINE teise moodustustüübi alla (sõnavormist või sõnaühendist saadakse lühend hilisemal tõlgendamisel), kuid kolmandasse ja neljandasse tüüpi kuuluvad lühendid on tekstikorpuses esindatud alla 10 üleskirjutusega. Lühendmõistatuste seas kõige levinumad poliitilise suunit- lusega akronüümid on esmajoones riikide ja parteide nimelühendite tõlgendused. Nn sotsialistlike akronüümide (vt Krikmann 2004b: 366) pingerea esikümnes on nõukogudeaegsete riiginimede lühendid, nagu CCCP, NSVL, ENSV. Poliitilist värvi kannavad samuti omaaegsete parteinimede NLKP, KПСС ja EKP (ühel korral ka kahe viimase kontaminatsioon EKPSS tõlgendusega eriti kõva pidu sauna ja seksiga) lühendite vaimukad tõlgendused. Ka hilisemal ajal on parteinimed (nt 1980-ndate lõpuaastail loodud ERSP) rahvalikku tõlgendamist inspireerinud. Üks arvukamate tõlgendusvariantidega lühendeid on ka ETKVL, mis oma aktiivse käibeloleku ajal oli tuntud folkloorseis tõlgendustes elada teiste kulul või- malikult lõbusalt, elan teiste kulul väga lahedalt, eestlane tagus kiviga venelasele lagipähe, eestlased taovad kirvestega/kaigastega venelasi lolliks, enne tarvitamist kuuma veega loputada, eesti talupoeg kingib venelasele liha/leiba, eesti tüdrukud käisid Virus litutamas. 352 Põhiosa lühenditõlgendustest on halvustava, pilkava värvinguga, ainsana kan- nab (edetabeli lühendeist) positiivset sõnumit akronüümi EPA folkloorne tõlgitsus. Paljud tolleaegsed populaarsemad tekstid väljendavad rahvuslikku identiteeti, tun- tav on ühe etnilise grupi eristamine teisest grupist, “oma” vastandamine “võõrale”. Paljud lühendite tõlgendused peegeldavad eestimeelsust, kohati on tekstide sisu väga vaenulik ja agressiivne, taplustele ja mässule ärgitav, nt ETKVL – eestlane tagus kaikaga venelasele lagipähe, VTK – viruta teisele kaikaga. Eelkõige on vaimukad lühenditõlgendused üks osa nõukogudeaegsest “keelatud huumorist” ja iseloomustavad repressiivset ühiskonda, kus inimestel puudus või- malus oma rahulolematust legaalselt väljendada (Sarv 1995: 107). Eesti nimekamaid folkloriste Oskar Loorits on käsitlenud okupatsiooniaegseid nalju rahvapilkena ning näidanud, kuidas suurte katsumuste ja katastroofi de ajad, nagu okupatsioonid ja sõjad, toovad välja rahvahinge omapärased jooned. Eestlane pole tema sõnul mitte “ründav aktivist, vaid läbi ja lõhki reaktiivne tüüp, kelle käärimisprotsess tavaliselt tögamiseks kristalliseerub.” (Loorits 1994: 9) Lühendite varal näitas ta, kuidas võõraste traditsioonide (nt eespool nimetatud mitmesõnaliste nimetuste valik- tähtlühenditest uute mõistete kombineerimine) juurutamisele vastati hoopis hulga halvamaiguliste tõlgitsustega (samas: 19). Niisugune kompensatoorne huumor ei pilanud ega kritiseerinud mitte üksnes poliitilisi valitsejaid kui üksikindiviide, vaid kogu sotsiaalset ja poliitilist süsteemi koos selle ideoloogia, rituaalide ja müütidega. Kuna seesuguste naljade esinemine meedias oli täiesti välistatud, sai see levida kollektiivse loomingu ja autentse suulise folkloorina. Inglise huumoriuurija Christie Davies on arutlenud, et kommunistliku ühiskonnakorra ajal levinud naljad olid rahva jaoks üks poliitilise protesti vorme, üldise sotsiaalpsühholoogilise masenduse aseaineid, küünilise mugandumise või pessimistliku resignatsiooni väljendusi, ning on leidnud tollasel huumoril ühisjooni isegi keskaegse karnevalitraditsiooniga (Davies 2007: 291–305). Igal juhul võime lühendite alternatiivset mõtestamist nõukogude diskursuses käsitleda otsekui võimust distantseeritud rahva erikeelt, milles avaldub riigikorravastane poliitiline orientatsioon. Erikeeli – argood, žargooni või slängi – on keeleteadlased pidanud ka oma- moodi loominguks, mis väljendab looja vabadust, protestivaimu ja huumorimeelt (Loog 1991: 8). Lühendite kui nähtuse loomingulisusest annab tunnistust mõne suurtähtlühendi tõlgendusvariantide ehk improvisatoorsete tekstide ülisuur hulk. Eriti märkimisväärne on lühend CCCP (vt tabel 1), millele on antud väga erisuguseid tõlgendusi. CCCP/SSSR-i 470-st tõlgendusest on peaaegu ühe kolmandiku tõlgen- duse aluseks Jossif Vissarionovitš Stalin (NLKP peasekretär 1928–1953), tabelis 2 on esitatud valik ühe akronüümi erisuguseid tõlgendusvariante.

353 Tabel 2. Stalinist lähtuvad CCCP/SSSR-i tõlgendused

Suurtähtlühend Tõlgendus Stalin sõitis seaga ratsa Stalin sõitis Siberi rongis Stalin sõitis seaga Riiga Stalin sittus sirged read Stalin sittus, saba rõngas Stalin sõitis seaga Rootsi saamatul Stalinil seitse raha Suur Stalin, situ ruttu! Stalin sittus seitse rida seltsimees Stalin situb ruttu SSSR Stalin sõitis sigadega rongis Stalin sõidab Stahhanovi rongis Stalin sittus sirge rivi siga sittus Stalini rabarberiaias Stalin sittus suure rubla suur Stalin sõi rongis Stalin suri, saba rõngas Stalini sead sittusid reas Stalin sikutab surnud rotti Stalin sonis Siberi rongis Stalin sööb sigadega reas CCCP Смерть Сталина Спасет Россию ‘Stalini surm päästab Venemaa’

On oluline märkida, et Nõukogude riigimeeste kohta käiv huumor on kogu süsteemi- vastase poliithuumori üks alaliike. Ülaltoodud lühendite edetabelist (tabel 1) võis näha, et peale Stalini on NLKP peasekretäri kohuseid täitnud isikutest lühenditegelasteks saanud nt Vladimir Iljitš Lenin (valitsemisaeg 1917–1924) ja Mihhail Sergejevitš Gorbatšov (valitsemisaeg 1985–1991). Sotsiaalpoliitilisele olukorrale omaselt on küllaltki loogiline, et paljud eesti- keelseid tõlgendusi välmima ajendanud lühendid, sealhulgas ka kõige populaarsem CCCP (aga samuti КПСС), on olnud venekeelsed, tõlgendused aga kas tervenisti eesti või vene keeles, või mõlema keele põhjal loodud. Nähtust, kus üks ja sama folklooritekst antakse edasi mitmekeelselt, nimetatakse ka koodiseguks või koodi- vahetuseks. Lingvistid on koodivahetusena (ingl code-switching) käsitlenud lausetevahelist üleminekut teisele keelele (Sridhar, Sridhar 1980: 408–409) ja koodiseguna (code-mixing) vaadelnud üleminekut teisele keelele lause sees (Appel, Muysken 1992: 117–118). Analoogselt võib väita, et kui eestikeelse materjali hulgas leidub lühend, mis on ise võõrkeeles (nõukogude ajal vene keeles) ja mille vastus samuti tervenisti võõrkeeles (jällegi nõukogude kontekstis vene keeles), on tegemist koodivahetusega. Ühe lühendi ja selle tõlgenduste piires eri keelte (nii vene kui ka eesti keele) rakendamine on aga termineeritav koodiseguna ja seda esineb väga palju ka anekdootide jm naljade rääkimisel. Niisugune eesti ja vene keelekoodide vahetamine ja segamine omakorda osutab ühest küljest vene keele kui asjaajamise ja suhtluskeele tähtsusele nõukogude liiduvabariikides (mäletatavasti oli vene keele kui poliitilise võimu keele prestiiž Eesti põlisrahva hulgas madal). Teisest küljest tõendab venekeelne lühendimaterjal, et seda tüüpi folkloori- nähtus oli omal ajal (ja on praegugi) ka vene keeles väga levinud, viidates kogu Nõukogude Liidu võimu ja rahva vastandumisele, ning pigem jõudiski niisugune huumor meile (ja teistesse liiduvabariikidesse) suurelt Venemaalt. Ilmselt tagavad kõnealuse lühendi CCCP populaarsuse mitu tegurit. Peamine neist on folkloorses poeetikas ülioluline heakõla. Lühendis sisalduv kolmekordne sõnaalguline s-häälik moodustab intensiivse alliteratsiooni. See lühend pakub aga ka soodsa võimaluse Stalini nime kasutamiseks. Stalini verise hirmuvalitsuse aja, mil leidsid aset küüditamine, genotsiid, arreteerimised, on rahvasuu sidunud tema juhitud riigi nimelühendiga. Tõlgenduste leksikas – seltsimees, sõit, Siberi rong – ilmneb hinnang, rahva suhtumist väljendab ka skatoloogiline sõnavara. 354 Kogu kvaasilühendamise seisukohalt on sageli tähtis kõlalisus (sh tähekaupa- või kokkuhääldatavus). A. Arhipova järgi nimetatud kolmandat tüüpi nõukogu- depärane venekeelne lühendamistava kodunes mõnevõrra ka eesti keeles, eriti siis, kui sisaldas vene originaaliga ühiseid võõrtüvesid (kõnekeelsed partbüroo, perbüroo, sanepidjaam, puhtalt venetüveline glavlit jne). Venekeelsed originaal- akronüümid võisid vahel assotsieeruda juba kõla poolest (ilma mingi parodeeri- mise või ümbermõtestamiseta) mingite eestikeelsete reduplikatiivsete või muude naljakustega – главвторсырье – Министерство легкой промышленности ‘kergetööstuse ministeerium’; бумснабсбыт – База издательства “Уральский рабочий” ‘väljaande “Уральский рабочий” toimetusbaas’. Nalja võis teha ka see, et mõned neist lühenditest olid väga pikad, mõnikord olid naljakad oma sürrealistlike nõukogulike lahtiseletuste poolest (kodusõja ajal nt olnud Venemaal organisatsioon lühendiga Эквалап, s.t Экономическая комиссия для снабжения Красной армии валенкими и лаптями ‘majanduskomisjon Punaarmee varustamiseks viltide ja viiskudega’). Ka uute eesti- ja ingliskeelsete lühendite hulgas on terve hulk selliseid, mille kõlavorm ise paneb eestlase muigama: nt ALLEA (All European Academies) on alleaa!, UTKK (Underi ja Tuglase Kirjanduskeskus) on hääldades utekaka jne. Näiteks kipuvad paarituma ja mitmusse minema mekid-kekid (meenutab veidi rahvalaulukatket: Muud said mukid, kõik said kekid, mina sain musta ja rumala); sissid-kassid (muidu sõitsid ~ sõja võitsid). Lühendid võivad häälduskõla põhjal endale külge kasvatada alliteratiivseid lisandusi (SOS-signaal – soss-signaal) või riime (Kompsud kotti ja emtejotti! – MTJ on masina-traktorijaam). Üks liik lühendeid kannab (nt eurokantseliidis) nimetust akronüümid, ent need on oma olemuselt akrostihhoni-taolised, st lühend püütakse koostada tähte- dest, mis kokku annaksid mingi denotaati sümboliseeriva, kirjeldava, reklaamiva või muu tähendusliku sõna: BERTA ehk B + Eesti Rahvakalendri Tähtpäevade Andmebaas, ERASMUS – European Region Action Scheme for the Mobility of University Students. Sageli tarvitatakse küll sõnana/nimena kasutatavat lühendit, kuid selle lähtealust sõnaühendit ei teatagi.

4.2. Nüüdisaegne lühendipärimus

On ilmne, et paljud lühendid on Eesti iseseisvuse taastamisega minevikku jäänud, paljuski on kadunud ka poliitiline suunitlus, sest demokraatlikus riigis on võimu ja poliitikaga seonduv kriitika ja rahva rahulolematuse väljendamine suures osas meedia kanda. 1990. aastail, kui algasid ettevalmistused Põhja-Atlandi Lepingu Organisatsiooni NATO-ga ja Euroopa Liiduga ühinemiseks, tuli eesti keelde rohkesti uusi mõisteid ja (võõr)lühendeid, mille põhjal on tekkinud ka uusi alternatiivtõlgen- dusi. Arhiivitekstide hulgas leidub näiteks lühendi NATO kohta kaks 1996. aastast pärinevat üleskirjutust, mis mõlemad seovad lühendi natsionalismiga – natsionalis- tide amoraalne terroristlik organisatsioon ja natsliku antitõotuse organisatsioon. Siiski on uute lühendite tekkel elujõulisem pigem eespool nimetatud A. Arhipova süsteemi kolmas moodustusmall, kus mingi sõnumi põhjal tekib uus lühend. Näiteks viimasel ajal on populaarsuse omandanud JOKK – juriidiliselt on kõik korrektne, millega tähistatakse Eesti poliitikas kommet teha avalikult korruptiivseid tehin- guid ja varjuda vabanduse taha, et seadust pole rikutud. Samas esineb argikeeles 355 sõna jokk tähenduses ‘valmis, otsas, läbi’ ja see semantiline väli on jokil ka Eesti tänapäeva ajakirjanduslikus ja kommentaari-diskursuses. Samuti iseloomustab nüüdisaegset lühendipärimust kogu eesti keelele omane tendents, et varasema vene keele asemel mõjutavad meid angloameerika kultuuriruum ja inglise keel. Tänapäeva tehnoloogiasõnavara on ingliskeelne ning see kajastub ka lühenditõl- gendustes. Igatahes sobib lühendite tõlgendamine ka praegu kiireks ühiskondlikuks reageerimiseks, humoorikalt hinnangulised on nt Eestis alates 2002. aastast välja antava isikutunnistuse ID-kaardi rahvapärane sõimutõlgendus idioodikaart (Tartu Postimees 2009: 3) või kiirlaenude suurpakkumise ajajärgul nt lühendi SMS-laen tõlgendus – saad maksta surmani (Maaleht 2008: 32). 2007. aasta koolipärimuse kogumisvõistluse käigus laekunud vähese lühendi- materjali valgusel ilmnevad lühendiparoodiate arengutendentsid hästi. Enesest- mõistetavalt on varasemad lühendid tänapäeva noortele tundmatud.

Tabel 3. Valik lühendite tõlgendusi 2007. aasta koolipärimuse kogumisvõistlusele laekunud materjali hulgast

Suurtähtlühend Sõnaühend Tõlgendus I tüüp FBI Federal Bureau of Investigation female body inspector ‘naisekeha uurija’ ‘ Föderaalne Juurdlusbüroo’ USA United States of America ‘Ameerika uskumatult suur armastus Ühendriigid’ TIR transiidisüsteem Transports Inter- teen ise remonti nationaux Routiers BMW Bayerische Motorenwerke AG Big Money Waste ‘suur raharaiskamine’ LP lugupeetud lollakas peedike m.o.t.t. mida oligi tarvis tõestada mida Oolup (mata-õps) tahtiski tõestada jne ja nii edasi Jänes näksis edukust II tüüp G.A.Y. gay ‘gei’ Girly And Youth ‘plikalik ja nooruslik’ JOKK jokk juriidiliselt on kõik korrektne IV tüüp LMAO laugh my ass off ‘naera nii, et piss püksis’ LOL laugh out loud ‘kõva naer’ OMG oh my god ‘oh mu jumal’ SOAD sodd off and die ‘tõmba uttu ja sure’ VV väga vaja :D (tegelt: väljavalitu?)

Kooliõpilaste lühendikasutus näitab suundumust, et varasema venekeelse koodi- kasutuse asemel lülitutakse nüüdses repertuaaris ümber ingliskeelsele koodile. Enamik lühendeid on rahvusvaheliselt tuntud, nii nagu varem, mõtestatakse ümber juba olemasolevaid üldlevinud akronüüme (FBI, USA, TIR, BMW jt), kuid varasemaga võrreldes rohkem esindab nüüdne repertuaar pigem moodustusmalli, kus normatiivses kasutuses lühendit ei eksisteerigi, vaid tekib kohe folkloorse tõl- gendusega lühend (LMAO, LOL, OMG jt), mis on ilmselgelt noorte omavahelises suhtlemises erikeele funktsioonides. Eriti kitsast erikeelt esindab tabelis 3 toodud lühendi m.o.t.t. lokaalredaktsioon, mis esineb ühe kooli mitme õpilase vastuses ja mida saavad mõista ainult kindla pärimusrühma (konkreetse kooli/klassi) liikmed. 356 Sõnu lühendatakse muidugi ka vajadusest (et näiteks mobiiltelefoni SMS-i mahtuva 160 tähemärgiga aega ja vaeva säästes võimalikult palju ära öelda või jututubades n-ö reaalajas püsida) või meelelahutuslikel eesmärkidel (lühenditel põhinevat huumoriainest leidub küllaldaselt interneti naljakülgedel). Nüüdisaegse internetihuumori hulgas kohtabki sageli uusi lühendite tõlgendusi, mis võivad moodustada iseseisva temaatilise tsükli. Žanri järjepidevust näitab järg- nev vaimukas nõuanne (1), kuidas töölt puudumise korral teatada töökaaslastele tabavalt oma puudumise põhjustest. Uues kontekstis on parodeeritud ka mitut nõukogudeaegset lühendit, nt TTP (tootlikkuse tõstmise programm), KP ja VTK.

(1) Mõningad lühendid, et mitte vaevata töökaaslasi pikalt oma puudumise põhjuse seletamisega. TH: täitsa haige. PP: piilusin pudelisse. PH: pea haige. PELL: padi ei lase lahti. PS: padi sosistab. TTP: tervis täitsa p...s. LH: laps haige. MH: mees haige. AK: auto katki. MOTT: mul on tervis tuksis. OTK: olen täna kodus. VTK: väga tugev kõhuvalu OK: olen koomas. KP: korrigeerin priketeid [breketeid]. VTV: vastumeelsus töö vastu. OO: olen operatsioonil. (http://www.chryslerclub.ee/foorum/viewtopic.php?p=26576&sid (25.09.2008))

Eesti huumorisaitidel leidub laialdaselt tsüklilist ingliskeelset lühendihuumorit. Populaarne on näiteks automarkide lahtiseletamine (2).

(2) AUDI – Automatic Utilization of Democratic Individuals ‘demokraatlike indiviidide automaatne utiliseerimine’ BMW – Bubble Machine on Wheels ‘mullitaja ratastel’ FIAT – Fabricated Imposter Automobile for Trouble ‘isehakanud petuauto probleemide tekitamiseks’ (http://publik.delfi .ee/jokes/index.php?sdate=&category=&top=&sear ch=BMW&no=40, üles riputanud kasutaja iges 06.11.2000 16:36, Delfi naljaleht (25.10.2008)) Sarjade kaupa on inglise keeles vaimukalt lahti seletatud ka lennukompaniide nimesid, toon näiteks paari tuntuma fi rma naljakad tõlgendused (3), milles läh- tutakse ühelt poolt millestki ebameeldivast ja tülikast, mis tavareisijaga võimsas lennundussüsteemis võib juhtuda, teiselt poolt tuuakse sisse erootilis-obstsöönne mõõde.

357 (3) Finnair – Flies Ideally? Nah, Not Airborne In Reality ‘Lendab ideaalselt? Noh, tegelikult pole võimeline õhku tõusmagi’ LOT – Lots Of Trouble ‘palju muret’ SAS – Service After Sex ‘teenindus pärast seksi’, Sex And Satisfaction ‘seks ja rahuldus’, Such A S*** ‘selline jama’ (http://www.travel-images.com/airline-acronyms.html (25.10.2008))

Üks põhjusi, miks võõrmõjud meie lühendirepertuaari imbunud on, võib olla ka tõsiasi, et nii vene kui ka inglise keelega võrreldes on eesti keel seni olnud tunduvalt vähem lühendilembene. Niisiis võib kõiksugu võõrlühendite alternatiivne tõlgen- damine olla ka omamoodi vasturünnak nende liigtarbimisele. Üks Delfi Naljalehest loetud lühenditel põhinev anekdoot, milles küll lühendeid vaimukalt ei tõlgendata, tundub sellist ideed kandvat: (4) Töötasin omal ajal KGB-s, siis jooksin üle CIA-sse. Praegu töötan FBI-s ja IMF-is. Tööle sõidan sinise BMW-ga, vahetevahel ka punase TVR-iga ja kuulan R.E.M.-i ja AC/DC CD-sid. Kodus vaatan BBC-d ja RTL-i. (http://publik.delfi .ee/jokes/index.php (25.09.2008)) Viimane nali töötabki lühendite kumuleerimise põhimõttel, kasutatav tehnika on ümbermõtestamisest erinev. Ka inglislaenulised ja inglispäraselt hääldatavad lühen- did võivad (protestina) esile kutsuda naljatamise, liiati kui seda toetavad mingid puhtkõlalised asjaolud, nt Kirjuta pii-siiga oma sii-vii ja salvesta sii-diile.

4.3. Lühendiparoodiate seos teiste folkloorižanritega

Lühendid ja eelkõige kvaasilühendid on eesti anekdoodisüžeedesse rohkemgi jõud- nud. Lühendi naljakal tõlgendamisel põhineb näiteks järgmine, 1975. aastal kirja pandud poliitteemaline anekdoot maailmakuulsatest maletajatest. (5) Fischeri telegramm. Kui ameeriklane Fischer oli võitnud malemängus meie Spasski, siis saatnud ta Moskvasse telegrammi “KPSS”. Küsitud, mida see tähendab, Fischer seletanud: “Kaputt Petrosjan Spasski”. Tekstile järgneb koguja lisandus: Jutustas mu tartlasest pojapoeg, EPA üliõpilane. Kuulnud teistelt. (RKM II 316, 47 (2)) Selle nalja mõistmine vajab kontekstuaalseid teadmisi maleajaloost. Akronüümiga KPSS võib olla siin seotud 1970. aastal Belgradis toimunud suur malevastasseis Nõu- kogude Liit – ülejäänud maailm, kus esimesel laual mängisid taanlane Bent Larsen ja Boriss Spasski, teisel ameeriklane Robert James Fischer ja Tigran Petrosjan (nii Spasski kui ka Petrosjan kaotasid). 1973. aastal pälvis Fischer maailmameistri tiitli, mistõttu 1970. aastate keskpaiku oli sellise anekdoodi levik igati ootuspärane. KPSS-lühendi naljakat lahtiseletamist on kasutatud anekdootides enamgi (6), muuhulgas ühe meie populaarsema anekdooditegelase Juku naljades (7). (6) Õpetaja: “Kordame lühendeid. Madis, palun ütle, mida tähendab täheühend KPSS?” Madis: “Ma arvan, õigemini ma olen kuulnud, et korraldame peo sauna ja seksiga!” (RKM, KP 62, 55 (153))

358 (7) Juku pidi kolmandasse klassi istuma jääma. Õpetaja, kavalpea, andis Jukule kolm küsimust, öeldes: “Kui vastad kõigile küsimustele, saad neljandasse klassi.” Esimeseks küsimuseks oli: “Mis tähendab KP?” Teiseks küsimuseks oli: “Mis tähendab EKP?” ja kolmas küsimus oli: “Mis tähendab KPSS?” Vastuseks kõlas: “1. Kõva pidu. 2. Eriti kõva pidu. 3. Kõva pidu sauna ja seksiga.” (EFA II 12, 246. 1980/1981) Samalaadset võtet, kus produktiivne lühendmõistatus ETKVL on sattunud narra- tiivi alusmaterjaliks (jutt tundub küll väga konstrueeritud), täheldame 1991. aastal kogutud arhiivitekstis (8). (8) Mis oli ETK ja ETKVL? Kaks põlist talutaati arutavad omavahel, et mis vahe on tähendusel ETK, mis oli kodanlikul ajal, ja ETKVL, mis nüüd on. Küsivad targalt. “Vahe on selles,” vastab tark, “ETK tähendas, et ‘elab teiste kulul’, ETKVL tähendab ‘elab teiste kulul veel lahedamini’.” (RKM II 442, 706 (14)) Viljandimaalt pärit meisterlüpsja Leida Peips oli 1970. aastatel tuntud kui sotsia- listliku töö kangelase aunimetuse kandja, aga ka oluline anekdooditegelane. Rah- vasuu on Leida Peipsi paari pannud omaaegse liitriigi juhi Leonid Iljitš Brežneviga ja kasutanud selleks ka lühendmõistatuse vormi: Mis on LLL? Leonidi lehm Leida. Kunagine ülipopulaarne anekdoot, mis samuti lühendil põhineb, kirjeldab Brežnevi külaskäiku Leida juurde järgmiselt: (9) Brežnev läinud Leida Peipsi vaatama. Jõuavad kohale. Leidat ei ole, aga keegi on uksele “LOLL” kraapinud. Brežnev tahab teada, mis sinna kirjutatud on. Tõlk siis loebki: “Leonid! Olen laudas. Leida.” (RKM I 21, 328 (14)) Nagu näha, pole selles anekdoodis lahti mõtestatud mitte üldkasutatavat akro- nüümi, vaid tõlgendamiseks on sobinud sõna. Üks tõsielul põhinev naljand räägib tuntud näitlejast Lauri Nebelist, kes kand- nud nõukogude ajal jopet, mille selja peal oli suur kiri NLKP. Kui miilits ta kinni pidas ja küsiti, mis ta sellega mõtleb, olla näitleja vastanud, et lihtsalt tutvustas iseennast: “Nebel, Lauri Karli poeg” (lühendite andmebaasis leidub selle klišee kohta 8 üleskirjutust). Jüri Viikbergi anekdoodikogus leidub 1960. aastail levinud anekdoot Puški- nist: (10) Puškin on seltskonnas ja suurt poeeti palutakse pidada lauakõne, mida lühem, seda parem. Puškin tõuseb püsti ja lausub: – Жопа [‘tagumik’]. Kõik on hämmingus ja nördinud, daamid peidavad silmi, mõni kirtsutab nina. Puškin tõuseb uuesti ja selgitab: – Желаю обществу приятного аппетита [‘Soovin kõigile head isu’]. (Viikberg 1997: 70) Kõikides esitatud naljades ilmneb koomika, kui kuulajale antakse lühendi tähendus, mida on esmakordsel kuulmisel raske ära aimata ja mis põhjustab üllatuse. Seega on lühendikasutus seotud taas ühest küljest naljategemise, teisest küljest aga pärimus- rühma erikeelega – võõrale kui kõrvalisele jääb lühendi sisu mõistetamatuks.

359 5. Lõpetuseks

Uurimuses vaatlesin nn kvaasilühendeid, mida märgitakse folkloristikas termini- tega lühendmõistatused, lühendiparoodiad, lühendite alternatiivsed tõlgendused, kvaasiakronüümid. Artikli allikmaterjal pärines peamiselt digitaalsest andmebaa- sist “Eesti lühendmõistatused”, uuema lühendipärimuse illustreerimisel kasutasin 2007. aasta koolipärimuse kogumisvõistluse materjali ning vähesel määral internetis ja trükistes leiduvat lühendimaterjali. Andmebaas on kindlate kriteeriumide järgi koostatud täisandmetega tekstikogum, mis annab hea läbilõike lühendite folkloor- setest tõlgendustest eri aegadel ning võimaldab jälgida ja kirjeldada žanri muutusi diakrooniliselt. Selle kompaktse tekstikorpuse ülesanne on ühest küljest osutada rahva seas vaimutsemise, naljasaamise, enesemääratlemise eesmärgil sündinud lühendiloomele, teisest küljest aga talletada eri aegadel levinud ja pidevalt muutuvat ainest sotsiokultuurilise arhiivimäluna. Folkloristlikust vaatenurgast käsitletakse nähtust mõistatuste alaliigina: küsimuspooleks on üldtuntud lühend ehk abreviatuur, millele antakse vastuses üldkasutatavast erinev, vaimukas ja lustlik, tihti poliitiliselt ja/või seksuaalselt markeeritud seletus. Vene folkloristi A. Arhipova eeskujul saab rääkida ühe ja sama lühendi normatiivse(te)st ja alternatiivse(te)st tõlgendus(t)est. Eesti lühendmõis- tatuste moodustamisel on kasutusel üldjuhul neli võimalust: 1) üldtuntud suur- tähtlühend ehk akronüüm saab alternatiivse tõlgenduse, 2) olemasolevast sõna- vormist või sõnaühendist saadakse lühend hilisemal tõlgendamisel, 3) lühend on kasutusel sobivate sõnade esisilpidest või valitud tähtedest moodustatud suland- nimena või 4) tekib kohe folkloorse tõlgendusega lühend. Nõukogudeaegne lühen- dipärimus rajaneb valdavalt esimesel moodustusviisil, vähesel määral esineb teist ja kolmandat tüüpi. Nüüdisaegne lühendiaines esindab pigem neljandat tüüpi ja on rohkem kommunikatiivse erikeele funktsioonis. Kolmas ehk sulandnimepõhine lühendusmall on eesti keelele üsna võõras, mistõttu ei leidu seda ka folkloorses aineses. Nii nagu keel ja folkloor üldse on tugevalt seotud ühiskondlik-kultuuriliste protsessidega, nii on ka lühendite arengutee mõjutatud kultuuri ja ühiskonna suundumustest. Lühendite parodeerimine on olnud väga tugev suulise levikuga elus traditsioon, millest üks osa – nõukogudeteemaline poliitiline lühendireper- tuaar – on ühiskondlike protsesside arenedes tänaseks käibelt taandunud, kuid selle asemele on tulnud uus, esmajoones tehnoloogilisest arengust ja angloameerika kultuuriruumist mõjutatud lühendipärimus. Lühendite tõlgendamine on väga tugevalt seotud huumoritaotlusega ning huumoriteoreetiliste reeglite järgi luuakse nali inkongruentsi- ehk kokkusobima- tusmudeli kaudu, teisisõnu tekitatakse mõisteline kaheplaanilisus. Nali sünnib, kui tavaplaan (üldtuntud normatiivne lühenditõlgendus) asendada ootamatult alternatiivse plaaniga (tõlgendusega). Mitteinstitutsionaalse vaimse kultuuri näh- tusena on lühenditõlgendused väga kontekstisidusad, teemad on mõjutatud sageli keskkonnast, lühendite nali põhineb ka poeetilistel väljendusvahenditel, nagu heakõla (alliteratsioon, lõppriim jne). Lingvistilisest aspektist on lühendite alternatiivsel tõlgendamisel sarnasusi slän- giga. Soov varjata kõrvaliste kuulajate eest infot; keeleline ökonoomsus (lühidus); afektiivsus (oma suhtumise rõhutatud väljendamine); huumori- ja uudsusetaotlus; enese eristamine teistest, oma olemuse rõhutamine; üldtuntud autoriteetide ja 360 normide kõigutamine loovad kvaasilühenditest rühmapärimuse. Grupiidentiteedi tunnusmärgina leidub lühendifolkloori tänapäeva tehnoloogiaajastu uutes suhtlus- vahendites.

Arhiiviallikad EFA = taastatud Eesti Rahvaluule Arhiivi rahvaluulekogu (alates 1995). EFA KP = Eesti Rahvaluule Arhiivi rahvaluulekogu koolipärimuse kogu (alates 2007). ERA = Eesti Rahvaluule Arhiivi rahvaluulekogu (1927–1944). RKM = Eesti TA Fr. R. Kreutzwaldi nim (Riikliku) Kirjandusmuuseumi (nüüd Eesti Kirjandus- muuseumi) rahvaluule osakonna rahvaluulekogu (peamiselt alates 1945. aastast). RKM KP = Eesti TA Fr. R. Kreutzwaldi nim (Riikliku) Kirjandusmuuseumi (nüüd Eesti Kirjandusmuuseumi) rahvaluule osakonna rahvaluulekogu koolipärimuse kogu.

Viidatud kirjandus Appel, René; Muysken, Pieter 1992. Language Contact and Bilingualism. London, New-York, Melbourne, Auckland: E. Arnold a division of Hodder & Stroughton. Arhipova 2008 = Αрхипова, Αлександра 2008. ВХОД и КОТ как анекдот: от языковой игры к «новому фольклору» в 20-е годы XX века. Типы дезаббревиации – от аббре виатуры к тексту. – Willem G. Weststeijn (Ed.). Дело авангарда. The Case of the Avant-Garde. Pegasus Oost-Europese Studies 8. Amsterdam: Uitgeverij Pegasus, 413–446. Ariste, Paul 2008. Mälestusi. Tartu: Eesti Kirjanduse Selts. Davies, Christie 2007. Humour and social protest: Jokes under communism. – International Review of Social History, 52, 291–305. doi:10.1017/S0020859007003252 Hasan-Rokem, Galit; Shulman, David 1996. Introduction. – Galit Hasan-Rokem, David Shulman (Eds.). Untying the Knot. On Riddles and Other Enigmatic Modes. New York, Oxford: Oxford University Press, 3–9. Loog, Mai 1991. Esimene eesti slängisõnaraamat. Tallinn: Mai Loog. Ollisaar, Martin 2006. Lühendiraamat. Tallinn: Kirjastus Valgus. Krikmann, Arvo 2004a. Koestler, Raskin, Attardo ja teised: lingvistiliste huumoriteooriate uuemaist arenguist. Reetor 4. Tartu: Eesti Kirjandusmuuseum, Eesti Kultuuriloo ja Folkloristika Keskus. Krikmann, Arvo 2004b. Netinalju Stalinist – Интернет-анекдоты о Сталине – Internet Humour about Stalin. Tartu: Eesti Kirjandusmuuseum. Loorits, Oskar 1994 [1950]. Okupatsioon rahvapilke kõverpeeglis. Tallinn: Olion. Maaleht, 8.05.2008. Maruste, Rait 1988. Kuritegelik subkultuur tätoveeringutes, žestides, slängis: õppevahend. Tartu Riiklik Ülikool, Eesti Akadeemiline Õigusteaduste Selts. Tartu: Tartu Riiklik Ülikool. Mokijenko, Nikitina 1998 = Мокиенко, Валерий; Никитина, Татяна 1998. Толковый словаръ языка Совдепии. Санкт-Петербург: Санкт-Петербургский Государст- вен ный Университет. Raskin, Victor 1985. Semantic Mechanisms of Humor. Synthese Language Library 24. Dord- recht, Boston: Reidel & Hingham. Rehemaa, Tuuli 2006. Kuidas lühendada. – Oma Keel, 1, 44–49. Sarv, Kadi 1995. “Mina tahan ka Nõukogude Liidus elada!” – Mare Kõiva (toim.). Lipitud- lapitud. Tänapäeva folkloorist. Tartu: Eesti TA Eesti Keele Instituut, 106–160. Sridhar, Shikaripur N.; Sridhar, Kamal K. 1980. The syntax and psycholinguistics of bilin- gual code mixing. – Canadian Journal of Psychology, 34/4, 407–416. doi:10.1037/ h0081105 361 Stahejeva 2008 = Стахеева, Анастасия 2008. Аббревиация: Словопроизводство и слово творчество (на материалах русского языка конца XXI века). Автореферат диссертации на соискание ученой степени кандидата филологических наук. Ростов-на-Дону: Издательство Южного Научного центра РАН. http://www.znb. rsu.ru/referat/D212-208-09/10-02-01/20081230_D212-208-09_10-02-01_Stahee- vaAV.doc (10.01.2009). Stock, Oliviero; Strapparava, Carlo 2003. HAHAcronym: Humorous agents for humorous acronyms. – Humor – International Journal of Humor Research, 16 (3), 297–314. doi:10.1515/humr.2003.016 Tartu Postimees, 13.01.2009. Tender, Tõnu 1994. Eesti släng: olemus ja uurimislugu. – Keel ja Kirjandus, 5, 291–299; 6, 346–355. Tender, Tõnu 2003. Slängi mõiste ja funktsioonid. – Uno Ilm, Tõnu Tender. Trellide ja luku taga. Tartu: Atlex, 11–17. Viikberg, Jüri 1997. Anekdoodiraamat. Naeruga eilsest: Eesti anekdoot 1960–1990. Tallinn: Eesti Keele Sihtasutus. Voolaid, Piret 2004a. Eesti lühendmõistatused. Elektrooniline Interneti-andmebaas. http:// www.folklore.ee/Lyhendid (28.11.2008). Tartu: Eesti Kirjandusmuuseum. Voolaid, Piret 2004b. Eesti keerdküsimused. Elektrooniline Interneti-andmebaas. http:// www.folklore.ee/Keerdkys (28.11.2008). Tartu: Eesti Kirjandusmuuseum. Voolaid, Piret 2005. Eesti mõistatuste perifeerne aines. Elektroonilised andmebaasid Internetis. Magistritöö. Tartu: Tartu Ülikool. http://dspace.utlib.ee/dspace/ bitstream/10062/1216/5/voolaid.pdf (28.01.2009). Voolaid, Piret 2006. Mõistatuste perifeeria digitaalsed andmebaasid aastal 2006. Vahefi niš. – Mare Kõiva (koost.). Võim ja kultuur 2. Eesti Kultuuriloo ja Folkloristika Keskuse aastaraamat. Tartu: Eesti Kirjandusmuuseum, Eesti Kultuuriloo ja Folkloristika Keskus, 125–160.

Piret Voolaid (Eesti Kirjandusmuuseumi folkloristika osakond) on uurinud eesti mõistatuste alaliike ja koostanud mõistatuste žanritüpoloogilisi andmebaase. [email protected]

362 ALTERNATIVE INTERPRETATIONS OF ABBREVIATIONS AND ACRONYMS: FOLK HUMOUR AND JARGON

Piret Voolaid The Estonian Literary Museum

The paper discusses abbreviation riddles or abbreviation parodies or alternative interpretations of abbreviations (about 3,000 abbreviations in total, categorised into about 330 types), which have been accumulated in the database of Estonian abbrevia- tion riddles (Voolaid 2004a). This corpus incorporates full data and follows specifi c criteria. It also provides a fi ne overview of the folkloric alternative interpretations of abbreviations and acronyms at different times, allowing us to diachronically observe and describe the semantic changes of the genre in a socio-cultural context.The paper deals with the nature of abbreviations or abbreviation parodies from the folkloristic and linguistic aspects. The systematization of the abbreviations is based on a taxonomy proposed by the Russian folklorist Alexandra Arkhipova (2008). If we proceed from the structure of the riddle (question and answer), the question of the abbreviation riddle or acronym is centered on a well-known abbreviation, mostly an acronym, which in the traditional use is a sequence of the initial capital letters of the words in a word combination (e.g., What does FBI mean?). An alternative reply to the conventional interpretation (Federal Bureau of Investigation) is quite different, witty and humorous, often with a political or sexual marking (e.g., Female Body Inspector). The same acronym or abbreviation may therefore yield several alternative interpretations – the conventional or normative and the folkloric or alternative ones. The affi nity between comicality and alternative interpretations is described by the incongruity theory of humour. The normative and the alternative interpretations are as if from two different semantic planes, the collision of which has a comic effect. In linguistics, analogous abbreviations have been considered as an important part of group languages, such as slang vocabulary or language games. In a broader context these play an important role in the internal communication systems of the so-called closed subcultures (e.g. those developing in places of confi nement or in the army) or in the specialized language of certain areas, esp. those related to information technology. A major part of alternative interpretations are associated with acronyms origi- nating in the folklore of the totalitarian Soviet regime, which often had a political character. Most of the folklore of the time was a comical representation of social taboos (certain political, erotic, or even everyday topics that were largely a taboo at the time). The ten most popular acronyms of the socialist period were those of the names of Soviet countries or institutions. There is hardly any political subtext in contemporary abbreviation lore, which is mostly spread as group lore and as a symbol of group identity in the World Wide Web. The Russian language, which greatly infl uenced the lore in the recent past has been replaced by the Anglo- American culture and language.

Keywords: acronyms, abbreviations, abbreviation parodies, abbreviation riddles, folk humour, group lore, slang 363

LÜHENDID / ABBREVIATIONS

1 esimene isik / fi rst person 2 teine isik / second person 3 kolmas isik / third person ABES abessiiv / abessive ABL ablatiiv / ablative ACC akusatiiv / accusative ADJ adjektiiv / adjective ADS adessiiv / adessive ADV adverb(iaal) / adverb(ial) ALL allatiiv / allative CONJ konjunktsioon / conjunction DAT daativ / dative DEM demonstratiiv / demonstrative ELAT elatiiv / elative ESS essiiv / essive F naissugu / feminine GEN genitiiv / genitive INES inessiiv / inessive INS instrumentaal / instrumental INT interrogatiiv / interrogative KOM komitatiiv / komitative L1 emakeel / fi rst language L2 võõrkeel / second language LOC lokatiiv / locative M meessugu / masculine N noomen / noun NOM nominatiiv / nominative PART partitiiv / partitive PL mitmus / plural PRON pronoomen / pronoun SG ainsus / singular TERM terminatiiv / terminative TRANS translatiiv / translative V verb / verb VOC vokatiiv / vocative

365

Trükitud 150 eksemplari