Regensburški Dijakronijski Korpus Hrvatskoga Jezika – Crodi
Total Page:16
File Type:pdf, Size:1020Kb
RASPRAVE Časopis Instituta za hrvatski jezik i jezikoslovlje 42/1 (2016.) UDK 811.163.42’32 UDK 811.163.42-112 UDK 801.81 UDK 801.82 Pregledni rad Rukopis primljen 16. III. 2016. Prihvaćen za tisak 29. IV. 2016. Ernst Hansack, Björn Hansen, Veronika Wald Universität Regensburg Fakultät für Sprach-, Literatur- und Kulturwissenschaften Institut für Slavistik Universitätsstraße 31, D-93053 Regensburg [email protected] [email protected] [email protected] Marijana Horvat Sanja Perić Gavrančić Institut za hrvatski jezik i jezikoslovlje Ulica Republike Austrije 16, HR-10000 Zagreb [email protected] [email protected] REGENSBURŠKI DIJAKRONIJSKI KORPUS HRVATSKOGA JEZIKA – CRODI U članku se opisuju ciljevi i načela uspostave korpusa, metodologija izrade i dosadašnji rezultati u okviru projekta izgradnje dijakronijskoga korpusa hr- vatskoga jezika, koji su za potrebe jezičnopovijesnih istraživanja pokrenu- li njemački slavisti Roland Meyer (Humboldt-Universität zu Berlin) i Björn Hansen (Universität Regensburg) u suradnji s Institutom za hrvatski jezik i jezikoslovlje. Regensburški dijakronijski korpus hrvatskoga jezika u vrijeme pisanja ovoga rada još nije mrežno dostupan za javnost. 1. O hrvatskim korpusima Korpusna lingvistika zasebna je jezikoslovna grana koja se bavi jezičnom raš- člambom strojno izrađenih korpusa pisanoga ili govorenoga jezika, a korpus je skup jezičnih odsječaka (ne nužno i cijelih tekstova) odabranih i skupljenih pre- ma eksplicitnim lingvističkim kriterijima s ciljem da čine jezični uzorak (Klobu- 1 Ernst Hansack i dr.: Regensburški dijakronijski korpus hrvatskoga jezika – CroDi Rasprave 42/1 (2016.), str. 1–19 čar Srbić 2008: 39). Ne namjeravajući ovdje problematizirati mogućnosti i do- sege hrvatske korpusne lingvistike ni iznositi iscrpan popis hrvatskih korpusa,1 osvrnut ćemo se na neke postojeće korpuse. Zavod za lingvistiku Filozofsko- ga fakulteta u Zagrebu 1996. godine pod vodstvom Marka Tadića započeo je sa- stavljanje Hrvatskoga nacionalnoga korpusa (HNK), što je usustavljena zbirka odabranih tekstova pretežito suvremenoga hrvatskoga jezika koji pokrivaju ra- zne medije, žanrove, stilove, područja i tematiku (v. http://www.hnk.ffzg.hr/).2 Na istome fakultetu uspostavljen je i veliki obilježeni mrežni korpus hrWaC 2.0 Nikole Ljubešića (v. http://nlp.ffzg.hr/resources/corpora/hrwac/). U Institutu za hrvatski jezik i jezikoslovlje 2005. godine pokrenut je projekt Hrvatska jezična riznica (voditeljice Dunje Brozović Rončević). Riznica se sastoji od nekoliko potkorpusa, a u nju su uključeni i određeni dopreporodni tekstovi. Aktivna je na adresi http://riznica.ihjj.hr/, a sadašnji je voditelj Željko Jozić. Iako se posljednjih tridesetak godina 20. stoljeća znatno radilo na računalno potpomognutim korpusima dopreporodnih tekstova hrvatskoga jezika,3 što je re- zultiralo izradom konkordancija djela nekoliko starih pisaca,4 Hrvatska još uvijek nema jedinstven i mrežno dostupan dijakronijski korpus hrvatskoga jezi- ka. Određeni pomaci u smjeru izgradnje takva korpusa ostvaruju se u Institu- tu za hrvatski jezik i jezikoslovlje, u kojemu se korpusi dopreporodnih tekstova izrađuju u okviru projekta Starohrvatski rječnik i računalni korpus hrvatskoga jezika do konca 16. stoljeća (voditelja Amira Kapetanovića) i projekta Korpus hrvatskoga jezika 17., 18. i 19. stoljeća (voditelja Jurice Budje). Unutar projekta Dopreporodne hrvatske gramatike (voditeljice Marijane Horvat) bit će izrađen specijalizirani korpus starih hrvatskih gramatika. Dijakronijska će perspektiva biti zastupljena i u teorijskom kognitivnolingvističkom istraživanju konceptual- ne metafore, metonimije, predodžbenih shema i semantičkih okvira u hrvatsko- me jeziku, što je predmet projekta Repozitorij metafora hrvatskoga jezika (vo- diteljice Kristine Štrkalj Despot). Korpus o kojemu će ovdje biti riječ dio je šire inicijative unutar korpusne lingvistike slavenskih jezika. 1 Za popis hrvatskih korpusa v. npr. adresu http://www.hnk.ffzg.hr/jthj/korpusi.htm; o hr- vatskim korpusima v. također Klobučar Srbić 2008: 45–50 te Štrkalj Despot i Mӧhrs 2015: 329– 353; vidi za poljski jezik Molas 2014. 2 O tome v. npr. Tadić 2003. 3 U Zavodu za lingvistiku Filozofskoga fakulteta u Zagrebu pod vodstvom Milana Moguša pokrenut je projekt Jezik Marka Marulića, koji je 1970. godine dopunjen i preimenovan u Komp- jutorska analiza tekstova stare hrvatske književnosti. 4 Tako su primjerice nastale konkordancije hrvatskih tekstova M. Marulića, Karnarutiće- vih, Pelegrinovićevih, Lucićevih, Benetovićevih i Hektorovićevih djela. Konkordirane su tako- đer Zoranićeve Planine, Barakovićeva Vila Slovinka, Vitezovićevo Odiljenje sigetsko, Gunduli- ćev Osman, Razvod istarski i dr. 2 Ernst Hansack i dr.: Regensburški dijakronijski korpus hrvatskoga jezika – CroDi Rasprave 42/1 (2016.), str. 1–19 2. CroDi u kontekstu DFG projekta Korpuslinguistik und diachrone Syntax: Subjektkasus, Finitheit und Kongruenz Izgradnja Regensburškoga dijakronijskog korpusa hrvatskoga jezika – Cro- Di pokrenuta je u okviru istraživačkoga projekta Korpuslinguistik und dia- chrone Syntax: Subjektkasus, Finitheit und Kongruenz in slavischen Sprachen (Korpusna lingvistika i dijakronijska sintaksa: padež subjekta, finitnost i kon- gruencija u slavenskim jezicima), koji se odvijao u razdoblju od 2012. do 2016. uz potporu Njemačke istraživačke zajednice (HA 2659/1-2, Deutsche Forschungsgemeinschaft – DFG). Projekt se sastoji od dvaju potprojekata koji se provode na Humboldtovu sveučilištu u Berlinu i na Sveučilištu u Regensbur- gu.5 Riječ je o nastavku projekta Korpuslinguistik und diachrone Syntax: Zur Grammatikalisierung peripherer Subjekte in slavischen Sprachen (HA 2659/1-1) (Korpusna lingvistika i dijakronijska sintaksa: Gramatikalizacija perifernih subjekata u slavenskim jezicima), koji je financijski podupro DFG (2008. – 2011.). Tijekom toga projekta utemeljen je Regensburški ruski dijakronijski korpus (RRuDi). Taj korpus sadržava mnoge važne pisane dokaze iz povije- sti ruskoga jezika, odnosno staroslavenskoga i srednjoistočnoslavenskoga, sve do kraja 18. stoljeća. Korpus je djelomično lematiziran, a u njemu su označe- ne i morfosintaktičke kategorije.6 Osim toga, u okviru istoga projekta nastao je i Regensburški poljski dijakronijski korpus (PolDi). Taj je korpus oblikovan s pomoću digitaliziranih dokumenata koje je izradila skupina sa Sveučilišta u Göttingenu pod vodstvom Gerda Hentschela te na temelju elektroničkih izda- nja Instituta za poljski jezik Akademije znanosti u Krakovu. Korpus je javno dostupan. Grafijski je ujednačen, eksperimentalno lematiziran i označen tage- rom (označivačem) za suvremeni poljski jezik.7 Za povijesnojezična je istraži- vanja važan i višejezični paralelni korpus PROIEL (http://proiel.github.io/) koji uključuje i morfosintaktički anotirani staroslavenski Codex Marianus glagoliti- cus, koji su proučavali i Vatroslav Jagić i Josip Hamm. Nastavak projekta bavi se pitanjem odnosa nominativa kao padeža subjekta i njegove kongruencije s finitnim predikatom. Taj se odnos često određuje kao 5 Glavni i odgovorni voditelj projekta je Roland Meyer (HU Berlin), a potprojekt u Re- gensburgu vodi Björn Hansen. Suradnici na projektu u Njemačkoj jesu Ernst Hansack, Olesia Lazarenko, Iryna Parkhomenko, Veronika Wald, Uliana Yazhinova te Aleksej Tikhonov, a među- narodni su partneri Institut za hrvatski jezik i jezikoslovlje iz Zagreba (Marijana Horvat, Sanja Perić Gavrančić), Universität Tromsø, Norveška (Hanne Eckhoff), Universität Uppsala, Švedska (Ingrid Maier), Ukrajinska nacionalna akademija znanosti (Jevgenija Karpilovs’ka, Olesia La- zarenko), Taras-Ševčenko, Sveučilište u Kijevu, Ukrajina (Oksana Nika, Natalia Darchuk) kao i Iwan-Franko, Sveučilište Žytomyr, Ukrajina (W. M. Mojsijenko). 6 Vidjeti na mrežnoj stranici http://rhssl1.uni-regensburg.de/SlavKo/korpus/rrudi. 7 Vidjeti na http://rhssl1.uni-regensburg.de/SlavKo/korpus/poldi. 3 Ernst Hansack i dr.: Regensburški dijakronijski korpus hrvatskoga jezika – CroDi Rasprave 42/1 (2016.), str. 1–19 aksiom rečeničnoga ustrojstva. Međutim, potvrđeni su slučajevi, i to ne samo u slavenskim jezicima, koji odstupaju od toga načela te su stoga osobito infor- mativni za teoriju padeža. Cilj je projekta objasniti nastanak i razvoj takvih ne- kanonskih („perifernih”) potvrda padeža za subjekt u povijesti slavenskih jezi- ka. Pritom će se primjenjivati i razvijati suvremene metode korpusne lingvisti- ke. Istraživanje se nastavlja na prvu fazu projekta, u kojoj je primarno bilo pi- tanje odnosa ostvarenih i neostvarenih subjekata. Polazeći od dosad sekundar- no obrađenih subjekata u dativu, sada bi se trebala produbiti međusobna pove- zanost problematike padeža i finitnosti.8 U regensburškom se potprojektu podloga za jezičnu usporedbu proširuje i na hrvatski jezik, koji s obzirom na temu projekta pokazuje osobito važne po- javnosti u modalnim konstrukcijama. Hrvatske modalne konstrukcije dopušta- ju izražavanje subjekta ili u nominativu (npr. Zato minom trebamo otići do Mi- nistarstva kulture.) ili u dativu (npr. Ovu stranicu valja namdat gledati kao ko- mercijalnu.). Osim toga, potvrđena je varijacija u kongruenciji predikata sa su- bjektom (npr. Svi kandidatipl trebasg da su doseglipl doba puberteta.). Projekt će pridonijeti slavističkim i općelingvističkim istraživanjima koja se bave temom subjekta, finitnosti i kongruencije te modalnosti. Za uspostavu dijakronijskoga korpusa hrvatskoga jezika – CroDi nužni su postojeći resursi i iskustva iz prve faze projekta. Uspostavom