Regensburški Dijakronijski Korpus Hrvatskoga Jezika – Crodi

Regensburški Dijakronijski Korpus Hrvatskoga Jezika – Crodi

RASPRAVE Časopis Instituta za hrvatski jezik i jezikoslovlje 42/1 (2016.) UDK 811.163.42’32 UDK 811.163.42-112 UDK 801.81 UDK 801.82 Pregledni rad Rukopis primljen 16. III. 2016. Prihvaćen za tisak 29. IV. 2016. Ernst Hansack, Björn Hansen, Veronika Wald Universität Regensburg Fakultät für Sprach-, Literatur- und Kulturwissenschaften Institut für Slavistik Universitätsstraße 31, D-93053 Regensburg [email protected] [email protected] [email protected] Marijana Horvat Sanja Perić Gavrančić Institut za hrvatski jezik i jezikoslovlje Ulica Republike Austrije 16, HR-10000 Zagreb [email protected] [email protected] REGENSBURŠKI DIJAKRONIJSKI KORPUS HRVATSKOGA JEZIKA – CRODI U članku se opisuju ciljevi i načela uspostave korpusa, metodologija izrade i dosadašnji rezultati u okviru projekta izgradnje dijakronijskoga korpusa hr- vatskoga jezika, koji su za potrebe jezičnopovijesnih istraživanja pokrenu- li njemački slavisti Roland Meyer (Humboldt-Universität zu Berlin) i Björn Hansen (Universität Regensburg) u suradnji s Institutom za hrvatski jezik i jezikoslovlje. Regensburški dijakronijski korpus hrvatskoga jezika u vrijeme pisanja ovoga rada još nije mrežno dostupan za javnost. 1. O hrvatskim korpusima Korpusna lingvistika zasebna je jezikoslovna grana koja se bavi jezičnom raš- člambom strojno izrađenih korpusa pisanoga ili govorenoga jezika, a korpus je skup jezičnih odsječaka (ne nužno i cijelih tekstova) odabranih i skupljenih pre- ma eksplicitnim lingvističkim kriterijima s ciljem da čine jezični uzorak (Klobu- 1 Ernst Hansack i dr.: Regensburški dijakronijski korpus hrvatskoga jezika – CroDi Rasprave 42/1 (2016.), str. 1–19 čar Srbić 2008: 39). Ne namjeravajući ovdje problematizirati mogućnosti i do- sege hrvatske korpusne lingvistike ni iznositi iscrpan popis hrvatskih korpusa,1 osvrnut ćemo se na neke postojeće korpuse. Zavod za lingvistiku Filozofsko- ga fakulteta u Zagrebu 1996. godine pod vodstvom Marka Tadića započeo je sa- stavljanje Hrvatskoga nacionalnoga korpusa (HNK), što je usustavljena zbirka odabranih tekstova pretežito suvremenoga hrvatskoga jezika koji pokrivaju ra- zne medije, žanrove, stilove, područja i tematiku (v. http://www.hnk.ffzg.hr/).2 Na istome fakultetu uspostavljen je i veliki obilježeni mrežni korpus hrWaC 2.0 Nikole Ljubešića (v. http://nlp.ffzg.hr/resources/corpora/hrwac/). U Institutu za hrvatski jezik i jezikoslovlje 2005. godine pokrenut je projekt Hrvatska jezična riznica (voditeljice Dunje Brozović Rončević). Riznica se sastoji od nekoliko potkorpusa, a u nju su uključeni i određeni dopreporodni tekstovi. Aktivna je na adresi http://riznica.ihjj.hr/, a sadašnji je voditelj Željko Jozić. Iako se posljednjih tridesetak godina 20. stoljeća znatno radilo na računalno potpomognutim korpusima dopreporodnih tekstova hrvatskoga jezika,3 što je re- zultiralo izradom konkordancija djela nekoliko starih pisaca,4 Hrvatska još uvijek nema jedinstven i mrežno dostupan dijakronijski korpus hrvatskoga jezi- ka. Određeni pomaci u smjeru izgradnje takva korpusa ostvaruju se u Institu- tu za hrvatski jezik i jezikoslovlje, u kojemu se korpusi dopreporodnih tekstova izrađuju u okviru projekta Starohrvatski rječnik i računalni korpus hrvatskoga jezika do konca 16. stoljeća (voditelja Amira Kapetanovića) i projekta Korpus hrvatskoga jezika 17., 18. i 19. stoljeća (voditelja Jurice Budje). Unutar projekta Dopreporodne hrvatske gramatike (voditeljice Marijane Horvat) bit će izrađen specijalizirani korpus starih hrvatskih gramatika. Dijakronijska će perspektiva biti zastupljena i u teorijskom kognitivnolingvističkom istraživanju konceptual- ne metafore, metonimije, predodžbenih shema i semantičkih okvira u hrvatsko- me jeziku, što je predmet projekta Repozitorij metafora hrvatskoga jezika (vo- diteljice Kristine Štrkalj Despot). Korpus o kojemu će ovdje biti riječ dio je šire inicijative unutar korpusne lingvistike slavenskih jezika. 1 Za popis hrvatskih korpusa v. npr. adresu http://www.hnk.ffzg.hr/jthj/korpusi.htm; o hr- vatskim korpusima v. također Klobučar Srbić 2008: 45–50 te Štrkalj Despot i Mӧhrs 2015: 329– 353; vidi za poljski jezik Molas 2014. 2 O tome v. npr. Tadić 2003. 3 U Zavodu za lingvistiku Filozofskoga fakulteta u Zagrebu pod vodstvom Milana Moguša pokrenut je projekt Jezik Marka Marulića, koji je 1970. godine dopunjen i preimenovan u Komp- jutorska analiza tekstova stare hrvatske književnosti. 4 Tako su primjerice nastale konkordancije hrvatskih tekstova M. Marulića, Karnarutiće- vih, Pelegrinovićevih, Lucićevih, Benetovićevih i Hektorovićevih djela. Konkordirane su tako- đer Zoranićeve Planine, Barakovićeva Vila Slovinka, Vitezovićevo Odiljenje sigetsko, Gunduli- ćev Osman, Razvod istarski i dr. 2 Ernst Hansack i dr.: Regensburški dijakronijski korpus hrvatskoga jezika – CroDi Rasprave 42/1 (2016.), str. 1–19 2. CroDi u kontekstu DFG projekta Korpuslinguistik und diachrone Syntax: Subjektkasus, Finitheit und Kongruenz Izgradnja Regensburškoga dijakronijskog korpusa hrvatskoga jezika – Cro- Di pokrenuta je u okviru istraživačkoga projekta Korpuslinguistik und dia- chrone Syntax: Subjektkasus, Finitheit und Kongruenz in slavischen Sprachen (Korpusna lingvistika i dijakronijska sintaksa: padež subjekta, finitnost i kon- gruencija u slavenskim jezicima), koji se odvijao u razdoblju od 2012. do 2016. uz potporu Njemačke istraživačke zajednice (HA 2659/1-2, Deutsche Forschungsgemeinschaft – DFG). Projekt se sastoji od dvaju potprojekata koji se provode na Humboldtovu sveučilištu u Berlinu i na Sveučilištu u Regensbur- gu.5 Riječ je o nastavku projekta Korpuslinguistik und diachrone Syntax: Zur Grammatikalisierung peripherer Subjekte in slavischen Sprachen (HA 2659/1-1) (Korpusna lingvistika i dijakronijska sintaksa: Gramatikalizacija perifernih subjekata u slavenskim jezicima), koji je financijski podupro DFG (2008. – 2011.). Tijekom toga projekta utemeljen je Regensburški ruski dijakronijski korpus (RRuDi). Taj korpus sadržava mnoge važne pisane dokaze iz povije- sti ruskoga jezika, odnosno staroslavenskoga i srednjoistočnoslavenskoga, sve do kraja 18. stoljeća. Korpus je djelomično lematiziran, a u njemu su označe- ne i morfosintaktičke kategorije.6 Osim toga, u okviru istoga projekta nastao je i Regensburški poljski dijakronijski korpus (PolDi). Taj je korpus oblikovan s pomoću digitaliziranih dokumenata koje je izradila skupina sa Sveučilišta u Göttingenu pod vodstvom Gerda Hentschela te na temelju elektroničkih izda- nja Instituta za poljski jezik Akademije znanosti u Krakovu. Korpus je javno dostupan. Grafijski je ujednačen, eksperimentalno lematiziran i označen tage- rom (označivačem) za suvremeni poljski jezik.7 Za povijesnojezična je istraži- vanja važan i višejezični paralelni korpus PROIEL (http://proiel.github.io/) koji uključuje i morfosintaktički anotirani staroslavenski Codex Marianus glagoliti- cus, koji su proučavali i Vatroslav Jagić i Josip Hamm. Nastavak projekta bavi se pitanjem odnosa nominativa kao padeža subjekta i njegove kongruencije s finitnim predikatom. Taj se odnos često određuje kao 5 Glavni i odgovorni voditelj projekta je Roland Meyer (HU Berlin), a potprojekt u Re- gensburgu vodi Björn Hansen. Suradnici na projektu u Njemačkoj jesu Ernst Hansack, Olesia Lazarenko, Iryna Parkhomenko, Veronika Wald, Uliana Yazhinova te Aleksej Tikhonov, a među- narodni su partneri Institut za hrvatski jezik i jezikoslovlje iz Zagreba (Marijana Horvat, Sanja Perić Gavrančić), Universität Tromsø, Norveška (Hanne Eckhoff), Universität Uppsala, Švedska (Ingrid Maier), Ukrajinska nacionalna akademija znanosti (Jevgenija Karpilovs’ka, Olesia La- zarenko), Taras-Ševčenko, Sveučilište u Kijevu, Ukrajina (Oksana Nika, Natalia Darchuk) kao i Iwan-Franko, Sveučilište Žytomyr, Ukrajina (W. M. Mojsijenko). 6 Vidjeti na mrežnoj stranici http://rhssl1.uni-regensburg.de/SlavKo/korpus/rrudi. 7 Vidjeti na http://rhssl1.uni-regensburg.de/SlavKo/korpus/poldi. 3 Ernst Hansack i dr.: Regensburški dijakronijski korpus hrvatskoga jezika – CroDi Rasprave 42/1 (2016.), str. 1–19 aksiom rečeničnoga ustrojstva. Međutim, potvrđeni su slučajevi, i to ne samo u slavenskim jezicima, koji odstupaju od toga načela te su stoga osobito infor- mativni za teoriju padeža. Cilj je projekta objasniti nastanak i razvoj takvih ne- kanonskih („perifernih”) potvrda padeža za subjekt u povijesti slavenskih jezi- ka. Pritom će se primjenjivati i razvijati suvremene metode korpusne lingvisti- ke. Istraživanje se nastavlja na prvu fazu projekta, u kojoj je primarno bilo pi- tanje odnosa ostvarenih i neostvarenih subjekata. Polazeći od dosad sekundar- no obrađenih subjekata u dativu, sada bi se trebala produbiti međusobna pove- zanost problematike padeža i finitnosti.8 U regensburškom se potprojektu podloga za jezičnu usporedbu proširuje i na hrvatski jezik, koji s obzirom na temu projekta pokazuje osobito važne po- javnosti u modalnim konstrukcijama. Hrvatske modalne konstrukcije dopušta- ju izražavanje subjekta ili u nominativu (npr. Zato minom trebamo otići do Mi- nistarstva kulture.) ili u dativu (npr. Ovu stranicu valja namdat gledati kao ko- mercijalnu.). Osim toga, potvrđena je varijacija u kongruenciji predikata sa su- bjektom (npr. Svi kandidatipl trebasg da su doseglipl doba puberteta.). Projekt će pridonijeti slavističkim i općelingvističkim istraživanjima koja se bave temom subjekta, finitnosti i kongruencije te modalnosti. Za uspostavu dijakronijskoga korpusa hrvatskoga jezika – CroDi nužni su postojeći resursi i iskustva iz prve faze projekta. Uspostavom

View Full Text

Details

  • File Type
    pdf
  • Upload Time
    -
  • Content Languages
    English
  • Upload User
    Anonymous/Not logged-in
  • File Pages
    20 Page
  • File Size
    -

Download

Channel Download Status
Express Download Enable

Copyright

We respect the copyrights and intellectual property rights of all users. All uploaded documents are either original works of the uploader or authorized works of the rightful owners.

  • Not to be reproduced or distributed without explicit permission.
  • Not used for commercial purposes outside of approved use cases.
  • Not used to infringe on the rights of the original creators.
  • If you believe any content infringes your copyright, please contact us immediately.

Support

For help with questions, suggestions, or problems, please contact us