Pregled Razvoja Hrvatske E-Leksikografije

Pregled razvoja hrvatske e-leksikografije Kristina Štrkalj Despot i Ana Ostroški Anić U radu se daje kratak pregled razvoja i trenutačnoga stanja hrvatske e-leksikografije od prvih korpusno utemeljenih rječnika do najrecentnijega, izvorno digitalnoga rječnika Mrežnika. Detaljnije se opisuju leksikografski projekti kojima je Maja Bratanić dala važan prinos, a koji su se pokazali prijelomnim točkama u tome razvoju: čestotni rječnik Milana Moguša, Maje Bratanić i Marka Tadića, višejezični leksikografski projekt Johna Sinclaira te projekt STRUNA u Institutu za hrvatski jezik i jezikoslovlje. 1. Uvod Danas je vrlo raširen i gotovo potpuno prihvaćen stav o (e-)leksikografiji kao autonomnoj disciplini u odnosu na lingvistiku, i to disciplini koja ima razvijenu vlastitu teoriju i praksu. Za takav pristup leksikografiji osobito je zaslužna utjecajna danska funkcionalna leksikografska škola, tj. aarhuška škola (s Bergenholtzom kao najistaknutijim predstavnikom), koja je takav stav najjasnije artikulirala ističući ne samo autonomnost te discipline u odnosu na lingvistiku nego i njezinu pripadnost informacijskim znanostima (v. npr. Fuertes-Olivera i Bergenholtz 2011, Tarp 2012, Štrkalj Despot i Möhrs 2015). Takav je pristup izrastao na tradicionalnim i utjecajnim leksikografskim školama poput ruske (npr. Scerba 1940, Sorokoletov 1978) i njemačke (npr. Duda i dr. 1986, Wiegand 1999) te na pogledima istaknutih leksikografa poput Gouwsa (2011) ili Zguste (1992). No ovako artikuliran stav o autonomnosti leksikografije izazvao je i snažan otpor nekih vrlo uglednih leksikografa (najistaknutiji su Atkins i Rundell 2008) te metaleksikografa poput Béjointa 2010, koji drže da se ne može govoriti o teoriji leksikografije, nego samo o praksi izrade rječnika. Tako npr. Béjoint (2010) ističe kako znanost može imati teoriju, ali praktični rad ne može jer prirodni fenomeni trebaju svoje teorije, a zasigurno ne može biti teorije o stvaranju artefakata. Ističe nadalje kako itekako trebamo teoriju jezika ili leksikologije primjerice, ali da ne može postojati teorija leksikografije jer je leksikografija umijeće – umijeće izrade rječnika. No, kako se obje suprotstavljene strane slažu u onome 5 temeljnom, tj. primatu praktične prirode rječnika i njegove upotrebljivosti za korisnike, za dobrobit korisnika rječnika važno je izdignuti se iznad zvučnih slogana i razmirica i uočiti da obje strane promatraju isti objekt iz različitih perspektiva (dok su „praktični” leksikografi usmjereni prema samim podatcima, aarhuška je škola usmjerena prema prezentaciji tih podataka i resursima informacijskih tehnologija) te da su nam obje perspektive itekako potrebne (Caruso 2013). Elektronička leksikografija ili e-leksikografija počela se razvijati sredinom prošloga stoljeća te je bila poznata pod nazivom računalna leksikografija (engl. computer/computational lexicography) jer je bila ograničena na uporabu računala pri izradi rječnika, ali samo u smislu da se s pomoću računala provodila naknadna obrada ručno prikupljenih podataka (podatci su se naknadno reorganizirali, kodirali, razvrstavali i provjeravali), dok je sam proces rječničke produkcije bio i dalje konvencionalan (Granger 2012). Ti rječnici nisu zapravo još bili elektronički rječnici, nego tek strojno čitljivi rječnici jer se pri njihovoj izradi ni leksikografi ni korisnici rječnika nisu služili računalom. Leksikografi su nastavili s „papirnatom” praksom leksikografske obrade, a računalni su stručnjaci tek zatim obrađivali podatke i pretvarali ih u digitalni oblik (Atkins i Rundell 2008: 112–113, Štrkalj Despot i Möhrs 2015). Prijelomni je trenutak razvoja e-leksikografije bio prijelaz od strojno čitljiva rječnika prema leksičkoj bazi podataka. Taj je prijelaz revolucionirao i leksikografsku obradu i prezentaciju građe korisniku, ali i način na koji se korisnik podatcima služi. Longman Dictionary of Contemporary English (Procter 1978, dalje LDOCE) bio je rječnik kojim je počela ta revolucija, a u pravome smislu inovativan bio je Collins COBUILD English Language Dictionary objavljen 1987. (Sinclair 1987, dalje COBUILD), o čemu više u sljedećem poglavlju. Osamdesete godine bile su obilježene rječnicima u CD-ROM obliku, iz kojih su korisnici već uvidjeli dobrobiti rječnika u digitalnome obliku. Razvoj u elektroničkome smjeru iznimno se ubrzao u devedesetim godinama s brzim razvojem novih medija i tehnologija te su se pojavili prvi pravi izvorno digitalni mrežni rječnici. U devedesetim godinama integracija računalnih tehnologija u izradu i uporabu rječnika bila je ponajprije usmjerena konverziji tiskanih rječnika u elektronički oblik, pa razlika između e-rječnika i tiskanoga rječnika nije još bila suštinska. No s početkom tisućljeća računalne su tehnologije potpuno izmijenile leksikografiju postavši ključnima u svim fazama 6 računalnoga leksikografskoga procesa,1 od pripreme, prikupljanja, obrade i analize podataka, do prezentacije obrađenih podataka korisniku i analize korisničke perspektive. Prema Granger (2012) šest je ključnih područja u leksikografiji koja su u ovome razdoblju doživjela radikalne inovacije, a to su: integracija korpusa, više podataka i bolji podatci, učinkovitost pristupa, prilagodljivost specifičnim potrebama, hibridizacija i korisnički prinos. Danas se sa sigurnošću može reći da su e-leksikografija i leksikografija postale sinonimnima te je prema mnogim predviđanjima nestanak papirnatih rječnika u bliskoj budućnosti vrlo izvjestan, osobito u svjetlu činjenice da jedan od najpoznatijih i najkorištenijih rječnika na svijetu, Oxford English Dictionary, više ne izlazi u papirnatome obliku2 (Granger 2012). Ono što danas područje e-leksikografije potvrđuje kao zasebno istraživačko područje jest golem broj mrežnih (popularno online) rječnika te golema bibliografija istraživačkih doprinosa.3 Kad je riječ o razvoju e-leksikografije u području hrvatske jednojezične leksikografije, možemo pratiti vrlo sličan razvojni put, ali sa znatnim vremenskim zaostatcima u posljednjoj fazi razvoja. Iako je u samim začetcima pratila najnaprednije trendove, u hrvatskoj je e-leksikografiji u ključnome trenutku došlo do zastoja, pa je donedavno bio vidljiv golem zaostatak u broju i kvaliteti jednojezičnih mrežnih rječnika čak i u odnosu na druge slavenske jezike (v. Štrkalj Despot i Möhrs 2015). U ovome radu ukratko će se prikazati upravo taj razvojni put hrvatske e-leksikografije od prvih korpusno utemeljenih rječnika do najrecentnijega, prvoga izvorno digitalnoga mrežnoga rječnika Mrežnika te do niza specijaliziranih digitalnih leksičkih baza hrvatskoga jezika. Osobita će se pozornost pritom usmjeriti na leksikografske projekte kojima je Maja Bratanić dala važan prinos, a koji su se pokazali prijelomnim točkama u tome razvoju. To su: višejezični leksikografski projekt (engl. Multilingual Lexicography Project) Johna Sinclaira, čestotni rječnik 1 Više o fazama leksikografskoga procesa v. u Klosa 2013, Tiberius i Krek 2014; na hrvatskome Štrkalj Despot i Möhrs 2015. 2 Za više detalja v. npr. Dickson 2018. 3 Iscrpni popisi mrežnih rječnika i bibliografskih jedinica koji pripadaju području e-leksikografije jesu npr. OBELEX (http://www.owid.de) te Hartmann (2007). 7 Milana Moguša, Maje Bratanić i Marka Tadića te projekt STRUNA Hrvatske zaklade za znanost i Instituta za hrvatski jezik i jezikoslovlje.4 2. Korpusna revolucija Eri e-rječnika i e-leksikografije prethodila je „korpusna revolucija”, koja se dogodila u posljednjim dvama desetljećima 20. stoljeća i koja je radikalno i trajno izmijenila i leksikografiju, ali i jezikoslovna istraživanja uopće, koja su se, zasigurno ne slučajno, upravo u doba korpusne revolucije okrenula uporabno utemeljenim modelima jezika. Jasno je i da je tradicionalna leksikografija, koja na hrvatskim prostorima ima iznimno dugu, bogatu i plodnu povijest,5 bila utemeljena na golemoj i pomno priređenoj građi (godinama skupljani i pripremani ispisi na karticama), koja je itekako pružala uvid u leksičko bogatstvo i raspon značenja i uporaba (najbolji je dokaz tomu primjerice kapitalni Akademijin rječnik), no tek je suvremeni korpusni pristup doista omogućio uvid u frekvenciju riječi i pojedinih značenja te dubinski uvid u jezik „jer se samo promatranjem velikoga broja pojava iste leksičke jedinice može pouzdano saznavati o njezinu gramatičkom ponašanju, kolokacijskom potencijalu i drugim osobitostima sintagmatske prirode” (Bratanić 1998). Prvi elektronički korpusi poput Brownova korpusa nisu u znatnoj mjeri utjecali na promjenu procesa izrade rječnika vjerojatno zato što je u jednomilijunskome korpusu teško utvrditi statistički značajne pojavnice određenih riječi i postići relevantan sintaktički opis (Hanks 4 Osim u radu u leksikografskim projektima koji će se ovdje prikazati, Maja Bratanić imala je veliku ulogu i u područjima koja su tijesno vezana uz e-leksikografiju ili se na nju naslanjaju, a to su pravno prevođenje i upravljanje informacijama. Iznimno aktivno sudjelovala je u pripremama Hrvatske za pristupanje Europskoj uniji, pa je uz Glosar Sporazuma o stabilizaciji i pridruživanju između Republike Hrvatske i Europskih zajednica i njihovih država članica (2002), koji je priredila s Brankom Tafrom, uredila i Četverojezični rječnik prava Europske unije (2006). Rječnik je donedavno bio dostupan u elektroničkome obliku na poveznici http://norma.hidra.hr/rjecnik/, no trenutačno se može pronaći jedino kao dokument u PDF-u. Upravo je kao plod suradnje s Hrvatskom informacijsko-dokumentacijskom referalnom agencijom (HIDRA) nastala hrvatska inačica Pojmovnika EuroVoc (https://eur-lex.europa.eu/browse/eurovoc.

Pregled Razvoja Hrvatske E-Leksikografije

The Main Features of the E-Glava Online Valency Dictionary

The Workshop Programme

Overabundance in Croatian Dual-Class Verbs FLUMINENSIA, God

Proceedings of the 1St Workshop on Sense, Concept and Entity Representations and Their Applications, Pages 1–11, Valencia, Spain, April 4 2017

Overabundance in Croatian Dual-Class Verbs FLUMINENSIA, God

Book of Abstracts

Hrvatsko Društvo Za Primijenjenu Lingvistiku

446935 1 En Bookbackmatter 267..290

Proceedings of the Workshop on Challenges in the Management of Large Corpora and Big Data and Natural Language Processing (CMLC

Applied Linguistics Perspectives on Reproducible

Alati I Tražilice Za Pretraživanje Korpusa

Knjiga Sažetaka / Book of Abstracts