Porovnanie Dostupných Implementácií XML Databáz

Masarykova univerzita Fakulta informatiky Porovnanie dostupných implementácií XML databáz Bakalárska práca Milan Mozolák Brno, jar 2021 Masarykova univerzita Fakulta informatiky Porovnanie dostupných implementácií XML databáz Bakalárska práca Milan Mozolák Brno, jar 2021 Na tomto mieste sa v tlačenej práci nachádza oficiálne podpísané zadanie práce a vyhlásenie autora školského diela. Vyhlásenie Vyhlasujem, že táto bakalárska práca je mojím pôvodným autorským dielom, ktoré som vypracoval samostatne. Všetky zdroje, pramene a literatúru, ktoré som pri vypracovaní používal alebo z nich čerpal, v práci riadne citujem s uvedením úplného odkazu na príslušný zdroj. Milan Mozolák Vedúci práce: RNDr. Adam Rambousek, Ph.D. i Poďakovanie Ďakujem vedúcemu práce RNDr. Adamovi Rambouskovi, Ph.D. za pomoc a ochotu pri vypracovávaní práce. iii Zhrnutie Cieľom práce je otestovať dostupné implementácie open source XML databáz a vybrať najvhodnejšiu pre potreby Centra spracovania pri- rodzeného jazyka. Databázy budú naplnené slovníkovými dátami a otestované rôznymi typmi dotazov. Práca bude obsahovať popis vy- braných databáz, priebehu testovania a dosiahnutých výsledkov aj s odporúčaním. iv Kľúčové slová XML, XML databázy, Native XML databázy, XML-enabled databázy, eXist, Berkeley DB XML, BaseX, Sedna, PostgreSQL, MySQL v Obsah 1 Úvod 1 2 XML Dokument 3 2.1 Štruktúra XML . .3 2.2 Rozdelenie XML dokumentov . .3 2.2.1 Dokumentovo orientované XML dokumenty . .3 2.2.2 Dátovo orientované XML dokumenty . .4 2.2.3 Hybridné XML dokumenty . .4 2.3 Ukladanie XML dát . .4 2.4 XML dátový model . .4 2.5 Round-tripping . .4 3 XML dáta v databáze 7 3.1 Ukladanie dát . .7 3.1.1 Dokumentové ukladanie XML dát . .7 3.1.2 Dátové ukladanie XML dát . .7 3.2 XML databázy . .7 3.2.1 XML-enabled databázy . .7 3.2.2 Native XML databázy . .7 3.3 Dotazovanie na XML dáta . .8 3.3.1 XPath . .8 3.3.2 XQuery . .8 3.3.3 SQL/XML . .9 3.4 Dostupné databázy . .9 4 Centrum spracovania prirodzeného jazyka 11 4.1 Platforma DEB . 11 4.2 Portál AHISTO . 11 4.3 Slovníkové dáta . 12 5 Testovanie XML databáz 15 5.1 Obecné benchmarky . 15 5.1.1 Aplikačné benchmarky . 15 5.1.2 Micro benchmarky . 16 5.2 Testovanie slovníkových dát . 16 vii 6 Testované databázy 17 6.1 eXist-db . 17 6.2 BaseX . 17 6.3 Berkeley DB XML . 18 6.4 Sedna . 18 6.5 PostgreSQL . 18 6.6 MySQL . 19 7 Testovanie 21 7.1 XMark . 21 7.2 Testy na slovníkové dáta . 22 7.3 Príprava testov . 24 7.4 Testovacie prostredie . 25 7.5 Výsledky . 25 7.5.1 Výsledky XMark . 25 7.5.2 Výsledky slovníkových testov . 27 8 Zhrnutie výsledkov 31 9 Záver 33 Bibliografia 35 viii 1 Úvod Ako množstvo dát vo svete neustále stúpa, vzniká aj väčšia potreba tieto dáta efektívne ukladať. Jednou s najvyužívanejších foriem úlo- žiska dát je formát XML. Je využívaný najmä kvôli jeho vysokej prispô- sobiteľnosti pre konkrétne potreby. Keď už sú dáta uložené vo formáte XML, potrebujeme s nimi vykonávať rôzne operácie a na túto úlohu nám slúžia XML databázy. S XML dátami pracuje aj Centrum spracovania prirodzeného jazyka na Fakulte informatiky Masarykovej univerzity. Toto centrum ukladá veľké množstvo slovníkových dát do XML dokumentov, nad ktorými potrebuje rýchlo a efektívne pracovať. Cieľom tejto práce bude nájsť najvhodnejšiu databázu pre potreby tohto centra. Podobná práca, zameriavajúca sa však iba na časť XML databáz, už bola vypracovaná Martinom Bukatovičom[1] v roku 2010. Druhá kapitola obsahuje prehľad XML štandardu. V tretej kapitole sa venujem prehľadu XML databáz. Vo štvrtej kapitole stručne pred- stavím Centrum spracovania prirodzeného jazyka. V piatej kapitole popisujem ako XML databázy testovať. Šiesta kapitola obsahuje pre- hľad testovaných databáz a v siedmej je popísané samotné testovanie aj s výsledkami a doporučením. 1 2 XML Dokument XML je skratka označenia Extensible Markup Language. XML patrí medzi značkovacie jazyky a umožňuje vytvoriť štruktúru v textovom dokumente a uložiť ju do XML súboru. Tento súbor obsahuje dáta zapísané pomocou predom definovaných značiek, ktoré umožňujú ľahkú orientáciu pre čitateľa a vytvárajú určitú hierarchiu v dokumente. Cieľom tohto formátu bolo vytvoriť ľahký spôsob komunikácie pre ľudí a stroje cez internet. 2.1 Štruktúra XML Jazyk XML má zadefinované pravidlá, ktoré musia byť presne dodr- žiavané. Medzi tieto pravidlá patria napríklad úvodný element obsa- hujúci verziu a kódovanie, nutnosť každého elementu mať otváraciu a zatváraciu značku a iné. Dovoľuje ale zvoliť ľubovoľné názvy značiek. Dokumenty vytvorené pri dodržaní všetkých pravidiel sa nazývajú well-formed [2]. XML takisto dovoľuje vytvárať vlastné šablóny, podľa ktorých sa môžu XML dokumenty tvoriť. Dokument, ktorý zároveň dodržuje aj šablónu, sa označuje ako validný. 2.2 Rozdelenie XML dokumentov XML dokumenty môžeme podľa obsahu rozdeliť na dokumentovo orientované, dátovo orientované a hybridné [3]. 2.2.1 Dokumentovo orientované XML dokumenty Tieto dokumenty sú zväčša tvorené človekom, nemajú pravidelnú štruktúru, sú menej členité a obsahujú komentáre a elementy so zmie- šaným obsahom. Tieto elementy sú tvorené kombináciou textu a ďal- ších vnorených značiek. 3 2. XML Dokument 2.2.2 Dátovo orientované XML dokumenty Na rozdiel od dokumentovo orientovaných, dátovo orientované sú tvorené automaticky strojom, ich obsah má pravidelnú vnútornú štruk- túru a sú určené predovšetkým na automatické spracovanie. 2.2.3 Hybridné XML dokumenty Niekedy sa nedá dokument presne zaradiť ani do jednej z predošlých dvoch kategórií. Dátovo orientované dokumenty môžu obsahovať rôzne nepravidelné časti a dokumentovo orientované naopak pravi- delné. Tieto dokumenty označujeme ako hybridné. 2.3 Ukladanie XML dát XML dokument môžeme sám o sebe považovať ako databázu, keďže štruktúrovane ukladá dáta a vieme ich v ňom spätne nájsť a zmeniť. Má takisto vlastný dotazovací jazyk XPath [4] a XQuery [5]. Oproti iným databázam má ale problém, že nemá implementované rôzne iné vlastnosti, ktoré sú pre ne úplne bežné. Príkladom je napríklad tvorba indexov, bezpečnosť, konkurenčný prístup a iné. Preto ak chceme ukladať väčšie množstvo XML dát, je dobré zvoliť si niektorú XML databázu. 2.4 XML dátový model Aby sme s XML dátami mohli efektívne pracovať musíme dokument, ktorý je uložený v textovej podobe XML, prekonvertovať na štruktúru dát – dátový model. Tento dátový model môžeme mať následne ulo- žený v databáze alebo ho mať uložený v pamäti a vykonávať všetky požadované operácie nad ním. 2.5 Round-tripping Keďže musíme dáta najskôr prekonvertovať na dátový model skôr ako budeme pracovať s XML dátami a rovnako aj v opačnom prípade pri ich spätnom ukladaní ich konvertovať naspäť na XML dokument, 4 2. XML Dokument vzniká nám tzv. round-tripping [6]. Ten uvádza mieru, ako veľmi sa počiatočný dokument podobá na ten výsledný po vykonaní jednej takejto konverzie. 5 3 XML dáta v databáze 3.1 Ukladanie dát Keďže rôzne typy XML dokumentov podľa rozdelenia obsahu slúžia na rôzne funkcie, potrebujeme využiť iný spôsob na ich ukladanie. 3.1.1 Dokumentové ukladanie XML dát Pri dokumentovo orientovaných XML dokumentoch je dôležité zacho- vať vysokú úroveň round-tripping, teda aby bol počiatočný a výsledný dokument čo najpodobnejší. Je nutnosť zachovať poradie elementov, metadáta, komentáre a rôzne iné údaje. 3.1.2 Dátové ukladanie XML dát Pri tomto spôsobe ukladania sú dôležité iba samotné dáta, nie poradie elementov, komentáre a niektoré ďalšie dáta. Tie nie sú pre strojové spracovanie dôležité a teda ich model nemusí obsahovať. Pri tomto spracovaní je úroveň round-tripping nízka. 3.2 XML databázy Podľa spôsobu uloženia samotného XML dokumentu v databáze roz- lišujeme dva hlavné typy databáz, XML-enabled a Native XML [7]. 3.2.1 XML-enabled databázy Za takéto databázy sa považujú relačné databázy s podporou jazyka XML. Tieto databázy mapujú XML dokument do riadkov a stĺpcov v tabuľkách, ktoré už majú požadované vlastnosti databázy, ako na- príklad indexovanie alebo priamo obsahujú dátový typ XML. 3.2.2 Native XML databázy Tieto databázy priamo pracujú s XML dokumentami a nepotrebujú žiadne mapovanie ako XML-enabled databázy. Vďaka tomu sú dobrou voľbou pre ukladanie dokumentovo orientovaných XML dokumentov. 7 3. XML dáta v databáze 3.3 Dotazovanie na XML dáta Pre prácu s XML dátami existuje niekoľko možností. Môžeme využiť rôzne šablóny, ktoré ale nemajú definovaný žiaden štandard, a preto sa ich implementácia môže veľmi líšiť medzi produktami. Ďalšou z možností je pridanie podpory pre XML dokumenty do jazyka SQL. Najrozšírenejší je štandard SQL/XML. Poslednou z možností je využiť jazyky určené priamo pre prácu s XML dátami ako sú XPath a XQuery. 3.3.1 XPath XPath je dotazovací jazyk nad XML dokumentami navrhnutý konzor- ciom W3C v roku 1999. Umožňuje vyberať elementy, ale aj spočítavať hodnoty podľa obsahu dokumentu. Pracuje podľa ciest v XML strome, v ktorom hľadá výrazy podľa stanovených kritérií. Má niekoľko verzií, najnovšia je 3.1 odporúčaná od roku 2017 avšak najpoužívanejšia naďa- lej zostáva pôvodná 1.0 z roku 1999. Z verzie 2.0 sa vyvinul pokročilejší jazyk XQuery. 3.3.2 XQuery Dotazovací jazyk XQuery bol inšpirovaný jazykom Quilt. V čase vy- pracovania tejto práce je vo verzii 3.1 a je najrozšírenejším dotazovacím jazykom nad XML dátami. Jeho cieľom je jednoduchý, ľahko pochopi- teľný jazyk, ktorý by fungoval nad dokumentami ale aj databázami. XQuery pracuje nad abstraktnou logickou štruktúrou dokumentu nazývanou data model[8]. XQuery výraz sa skladá z blokov „FLWOR“, ktoré sú podobné výrazom v jazyku SQL. Výrazy „FLWOR“ je možné vkladať samé do seba a vytvárať takto zanorenie. „FLWOR“ je skratka kľúčových slov použitých vo výraze for, let, where, order by a return. Každý výraz musí povinne obsahovať blok return a aspoň jeden z for a let. Ostatné bloky výrazu sú voliteľné. Funkcia jednotlivých blokov je nasledovná: • for a let - tieto bloky vyhľadajú a naviažu dáta v dokumente na premennú a postupne cyklia cez všetky nájdené hodnoty 8 3. XML dáta v databáze • where - pomocou logických výrazov vyfiltruje nevyhovujúce elementy • order by - zoradí elementy do požadovaného poradia • return - posledný krok výrazu, v ktorom sa elementy vrátené výrazom dávajú do ich finálnej formy Jadro jazyka XQuery obsahuje iba podporu pre vyhľadávanie.

Porovnanie Dostupných Implementácií XML Databáz

LIST of NOSQL DATABASES [Currently 150]

XML Prague 2015

Storage Solutions for Big Data Systems: a Qualitative Study and Comparison

Implementation of Portable Expath Extension Functions

Contents History Types and Examples of Nosql Databases

Bivariate, Cluster and Suitability Analysis of Nosql Solutions for Different Application Areas