Zpracov´Anı Dokument ˚U V Distribuovan´Em Prostredı
Total Page:16
File Type:pdf, Size:1020Kb
MASARYKOVA UNIVERZITA F}w¡¢£¤¥¦§¨ AKULTA INFORMATIKY !"#$%&'()+,-./012345<yA| Zpracov´an´ıdokument ˚u v distribuovan´emprostˇred´ı DIPLOMOVA´ PRACE´ Bc. Jan Mudr´ak Brno, 2010 Prohl´aˇsen´ı Prohlasuji,ˇ zeˇ tato diplomova´ prace´ je mym´ puvodn˚ ´ım autorskym´ d´ılem, ktere´ jsem vypra- coval samostatne.ˇ Vsechnyˇ zdroje, prameny a literaturu, ktere´ jsem priˇ vypracovan´ ´ı pouzˇ´ıval nebo z nich cerpal,ˇ v praci´ rˇadn´ eˇ cituji s uveden´ım upln´ eho´ odkazu na prˇ´ıslusnˇ y´ zdroj. Vedouc´ıpr´ace: doc. RNDr. Toma´sˇ Pitner, Ph.D. ii Shrnut´ı Tato prace´ se zameˇrujeˇ na spravu´ dokumentu˚ v distribuovanem´ prostredˇ ´ı podnikovych´ system´ u.˚ Cˇ aste´ cnˇ eˇ navazuje na autorovu predchozˇ ´ı praci´ [3] a doplnujeˇ take´ poznatky [2]. Prostor je venovˇ an´ predevˇ sˇ´ım architekturam´ podnikovych´ system´ u˚ pro spravu´ informac´ı, ktere´ prestˇ avaj´ ´ı vyhovovat naro´ cnˇ ym´ pozadavkˇ um˚ na integraci. V ramci´ prace´ je navrzenoˇ zlepsenˇ ´ı jejich struktury za pomoci konceptu ESB. Zivotaschopnostˇ tohoto reˇ senˇ ´ı je oveˇrenaˇ na implementaci systemu´ ASCMS. Cˇ ast´ teto´ prace´ se take´ zabyv´ a´ moznostmiˇ vyteˇzovˇ an´ ´ı dat z dokumentu˚ a jejich nasledn´ ym´ zpracovan´ ´ım. Venujeˇ se transformaci format´ u˚ zalozenˇ ych´ na aplikaci OpenOffice.org a take´ XML databaz´ ´ım. Vysledkem´ je dvojice knihoven pro praci´ s temitoˇ nastroji.´ iii Podˇekov´an´ı Dekujiˇ doc. RNDr. Toma´siˇ Pitnerovi, Ph.D. za pripomˇ ´ınky k teto´ praci´ a cenne´ rady. Dale´ dekujiˇ kazdˇ emu,´ kdo se pod´ılel na korektureˇ prace.´ iv Kl´ıˇcov´aslova dokument, sprava,´ transformace, OpenOffice.org, databaze,´ proces, BPEL, ECM, ESB, JBI, SOA, FileNet, Documentum v Obsah Uvod´ ............................................... 3 1 Enterprise Content Management (ECM) ........................ 4 1.1 Vlastnosti ECM .................................... 4 1.1.1 Vyteˇzovˇ an´ ´ı obsahu (Capture) ........................ 5 1.1.2 Ulozenˇ ´ı obsahu (Store) ............................ 5 1.1.3 Uchovan´ ´ı obsahu (Preserve) ......................... 5 1.1.4 Distribuce (Delivery, Output Management) ................ 6 1.1.5 Sprava´ (Manage) ............................... 6 1.2 ECMS a integrace ................................... 7 1.3 Architektury soucasnˇ ych´ ECMS ........................... 8 1.4 Pozadavkyˇ na soucasnˇ e´ ECMS ........................... 10 2 Technologie pro vybudov´an´ıinfrastruktury ...................... 13 2.1 Servisneˇ orientovana´ architektura .......................... 13 2.2 Java Business Integration ............................... 14 2.2.1 Komponenty systemu´ ............................ 16 2.2.2 Rozhran´ı sluzebˇ ................................ 17 2.2.3 Smerovˇ an´ ´ı zprav´ ............................... 17 2.2.4 Komunikacnˇ ´ı sberniceˇ a podoba zprav´ .................. 18 2.3 Apache ServiceMix .................................. 19 2.3.1 Nevyhody´ ASM ................................ 19 2.3.2 Orchestrace sluzebˇ v ASM .......................... 20 3 XML datab´aze ........................................ 24 3.1 Zpusoby˚ ulozenˇ ´ı XML ................................ 25 3.2 Rozhran´ı ........................................ 25 3.3 Dotazovac´ı jazyky ................................... 26 3.4 Shrnut´ı vlastnost´ı ................................... 27 4 ASCMS a n´astrojepro pr´acis dokumenty ....................... 28 4.1 OpenOffice a knihovna OO2ASCMS ........................ 28 4.1.1 Transformace format´ u˚ kancela´rskˇ ych´ dokumentu˚ ............ 28 4.1.2 ASCMS2OO .................................. 28 4.2 Knihovna dbXMLTL (Database XML Tag Library) ................ 30 4.3 ASCMS ......................................... 32 4.3.1 Analyza´ pozadavkˇ u˚ a navrh´ systemu´ ................... 32 4.3.2 Implementace ................................. 37 5 Z´avˇer ............................................. 42 Literatura ............................................. 42 A Instalace ASCMS ...................................... 45 A.1 Pozadavkyˇ na extern´ı prostredˇ ´ı ........................... 45 A.1.1 OpenOffice.org 3.0 .............................. 45 1 A.1.2 Tomcat ..................................... 46 A.1.3 Apache ODE 2.0Beta ............................. 46 A.1.4 Knihovny ................................... 47 A.1.5 Kompilace projektu .............................. 47 B dbXMLTL .......................................... 48 C Obsah pˇrilozen´ehoCDˇ .................................. 53 D Uzivatelsk´apˇr´ıruˇckaˇ .................................... 54 2 Uvod´ Efektivn´ı sprava´ informac´ı je obecnym´ tematem,´ ktere´ se objevuje v mnoha oblastech IT. At’ uzˇ se jedna´ o e-learningove´ systemy´ ciˇ systemy´ pro spravu´ informac´ı, vsudeˇ je nutne´ zajistit, aby usil´ ´ı vynalozenˇ e´ priˇ tvorbeˇ obsahu nepriˇ sloˇ vnivec,ˇ a informace tak splnila svuj˚ u´ cel.ˇ Toto tema´ je moznˇ e´ povazovatˇ za aktualn´ ´ı vzhledem k tomu, zeˇ v roce 2009 mohli obcanˇ e´ Ceskˇ e´ republiky postrehnoutˇ celou raduˇ zmenˇ ve zpusobu˚ komunikace s u´ rady.ˇ Objevily se takove´ pojmy jako Czech POINT (Ceskˇ y´ Podac´ı Oveˇrovacˇ ´ı Informacnˇ ´ı Narodn´ ´ı Terminal)´ nebo datova´ schranka.´ D´ıky zaveden´ı autorizovane´ konverze dosloˇ ke zrovnopravn´ enˇ ´ı elek- tronicke´ a pap´ırove´ podoby dokumentu,˚ cˇ´ımzˇ vznikla nova´ vlna pozadavkˇ u˚ na podnikove´ systemy.´ S postupnym´ rustem˚ poctuˇ technologi´ı, ktere´ zasahuj´ı do podnikovych´ procesu,˚ prestˇ avaj´ ´ı architektury soucasnˇ ych´ system´ u˚ vyhovovat naro´ cnˇ ym´ pozadavkˇ um˚ na integraci. To se tyk´ a´ predevˇ sˇ´ım system´ u˚ pro spravu´ podnikovych´ informac´ı, u nichzˇ je integrace jednou ze zakladn´ ´ıch funkc´ı. Prav´ eˇ podnikove´ systemy´ pro spravu´ informac´ı predstavujˇ ´ı hlavn´ı tema´ teto´ prace.´ Je popsana´ jejich funkce i struktura. To vseˇ za u´ celemˇ splnenˇ ´ı hlavn´ıho c´ıle – nalezen´ı archi- tektury, ktera´ by obstala´ v novych´ podm´ınkach.´ Tato architektura je nasledn´ eˇ uplatnenaˇ priˇ navrhu´ a implementaci jednoducheho´ systemu´ pro spravu´ informac´ı. Spolu s t´ımto tematem´ je nastoleno i tema´ obecneho´ zpracovan´ ´ı dokumentu.˚ Predevˇ sˇ´ım jsou zm´ınenyˇ XML databaze´ jako prirozenˇ a´ ulo´ ziˇ stˇ eˇ dokumentu˚ a aplikace OpenOffice.org jako open source nastroj´ pro transformaci proprietarn´ ´ıch format´ u.˚ Vysledkem´ teto´ cˇasti´ prace´ je dvojice knihoven ASCMS2OO a dbXMTL. Rozdˇelen´ıkapitol Prvn´ı kapitola se zabyv´ a´ samotnym´ pojmem ECM i systemy,´ ktere´ se na tuto oblast IT zameˇrujˇ ´ı. Je zde popsana´ predevˇ sˇ´ım jejich architektura a moznostiˇ pro jej´ı zlepsenˇ ´ı. Druh´akapitola se venujeˇ tematu´ servisneˇ orientovanych´ architektur, technologii JBI a zpusob˚ um˚ integrace podnikovych´ aplikac´ı. Tˇret´ıkapitola popisuje problematiku nativn´ıch XML databaz´ ´ı jako prirozenˇ ych´ ulo´ ziˇ stˇ ’ pro dokumenty. Ctvrt´akapitolaˇ predstavujeˇ nastroje´ vyvinute´ pro praci´ s dokumenty. Dale´ je zde uveden navrh´ a zpusob˚ implementace systemu´ ASCMS zalozenˇ eho´ na uvedenych´ nastroj´ ´ıch. Z´avˇereˇcn´ap´at´akapitola shrnuje uvedene´ poznatky a zamy´slˇ ´ı se nad dalsˇ´ım vyuzitˇ ´ım systemu´ ASCMS. Pˇr´ılohaA popisuje instalaci systemu´ ASCMS. Pˇr´ılohaB uvad´ ´ı soupis tagu˚ pouzitelnˇ ych´ v ramci´ knihovny dbXMLTL pro komunikaci s nativn´ımi XML databazemi.´ V pˇr´ılozeC lze naleznout popis obsahu priloˇ zenˇ eho´ CD. Pˇr´ılohaD obsahuje uzivatelskouˇ prˇ´ıruckuˇ k systemu´ ASCMS. 3 Kapitola 1 Enterprise Content Management (ECM) Jak uzˇ nazev´ kapitoly napov´ıda,´ je venovˇ ana´ sprav´ eˇ informac´ı v podnikovem´ prostredˇ ´ı. Je- likozˇ ECM je castoˇ vyuzˇ´ıvany´ pojem, ktery´ mu˚ zeˇ m´ıt v ruzn˚ ych´ kontextech ruznou˚ seman-´ tiku, je vhodne´ jej nejdrˇ´ıve definovat. Nejcastˇ ejiˇ je citovana´ definice komunity AIIM (Asso- ciation for Information and Image Management) [17]: ECM zahrnuje strategie, metody a n´astroje pouˇzit´ek z´ısk´an´ı,uloˇzen´ı,uchov´an´ı,spr´avˇe obsahu a dokument˚uspjat´ychs procesy spoleˇcnosti.ECM strategie a n´astroje umoˇzˇnuj´ı spr´avunestrukturovan´ehoobsahu, at’ uˇzje uloˇzenkdekoliv. Nestrukturovanym´ obsahem se v teto´ definici m´ın´ı dokumentoveˇ orientovana´ data, ktera´ nen´ı moznˇ e´ ulozitˇ v relacnˇ ´ı databazi.´ Jedna´ se o nepresnˇ y,´ avsakˇ castoˇ vyuzˇ´ıvany´ term´ın. Rozlisovatˇ strukturovana´ data od nestrukturovanych“´ je dule˚ zitˇ e,´ protozeˇ narozd´ıl od struk- ” turovanych´ dat, roste nestrukturovany´ obsah exponencialn´ ´ı rychlost´ı (podle [13]). 1.1 Vlastnosti ECM Uvedena´ definice v sobeˇ zahrnuje petˇ oblast´ı, ktere´ je moznˇ e´ u ECMS hodnotit: vyteˇzovˇ an´ ´ı, ulozenˇ ´ı, uchovan´ ´ı, spravu´ a distribuci obsahu. Model zalozenˇ y´ na techtoˇ komponentach“´ 1 ” je moznˇ e´ videtˇ na obrazku´ 1.1. Store Deliver Manage Capture Preserve Obrazek´ 1.1: Funkce ECM Kromeˇ pojmu ECM se v souvislosti se spravou´ obsahu vyskytuje mnoho dalsˇ´ıch term´ınu:˚ 1. Nejedna´ se o komponenty systemu´ v pravem´ slova smyslu, ale sp´ıseˇ o kategorie poskytovanych´ funkc´ı. Realn´ eˇ mu˚ zeˇ byt´ kazdˇ a´ z oblast´ı rozprostrenaˇ do celeho´ systemu.´ 4 1. ENTERPRISE CONTENT MANAGEMENT (ECM) Content Management System (CMS) – softwarovy´ nastroj´ pro tvorbu, editaci a spravu´ ob- sahu. Obecneˇ se nemus´ı jednat o podnikovy´ system,´ ackolivˇ tak v prostredˇ ´ı malych´ a strednˇ eˇ velkych´ organizac´ı mu˚ zeˇ vystupovat. Enterprise Content Management System (ECMS) – Podnikovy´ system´ pro spravu´ infor- mac´ı je softwarovy´ produkt vyvinuty´ za u´ celemˇ spravy´ informac´ı v prostredˇ ´ı vetˇ sˇ´ı spolecnostiˇ a dosazenˇ ´ı c´ıle ECM. Document Management System (DMS) –