Zpracov´Anı Dokument ˚U V Distribuovan´Em Prostredı

Zpracov´Anı Dokument ˚U V Distribuovan´Em Prostredı

MASARYKOVA UNIVERZITA F}w¡¢£¤¥¦§¨ AKULTA INFORMATIKY !"#$%&'()+,-./012345<yA| Zpracov´an´ıdokument ˚u v distribuovan´emprostˇred´ı DIPLOMOVA´ PRACE´ Bc. Jan Mudr´ak Brno, 2010 Prohl´aˇsen´ı Prohlasuji,ˇ zeˇ tato diplomova´ prace´ je mym´ puvodn˚ ´ım autorskym´ d´ılem, ktere´ jsem vypra- coval samostatne.ˇ Vsechnyˇ zdroje, prameny a literaturu, ktere´ jsem priˇ vypracovan´ ´ı pouzˇ´ıval nebo z nich cerpal,ˇ v praci´ rˇadn´ eˇ cituji s uveden´ım upln´ eho´ odkazu na prˇ´ıslusnˇ y´ zdroj. Vedouc´ıpr´ace: doc. RNDr. Toma´sˇ Pitner, Ph.D. ii Shrnut´ı Tato prace´ se zameˇrujeˇ na spravu´ dokumentu˚ v distribuovanem´ prostredˇ ´ı podnikovych´ system´ u.˚ Cˇ aste´ cnˇ eˇ navazuje na autorovu predchozˇ ´ı praci´ [3] a doplnujeˇ take´ poznatky [2]. Prostor je venovˇ an´ predevˇ sˇ´ım architekturam´ podnikovych´ system´ u˚ pro spravu´ informac´ı, ktere´ prestˇ avaj´ ´ı vyhovovat naro´ cnˇ ym´ pozadavkˇ um˚ na integraci. V ramci´ prace´ je navrzenoˇ zlepsenˇ ´ı jejich struktury za pomoci konceptu ESB. Zivotaschopnostˇ tohoto reˇ senˇ ´ı je oveˇrenaˇ na implementaci systemu´ ASCMS. Cˇ ast´ teto´ prace´ se take´ zabyv´ a´ moznostmiˇ vyteˇzovˇ an´ ´ı dat z dokumentu˚ a jejich nasledn´ ym´ zpracovan´ ´ım. Venujeˇ se transformaci format´ u˚ zalozenˇ ych´ na aplikaci OpenOffice.org a take´ XML databaz´ ´ım. Vysledkem´ je dvojice knihoven pro praci´ s temitoˇ nastroji.´ iii Podˇekov´an´ı Dekujiˇ doc. RNDr. Toma´siˇ Pitnerovi, Ph.D. za pripomˇ ´ınky k teto´ praci´ a cenne´ rady. Dale´ dekujiˇ kazdˇ emu,´ kdo se pod´ılel na korektureˇ prace.´ iv Kl´ıˇcov´aslova dokument, sprava,´ transformace, OpenOffice.org, databaze,´ proces, BPEL, ECM, ESB, JBI, SOA, FileNet, Documentum v Obsah Uvod´ ............................................... 3 1 Enterprise Content Management (ECM) ........................ 4 1.1 Vlastnosti ECM .................................... 4 1.1.1 Vyteˇzovˇ an´ ´ı obsahu (Capture) ........................ 5 1.1.2 Ulozenˇ ´ı obsahu (Store) ............................ 5 1.1.3 Uchovan´ ´ı obsahu (Preserve) ......................... 5 1.1.4 Distribuce (Delivery, Output Management) ................ 6 1.1.5 Sprava´ (Manage) ............................... 6 1.2 ECMS a integrace ................................... 7 1.3 Architektury soucasnˇ ych´ ECMS ........................... 8 1.4 Pozadavkyˇ na soucasnˇ e´ ECMS ........................... 10 2 Technologie pro vybudov´an´ıinfrastruktury ...................... 13 2.1 Servisneˇ orientovana´ architektura .......................... 13 2.2 Java Business Integration ............................... 14 2.2.1 Komponenty systemu´ ............................ 16 2.2.2 Rozhran´ı sluzebˇ ................................ 17 2.2.3 Smerovˇ an´ ´ı zprav´ ............................... 17 2.2.4 Komunikacnˇ ´ı sberniceˇ a podoba zprav´ .................. 18 2.3 Apache ServiceMix .................................. 19 2.3.1 Nevyhody´ ASM ................................ 19 2.3.2 Orchestrace sluzebˇ v ASM .......................... 20 3 XML datab´aze ........................................ 24 3.1 Zpusoby˚ ulozenˇ ´ı XML ................................ 25 3.2 Rozhran´ı ........................................ 25 3.3 Dotazovac´ı jazyky ................................... 26 3.4 Shrnut´ı vlastnost´ı ................................... 27 4 ASCMS a n´astrojepro pr´acis dokumenty ....................... 28 4.1 OpenOffice a knihovna OO2ASCMS ........................ 28 4.1.1 Transformace format´ u˚ kancela´rskˇ ych´ dokumentu˚ ............ 28 4.1.2 ASCMS2OO .................................. 28 4.2 Knihovna dbXMLTL (Database XML Tag Library) ................ 30 4.3 ASCMS ......................................... 32 4.3.1 Analyza´ pozadavkˇ u˚ a navrh´ systemu´ ................... 32 4.3.2 Implementace ................................. 37 5 Z´avˇer ............................................. 42 Literatura ............................................. 42 A Instalace ASCMS ...................................... 45 A.1 Pozadavkyˇ na extern´ı prostredˇ ´ı ........................... 45 A.1.1 OpenOffice.org 3.0 .............................. 45 1 A.1.2 Tomcat ..................................... 46 A.1.3 Apache ODE 2.0Beta ............................. 46 A.1.4 Knihovny ................................... 47 A.1.5 Kompilace projektu .............................. 47 B dbXMLTL .......................................... 48 C Obsah pˇrilozen´ehoCDˇ .................................. 53 D Uzivatelsk´apˇr´ıruˇckaˇ .................................... 54 2 Uvod´ Efektivn´ı sprava´ informac´ı je obecnym´ tematem,´ ktere´ se objevuje v mnoha oblastech IT. At’ uzˇ se jedna´ o e-learningove´ systemy´ ciˇ systemy´ pro spravu´ informac´ı, vsudeˇ je nutne´ zajistit, aby usil´ ´ı vynalozenˇ e´ priˇ tvorbeˇ obsahu nepriˇ sloˇ vnivec,ˇ a informace tak splnila svuj˚ u´ cel.ˇ Toto tema´ je moznˇ e´ povazovatˇ za aktualn´ ´ı vzhledem k tomu, zeˇ v roce 2009 mohli obcanˇ e´ Ceskˇ e´ republiky postrehnoutˇ celou raduˇ zmenˇ ve zpusobu˚ komunikace s u´ rady.ˇ Objevily se takove´ pojmy jako Czech POINT (Ceskˇ y´ Podac´ı Oveˇrovacˇ ´ı Informacnˇ ´ı Narodn´ ´ı Terminal)´ nebo datova´ schranka.´ D´ıky zaveden´ı autorizovane´ konverze dosloˇ ke zrovnopravn´ enˇ ´ı elek- tronicke´ a pap´ırove´ podoby dokumentu,˚ cˇ´ımzˇ vznikla nova´ vlna pozadavkˇ u˚ na podnikove´ systemy.´ S postupnym´ rustem˚ poctuˇ technologi´ı, ktere´ zasahuj´ı do podnikovych´ procesu,˚ prestˇ avaj´ ´ı architektury soucasnˇ ych´ system´ u˚ vyhovovat naro´ cnˇ ym´ pozadavkˇ um˚ na integraci. To se tyk´ a´ predevˇ sˇ´ım system´ u˚ pro spravu´ podnikovych´ informac´ı, u nichzˇ je integrace jednou ze zakladn´ ´ıch funkc´ı. Prav´ eˇ podnikove´ systemy´ pro spravu´ informac´ı predstavujˇ ´ı hlavn´ı tema´ teto´ prace.´ Je popsana´ jejich funkce i struktura. To vseˇ za u´ celemˇ splnenˇ ´ı hlavn´ıho c´ıle – nalezen´ı archi- tektury, ktera´ by obstala´ v novych´ podm´ınkach.´ Tato architektura je nasledn´ eˇ uplatnenaˇ priˇ navrhu´ a implementaci jednoducheho´ systemu´ pro spravu´ informac´ı. Spolu s t´ımto tematem´ je nastoleno i tema´ obecneho´ zpracovan´ ´ı dokumentu.˚ Predevˇ sˇ´ım jsou zm´ınenyˇ XML databaze´ jako prirozenˇ a´ ulo´ ziˇ stˇ eˇ dokumentu˚ a aplikace OpenOffice.org jako open source nastroj´ pro transformaci proprietarn´ ´ıch format´ u.˚ Vysledkem´ teto´ cˇasti´ prace´ je dvojice knihoven ASCMS2OO a dbXMTL. Rozdˇelen´ıkapitol Prvn´ı kapitola se zabyv´ a´ samotnym´ pojmem ECM i systemy,´ ktere´ se na tuto oblast IT zameˇrujˇ ´ı. Je zde popsana´ predevˇ sˇ´ım jejich architektura a moznostiˇ pro jej´ı zlepsenˇ ´ı. Druh´akapitola se venujeˇ tematu´ servisneˇ orientovanych´ architektur, technologii JBI a zpusob˚ um˚ integrace podnikovych´ aplikac´ı. Tˇret´ıkapitola popisuje problematiku nativn´ıch XML databaz´ ´ı jako prirozenˇ ych´ ulo´ ziˇ stˇ ’ pro dokumenty. Ctvrt´akapitolaˇ predstavujeˇ nastroje´ vyvinute´ pro praci´ s dokumenty. Dale´ je zde uveden navrh´ a zpusob˚ implementace systemu´ ASCMS zalozenˇ eho´ na uvedenych´ nastroj´ ´ıch. Z´avˇereˇcn´ap´at´akapitola shrnuje uvedene´ poznatky a zamy´slˇ ´ı se nad dalsˇ´ım vyuzitˇ ´ım systemu´ ASCMS. Pˇr´ılohaA popisuje instalaci systemu´ ASCMS. Pˇr´ılohaB uvad´ ´ı soupis tagu˚ pouzitelnˇ ych´ v ramci´ knihovny dbXMLTL pro komunikaci s nativn´ımi XML databazemi.´ V pˇr´ılozeC lze naleznout popis obsahu priloˇ zenˇ eho´ CD. Pˇr´ılohaD obsahuje uzivatelskouˇ prˇ´ıruckuˇ k systemu´ ASCMS. 3 Kapitola 1 Enterprise Content Management (ECM) Jak uzˇ nazev´ kapitoly napov´ıda,´ je venovˇ ana´ sprav´ eˇ informac´ı v podnikovem´ prostredˇ ´ı. Je- likozˇ ECM je castoˇ vyuzˇ´ıvany´ pojem, ktery´ mu˚ zeˇ m´ıt v ruzn˚ ych´ kontextech ruznou˚ seman-´ tiku, je vhodne´ jej nejdrˇ´ıve definovat. Nejcastˇ ejiˇ je citovana´ definice komunity AIIM (Asso- ciation for Information and Image Management) [17]: ECM zahrnuje strategie, metody a n´astroje pouˇzit´ek z´ısk´an´ı,uloˇzen´ı,uchov´an´ı,spr´avˇe obsahu a dokument˚uspjat´ychs procesy spoleˇcnosti.ECM strategie a n´astroje umoˇzˇnuj´ı spr´avunestrukturovan´ehoobsahu, at’ uˇzje uloˇzenkdekoliv. Nestrukturovanym´ obsahem se v teto´ definici m´ın´ı dokumentoveˇ orientovana´ data, ktera´ nen´ı moznˇ e´ ulozitˇ v relacnˇ ´ı databazi.´ Jedna´ se o nepresnˇ y,´ avsakˇ castoˇ vyuzˇ´ıvany´ term´ın. Rozlisovatˇ strukturovana´ data od nestrukturovanych“´ je dule˚ zitˇ e,´ protozeˇ narozd´ıl od struk- ” turovanych´ dat, roste nestrukturovany´ obsah exponencialn´ ´ı rychlost´ı (podle [13]). 1.1 Vlastnosti ECM Uvedena´ definice v sobeˇ zahrnuje petˇ oblast´ı, ktere´ je moznˇ e´ u ECMS hodnotit: vyteˇzovˇ an´ ´ı, ulozenˇ ´ı, uchovan´ ´ı, spravu´ a distribuci obsahu. Model zalozenˇ y´ na techtoˇ komponentach“´ 1 ” je moznˇ e´ videtˇ na obrazku´ 1.1. Store Deliver Manage Capture Preserve Obrazek´ 1.1: Funkce ECM Kromeˇ pojmu ECM se v souvislosti se spravou´ obsahu vyskytuje mnoho dalsˇ´ıch term´ınu:˚ 1. Nejedna´ se o komponenty systemu´ v pravem´ slova smyslu, ale sp´ıseˇ o kategorie poskytovanych´ funkc´ı. Realn´ eˇ mu˚ zeˇ byt´ kazdˇ a´ z oblast´ı rozprostrenaˇ do celeho´ systemu.´ 4 1. ENTERPRISE CONTENT MANAGEMENT (ECM) Content Management System (CMS) – softwarovy´ nastroj´ pro tvorbu, editaci a spravu´ ob- sahu. Obecneˇ se nemus´ı jednat o podnikovy´ system,´ ackolivˇ tak v prostredˇ ´ı malych´ a strednˇ eˇ velkych´ organizac´ı mu˚ zeˇ vystupovat. Enterprise Content Management System (ECMS) – Podnikovy´ system´ pro spravu´ infor- mac´ı je softwarovy´ produkt vyvinuty´ za u´ celemˇ spravy´ informac´ı v prostredˇ ´ı vetˇ sˇ´ı spolecnostiˇ a dosazenˇ ´ı c´ıle ECM. Document Management System (DMS) –

View Full Text

Details

  • File Type
    pdf
  • Upload Time
    -
  • Content Languages
    English
  • Upload User
    Anonymous/Not logged-in
  • File Pages
    63 Page
  • File Size
    -

Download

Channel Download Status
Express Download Enable

Copyright

We respect the copyrights and intellectual property rights of all users. All uploaded documents are either original works of the uploader or authorized works of the rightful owners.

  • Not to be reproduced or distributed without explicit permission.
  • Not used for commercial purposes outside of approved use cases.
  • Not used to infringe on the rights of the original creators.
  • If you believe any content infringes your copyright, please contact us immediately.

Support

For help with questions, suggestions, or problems, please contact us