Extensible Metadata Repository for Information Systems by Pedro Honrado Rio Pereira

Universidade Nova de Lisboa Faculdade de Ciências e Tecnologia Department of Computer Science Extensible Metadata Repository for Information Systems by Pedro Honrado Rio Pereira Thesis submitted to Faculdade de Ciências e Tecnologia of the Universidade Nova de Lisboa, in partial fulfillment of the requirements for the degree of Master in Computer Science Supervisor: PhD João Moura Pires Lisbon 2009 Resumo Sistemas de informação são, muitas vezes, sistemas com uma componente de integração de informação muito forte. Alguns desses sistemas recorrem a soluções de integração fazendo uso de metainformação (informação que descreve informação). É necessário lidar com essa metainformação e geri-la do mesmo modo que se faz com informação “normal”, para tal a existência de um repositório de metadados que garanta o armazenamento, integridade, validade e facilite os mecanismo de integração do sistema de informação é uma escolha lógica. Existem vários repositórios disponíveis no mercado, mas nenhum virado para as exigências dos sistemas de informação, genérico o suficiente e com as características de integração necessárias. No projecto SESS, da agência espacial europeia (ESA), foi desenvolvido um repositório de metadados genérico, baseado em tecnologias XML. Esse repositório proporcionava mecanismos de integridade, validade, armazenamento, partilha, publicação, importação, integração de sistemas e de dados, mas obrigava à utilização de regras sintácticas fixas, colocadas dentro dos documentos XML, o que dificultava a integração de documentos de fontes externas. Nesta tese desenvolveu-se um repositório de metadados, com base em tecnologias XML, que proporciona os mesmos mecanismos de armazenamento, integridade, validade, etc, mas que tem em atenção a capacidade de integrar, de forma fácil, metainformação estrangeira de qualquer tipo (em formato XML) e que é capaz de proporcionar um ambiente onde o reaproveitamento dos tipos de metadados para a construção de novos tipos de metadados é uma constante, sem ter necessidade de modificar os documentos que armazena. O repositório armazena documentos XML, denominados de Instâncias, que são instâncias de um Conceito, esse Conceito define uma estrutura XML Schema que valida as Instâncias. Para lidar com o reaproveitamento, foram criadas unidades chamadas Fragmentos, que permitem definir uma estrutura XML Schema (que pode ser criada à custa da composição de outros Fragmentos) que pode ser reutilizada por Conceitos para definir a sua própria estrutura. Os elementos do repositório (Instâncias, Conceitos e Fragmentos) têm um identificador próprio baseado em (e compatível com) URIs, denominado MRI (Metadata Repository Identifier). Esses identificadores assim como informações de relacionamento e de gestão são geridas pelo repositório evitando assim a utilização de regras sintácticas fixas, facilitando a integração. Um conjunto de testes, utilizando documentos do projecto SESS e da software-house ITDS, serviram para a validação bem sucedida do repositório em relação aos objectivos da tese, em termos de integração e reaproveitamento. Abstract Information Systems are, usually, systems that have a strong integration component and some of those systems rely on integration solutions that are based on metadata (data that describes data). In that situation, there’s a need to deal with metadata as if it were “normal” information. For that matter, the existence of a metadata repository that deals with the integrity, storage, validity and eases the processes of information integration in the information system is a wise choice. There are several metadata repositories available in the market, but none of them is prepared to deal with the needs of information systems or is generic enough to deal with the multitude of situations/domains of information and with the necessary integration features. In the SESS project (an European Space Agency project), a generic metadata repository was developed, based on XML technologies. This repository provided the tools for information integration, validity, storage, share, import, as well as system and data integration, but it required the use of fix syntactic rules that were stored in the content of the XML files. This situation causes severe problems when trying to import documents from external data sources (sources unaware of these syntactic rules). In this thesis a metadata repository that provided the same mechanisms of storage, integrity, validity, etc, but is specially focused on easy integration of metadata from any type of external source (in XML format) and provides an environment that simplifies the reuse of already existing types of metadata to build new types of metadata, all this without having to modify the documents it stores was developed. The repository stores XML documents (known as Instances ), which are instances of a Concept , that Concept defines a XML structure that validates its Instances. To deal with reuse, a special unit named Fragment , which allows defining a XML structure (which can be created by composing other Fragments) that can be reused by Concepts when defining their own structure. Elements of the repository (Instances, Concepts and Fragment) have an identifier based on (and compatible with) URIs, named Metadata Repository Identifier (MRI). Those identifiers, as well as management information (including relations) are managed by the repository, without the need to use fix syntactic rules, easing integration. A set of tests using documents from the SESS project and from software-house ITDS was used to successfully validate the repository against the thesis objectives of easy integration and promotion of reuse. Agradecimentos Quero agradecer a toda a minha família, em especial ao meu pai José, à minha mãe Isabel e ao meu irmão Tiago, pelo amor e respeito dado e ensinado ao longo da minha vida. Obrigado por sempre me terem apoiado e por me terem dado tudo para eu conseguir chegar onde cheguei hoje. Votos de saúde e felicidade para todos. Obrigado ao orientador, supervisor e colega Professor João Moura Pires. A sua participação neste projecto foi vital, em primeiro lugar por me ter proposto o desafio e em segundo por ter trabalhado nele comigo. Aprendi imenso consigo e espero voltar a ter a oportunidade de trabalhar novamente consigo. Obrigado a todos os colegas que partilharam o gabinete 244 durante o tempo que estive lá enquanto fazia o mestrado, a vossa contagiante boa disposição foi uma grande ajuda. Obrigado a todos os colegas de faculdade que de um modo ou de outro me ajudaram a chegar onde cheguei, particularmente os auto-denominados “Culelos” e em particular o colega que me acompanhou durante todo o curso e parte do mestrado, o Pedro Andrez. Obrigado Teresa, pelo apoio e amor incondicional durante todo este processo, que em muito ajudou a ultrapassar os momentos mais difíceis. Index Chapter 1 Introduction .................................................................................................................. 1 1.1. Motivation ............................................................................................................................................... 3 1.2. Context ..................................................................................................................................................... 4 1.3. Objective .................................................................................................................................................. 7 1.4. Thesis Structure .................................................................................................................................... 7 Chapter 2 State of the Art ............................................................................................................. 9 2.1. Metadata in Organizations .............................................................................................................. 10 2.1.1. The Use and Management of Metadata ........................................................................................ 11 2.2. XML Technologies .............................................................................................................................. 12 2.2.1. Definition of XML Vocabularies and Validation ........................................................................ 12 2.2.2. XML Processing ...................................................................................................................................... 13 2.2.3. Querying and Updating XML ............................................................................................................. 14 2.3. Semantic Web ...................................................................................................................................... 15 2.3.1. RDF .............................................................................................................................................................. 18 2.3.2. OWL............................................................................................................................................................. 20 2.3.3. Simple Knowledge Organization System ..................................................................................... 21 2.3.4. State of the Semantic Web and its applicability to organizations ..................................... 21 2.4. Metadata Repositories and Tools ................................................................................................. 24 2.4.1. Repository In a Box

Extensible Metadata Repository for Information Systems by Pedro Honrado Rio Pereira

Bibliography of Erik Wilde

Supporting SPARQL Update Queries in RDF-XML Integration *

XML Transformations, Views and Updates Based on Xquery Fragments

Access Control Models for XML

Web and Semantic Web Query Languages: a Survey

Declarative Access to Filesystem Data New Application Domains for XML Database Management Systems

Standardised Xquery 3.0 Annotations for REST

Xpath, Xquery and XSLT

Database Architecture Evolution: Mammals Flourished Long Before Dinosaurs Became Extinct

Document and Schema XML Updates

Xquery Update

Xquery 3.0 69 Higher-Order Functions 75 Full-Text 82 Full-Text/Japanese 85 Xquery Update 87 Java Bindings 91 Packaging 92 Xquery Errors 95 Serialization 105