Semantic Representation of Provenance and Contextual Information in Scientific Research
Total Page:16
File Type:pdf, Size:1020Kb
Semantic Representation of Provenance and Contextual Information in Scientific Research D I S S E R T A T I O N zur Erlangung des akademischen Grades Doctor philosophiae (Dr. phil.) Im Fach Bibliotheks- und Informationswissenschaft eingereicht an der Philosophische Fakultät I Institut für Bibliotheks- und Informationswissenschaft Humboldt-Universität zu Berlin von Dipl. M.Sc. Armand Brahaj Die Präsidentin der Humboldt-Universität zu Berlin Prof. Dr.-Ing. habil. Dr. Sabine Kunst Die Dekanin der Philosophischen Fakultät I Prof. Dr. Gabriele Metzler Gutachter/in: 1. Prof. Dr. Peter Schirmbacher 2. Prof. Dr. Vivien Petras 3. Prof. Dr. Detlev Doherr Datum der Einreichung: 16.06.2016 Datum der Promotion: 19.09.2016 i This document was created on: 14.11.2016 ii Abstract Computational and information technology is one of the biggest advancement of the last century, a revolution that is influencing the way we approach social and technical problems in our day to day life. While these technologies have already influenced the research activity per sé, it is to be expected that these innovations will significantly influence the publishing and sharing of scientific results as well. So far, scientific publications have relied on limited result data attached inline in research paper publications. Establishments supporting research are pushing for concrete solutions that allow dissemination, share and reuse of research results. Reports such as “Riding the Wave - How Europe can gain from the rising tide of scientific data” of the High Level Expert Group on Scientific Data, European Commission (High Level Expert Group on Scientific Data, October 2010) presents a vision where the challenges of diverse data formats, people and communities are avoided due to the application of technical, semantic and social features of interoperability. This research is an effort to address similar concerns from a technical perspective. Focus of this research is the exploration of a novel approach on supporting research data curation by developing a method and defining an automated data curation process where data can be easily annotated. As a contribution, this work offers a formal model (COSI) that allows integration of plentiful metadata that can be treated as logic concepts and not merely as literals. These concepts are defined in an ontology that allows among other actions, inference and reasoning operations. The second contribution of this work is associated to a pragmatic solution that facilitates annotation of metadata on the fly. This solution is referred as sheer curation and shows how data can be annotated (based on COSI) and published while investigations are executed. This research offers a creative solution that allows researchers to annotate and publish easily their scientific investigation data. This thesis offers a pragmatic a model, implementations and technologies that simplify the scientific data management and scientific publishing of research data. iii Zusammenfassung Die Computer- und Informationstechnologie ist eine der größten Errungenschaften des letzten Jahrhunderts -- eine Revolution, welche die Art und Weise beeinflusst, auf die wir im täglichen Leben auf technische und soziale Problemen reagieren. Obwohl diese Technologien bereits Forschungsaktivitäten an sich beeinflussen, so ist zu erwarten, dass sie auch einen Einfluss auf das Publizieren und Teilen von Forschungsergebnissen haben werden. Bisher wurden in wissenschaftlichen Publikationen nur in geringem Maße Daten beigefügt. Forschungförderungseinrichtungen drängen zu konkreten Lösungen zum Verbreiten, Teilen und Wiederverwenden von Forschungsergebnissen. Berichte wie “Riding the Wave - How Europe can gain from the rising tide of scientific data” der High Level Expert Group on Scientific Data der Europäischen Kommission zeichnen eine Vision, bei der die Herausforderungen einer Diversität an Datenformaten, Menschen und Gemeinschaften durch die Anwendung technischer, semantischer und sozialer Eigenschaften der Interoperabilität vermieden werden. Diese Forschung adressiert derartige Herausforderungen aus einer technischer Perspektive. Fokus dieser Arbeit ist die Exploration eines neuartigen Ansatzes zur Unterstützung der Kuration (Sichtung und Korrektur) von Forschungsdaten mittels der Entwicklung einer Methodologie und mittels der Definition eines automatischen Datenkurationsprozesses in welchem Daten auf einfache Weise annotiert werden können. Ein Beitrag besteht in einem formalen Modell (COSI), welches die Integration großer Mengen an Metadaten erlaubt, welche als logische Konzepte behandelt werden können anstatt nur als Literale. Diese Konzepte werden in einer Ontologie definiert, welche, unter anderem, Inferenzen und Schlussfolgerungen ermöglicht. Der zweite Beitrag dieser Arbeit besteht in einer pragmatischen Lösung die es erlaubt, Metadaten on-the-fly zu annotieren. Diese Lösung wird als Sheer Curation bezeichnet und zeigt, wie Daten basierend auf COSI annotiert und publiziert werden können während Untersuchungen ablaufen. Die vorliegende Forschung bietet eine kreative Lösung, welche Wissenschaftlern Annotation und Veröffentlichung ihrer Investigationen ermöglicht. Diese Arbeit bietet einige pragmatische Modelle, Implementierungen und Technologien zur Vereinfachung sowohl des Managements als auch der Publikation wissenschaftlicher Daten. iv Table of Contents Abstract ............................................................................................................... iii Table of Contents ................................................................................................ v 1. Introduction .................................................................................................... 2 1.1 Significance of the Problem ...................................................................... 6 1.2 State of the Art........................................................................................... 8 1.3 Research Goal and Research Questions .................................................. 11 1.4 Research Contributions ........................................................................... 13 1.5 Publications ............................................................................................. 14 1.6 Thesis Structure ....................................................................................... 15 2. Foundations ................................................................................................... 18 2.1 Research Data Management and Metadata ............................................. 20 2.1.1 Provenance and Contextual Information ..................................... 25 2.2 Scholarly Communication and Metadata ................................................ 28 2.3 Data-Intensive Science ............................................................................ 31 2.4 Linked Data ............................................................................................. 32 2.4.1 Semantic Web .............................................................................. 37 2.4.2 Knowledge Representation and Description Logic ..................... 38 2.4.3 Description Logic ........................................................................ 40 3. Information Modelling and Scientific Investigation ................................. 46 3.1 Requirements ........................................................................................... 47 3.2 Information Modelling ............................................................................ 51 3.2.1 Primer to Modelling ..................................................................... 52 3.2.2 Hierarchical Model and XML ..................................................... 54 3.2.3 Entity-Relationship Model .......................................................... 58 3.2.4 RDF Model .................................................................................. 61 3.2.5 Assessment of Modelling Techniques ......................................... 67 3.2.6 Requirements related to the modelling technique ....................... 74 3.3 Ontology Classification ........................................................................... 75 4. Scientific Investigations, Provenance and Contextual Information ........ 80 4.1 Methodology followed in the formalization of the ontology .................. 83 4.1.1 Specification ................................................................................ 84 4.1.2 Elaboration ................................................................................... 86 4.1.3 Construction and Transition ........................................................ 89 4.1.4 Steps involved in the development of COSI ............................... 90 4.2 Core Ontology for Scientific Investigations (COSI) ............................... 93 v 4.2.1 Ontology Preamble ...................................................................... 93 4.2.2 Entity Definitions ...................................................................... 101 4.2.3 COSI Axiomatization ................................................................ 123 4.3 Sheer Curation ....................................................................................... 125 4.4 Data Licensing and Rights Declarations ............................................... 133 4.5 Data Access ........................................................................................... 139 5. Ontology Evaluation ..................................................................................