Collaborative Integration, Publishing and Analysis of Distributed Scholarly Metadata
Total Page:16
File Type:pdf, Size:1020Kb
Collaborative Integration, Publishing and Analysis of Distributed Scholarly Metadata Dissertation zur Erlangung des Doktorgrades (Dr. rer. nat.) der Mathematisch-Naturwissenschaftlichen Fakultät der Rheinischen Friedrich-Wilhelms-Universität Bonn vorgelegt von Sahar Vahdati aus dem Tabriz, Iran Bonn 2019 Angefertigt mit Genehmigung der Mathematisch-Naturwissenschaftlichen Fakultät der Rheinischen Friedrich-Wilhelms-Universität Bonn 1. Gutachter: Prof. Dr. Sören Auer 2. Gutachter: Prof. Dr. Rainer Manthey Tag der Promotion: 17.01.2019 Erscheinungsjahr: 2019 Abstract Research is becoming increasingly digital, interdisciplinary, and data-driven and affects different en- vironments in addition to academia, such as industry, and government. Research output representation, publication, mining, analysis, and visualization are taken to a new level, driven by the increased use of Web standards and digital scholarly communication initiatives. The number of scientific publications produced by new players and the increasing digital availability of scholarly artifacts, and associated metadata are other drivers of the substantial growth in scholarly communication. The heterogeneity of scholarly artifacts and their metadata spread over different Web data sources poses a major challenge for researchers with regard to search, retrieval and exploration. For example, it has become difficult to keep track of relevant scientific results, to stay up-to-date with new scientific events and running projects, as well as to find potential future collaborators. Thus, assisting researchers with a broader integration, management, and analysis of scholarly metadata can lead to new opportunities in research and to new ways of conducting research. The data integration problem has been extensively addressed by communities in the Database, Artificial Intelligence and Semantic Web fields. However, a share of the interoperability issues are domain specific and new challenges with regard to schema, structure, or domain, arise in the context of scholarly metadata integration. Thus, a method is needed to support scientific communities to integrate and manage heterogeneous scholarly metadata in order to derive insightful analysis (e.g., quality assessment of scholarly artifacts). This thesis tackles the problem of scholarly metadata integration and develops a life cycle methodology to facilitate the integrated use of different methods, analysis techniques, and tools for improving scholarly communication. Some key steps of the metadata life cycle are implemented using a collaborative platform, which allows to keep the research communities in the loop. In particular, the use of collaborative methods is beneficial for the acquisition, integration, curation and utilization of scholarly metadata. We conducted empirical evaluations to assess the effectiveness and efficiency of the proposed approach. Our metadata transformation from legacy resources achieves reasonable performance and results in better metadata maintainability. The interlinking of metadata enhances the coherence of scholarly information spaces both qualitatively and quantitatively. Our metadata analysis techniques provide a precise quality assessment of scholarly artifacts, taking into account the perspectives of multiple stakeholders, while maintaining compatibility with existing ranking systems. These empirical evaluations and the concrete applications with a particular focus on collaborative aspects demonstrate the benefits of integrating distributed scholarly metadata. iii Kurzfassung Die Forschung wird zunehmend digital, interdisziplinär und datengetrieben und beeinflusst neben der akademischen Welt auch unterschiedliche Umgebungen wie Industrie und Verwaltung. Die Drastel- lung, Veröffentlichung, Gewinnung, Analyse und Visualisierung von Forschungsergebnissen werden auf eine neue Ebene gehoben, angetrieben durch den verstärkten Einsatz von Webstandards und digitalen Initiativen zur wissenschaftlichen Kommunikation. Die Anzahl der wissenschaftlichen Publikationen neuer Akteure und die zunehmende digitale Verfügbarkeit wissenschaftlicher Artefakte und der damit verbundenen Metadaten sind weitere treibende Kräfte für das starke Anwachsen der wissenschaftlichen Kommunikation. Die Heterogenität wissenschaftlicher Artefakte und ihrer Metadaten, die über ver- schiedene Webdatenquellen verteilt sind, stellt für Forscher eine große Herausforderung in Bezug auf Suche, Ausfinden und Erkunden der Metadaten dar. So ist es beispielsweise schwierig geworden, den Überblick über relevante wissenschaftliche Ergebnisse zu behalten, über neue wissenschaftliche Veran- staltungen und laufende Projekte auf dem Laufenden zu bleiben und potenzielle zukünftige Mitarbeiter zu finden. Die Unterstützung von Forschern bei der breiteren Integration, Verwaltung und Analyse wissenschaftlicher Metadaten kann daher zu neuen Möglichkeiten und Formen der Forschung führen. Das Problem der Datenintegration wurde in den Bereichen Datenbanken, Künstliche Intelligenz und Semantic Web ausführlich behandelt. Ein Teil der Interoperabilitätsprobleme ist jedoch domänenspezifisch und neue Herausforderungen in Bezug auf Schema, Struktur oder Domäne ergeben sich im Rahmen der wissenschaftlichen Metadatenintegration. Daher ist eine Methode erforderlich, um Wissenschaftsgrup- pen bei der Integration und Verwaltung heterogener wissenschaftlicher Metadaten zu unterstützen, um aussagekräftige Analysen (z.B. Qualitätsbewertungen wissenschaftlicher Artefakte) abzuleiten. Diese Arbeit beschäftigt sich mit dem Problem der Integration von wissenschaftlichen Metadaten und entwickelt eine “Lebenszyklusmethode”, um den integrierten Einsatz verschiedener Methoden, Ana- lysetechniken und Werkzeuge zur Verbesserung der wissenschaftlichen Kommunikation zu erleichtern. Einige wichtige Schritte des Metadaten-Lebenszyklus werden über eine kollaborative Plattform umge- setzt, die es ermöglicht, die Forschungsgemeinschaften auf dem Laufenden zu halten. Insbesondere der Einsatz kollaborativer Methoden ist für den Erwerb, die Integration, die Kurierung und die Nutzung wissenschaftlicher Metadaten von Vorteil. Wir haben empirische Evaluationen durchgeführt, um die Effektivität und Effizienz des vorgeschlagenen Ansatzes zu beurteilen. Unsere Metadatentransformation aus Legacy-Ressourcen erreicht eine angemessene Leistung und führt zu einer besseren Wartbarkeit der Metadaten. Die Verknüpfung von Metadaten erhöht die Kohärenz der wissenschaftlichen Inform- ationsräume qualitativ und quantitativ. Unsere Metadatenanalyseverfahren ermöglichen eine präzise Qualitätsbewertung wissenschaftlicher Artefakte unter Berücksichtigung der Perspektiven mehrerer In- teressengruppen bei gleichzeitiger Kompatibilität mit bestehenden Rankingsystemen. Diese empirischen Auswertungen und die konkreten Anwendungen mit besonderem Fokus auf kollaborative Aspekte zeigen die Vorteile der Integration von verteilten wissenschaftlichen Metadaten. v Contents 1 Introduction 1 1.1 Motivation . .3 1.2 Problem Statement and Main Challenges . .5 1.3 Research Questions . .7 1.4 Publications Associated with this Dissertation and Contributions . .8 1.5 Thesis Structure . 10 2 Scholarly Communication Then and Now 11 2.1 Development of Scholarly Communication . 11 2.1.1 Publishing and Artifacts . 12 2.1.2 Collaboration . 15 2.1.3 Quality Control . 16 2.1.4 Success Measures . 17 2.2 State-of-the Art of Services Supporting Scholarly Communication . 19 2.2.1 Domain Modelings . 20 2.2.2 Scholarly Metadata Extractors . 21 2.2.3 Datasets and Repositories . 22 2.2.4 Tools and Systems . 24 3 Metadata Integration and Management 31 3.1 Data and Metadata . 31 3.2 Technical Foundations . 38 3.3 Metadata Management in the Form of Life Cycle . 42 3.4 MEDAL: A Metadata Life Cycle . 44 3.4.1 Acquisition and Integration Phase . 46 3.4.2 Refinement and Utilization Phase . 54 4 Quality Assessment of Scholarly Artifacts 65 4.1 Metadata Domains of Scholarly Communication . 67 4.1.1 Conceptualization . 68 4.1.2 Implementation . 71 4.2 Quality Assessment Methodologies . 74 4.3 Use Case 1: Assessing Quality of OpenCourseWare . 77 4.3.1 Quality Metrics . 79 4.3.2 Assessment and Results . 90 4.4 Use Case 2: Assessing Quality of Scientific Events . 94 4.4.1 Quality Metrics . 95 4.4.2 Analysis and Assessment Results . 109 vi Contents 4.5 An Alternative Approach: Bootstrapping a Value Chain . 113 4.5.1 Definition of The Challenge: Tasks, Queries and Datasets . 114 4.5.2 Solutions and Produced Datasets . 118 4.5.3 Lessons learned from the Challenge Organization . 121 4.5.4 Lessons Learned from Submitted Solutions . 124 5 Publishing Linked Open Scholarly Metadata 127 5.1 Extraction . 128 5.1.1 Semi-Automated Acquisition of Scholarly Metadata . 129 5.1.2 Implementation . 133 5.1.3 Evaluation . 134 5.2 Transformation . 137 5.2.1 Input Data Formats . 138 5.2.2 Mapping Large Scale Research Metadata to Linked Data . 141 5.2.3 Performance Comparison of HBase, CSV and XML . 143 5.3 Interlinking . 145 5.3.1 Identifying Properties and Target Datasets Suitable for Interlinking . 146 5.3.2 Identifying Tools and Algorithms Suitable for Interlinking . 147 5.3.3 Results from Interlinking Scholarly Metadata . 149 5.3.4 Evaluation of Interlinking Results . 151 6 Utilization of a Crowdsourced Scholarly Knowledge Graph 153 6.1 Curation . 153 6.1.1 Collaborative Management of Scholarly Communication Metadata . 155 6.1.2 The Architecture of the OpenResearch.org Platform . 156 6.1.3 Performance Measurements and Usability Analysis . 158 6.2 Mining . 159 6.2.1 Unveiling Scholarly