Semantic Representation and Integration of Enterprise Data in a Knowledge Graph 37 4.1 Enterprise Knowledge Graphs

Strategies for Managing Linked Enterprise Data Dissertation zur Erlangung des Doktorgrades (Dr. rer. nat.) der Mathematisch-Naturwissenschaftlichen Fakultät der Rheinischen Friedrich-Wilhelms-Universität Bonn von Mikhail Galkin aus Uljanowsk, Russland Bonn, 30.08.2018 Dieser Forschungsbericht wurde als Dissertation von der Mathematisch-Naturwissenschaftlichen Fakultät der Universität Bonn angenommen und ist auf dem Hochschulschriftenserver der ULB Bonn http://hss.ulb.uni-bonn.de/diss_online elektronisch publiziert. 1. Gutachter: Prof. Dr. Sören Auer 2. Gutachter: Dr. Dmitry Mouromtsev Tag der Promotion: 10.12.2018 Erscheinungsjahr: 2019 Abstract Data, information and knowledge become key assets of our 21st century economy. As a result, data and knowledge management become key tasks with regard to sustainable development and business success. Often, knowledge is not explicitly represented residing in the minds of people or scattered among a variety of data sources. Knowledge is inherently associated with semantics that conveys its meaning to a human or machine agent. The Linked Data concept facilitates the semantic integration of heterogeneous data sources. However, we still lack an effective knowledge integration strategy applicable to enterprise scenarios, which balances between large amounts of data stored in legacy information systems and data lakes as well as tailored domain specific ontologies that formally describe real-world concepts. In this thesis we investigate strategies for managing linked enterprise data analyzing how actionable knowledge can be derived from enterprise data leveraging knowledge graphs. Actionable knowledge provides valuable insights, supports decision makers with clear interpretable arguments, and keeps its inference processes explainable. The benefits of employing actionable knowledge and its coherent management strategy span from a holistic semantic representation layer of enterprise data, i.e., representing numerous data sources as one, consistent, and integrated knowledge source, to unified interaction mechanisms with other systems that are able to effectively and efficiently leverage such an actionable knowledge. Several challenges have to be addressed on different conceptual levels pursuing this goal, i.e., means for representing knowledge, semantic data integration of raw data sources and subsequent knowledge extraction, communication interfaces, and implementation. In order to tackle those challenges we present the concept of Enterprise Knowledge Graphs (EKGs), describe their characteristics and advantages compared to existing approaches. We study each challenge with regard to using EKGs and demonstrate their efficiency. In particular, EKGs are able to reduce the semantic data integration effort when processing large-scale heterogeneous datasets. Then, having built a consistent logical integration layer with heterogeneity behind the scenes, EKGs unify query processing and enable effective communication interfaces for other enterprise systems. The achieved results allow us to conclude that strategies for managing linked enterprise data based on EKGs exhibit reasonable performance, comply with enterprise requirements, and ensure integrated data and knowledge management throughout its life cycle. iii Автореферат Актуальность. Объем используемых компаниями данных и формализованных знаний, значительно возрос в последние годы, сделав их ключевыми компонентами экономики двадцать первого века. Таким образом, управление данными и знаниями является ключевой задачей устойчивого развития и делового успеха. Как правило, знания не представлены явным и структурированным образом в информационных системах, а воплощены в форме опыта сотрудников или распределены среди множества источников данных. Смысл знаний может быть представлен в виде формальной семантики, которую необходимо передавать интеллектуальным агентам для понимания знаний. Концепция Связанных данных (Linked Data) способствует развитию семантической интеграции гетерогенных источников данных за счет определения уникальных идентификаторов абстрактных и реальных сущностей, а также ссылок между такими идентификаторами, которые в совокупности составляют граф понятий и связей между ними. Однако, существующие механизмы интеграции данных и знаний не приспособлены к корпоративным сценариям использования, где большие объемы данных информационных систем могут содержаться вместе со специализированными онтологиями предметных областей, которые формально описывают сущности реального мира. Таким образом, актуальной проблемой является организация управления разнородными корпоративными данными, которая позволит эффективно извлекать и применять содержащиеся в данных знания для поддержки принятия решений. В данной работе исследуются стратегии управления связанными корпоративными данными, которые позволяют выделять полезные и действенные в практическом плане знания из корпоративных данных с помощью графов знаний. Под действенными знаниями понимаются знания, которые поддерживают процесс принятия решений четкими и интерпретируемыми аргументами, подходящими для логического вывода. Преимущества внедрения и использования действенных знаний и соответствующих стратегий управления ими охватывают как целостное семантическое представление корпоративных данных в логически единый источник, так и механизмы взаимодействия с другими информационными системами, способными эффективно использовать действенные знания. Целью работы является исследование применимости семантических технологий для создания стратегии управления связанными корпоративными данными, использующей действенные знания из больших объемов гетерогенных корпоративных данных. Для достижения поставленной цели были сформулированы следующие задачи: 1. средства представления знаний; 2. способы семантической интеграции гетерогенных источников данных с последующим выделением знаний их них; 3. способы эффективной обработки запросов к таким знаниям, так как осуществление и исполнение запросов является одним из основным механизмов взаимодействия информационных систем. v Для решения поставленных задач в данной работе формулируется концепция Корпоративных Графов Знаний (КГЗ), анализируются характеристики и преимущества такого подхода к организации знаний в сравнении с существующими подходами. Так, КГЗ способны упростить процесс семантической интеграции крупномасштабных гетерогенных наборов и источников данных. В работе предложены способы построения логического интеграционного слоя на основе крупномасштабных гетерогенных наборов. КГЗ позволяют унифицировать процесс обработки и исполнения запросов, обеспечивая эффективные механизмы для коммуникации с корпоративными информационными системами. Новые научные результаты: 1. Концепция Корпоративных Графов Знаний, служащий связующим элементом между гетерогенными корпоративными данными и действенными корпоративными знаниями. 2. Методы и способы организации корпоративных знаний согласно семантической графовой модели Resource Description Framework (RDF), логической интеграции данных и выделения знаний с помощью свойства полуструктурированости модели RDF. 3. Универсальный подход к обработке запросов к полученному графу с помощью усовершенствованных и оптимизированных алгоритмов планирования и исполнения запросов на языке SPARQL. Достигнутые результаты позволяют сделать вывод, что стратегии управления связанными корпоративными данными на основе КГЗ обладают высоким потенциалом и демонстрируют высокую производительность, соблюдение корпоративных сценариев использования и соответствующих требований, а также всестороннюю поддержку жизненного цикла данных изнаний. vi Acknowledgements Throughout the exciting Ph.D. journey I met a number of people who inspired and supported me all those years. I would like to thank Prof. Dr. Sören Auer for giving me a chance to pursue the degree in Germany at the Enterprise Information Systems department at the University of Bonn. He also motivated me for applying for a DAAD scholarship which we successfully received. His supervision and advice fostered the whole research. Furthermore, I would like to thank Prof. Dr. Maria-Esther Vidal for her invaluable help, inspiration to do academic research, fruitful scientific discussions, many papers written together, and keeping me up last years of the Ph.D. term! Moreover, I would like to thank my advisors Dr. Simon Scerri and Dr. Fabrizio Orlandi for their patience when introducing me to everyday scientific routines and teaching, and for general advice how things work here in academia. Prof. Dr. Jens Lehmann, Dr. Christoph Lange, Dr. Ioanna Lytra helped a lot addressing details with DAAD and double-degree papers so that I would like to thank them for carrying this tedious work and their endless patience. Special thanks goes to Diego "El Romántico" Collarana, Irlán "El Chamaco" Grangel-González, Vitalis Wiens, Niklas Petersen, Najmeh Mousavi, Camilo Morales, and Matthew English for their academic support this thesis could not be completed without. I cannot fully express my sincere gratitude to Dr. Dmitry Mouromtsev from ITMO University he truly deserves as a person who introduced me to Semantic Web, Artificial Intelligence, scientific mindset and science in general during undergraduate years, supported my first attempts of scientific writing, made it possible to participate in the double-degree Ph.D. program, and kindly participated in solving various issues appeared at the ITMO side. Last, but not least, I would like to thank a good old friend of mine Vitaly Kandyba whose cheerfulness and passion motivated me to achieve better

Semantic Representation and Integration of Enterprise Data in a Knowledge Graph 37 4.1 Enterprise Knowledge Graphs

A Question Answering System for Chemistry

Discussion #1 | University of Texas at Austin | August 13, 2018 Facilitated By: Itza A

Constructing Reference Semantic Predictions from Biomedical Knowledge Sources

Distributed Semantic Sensor Networks How to Use Semantics and Knowledge Distribution to Integrate Sensor Data of Disparate Data Sources

Applying the Semantic Web to Computational Chemistry

Relext: Relation Extraction Using Deep Learning Approaches for Cybersecurity Knowledge Graph Improvement

An Approach for Knowledge Graph Construction from Spanish Texts

Ontology Middleware for Integration of Iot Healthcare Information Systems in EHR Systems

Heron Visualisation Engine. Visualisation and Dissemination of Semantic Cultural Heritage Data

Out of Cite, out of Mind: the Current State of Practice, Policy, and Technology for the Citation of Data

Exploration of Large-Scale SPARQL Query Collections: Finding Structure and Regularity for Optimizing Database Systems

Natural Language Questions for the Web of Data