(ITMO UNIBERSITY) Lappeenranta 2

LAPPEENRANTA UNIVERSITY OF TECHNOLOGY School of Business and Management Master’s Degree Program in Computer Science SAINT PETERSBURG NATIONAL RESEARCH UNIVERSITY OF INFORMATION TECHNOLOGIES MECHANICS AND OPTICS (ITMO UNIBERSITY) Software Development Chair Faculty of Infocommunication Technologies Master’s Program in Software in Infocommunications Nikita Tiufiakov PROVENANCE STRUCTURE IN CITIZEN SCIENCE DATABASES 1st Supervisor/Examiner: Prof. Ajantha Dahanayake PhD, LUT 2nd Supervisor/Examiner: Assoc. Prof., Sergei Ivanov PhD, ITMO University Lappeenranta – Saint-Petersburg 2018 ABSTRACT Author: Nikita Tiufiakov Title: Provenance structure in citizen science databases Department: LUT School of Business and Management, Innovation and Software ITMO University, Software Development Chair, Faculty of Infocommunication Technologies Master’s Program: Double Degree Program between LUT Computer Science and ITMO University, Faculty of Software in Infocommunications Year: 2018 Master's thesis: Lappeenranta University of Technology ITMO University 53 pages, 8 tables, 28 figures, 2 appendices Examiners: Prof. Ajantha Dahanayake PhD, LUT Assoc. Prof., Sergei Ivanov PhD, ITMO Keywords: Citizen Science, Databases, Probabilistic databases, Deterministic databases, Data Provenance, Scientific Workflow Management System Today, more and more scientific groups are developing application for their purposes. Citizen science is relatively new domain of science that has already proved that it may be as beneficial as classical science. One of the major challenges citizen science constantly face is the data quality assurance. Several techniques are used to verify data quality – expert evaluation, voting systems, etc. That is where data provenance comes into play. Data provenance is used in many scientific systems and provides reliable mechanism for tracking data history. It includes history of origin, changes, and all interaction between different parts of data. Data provenance by itself has many types such as: “Why - provenance”, “Where - provenance”, and “How - provenance”. This research has produced a prototype of a database with built-in data provenance. Several databases systems and models have been taken into consideration. Several experiments have been made to test the limitations of proposed prototype. 2 РЕЗЮМЕ Автор: Тюфяков Никита Заглавие: Исследование методов верификации данных в специализированных базах данных Факультет: ЛТУ Факультет Бизнеса и Менеджмента Университет ИТМО Кафедра Программных Систем Факультет Инфокоммуникационных Технологий Магистратура: Программное обеспечение в инфокоммуникациях Год: 2018 Диссертация: Лаппеенрантский Технологический Университет, Университет ИТМО, 53 страницы, 8 таблиц, 28 рисунков, 2 приложения Экзаменаторы: Профессор Аджанта Даханайаке Доцент Сергей Иванов Ключевые слова: специализированные базы данных, гражданская наука, структуры происхождения данных, верификация информации В настоящее время все больше и больше исследовательских групп создают различные приложения для своих целей. Гражданская наука — это область науки, которая, несмотря на свою относительную новизну, уже успела доказать свою состоятельность и способность внести вклад в исследования наравне с классической наукой. Одной из проблем, с которыми постоянно сталкивается гражданская наука, является верификация информации. Существует множество методов для решения данной проблемы – экспертная оценка, система голосований и т.д. Структура происхождения данных одна из них. Она используется во множестве научных систем и представляет достаточно надежный механизм для отслеживания происхождения данных. Данная система может включать в себя историю происхождения, изменений и взаимодействий между различными элементами данных. Структура происхождения данных включает в себя несколько видов. Задача проекта в том, чтобы создать прототип базы данных со встроенной системой происхождения данных. На этапе имплементации прототипа было рассмотрено несколько вариантов систем баз данных и моделей. Над разработанным прототипом также был проведен ряд испытаний и экспериментов. 3 TABLE OF CONTENTS ABBREVIATIONS ........................................................................................................................ 5 1. INTRODUCTION .................................................................................................................. 6 1.1 The research problem ...................................................................................................... 6 1.2 Research objectives and questions .................................................................................. 7 1.3 Phases of the research and research method ................................................................... 7 1.4 Resources required .......................................................................................................... 8 1.5 Outcomes of the research ................................................................................................ 9 1.6 Literature review ............................................................................................................. 9 1.7 Research Methodology ................................................................................................. 10 1.8 Structure of the thesis .................................................................................................... 10 2. RELATED WORK ............................................................................................................... 11 2.1 Citizen Science .............................................................................................................. 11 2.2 Scientific workflow ....................................................................................................... 15 2.2.1 Scientific Workflow Management System architecture ............................................. 17 2.2.2 Scientific Workflow Management System scheduling algorithms ............................ 18 2.2.3 Description of a task in Scientific Workflow Management System ........................... 19 2.3 Data provenance ............................................................................................................ 20 2.3.1 The probabilistic databases ...................................................................................... 22 2.3.2 Deterministic databases ............................................................................................ 24 2.3.3 Open Provenance Model ........................................................................................... 25 3. EXPERIMENT ..................................................................................................................... 28 3.1 Database requirements .................................................................................................. 28 3.2 Database system selection ............................................................................................. 29 3.3 Implementation of “How – Provenance” ...................................................................... 32 3.4 Implementation of “Why - Provenance” ....................................................................... 35 3.5 Case study ..................................................................................................................... 39 4. TESTING AND EVALUATION ......................................................................................... 41 4.1 Comparative analysis .................................................................................................... 42 4.2 Performance Analysis ................................................................................................... 43 5. CONCLUSION ..................................................................................................................... 47 REFERENCES ............................................................................................................................. 50 4 ABBREVIATIONS API Application Programming Interface HTML Hyper Text Markup Language CSS Cascading Style Sheets DNA Deoxyribonucleic acid MDT Marine Debris Tracker SWMS Scientific Workflow Management System SDSC San Diego Supercomputer Center GUI Graphical User Interface SCUFL Simple Conceptual Unified Flow Language DAG Directed Acyclic Graph DCP Dynamic Critical Path GA Genetic Algorithm RFID Radio Frequency Identification BID Block – independent – disjoint ACID Atomicity, Consistency, Isolation, Durability OPM Open Provenance Model JSON JavaScript Object Notation XML Extensible Markup Language CRUD Create, read, update, and delete 5 1. INTRODUCTION Citizen Science is a relatively new domain of study. Being a platform for voluntary participation of amateur scientists in scientific endeavors. It has proved its relevance and value on the same level as Classical Science [1]. Its main objective is to contribute data, monitor the problem and help find the solution. Citizen Science allows to expand research capacity while providing stimulating opportunities for participants, engaging volunteers directly in conservation science and management, and improving science and environmental literacy. During the recent years, this field of science has grown rapidly [2]. Societies of citizen sciences have been established around the world - in the United States, Europe, and Australia. Universities, international and national organizations together with the government agencies have recognized its potential and use citizen science for their work. Moreover,

(ITMO UNIBERSITY) Lappeenranta 2

Probabilistic Databases

Adaptive Schema Databases ∗

Finding Interesting Itemsets Using a Probabilistic Model for Binary Databases

Open-World Probabilistic Databases

A Compositional Query Algebra for Second-Order Logic and Uncertain Databases

Answering Queries from Statistics and Probabilistic Views∗

Uva-DARE (Digital Academic Repository)

BAYESSTORE: Managing Large, Uncertain Data Repositories with Probabilistic Graphical Models

Brief Tutorial on Probabilistic Databases

Efficient In-Database Analytics with Graphical Models

Indexing Correlated Probabilistic Databases

Analyzing Uncertain Tabular Data