Knowledge Discovery in Biological Big Data Tailor-Made Data Analysis Algorithms Integrating Expert Knowledge
Total Page:16
File Type:pdf, Size:1020Kb
Knowledge discovery in biological big data Tailor-made data analysis algorithms integrating expert knowledge by Dipl.-Gyml. Jonas Hausen communicated by Prof. Dr. Andreas Schäffer Institute for Environmental Research RWTH Aachen University II III This book comprises the research results developed by Dipl.-Gyml. Jonas Hausen at the Faculty of Mathematics, Informatics and Natural Sciences of the RWTH Aachen University to complete his dissertation for the degree of Doctor of Natural Sciences (Dr. rer. nat). The publication of this collective work is approved by the head of the Institute for Environmental Research, Prof. Dr. Andreas Schäffer, Dr. Martina Roß-Nickoll and Dr. Richard Ottermanns. Parts of this work had been previously published in - Hausen J, Scholz-Starke B, Burkhardt U, Lesch S, Rick S, Russell D, Roß-Nickoll M, Ottermanns R (2017): Edaphostat: interactive ecological analysis of soil organism occurrences and preferences from the Edaphobase data warehouse. Database. 2017. doi:10.1093/database/ bax080. - Hausen J, Otte JC, Legradi J, Yang L, Strähle U, Fenske M, Hecker M, Tang S, Hammers- Wirtz M, Hollert H, Keiter SH, Ottermanns R (2017): Fishing for contaminants: identification of three mechanism specific transcriptome signatures using Danio rerio embryos. Environ Sci Pollut Res.:1–14. doi:10.1007/s11356-017-8977-6. - Hausen J, Otte JC, Strähle U, Hammers-Wirtz M, Hollert H, Keiter SH, Ottermanns R (2015): Fold-change threshold screening: a robust algorithm to unmask hidden gene expression patterns in noisy aggregated transcriptome data. Environ Sci Pollut Res. 22(21):16384–16392. doi:10.1007/s11356-015-5019-0. IV V Summary Over course of recent decades, rapid technological advances have led to the advent of big data analysis within biology and environmental science fields. This development has been enabled by new technologies such as data sharing and storing, alongside novel high-throughput methods, to generate large datasets at comparably low costs. Biological big data share common characteristics including heterogeneity, a large number of variables, and high noise. Traditional methods for data analysis and visualization are often not able to handle these characteristics and therefore fail to extract biologically meaningful results. To separate relevant knowledge from random patterns, expert knowledge is needed. A promising way to solve this problem is to integrate this expert knowledge in data mining techniques, which are especially suited for the analysis of big data. The aim of this study is the integration of expert knowledge in the analysis of big biological data. To achieve this, a data analysis workflow utilizing the characteristics of biological data was developed. This workflow was applied to three different big biological datasets from environmental research: a) Gene expression data from zebrafish (Danio rerio) following exposure to different environmental contaminants b) Taxonomic data and environmental parameters from a global soil-zoology database c) Fungal DNA sequence data from soil samples taken in differently managed forests All three datasets were analysed via a data mining workflow, which consisted of preprocessing, application of a data mining algorithm, and visualisation, to handle the volume and complexity of the data. At different steps of the analysis workflow, domain-specific expert knowledge was integrated. In this manner, irrelevant or insignificant results were excluded, and only biologically meaningful results were derived. The integration of expert knowledge in the analysis of the zebrafish data strongly reduced data noise to reveal genes and patterns, which react specifically to one of the contaminants. An adapted version of the framework filtered out unimportant variables from the soil-zoology database and helped determine biologically relevant classes of the remaining parameters. Expert knowledge was then used to identify essential patterns in fungal communities and determine habitat-specific ecological guild compositions in the different forests. At specific steps, the collaboration of a domain expert and a data scientist turned out to be crucial for the success of the analysis. The workflow helped to identify these steps by subdividing the complex data analysis into smaller and more straightforward work tasks. Powerful visualizations were essential to enhance and improve the cooperation as they provided a platform for discussion and validation of the results. The ability to show multiple aspects of the data via a wide range of applications was one of the keys to the collaboration and all three applications relied heavily on them. The results of the present thesis demonstrate how domain-specific expert knowledge can be used to improve the results of data mining approaches in the analysis of big, heterogeneous biological data. The cooperation of data scientists and domain experts made it possible to account for the characteristics of the individual subjectspecific datasets, whilst maintaining the power of the data mining approaches. VI Zusammenfassung In den letzten Jahrzehnten kam es in den Biowissenschaften zu einem enormen Datenwachstum, ermöglicht durch neue Technologien wie die Hochdurchsatz-Sequenzierung (next-generation sequencing) und verbesserte Möglichkeiten des Datentransfers und der Datenspeicherung. Diese als „Big Data“ bezeichneten Datenmengen haben oft gleiche Charakteristika wie große Heterogenität, hohe Anzahl an Variablen oder großes Datenrauschen. Klassische Auswerteverfahren sind meist nicht in der Lage diese Charakteristika adäquat zu berücksichtigen und das volle Potential der Daten auszuschöpfen. Verfahren aus dem Bereich des Data Mining sind eine vielversprechende Möglichkeit zur Auswertung dieser Daten. Um jedoch wichtige Erkenntnisse von irrelevanten Mustern in den Daten abzugrenzen, ist häufig das Wissen eines Experten aus dem jeweiligen Fachgebiet nötig. Ziel der Dissertation war deshalb die Einbindung von fachspezifischem Expertenwissen in die Auswertung von großen biologischen Datensätzen, um biologisch relevante Ergebnisse zu gewinnen. Dabei wurde ein Analyseprozess entwickelt und auf verschiedene Big Data Datensätze aus dem Bereich der Biologie und Umweltforschung angewandt: a) Genexpressionsdaten vom Zebrabärbling nach Exposition gegenüber Umweltschadstoffen b) Taxonomische Daten und Umweltparameter aus einer globalen bodenzoologischen Datenbank c) Pilzsequenzdaten aus Bodenproben verschieden bewirtschafteter Wälder Um dem Umfang und der Komplexität der Daten gerecht zu werden, wurden alle Datensätze mit einem Data Mining Workflow ausgewertet. Darüber hinaus wurde an verschiedenen Stellen innerhalb des Workflows Expertenwissen integriert, um irrelevante Ergebnisse, wie Datenartefakte zu vermeiden und biologisch relevante Erkenntnisse abzuleiten. Mithilfe des Workflows gelang es das Hintergrundrauschen in den Genexpressionsdaten so weit zu reduziert, dass die Detektion von zufällig signifikanten Genen deutlich unwahrscheinlicher wurde. Im zweiten Anwendungskapitel wurde Expertenwissen genutzt, um nur biologisch wichtige Bodenparametern in die Analyse zu integrieren und so Habitatspräferenzen von bestimmten Bodenorganismen zu bestimmen. Schließlich wurde der Workflow verwendet, um Muster in den Lebensgemeinschaften von Pilzen zu finden, diese mit Expertenwissen über das Pilzvorkommen an den gleichen Standorten abzugleichen und bezüglich ihrer Nahrungspräfenzen zu gruppieren. Durch die schematische Darstellungsweise des Workflows konnte die komplexe Analyse in sinnvolle Arbeitsschritte bzw. Pakete aufgeteilt werden und daraufhin die wichtigsten Schritte für die Kooperation zwischen Fachexperte und Datenwissenschaftler identifiziert werden. Eine besondere Bedeutung kam dabei der Verwendung von Visualisierungen zu, da diese eine wertvolle Basis zur Diskussion und Validierung der Ergebnisse boten. Durch die Interaktion zwischen den beiden Expertengruppen kam es in dem Analyseprozess zu einer stetigen des Workflows und der Ergebnisse. Die Auswertung von großen biologischen Datenmengen war nur dann erfolgreich, wenn das Wissen über Datenauswertung mit dem entsprechenden wissenschaftlichen biologischen Hintergrund kombiniert wurde. VII TABLE OF CONTENTS Summary .......................................................................................................................................................V Zusammenfassung .......................................................................................................................................VI CHAPTER 1: INTRODUCTION ...............................................................................................................1 1.1. BIG DATA IN BIOLOGY ......................................................................................................1 1.1.1. Knowledge Discovery and Data Mining (KDD) .......................................................2 1.1.2. KDD in biological and environmental research ........................................................5 1.2. KDD AND EXPERT KNOWLEDGE ....................................................................................7 1.3. AIMS OF THE THESIS ..........................................................................................................9 CHAPTER 2: APPLICATIONS TO BIOLOGICAL BIG DATA ........................................................11 2.1. APPLICATION 1: TRANSCRIPTOMICS - MICROARRAY DATA ............................13 2.1.1. Fold change threshold screening: a robust algorithm to unmask hidden gene expression