Multi-Omics Data Integration and Data Model Optimization in Proteomicsdb

TECHNISCHE UNIVERSITÄT MÜNCHEN Lehrstuhl für Proteomik und Bioanalytik Multi-omics data integration and data model optimization in ProteomicsDB Patroklos E. Samaras Vollständiger Abdruck der von der Fakultät Wissenschaftszentrum Weihenstephan für Ernährung, Landnutzung und Umwelt der Technischen Universität München zur Erlangung des akademischen Grades eines Doktors der Naturwissenschaften genehmigten Dissertation. Vorsitzender: Prof. Dr. Dmitrij Frishman Prüfer der Dissertation: 1. Prof. Dr. Bernhard Küster 2. Prof. Dr. Julien Gagneur 3. Priv.-Doz. Dr. Martin Eisenacher Die Dissertation wurde am 20.04.2020 bei der Technischen Universität München eingereicht und durch die Fakultät Wissenschaftszentrum Weihenstephan für Ernährung, Landnutzung und Umwelt am 30.09.2020 angenommen. To Ermina to my parents Vangelis and Ntina and to my brothers Thanasis and Tasos Abstract Proteomics, transcriptomics, genomics, and phenomics are well-established scientific fields that contribute in their own way to the research of life and disease and in particular, cancer research. However, studying the data and results from only one omics-type will only reveal part of the bigger picture of what is happening inside a cell. Several methods have been developed for multi-omics data integration, however, they are either computationally expensive standalone tools or libraries that require programming expertise for their usage and the incorporation of results into further analyses. This cumulative thesis consists of two original publications that address the need for an online resource that supports scientists and clinicians with real-time multi-omics data integration, data analysis and visualization tools. The first publication presents the initial status of ProteomicsDB, a quantitative proteomics database, and describes the extension of the platform to support new omics-types. These data required the design of new data models to solve the challenge of storing and connecting information from multiple omics types and data sources using different identifier schemes. As a result, two generic data models were implemented, one for the storage of quantitative omics expression data and one for the storage of cell viability studies. To overcome the identifier mapping challenge and to enable combined data analysis, a third model was implemented allowing inter-connections with the proteomics data already existing in the database. The data model consisted of a composition of so-called triplestores along with tables that store metadata for each identifier. The generality of this data model allowed to capture any kind of relations between identifiers, such as protein-protein interaction networks as well as pathway data. The second publication extended the data wealth of the platform with additional proteomic, cell viability, drug-target and meltome data. In addition, the available protein properties were expanded with results from a new cellular assay containing protein turnover data. To support the interpretation of the new data types and assays, the user interface of the platform was extended with suitable visualization tools. The vast amount of data stored in ProteomicsDB enabled the development of integrative online tools, like the mRNA-guided missing value imputation method for protein expression data and the machine learning-based prediction of cell viability upon drug treatment based on protein expression data. The presented version of ProteomicsDB also enables users to upload custom expression datasets and analyse them alone or in comparison to stored data, using the analytics toolbox of the platform. Finally, all functionalities of the platform were extended to support data from any organism, transforming ProteomicsDB into a multi-omics and multi-organism resource for life science research. i | P a g e Zusammenfassung Proteomik, Transkriptomik, Genomik und Phänomik sind etablierte Forschungsbereiche, die zur Erforschung von Krankheiten und speziell zur Krebsforschung beitragen. Daten und Resultate eines einzigen Omics-Typs offenbaren jedoch nur einen Bruchteil der Vorgänge auf zellulärer Ebene. Um Daten mehrerer Omics-Typen, sogenannte Multiomik-Daten, zu integrieren, wurde eine Vielzahl von Methoden entwickelt. Diese teilen sich auf in rechenintensive Stand-alone Programme und Programmbibliotheken, welche für die Nutzung und weitere Verwertung der Ergebnisse Programmierkenntnisse voraussetzen. Diese kumulative Arbeit besteht aus zwei Veröffentlichungen, die auf den Bedarf von Wissenschaftlern und Klinikern an einer Online- Ressource eingehen, welche Echtzeit-Multiomik-Datenintegration sowie Datenanalyse- und Visualisierungstools unterstützt. Die erste Publikation präsentiert den initialen Status von ProteomicsDB, einer quantitativen proteomischen Datenbank und beschreibt die Erweiterung der Plattform um neue Omics-Typen. Für die herausfordernde Speicherung und Verknüpfung verschiedener Omics Datentypen aus unterschiedlichen Quellen mit verschiedenen Idenfikationsbezeichnugen wurden neue Datenmodelle nötig. Als Lösung wurden zwei Datenmodelle implementiert, eines für die Speicherung quantitativer Omics-Expressionsdaten und eines für die Hinterlegung von Zellviabilitätsassays. Als Lösung für die Problematik des Abgleichs von Idenfikationsbezeichnugen wurde ein drittes Datenmodell implementiert, welches nun deren kombinierte Analyse und die Verknüpfung zu den bereits gespeicherten proteomischen Daten ermöglicht. Die verwendete Modellierung bestand aus der Kombination von sogenannten “Triplestores” und Tabellen, welche Metadaten für jeden Eintrag enthalten. Die resultierende allgemeine Anwendbarkeit erlaubt die Speicherung von Beziehungen jeglicher Art zwischen den Einträgen, wie zum Beispiel Protein- Protein-Interaktionsnetzwerke oder die Abbildung von Signalwegen. Die zweite Publikation erweiterte die Datenmenge der Datenbank um zusätzliche proteomische Daten, Zellviabilität-, Protein-Wirkstoffinteraktions- und Meltomedaten. Die gespeicherten Proteincharakteristiken wurden um die Ergebnisse eines neuen zellulären Proteinumsatzassays erweitert. Weiterhin wurden die Visualisierungsoptionen der Plattform um zusätzliche Darstellungen für die neuen Datentypen und Assays erweitert. Die riesige in ProteomicsDB gespeicherte Datenmenge ermöglichte die Implementierung von omic-übergreifenden Onlinetools, wie eine mRNA-basierte Methode zur Imputation fehlender Proteinexpressionswerte und die von maschinellem Lernen gestützte Vorhersage der Zellviabilität nach Medikamentenbehandlung, die basierend auf Expressionsdaten von Proteinen realisiert wurde. Die beschriebene Version von ProteomicsDB ermöglicht es außerdem den Nutzern eigene Expressionsdatensätze hochzuladen und diese allein oder im Vergleich mit den hinterlegten Daten mittels der bereitgestellten Werkzeuge zu analysieren. Desweiteren wurden alle Funktionalitäten der Plattform erweitert um Daten von anderen Organismen zu unterstützen, was ProteomicsDB in eine omics- und organismus übergreifende Plattform für die Biowissenschaften transformiert. iii | P a g e Table of contents Abstract ............................................................................................................................................. i Zusammenfassung ........................................................................................................................... iii Chapter 1 General Introduction ....................................................................................................... 1 Chapter 2 General Methods ........................................................................................................... 41 Chapter 3 Publication 1 .................................................................................................................. 59 Chapter 4 Publication 2 .................................................................................................................. 63 Chapter 5 General discussion and outlook..................................................................................... 67 Publication record ............................................................................................................................. I Acknowledgements ......................................................................................................................... III Appendix ........................................................................................................................................... V v | P a g e Chapter 1 General Introduction Contents 1 From genes to proteins to disease ................................................................................................ 3 2 Multi-omics technologies .............................................................................................................. 5 2.1 Transcriptomics ...................................................................................................................... 5 2.2 Proteomics .............................................................................................................................. 7 2.3 Phenomics ............................................................................................................................ 12 2.4 Multi-omics data integration ................................................................................................ 14 3 Bioinformatics.............................................................................................................................. 16 3.1 Public repositories

Multi-Omics Data Integration and Data Model Optimization in Proteomicsdb

A Computational Approach for Defining a Signature of Β-Cell Golgi Stress in Diabetes Mellitus

Genetic and Genomic Analysis of Hyperlipidemia, Obesity and Diabetes Using (C57BL/6J × TALLYHO/Jngj) F2 Mice

Variation in Protein Coding Genes Identifies Information

1 Title 1 Loss of PABPC1 Is Compensated by Elevated PABPC4

RAB9 Antibody (R32125)

Bioinformatics Analysis for the Identification of Differentially Expressed Genes and Related Signaling Pathways in H

Human Induced Pluripotent Stem Cell–Derived Podocytes Mature Into Vascularized Glomeruli Upon Experimental Transplantation

Mapping of Craniofacial Traits in Outbred Mice Identifies Major Developmental Genes Involved in Shape Determination

INTS14 Form a Functional Module of Integrator That Binds Nucleic Acids and the Cleavage Module

Understanding and Improving the Identification of Somatic Variants

Mouse Rabepk Conditional Knockout Project (CRISPR/Cas9)

Proteomicsdb: a Multi-Omics and Multi-Organism Resource for Life Science