TECHNISCHE UNIVERSITÄT MÜNCHEN Large Scale
Total Page:16
File Type:pdf, Size:1020Kb
TECHNISCHE UNIVERSITÄT MÜNCHEN Lehrstuhl für Genomorientierte Bioinformatik Large Scale Knowledge Extraction from Biomedical Literature Based on Semantic Role Labeling Thorsten Barnickel Vollständiger Abdruck der von der Fakultät Wissenschaftszentrum Weihenstephan für Ernährung, Landnutzung und Umwelt der Technischen Universität München zur Erlangung des akademischen Grades eines Doktors der Naturwissenschaften genehmigten Dissertation. Vorsitzende: Univ.‐Prof. Dr. I. Antes Prüfer der Dissertation: 1. Univ.‐Prof. Dr. H.‐W. Mewes 2. Univ.‐Prof. Dr. R. Zimmer (Ludwig‐Maximilians‐Universität München) Die Dissertation wurde am 30. Juli bei der Technischen Universität München eingereicht und durch die Fakultät Wissenschaftszentrum Weihenstephan für Ernährung, Landnutzung und Umwelt am 25. November 2009 angenommen. ACKNOWLEDGEMENTS First and foremost, I would like to express my deep gratitude to my promoter Dr. Volker Stümpflen. Without his continuing, stimulating encouragement and his excellent background in Enterprise technologies still being predominantly used in the IT-industry rather than in academic research, I would not have been able to finish my doctorate in the presented form. Facing the tremendous amount of data that was generated by gathering the positional information of millions of biomedical terms, I was close to cutting the project down to a notably smaller version compared to the text mining system presented in this thesis. Volkers knowledge on database servers and performance tuning significantly contributed to the development of a database schema finally being able to cope with the immense amount of data. I would also like to cordially thank Prof. Dr. Hans-Werner Mewes, head of the Institute for Bioinformatics and Systems Biology (IBIS), for giving me the opportunity to do my doctorate at his institute and for his friendly support and encouragement all along my time at IBIS. His critical and constructive reviewing of my paper submissions helped me a lot to structure my writings and lines of thought. I would like to thank Prof. Mewes especially for his continuous support and trust in my work and for providing me with two high performance database servers without which my text mining system would not be able, despite the database schema, to process the generated amount of data in an acceptable frame of time. At this place I also want to thank Prof. Dr. Ralf Zimmer who, together with Prof. Mewes, supported my work by participating in the Ph. D. committee and by reviewing the presented thesis. My particular thanks to my former and present colleagues for valuable suggestions, discussions and the inspiring, cooperative working atmosphere here at MIPS: Dr. Karamfilka Nenova, Dr. Thorsten Schmidt, Roland Arnold, Florian Büttner, Mara Hartsperger, Dr. Thomas Rattei, Dr. Matthias Oesterheld, Sebastian Toepel, Dr. Gabi Kastenmüller, Daniel Ellwanger, Richard Gregory, Dr. Igor V. Rodchenkov, Octave Noubibou, Martin Münsterkötter, Nadine Albrecht and Benedikt Wachinger. I also would like to thank all other staff members for the good atmosphere, especially Petra Fuhrmann and Elisabeth Noheimer for their support regarding all administrative issues and Dr. Corinna Montrone and Irmtraud Dunger for their help in evaluating my system. I owe my deepest gratitude to my parents for their continuous encouragement and support, in particular for giving me the opportunity to study three additional semesters of bioinformatics at the TFH Berlin. For the same reason, I would like to sincerely thank Prof. Dr. Ina Koch, head of the bioinformatics course at the TFH Berlin, for establishing this field of study at the TFH and for guiding my first steps in this new domain, and to Dr. Bertram Weiss, the supervisor of my master thesis at the Schering AG, for his excellent support and his encouragement to apply to Prof. Hans-Werner Mewes for a postgraduate position. DEDICATION To my father. For perpetual support, encouragement and arousing my curiosity for science ABSTRACT Due to the growing amount of literature, the need for automated extraction of relations between genes, metabolites and phenotypes from natural language text has steadily been increasing over the last years. A number of tools addressing this task has been developed ranging from document clustering to relation extraction approaches based on cooccurrence or syntactical information. Several algorithms for each of the many steps required for extracting knowledge from natural language texts have been developed and improved. In order to bring text mining from theory to practice, developing optimized solutions for the individual tasks of text mining does not suffice. Problems regarding the processing speed on large text corpora such as MEDLINE, of adequate data integration and representation also have to be addressed. There exist a couple of text mining solutions for a variety of specialized relation extraction tasks making use of a broad range of different approaches. However, the number of freely available, ready-to-use text mining systems is comparatively limited and the number of relation- and entity- types covered by existing systems does not meet the demands of biologists and medical practitioners trying to understand complex biological processes and multifactorial diseases. This doctorate aimed at the development of a broad scale text mining approach covering a multitude of relation as well as entity types. The resulting text mining system EXCERBT was developed, optimized and evaluated in hindsight on practical usability rather than on optimized precision or recall values for a singular relation extraction task. These usability criteria include relation extraction accuracy and processing time but also data integration, coverage and extensibility aspects. EXCERBT is a dictionary based text mining system based on Semantic Role Labeling in combination with cooccurrence. The system covers a wide range of biomedical entity and relation types. It allows semantic queries for genes causing a certain phenotype or miRNAs inhibiting a certain gene. EXCERBT has been implemented as a component of the GeKnowME information integration system developed by Dr. Karamfilka Nenova. The extracted relations are presented in a subject-centric way and linked to their original ontological as well as textual resources. In addition to relation extraction, EXCERBT also comprises a new approach for automatically generating biomedical lexica linking terms to facts in literature by means of Semantic Role Labeling. ZUSAMMENFASSUNG Die wachsende Menge an verfügbarer Literatur hat im Laufe der vergangenen Jahre automatische Verfahren zur Extraktion von Beziehungen zwischen Genen, Metaboliten und Phenotypen verstärkt erforderlich gemacht. Eine breite Palette an Softwaretools zur Lösung dieser Aufgabe wurde entwickelt, welche von Dokumentclusteringverfahren bis hin zu Cooccurrenz- oder Syntax- basierten Verfahren zur Extraktion semantischer Beziehungen reichen. Für jeden der zahlreichen Schritte, welche für die Wissens- extraktion aus natürlichsprachigem Text erforderlich sind, wurden mehrere Algorithmen entwickelt und verbessert. Um Text Mining Lösungen zu entwickeln, die auch unter praktischen Gesichtspunkten anwendbar und von Nutzen sind, reicht die Optimierung einzelnder Schritte, die beim Textmining zum Einsatz kommen, jedoch nicht aus. Ein praxistaugliches System muss zudem in der Lage sein, sehr große Textcorpora wie MEDLINE hinreichend schnell zu verarbeiten sowie die gewonnenen Daten angemessen zu integrieren und dem Benutzer zugänglich zu machen. Gegenwärtig existiert eine Reihe von Verfahren für die (semantische) Relationsextraktion für einige, sehr spezielle Fragestellungen, bei denen verschiedene technologische Ansätze zum Einsatz kommen. Die Zahl der frei verfügbaren und in der Praxis einsatzfähigen Textmining Systeme ist dagegen vergleichsweise gering. Die Anzahl der von diesen Systemen berücksichtigten Relations- und Entitätentypen bleibt hinter den Bedürfnissen von Biologen und Medizinern, die komplexe biologische Prozesse und multifaktoriell bedingte Krankheiten verstehen wollen, zurück. Ziel dieser Doktorarbeit war die Entwicklung eines auf breiter Basis anwendbaren Textmining Systems welches eine Vielzahl an Relations- und Entitätentypen berück- sichtigt. Das aus der Arbeit hervorgehende Softwaresystem EXCERBT wurde primär im Hinblick auf praktische Anwendbarkeit entwickelt, optimiert und evaluiert, nicht hinsichtlich optimaler Precision- und Recall- Werte eines einzelnen Relations- extraktionsschrittes. Die Kriterien für die praktische Anwendbarkeit umfassen neben der Exaktheit der Relationsextraktion und der Verarbeitungsgeschwindigkeit auch Aspekte der Integrierbarkeit der gewonnenen Daten, die Anzahl der vom System berücksichtigten Entitäten- und Relationstypen sowie die Erweiterbarkeit der Softwarearchitektur. EXCERBT ist ein lexikonbasiertes Textmining System, dessen Relationsextraktionsverfahren auf Semantic Role Labeling und Cooccurrence beruht. Das System deckt eine Vielzahl biologischer Entitäten- und Relationstypen ab. Es ermöglicht semantische Suchanfragen nach Genen, die einen bestimmten Phänotyp verursachen oder nach miRNAs, die ein bestimmtes Gen inhibieren. EXCERBT wurde in der Form einer zusätzlichen Komponente des von Dr. Karamfilka Nenova entwickelten GeKnowME Informationsintegrationssystems implementiert. Die aus der Literatur gewonnenen Relationen werden in Subjekt-zentrierter Form extrahiert und dargestellt und sind mit den ihnen zugrundeliegenden ontologischen Quellen