Semiautomatische Erstellung Semantischer Netze

Semiautomatische Erstellung semantischer Netze Dissertation zur Erlangung des Doktorgrades (Dr. rer. nat.) der Mathematisch-Naturwissenschaftlichen Fakultät der Rheinischen Friedrich-Wilhelms-Universität Bonn vorgelegt von Lars Bröcker aus Ratzeburg Bonn, Juni 2008 2 Angefertigt mit Genehmigung der Mathematisch-Naturwissenschaftlichen Fakultät der Rhei- nischen Friedrich-Wilhelms-Universität Bonn. Diese Dissertation ist auf dem Hochschulschriftenserver der ULB Bonn unter http://hss. ulb.uni-bonn.de/diss_online elektronisch publiziert. Erstgutachter: Prof. Dr. Armin B. Cremers Zweitgutachter: Prof. Dr. Stefan Wrobel Tag der Promotion: 5. Dezember 2008 Erscheinungsjahr: 2008 Zusammenfassung Diese Dissertation beschäftigt sich mit der Erforschung von Verfahren zur semiautomatischen Erstellung von Ontologien fur¨ digital vorliegende Dokumentensammlungen, um den Prozess der semantischen Erschließung solcher Sammlungen zu erleichtern und so einen besseren Zugang zu den enthaltenen Informationen zu ermöglichen. Auf Basis der Ergebnisse einer automatischen Eigennamenerkennung fur¨ verschiedene Arten von Eigennamen wird ein Verfahren zur unuberwachten¨ statistischen Relationserken- nung entwickelt und vorgestellt. Eine vom Nutzer ausgewählte Teilmenge der gefundenen Relationen wird anschließend automatisch zusammen mit den erkannten Eigennamen in eine Ontologie uberf¨ uhrt,¨ mit der die Inhalte der Sammlung repräsentiert werden können. Diese Verfahren werden in eine Systemarchitektur eingebettet, mit der sich eine weit- gehend automatisierte semantische Erschließung eines digital vorliegenden Dokumenten- bestands durchfuhren¨ lässt und die die Navigation in der Sammlung uber¨ eine Wiki- Schnittstelle ermöglicht. Die Architektur basiert auf Web Services, wodurch sowohl die Erweiterung des Systems vereinfacht als auch die lastabhängige Verteilung der einzelnen Komponenten ermöglicht wird. Die drei Hauptbeiträge dieser Arbeit sind: Ein Verfahren zur automatischen Relati- onserkennung auf annotierten Textdokumenten, ein Verfahren zur semiautomatischen Um- wandlung erkannter Relationsinstanzen in eine Ontologie sowie eine Systemarchitektur, die den gesamten Arbeitsablauf vom Import der Dokumente bis zur Web-Präsentation abdeckt. i ii Danksagungen Keine wissenschaftliche Arbeit entsteht im luftleeren Raum - diese Dissertation macht da keine Ausnahme. An dieser Stelle möchte ich mich bei den Personen bedanken, ohne deren Unterstutzung¨ diese Arbeit nicht hätte geschrieben werden können. Zuvorderst gebuhrt¨ Dank Professor Armin B. Cremers, Professor Stefan Wrobel, Pro- fessor Wolfgang Hoeppner und Professor Bernhard Schröder fur¨ die Ubernahme¨ der Be- treuung. Danach möchte ich mich bei meinen Kollegen im Fraunhofer IAIS bedanken: Bei Dr. Joachim Köhler und Peter Wunderling fur¨ die mir fur¨ die Forschung eröffneten Freiräume, bei Marion Borowski, Thomas Tikwinski und Dr. Gerhard Paaß fur¨ die stete Bereitschaft zur fachlichen Diskussion und ihre inhaltlichen Anregungen und bei Dieter Strecker und Stefan Paal fur¨ ihre Unterstutzung¨ bei der Implementierung der verschiedenen Systeme. An den Arbeiten hat eine Reihe von Studierenden Teil gehabt, an dieser Stelle Dank an Andreas Bertram, Markus Birnbaum, David Greiff, Barbara Krausz, Marina Reinus, Maren Scheffel, und Kerstin Schmidt. Desweiteren möchte ich mich bei den Projektpartnern des WIKINGER-Projekts bedanken, nämlich bei Dr. Marc Rössler und Dr. Andreas Wagner vom Lehrstuhl fur¨ Compu- terlinguistik der Universität Duisburg-Essen, sowie bei den Mitarbeitern der Kommission fur¨ Zeitgeschichte, Dr. Andreas Burtscheidt, Dr. Bernhard Frings, Dr. Christoph Kösters, sowie ihrem Leiter, Dr. Karl-Joseph Hummel. Schließlich möchte ich mich bei den beiden Menschen bedanken, die wahrscheinlich den meisten Anteil an der Fertigstellung dieser Arbeit haben: Bei meiner Ehefrau Petra, die sich in den letzten drei Jahren damit arrangieren musste, dass die Wochenenden fur¨ Onto- logien, Web Services und das Semantic Web verplant waren. Trotzdem hat sie mich ange- spornt, Erklärungsversuche arkaner Technologien ertragen und heldenhaft erste Fassungen der einzelnen Kapitel Korrektur gelesen. Schlussendlich ist da noch Johanna Elisabeth, deren Geburt unsere kleine Familie komplett gemacht hat und ein uberw¨ ältigendes Incentive fur¨ die rasche Fertigstellung der Arbeit darstellte. Allen Genannten sei herzlich gedankt – sowie all jenen, die ich im Eifer des Gefechts hier aufzufuhren¨ vergessen habe. Danke Euch/Ihnen allen! iii iv Bonn, im Juni 2008 Inhaltsverzeichnis 1 Einfuhrung¨ 1 2 Problemstellung 9 2.1 ZielederDissertation. .. 9 2.1.1 Semi-automatische Erstellung semantischer Netze . ........ 10 2.1.2 Infrastruktur .............................. 11 2.1.3 Nutzung der semantischen Netze . 12 2.2 Herausforderungen ............................... 13 2.2.1 Netzerstellung.............................. 14 2.2.2 Infrastruktur .............................. 17 2.2.3 Nutzung der semantischen Netze . 19 2.3 Anforderungen an eine Lösung......................... 21 2.3.1 Anforderungen im Bereich Netzerstellung . ..... 21 2.3.2 Anforderungen im Bereich Infrastruktur . .... 23 2.3.3 Anforderungen im Bereich Nutzung . 24 2.4 Zusammenfassung................................ 26 3 Grundlagen 29 3.1 StandardsundSpezifikationen . ... 29 3.1.1 ISO13250:2003TopicMaps . 30 3.1.2 Resource DescriptionFramework(RDF) . .. 36 3.1.3 RDFSchema(RDFS) ......................... 41 v vi INHALTSVERZEICHNIS 3.1.4 OWL-WebOntologyLanguage. 42 3.1.5 SPARQL................................. 46 3.2 Begriffserklärungen ............................... 50 3.2.1 Ontologien................................ 50 3.3 Algorithmen&Technologien. .. 51 3.3.1 Assoziationsregeln ........................... 52 3.3.2 DerApriori-Algorithmus . 53 3.3.3 tf*idf................................... 53 3.3.4 Wiki-Systeme .............................. 54 4 Related Work 57 4.1 Ontologie-Lernsysteme . .. 57 4.1.1 Text-To-Onto .............................. 57 4.1.2 Text-2-Onto............................... 58 4.1.3 OntoMiner................................ 60 4.1.4 OntoLearn................................ 61 4.1.5 Bewertung................................ 62 4.2 Ontologie-Editoren .............................. 62 4.2.1 Protégé ................................. 63 4.2.2 OntoEdit ................................ 64 4.2.3 OilEd .................................. 65 4.2.4 Bewertung................................ 65 4.3 VerfahrenzumRelationslernen. .... 66 4.3.1 Co-OccurrenceMethoden . 67 4.3.2 MachineLearning............................ 69 4.3.3 Bewertung................................ 72 4.4 Semantische Wiki-Systeme . .. 73 4.4.1 SemanticMediaWiki . .. .. 74 INHALTSVERZEICHNIS vii 4.4.2 Rhizome................................. 75 4.4.3 OntoWiki ................................ 77 4.4.4 PlatypusWiki.............................. 78 4.4.5 Bewertung................................ 79 4.5 WeiteresUmfeld................................. 80 4.6 Zusammenfassung................................ 81 5 Semiautomatische Erstellung semantischer Netze 83 5.1 Vorbemerkungen ................................ 83 5.2 Netzerstellung.................................. 84 5.2.1 FormaleBeschreibung . 85 5.2.2 Workflow ................................ 88 5.2.3 Import und Verarbeitung von Konzepten . .. 89 5.2.4 Import unterschiedlicher Datenformate . ..... 91 5.2.5 Automatische Eigennamenerkennung . .. 94 5.2.6 Semiautomatische Relationserkennung . .... 95 5.2.7 Netzerstellung.............................. 103 5.3 Infrastruktur .................................. 107 5.3.1 ErweiterbareArchitektur. 107 5.3.2 Performanz der semantischen Suche . 112 5.3.3 Performanz der internen Algorithmen . 114 5.4 Nutzung..................................... 117 5.4.1 Definition von Sichten auf das Netz . 119 5.4.2 SemantischeSuche . .. .. 120 5.4.3 Unterstutzung¨ dynamischer Datenbestände.............. 124 5.5 Zusammenfassung................................ 128 6 Systeme zur Erstellung von Ontologien 129 6.1 WIKINGER................................... 129 viii INHALTSVERZEICHNIS 6.1.1 Das e-Science-Programm des BMBF . 130 6.1.2 Projektuberblick¨ ............................ 131 6.1.3 Ansatz.................................. 133 6.1.4 Architektur ............................... 137 6.2 WIKINGER-Komponenten mit Dissertationsbezug . ...... 142 6.2.1 HarvesterService ............................ 142 6.2.2 Weitere Importschnittstellen . 144 6.2.3 WALU.................................. 145 6.2.4 Annotationsserver. .. .. 146 6.2.5 Semiautomatische Relationserkennung . .... 147 6.2.6 Ontologieverwaltung . 153 6.3 Automatische Ontologieerstellung . ...... 157 6.3.1 Ausgangslage .............................. 158 6.3.2 SemantischeFilterung . 159 6.3.3 Ansatz.................................. 161 6.3.4 Experimente............................... 164 6.4 Zusammenfassung................................ 167 7 Evaluierung 169 7.1 Relationserkennung . .. .. 169 7.1.1 Vorbemerkungen ............................ 169 7.1.2 QualitätderRelationserkennung. 170 7.1.3 Geschwindigkeit............................. 173 7.1.4 Nutzerschnittstelle . 175 7.2 Relationsklassifikation . 177 7.2.1 Vorbemerkungen ............................ 177 7.2.2 QualitätderKlassifikation . 177 7.2.3 Geschwindigkeit............................. 179 INHALTSVERZEICHNIS ix 7.3 Netzerstellung.................................. 180 7.3.1 Geschwindigkeit............................. 180 7.4 Zusammenfassung...............................

Semiautomatische Erstellung Semantischer Netze

J2EE Development Standards

Javaedge Setup and Installation

Full-Graph-Limited-Mvn-Deps.Pdf

Abkürzungs-Liste ABKLEX

Doktora Tezi

Introducing the Spring Framework

Architectural, Technological and Performance Issues in Enterprise Applications

Introduction to Spring 2 and JPA Explore the Spring 2 Framework and the Java Persistence API with Eclipse and DB2 Express-C

Beginning Pojo.Pdf

ASF FY2021 Annual Report

Reference Documentation

Hyperion System 9 BI+ Application Builder Administrator's Guide