Semiautomatische Erstellung Semantischer Netze
Total Page:16
File Type:pdf, Size:1020Kb
Semiautomatische Erstellung semantischer Netze Dissertation zur Erlangung des Doktorgrades (Dr. rer. nat.) der Mathematisch-Naturwissenschaftlichen Fakult¨at der Rheinischen Friedrich-Wilhelms-Universit¨at Bonn vorgelegt von Lars Br¨ocker aus Ratzeburg Bonn, Juni 2008 2 Angefertigt mit Genehmigung der Mathematisch-Naturwissenschaftlichen Fakult¨at der Rhei- nischen Friedrich-Wilhelms-Universit¨at Bonn. Diese Dissertation ist auf dem Hochschulschriftenserver der ULB Bonn unter http://hss. ulb.uni-bonn.de/diss_online elektronisch publiziert. Erstgutachter: Prof. Dr. Armin B. Cremers Zweitgutachter: Prof. Dr. Stefan Wrobel Tag der Promotion: 5. Dezember 2008 Erscheinungsjahr: 2008 Zusammenfassung Diese Dissertation besch¨aftigt sich mit der Erforschung von Verfahren zur semiautomati- schen Erstellung von Ontologien fur¨ digital vorliegende Dokumentensammlungen, um den Prozess der semantischen Erschließung solcher Sammlungen zu erleichtern und so einen besseren Zugang zu den enthaltenen Informationen zu erm¨oglichen. Auf Basis der Ergebnisse einer automatischen Eigennamenerkennung fur¨ verschiedene Arten von Eigennamen wird ein Verfahren zur unuberwachten¨ statistischen Relationserken- nung entwickelt und vorgestellt. Eine vom Nutzer ausgew¨ahlte Teilmenge der gefundenen Relationen wird anschließend automatisch zusammen mit den erkannten Eigennamen in eine Ontologie uberf¨ uhrt,¨ mit der die Inhalte der Sammlung repr¨asentiert werden k¨onnen. Diese Verfahren werden in eine Systemarchitektur eingebettet, mit der sich eine weit- gehend automatisierte semantische Erschließung eines digital vorliegenden Dokumenten- bestands durchfuhren¨ l¨asst und die die Navigation in der Sammlung uber¨ eine Wiki- Schnittstelle erm¨oglicht. Die Architektur basiert auf Web Services, wodurch sowohl die Erweiterung des Systems vereinfacht als auch die lastabh¨angige Verteilung der einzelnen Komponenten erm¨oglicht wird. Die drei Hauptbeitr¨age dieser Arbeit sind: Ein Verfahren zur automatischen Relati- onserkennung auf annotierten Textdokumenten, ein Verfahren zur semiautomatischen Um- wandlung erkannter Relationsinstanzen in eine Ontologie sowie eine Systemarchitektur, die den gesamten Arbeitsablauf vom Import der Dokumente bis zur Web-Pr¨asentation abdeckt. i ii Danksagungen Keine wissenschaftliche Arbeit entsteht im luftleeren Raum - diese Dissertation macht da keine Ausnahme. An dieser Stelle m¨ochte ich mich bei den Personen bedanken, ohne deren Unterstutzung¨ diese Arbeit nicht h¨atte geschrieben werden k¨onnen. Zuvorderst gebuhrt¨ Dank Professor Armin B. Cremers, Professor Stefan Wrobel, Pro- fessor Wolfgang Hoeppner und Professor Bernhard Schr¨oder fur¨ die Ubernahme¨ der Be- treuung. Danach m¨ochte ich mich bei meinen Kollegen im Fraunhofer IAIS bedanken: Bei Dr. Joachim K¨ohler und Peter Wunderling fur¨ die mir fur¨ die Forschung er¨offneten Freir¨aume, bei Marion Borowski, Thomas Tikwinski und Dr. Gerhard Paaß fur¨ die stete Bereitschaft zur fachlichen Diskussion und ihre inhaltlichen Anregungen und bei Dieter Strecker und Stefan Paal fur¨ ihre Unterstutzung¨ bei der Implementierung der verschiedenen Systeme. An den Arbeiten hat eine Reihe von Studierenden Teil gehabt, an dieser Stelle Dank an Andreas Bertram, Markus Birnbaum, David Greiff, Barbara Krausz, Marina Reinus, Maren Scheffel, und Kerstin Schmidt. Desweiteren m¨ochte ich mich bei den Projektpartnern des WIKINGER-Projekts bedan- ken, n¨amlich bei Dr. Marc R¨ossler und Dr. Andreas Wagner vom Lehrstuhl fur¨ Compu- terlinguistik der Universit¨at Duisburg-Essen, sowie bei den Mitarbeitern der Kommission fur¨ Zeitgeschichte, Dr. Andreas Burtscheidt, Dr. Bernhard Frings, Dr. Christoph K¨osters, sowie ihrem Leiter, Dr. Karl-Joseph Hummel. Schließlich m¨ochte ich mich bei den beiden Menschen bedanken, die wahrscheinlich den meisten Anteil an der Fertigstellung dieser Arbeit haben: Bei meiner Ehefrau Petra, die sich in den letzten drei Jahren damit arrangieren musste, dass die Wochenenden fur¨ Onto- logien, Web Services und das Semantic Web verplant waren. Trotzdem hat sie mich ange- spornt, Erkl¨arungsversuche arkaner Technologien ertragen und heldenhaft erste Fassungen der einzelnen Kapitel Korrektur gelesen. Schlussendlich ist da noch Johanna Elisabeth, de- ren Geburt unsere kleine Familie komplett gemacht hat und ein uberw¨ ¨altigendes Incentive fur¨ die rasche Fertigstellung der Arbeit darstellte. Allen Genannten sei herzlich gedankt – sowie all jenen, die ich im Eifer des Gefechts hier aufzufuhren¨ vergessen habe. Danke Euch/Ihnen allen! iii iv Bonn, im Juni 2008 Inhaltsverzeichnis 1 Einfuhrung¨ 1 2 Problemstellung 9 2.1 ZielederDissertation. .. 9 2.1.1 Semi-automatische Erstellung semantischer Netze . ........ 10 2.1.2 Infrastruktur .............................. 11 2.1.3 Nutzung der semantischen Netze . 12 2.2 Herausforderungen ............................... 13 2.2.1 Netzerstellung.............................. 14 2.2.2 Infrastruktur .............................. 17 2.2.3 Nutzung der semantischen Netze . 19 2.3 Anforderungen an eine L¨osung......................... 21 2.3.1 Anforderungen im Bereich Netzerstellung . ..... 21 2.3.2 Anforderungen im Bereich Infrastruktur . .... 23 2.3.3 Anforderungen im Bereich Nutzung . 24 2.4 Zusammenfassung................................ 26 3 Grundlagen 29 3.1 StandardsundSpezifikationen . ... 29 3.1.1 ISO13250:2003TopicMaps . 30 3.1.2 Resource DescriptionFramework(RDF) . .. 36 3.1.3 RDFSchema(RDFS) ......................... 41 v vi INHALTSVERZEICHNIS 3.1.4 OWL-WebOntologyLanguage. 42 3.1.5 SPARQL................................. 46 3.2 Begriffserkl¨arungen ............................... 50 3.2.1 Ontologien................................ 50 3.3 Algorithmen&Technologien. .. 51 3.3.1 Assoziationsregeln ........................... 52 3.3.2 DerApriori-Algorithmus . 53 3.3.3 tf*idf................................... 53 3.3.4 Wiki-Systeme .............................. 54 4 Related Work 57 4.1 Ontologie-Lernsysteme . .. 57 4.1.1 Text-To-Onto .............................. 57 4.1.2 Text-2-Onto............................... 58 4.1.3 OntoMiner................................ 60 4.1.4 OntoLearn................................ 61 4.1.5 Bewertung................................ 62 4.2 Ontologie-Editoren .............................. 62 4.2.1 Prot´eg´e ................................. 63 4.2.2 OntoEdit ................................ 64 4.2.3 OilEd .................................. 65 4.2.4 Bewertung................................ 65 4.3 VerfahrenzumRelationslernen. .... 66 4.3.1 Co-OccurrenceMethoden . 67 4.3.2 MachineLearning............................ 69 4.3.3 Bewertung................................ 72 4.4 Semantische Wiki-Systeme . .. 73 4.4.1 SemanticMediaWiki . .. .. 74 INHALTSVERZEICHNIS vii 4.4.2 Rhizome................................. 75 4.4.3 OntoWiki ................................ 77 4.4.4 PlatypusWiki.............................. 78 4.4.5 Bewertung................................ 79 4.5 WeiteresUmfeld................................. 80 4.6 Zusammenfassung................................ 81 5 Semiautomatische Erstellung semantischer Netze 83 5.1 Vorbemerkungen ................................ 83 5.2 Netzerstellung.................................. 84 5.2.1 FormaleBeschreibung . 85 5.2.2 Workflow ................................ 88 5.2.3 Import und Verarbeitung von Konzepten . .. 89 5.2.4 Import unterschiedlicher Datenformate . ..... 91 5.2.5 Automatische Eigennamenerkennung . .. 94 5.2.6 Semiautomatische Relationserkennung . .... 95 5.2.7 Netzerstellung.............................. 103 5.3 Infrastruktur .................................. 107 5.3.1 ErweiterbareArchitektur. 107 5.3.2 Performanz der semantischen Suche . 112 5.3.3 Performanz der internen Algorithmen . 114 5.4 Nutzung..................................... 117 5.4.1 Definition von Sichten auf das Netz . 119 5.4.2 SemantischeSuche . .. .. 120 5.4.3 Unterstutzung¨ dynamischer Datenbest¨ande.............. 124 5.5 Zusammenfassung................................ 128 6 Systeme zur Erstellung von Ontologien 129 6.1 WIKINGER................................... 129 viii INHALTSVERZEICHNIS 6.1.1 Das e-Science-Programm des BMBF . 130 6.1.2 Projektuberblick¨ ............................ 131 6.1.3 Ansatz.................................. 133 6.1.4 Architektur ............................... 137 6.2 WIKINGER-Komponenten mit Dissertationsbezug . ...... 142 6.2.1 HarvesterService ............................ 142 6.2.2 Weitere Importschnittstellen . 144 6.2.3 WALU.................................. 145 6.2.4 Annotationsserver. .. .. 146 6.2.5 Semiautomatische Relationserkennung . .... 147 6.2.6 Ontologieverwaltung . 153 6.3 Automatische Ontologieerstellung . ...... 157 6.3.1 Ausgangslage .............................. 158 6.3.2 SemantischeFilterung . 159 6.3.3 Ansatz.................................. 161 6.3.4 Experimente............................... 164 6.4 Zusammenfassung................................ 167 7 Evaluierung 169 7.1 Relationserkennung . .. .. 169 7.1.1 Vorbemerkungen ............................ 169 7.1.2 Qualit¨atderRelationserkennung. 170 7.1.3 Geschwindigkeit............................. 173 7.1.4 Nutzerschnittstelle . 175 7.2 Relationsklassifikation . 177 7.2.1 Vorbemerkungen ............................ 177 7.2.2 Qualit¨atderKlassifikation . 177 7.2.3 Geschwindigkeit............................. 179 INHALTSVERZEICHNIS ix 7.3 Netzerstellung.................................. 180 7.3.1 Geschwindigkeit............................. 180 7.4 Zusammenfassung...............................