
Projektgruppe Intelligence Service PG Bericht 24. September 2008 Veranstalter: Lehrstuhl 8, Universit¨at Dortmund Betreuer: Prof. Dr. Katharina Morik Dipl.-Inform. Felix Jungermann Teilnehmer: Baumann, Bj¨orn B¨ohmer, Martin Firstein, Roman Fritsch, Regina Gunal,¨ Emel Guner,¨ Mustafa Kaz, Erkan Koloch, Rafael Kubatz, Marius Viefhues, Alexander Zhu, Qingchui Inhaltsverzeichnis 1 Einfuhrung¨ 17 1.1 Aufgabenstellung.................................. 17 1.2 Methoden der Named Entity Recognition.................... 18 1.2.1 Ubersicht¨ .................................. 18 1.2.2 Hidden Markov Model........................... 23 1.2.3 Maximum Entropy Markov Models.................... 37 1.2.4 Conditional Random Fields........................ 38 1.3 Methoden der Indexierung und Information Retrieval.............. 42 1.3.1 Indexierung................................. 42 1.3.2 Suchmaschinen............................... 45 1.3.3 Lernende Suchmaschinen......................... 55 1.4 Maschinelle Lernverfahren............................. 62 1.4.1 SVM..................................... 62 1.4.2 SVM struct................................. 69 1.4.3 Clustering.................................. 74 1.5 Relation Extraction auf unstrukturierten Texten................ 86 1.5.1 Einfuhrung¨ ................................. 86 1.5.2 Anwendungsbeispiel: TEXTRUNNER.................. 89 1.5.3 Dependency Tree.............................. 94 1.5.4 SVM Methoden............................... 95 1.5.5 Kernel Methoden.............................. 98 1.6 Semantic Role Labeling.............................. 99 1.6.1 Semantische Rollen............................. 99 1.6.2 Automatisches Zuweisen von semantischen Rollen............ 101 1.6.3 CoNLL2005 - Shared Task......................... 112 1.6.4 Fazit..................................... 114 1.7 Treebank...................................... 116 1.7.1 Einfuhrung¨ ................................. 116 1.7.2 Verallgemeinerte Treebank........................ 117 1.7.3 PropBank.................................. 122 1.7.4 NomBank.................................. 127 1.7.5 TIGER Baumbank............................. 133 1.7.6 TIGERSearch................................ 138 1.7.7 Event Extraction.............................. 141 1.8 Theorie der Fragebeantwortung.......................... 145 1.8.1 Einleitung.................................. 145 1.8.2 Fragekomplexit¨at.............................. 145 1.8.3 Antworttypen-Modell........................... 145 1.8.4 Ablauf der Fragebeantwortung...................... 147 iii 1.9 TREC........................................ 148 1.9.1 Was ist TREC?............................... 148 1.9.2 Durchfuhrung¨ ................................ 148 1.9.3 Welche Fragetypen gibt es?........................ 148 1.9.4 Nugget-Pyramide.............................. 150 1.9.5 ciQA-Durchfuhrung¨ ............................ 150 1.9.6 Interaktion mit Nutzer........................... 151 1.9.7 Ergebnisse.................................. 151 1.10 Dictionaries..................................... 152 1.10.1 Einleitung.................................. 152 1.11 Frageformen..................................... 159 1.11.1 Erg¨anzungsfrage.............................. 159 1.11.2 Entscheidungsfragen............................ 160 1.11.3 Direkte Fragen............................... 161 1.11.4 Indirekte Frage............................... 161 1.11.5 Offene Fragen................................ 161 1.11.6 geschlossenen Fragen............................ 161 1.11.7 weitere Fragen............................... 161 1.11.8 statistischen-Fragen............................ 162 1.12 Anwendungsbereich................................ 162 1.12.1 Aufbau und Themen............................ 162 1.12.2 IR relevante Dienste............................ 164 1.12.3 Vorg¨ange.................................. 170 1.12.4 Dokumente................................. 173 2 Systementwurf 177 2.1 Das System in prozessorientierter Sicht...................... 177 2.1.1 Akquisition- und Extraktionssystem (AES)............... 177 2.1.2 Fragebeantwortungssystem (FBS).................... 179 2.1.3 Prozessorientierung und UML....................... 179 2.2 Architektur..................................... 179 2.2.1 Design Entscheidungen.......................... 179 2.2.2 Dekomposition der Architektur...................... 180 2.3 Statisches Package Modell............................. 185 2.4 Das Repository und seine Datenstrukturen................... 187 2.4.1 Das Repository............................... 187 2.4.2 Datenbanken und Verzeichnisse...................... 188 2.4.3 Datenstrukturen und Dateiformate.................... 191 2.4.4 Physikalische Struktur........................... 193 2.5 Prozess Modell und Beziehungen zwischen den Subsystemen.......... 195 2.5.1 Grunds¨atzliches zu atomaren Prozessen................. 195 2.5.2 Datenakquisition.............................. 196 2.5.3 Prozesse der Informationsextraktion................... 196 2.5.4 Fragebeantwortung............................. 200 3 Datenakquisition 205 3.1 Corpus-Erstellung................................. 205 iv 3.1.1 Umwandlung von PDF zu regular ASCII................ 205 3.1.2 Umwandlung von regular ASCII zu WTF................ 207 3.1.3 Der FileWorker............................... 208 3.2 Erstellen der Trainingsdaten............................ 212 3.3 Sentence Splitter.................................. 213 3.3.1 Grundlegendes............................... 213 3.3.2 Problematik der Satzendeerkennung................... 213 3.3.3 Satzenden in den Dokumenten des Dt. Bundestags........... 214 3.3.4 Markierung von Satzenden........................ 214 3.3.5 Betrachtung der W¨orter im Sliding Window Verfahren......... 214 3.3.6 Satzendeerkennung mit Regular Expressions und W¨orterbuchern¨ ... 214 3.3.7 Ergebnisse.................................. 215 4 Informationsextraktion 217 4.1 Information automatische Extraction aus HTML................ 217 4.1.1 HTML Datei lesen............................. 217 4.1.2 Umwandlung von HTML mit einigen Regeln zu XML......... 217 4.1.3 Benutze zum Umwandeln fur¨ MOPs mit HtmltoXml.......... 217 4.1.4 IdErzeugen (PersonIdErzeugen.java)................... 226 4.1.5 MOPsZugriff................................ 226 4.1.6 Seitenbeschaffung.............................. 228 4.1.7 Automatischem Update.......................... 228 4.2 NER......................................... 228 4.2.1 Entit¨aten.................................. 228 4.2.2 Rapid Miner, IE-Plugin.......................... 232 4.3 Events........................................ 238 4.3.1 Allgemeine Definition........................... 238 4.3.2 Event-Schemata.............................. 238 4.3.3 Relationen zwischen Events........................ 242 4.3.4 Relation Extraction am Beispiel von Abstimmungen.......... 244 4.4 Datenextraktion.................................. 247 4.4.1 Extraktion von Relationen zwischen Protokollen und Drucksachen.. 247 4.4.2 Vorgehensweise der Referenz-Extraktion................. 249 4.4.3 Der umgedrehte Fall: BTD2BTP..................... 249 4.4.4 Extraktion von Reden........................... 249 4.4.5 Der Prozess der Reden-Extraktion.................... 251 4.4.6 Extraktion von Abstimmungen...................... 254 4.4.7 Extraktion der Attribute aus Drucksachen................ 257 4.4.8 BundestagLookUp............................. 259 5 Systemkomponenten 262 5.1 Lexical Tree (L-Tree)................................ 262 5.2 Lucene........................................ 265 5.3 WT2XML...................................... 267 5.4 Graphical User Interface.............................. 270 5.5 Queryfacade..................................... 278 5.5.1 Konzept................................... 278 v 5.5.2 Architektur................................. 278 5.5.3 Fragevorschau................................ 280 5.5.4 Fragebeantwortungssystem........................ 280 5.6 Dossier........................................ 284 5.6.1 Aufgabe................................... 284 5.6.2 Realisierung................................. 286 5.6.3 Packages................................... 286 5.6.4 GUI Design und Anwendungsf¨alle.................... 289 5.6.5 Anmerkungen zur Performanz und Anekdoten............. 291 5.7 PartyNator..................................... 292 5.8 Datens¨atze..................................... 293 5.8.1 Aufbau................................... 293 5.8.2 Grafische Oberfl¨ache............................ 293 5.8.3 Anfrage................................... 295 5.8.4 .dat und .aml Dateien........................... 295 5.9 Eigenentwicklungen................................. 296 5.9.1 Event Cutter................................ 296 6 Fragebeantwortung 300 6.1 Manuelle Fragebeantwortung........................... 300 6.1.1 Einleitung.................................. 300 6.1.2 Konkretes Beispiel............................. 300 6.2 Frage Eingabe.................................... 304 6.2.1 Freie Frageeingabe............................. 304 6.2.2 Strukturierte Frageeingabe........................ 305 6.3 Warum Fragen................................... 306 6.3.1 Die Basis.................................. 306 6.3.2 Die Bedingung............................... 306 6.3.3 Der Ablauf................................. 306 6.3.4 Operatodetails............................... 307 7 Evaluation 309 7.1 Bewertung auf Grundlage der Aufgabenstellung................. 309 7.2 Bewertung auf Grundlage der Website
Details
-
File Typepdf
-
Upload Time-
-
Content LanguagesEnglish
-
Upload UserAnonymous/Not logged-in
-
File Pages320 Page
-
File Size-