PG520: Intelligence Service

Projektgruppe Intelligence Service PG Bericht 24. September 2008 Veranstalter: Lehrstuhl 8, Universität Dortmund Betreuer: Prof. Dr. Katharina Morik Dipl.-Inform. Felix Jungermann Teilnehmer: Baumann, Björn Böhmer, Martin Firstein, Roman Fritsch, Regina Gunal,¨ Emel Guner,¨ Mustafa Kaz, Erkan Koloch, Rafael Kubatz, Marius Viefhues, Alexander Zhu, Qingchui Inhaltsverzeichnis 1 Einfuhrung¨ 17 1.1 Aufgabenstellung.................................. 17 1.2 Methoden der Named Entity Recognition.................... 18 1.2.1 Ubersicht¨ .................................. 18 1.2.2 Hidden Markov Model........................... 23 1.2.3 Maximum Entropy Markov Models.................... 37 1.2.4 Conditional Random Fields........................ 38 1.3 Methoden der Indexierung und Information Retrieval.............. 42 1.3.1 Indexierung................................. 42 1.3.2 Suchmaschinen............................... 45 1.3.3 Lernende Suchmaschinen......................... 55 1.4 Maschinelle Lernverfahren............................. 62 1.4.1 SVM..................................... 62 1.4.2 SVM struct................................. 69 1.4.3 Clustering.................................. 74 1.5 Relation Extraction auf unstrukturierten Texten................ 86 1.5.1 Einfuhrung¨ ................................. 86 1.5.2 Anwendungsbeispiel: TEXTRUNNER.................. 89 1.5.3 Dependency Tree.............................. 94 1.5.4 SVM Methoden............................... 95 1.5.5 Kernel Methoden.............................. 98 1.6 Semantic Role Labeling.............................. 99 1.6.1 Semantische Rollen............................. 99 1.6.2 Automatisches Zuweisen von semantischen Rollen............ 101 1.6.3 CoNLL2005 - Shared Task......................... 112 1.6.4 Fazit..................................... 114 1.7 Treebank...................................... 116 1.7.1 Einfuhrung¨ ................................. 116 1.7.2 Verallgemeinerte Treebank........................ 117 1.7.3 PropBank.................................. 122 1.7.4 NomBank.................................. 127 1.7.5 TIGER Baumbank............................. 133 1.7.6 TIGERSearch................................ 138 1.7.7 Event Extraction.............................. 141 1.8 Theorie der Fragebeantwortung.......................... 145 1.8.1 Einleitung.................................. 145 1.8.2 Fragekomplexität.............................. 145 1.8.3 Antworttypen-Modell........................... 145 1.8.4 Ablauf der Fragebeantwortung...................... 147 iii 1.9 TREC........................................ 148 1.9.1 Was ist TREC?............................... 148 1.9.2 Durchfuhrung¨ ................................ 148 1.9.3 Welche Fragetypen gibt es?........................ 148 1.9.4 Nugget-Pyramide.............................. 150 1.9.5 ciQA-Durchfuhrung¨ ............................ 150 1.9.6 Interaktion mit Nutzer........................... 151 1.9.7 Ergebnisse.................................. 151 1.10 Dictionaries..................................... 152 1.10.1 Einleitung.................................. 152 1.11 Frageformen..................................... 159 1.11.1 Ergänzungsfrage.............................. 159 1.11.2 Entscheidungsfragen............................ 160 1.11.3 Direkte Fragen............................... 161 1.11.4 Indirekte Frage............................... 161 1.11.5 Offene Fragen................................ 161 1.11.6 geschlossenen Fragen............................ 161 1.11.7 weitere Fragen............................... 161 1.11.8 statistischen-Fragen............................ 162 1.12 Anwendungsbereich................................ 162 1.12.1 Aufbau und Themen............................ 162 1.12.2 IR relevante Dienste............................ 164 1.12.3 Vorgänge.................................. 170 1.12.4 Dokumente................................. 173 2 Systementwurf 177 2.1 Das System in prozessorientierter Sicht...................... 177 2.1.1 Akquisition- und Extraktionssystem (AES)............... 177 2.1.2 Fragebeantwortungssystem (FBS).................... 179 2.1.3 Prozessorientierung und UML....................... 179 2.2 Architektur..................................... 179 2.2.1 Design Entscheidungen.......................... 179 2.2.2 Dekomposition der Architektur...................... 180 2.3 Statisches Package Modell............................. 185 2.4 Das Repository und seine Datenstrukturen................... 187 2.4.1 Das Repository............................... 187 2.4.2 Datenbanken und Verzeichnisse...................... 188 2.4.3 Datenstrukturen und Dateiformate.................... 191 2.4.4 Physikalische Struktur........................... 193 2.5 Prozess Modell und Beziehungen zwischen den Subsystemen.......... 195 2.5.1 Grundsätzliches zu atomaren Prozessen................. 195 2.5.2 Datenakquisition.............................. 196 2.5.3 Prozesse der Informationsextraktion................... 196 2.5.4 Fragebeantwortung............................. 200 3 Datenakquisition 205 3.1 Corpus-Erstellung................................. 205 iv 3.1.1 Umwandlung von PDF zu regular ASCII................ 205 3.1.2 Umwandlung von regular ASCII zu WTF................ 207 3.1.3 Der FileWorker............................... 208 3.2 Erstellen der Trainingsdaten............................ 212 3.3 Sentence Splitter.................................. 213 3.3.1 Grundlegendes............................... 213 3.3.2 Problematik der Satzendeerkennung................... 213 3.3.3 Satzenden in den Dokumenten des Dt. Bundestags........... 214 3.3.4 Markierung von Satzenden........................ 214 3.3.5 Betrachtung der Wörter im Sliding Window Verfahren......... 214 3.3.6 Satzendeerkennung mit Regular Expressions und Wörterbuchern¨ ... 214 3.3.7 Ergebnisse.................................. 215 4 Informationsextraktion 217 4.1 Information automatische Extraction aus HTML................ 217 4.1.1 HTML Datei lesen............................. 217 4.1.2 Umwandlung von HTML mit einigen Regeln zu XML......... 217 4.1.3 Benutze zum Umwandeln fur¨ MOPs mit HtmltoXml.......... 217 4.1.4 IdErzeugen (PersonIdErzeugen.java)................... 226 4.1.5 MOPsZugriff................................ 226 4.1.6 Seitenbeschaffung.............................. 228 4.1.7 Automatischem Update.......................... 228 4.2 NER......................................... 228 4.2.1 Entitäten.................................. 228 4.2.2 Rapid Miner, IE-Plugin.......................... 232 4.3 Events........................................ 238 4.3.1 Allgemeine Definition........................... 238 4.3.2 Event-Schemata.............................. 238 4.3.3 Relationen zwischen Events........................ 242 4.3.4 Relation Extraction am Beispiel von Abstimmungen.......... 244 4.4 Datenextraktion.................................. 247 4.4.1 Extraktion von Relationen zwischen Protokollen und Drucksachen.. 247 4.4.2 Vorgehensweise der Referenz-Extraktion................. 249 4.4.3 Der umgedrehte Fall: BTD2BTP..................... 249 4.4.4 Extraktion von Reden........................... 249 4.4.5 Der Prozess der Reden-Extraktion.................... 251 4.4.6 Extraktion von Abstimmungen...................... 254 4.4.7 Extraktion der Attribute aus Drucksachen................ 257 4.4.8 BundestagLookUp............................. 259 5 Systemkomponenten 262 5.1 Lexical Tree (L-Tree)................................ 262 5.2 Lucene........................................ 265 5.3 WT2XML...................................... 267 5.4 Graphical User Interface.............................. 270 5.5 Queryfacade..................................... 278 5.5.1 Konzept................................... 278 v 5.5.2 Architektur................................. 278 5.5.3 Fragevorschau................................ 280 5.5.4 Fragebeantwortungssystem........................ 280 5.6 Dossier........................................ 284 5.6.1 Aufgabe................................... 284 5.6.2 Realisierung................................. 286 5.6.3 Packages................................... 286 5.6.4 GUI Design und Anwendungsfälle.................... 289 5.6.5 Anmerkungen zur Performanz und Anekdoten............. 291 5.7 PartyNator..................................... 292 5.8 Datensätze..................................... 293 5.8.1 Aufbau................................... 293 5.8.2 Grafische Oberfläche............................ 293 5.8.3 Anfrage................................... 295 5.8.4 .dat und .aml Dateien........................... 295 5.9 Eigenentwicklungen................................. 296 5.9.1 Event Cutter................................ 296 6 Fragebeantwortung 300 6.1 Manuelle Fragebeantwortung........................... 300 6.1.1 Einleitung.................................. 300 6.1.2 Konkretes Beispiel............................. 300 6.2 Frage Eingabe.................................... 304 6.2.1 Freie Frageeingabe............................. 304 6.2.2 Strukturierte Frageeingabe........................ 305 6.3 Warum Fragen................................... 306 6.3.1 Die Basis.................................. 306 6.3.2 Die Bedingung............................... 306 6.3.3 Der Ablauf................................. 306 6.3.4 Operatodetails............................... 307 7 Evaluation 309 7.1 Bewertung auf Grundlage der Aufgabenstellung................. 309 7.2 Bewertung auf Grundlage der Website

PG520: Intelligence Service

Gesetzentwurf Der Abgeordneten Hans-Joachim Otto (Frankfurt), Christoph Waitz, Dr

Deutscher Bundestag

Geschäftsbericht 2009 – 2011 (PDF)

Luuk Molthof Phd Thesis

Plenarprotokoll 16/35

Deutscher Bundestag

Deutscher Bundestag Entschließungsantrag

Deutscher Bundestag

Antrag Des Abgeordneten Dr

Deutscher Bundestag Drucksache 16/6925

Das Gedankenexperiment

Plenarprotokoll 16/33