Ontdekken Van Impressionisten M.B.V. Afstanden Tot Bekende Impressionisten

Ontdekken van Impressionisten m.b.v. afstanden tot bekende Impressionisten Afstudeerproject Bachelor AI 2004/2005 1 juli 2005 Michiel Nieuwenhuijsen Universiteit van Amsterdam E-mail: [email protected] Roeland Weve Universiteit van Amsterdam E-mail: [email protected] Supervisors: Maarten van Someren Victor de Boer Samenvatting In dit document beschrijven we onze methode voor het zoeken in documenten naar nog onbekende Impressionisten. Deze Impressionisten worden gevonden door te kijken naar de afstand tot bekende Impressionisten. We beschrijven de verschillende modules waaruit onze methode is opgebouwd. Enkele modules zijn: het zoeken naar personen in documenten, vergelijken of twee persoonsnamen bij dezelfde persoon horen, en het berekenen van een score om een bepaalde zekerheid te krijgen of een naam wel of niet tot het domein hoort. Ook kijken we hoe deze methode zich verhoudt tot andere IE- methodes. Om de werking van onze methode te evalueren, zullen we een aantal tests uitvoeren op het domein van Impressionisme. Omdat het onderzoek geïnspireerd is op het werk van Victor de Boer, zullen we kijken in hoeverre onze methode vergelijkbaar is met die van hem. Tevens zullen we kort bekijken of deze methode ook op andere domeinen toepasbaar is. Te denken valt aan andere kunststromingen, personen uit een bepaald sportteam proberen te halen of mensen die eenzelfde soort beroep uitoefenen bij elkaar proberen te vinden. Tot slot bespreken we nog op welke punten de methode fouten maakt, en hoe deze fouten beperkt zouden kunnen worden. Afstudeerproject Bachelor AI 2004/2005 2 Inhoudsopgave 1. Inleiding .............................................................................................................................................. 4 2. Information Extraction ........................................................................................................................ 5 2.1 Relation Instantiation .................................................................................................................... 5 2.2 Afstandsmeting ............................................................................................................................. 5 3. Methode............................................................................................................................................... 7 3.1. Module 1: Google zoeken............................................................................................................ 7 3.1.1. Problemen/nadelen bij gebruik van zoekmachines............................................................... 7 3.2. Module 2: HTML verwijderen..................................................................................................... 8 3.3. Module 3: Named Entity Taggers: NE en NER........................................................................... 9 3.4. Module 4: NiWeDistance........................................................................................................... 10 3.4.1. Problemen NiWeDistance .................................................................................................. 11 3.5. Module 5: Afstandsmeting......................................................................................................... 12 3.6. Module 6: Samenvoegen van namen en lijsten.......................................................................... 13 3.7. Berekening van de score ............................................................................................................ 14 4. Uitslagen experimenten..................................................................................................................... 16 4.1. Threshold: wat is de beste threshold.......................................................................................... 16 4.2. NE met en zonder leren en NER................................................................................................ 17 4.2.1. Werking NE en NER .......................................................................................................... 17 4.2.2. Testen NE en NER.............................................................................................................. 18 4.2.3. De test met de afstandsmethode op 10 HTML documenten............................................... 20 4.2.4. De test met de afstandsmethode op 200 HTML documenten via Google .......................... 20 4.2.5. Conclusie ............................................................................................................................ 21 4.3. Vergelijking met Relation Instantiation..................................................................................... 22 4.4. Is het zinvol om te bootstrappen ................................................................................................ 26 5. Verschillende domeinen.................................................................................................................... 29 5.1. Expressionisme .......................................................................................................................... 29 5.2. Voetballers in het team van het WK onder 20 in 2005 .............................................................. 29 5.4. Conclusie.................................................................................................................................... 30 6. Conclusie en toekomstig onderzoek.................................................................................................. 31 7. Literatuurlijst..................................................................................................................................... 32 8. Gebruikte figuren .............................................................................................................................. 33 9. Gebruikte tabellen ............................................................................................................................. 33 10. Bijlage: werkverdeling .................................................................................................................... 34 Afstudeerproject Bachelor AI 2004/2005 3 1. Inleiding Het World Wide Web is een grote brei van websites bij elkaar. Om informatie hieruit te halen, zijn er vele zoekmachines die al deze websites geïndexeerd hebben en een gebruiker kan dan aan de hand van één of meerdere woorden op zoek gaan naar informatie. Er zijn verschillende mogelijkheden [BrightPlanet, 2004] om het zoeken effectiever te maken, maar tegenwoordig is dat niet meer genoeg. Mensen willen vragen kunnen stellen aan zoekmachines, als bijvoorbeeld: ‘Welk team won de WorldCup in 1989?’, ‘Wie was de president van Amerika in 1990?’ en ‘Welke planeten staan het dichtst bij de zon?’. Om deze vragen te beantwoorden kan men alle pagina’s met de hand uitlezen, categoriseren en relevante informatie gestructureerd opslaan. Dit is echter zeer tijdrovend, dus een automatische oplossing zou uitkomst bieden. Een methode hiervoor is informatie extractie (IE), dat automatisch bepaalde (semi-) gestructureerde informatie uit ongestructureerde informatiebronnen kan halen. IE is niet alleen geschikt voor internet websites, maar ook voor andere documenten, zoals e- mail en nieuwsgroepberichten, Word documenten, Adobe Portable Document Format(PDF) documenten en Rich Text Format (RTF) documenten. Het is niet alleen mogelijk IE te gebruiken op digitale informatie, maar ook voor bijvoorbeeld op analoge televisie en radio fragmenten. Op dit moment zijn er al een aantal IE systemen, onder andere Annie [Annie, 2005] dat bestaat uit een aantal componenten, die ervoor zorgen dat het systeem voor allerlei doeleinden gebruikt kan worden. Annie is onder andere gebruikt om samenvattingen van bedrijfsverslagen te maken over gezond- en veiligheidsonderwerpen én het analyseren van football gerelateerd informatie als commentaar, nieuwsartikelen en websites, om video’s over football wedstrijden te voorzien van semantisch commentaar en deze conceptueel te indexeren. Een ander IE systeem is ArtEquAKT [Artequakt]. De aanpak van het ArtEquAKT-project is technieken van analyse en kennisverzameling te gebruiken om informatie te halen uit webpagina's, gegeven een bepaald domein, en om daarvan een knowledge base te bouwen met een bovenliggende ontologie. Het doel van Artequakt is om automatisch biografieën te laten maken aan de hand van een knowledge base die automatisch is opgebouwd door tekst fragmenten uit webdocumenten te annoteren [Kim, et al. 2003]. De genoemde systemen kunnen niet gebruikt worden voor ons doeleinde, omdat deze hiervoor niet gemaakt zijn. Wel geven ze een goed idee over wat erop dit moment voor IE systemen wordt gebruikt. Onze informatie extractie afstandsmethode houdt in om (onbekende) instanties te zoeken met behulp van (woord-)afstanden tot bekende instanties. Op deze manier kun je aan de hand van bekende gegevens, bijvoorbeeld 2 personen van een bepaalde kunststroming, de resterende personen proberen te vinden voor die kunststroming om de set compleet te maken. We zullen ons idee uitwerken aan de hand van Impressionisten: Is het ontdekken van Impressionisten mogelijk met behulp van afstanden tot bekende Impressionisten? Het idee is geïnspireerd op het idee van Victor de Boer om bepaalde relaties in een concrete vorm te brengen; ‘Relation Instantiation’. Hier zijn verschillende methodes voor, die allemaal tot doel hebben om relaties te vinden tussen instanties en concepten. Voorbeelden hiervan

Load more