Geografische Empfehlungssysteme
Total Page:16
File Type:pdf, Size:1020Kb
Schriften aus der Fakultät Wirtschaftsinformatik und Angewandte 15 Informatik der Otto-Friedrich-Universität Bamberg Geografische Empfehlungssysteme Christian Matyas 15 Schriften aus der Fakultät Wirtschaftsinformatik und Angewandte Informatik der Otto-Friedrich- Universität Bamberg Schriften aus der Fakultät Wirtschaftsinformatik und Angewandte Informatik der Otto-Friedrich- Universität Bamberg Band 15 2014 Geografische Empfehlungssysteme von Christian Matyas 2014 Bibliographische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deut- schen Nationalbibliographie; detaillierte bibliographische Informationen sind im Internet über http://dnb.ddb.de/ abrufbar Diese Arbeit hat der Fakultät Wirtschaftsinformatik und Angewandte Informatik der Otto-Friedrich-Universität als Dissertation vorgelegen. 1. Gutachter: Prof. Dr. Christoph Schlieder 2. Gutachter: Prof. Dr. Ute Schmid Tag der mündlichen Prüfung: 12.11.2013 Dieses Werk ist als freie Onlineversion über den Hochschulschriften-Server (OPUS; http://www.opus-bayern.de/uni-bamberg/) der Universitätsbiblio- thek Bamberg erreichbar. Kopien und Ausdrucke dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden. Herstellung und Druck: docupoint, Magdeburg Umschlaggestaltung: University of Bamberg Press, Andra Brandhofer © University of Bamberg Press Bamberg 2014 http://www.uni-bamberg.de/ubp/ ISSN: 1867-7401 ISBN: 978-3-86309-204-7 (Druckausgabe) eISBN: 978-3-86309-205-4 (Online-Ausgabe) URN: urn:nbn:de:bvb:473-opus4-60852 Zusammenfassung Mobile Geräte werden immer häufiger mit Sensoren zur Bestimmung der eigenen Position ausgestattet, zum Beispiel mit GPS. Mit Hilfe der Ortsinformationen dieser Sensoren können beispielsweise moder- ne Bildmanagementanwendungen digitale Fotos automatisch nach geo- grafischen Regionen gruppieren oder passende Schlagworte generieren. Dies führt unter anderem zu einer besseren Suchbarkeit dieser digitalen Daten. Grundsätzlich geben Ortsinformationen in digitalen Fotos nicht nur Hinweise auf das Foto selbst, sondern machen auch sichtbar, welche geografischen Entscheidungen der Fotograf bei deren Erstellung getrof- fen hat. Diese Arbeit nutzt diese Entscheidungen für die Berechnung von weiteren Empfehlungen für den Nutzer, beispielsweise einer Bild- managementanwendung. Ein konkreter Anwendungsfall lautet folgen- dermaßen: Einem Nutzer sollen für eine frei wählbare geographische Region (z.B. einer Stadt), mehrere Bilder empfohlen werden, die zum einen typisch für diese Region sind, zum anderen aber auch für ihn per- sönlich interessant sein könnten. Um diese geografischen Mehr-Objekt- Empfehlungen zu berechnen, wurde ein neuartiger Algorithmus entwi- ckelt, der zunächst die Ortsinformationen aller Nutzer zu einem geo- grafischen Modell bündelt. Auf Grundlage dieser prototypischen Kon- zeptualisierung von einzelnen Regionen, können dann typische Bilder empfohlen werden. Weiterhin werden diese geografischen Modelle in ei- nem zweiten Schritt für die zusätzliche Gewichtung der einzelnen geo- grafischen Entscheidungen der Nutzer verwendet, um über den Ansatz eines kollaborativen Filters zu einer persönlichen Empfehlung zu ge- langen. Dazu wurden mehrere Verfahren entwickelt und miteinander verglichen. Diese Arbeit ist im Rahmen des europäischen Projektes Tripod ent- standen, für das der entwickelte geografische Empfehlungsalgorithmus als Softwaremodul prototypisch implementiert wurde. Damit wurden die Empfehlungen mit Hilfe von georeferenzierten Bildern evaluiert, die auf den Online-Galerien Panoramio.com und Flickr.de veröffent- licht wurden. Durch die Auswertung der geografischen Informationen und der daraus berechneten Ortsmodelle, ließen sich deutlich präzisere Empfehlungen vorschlagen, als mit anderen bekannten Empfehlungs- verfahren. Inhaltsverzeichnis 1 Einleitung 8 1.1 Beiträge . 12 1.2 Gliederung . 13 2 150 Jahre Fotografie 17 2.1 You press the button, we do the rest . 17 2.2 Neue Möglichkeiten für Empfehlungssysteme . 28 2.3 Ausgangsfragen . 32 3 Geografische Bildsammlungen 34 3.1 Übersicht über aktuelle Bildsammlungen . 35 3.1.1 www.geograph.org . 36 3.1.2 www.panoramio.com . 40 3.1.3 www.flickr.com . 41 3.2 Fokus der einzelnen Bildsammlungen . 42 3.3 Arbeiten zu räumlichen Benutzerdaten . 45 3.4 Arbeiten mit geographischen Bildsammlungen . 46 3.5 Inhaltsbasierte Verfahren . 50 4 Empfehlungssysteme 52 4.1 Informationsbedarf und Informationsfilterung . 52 4.2 Weitere Überlegungen zu Typikalität und Variabilität . 63 4.3 Systematisierung von Empfehlungssystemen . 64 4.4 Überblick über die einzelnen Ansätze . 67 4.4.1 Kollaboration . 67 4.4.2 Gegenstandsbasierte Filterung . 73 4.4.3 Demographische Filterung . 74 4.4.4 Hybride Empfehlungssysteme . 76 4.5 Bestehende Empfehlungssysteme für Bilder . 78 4.6 Ortsbasierte Empfehlungssysteme . 79 4.7 Geographische Empfehlungssysteme . 80 4.8 Zusammenfassung . 81 5 Typische Bildgruppen 82 5.1 Anwendungsfall: typische Bildgruppen einer bestimmten Region . 83 5.2 Bildgruppen in der Wirklichkeit . 89 5.3 Kollaborative Semantik in unstrukturierten Bildsamm- lungen . 94 5.4 Räumliche Entscheidungen bei georeferenzierten Bildern 98 5.4.1 Gruppierung von räumlichen Entscheidung . 102 5.4.2 Popularität eines CPV . 109 5.4.3 Die Heatmap als geografisches Modell einer Region113 5.5 Kollaborative Semantik in Texten . 121 5.5.1 Untersuchung von Konzeptualisierung einer Re- gion in Texten . 124 5.5.2 Untersuchung einer Folksonomy . 130 5.5.3 Kookkurrenzanalyse eines Textkorpus . 134 5.6 Zusammenfassung . 137 6 Persönliche Bildempfehlungen 139 6.1 Anwendungsfall: Personalisierte Bildgruppen . 139 6.2 Generischer kollaborativer Empfehlungsansatz . 145 6.3 Geografischer Empfehlungsansatz . 149 6.3.1 Schritt 1: Benutzer-Feedback . 149 6.3.2 Schritt 2: Ähnlichkeitsberechnung mit Hilfe von räumlichen Entscheidungen . 156 6.3.3 Schritt 3: Nachbarschaftswahl mit Hilfe von räumlichen Entscheidungen . 174 6.3.4 Schritt 4: Aggregation der räumlichen Entscheid- ungen . 175 7 Tripod GeoRecommender 179 7.1 Projekt Tripod . 179 7.2 Heatmapper Prototyp . 189 7.2.1 Webservice . 192 7.3 GeoRecommender Prototyp . 194 7.3.1 Einbettung in eine Bildergalerie am Beispiel des Tripod-Prototypen . 200 7.3.2 Einbettung in eine Anwendung des Social Web am Beispiel von Facebook . 204 7.3.3 Auswertungstool GeoRec in Java . 211 7.4 Erweiterungspunkte des Empfehlungssystems . 215 8 Auswertung 216 8.1 Vergleich typischer Bildgruppen zu Patchwork-Postkarten217 8.2 Tripost . 220 8.2.1 Aufgabenstellung . 220 8.2.2 Ausgangsfragen . 225 8.2.3 Methoden . 226 8.2.4 Baseline . 227 8.2.5 Ergebnisse der Analyse . 229 8.2.6 Ergebnis . 238 8.3 Offline-Evaluierung . 238 8.3.1 Vergleich und mit Hilfe eines passenden Evalua- tionsmaßes . 241 8 8.3.2 Evaluationsmaße . 241 8.4 Offline-Evaluierung - Panoramio/Flickr . 248 8.4.1 Evaluationsmethode . 248 8.4.2 Evaluationsdaten . 252 8.4.3 Evaluationsergebnisse . 254 9 Ergebnisse und Ausblick 260 9.1 Ergebnisse . 260 9.2 Ausblick . 263 9.2.1 Ausblick auf weitere Analyse von raum-zeitlichen Entscheidungen . 263 9.2.2 Ausblick auf Sensorik in Kameras . 264 9.2.3 Ausblick auf Evaluierungsframeworks . 267 1 Einleitung Den Menschen stärker in die inhaltliche Gestaltung des Internets ein- zubinden, ist immer noch eines der Ziele, die man sich für das Web 2.0 gesetzt hat. Dabei geht es in den meisten Fällen nicht darum, komplexes Wissen abzufragen, wie es bei Wikipedia1 versucht wird, sondern Men- schen nach ihrer Meinung zu fragen. Dies macht die Nutzung des Inter- nets zu einer sehr viel persönlicheren Erfahrung und bindet die Nutzer auch an die entsprechenden Dienste. Beteiligt sich ein Nutzer durch ständiges Feedback an einem System, kann dieses im Umkehrschluss speziell zugeschnittene Inhalte für diesen Nutzer bereitstellen bzw. wei- tere Empfehlungen aussprechen. Ein Paradebeispiel für ein derartiges System ist nicht zuletzt die E-Commerce Plattform Amazon2. Alleine die Startseite bietet eine Vielzahl von personalisierten Inhalten an. Auch durch Konzepte, wie beispielsweise Cloud Computing, werden immer mehr Anwendungen nicht mehr zentral beim Endnutzer aus- geführt. Das sorgt dafür, dass die Anwendungsdaten nicht mehr beim Endnutzer liegen. Für den Anwender selbst verschwimmen die Grenzen zwischen dem eigenen Arbeitsplatz und dem eigentlichen Ausführungs- ort des Dienstes. Durch diesen Wandel haben die Betreiber Zugriff auf die Nutzerdaten, können diese analysieren und personalisierte Inhalte an den Nutzer kommunizieren. So schaltet Google in seinem Email- 1 http://www.wikipedia.org 2 http://www.amazon.com 10 Einleitung Service (Googlemail3) passende Werbung entsprechend der Schlagwör- ter, die sich in der E-Mail befindet, die der Nutzer gerade geöffnet hat. Die technische Entwicklung einer komplett vernetzten Welt machen es möglich, dass der Mensch immer gläsener und transparenter wird. Be- wusst und/oder unbewusst gibt er immer mehr über sich preis. In bei- den Fällen kann das Verhalten des Nutzers analysiert werden, um ihm dadurch ein persönlicheres Anwendungserlebnis anzubieten. Abgesehen von rechtlichen Bedenken über die Speicherung dieser personengebun- denen Daten, eröffnen sie dennoch auch neue Anwendungsfälle. Ein Aspekt des Nutzers steht dabei bisher noch nicht im primären Fo- kus der Forschung: sein räumliches Verhalten. In dieser Arbeit wird das räumliche Verhalten über diskrete Punkte im Raum bestimmt. Eine In- tention, den eigenen Standpunkt im Raum zu veröffentlichen, kann zum Beispiel die persönliche Vorliebe für diesen Ort sein. Eine Quelle, aus