Capturing Vernacular Geography from Georeferenced Tags
Total Page:16
File Type:pdf, Size:1020Kb
Capturing Vernacular Geography from Georeferenced Tags Master Thesis Livia Hollenstein Faculty Representative: Prof. Dr. Robert Weibel Supervisors: Dr. Ross Purves Dr. Clare Davies Institute of Geography University of Zurich November 2008 Pers¨onliche Erkl¨arung Ich erkl¨are hiermit, dass ich die vorliegende Arbeit selbst¨andig verfasst und die den verwen- deten Quellen w¨ortlich oder inhaltlich entnommenen Stellen als solche kenntlich gemacht habe. Z¨urich, 28. November 2008 Livia Hollenstein Acknowledgments I would like to thank my supervisor, Dr. Ross Purves, for his help and encouragement during the course of my work on this study. Furthermore, I would also like to thank Dr. Clare Davies for her valuable advice and Prof. Dr. Robert Weibel for supporting this Master project. Finally, I wish to thank the following people who offered advice and perspective at various stages of this project: Markus, Othmar, Flurina, Janine, Daria as well as my parents for their support and words of encouragement. i Abstract In view of the abundance of geographically related information on the world wide web and the ubiquity of location-aware devices, today the majority of seekers as well as providers of spatially related information are not experts in the geographic domain. Humans acquire extensive spatial knowledge in the course of life, but there is a lot of vagueness inherent in the way we conceive and refer to geographic location. Instead of exact distances and coordinates, we employ vague spatial concepts such as ‘downtown’ or ‘Soho’ without being concerned about exact boundaries. Hence, in GIScience attention was recently drawn to the automated interpretation of arbitrarily employed place names, which are challenging and difficult to interpret and process by computer systems. This study explores the abundance of absolute references between place and associated descriptions available from georeferenced items in online tagging systems as a source of knowledge about vernacular geography. It draws on voluntarily created keywords to cat- egorise and describe georeferenced photos in the online photo-sharing platform Flickr, a process which has been considered as a proxy of how people intuitively refer to location. Flickr, featuring about ninety million georeferenced photos at the time of writing, is char- acteristic for the highly user-centric structure of the web, which provides locative aspects beyond the digital map data traditionally used in GIS. It is an issue of intensive research as to extract, mine, visualise, and exploit this geographically relevant information. In view of the availability of a global and multilingual database, the investigation of spatial terminology applied in terms of tags covered German as well as English language areas. It focussed on generic concepts employed to describe the urban core, which is considered as a prototype of a vague geographic entity. Different visualisation techniques as well as a stan- dard GIS method, including an automatic way to deal with potential outliers, were adopted in order to investigate the bias introduced by different user groups, to establish global and local patterns of place tag-usage, and to derive vague footprints from georeferenced place semantics. The quantitative evaluation of tag-usage revealed that a large portion of the top-ranked tags in georeferenced Flickr samples correspond to place names. The city name was identified as the granularity level people most intuitively think of when assigning locational information. The fraction of generic city core terms is generally marginal and the majority of such tags tend to exhibit problematic values with regard to user ubiquity, while particularly in larger cities, specific place names of areas and neighbourhoods are common. The nature of derived vague footprints suggest that the average user has a distinct idea of specific places and that the users’ attitude towards the creation of metadata meet the requirements for practical purposes at the sub-city level of granularity. Despite the availability of an immense amount of empirical data, the analysis reveals a considerable bias in terms of user contribution as well as in spatial distribution, a fact which must be accounted for carefully during evaluation. Given a ‘critical mass’ of items and participating users, the results confirm that the abundance and quality of formal and textual place references in Flickr hold relevant information for the geographic discipline and are highly interesting for the extraction of common-sense spatial knowledge. iii Zusammenfassung Angesichts der F¨ullegeographisch relevanter Information im Internet und der zunehmenden Verbreitung ortungsf¨ahiger, mobiler Technologien sind die Mehrheit der Informationssu- chenden und -anbietern heutzutage nicht Experten der geographischen Disziplin. Menschen eignen sich im Laufe des Lebens beachtliches r¨aumliches Wissen an; trotzdem ist die Art, wie wir den geographischen Raum konzeptualisieren und beschreiben typischerweise von Vagheit gepr¨agt. Statt exakter Distanzen und Koordinaten benutzen wir unklar definierte Konzepte wie ‘Innenstadt’ oder ‘Soho’, ohne uns um den Verlauf von exakten Grenzen zu k¨ummern.Daher wurde in GIScience die Aufmerksamkeit vermehrt auf die automatische Interpretation von beliebig verwendeten Ortsnamen gezogen, welche von Computersyste- men nur schwer interpretier- und verarbeitbar sind. Die vorliegende Arbeit untersucht direkte Referenzen zwischen Orten und assoziierten Beschreibungen in web-basierten Tagging-Systemen als Informationsquelle ¨uber umgangs- sprachliche Geographie. Sie st¨utzt sich auf Schl¨usselw¨orter, so genannte Tags, die von Benutzern freiwillig erzeugt werden, um den Inhalt georeferenzierter Bilder in der photo- sharing Plattform Flickr zu kategorisieren und zu beschreiben. Dieser Prozess wird als Modell daf¨urbetrachtet, wie Menschen Orte intuitiv beschreiben. Die zurzeit etwa 90 Millionen georeferenzierten Photos und ihre Metadaten auf Flickr sind charakteristisch f¨ur das benutzerzentrierte Internet, welches r¨aumliche Aspekte beinhaltet, die ¨uber die tradi- tionellerweise in GIS benutzten Kartendaten hinausgehen. Die Extraktion, Visualisierung und Nutzung dieser geographisch relevanten Daten ist Gegenstand der aktuellen Forschung. Angesichts der Verf¨ugbarkeit einer weltweiten und mehrsprachigen Datengrundlage deckt die Untersuchung r¨aumlicher Terminologie, wie sie in Form von Tags verwendet wird, sowohl den deutschen als auch den englischen Sprachraum ab. Die Analyse konzentriert sich auf generische Konzepte zur Bezeichnung des Stadtzentrums, welches als Prototyp einer vagen und unklar definierten r¨aumlichen Einheit betrachtet wird. Verschiedene Vi- sualisierungstechniken und eine standardisierte GIS-Methode werden verwendet, um die Verzerrung der Daten durch einzelne Benutzer, sowie weltweite und lokale Muster von Orts- Tags als auch die aus georeferenzierter Ortsbeschreibung abgeleiteten Repr¨asentationen, so genannte ‘Footprints’, zu analysieren. Eine quantitative Analyse der Verwendung von Tags hat gezeigt, dass ein grosser Anteil der h¨aufigbenutzten Tags in georeferenzierten Flickr-Daten Ortsnamen entspricht. Die Stadt- Ebene ist dabei die Granularit¨at, an die Menschen bei der Zuweisung von Ortsbeschreibung intuitiv am ehesten denken. Der Anteil generischer Begriffe, die den Stadtkern bezeich- nen, ist meist marginal und die Mehrheit solcher Tags werden in Anbetracht der grossen Datenmenge nicht von vielen verschiedenen Benutzern verwendet. Vor allem in gr¨osseren St¨adten ist die Verwendung von spezifischen Quartier- und Regionsnamen jedoch h¨aufig. Die Beschaffenheit der abgeleiteten Footprints ist ein Hinweis daf¨ur,dass der durchschnitt- liche Benutzer eine treffende und deutliche Vorstellung von spezifischen Orten hat und dass die Art und Genauigkeit mit der in Flickr Metadaten erstellt werden den Anforderungen f¨urpraktische Anwendungen sogar auf der Quartierebene gen¨ugt.Trotz der Verf¨ugbarkeit einer riesigen Menge empirischer Daten machen die Auswertungen eine betr¨achtliche Ver- iv zerrung durch einzelne Benutzer als auch hinsichtlich der r¨aumlichen Verteilung deutlich, ein Umstand, dem bei der Verwendung solcher Daten unbedingt Rechnung getragen werden muss. Ist eine ‘kritische Masse’ von Tags und teilnehmenden Benutzern jedoch gegeben, so zeigt die H¨aufigkeit und die Qualit¨at formaler und sprachlicher Ortsreferenzen in den Daten, dass diese geographisch wertvolle Information enthalten und geeignet sind f¨urdie systematische Erfassung von lokalem Ortswissen. Contents List of figures ix List of tables xiii 1 Introduction 1 1.1 Motivation . 1 1.2 Aims and objectives . 2 1.3 Thesis outline . 4 2 Background 5 2.1 GIS and vague geographies . 5 2.1.1 Uncertainty in spatial information . 5 2.1.2 Vague regions and boundaries . 7 2.1.3 Common-sense knowledge of geographic space . 8 2.1.4 Vernacular geography and GIR . 10 2.1.5 Sources of knowledge on vague places . 12 2.1.6 Models, formalisation, and the delineation of boundaries . 13 2.2 The city core . 15 2.2.1 Urban geography and the city core . 15 2.2.2 City core terminology in different language areas . 19 2.3 Web-based tagging systems . 21 2.3.1 Definition and characteristics . 21 2.3.2 Geotagging . 23 vi Contents 2.3.3 Previous work with Flickr . 24 2.4 Conclusion and research questions . 25 3 Data 31 3.1 Flickr . 31 3.1.1 Design and characteristics . 31 3.1.2 Data collection from Flickr . 34 3.1.3 Data properties . 36 3.1.4 Evaluation of user-generated content . 38 3.2 Other data . 41 4 Methodology 43