From Text to Landscape: Extraction of Landscape Concepts Through the Resolution of Ambiguity and Vagueness Present in Descriptions of Natural Landscapes
Total Page:16
File Type:pdf, Size:1020Kb
From Text to Landscape: Extraction of Landscape Concepts through the Resolution of Ambiguity and Vagueness present in Descriptions of Natural Landscapes. Dissertation zur Erlangung der naturwissenschaftlichen Doktorwürde (Dr. sc. nat.) Mathematisch-naturwissenschaftlichen Fakultät der Universität Zürich von Curdin Derungs von Brigels GR Promotionskomitee Prof. Dr. Ross Purves (Leitung der Dissertation) Prof. Dr. Robert Weibel Dr. Bettina Waldvogel Martin Hägeli Zürich 2014 Zusammenfassung Wie beschreiben Menschen ihre unmittelbare Umgebung? Diese Frage ist zentral für viele Aufgaben von sozialer Relevanz. Beispiele sind die Raumplanung, das Ressourcenmanagement oder Krisenintervention. Für diese Aufgaben gilt, dass räumliche Information wichtig ist, die widerspiegelt wie der Menschen den Raum versteht. Falls die Information nicht dem menschlichen Verständnis des Raumes entspricht, ist sie nicht nützlich und kann zu falschen Entscheidungen führen. Landschaftsbeschreibungen enthalten viele Unsicherheiten und sind darum eine Herausforderung für die Geographie. Die meisten Unsicherheiten gründen auf der menschlichen Wahrnehmung. Menschen haben unterschiedliche Konzepte von der gleichen Landschaft und nutzen darum unterschiedliche Worte um sie zu beschreiben. Das ist insbesondere wahr wenn Menschen aus unterschiedlichen Kultur- und Sprachgruppen verglichen werden. Eine andere Ursache von Unsicherheit hängt mit den Objekten zusammen die genutzt werden, um Landschaften zu beschreiben. Beispiele von solchen Objekten sind Berg, Tal, Hügel, Fluss oder Wald. Ein Berg ist beispielsweise weder rein natürlich, noch ist er eindeutig Mensch-gemacht. Die stoffliche Basis von geographischen Objekten ist meist natürlich, so zum Beispiel der Stein, der dem Berg seine Form gibt. Einen Ausschnitt des kontinuierlichen Verlaufes der Erdoberfläche aber als individuelle Objekte wahrzunehmen ist menschlich. Dieser Umstand gestaltet sowohl die semantische, als auch die räumliche Definition von Landschaftsobjekten als äusserst schwierig. Die beschriebenen Unsicherheiten werden oft mit Vagheit bezeichnet. Für den Menschen und seinen Alltag ist Vagheit kaum hinderlich. Im Gegenteil: Vagheit ist eine wichtige Voraussetzung für menschliche Kommunikation. „Ich war am Wochenende in den Bergen!“ wird vom Gegenüber wohl problemlos verstanden. Das Verwenden eines vagen Konzeptes, hier Berg, garantiert, dass der Satz nicht zu kompliziert oder umständlich wird. Vagheit ist aber dann eine Herausforderung, wenn wir Landschaftsbeschreibungen im Computer speichern möchten. Klassische Geographische Informations Systeme sind für präzise Information geschaffen. Grenzen haben beispielsweise oft abrupten Charakter, definiert durch scharfe Linien, und Attributwerte sind oft numerisch oder kategorisch. Zudem ist es nicht üblich, das gleiche Objekt mehrmals zu speichern, um dadurch unterschiedliche menschliche Wahrnehmungen abzudecken. Menschliche Landschaftskonzepte und deren Vagheit zu erfassen ist bereits Gegenstand geographischer Forschung. In der Ethnophysiography werden beispielsweise Menschen nach ihrem Landschaftskonzept II befragt. Die Befragung findet oft im Feld statt und bei den befragten Personen handelt es sich meist um Angehörige indigener Völker. Solche Forschung erfasst Landschaftskonzepte mit beachtlicher räumlicher Auflösung. Der offensichtliche Nachteil von ethnophysiographischer Forschung ist der grosse Aufwand zur Informationsgewinnung und damit verbunden auch die oft nur limitierte räumliche Abdeckung. In dieser Arbeit nutzen wir schriftliche, digitalisierte Landschaftsbeschreibungen, um damit der räumlichen Limitierung von ethnographischer Forschung entgegenzuwirken. Die Nutzung von geographischer Information aus unstrukturierten Beschreibungen bedingt aber, dass wir die Information in einem ersten Schritt zu extrahieren haben. Werkzeuge und Herangehensweisen dafür finden sich in einer Vielzahl von Disziplinen. Beispiele dafür sind Digital Humanities, Literary GIS, Geographic Information Retrieval (GIR) und Arbeiten mit User Generated Contents. Räumliches Referenzieren von Landschaftsbeschreibungen. In einem ersten Schritt weisen wir eine Kollektion von mehreren hundert Büchern die Landschaftsbeschreibungen enthalten dem geographischen Raum zu. GIR bietet Möglichkeiten und Algorithmen und dies zu bewerkstelligen, hauptsächlich indem Ortsnamen in den Beschreibungen erkannt und mit geographischen Koordinaten assoziiert werden. Die meisten Arbeiten in GIR arbeiten mit Textdokumenten die sich auf Länder, Städte, Gemeinden oder Kantone beziehen, also relative bekannte Orte. Das Referenzieren von Landschaftsbeschreibungen ist hingegen eine grosse Herausforderung, da aufgrund der räumlichen Detailliertheit der Beschreibungen viel Ortsnamen vorkommen die nur wenig bekannt sind. Um solche spezifischen und wenig bekannten Ortsnamen, wie beispielsweise die Namen von Bergen, Hügeln oder Fluren berücksichtigen zu können mussten wir eine neue Methode entwickeln, die unabhängig von der Art der Ortsnamen funktioniert. Wir haben dazu die Annahme getroffen, dass Landschaftscharakteristiken wie die Topographie genutzt werden können, um das Erkennen von Ortsnamen zu unterstützen. Eine Evaluation dieser neuen Methode hat gezeigt, dass sich damit die Qualität der Resultate signifikant verbessert. Das heisst, wir können Landschaftsbeschreibungen genauer dem geographischen Raum zuordnen als dies mit klassischen Algorithmen möglich ist. Zudem können wir zeigen, dass eine genaue räumliche Referenzierung von Landschaftsbeschreibungen der Schlüssel für das korrekte Beantworten von Suchanfragen mit räumlicher Komponente ist. Ein Produkt das von räumlich referenzierten Landschaftsbeschreibungen abgeleitet werden kann sind Kartierungen, welche die räumliche Verteilung von mehr als hundert Büchern zeigen. Im Literary GIS wird argumentiert, dass solche Karten eine Ergänzung zum klassischen Lesen von Texten sind. Daraus können Informationen gewonnen werden, die durch das Lesen der Texte nicht oder nur sehr aufwändig erlangt werden können. Literary GIS nutzt zwar die Kartierung von Texten als linguistisches III Analysewerkzeug, die Kartierung wird dabei aber manuell erfasst. Bei uns funktioniert die Kartierung hingegen automatisch. Damit können wir grosse Datenmengen bearbeiten und zum Beispiel zeigen, wie sich der räumliche Fokus von Landschaftsbeschreibungen über die letzten 150 Jahre geändert hat. Landschaftsinformation. In einem zweiten Schritt bewegen wir uns von (geographisch referenzierten) Landschaftsbeschreibungen hin zur Extraktion und Speicherung von Landschaftsinformation. Als Landschaftsinformation bezeichnen wir die Art und Weise, wie Landschaftsobjekte in Beschreibungen verwendet werden. Das Erkennen von Landschaftsobjekten ist durch einen vorgelagerten Arbeitsschritt gewährleistet. Eine Gruppe von Freiwilligen hat dabei geholfen, aus einer Liste von 1500 häufigen Substativen diejenigen zu markieren, welche natürliche Landschaften beschreiben. Dabei kommt ein detailliertes Regelwerke zur Anwendung. Das Resultat dieses Arbeitsschrittes ist eine Liste mit 94 Landschaftsobjekten. Die (relative) Häufigkeit dieser Landschaftsobjekte in Beschreibungen können wir messen und als lokale Landschaftsinformation speichern. Eine solche Speicherung von Landschaftsinformation bietet die Möglichkeit, dass Vagheit in Landschaftsbeschreibungen erhalten bleibt, ohne dass dies die Datenspeicherung verunmöglichen würde. Der Vergleich von Landschaftsinformation wie sie an unterschiedlichen Orten gespeichert wird kann qualitativ und quantitativ untersucht werden. Beiträge. Die Beiträge dieser Dissertation zum Stand der Forschung sind auf eine Reihe von Bereichen verteilt. Ein methodischer Beitrag zu GIR und Literary GIS besteht aus einer neuen Technik um Landschaftsbeschreibungen zu referenzieren. Dies war bis anhin nur mit limitierter Präzision möglich oder mit grossem Aufwand verbunden. In diesem Zusammenhang können wir beispielsweise zeigen, dass Suchmaschinen zum Prozessieren von räumlichen Suchen mit detaillierter Auflösung geographische Information berücksichtigen müssen. Das konnte zuvor noch nie so klar gezeigt werden. Durch das Strukturieren von Landschaftinformation konnten wir einen weiteren methodischen Beitrag leisten, dieses Mal zum Thema Kompatibilität von GIS zum prozessieren von vager menschliche Information. Die lokale Landschaftsinformation die wir aus Texten extrahiert haben ist in einer Reihe von Untersuchungen zur Anwendung gekommen: Einerseits wurde der Stand von ethnophyiographischer Forschung um eine Methode erweitert mit der menschliche Landschaftsbeschreibungen für grosse (Zeit-)Räume gewonnen werden kann. Der Detailierungsgrad der gewonnen Landschaftsinformation erlaubt sowohl qualitative wie auch den quantitative Vergleiche mit alternativen Informationsquellen. Wir können beispielsweise zeigen, dass die Variation von Landschaftsbeschreibungen in der Schweiz an lokale topographische Charakteristiken gekoppelt ist. Dies ist insbesondere interessant da es Möglichkeiten zeigt, wie lokale Landschaftsinformation aus physikalischen Parametern abgeleitet werden kann, was sich im Kontext von lokalem Informationsbedürfnis für Internetsuchen als spannend erweisen könnte. IV Summary How do local people describe landscapes? This question is crucial for tackling many tasks of social relevance such as land use planning, natural resource management and crisis intervention. For all of these it is of crucial importance to have spatial information available, and in particular