High-Quality Web Information Provisioning and Quality-Based Data Pricing Florian Stahl High-Quality Web Information Provisioning and Quality-Based Data Pricing

High-Quality Web Information Provisioning and Quality-Based Data Pricing Florian Stahl High-Quality Web Information Provisioning and Quality-Based Data Pricing Inauguraldissertation zur Erlangung des akademischen Grades eines Doktors der Wirtschaftswissenschaften durch die Wirtschaftswissenschaftliche Fakultät der Westfälischen Wilhelms-Universität Münster Vorgelegt von Florian Stahl, MSc aus Gießen Juni 2015 Dekanin Prof. Dr. Theresia Theurl Erster Gutachter Prof. Dr. Gottfried Vossen Zweiter Gutachter Prof. Dr. Dr. h.c. Dr. h.c. Jörg Becker, Prof. h.c. (NRU - HSE, Moskau) Mündliche Prüfung 07.07.2015 Florian Stahl High-Quality Web Information Provisioning and Quality-Based Data Pricing Wissenschaftliche Schriften der WWU Münster Reihe IV Band 9 Florian Stahl High-Quality Web Information Provisioning and Quality-Based Data Pricing Wissenschaftliche Schriften der WWU Münster herausgegeben von der Universitäts- und Landesbibliothek Münster http://www.ulb.uni-muenster.de Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. Dieses Buch steht gleichzeitig in einer elektronischen Version über den Publikations- und Archivierungsserver der WWU Münster zur Verfügung. http://www.ulb.uni-muenster.de/wissenschaftliche-schriften Florian Stahl „High-Quality Web Information Provisioning and Quality-Based Data Pricing“ Wissenschaftliche Schriften der WWU Münster, Reihe IV, Band 9 © 2016 der vorliegenden Ausgabe: Die Reihe „Wissenschaftliche Schriften der WWU Münster“ erscheint im Verlagshaus Monsenstein und Vannerdat OHG Münster www.mv-wissenschaft.com Dieses Werk ist unter der Creative-Commons-Lizenz vom Typ 'CC BY-NC-SA 3.0 DE' lizenziert: http://creativecommons.org/licenses/by-nc-sa/3.0/de/ Von dieser Lizenz ausgenommen sind Abbildungen, welche sich nicht im Besitz des Autors/ der Autorin oder der ULB Münster befinden. ISBN 978-3-8405-0133-3 (Druckausgabe) URN urn:nbn:de:hbz:6-67249643318 (elektronische Version) direkt zur Online-Version: © 2016 Florian Stahl Alle Rechte vorbehalten Satz / Titelbild: Florian Stahl Umschlag: MV-Verlag Druck und Bindung: MV-Verlag Geleitwort Im Zeitalter von Big Data, dem IT-Schlagwort der letzten Jahre, kommt dem angemessenen Umgang mit Daten und daraus gewinnbarer Information immer höhere Bedeutung zu. Dies ist zwar im Grunde so seit der „Erfindung“ und Ver- breitung des Web als Dienst, der auf dem Internet basiert; allerdings wurden in den letzten Jahren durch die Digitalisierung von fast allem und jedem und die Anbindung von nahezu allen denkbaren Artefakten an das Web hier immer neue Dimensionen erreicht. Als Privatperson hat man sich an den daraus resultierenden „Komfort“ gewöhnt und ist sich gleichzeitig der zunehmenden Orwellschen Überwachung und Durchleuchtung bewusst. Als Unternehmen ist man daran interessiert, Daten unterschiedlichster ellen in einen gemeinsa- men Kontext zu bringen, um dann aus deren Analyse neue Dienst- oder Pro- duktangebote zu schaffen und den Kontakt zum Kunden (weiter) zu individuali- sieren. Die aus dieser Situation resultierenden Forschungsfragen sind von enor- mer Breite und nahezu täglich werden neue gestellt, aber es gibt natürlich große Unterschiede in deren Relevanz. Florian Stahl grei in seiner Dissertation zwei solche Fragen heraus, die auf den ersten Blick vielleicht wenig miteinander zu tun haben, die sich aber auf den zweiten nicht nur als fundamental, sondern sogar als folgerichtig zusammenhängend herausstellen. Bei der ersten geht es um die Frage der anwendungs- bzw. situationsbezogenen Bereitstellung qualitativ hochwertiger Information, und zwar nicht (nur) durch umfangreiches Suchen, eventuell über mehrere Suchmaschinen hinweg, sondern durch einen Prozess, in welchem eine Kuratierung von Daten bzw. Suchergebnissen eine zentrale Rolle spielt. Idealerweise ist das Ergebnis eines solchen Prozesses „transporta- bel“ bzw. mobil in dem Sinne, dass man es mit sich herumtragen kann und dass es daher sogar offline funktioniert, denn hierür gibt es nach wie vor zahlrei- che Anwendungen. Die hier gegebene Antwort lautet WiPo bzw. „Web in your Pocket“, welches ausührlich vorgestellt wird. Bei der zweiten Frage geht es um den Handel mit Daten: Wenn man schon Daten hochqualitativ auereitet, dann kann man sich das Ergebnis eigentlich auch vergüten lassen. Diese Überlegung ührt auf eine aktuelle Entwicklung – Datenmarktplätze – und die Frage, wie man auf einem solchen Marktplatz Preisgestaltung betreibt und diese idealerweise sogar ür Käufer und Verkäufer fair gestaltet. Grundsätzlich werden auf einem Marktplatz Daten unterschiedlichster alität vertrieben, aber intuitiv bestimmt sich der Preis über die (vom Verkäufer gebotene) alität sowie über den (ür den Käufer vorhandenen) Wert. Florian Stahl fokussiert seine Betrach- tungen auf strukturierte Daten und ebnet damit den Weg ür einen Einsatz relationaler Datenbankkonzepte; die Idee ist, versionierbare Sichten (einer relatio- nalen Datenbank bzw. einer daraus errechneten Universalrelation) anzubieten, deren alität je nach Preisvorstellung des Kunden nach oben oder unten ska- liert wird; der Verkäuferpreis bleibt dabei jeweils verborgen, bis der Kunde den Zuschlag erhält. Neu an seiner Vorgehensweise ist die Tatsache, dass er eine gan- ze Reihe von Kriterien in die Berechnung von alität einfließen lässt, die sich individuell gewichten lassen: Manche Kunden werden an vielen Daten interessiert sein, andere an möglichst vollständigen, wieder andere an gut dokumen- tierten usw.; hat ein Kunde dann die ür ihn relevante Gewichtung festgelegt, kann daraus ein Gesamt-alitäts-Score errechnet werden. Neben der Kunden- perspektive wird auch die Anbieterseite betrachtet, und es wird gezeigt, dass das Problem der Ermilung eines ür Anbieter und Kunden fairen Preises ür Daten bestimmter alität als ein Multiple-Choice-Knapsack-Problem (MCKP) aufgefasst werden kann. Damit lassen sich approximative, ür das Pricing ad- aptierte Algorithmen formulieren, die so beschaffen sind, dass Datenqualität sich (erwartungsgemäß) umgekehrt proportional zu algorithmischer Laufzeit verhält: Je mehr alität ich wünsche, desto höher wird der Berechnungsauf- wand. In der Arbeit von Florian Stahl wird ein umfangreiches Instrumentarium aus BWL-, Electronic Business- und Wirtschasinformatik-Konzepten mit Mo- dellen und Techniken der Informatik in geschickter und eindrucksvoller Weise kombiniert. Dies zeigt sich zum einen am WiPo-Konzept mit seinen diversen Einsatzszenarien und seiner prototypischen Realisierung und zum anderen an der Erkenntnis, faire Marktplatz-Preisgestaltung ür strukturierte Daten in der Terminologie relationaler Datenbanken ausdrücken und die Problemlösung auf eine Version des Knapsack-Problems zurückühren zu können. Die Arbeit stellt damit eine ür einen an hoch qualitativer Informationsverarbeitung interessier- ten Leser äußerst interessante Lektüre dar, und ich wünsche ihr eine breite Le- serscha. Münster, im Juli Prof. Dr. Gofried Vossen Acknowledgements First and foremost, I would like to thank my doctoral adviser Prof. Dr Gofried Vossen. I very much appreciate his support and guidance throughout my research and the process of writing this thesis. Moreover, I am grateful for the numerous opportunities he gave me to present my research at national and in- ternational conferences as well as to visit New Zealand twice to work on the Web in your Pocket (WiPo) project. I would also like to thank Prof. Dr Dr h.c. Dr h.c. Jörg Becker, Prof. h.c. (NRU - HSE, Moscow) for his willingness to act as a second reviewer of this thesis, and Prof. Dr orsten Wiesel for acting as a third examiner during the defence of this thesis. In academia, best results can be achieved when working collaboratively. erefore, I would like to acknowledge my co-authors who have always supported me in my endeavours and helped me develop new ideas. In addition to Gofried Vossen, I thank Assoc. Prof. Dr Stuart Dillon and Dr Karyn Rastrick with whom I worked on the idea of WiPo. Also, there are a number of students who supported this work by implementing the WiPo architecture, most notably Adrian Godde, Bastian Hagedorn, Bastian Köpcke, and Martin Rehberger. Prof. Dr Alexander Löser and Alexander Muschalle from Berlin, I thank for their col- laboration in the initial phase of my work on data marketplaces. Also, I thank Fabian Schomm and Lara Vomfell for their joint work on the data marketplace surveys. During my time at DBIS group, Dr Gunnar ies, Dr Till Haselmann, and Dr Christian Forster set good examples in completing a doctorate and supported me during the time of writing my thesis. Particularly, Dr Till Haselmann supported me morally, TEX-nically, and provided invaluable feedback regarding my work. Preantepenultimately, I thank my colleagues at DBIS group: Dr Jens Lechten- börger, Iman Kamehkhosh, David Fekete, Nicolas Pflanzl, and Fabian Schomm, who were always happy to discuss my research and gave me useful feedback regarding my preliminary results. For commendable technical support, I thank Ralf Farke, and for appreciable administrative support, I thank Claudia Werk- meister and her successor Melanie Wietkamp. Antepenultimately, my dear friends Paul and Simon shall be acknowledged for having done a jolly good job in ensuring that what I have wrien is actually English. Besides, Paul has provided invaluable feedback regarding the content of my work. Penultimately, I

High-Quality Web Information Provisioning and Quality-Based Data Pricing Florian Stahl High-Quality Web Information Provisioning and Quality-Based Data Pricing

The Origins of the Underline As Visual Representation of the Hyperlink on the Web: a Case Study in Skeuomorphism

Amazon's Antitrust Paradox

Ted Nelson History of Computing

The Culture of Wikipedia

From World Brain to the World Wide Web Transcript

Exploratory Study of Consumer Issues in Online Peer-To-Peer Platform Markets Task 4 – Case Study: Airbnb

The KWIC and the Dead: a Lesson in Computing History

Gigaom Research

Memex and Beyond : a Design Trajectory from Vannevar Bush’S Memex

United States District Court Northern District of California San Jose Division

The Archives of Paul Otlet: Between Appreciation and Rediscovery, 1944–2013

How the Predictions of Paul Otlet, HG Wells And