A Framework for Working with Cross-Application Social Tagging Data
Total Page:16
File Type:pdf, Size:1020Kb
TECHNISCHE UNIVERSITÄT MÜNCHEN FAKULTÜT FÜR INFORMATIK Forschungs- und Lehreinheit XI Angewandte Informatik / Kooperative Systeme A Framework for Working with Cross-Application Social Tagging Data Walter Christian Kammergruber Vollständiger Abdruck der von der Fakultät für Informatik der Technischen Universität München zur Erlangung des akademischen Grades eines Doktors der Naturwissenschaften (Dr. rer. nat.) genehmigten Dissertation. Vorsitzender: Univ.-Prof. Dr. Helmut Krcmar Prüfer der Dissertation: 1. Univ.-Prof. Dr. Johann Schlichter 2. Univ.-Prof. Dr. Florian Matthes Die Dissertation wurde am 26.06.2014 bei der Technischen Universität München eingere- icht und durch die Fakultät für Informatik am 26.11.2014 angenommen. Zusammenfassung Mit dem zunehmenden Erfolg des Web 2.0 wurde und wird Social-Tagging immer beliebter, und es wurde zu einem wichtigen Puzzle-Stück dieses Phänomens. Im Unterschied zu ausgefeilteren Methoden um Ressourcen zu organisieren, wie beispielsweise Taxonomien und Ontologien, ist Social-Tagging einfach einzusetzen und zu verstehen. Bedingt durch die Einfachheit finden sich keine expliziten und formalen Strukturen vor. Das Fehlen von Struktur führt zu Problemen beim Wiederaufinden von Informationen, da beispielsweise Mehrdeutigkeiten in Suchanfragen nicht aufgelöst werden können. Zum Beispiel kann ein Tag „dog“ (im Englischen) für des Menschen bester Freund stehen, aber auch für das Lieblingsessen mancher Personen, einem Hot Dog. Ein Bild einer Katze kann mit„angora cat“, „cat“, „mammal“, „animal“oder „creature“getagged sein. Die Art der Tags hängt sehr stark vom individuellen Nutzer ab. Weiterhin sind Social-Tagging-Daten auf verschiedene Applikationen verteilt. Ein gemeinsamer Mediator ist nicht vorhanden. Beispielsweise kann ein Nutzer auf vielen verschiedenen Applikationen Entitäten taggen. Für das Internet kann das Flickr, Delicious, Twitter, Facebook and viele mehr sein. Innerhalb großer Fir- men, wie Siemens, werden viele verschiedene Social-Software-Applikationen verwendet, wobei die meisten eine Form des Tagging verwenden. Ein gemeinsamer Mediator fehlt. Social-Tagging-Daten werden nicht wiederverwendet. In dieser Arbeit wird ein Framework beschrieben, mit dem sich Social-Tagging-Daten von verschiedenen Applikationen aggregieren lassen. Zudem werden die Daten mit Relationen angereichert. Ein einfaches und generisches Datenaustauschformat wurde definiert, ein Aggregationsmechanismus entwickelt. Das Tagging-Framework speichert die Tag-Daten zwischen und stellt den angeschlossenen Applikationen Services zur Verfügung. Das Verwalten der Daten und die Kontrolle verbleibt bei den jeweiligen Applikationen. Drei verschiedene Ansätze, die zu leichtgewichtigen Strukturen führen, wurden gestal- tet: Statistische Analysen von Social-Tagging-Daten, Abbildung von Tags auf vorhandene Ontologien oder anderen strukturierten Quellen und ein kollaborative Thesauruserzeu- gung. Weitere Data-Mining-Anwendungen wurden ausgewählt und angepasst. Dies bein- haltet das Clustern von Nutzern anhand ihrer Social-Tagging-Praxis und die verbesserte Verteilung von Fragen in einer Question-And-Answer-Plattform. Teile der Implementierung des beschriebenen Frameworks befinden sich seit geraumen im Produktiveinsatz im Intranet der Siemens AG. Als ein Ergebnis konnte die Anzahl der internen Email-Notifikationen für ein Siemens Social-Media-Werkzeug um ein Faktor von mehreren Hunderttausend pro Monat reduziert werden. abstract Social tagging has become very popular with the rise of Web 2.0, making it an important piece of the puzzle that forms this phenomenon. In contrast to more elaborate ways of organizing resources, such as taxonomies or ontologies, tagging is very easy to use and un- derstand. Because of its simplicity tagging does not create explicit, formalized structures. The lack of structure leads to problems in information retrieval, since for example ambi- guities in queries cannot be resolved. For example, a tag “dog” can stand for a man’s best friend or for some people’s favorite food, a frankfurter. A picture of an angora cat can be tagged e.g. with “angora cat,” “cat,” “mammal,” “animal,” or “creature”. The choice of tag strongly depends on the individual user. Further, social tagging data is spread across many different applications. For example, a user can tag entities in many different applications. In the case of the Internet this can be Flickr, Delicious, Twitter, Facebook, and many other. Inside a larger corporation, such as Siemens, there are many social software tools in use. Most of them use some kind of tagging mechanism. A common mediator is here missing. Social tagging data is not reused across application boundaries. This thesis describes a framework for aggregating social tagging data from different ap- plications. An approach for enriching its social tagging data with semantic relations has been developed. For fetching social tagging data a simple and generic data exchange for- mat has been created. For retrieving social tagging data from different sources, a mecha- nism has been designed. The tagging framework caches social tagging data and only acts as a service for associated applications. The actual storage and control over the tagging data stays with the individual application. Three different methods that lead to lightweight structures have been developed: statis- tical analysis of social tagging data, mapping tags to existing ontologies or other structured input and collaborative tag thesaurus creation. Further data mining applications have been selected and adopted. This includes clustering of users based on their social tagging prac- tice and improved channeling of requests in a question and answer platform. Parts of the implementation of the described framework are in productive use within the Intranet of Siemens AG. As one result, internal email notifications for a Siemens social media tool could be reduced by the factor of hundreds of thousands emails per month. Acknowledgements Many people have helped make this research possible; adequately acknowledging them has been one of the most challenging writing tasks of this dissertation. Above all, I would like to thank to Prof. Dr. Johann Schlichter, my supervisor at the Technical University of Munich. Prof. Schlichter was a guiding mentor that helped me a lot in leading this work in the right and fruitful direction. Additionally, the fellow PhD students and assistant teachers (Dr. Wolfgang Wörndl and Dr. Georg Groh) at the Technical University of Munich where very helpful with their constructive feedback. Especially, the doctoral seminars were highlights during the time working on this research. This thesis has been done in cooperation with Siemens Corporate Technologies in Mu- nich. I would like to acknowledge the support provided by my colleagues at Siemens Cor- porate Technologies, especially Dr. Manfred Langen and Dr. Karsten Ehms but also Werner Zucker, Dr. Maximilian Viermetz, Bernd Lindner and Dr. Albert Eckert for their support and inspiration. I would like to express my gratitude towards Mike Burgold, who has helped a lot in trans- forming a prototypical implementation of a tagging framework developed within this thesis into a production ready implementation. Furthermore, I wish to thank to thank Prof. Dr. Jiˇrí Panyr, who departed from us too soon, for some interesting discussions and literature recommendations. Feedback given by Dr. Isabella Peters on information science topics has been a great help in refining the corresponding chapter. I would like to express my gratitude to Dr. Axel Rauschmayer for his advice on structural aspects of my dissertation and tips on writing styles. Additionally, I would like to thank the team related to the Siemens TechnoWeb for their agile, friendly, and professional cooperation: Dr. Michael Heiss, Thomas Mayerdorfer, Clemens Wiener, and Dr. Thomas Lackner. This PhD thesis has been created within the framework of the Theseus project, more precisely the Use Case Alexandria. The project was funded by the German Federal Ministry of Economy and Technology under the promotional reference “01MQ07012”. Contents 1 Introduction1 1.1 About Social Tagging..................................1 1.2 Three Major Social Software Applications at Siemens...............3 1.3 Research Issues.....................................7 1.4 Proposed Approach...................................7 1.5 Thesis Outline...................................... 11 2 Meta-data or Indexing Approaches 13 2.1 Introduction....................................... 14 2.2 Natural Language Vocabularies............................ 16 2.2.1 Free Keywords.................................. 16 2.2.2 Social Tagging.................................. 16 2.2.3 Glossary..................................... 26 2.3 Controlled Vocabularies................................ 27 2.3.1 Taxonomy.................................... 27 2.3.2 Thesaurus.................................... 30 2.3.3 Ontology..................................... 31 2.4 Others........................................... 34 3 Related and Existing Work 37 3.1 Data Mining and Statistical Algorithm........................ 37 3.1.1 Co-Occurrence Analysis and Clustering................... 38 3.1.2 Association Rule Mining............................ 39 3.2 Mapping of External Structured Sources...................... 39 3.3 Social Tagging Clustering and Social Network Analysis.............. 40 3.4 Tagging Ontologies................................... 42 3.5 Thesaurus Editor...................................