Crowdsourcing for Linguistic Field Research and E-Learning

CROWDSOURCINGFORLINGUISTICFIELD RESEARCHANDE-LEARNING Dissertation an der Fakultät für Mathematik, Informatik und Statistik der Ludwig-Maximilians-Universität München vorgelegt von Diplom-Informatiker Fabian Kneißl München, den 25. Februar 2014 Erstgutachter: Prof. Dr. François Bry Zweitgutachter: PD Dr. Georg Groh Tag der mündlichen Prüfung: 1. April 2014 Eidesstattliche Versicherung (Siehe Promotionsordnung vom 12.07.11, § 8, Abs. 2 Pkt. .5.) Hiermit erkläre ich an Eidesstatt, dass die Dissertation von mir selbstständig, ohne unerlaubte Beihilfe angefertigt ist. Kneißl, Fabian Name, Vorname München, den 25.2.2014 Ort, Datum Unterschrift Doktorand/in ABSTRACTCrowdsourcing denotes the transfer of work commonly carried out by single humans to a large group of people. Nowadays, crowdsourcing is employed for many purposes, like people contributing their knowledge to Wikipedia, researchers predicting diseases from data on Twitter, or players solving protein folding problems in games. Still, there are areas for which the application of crowdsourcing has not yet been investigated thoroughly. This thesis examines crowdsourcing for two such areas: for empirical research in sciences oriented on humans –focusing on linguistic field research– and for e-learning. Sciences oriented on humans –like linguistics, sociology, or art history– de- pend on empirical research. For example, in traditional linguistic field research researchers ask questions and fill in forms. Such methods are time-consuming, costly, and not free of biases. This thesis proposes the application of crowdsourcing techniques to overcome these disadvantages and to support empirical research in getting more efficient. Therefore, the concept of a generic market for trading with symbolic goods and speculating on their characteristics in a playful manner, called Agora, is introduced. Agora aims to be an “operating system” for social media applications gathering data. Furthermore, the Web- based crowdsourcing platform metropolitalia has been established for hosting two social media applications based upon Agora: Mercato Linguistico and Po- ker Parole. These applications have been conceived as part of this thesis for gathering complementary data and meta-data on Italian language varieties. Mercato Linguistico incites players to express their own knowledge or beliefs, Poker Parole incites players to make conjectures on the contributions of others. Thereby the primary meta-data collected with Mercato Linguistico are enriched with secondary, reflexive meta-data from Poker Parole, which are needed for studies on the perception of languages. An evaluation of the data gathered on metropolitalia exhibits the viability of the market-based approach of Agora and highlights its strengths. E-learning is concerned with the use of digital technology for learning, nowadays especially via the Internet. This thesis investigates how e-learning applications can support students with association-based learning and lecturers with teaching. For that, a game-like e-learning tool named Termina is pro- posed in this thesis. From the data collected with Termina association maps are constructed. An association map is a simplified version of a concept map, in which concepts are represented as rectangles and relationships between concepts as links. They constitute an abstract comprehension of a topic. Students profit from the association maps’ availability, learn from other participating students, and can track their own learning progress. Lecturers gain insights into the knowledge and into potential misunderstandings of their students. An evaluation of Termina and the collected data along a university course exhibits Termina’s usefulness for both students and lecturers. v The main contributions of this thesis are (1) a literature review over collective intelligence, crowdsourcing, and related fields, (2) a model of a generic market for gathering data for empirical research efficiently, (3) two applications based on this model and results of an evaluation of the data gathered with them, (4) the game-like e-learning tool Termina together with insights from its evaluation, and (5) a generic software architecture for all aforementioned applications. ZUSAMMENFASSUNGCrowdsourcing bezeichnet die Auslagerung von Arbeit an eine Gruppe von Menschen zur Lösung eines Problems. Heutzutage wird Crowdsourcing für vie- le Zwecke verwendet, zum Beispiel tragen Leute ihr Wissen zu Wikipedia bei, Wissenschaftler sagen Krankheiten anhand von Twitter-Daten vorher oder Spie- ler lösen Proteinfaltungsprobleme in Spielen. Es gibt dennoch Gebiete, für die der Einsatz von Crowdsourcing noch nicht gründlich untersucht wurde. Die- se Arbeit untersucht Crowdsourcing für zwei solche Gebiete: für empirische Forschung in auf den Menschen bezogenen Wissenschaften mit Fokus auf lin- guistischer Feldforschung sowie für E-Learning. Auf den Menschen bezogene Wissenschaften wie Linguistik, Soziologie oder Kunstgeschichte beruhen auf empirischer Forschung. In traditioneller linguis- tischer Feldforschung zum Beispiel stellen Wissenschaftler Fragen und füllen Fragebögen aus. Solche Methoden sind zeitaufwändig, teuer und nicht unbe- fangen. Diese Arbeit schlägt vor, Crowdsourcing-Techniken anzuwenden, um diese Nachteile zu überwinden und um empirische Forschung effizienter zu ge- stalten. Dazu wird das Konzept eines generischen Marktes namens Agora für den Handel mit symbolischen Gütern und für die Spekulation über deren Cha- rakteristika eingeführt. Agora ist ein generisches “Betriebssystem” für Social Media Anwendungen. Außerdem wurde die Internet-basierte Crowdsourcing- Plattform metropolitalia eingerichtet, um zwei dieser Social Media Anwendun- gen, die auf Agora basieren, bereitzustellen: Mercato Linguistico und Poker Parole. Diese Anwendungen wurden als Teil dieser Arbeit entwickelt, um kom- plementäre Daten und Metadaten über italienische Sprachvarietäten zu sam- meln. Mercato Linguistico regt Spieler dazu an, ihr eigenes Wissen und ihre Überzeugungen auszudrücken. Poker Parole regt Spieler dazu an, Vermutungen über die Beiträge anderer Spieler anzustellen. Damit werden die mit Mercato Linguistico gesammelten primären Metadaten mit reflexiven sekundären Meta- daten aus Poker Parole, die für Studien über die Wahrnehmung von Sprachen notwendig sind, bereichert. Eine Auswertung der auf metropolitalia gesammelten Daten zeigt die Zweckmäßigkeit des marktbasierten Ansatzes von Agora und unterstreicht dessen Stärken. E-Learning befasst sich mit der Verwendung von digitalen Technologien für das Lernen, heutzutage vor allem über das Internet. Diese Arbeit untersucht, wie E-Learning-Anwendungen Studenten bei assoziationsbasiertem Lernen und vi Dozenten bei der Lehre unterstützen können. Dafür wird eine Spiel-ähnliche Anwendung namens Termina in dieser Arbeit eingeführt. Mit den über Termi- na gesammelten Daten werden Association-Maps konstruiert. Eine Association- Map ist eine vereinfachte Variante einer Concept-Map, in der Begriffe als Recht- ecke und Beziehungen zwischen Begriffen als Verbindungslinien dargestellt werden. Sie stellen eine abstrakte Zusammenfassung eines Themas dar. Studenten profitieren von der Verfügbarkeit der Association-Maps, lernen von anderen Studenten und können ihren eigenen Lernprozess verfolgen. Dozenten bekom- men Einblicke in den Wissensstand und in eventuelle Missverständnisse ihrer Studenten. Eine Evaluation von Termina und der damit gesammelten Daten während eines Universitätskurses bestätigt, dass Termina sowohl für Studenten als auch für Dozenten hilfreich ist. Die Kernbeiträge dieser Arbeit sind (1) eine Literaturrecherche über kollek- tive Intelligenz, Crowdsourcing und verwandte Gebiete, (2) ein Modell eines generischen Marktes zur effizienten Sammlung von Daten für empirische For- schung, (3) zwei auf diesem Modell basierende Anwendungen und Ergebnisse deren Evaluation, (4) die Spiel-ähnliche E-Learning-Anwendung Termina zu- sammen mit Einblicken aus dessen Evaluation und (5) eine generische Softwa- rearchitektur für alle vorgenannten Anwendungen. vii PUBLICATIONSSome ideas and figures presented in this thesis previously appeared in the following publications: [1] François Bry, Fabian Kneißl, Thomas Krefeld, Stephan Lücke and Chris- toph Wieser. A Crowdsourcing Platform for Italian Linguistic Field Re- search. Research Report. Munich, Germany: Institute for Informatics, Ludwig-Maximilians-Universität München, 2013. [2] François Bry, Fabian Kneißl, Thomas Krefeld, Stephan Lücke and Chris- toph Wieser. “Crowdsourcing for a Geographical and Social Mapping of Italian Dialects”. In: Proceedings of the 2nd International Workshop on Social Media for Crowdsourcing and Human Computation (SOHU- MAN). Paris, France, 2013. [3] François Bry, Fabian Kneißl and Christoph Wieser. “Field Research for Humanities with Social Media: Crowdsourcing and Algorithmic Data Analysis”. In: Proceedings of 4. Workshop Digitale Soziale Netze im Rahmen der 41. Jahrestagung der Gesellschaft für Informatik (DSN). Berlin, Germany, 2011. [4] Fabian Kneißl and François Bry. Borsa Parole - A Market for Linguistic Speculation. Research Report. Munich, Germany: Institute for Informat- ics, Ludwig-Maximilians-Universität München, 2012. [5] Fabian Kneißl and François Bry. “Fostering Concept Maps Awareness as a Means to Learning”. In: Proceedings of the Third International Conference on Social Computing and Its Applications (SCA). Karlsruhe, Germany, 2013. [6] Fabian Kneißl and François Bry. “MetropolItalia: A Crowdsourcing Platform for Linguistic

Crowdsourcing for Linguistic Field Research and E-Learning

Netscape 6.2.3 Software for Solaris Operating Environment

Chapter 10 Document Object Model and Dynamic HTML

Framework for Developing Offline HTML5 Applications

DOCTYPE Sniffing

MS-XHTML]: Internet Explorer Extensible Hypertext Markup Language (XHTML) Standards Support Document

HTML5 and CSS3 – the Future of the Web Programming

Its 2.0 Validation and Migration Tools for Html5 and Xhtml

Document Object Model †DOM‡ Level 2 HTML Specification

Difference Between HTML/HTML5 and XHTML

Team Mozilla

Authoring Web Pages with Mathml for Cross-Browser Display

Chapter 7: HTML/XHTML I