Computer-Assisted Understanding of Stance in Social Media: Formalizations, Data Creation, and Prediction Models

Computer-assisted Understanding of Stance in Social Media: Formalizations, Data Creation, and Prediction Models Von der Fakultät fur¨ Ingenieurwissenschaften Abteilung Informatik und Angewandte Kognitionswissenschaft der Universität Duisburg-Essen zur Erlangung des akademischen Grades Doktor der Ingenieurwissenschaften genehmigte Dissertation von Michael Maximilian Wojatzki aus Bad Mergentheim 1. Gutachter: Prof. Dr.-Ing. Torsten Zesch 2. Gutachter: Prof. Dr. rer. nat. Chris Biemann Tag der mundlichen¨ Prufung:¨ 21.01.2019 This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0). cbna Danksagung Die vorliegende Dissertation ist das Resultat eines langen Weges bestehend aus Schule, Studium, Promotion und praktischer Aktivitäten. Auf diesem Weg haben mich eine Vielzahl von Personen begleitet ohne die ich diesen nicht hätte beschreiten können und denen ich nun danken möchte: Zuallererst und mit Nachdruck möchte ich mich bei Torsten Zesch bedanken. Seit Torsten mich im Studium in die schwarze Magie des machine learnings eingefuhrt¨ hat, war er mir stets ein Mentor, der mich immer ermutigt hat, sich nicht mit oberflächlichen Antworten zufrieden zu geben. Während meiner Zeit als studentische Hilfskraft und als Doktorand habe ich von Torsten unglaublich viel uber¨ wissenschaftliches Arbeiten, Informatik, NLP aber auch daruber¨ gelernt, das große Ganze nicht aus den Augen zu verlieren. Ich bedanke mich bei Chris Biemann, der mir wertvolles Feedback gegeben hat und mit dem ich ein spannendes GermEval 2017 erleben durfte. Mein Dank gilt der DFG, dem Graduiertenkolleg UCSM und der Universität Duisburg-Essen, die Sachmittel und ein produktives Arbeitsumfeld zur Verfugung¨ gestellt haben. Ausdrucklich¨ möchte ich mich bei meinen Kollegen am LTL Andrea Horbach, Darina Gold, Huangpan Zhang, Osama Hamed und Tobias Horsmann bedanken, die immer fur¨ Diskussionen und Gedankenexperimente zur Verfugung¨ standen. Andrea und Darina wurden nie mude¨ jeman- dem mit weniger tiefem linguistischen Verständnis Konzepte wie named entities zu verdeutlichen. Besonderer Dank gilt Tobias, der mich währende meiner gesamten Promotion mit Rat und Tat begleitet hat und mit dem ich mich aufgemacht habe die Tiefen des deep learnings zu erforschen. Tobias stand dabei fur¨ endlose Diskussionen uber¨ shapes und layers zur Verfugung¨ und ich habe viel von seiner pragmatischen Herangehensweise gelernt. Ich danke auch allen SHKs am LTL, die mich bei Annotationen oder bei der Entwicklung von Prototypen unterstutzt¨ haben. Ich bedanke mich bei Andre Körner, Christoph Schmidt, Dimitar Denev und Heiko Beier, die mich bei Ausflugen¨ in die Praxis gefördert haben und von denen ich viel uber¨ Kundenorientierung und workarounds gelernt habe. Mein Dank gilt auch allen UCSM Doktoranden, Postdocs und PIs, die mir interessante Einblicke in andere Forschungsdisziplinen und -kulturen ermöglicht haben. Hervorheben möchte ich die gesamte IWG hate speech, in der ich besonders viel uber¨ interdisziplinäres Arbeiten gelernt habe. Ich bedanke mich auch bei allen Freunden und Kommilitonen, die mir während des Studiums zur Seite standen. Hervorheben möchte ich hier Gerrit Stöckigt, Benjamin Räthel und Jonas Braier, die mich in besonders vielen Kursen und Prufungen¨ begleitet haben. Bedanken möchte ich mich auch bei allen meinen Freunden aus meiner Schulzeit, die mich immer durch ihre spezielle Art unterstutzt¨ haben. Weiterhin bedanke ich mich bei meiner gesamten Familie. Der größte Dank geht an meine Eltern, die auf so vielfältige Weise zu dieser Dissertation beigetragen haben, dass man diese Beiträge nicht einzeln wurdigen¨ kann. Zuletzt möchte ich mich von ganzem Herzen bei Julia bedanken. Fur¨ Alles. Acknowledgements I thank the numerous anonymous reviewers that helped to improve my research projects and my submissions. Furthermore, I thank the NLP community for constructive feedback and many interesting conversations. I would also like to thank my international collaborators NicolásE. D´ıaz Ferreyra, Oren Melamud, Saif M. Mohammad, and Svetlana Kiritchenko with whom I have carried out research projects and excursions that have been deeply rewarding for me. My special thanks goes to Saif, who made my visit to Ottawa a fascinating experience and from whom I learned a lot about how to do research that is compelling to a large number of people. Abstract Stance can be defined as positively or negatively evaluating persons, things, or ideas (Du Bois, 2007). Understanding the stance that people express through social media has several applications: It allows governments, companies, or other information seekers to gain insights into how people evaluate their ideas or products. Being aware of the stance of others also enables social media users to engage in discussions more efficiently, which may ultimately lead to better collective decisions. Since the volume of social media posts is too large to be analyzed manually, computer- aided methods for understanding stance are necessary. In this thesis, we study three major aspects of such computer-aided methods: (i) abstract formalizations of stance which we can quantify across multiple social media posts, (ii) the creation of suitable datasets that correspond to a certain formalization, and (iii) stance detection systems that can automatically assign stance labels to social media posts. We examine four different formalizations that differ in how specific the insights and supported use-cases are: Stance on Single Targets defines stance as a tuple consisting of a single target (e.g. Atheism) and a polarity (e.g. being in favor of the target), Stance on Multiple Targets models a polarity expressed towards an overall target and several logically linked targets, and Stance on Nuanced Targets is defined as a stance towards all texts in a given dataset. Moreover, we study Hateful Stance, which models whether a post expresses hatefulness towards a single target (e.g. women or refugees). Machine learning-based systems require training data that is annotated with stance labels. Since annotated data is not readily available for every formalization, we create our own datasets. On these datasets, we perform quantitative analyses, which provide insights into how reliable the data is, and into how social media users express stance. Our analysis shows that the reliability of datasets is affected by subjective interpretations and by the frequency with which targets occur. Additionally, we show that the perception of hatefulness correlates with the personal stance of the annotators. We conclude that stance annotations are, to a certain extent, subjective and that future attempts on data creation should account for this subjectivity. We present a novel process for creating datasets that contain subjective stances towards nuanced assertions and which provide comprehensive insights into debates on controversial issues. To investigate the state-of-the-art of stance detection methods, we organized and par- ticipated in relevant shared tasks, and conducted experiments on our own datasets. Across all datasets, we find that comparatively simple methods yield a competitive per- formance. Furthermore, we find that neuronal approaches are competitive, but not clearly superior to more traditional approaches on text classification. We show that approaches based on judgment similarity { the degree to which texts are judged sim- ilarly by a large number of people { outperform reference approaches by a large margin. We conclude that judgment similarity is a promising direction to achieve improvements beyond the state-of-the-art in automatic stance detection and related tasks such as sen- timent analysis or argument mining. I II Zusammenfassung Stance (dt: Haltung, Position oder Standpunkt) bezeichnet die positive oder negative Evaluation von Personen, Dingen oder Ideen (Du Bois, 2007). Versteht man den Stance, den Menschen in den sozialen Medien zum Ausdruck bringen, eröffnen sich vielfälti- ge Anwendungsmöglichkeiten: Auf der einen Seiten können Regierungen, Unternehmen oder andere Informationssuchende Einblicke daruber¨ gewinnen, wie Menschen ihre Ent- scheidungen, Ideen oder Produkte bewerten. Auf der anderen Seite können Social Media Nutzer, denen der Stance anderer Nutzer bekannt ist, effizientere Diskussionen fuhren¨ und letztendlich bessere kollektive Entscheidungen treffen. Da die Anzahl der in sozialen Medien getätigter Beiträge zu hoch fur¨ eine manuelle Analyse ist, sind computergestutzte¨ Methoden zum Verständnis von Stance notwen- dig. In dieser Arbeit untersuchen wir drei Hauptaspekte solcher computergestutzten¨ Methoden: (i) abstrakte Stance Formalisierungen, die sich uber¨ mehrere Social Media Beiträge hinweg quantifizieren lassen, (ii) die Erstellung geeigneter Datensätze, die einer bestimmten Formalisierung entsprechen, und (iii) automatische Systeme zur Erkennung von Stance, die Social Media Beiträgen ein Stance Label zuordnen können. Wir untersuchen vier verschiedene Formalisierungen, die sich darin unterscheiden, wie spezifisch die Erkenntnisse sind, welche sie bei der Analyse von Social Media Debatten liefern: Stan- ce gegenuber¨ einzelnen Targets1 definiert Stance als ein Tupel, welches aus einem einzigen Target (z.B. Atheismus) und einer Polarität (z.B. fur¨ oder gegen das Target sein) besteht. Stance gegenuber¨ mehreren Targets modelliert eine Polarität, die gegenuber¨ einem ubergeordneten¨ Target und mehreren logisch verknupften¨ Targets aus- gedruckt¨ wird.

Computer-Assisted Understanding of Stance in Social Media: Formalizations, Data Creation, and Prediction Models

POLITICAL SCIENCE 444-544-SEM B2– the POLITICS of SOCIAL JUSTICE (Winter Term 2018)

Tnpsc Group-2 Current Affairs 2018

Hashtags for Change: Can Twitter Promote Social Progress in Saudi Arabia

By James King B.A., Samford University, 2006 M.L.I.S., University

Reconsidering Annotator Disagreement About Racist Language: Noise Or Signal?

Demographic Word Embeddings for Racism Detection on Twitter

Master Bibliography for Sports in Society, 1994–2009

FINAL TFGBV Paper

Sbi Po & Clerk Mains

Empowering Uncertainty Resolution for Marginalized Populations Through Social Technologies

An Empirical Study of Offensive Language in Online Interactions

A Measurement Study of Hate Speech in Social Media