Cultural Neighbourhoods, Or Approaches to Quantifying Cultural Contextualisation in Multilingual Knowledge Repository Wikipedia
Total Page:16
File Type:pdf, Size:1020Kb
CULTURAL NEIGHBOURHOODS, OR APPROACHES TO QUANTIFYING CULTURAL CONTEXTUALISATION IN MULTILINGUAL KNOWLEDGE REPOSITORY WIKIPEDIA by Anna Samoilenko Approved Dissertation thesis for the partial fulfillment of the requirements for a Doctor of Natural Sciences (Dr. rer. nat.) Fachbereich 4: Informatik Universität Koblenz-landau Chair of PhD Board: Prof. Dr. Ralf Lämmel Chair of PhD Commission: Prof. Dr. Stefan Müller Examiner and Supervisor: Prof. Dr. Steffen Staab Further Examiners: Prof. Dr. Brent Hecht, Jun.-Prof. Dr. Tobias Krämer Date of the doctoral viva: 16 June 2021 iii Cultural Neighbourhoods, or approaches to quantifying cultural contextualisation in multilingual knowledge repository Wikipedia by Anna SAMOILENKO Abstract As a multilingual system, Wikipedia provides many challenges for academics and engineers alike. One such challenge is cultural contextualisation of Wikipedia content, and the lack of approaches to effectively quantify it. Additionally, what seems to lack is the intent of establishing sound computational practices and frameworks for measuring cultural variations in the data. Current approaches seem to mostly be dictated by the data availability, which makes it difficult to apply them in other contexts. Another common drawback is that they rarely scale due to a significant qualitative or translation effort. To address these limitations, this thesis develops and tests two modular quantitative approaches. They are aimed at quantifying culture-related phenomena in systems which rely on multilingual user-generated content. In particular, they allow to: (1) operationalise a custom concept of cul- ture in a system; (2) quantify and compare culture-specific content- or coverage biases in such a system; and (3) map a large scale landscape of shared cultural interests and focal points. Empirical validation of these approaches is split into two parts. First, an approach to mapping Wikipedia communities of shared co-editing interests is validated on two large Wikipedia datasets comprising multilateral geopolitical and linguistic editor communities. Both datasets reveal mea- surable clusters of consistent co-editing interest, and computationally confirm that these clusters correspond to existing colonial, religious, socio-economic, and geographical ties. Second, an approach to quantifying content differences is validated on a multilingual Wikipedia dataset, and a multi-platform (Wikipedia and Encyclopedia Britannica) dataset. Both are limited to a selected knowledge domain of national history. This analysis allows, for the first time on the large scale, to quantify and visualise the distribution of historical focal points in the articles on national histories. All results are cross-validated either by domain experts, or external datasets. Main thesis contributions. This thesis: (1) presents an effort to formalise the process of mea- suring cultural variations in user-generated data; (2) introduces and tests two novel approaches to quantifying cultural contextualisation in multilingual data; (3) synthesises a valuable overview of literature on defining and quantifying culture; (4) provides important empirical insights on the effect of culture on Wikipedia content and coverage; demonstrates that Wikipedia is not context- free, and these differences should not be treated as noise, but rather, as an important feature of the data. (5) makes practical service contributions through sharing data and visualisations. v Zusammennfassung Als mehrsprachiges System stellt Wikipedia viele Herausforderungen sowohl an Akademiker als auch an Ingenieure. Eine dieser Herausforderungen ist die kulturelle Kontextualisierung der Wikipedia-Inhalte und der Mangel an Ansätzen zu ihrer effektiven Quantifizierung. Außerdem scheint es an der Absicht zu fehlen, solide Berechnungspraktiken und Rahmenbedingungen für die Messung kultureller Variationen in dem Datenmaterial zu schaffen. Die derzeitigen Ansätze scheinen hauptsächlich von der Datenverfügbarkeit diktiert zu werden, was ihre Anwendung in anderen Kontexten erschwert. Ein weiterer häufiger Nachteil ist, dass sie aufgrund eines erhe- blichen qualitativen oder Übersetzungsaufwands selten skalieren. Um diesen Einschränkungen zu begegnen, werden in dieser Arbeit zwei modulare quantita- tive Ansätze entwickelt und getestet. Sie zielen darauf ab, kulturbezogene Phänomene in Syste- men zu quantifizieren, die auf mehrsprachigem, nutzergeneriertem Inhalt beruhen. Insbesondere ermöglichen sie es: (1) einen benutzerdefinierten Kulturbegriff in einem System zu operational- isieren; (2) kulturspezifische Inhalts- oder Abdeckungsverzerrungen in einem solchen System zu quantifizieren und zu vergleichen; und (3) eine großräumige Landschaft mit gemeinsamen kul- turellen Interessen und Schwerpunkten abzubilden. Die empirische Validierung dieser Ansätze ist in zwei Teile gegliedert. Erstens wird ein Ansatz zur Kartierung von Wikipedia-Gemeinschaften mit gemeinsamen redaktionellen Interessen auf zwei großen Wikipedia-Datensätzen validiert, die multilaterale geopolitische und sprachliche Re- dakteursgemeinschaften umfassen. Beide Datensätze zeigen messbare Cluster von konsistenten Mitredaktionsinteressen und bestätigen rechnerisch, dass diese Cluster mit bestehenden kolo- nialen, religiösen, sozioökonomischen und geographischen Bindungen übereinstimmen. Zweitens wird ein Ansatz zur Quantifizierung von Inhaltsunterschieden anhand eines mehr- sprachigen Wikipedia-Datensatzes und eines Multiplattform-Datensatzes (Wikipedia und Ency- clopedia Britannica) validiert. Beide sind auf einen ausgewählten Wissensbereich der Nation- algeschichte beschränkt. Diese Analyse ermöglicht es erstmals im großen Maßstab, die Verteilung der historischen Schwerpunkte in den Artikeln zur Nationalgeschichte zu quantifizieren und zu visualisieren. Alle Ergebnisse werden entweder von Fachexperten oder von externen Datensätzen kreuzvalidiert. Die wichtigsten Beiträge der Dissertation. Diese Dissertation: (1) stellt einen Versuch dar, den Prozess der Messung kultureller Variationen in nutzergeneriertem Datenmaterial zu formal- isieren; (2) stellt zwei neue Ansätze zur Quantifizierung der kulturellen Kontextualisierung in mehrsprachigem Datenmaterial vor und testet sie; (3) schafft einen wertvollen Überblick über die Literatur zur Definition und Quantifizierung von Kultur; (4) liefert wichtige empirische Erken- ntnisse über die Wirkung von Kultur auf den Inhalt und die Abdeckung von Wikipedia; zeigt, dass Wikipedia nicht kontextfrei ist, und dass diese Unterschiede nicht als Rauschen, sondern als ein wichtiges Merkmal des Datenmaterials behandelt werden sollten. (5) leistet einen praktischen Beitrag durch das Teilen von Datenmaterial und Visualisierungen. vii Contents 1 Introduction 1 1.1 Research questions, proposed approaches, results....................4 1.1.1 Mapping communities of shared information interest..............4 1.1.2 Quantifying content differences in a specific knowledge domain.......5 1.2 Thesis contributions.....................................7 1.3 Publications related to this thesis and author contributions...............9 1.4 Thesis structure........................................ 12 2 Related work 13 2.1 User-generated content (UGC)............................... 13 2.2 Motivation for studying Wikipedia............................. 15 2.2.1 Wikipedia in education and academic research.................. 15 2.2.2 Wikipedia in Computer Science and modern algorithms............ 16 2.2.3 Wikipedia in Business and Economy........................ 16 2.2.4 Wikipedia in Public policy.............................. 18 2.3 Cultural contextualisation of UGC............................. 20 2.4 Defining and operationalising culture........................... 23 2.5 Approaches to quantifying culture............................. 29 2.6 Conclusion........................................... 33 3 Mapping communities of shared information interest 35 3.1 Approach: Extracting and understanding ties of shared interests............ 37 3.1.1 Step I: Statistical formalisation of the shared interest model.......... 37 3.1.2 Step II: Clustering editor communities of similar interests........... 39 3.1.3 Step III: Understanding shared interests..................... 40 3.2 Validation I: Mapping bilateral information interests................... 41 3.2.1 Data collection.................................... 42 3.2.2 Approach and results................................ 43 The world map of information interests...................... 43 Interconnections between the clusters....................... 44 Bilateral ties within the clusters........................... 44 Regression analysis of hypotheses related to the strengths of shared interests 46 3.3 Validation II: Linguistic neighbourhoods.......................... 49 3.3.1 Data collection.................................... 50 3.3.2 Approach and results................................ 51 Testing for non-randomness of co-editing patterns................ 51 The network of shared interests among the language communities...... 51 Explaining the clusters of co-editing interests: Hypothesis formulation... 55 Bayesian inference – HypTrails........................... 57 Frequentist approach – MRQAP.......................... 59 3.4 Discussion of empirical results............................... 60 3.5 Limitations........................................... 63 3.6 Chapter summary...................................... 65 viii 3.7 Conclusions and implications................................ 66 4 Quantifying content differences