Data Segmentation Using NLP: Gender and Age

UPTEC STS 21001 Examensarbete 30 hp Januari 2021 Data Segmentation Using NLP: Gender and Age Gustav Demmelmaier Carl Westerberg Abstract Data Segmentation Using NLP: Gender and Age Gustav Demmelmaier & Carl Westerberg Teknisk- naturvetenskaplig fakultet UTH-enheten Natural language processing (NLP) opens the possibilities for a computer to read, decipher, and interpret human languages to eventually use it in Besöksadress: ways that enable yet further understanding of the interaction and Ångströmlaboratoriet Lägerhyddsvägen 1 communication between the human and the computer. When appropriate data Hus 4, Plan 0 is available, NLP makes it possible to determine not only the sentiment information of a text but also information about the author behind an Postadress: online post. Previously conducted studies show aspects of NLP Box 536 751 21 Uppsala potentially going deeper into the subjective information, enabling author classification from text data. Telefon: This thesis addresses the lack of demographic insights of online user 018 – 471 30 03 data by studying language use in texts. It compares four popular yet Telefax: diverse machine learning algorithms for gender and age segmentation. 018 – 471 30 00 During the project, the age analysis was abandoned due to insufficient data. The online texts were analysed and quantified into 118 parameters Hemsida: based on linguistic differences. Using supervised learning, the http://www.teknat.uu.se/student researchers succeeded in correctly predicting the gender in 82% of the cases when analysing data from English online users. The training and test data may have some correlations, which is important to notice. Language is complex and, in this case, the more complex methods SVM and Neural networks were performing better than the less complex Naive Bayes and Logistic regression. Handledare: Frederique Pirenne Ämnesgranskare: Matteo Magnani Examinator: Elísabet Andrésdóttir ISSN: 1650-8319, UPTEC STS** *** Populärvetenskaplig sammanfattning Allt eftersom den digitaliserade erans v˚agsveper över jordens alla hörnblir människan alltmer uppkopplad. Faktumet att det ärmer regel änundantag att en människa har en smartphone kan idag till och med upplevas som en underdrift. Att inte inneha en smartphone kan rentav upplevas som ett allmänt avvikande drag. Med detta ständigt ökande antal uppkopplade människor ökar även intresset och möjligheternaatt analy- sera all data som skapas i och med detta. Alla inläggp˚asociala medier, alla likes, alla skickade meddelanden, alla tankar publicerade i en tweet, till och med nedladdningen av detta examensarbete genererar data om vad du gör,var du äroch dina personliga ˚asikter.Denna data lockar m˚angaolika typer av intressenter, b˚adei industrin och inom den akademiska världen. Natural Language Processing (NLP) en gren inom Artificiell Intelligens som studerar mänskligtskriven text och bland annat interaktionen mellan dator och människa genom. Det öppnar möjligheternafören dator att läsa,avkoda och tolka det mänskliga spr˚aket, föratt sedan först˚aoch användadet, vilket ger upphov till ytterligare först˚aelse mellan människan och datorn. Ett ofta studerat omr˚adeinom NLP ärSentimentanalys som ämnaranalysera och klassificera subjektiv information och ˚asikterfr˚anmänskligt skriven text och praktiseras förnärvarande kommersiellt. Företagfr˚anett brett spek- trum av industrier har sett potentialen av Sentimentanalys och i samband med det ökande antalet användareonline och de enorma mängderna data lockar den ännu fler, framföralltföretagspecialiserade inom marknadsföring. Användare, eller potentiella kunder som marknadsförarnaser dem, lämnarsp˚arefter sig vart de än g˚arp˚agrund av deras uppkoppling, och vissa g˚arännu längregenom att fritt uttrycka sina ˚asikterp˚a olika plattformar - omedvetna om den information de tillhandah˚alleroch realtidsdatain- samlingen som utförs.Detta skapar i sin tur möjligheterföralla, särskilt stora företag, att skördamängderdata och utforska den for att producera otroligt noggranna och pre- cisa analyser. Förmarknadsföringsindustrinhar detta resulterat i ett paradigmskifte däranaloga marknadsanalyser l˚angsamt försvinnerför att ta framtida, mer digitaliserade vägar. Notabelt ärändock att tidigare akademiska studier har visat att andra aspekter av NLP potentiellt kan g˚aännu djupare in i den subjektiva informationen och göradet för datorn möjligtatt avgöravem författarentill en mänskligtskriven text är,helt utan att tidigare kännatill dess mänskligaegenskaper eller att visuellt se personen. Fr˚an mänskligtskrivna texter, eller naturligt spr˚aksom det direkt översättstill, har klassifi- cering av författarensdemografiska faktorer s˚asomkönoch˚alderhar framg˚angsriktgjort inom den akademiska världen. Dessa studier använderemellertid textdata fr˚anen och samma onlinekällaeller plattform, resulterar i en homogen data beträffandetextlängd, struktur och kontextuella attribut. En datainsamling med en mer varierad uppsättning insamlingskällorskulle potentiellt skapa bättreförutsättningarförklassificering samt statistisk representation av de demografiska faktorerna av en verklig population och därföräven skapa ett bättreanvändningsomr˚adeförkommersiella ändam˚al. Examensarbetet gjordes i samarbete med det marknadsteknologiska företagetGraviz Labs och studerar den bristande insikten gällandedemografiska faktorer av onlin- eanvändare. Genom datorlingvistik studeras olika författaresspr˚akanvändningoch fyra olika maskininlärningsalgoritmerkonstrueras och tränasförklassificering av faktorerna kön och ˚alder.Under projektets varaktighet övergavs ˚aldersfaktornp˚agrund av otillräcklig data. Med hjälpav maskininlärningsmetoden Supervised Learning, över- satt till övervakat lärande,däralgoritmerna lärsig att replikera och generalisera given träningsdata,lyckas studien att prediktera faktorn könmed en träffsäkerhet p˚a82% vid analys av engelsktalande författare. Asidosatt˚ en potentiellt korrelation i studiens dataset, indikerar resultaten att studien, med avseende p˚aträffsäkerhet, ärkonkur- renskraftig i jämförelsemed internationella studier. Studien p˚avisaräven en framtida kommersiell potential vid likalydande utformning. Acknowledgements This thesis is a result of a project conducted at the analytics company Graviz Labs. We would like to thank the team at Graviz Labs and especially our supervisor Frederique Pirenne for the opportunity to execute the project and for all the help and assistance throughout the project. We would also like to thank our subject reader Matteo Magnani who has contributed with great inputs and significant feedback along the way. Thank you! Distribution of work This thesis project has be created by Gustav Demmelmaier and Carl Westerberg. It has been carried out in a close collaboration between the two and all covered parts of the thesis have been studied, written and reviewed conjointly. Individual tasks were distributed periodically during the course of the project. When a task was achieved or problems occurred they were reviewed instantly to maintain the defined collaboration, to solve problems and to share information. In general, all this was done immediately since the majority of the work was conducted in the same office. Pair programming and writing were practiced frequently and the overall work distribution of this thesis was practically 50/50. Glossary AI - Artificial Intelligence API - Application Programming Interface AUC - Area Under Curve FPR - False Positive Rate IAA - Inter-Annotator Agreement MLP - Multi Layer Perceptron NLP - Natural Language Processing POS - Part of Speech RBF - Radial Basis Function ROC - Receiver Operating Characteristic SVM - Support Vector Machine TPR - True Positive Rate Contents 1 Introduction 1 1.1 Related work . .2 1.1.1 Supervised learning . .2 1.1.2 Natural Language Processing . .3 1.1.3 Sentiment analysis . .4 1.1.4 Demographics and linguistics . .4 1.2 Ethics in online user data . .4 1.2.1 Privacy in online data . .5 1.2.2 Gender as a variable . .5 1.2.3 Age as a variable . .6 1.2.4 Ethical framework for this research . .6 1.2.5 Ethical consequences of the project . .7 1.3 Research definition . .8 1.4 Disposition . .8 2 Theory 9 2.1 Machine learning in classification . .9 2.2 Classification models . .9 2.2.1 Logistic regression . .9 2.2.2 Support Vector Machine . 10 2.2.3 Naive Bayes . 10 2.2.4 Neural networks . 11 2.3 Natural language processing . 13 2.3.1 Feature classes . 13 2.4 Calibration methods . 17 2.4.1 Hyper-parameter tuning and weighting . 17 2.5 Evaluation . 17 2.5.1 Evaluation metrics . 18 2.5.2 ROC-curve . 18 2.5.3 Cross validation . 19 3 Method 21 3.1 Workflow . 21 3.2 Data . 23 3.2.1 Data collection . 23 3.2.2 Cleaning and pre-processing . 25 3.2.3 Labelling . 26 3.2.4 Parametrisation . 27 3.3 Machine learning . 30 3.3.1 Selection of classifiers . 30 3.3.2 Implementing the classifiers . 31 3.3.3 Hyper-parameter tuning and model calibration . 32 3.4 Limitations . 33 4 Results 35 4.1 Data collection . 35 4.1.1 Data sampling . 35 4.2 Machine learning models and hyper-parameter tuning . 36 4.3 Further tuning and comparisons . 38 5 Discussion 42 5.1 The data set . 42 5.2 Pre-processing and parametrisation . 43 5.3 Model comparison . 43 5.4 Validity . 45 5.5 Ethics . 46 6 Future work 48 6.1 Age . 48 6.2 Parameter weighing and tuning . 48 6.3 Pre-processing variations . 48 6.4 Demographics . 49 6.5 Other linguistic features . 49 7 Conclusion and summary 50 8 References 51 1 Introduction Data has often been described as the new oil. The value of the data itself is now recognised throughout the world, just as oil has been for centuries. For the data to be useful though, the user needs to know how to use and interpret it [1]. Big data is today used in many fields of both the commercial and non-commercial business. Capitalising on data is progressively becoming a necessity for companies to survive and stay up to date with their competitors.

Data Segmentation Using NLP: Gender and Age

Enhanced Thesaurus Terms Extraction for Document Indexing

An Evaluation of Machine Learning Approaches to Natural Language Processing for Legal Text Classification

Using Lexico-Syntactic Ontology Design Patterns for Ontology Creation and Population

LASLA and Collatinus

Experiments in Clustering Urban-Legend Texts

Removing Boilerplate and Duplicate Content from Web Corpora

The State of (Full) Text Search in Postgresql 12

A Diachronic Treebank of Russian Spanning More Than a Thousand Years

Download in the Conll-Format and Comprise Over ±175,000 Tokens

Lemmagen: Multilingual Lemmatisation with Induced Ripple-Down Rules

Language Technology Meets Documentary Linguistics: What We Have to Tell Each Other

A 500 Million Word POS-Tagged Icelandic Corpus