Thesis M Badieh Habib Morgan

Total Page:16

File Type:pdf, Size:1020Kb

Thesis M Badieh Habib Morgan Named Entity Extraction and Disambiguation for Informal Text The Missing Link Mena B. Habib PhD dissertation committee: Chairman and Secretary: Prof. dr. P.M.G. Apers, University of Twente, NL Promotor: Prof. dr. P.M.G. Apers, University of Twente, NL Assistant promotor: Dr. ir. M. van Keulen, University of Twente, NL Members: Prof. dr. W. Jonker, University of Twente, NL Prof. dr. F.M.G. de Jong, University of Twente, NL Prof. dr. A. van den Bosch, Radboud University Nijmegen, NL CTIT Ph.D. thesis Series No. 14-301 Centre for Telematics and Information Technology P.O. Box 217, 7500 AE Enschede, The Netherlands. SIKS Dissertation Series No. 2014-20 The research reported in this thesis has been carried out under the auspices of SIKS, the Dutch Research School for Information and Knowledge Systems. ISBN: 978-90-365-3647-9 ISSN: 1381-3617 (CTIT Ph.D. thesis Series No. 14-301) DOI: 10.3990/1.9789036436479 http://dx.doi.org/10.3990/1.9789036536479 Cover design: Hany Maher Printed by: Ipskamp Drukkers Copyright c 2014 Mena Badieh Habib Morgan, Enschede, The Netherlands NAMED ENTITY EXTRACTION AND DISAMBIGUATION FOR INFORMAL TEXT THE MISSING LINK DISSERTATION to obtain the degree of doctor at the University of Twente, on the authority of the rector magnificus, prof. dr. H. Brinksma, on account of the decision of the graduation committee, to be publicly defended on Friday, May 9th, 2014 at 12:45 by Mena Badieh Habib Morgan born on June 29th, 1981 in Cairo, Egypt This dissertation is approved by: Prof. dr. P.M.G. Apers (promotor) Dr. ir. M. van Keulen (assistant promotor) Dedicated to the soul of my father Acknowledgments “I can do all things through Christ who strengthens me. (Philippians 4:13)” I always say that I am lucky. I am lucky because I always get wonderful and kind people surrounding me. I am lucky to have Peter Apers as my promoter. He supported my research direc- tions and gave me freedom and independence. His words always gave me confidence and insistence to complete my PhD. I am lucky to have Maurice van Keulen as my daily supervisor. Although we passed some foggy times, he never lost his positive attitude. He was always there to give ad- vice, optimism, support and ideas. Besides learning how to be a good researcher, I have learned from Maurice how to be a supervisor, which is something I would definitely need through my academic career. Words could never express my sincere gratitude to Maurice. I am lucky to have Willem Jonker, Franciska de Jong, and Antal van den Bosch as my committee members. I would like to thank them for their careful reading of my thesis. I am lucky to be a member of the databases group at the university of Twente. I would like to thank them all for providing me the pleasant working climate. Thanks for Maarten Fokkinga, Djoerd Hiemstra, Andreas Wombacher, Robin Aly, Ida den Hamer- Mulder, Suse Engbers, Jan Flokstra, Iwe Muiser, Juan Amiguet, Sergio Duarte, Victor de Graaff, Rezwan Huq, Mohammad Khelghati, Kien Tjin-Kam-Jet, Brend Wanders, Zhemin Zhu, Lei Wang, Ghita Berrada, Almer Tigelaar, Riham Abdel Kader and Dolf Trieschnigg. I would like to dedicate a special thanks to couple of them Ida den Hamer-Mulder and Juan Amiguet. Ida, the dynamo of the group. Ida helped me with my settlement in the Netherlands. She offered help even for things beyond her duty. The DB group is really lucky to have Ida as their secretary. Juan, my office mate, the person who knows at least one thing about everything. The man who is willing to help at any time. Juan, I am grateful for your help and for our nice conversations we had together discussing almost everything from food recipes to astronomy. I am lucky to spend my PhD life period at this peaceful quiet spot of the world called Enschede. In Enschede life is easy! I would like also to express my gratitude towards the Egyptian Coptic community in the Netherlands who helped me to overcome my home viii sickness. Thanks for bishop Arsany, father Maximos, father Pavlos, Samuel Poulos, Adel Saweiros, Sameh Ibrahim, Moneer Basalyous and Maher Rasla. I am lucky because I did an internship at the highly reputable databases and infor- mation systems group of the Max Planck Institute of Informatics in Saarbrucken, Ger- many. I learned a lot during my stay there. Thanks for Gerhard Weikum, Marc Spaniol, Mohamed Amir and Johannes Hoffart. I am lucky to study and work at the Faculty of Computers and Information Sciences in Ain Shams University in Cairo where I received my Bachelor and Master degrees. I would like to thank all my professors and colleagues there specially Abdel-Badieh Salem, Mohammed Roushdy, Mostafa Aref, Tarek Gharib, Emad Monier, Ayad Barsom, Marco Alfonse and many others. I am lucky to be the son of Badieh Habib and Aida Makien. My parents who did their best to raise me up as researcher. I genetically inherited my interest towards re- search, math and science from them. I hope I was able to achieve their wishes. I also could never forget to thank my sisters Hanan and Eman in addition to the rest of my family and my family in law who always provide love and support. I am lucky to have Shery, my lovely wife who did her best to offer the best atmo- sphere for me. The lady who provide unconditional care and love. Indeed, ‘Who can find a virtuous woman? For her price is far above rubies.’ (Proverbs 31:10). I am lucky to have Maria and Marina, my sweet twin angels. Whenever I am stressed, only one hour playing with them was enough to release all stress and added smile to my face. I am lucky to get my Christian doctrine at the Sunday school of Saint George church in El-Matariya, Cairo. The church where I lived my best days ever between its walls. It strongly participated in building my personality. I would like to thank all the church fathers Georgios Botros, Beshoy Boules, Tomas Naguib, Pola Fouad and Shenouda Da- wood. I also could never forget all my teachers there, specially Onsy Naguib, for their care, love and support. Finally, I am lucky to have my friends with whom I shared my best life moments. Thanks for Ehab Gamil, Gerges Saber, Maged Makram, Maged Matta, Mena George, Mena Samir, Mena William, Ramy Anwar, Romany Edwar, Sameh Samir and many others. Thanks for everyone I shared my dreams with one day. I am lucky to have all these people surrounding me. This thesis would have been much different (or would not exist) without these people. No it is not luck.. It is God’s hand who leads me through life. He said “I have raised him up in righteousness, and I will direct all his ways. (Isaiah 45:13)” Mena B. Habib Enschede, March 2014. Contents I Introduction 1 1 Introduction 3 1.1 Introduction . .3 1.2 Examples of Application Domains . .5 1.3 Challenges . .7 1.4 General Approach . 10 1.5 Research Questions . 12 1.6 Contributions . 13 1.7 Thesis Structure . 14 II Toponyms in Semi-formal Text 17 2 Related Work 19 2.1 Summary . 19 2.2 Information Extraction . 19 2.3 Named Entity Recognition . 22 2.3.1 Rule-based Approaches . 22 2.3.2 Machine Learning-based Approaches . 24 2.3.3 Toponyms Extraction . 28 2.3.4 Language Independence . 28 2.3.5 Robustness . 29 2.4 Named Entity Disambiguation . 30 2.4.1 Toponyms Disambiguation . 30 3 The Reinforcement Effect 33 3.1 Summary . 33 3.2 Introduction . 34 3.3 Toponyms Extraction . 36 3.3.1 GATE Toolkit . 36 x CONTENTS 3.3.2 JAPE Rules . 37 3.3.3 Extraction Rules . 38 3.3.4 Entity matching . 43 3.4 Toponyms Disambiguation . 43 3.4.1 Bayes Approach . 43 3.4.2 Popularity Approach . 45 3.4.3 Clustering Approach . 46 3.5 The Reinforcement Effect . 49 3.6 Experimental Results . 49 3.6.1 Dataset . 49 3.6.2 Initial Effectiveness of Extraction . 51 3.6.3 Initial Effectiveness of Disambiguation . 51 3.6.4 The Reinforcement Effect . 52 3.6.5 Further Analysis and Discussion . 54 3.7 Conclusions and Future Directions . 55 4 Improving Disambiguation by Iteratively Enhancing Certainty of Ex- traction 57 4.1 Summary . 57 4.2 Introduction . 57 4.3 Problem Analysis and General Approach . 59 4.4 Extraction and Disambiguation Approaches . 60 4.4.1 Toponyms Extraction . 61 4.4.2 Toponyms Disambiguation . 63 4.4.3 Improving Certainty of Extraction . 64 4.5 Experimental Results . 64 4.5.1 Dataset . 65 4.5.2 Effect of Extraction with Confidence Probabilities . 65 4.5.3 Effect of Extraction Certainty Enhancement . 66 4.5.4 Optimal cutting threshold . 67 4.5.5 Further Analysis and Discussion . 71 4.6 Conclusions and Future Directions . 72 5 Multilinguality and Robustness 75 5.1 Summary . 75 5.2 Introduction . 75 5.3 Hybrid Approach . 78 5.3.1 System Phases . 78 5.3.2 Toponyms Disambiguation . 79 CONTENTS xi 5.3.3 Selected Features . 80 5.4 Experimental Results . 82 5.4.1 Dataset . 83 5.4.2 Dataset Analysis . 85 5.4.3 SVM Features Analysis . 85 5.4.4 Multilinguality, Different Thresolding Robustness and Competitors . 89 5.4.5 Low Training Data Robustness . 90 5.5 Conclusions and Future Directions . 92 III Named Entities in Informal Text of Tweets 93 6 Related Work 95 6.1 Summary . 95 6.2 Named Entity Disambiguation .
Recommended publications
  • Zeitgeist Nederland 2012
    Zeitgeist Nederland 2012 Dit zijn de volledige lijsten van de onderzochte onderwerpen voor Google Zeitgeist 2012 in Nederland. Snelst stijgend en meest populair op basis van volume Meest gezochte zoekopdrachten 1. Facebook 2. Marktplaats 3. YouTube 4. Hotmail 5. Buienradar 6. Hyves 7. Google 8. Telegraaf 9. ING 10. Nu.nl Snelststijgende zoekopdrachten 1. Stemwijzer 2. EK 2012 3. Friso 4. Boer Zoekt Vrouw 5. Elfstedentocht 6. Olympische Spelen 7. iPad 3 8. Wordfeud 9. ABN inloggen 10. Project X Haren Snelstijgende zoekopdrachten voor personen 1. Friso 2. Kate Middleton 3. Whitney Houston 4. Badr Hari 5. Estelle Gullit 6. Epke Zonderland 7. Michael Clarke Duncan 8. Balotelli 9. Morgan Freeman 10. Felix Baumgartner Snelst stijgende afbeeldingen 1. One Direction 2. Bloemen 3. Love 4. Voetbal 5. Hartje 6. Achtergronden 7. Facebook 8. YouTube 9. Paarden 10. iPhone 5 Politiek Meest gezochte politieke partijen 1. SP 2. PvdA 3. VVD 4. PVV 5. CDA 6. D66 7. GroenLinks 8. SGP 9. ChristenUnie 10. Partij voor de Dieren Meest gezochte lijsttrekkers 1. Geert Wilders 2. Mark Rutte 3. Diederik Samson 4. Jolande Sap 5. Marianne Thieme 6. Emile Romer 7. Sybrand Buma 8. Henk Krol 9. Alexander Pechtold 10. Arie Slob Meest gezochte buitenlandse politici 1. Obama 2. Cameron 3. Romney 4. Zuma 5. Hollande 6. Merkel 7. Samaras 8. Di Rupo 9. Medvedev 10. Betrian Snelst stijgende zoekopdrachten met betrekking tot de huizenmarkt 1. Restschuld 2. Open huizen dag 3. Scheefwonen 4. Funda 5. Prijsdaling 6. Spaarhypotheek 7. Huis verhuren 8. Huis huren 9. Huis verbouwen 10. Huis verkopen Kennisvragen Meest gestelde vragen - Hoe? 1.
    [Show full text]
  • Session 1 Or 2
    4th International Conference on Public Policy (ICPP4) June 26-28, 2019 – Montréal Panel IPSA-RC48 – Session 1 or 2 Transparency and E-governance (administrative culture) Mayors in cyberspace: Lessons from the Netherlands regarding the role of local government in the event of digital disturbance of the public order Author(s) Dr. Willem Bantema NHL Stenden Hogeschool [email protected] Date of presentation June 28, 2019 4th International Conference on Public Policy (ICPP4) June 26-28, 2019 – Montréal Introduction Four youths were injured in the panic resulting from a threatened shooting at a secondary school in Curacao. Soon it became clear that the episode was only a prank, based on false information disseminated over social media. The hoax was fuelled by a video clip on Facebook, which showed armed boys in a driving car, swinging their weapons. The clear relationship in this case between social media and public order is not new. Consider, for instance, the police shooting in Ferguson; the London riots of 2011; and the social unrest, social media hoaxes, and false news regarding the fire in Notre Dame Cathedral in Paris. Recent advances in digitization have resulted in an increasing number of parties involved in security and safety issues. Security and digitization often intersect in the domain of cybercrime, but their intersection also includes issues of surveillance and maintaining law and order. This paper focusses on the role of mayors in the Netherlands in the preservation of public order and safety when the internet and social media are involved. Dutch mayors have several administrative powers that can be used in the prevention of disorder in local public life.
    [Show full text]
  • Deelrapport 3: Hoe Dionysos in Haren Verscheen
    Hoe Dionysos in Haren verscheen Maatschappelijke facetten van Project X Haren 3DEELRAPPORT Hoe Dionysos in Haren verscheen Maatschappelijke facetten van Project X Haren Gabriël van den Brink Merlijn van Hulst Nicole Maalsté Rik Peeters DEELRAPPORT Stefan Soeparman Tilburgse School voor Politiek en Bestuur 17 februari 2013 3COMMISSIE ‘PROJECT X’ HAREN | 1 B: Je kan niet iemand echt de schuld geven, vind ik (…) de schuld van het geheel. A: Dat is misschien ook wel het probleem, dat je niet iemand ervan kan beschuldigen. (uit een gesprek op het Zernike College waarbij twee scholieren van 16 en 14 jaar terugblik- ken op de rellen van 21 september 2012). 2 | COMMISSIE ‘PROJECT X’ HAREN Inhoud Voorwoord 4 1. Inleiding Vragen naar causaliteit 7 2. Fascinatie Facetten van het puberbrein 13 3. Sensatie Feestcultuur in Nederland 21 4. Imaginatie Project X en beeldcultuur 33 5. Mobilisatie Sociale media en opwinding 43 6. Deliberatie Ouders en hun kinderen 51 7. Preparatie De overheid en het publiek 59 8. Intoxicatie Alcohol en andere roesmiddelen 69 9. Identificatie Ervaringen van jongeren 77 10. Intimidatie Ervaringen van volwassenen 89 11. Conclusies Bevindingen & reflectie 103 12. Aanbevelingen Wat Haren ons te leren heeft 113 Bijlage 1 Clash tussen fantasie en realiteit (Martijn Lampert). 153 Bijlage 2 De komische film als exemplarische kortsluiting (Heidi de Mare) 169 Bijlage 3 De explosieve mix in Haren (Ninette van Hasselt). 205 Bijlage 4 Methodologische verantwoording (Gabriël van den Brink) 235 Bijlage 5 Lijst van respondenten (Nicole Maalsté) 241 Bijlage 6 Haren op afstand bezien (Caspar van den Brink) 245 Bijlage 7 Geraadpleegde literatuur (Gabriel van den Brink) 249 COMMISSIE ‘PROJECT X’ HAREN | 3 Voorwoord Enkele dagen nadat er in Haren op grote schaal rellen plaatsvonden, werd ik uitgenodigd om deel te nemen aan de commissie die onderzoek naar dit incident moest doen.
    [Show full text]
  • The Dark Side of Social Media Alarm Bells, Analysis and the Way Out
    The Dark Side of Social Media Alarm bells, analysis and the way out Sander Duivestein & Jaap Bloem Vision | Inspiration | Navigation | Trends [email protected] II Contents 1 The Dark Side of Social Media: r.lassche01 > flickr.com Image: a reality becoming more topical by the day 1 Contents PART I ALARM BELLS 7 2 2012, a bumper year for social media 7 3 Two kinds of Social Media Deficits 9 4 Addiction in the Attention Deficit Economy 10 PART II ANALYSIS 12 5 Ten jet-black consequences for Homo Digitalis Mobilis 12 6 Social media a danger to cyber security 20 7 The macro-economic Social Media Deficit 21 8 How did it get this far? 22 PART III THE WAY OUT 25 9 Dumbing-down anxiety 25 10 Basic prescription: social is the new capital 27 11 The Age of Context is coming 28 12 SlowTech should really be the norm 30 13 The Slow Web movement 31 14 Responsible for our own behavior 33 References 35 Justification iv Thanks iv This work is licensed under the Creative Commons Attribution Non Commercial Share Alike 3.0 Unported (cc by-nc-sa 3.0) license. To view a copy of this license, visit http://creativecommons.org/licenses/ by-nc-sa/3.0/legalcode or send a letter to Creative Commons, 543 Howard Street, 5th floor, San Francisco, California, 94105, usa. The authors, editors and publisher have taken care in the preparation of this book, but make no expressed or implied warranty of any kind and assume no responsibility for errors or omissions.
    [Show full text]
  • Lessen Uit (Mini-)Crises 2012.Indd 1 29-8-2013 10:59:38 Publicaties in De Onderzoeksreeks Politieacademie Bij Boom Lemma Uitgevers
    rugdikte 18mm 29-08-2013 Politieacademie onderzoeksreeks Politieacademie onderzoeksreeks Lessen uit crises en mini-crises 2012 Lessen uit crises en mini-crises 2012 Rampen en crises leveren altijd veel stof tot leren op. In deze publicatie worden twintig bijzondere gebeurtenissen uit 2012 beschreven, waaronder de wateroverlast in het Noorden, de asbestzaak in Utrecht en de Facebookrellen in Haren. Ook komt een aantal ‘mini-crises’ aan bod zoals een zeemijn in een gracht in Leeuwarden. De verschillende gebeurtenissen hebben gemeen dat vaak de burgemeesters, maar soms ook nationale autoriteiten, met hulpdiensten en andere partijen een rol hebben. Hoe hebben zij daar invulling aan gegeven? Voor welke dilemma’s kwamen zij te staan? Lessen uit crises en mini-crises 2012 is geschreven voor bestuurders en professionals werkzaam in de veiligheids- keten. Centrale thema’s zijn: hoe om te gaan met maatschap- pelijke onrust; communiceren in situaties van onzekerheid; verantwoordelijkheid dragen of nemen; opschaling, samen- werking en de GRIP-structuur, en ondersteuning en nazorg aan slachtoffers en nabestaanden. De auteurs zijn vrijwel allen werkzaam op het terrein van het veiligheids- en crisismanagement. De redactie werd gevoerd door Menno van Duin, Vina Wijkhuijs en Wouter Jong. Elke casus wordt geïllustreerd met een foto die destijds op sociale media verscheen. Deze bundel onderstreept daarmee hoe nauw verweven (mini-)crises en sociale media zijn. Lectoraat Crisisbeheersing ISBN 978-94-6236-011-2 i.s.m. NGB 9 789462 360112 OM_Lessen_uit_crisis.indd All Pages 29-8-2013 10:56:46 Lessen uit crises en mini-crises 2012 Lessen uit (mini-)crises 2012.indd 1 29-8-2013 10:59:38 Publicaties in de onderzoeksreeks Politieacademie bij Boom Lemma uitgevers: Otto Adang, Wim van Oorschot & Sander Bolster (2011).
    [Show full text]
  • Enhancing Real-Time Twitter Filtering and Classification Using a Semi-Automatic Dynamic Machine Learning Setup Approach
    Enhancing Real-Time Twitter Filtering and Classification using a Semi-Automatic Dynamic Machine Learning setup approach Master’s Thesis Nick de Jong Enhancing Real-Time Twitter Filtering and Classification using a Semi-Automatic Dynamic Machine Learning setup approach THESIS submitted in partial fulfillment of the requirements for the degree of MASTER OF SCIENCE in COMPUTER SCIENCE TRACK SOFTWARE TECHNOLOGY by Nick de Jong born in Rotterdam, 1988 Web Information Systems Department of Software Technology Faculty EEMCS, Delft University of Technol- CrowdSense ogy Wilhelmina van Pruisenweg 104 Delft, the Netherlands The Hague, the Netherlands http://wis.ewi.tudelft.nl http://www.twitcident.com c 2015 Nick de Jong Enhancing Real-Time Twitter Filtering and Classification using a Semi-Automatic Dynamic Machine Learning setup approach Author: Nick de Jong Student id: 1308130 Email: [email protected] Abstract Twitter contains massive amounts of user generated content that also con- tains a lot of valuable information for various interested parties. Twitcident has been developed to process and filter this information in real-time for interested parties by monitoring a set of predefined topics, exploiting humans as sensors. An analysis of the relevant information by an operator can result in an estimation of severity, and an operator can act accordingly. However, among all relevant and useful content that is extracted, also a lot of irrelevant noise is present. Our goal is to improve the filter in such a way that the majority of information pre- sented by Twitcident is relevant. To this end we designed an artifact consisting of several components, developed within a dynamic framework.
    [Show full text]
  • A Strategy for Communication Between Key Agencies and Members of the Public During Crisis Situations
    Paul Reilly1 Dimitrinka Atanasova1 Xavier Criel2 1University of Leicester (ULEIC) 2Safety Centre Europe (SCE) A strategy for communication between key agencies and members of the public during crisis situations Deliverable Number: D3.3 Date September 30, 2015 Due Date (according to September 30, 2015 DoW) Dissemination level PU Grant Agreement No: 607665 Coordinator: Anders Lönnermark at SP Sveriges Tekniska Forskningsinstitut (SP Technical Research Institute of Sweden) Project acronym: CascEff Project title: Modelling of dependencies and cascading effects for emergency management in crisis situations 2 Table of Contents Executive Summary 3 Nomenclature 5 Acknowledgements 5 1 Introduction 5 1.1 Task description 5 1.2 Deliverable description 6 1.3 Approach 6 2 Guidelines for effective communication between key agencies and members of the public during crisis situations 7 2.1 Study the information-seeking behaviours of your audience before deciding upon which communication platforms to use during crisis situations 7 2.2 Prepare for the loss of critical infrastructure during such incidents by employing a communication mix that includes both traditional and digital media 10 2.3 Engage key stakeholders in order to ensure that information shared with the general public is consistent 12 2.4 Always consider the ethical implications of using crowdsourced information obtained from social media 16 2.5 Knowledge gained from previous incidents should be used to inform future communication strategies 17 3 Communication strategy flowchart 18 3.1 Mitigation
    [Show full text]
  • 'Project X Haren' , Vernoemd Naar De Amerikaanse Filmkomedie Project X Waar Een Soortgelijk Verjaardagspartijtje Compleet Uit De Hand Loopt
    Visie: ‘Project X Haren’ & De rol van de traditionele media Naam: Igmar Felicia Datum: Januari 2012 Studentnummer: 1547188 Docent: Malika El Ayadi Op vrijdag 21 September 2012 gaat het in het Groningse Haren gruwelijk mis. Die dag kiezen duizenden jongeren ervoor om massaal het 'verjaardagsfeestje' van de 16-jarige Merthe bij te wonen. Het meisje had op 7 september een 'event' aangemaakt op Facebook maar vergat de uitnodiging privé af te schermen, waardoor feitelijk de hele wereld voor haar feestje was uitgenodigd. 51 mensen raken die dag gewond, meer dan 30 relschoppers worden opgepakt en de schade in Haren bedraagt meer dan 1 miljoen euro. 21 september 2012 gaat dan ook de geschiedenis in als 'Project X Haren' , vernoemd naar de Amerikaanse filmkomedie Project X waar een soortgelijk verjaardagspartijtje compleet uit de hand loopt. De beelden van de zogenaamde Facebookrellen in Haren staan op ons netvlies gebrand. Het dorp leek in een slagveld te zijn veranderd waarbij er sprake leek te zijn van een totale anarchie. De dagen na de rellen werd gruwelijk duidelijk dat dit nooit meer zou mogen plaatsvinden. Hoe kon het gebeuren dat duizenden jongeren die 21e september massaal naar Haren kwamen om een potje te rellen? De media spraken van de nieuwe kracht van Social Media waarbij deze jongeren elkaar hadden opgehitst om massaal naar Haren te komen. In mijn ogen is dit echter te snel geroepen en mogen de traditionele media zich zelf ook goed achter de oren krabben. Ik ben daarom tot de volgende stelling gekomen: De rol van de traditionele media is te groot geweest bij het uit de hand lopen van het 'Facebookfeestje' in Haren.
    [Show full text]
  • A Supervised Approach to Categorizing Dutch Twitter Events
    University of Groningen Master's Thesis A supervised approach to categorizing Dutch Twitter events Rik I. K. van Noord March 2016 Human-Machine Communication Department of Artificial intelligence First Supervisor and Reviewer: Dr. J. K. Spenader Department of Artificial Intelligence - University of Groningen Second Supervisor and Reviewer: Prof. Dr. A.P.J. van den Bosch Language and Speech Technology - University of Nijmegen Third Supervisor and Reviewer: F. Kunneman PhD Candidate Centre for Language Studies - University of Nijmegen Abstract A supervised approach to categorizing Dutch Twitter events by Rik I. K. van Noord In this thesis we applied a supervised machine learning approach to automatically cat- egorize Dutch Twitter events. One of the ten categories used is the category social action, which aims to predict civil unrest. Reliably detecting such events might have great practical value, since we are then able to alert the authorities when a (possibly violent) social action will take place. We employ the existing event set of Kunneman and van den Bosch(2015), who used explicit future time expressions to identify events. We show that it is difficult to categorize all events automatically, since the classifications are biased towards the dominant category public event. However, our general categorization system offers comparable performance to the best known approach in the literature and is even suggested to outperform that approach when categorizing the full event set of 93,901 events. We find that our final categorization system is very precise in its predic- tions for non-dominant categories, but that it does not offer those predictions very often. We obtained a 80% precision for detecting social action events, but also a low estimated recall.
    [Show full text]
  • De Weg Naar Haren De Rol Van Jongeren, Sociale Media, Massamedia En Autoriteiten Bij De Mobilisatie Voor Project X Haren 2DEELRAPPORT De Weg Naar Haren
    De weg naar Haren De rol van jongeren, sociale media, massamedia en autoriteiten bij de mobilisatie voor Project X Haren 2DEELRAPPORT De weg naar Haren De rol van jongeren, sociale media, massamedia en autoriteiten bij de mobilisatie voor Project X Haren DEELRAPPORT Prof. Dr. Jan van Dijk, Thomas Boeschoten, Sanne ten Tije (Msc), Dr. Lidwien van de Wijngaert, met medewerking van de Nederlandse Nieuwsmonitor COMMISSIE2 ‘PROJECT X’ HAREN | 1 J-16969 Deelrapport 2-CH_COMPLEET.indd 1 27-02-13 11:18 COMMISSIE ‘PROJECT X’ HAREN | 2 J-16969 Deelrapport 2-CH_COMPLEET.indd 2 27-02-13 11:18 Inhoud 1 Inleiding 5 2 De inspiratie van de film Project X 9 3 De online mobilisatie voor een Project X feest op Facebook 15 4 De offline mobilisatie voor een feest in Haren 39 5 De rol van de massamedia in de mobilisatie voor Haren 53 6 De rol van Twitter en YouTube 71 7 Crossmedia: de interactie tussen sociale media, massamedia, 83 mobiele telefonie en offline mobilisatie op weg naar Haren 8 De externe communicatie van de autoriteiten 93 9 Conclusies en aanbevelingen 117 Bijlage 1 Vragenlijst van survey onder Noord-Nederlandse jongeren 127 Bijlage 2 Overzicht mobiliserende, demobiliserende en neutrale 133 uitspraken per massamedium Bijlage 3 Vragenlijst voor interviews van redacteuren massamedia 137 Bijlage 4 Tijdlijn COMMISSIE ‘PROJECT X’ HAREN | 3 J-16969 Deelrapport 2-CH_COMPLEET.indd 3 27-02-13 11:18 COMMISSIE ‘proJeCt X’ HAREN | 4 J-16969 Deelrapport 2-CH_COMPLEET.indd 4 27-02-13 11:18 1. Inleiding Dit deelrapport van de Commissie ‘Project X’ Haren concentreert zich op de mobilisatie van voor- namelijk jongeren voor een feest in het Groningse Haren op 21 september 2012.
    [Show full text]
  • @Politie Tijdens #Haren: Crisiscommunicatie Op Twitter
    @Politie tijdens #Haren: Crisiscommunicatie op Twitter Een beschrijvend onderzoek naar de corrigerende rol van de politie op Twitter tijdens de rellen in Haren. Bachelorscriptie Kim Wijnja Begeleider: H.A.J. van der Kaa Tweede lezer: Dr. M.L. Antheunis Communicatie- en Informatie wetenschappen Bedrijfscommunicatie en Digitale Media Universiteit van Tilburg Juli 2013 Samenvatting Het doel van deze studie was om dieper in te gaan op het gebruik van Twitter door de politie tijdens de rellen in Haren. Hierbij werd verwacht dat zij een corrigerende werking hadden op de informatiestroom op Twitter vanwege hun betrouwbaarheid als autoriteit. Door middel van een dataset waarin alle tweets over de rellen in Haren zijn opgenomen, is het gedrag van de politie op Twitter geanalyseerd. Hierbij is er gefocust op de typen berichten die zij stuurden, het bereik dat zij behaalden met hun tweets en de rol die zij speelden tijdens de verspreiding van een gerucht. De resultaten toonden aan dat de politie voornamelijk adviesgevende tweets verstuurden op Twitter. Bovendien bleek dat zij Twitter niet hebben ingezet om berichtgeving betreffende het gerucht te verspreiden. II Inhoudsopgave 1. Inleiding ...................................................................................................................... 1 2. Theoretisch kader ...................................................................................................... 4 2.1. Twitter .........................................................................................................................
    [Show full text]
  • SECONDANT#6 Tijdschrift Van Het Centrum Voor Criminaliteitspreventie En Veiligheid December 2012 | 26E Jaargang |
    SECONDANT#6 Tijdschrift van het Centrum voor Criminaliteitspreventie en Veiligheid december 2012 | 26e jaargang | www.hetccv.nl POLITIE DOET MEER DAN OPSPOREN ANNEMARIE JORRITSMA, VOORZITTER VNG, OVER DE NATIONALE POLITIE RELSCHOPPERS IN HAREN | AGRESSIE TEGEN WINKELPERSONEEL › Naar inhoudsopgave Volgende pagina › 2 SECONDANT #6 | DECEMBER 2012 SECONDANT #6 | DECEMBER 2012 3 Inhoud Redactioneel POLITIE- GEDROOMDE VEILIGHEID STERKTE Politiewetenschappers en criminologen hebben in de greep is van een ‘veiligheidsmythe’. In dit door de jaren heen een ware schat aan kennis opge- nummer van secondant beschrijft hij enkele De Nederlandse politie is harder bouwd over wat werkt en wat niet werkt in de veilig- belangrijke bevindingen uit zijn boek De veiligheids- gegroeid dan andere Europese heidszorg. Die kennis strekt zich ook uit tot de mythe. Onderdeel van de mythe is dat politici ons korpsen. In vergelijking met de sleutelrol die de politie daarbinnen vervult. een utopisch veilige toekomst beloven. Allerlei l anden om ons heen, mogen we mis verstanden die omtrent politie en justitie dan ook niet klagen over de totale Dat deze kennis voorhanden is, is maar goed ook. bestaan, helpen daarbij niet. In zijn boek ont- Aan onze veiligheid wordt immers een almaar maskert De Koning er enkele, waaronder de aan- 6 Crimi-trends politiesterkte. Maar de vraag is of groeiend belang toegedicht. In dit tijdschrift heb- name dat blauw op straat helpt tegen criminaliteit. die capaciteit goed wordt ingezet. « ben wetenschappers die ontwikkelingen in de Waarom een misverstand? Onderzoek heeft veiligheidszorg aandachtig volgen, daar meermaals namelijk geen verband kunnen aantonen op gewezen. Beatrice de Graaf kwalificeerde veilig- tussen het aantal politiemensen in een land heid bijvoorbeeld als een “dominant maatschappe- en de crimi naliteitscijfers.
    [Show full text]