Proceedings of the Workshop on Challenges in the Management of Large Corpora and Big Data and Natural Language Processing (CMLC

Piotr Bański, Marc Kupietz, Harald Lüngen, Paul Rayson, Hanno Biber, Evelyn Breiteneder, Simon Clematide, John Mariani, Mark Stevenson, Theresa Sick (editors) Proceedings of the Workshop on Challenges in the Management of Large Corpora and Big Data and Natural Language Processing (CMLC-5+BigNLP) 2017 including the papers from the Web-as-Corpus (WAC-XI) guest section Birmingham, 24 July 2017 Challenges in the Management of Large Corpora and Big Data and Natural Language Processing 2017 Workshop Programme 24 July 2017 WAC-XI guest session (11.00 - 12.30) Convenors: Adrien Barbaresi (ICLTT Vienna), Felix Bildhauer (IDS Mannheim), Roland Schäfer (FU Berlin) Chair: Stefan Evert (Friedrich-Alexander-Universität Erlangen-Nürnberg) Edyta Jurkiewicz-Rohrbacher, Zrinka Kolaković, Björn Hansen Web Corpora – the best possible solution for tracking rare phenomena in underresourced languages – Clitics in Bosnian, Croatian and Serbian Vladimir Benko – Are Web Corpora Inferior? The Case of Czech and Slovak Vit Suchomel – Removing Spam from Web Corpora Through Supervised Learning Using FastText Lunch (12:30-13:30) CMLC-5+BigNLP main section: (13:30 –17:00) Welcome and Introduction 13:30-13:40 National Corpora Talks 13:40 – 15:40 Dawn Knight, Tess Fitzpatrick, Steve Morris, Jeremy Evas, Paul Rayson, Irena Spasic, Mark Stonelake, Enlli Môn Thomas, Steven Neale, Jennifer Needs, Scott Piao, Mair Rees, Gareth Watkins, Laurence Anthony, Thomas Michael Cobb, Margaret Deuchar, Kevin Donnelly, Michael McCarthy, Kevin Scannell, Creating CorCenCC (Corpws Cenedlaethol Cymraeg Cyfoes – The National Corpus of Contemporary Welsh) David McClure, Mark Algee-Hewitt, Douris Steele, Erik Fredner and Hannah Walse, Organizing corpora at the Stanford Literary Lab Marc Kupietz, Andreas Witt, Piotr Bański, DanTufiş, DanCristea, TamásVáradi, EuReCo - Joining Forces for a European Reference Corpus as a sustainable base for cross- linguistic research John Kirk, Anna Čermáková, From ICE to ICC: The International Comparable Corpus ii Coffee break 15.00-15.20 Harald Lüngen, Marc Kupietz, CMC Corpora in DEREKO Technology Talks 15:40-16:40 John Vidler, Stephen Wattam, Keeping Properties with the Data: CL-MetaHeaders – An Open Specification Andreas Dittrich, Intra-connecting a small exemplary literary corpus with semantic web technologies for exploratory literary studies Radoslav Rábara, Pavel Rychlý ,Ondřej Herman, Accelerating Corpus Search Using Multiple Cores Wrap-up discussion 16:40-17:00 CMLC-5+BigNLP Organisers and Editors Piotr Bański, Marc Kupietz, Harald Lüngen Institut für Deutsche Sprache, Mannheim Hanno Biber, Evelyn Breiteneder Institute for Corpus Linguistics and Text Technology, Vienna Simon Clematide Institute of Computational Linguistics, Zurich John Mariani, Paul Rayson Lancaster University, UK Mark Stevenson Sheffield University, UK iii CMLC-5+BigNLP Programme Committee Laurence Anthony Waseda University, Japan Alistair Baron Lancaster University, UK Felix Bildhauer IDS Mannheim Damir Ćavar Indiana University, Bloomington Matt Coole Lancaster Univeristy, UK Dan Cristea Romanian Academy, Institute for Computer Science-Iaşi, "Alexandru Ioan Cuza" University of Iași Tomaž Erjavec Jožef Stefan Institute Alexander Geyken Berlin-Brandenburgische Akademie der Wissenschaften Johannes Graën University of Zurich Andrew Hardie Lancaster University Serge Heiden ENS de Lyon Miloš Jakubíček Lexical Computing Ltd. Dawn Knight Cardiff University, UK Michal Křen Charles University, Prague Sandra Kübler Indiana University, Bloomington Jochen Leidner Thomson Reuters, UK Rao Muhammad Adeel Nawab COMSATS, Pakistan Piotr Pęzik University of Łódź Laura Irina Rusu IBM Australia Roland Schäfer FU Berlin Roman Schneider IDS Mannheim Gandhi Sivakumar IBM Australia Irena Spasić Cardiff University, UK Marko Tadić University of Zagreb, Faculty of Humanities and Social Sciences Dan Tufiş Institute for Artificial Intelligence Mihai Drăgănescu, Bucharest Tamás Váradi Research Institute for Linguistics, Hungarian Academy of Sciences Andreas Witt University of Cologne, IDS Mannheim, University of Heidelberg Amir Zeldes Georgetown University, USA CMLC-5+BigNLP Homepage: http://corpora.ids-mannheim.de/cmlc-2017.html iv Table of contents Intra-connecting a small exemplary literary corpus with semantic web technologies for exploratory literary studies Andreas Dittrich (Academiae Corpora, Austrian Academy of Sciences) ........................................... 1 From ICE to ICC: The new International Comparable Corpus John Kirk (Dresden University of Technology), Anna Čermáková (Charles University, Prague) ..... 7 Creating CorCenCC (Corpws Cenedlaethol Cymraeg Cyfoes – The National Corpus of Contemporary Welsh) Dawn Knight (Cardiff University), Tess Fitzpatrick (Swansea University), Steve Morris (Swansea University), Jeremy Evas (Cardiff University), Paul Rayson (Lancaster University), Irena Spasic (Cardiff University), Mark Stonelake (Swansea University), Enlli Môn Thomas (Bangor University), Steven Neale (Cardiff University), Jennifer Needs (Swansea University), Scott Piao (Lancaster University), Mair Rees (Swansea University), Gareth Watkins (Cardiff University), Laurence Anthony (Waseda University), Thomas Michael Cobb (University of Quebec at Montreal), Margaret Deuchar (University of Cambridge), Kevin Donnelly (Freelance), Michael McCarthy (University of Nottingham), Kevin Scannell (Saint Louis University) .............................................. 13 EuReCo - Joining Forces for a European Reference Corpus as a sustainable base for cross- linguistic research Marc Kupietz (IDS Mannheim), Andreas Witt (University of Cologne, IDS Mannheim, Heidelberg University), Piotr Bański (IDS Mannheim), Dan Tufiş (Institute for Artificial Intelligence Mihai Drăgănescu, Bucharest), Dan Cristea (Romanian Academy, Institute for Computer Science - Iaşi, Alexandru Ioan Cuza University), Tamás Váradi (Research Institute for Linguistics, Hungarian Academy of Sciences) ....................................................................................................................... 15 CMC Corpora in DeReKo Harald Lüngen, Marc Kupietz (IDS Mannheim) .............................................................................. 20 Organizing corpora at the Stanford Literary Lab David McClure, Mark Algee-Hewitt, Douris Steele, Erik Fredner and Hannah Walser (Stanford University), ........................................................................................................................................ 25 Accelerating Corpus Search Using Multiple Cores Radoslav Rábara, Pavel Rychlý ,Ondřej Herman (Lexical Computing) ........................................... 30 Keeping Properties with the Data: CL-MetaHeaders – An Open Specification John Vidler (School of Computing and Communications, Lancaster University), Stephen Wattam (Department of Linguistics and English Language, Lancaster University) ...................................... 35 WAC-XI contributions .............................................................................................................. 42 Are Web Corpora Inferior? The Case of Czech and Slovak Vladimir Benko (Slovak Academy of Sciences, Comenius University in Bratislava) ....................... 43 v Web Corpora – the best possible solution for tracking phenomena in underresourced languages: clitics in Bosnian, Croatian and Serbian Edyta Jurkiewicz-Rohrbacher (University of Helsinki, Universität Regensburg),, Zrinka Kolaković (Universität Regensburg), Björn Hansen (Universität Regensburg) ................................................. 49 Removing Spam from Web Corpora Through Supervised Learning Using FastText Vit Suchomel (Masaryk University, Brno) ......................................................................................... 56 vi Author Index Algee-Hewitt, Mark .......................................................................................................................... 25 Anthony, Laurence ............................................................................................................................ 13 Bański, Piotr ...................................................................................................................................... 15 Benko, Vladimir ................................................................................................................................ 43 Čermáková, Anna ................................................................................................................................ 7 Cobb, Thomas Michael ..................................................................................................................... 13 Cristea, Dan ....................................................................................................................................... 15 Deuchar, Margaret ............................................................................................................................ 13 Dittrich, Andreas ................................................................................................................................. 1 Donnelly, Kevin ................................................................................................................................ 13 Evas, Jeremy ..................................................................................................................................... 13 Fitzpatrick, Tess ...............................................................................................................................

Proceedings of the Workshop on Challenges in the Management of Large Corpora and Big Data and Natural Language Processing (CMLC

CLIB 2016 Proceedings

The Main Features of the E-Glava Online Valency Dictionary

Collection of Usage Information for Language Resources from Academic Articles

Conference Abstracts

Morphological Doublets in Croatian: a Multi-Methodological Analysis

FERSIWN GYMRAEG ISOD the National Corpus of Contemporary

Languages in the European Information Society Croatian

The Translation Equivalents Database (Treq) As a Lexicographer’S Aid

The Workshop Programme

The National Corpus of Contemporary Welsh 1. Introduction

Overabundance in Croatian Dual-Class Verbs FLUMINENSIA, God

Better Web Corpora for Corpus Linguistics and NLP