PARIS Inalco Du 4 Au 8 Juillet 2016 Organisé Par Les Laboratoires Franciliens

Journées d’Études sur la Parole Traitement Automatique des Langues Naturelles Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues PARIS Inalco du 4 au 8 juillet 2016 Organisé par les laboratoires franciliens https://jep-taln2016.limsi.fr Conférenciers invités: Christian Chiarcos (Goethe-Universität, Frankfurt.) Mark Liberman (University of Pennsylvania, Philadelphia) Coordinateurs comités d'organisation Nicolas Audibert et Sophie Rosset (JEP) Laurence Danlos & Thierry Hamon (TALN) Damien Nouvel & Ilaine Wang (RECITAL) Philippe Boula de Mareuil, Sarra El Ayari & Cyril Grouin (Ateliers) ©2016 Association Francophone pour la Communication Parlée (AFCP) et Association pour le Traitement Automatique des Langues (ATALA) Actes de la conférence conjointe JEP-TALN-RECITAL 2016, volume 6 : CLTW Préface Thierry Poibeau1 Teresa Lynn2 Delyth Prys3 John Judge2 (1) LATTICE, CNRS-ENS-U. Sorbonne Nouvelle, Paris, France (2) ADAPT Centre, Dublin City University, Dublin, Ireland (3) Language Technologies Unit, Bangor University, Bangor, Wales, UK [email protected] [email protected] [email protected] [email protected] Le traitement automatique des langues a permis le développement d’un grand nombre d’outils et de ressources pour des langues variées. Des outils comme des correcteurs orthographiques, des interfaces vocales embarquées et bien encore des corpus de milliards de mots ont vu le jour et ont permis le développements d’applications utiles dans la vie quotidienne de millions d’utilisateurs. Jusqu’à récemment, les langues avec un nombre moindre de locuteurs n’ont pas bénéficié des mêmes avancées. Cependant, les techniques permettent aujourd’hui de mettre au point des outils et des ressources efficaces à partir de moins de données et en un temps limité. De fait, les langues sous dotées disposent à leur tour de plus en plus souvent d’outils et de ressources de qualité. Les ateliers sur le Traitement automatique des langues celtiques (CLTW) visent à rassembler les chercheurs intéressés par le développement d’outils et de ressources pour cette famille de langues. Comme celles-ci sont largement sous-dotées, le but est aussi d’encourager le dialogue et les collaborations entre chercheurs. L’édition 2016 de l’atelier sera le deuxième de la série, après la première édition qui avait eu lieu lors de COLING 2014 à Dublin. Nous sommes heureux d’organiser cette deuxième édition en France, conjointement avec la conférence JEP-TALN. Dix articles ont été retenus pour présentation et montrent la richesse et la variété des recherches effectuées par les équipes impliquées. Nous remercions Robin Owain, pour avoir accepté d’intervenir comme conférencier invité. Nous remercions également tous les auteurs pour la qualité et l’intérêt des travaux soumis, les participants et évidemment les membres du comité de programme pour la qualité de leurs remarques et de leur travail de relecture. i Actes de la conférence conjointe JEP-TALN-RECITAL 2016, volume 6 : CLTW Preface Thierry Poibeau1 Teresa Lynn2 Delyth Prys3 John Judge2 (1) LATTICE, CNRS-ENS-U. Sorbonne Nouvelle, Paris, France (2) ADAPT Centre, Dublin City University, Dublin, Ireland (3) Language Technologies Unit, Bangor University, Bangor, Wales, UK [email protected] [email protected] [email protected] [email protected] Language Technology and Computational Linguistics research innovations in recent years have given us a great deal of modern language processing tools and resources for many languages. Basic language tools like spell and grammar checkers through to interactive systems like Siri, as well as resources like the Trillion Word Corpus, all fit together to produce products and services which enhance our daily lives. Until relatively recently, languages with smaller numbers of speakers have largely not benefited from attention in this field. However, modern techniques in the field are making it easier to create language tools and resources from fewer resources in a faster time. In this light, many lesser spoken languages are making their way into the digital age through the provision of language technologies and resources. The Celtic Language Technology Workshop (CLTW) series of workshops provides a forum for researchers interested in developing NLP (Natural Language Processing) resources and technologies for Celtic languages. As Celtic languages are under-resourced, our goal is to encourage collaboration and communication between researchers working on language technologies and resources for Celtic languages. This will be the second Celtic Language Technology Workshop (CLTW). The first event was held in Dublin during COLING 2014 and was hugely successful in bringing this fledgling community together. We are pleased to organise this second workshop in France, during the JEP-TALN conference. This year the workshop will present 10 selected papers covering a variety of topics of relevance to the Celtic languages and their associated technologies. We thank Robin Owain for the invited conference. We also want to thank all our authors and presenters for their hard work and workshop attendees for their participation, and of course we are very grateful to our programme committee for reviewing and providing invaluable feedback on the work published here. ii Actes de la conférence conjointe JEP-TALN-RECITAL 2016, volume 6 : CLTW Comité de programme — Colin Batchelor, Royal Society of Chemistry, Angleterre — Aoife Cahill, ETS, USA — Andrew Carnie, University of Arizona, USA — Brian Davis, INSIGHT/ National University of Ireland, Irlande — Jeremy Evas, University of Cardiff, Pays de Galles — Mikel Forcada, Universitat d’Alacant, Espagne — Annie Foret, Université Rennes 1, Bretagne — William Lamb, University of Edinburgh, Ecosse — Montse Maritxalar, University of the Basque Country, Espagne — John McCrae, INSIGHT/ National University of Ireland, Irlande — Neasa Ní Chiarán, TCD, Irlande — Brian O Raghallaigh, Fiontar/ Dublin City University, Irlande — Kevin Scannell, Saint Louis University, USA — Mark Steedman, University of Edinburgh, Ecosse — Nancy Stenson, UCD, Irlande — Fran Tyers, Prompsit, Russie — Elaine Uí Dhonnchadha, Trinity College Dublin, Irlande — Pauline Welby, CNRS/UCD, France Organisateurs de l’atelier — Thierry Poibeau, CNRS, France — Teresa Lynn, DCU, Irlande — Delyth Prys, Bangor University, Pays de Galles — John Judge, DCU, Irlande iii Actes de la conférence conjointe JEP-TALN-RECITAL 2016, volume 6 : CLTW Table des matières Automatic derivation of categorial grammar from a part-of-speech-tagged corpus in Scottish Gaelic Colin Batchelor . 1 Building a Dictionary-Based Lemmatizer for Old Irish Oksana Dereza . 12 CALLIPSO – CALL for Irish for Parents Students and Others Monica Ward. 18 Developing Word Embedding Models for Scottish Gaelic William Lamb, Mark Sinclair . 31 English to Irish Machine Translation with Automatic Post-Editing Meghan Dowling, Teresa Lynn, Yvette Graham, John Judge. .42 Enrichissement de données en breton avec Wordnet Annie Foret . 55 Insular Celtic Language Mark-up in WordPress Mícheál Mac Lochlainn . 62 Towards a lexicon of Irish-language idioms Katie Ní Loingsigh. .69 Universal Dependencies for Irish Teresa Lynn, Jennifer Foster . 79 Vocab : a dictionary plugin for web sites Dewi Bryn Jones, Gruffudd Prys, Delyth Prys . 93 iv Actes de la conférence conjointe JEP-TALN-RECITAL 2016, volume 6 : CLTW Automatic derivation of categorial grammar from a part-of-speech-tagged corpus in Scottish Gaelic Colin Batchelor Royal Society of Chemistry, Cambridge, UK CB4 0WF [email protected] RÉSUMÉ Grammaire catégoriale dérivé automatiquement d’un corpus des textes en gaélique écossais avec annotations syntaxiques Nous presentons une grammaire catégoriale preliminaire pour le gaélique écossais qui nous avons derivé automatiquement du corpus de texte ARCOSG (Annotated Reference Corpus of Scottish Gaelic) de l’Université d’Édimbourg, qui contient plus que 80 000 des entités lexicales en plusieurs genres avec annotations syntaxiques. Nous discutons nos méthodes pour la dérivation de cette grammaire, les traits distinctifs du gaélique écossais et du corpus, l’analyse lexicale categoriale, et dont on a besoin pour une évaluation rigoureouse et systématique d’une telle grammaire. ABSTRACT We present a preliminary categorial grammar for Scottish Gaelic derived automatically from the University of Edinburgh’s Annotated Reference Corpus of Scottish Gaelic (ARCOSG), which contains over 80 000 tokens of part-of-speech-tagged text in multiple genres. We discuss our methods for deriving this grammar, the distinctive features of Scottish Gaelic and of the corpus, parsing CCG, and set out what is needed for a rigorous and systematic evaluation of the work presented here. MOTS-CLÉS : gaélique écossais, grammaire categoriale, CCG. KEYWORDS: Scottish Gaelic, categorial grammar, CCG. 1 Introduction Scottish Gaelic, like the other Celtic languages, is marked by VSO word order, fused preposition– pronouns, word-initial mutation and extensive use of periphrastic constructions (Lamb, 2003). As in Irish the copula and verb “to be” are separate, and psychological states are typically expressed with a combination of either of those, prepositional phrases and nouns. As such it is a challenging language for automatic processing, a situation which is not helped by its having historically been an under-resourced language for natural language processing, but this started to change at the first Celtic Language Technology Workshop in Dublin

Load more