ISSN: 1647-0818 Lingua
Total Page:16
File Type:pdf, Size:1020Kb
lingua Volume 12, Número 2 (2020) ISSN: 1647-0818 lingua Volume 12, N´umero 2 { 2020 Linguamatica´ ISSN: 1647{0818 Editores Alberto Sim~oes Jos´eJo~aoAlmeida Xavier G´omezGuinovart Conteúdo Artigos de Investiga¸c~ao Adapta¸c~aoLexical Autom´atica em Textos Informativos do Portugu^esBrasileiro para o Ensino Fundamental Nathan Siegle Hartmann & Sandra Maria Alu´ısio .................3 Avaliando entidades mencionadas na cole¸c~ao ELTeC-por Diana Santos, Eckhard Bick & Marcin Wlodek ................... 29 Avalia¸c~aode recursos computacionais para o portugu^es Matilde Gon¸calves, Lu´ısaCoheur, Jorge Baptista & Ana Mineiro ........ 51 Projetos, Apresentam-se! Aplicaci´onde WordNet e de word embeddings no desenvolvemento de proto- tipos para a xeraci´onautom´atica da lingua Mar´ıaJos´eDom´ınguezV´azquez ........................... 71 Editorial Ainda h´apouco public´avamosa primeira edi¸c~aoda Linguam´atica e, subitamente, eis-nos a comemorar uma d´uziade anos. A todos os que colaboraram durante todos estes anos, tenham sido leitores, autores ou revisores, a todos o nosso muito obrigado. N~ao´ef´acilmanter um projeto destes durante tantos anos, sem qualquer financi- amento. Todo este sucesso ´egra¸cas a trabalho volunt´ario de todos, o que nos permite ter artigos de qualidade publicados e acess´ıveisgratuitamente a toda a comunidade cient´ıfica. Nestes doze anos muitos foram os que nos acompanharam, nomeadamente na comiss~aocient´ıfica. Alguns dos primeiros membros, convidados em 2008, continuam ativamente a participar neste projeto, realizando revis~oesapuradas. Outros, por via do seu percurso acad´emico e pessoal, j´an~aocolaboram connosco. Como sinal de agradecimento temos mantido os seus nomes na publica¸c~ao. No en- tanto, n~aopodemos estar presos ao passado, pelo que deixamos aqui um agradecimento especial a alguns dos membros que ir~aodeixar de constar na comiss~aocient´ıfica, de forma ativa, e que passar~aoa ser mencionados, no s´ıtioda revista, como anterio- res colaboradores da Linguam´atica: Ana Frankenberg-Garcia, Ant´on Santamarina, Arantza D´ıaz de Ilarraza, Belinda Maia, I~naki Alegria, Joseba Abaitua, Maria das Gra¸cas Volpe Nunes e Tony Berber Sardinha. O nosso muito obrigado! Xavier G´omez Guinovart Jos´eJo~aoAlmeida Alberto Sim~oes vii Comissão Científica Alberto Alvarez´ Lugr´ıs, Gerardo Sierra, Manex Agirrezabal, Universidade de Vigo Universidad Nacional University of Copenhagen Aut´onoma de M´exico Alberto Sim~oes, Marcos Garcia, Instituto Polit´ecnico do C´avado e Ave German Rigau, Universidade da Corunha Euskal Herriko Unibertsitatea Aline Villavicencio, Mar´ıa In´esTorres, Universidade Federal do Helena de Medeiros Caseli, Euskal Herriko Unibertsitatea Rio Grande do Sul Universidade Federal de S~ao Carlos Maria Gra¸cas Volpe Nunes, Alvaro´ Iriarte Sanroman, Horacio Saggion, Universidade de S~ao Paulo Universidade do Minho University of Sheffield M´ario Rodrigues, Ana Frankenberg-Garcia, Hugo Gon¸calo Oliveira, Universidade de Aveiro University of Surrey Universidade de Coimbra Merc`eLorente Casafont, Anselmo Pe~nas, I~naki Alegria, Universitat Pompeu Fabra Universidad Nacional de Euskal Herriko Unibertsitatea Educaci´on a Distancia Miguel Solla Portela, Irene Castell´onMasalles, Universidade de Vigo Ant´onSantamarina, Universitat de Barcelona Universidade de Santiago de Mikel Forcada, Compostela Iria da Cunha, Universitat d'Alacant Universidad Nacional de Antoni Oliver Gonz´alez, Educaci´on a Distancia Pablo Gamallo Otero, Universitat Oberta de Catalunya Universidade de Santiago de Joaquim Llisterri, Compostela Antonio Moreno Sandoval, Universitat Aut`onoma de Barcelona Universidad Aut´onoma de Madrid Patr´ıcia Cunha Fran¸ca, Jos´eJo~aoAlmeida, Universidade do Minho Ant´onio Teixeira, Universidade do Minho Universidade de Aveiro Patricia Martin Rodilla Jos´ePaulo Leal, Universidade de Santiago de Arantza D´ıaz de Ilarraza, Universidade do Porto Compostela Euskal Herriko Unibertsitatea Joseba Abaitua, Ricardo Rodrigues Arkaitz Zubiaga, Universidad de Deusto Instituto Polit´ecnico de Coimbra Dublin Institute of Technology Juan-Manuel Torres-Moreno, Rui Pedro Marques, Belinda Maia, Universit´ed´Avignon et Universidade de Lisboa Universidade do Porto des Pays du Vaucluse Susana Afonso Cavadas, Bruno Martins, Kepa Sarasola, University of Exeter Instituto Superior T´ecnico Euskal Herriko Unibertsitatea Tony Berber Sardinha, Carmen Garc´ıa Mateo, Karin Becker, Pontif´ıcia Universidade Universidade de Vigo UFRGS, Brasil Cat´olica de S~ao Paulo Diana Santos, Laura Plaza, Xavier G´omez Guinovart, Linguateca/Universidade de Oslo Complutense University of Madrid Universidade de Vigo Ferran Pla, Llu´ıs Padr´o, Universitat Polit`ecnica de Val`encia Universitat Polit`ecnica de Catalunya Gael Harry Dias, Lu´ısMorgado da Costa, Universit´ede Caen Basse-Normandie Nanyang Technological University Revisor Convidado: Nuno Escudeiro, Instituto Superior de Engenharia do Porto ix Artigos de Investigação Proposta recebida em Fevereiro 2020 e aceite para publica¸c˜aoem Agosto 2020. Adapta¸c˜aoLexical Autom´aticaem Textos Informativos do PortuguˆesBrasileiro para o Ensino Fundamental Automatic Lexical Adaptation in Brazilian Portuguese Informative Texts for Elementary Education Nathan Siegle Hartmann Sandra Maria Alu´ısio Instituto de CiˆenciasMatem´aticase Computa¸c˜ao Instituto de CiˆenciasMatem´aticase Computa¸c˜ao Universidade de S˜aoPaulo, Brasil Universidade de S˜aoPaulo, Brasil [email protected] [email protected] Resumo works independently deal with the Lexical Simplifi- cation and Elaboration tasks, bringing partial contri- A Adapta¸c˜aoTextual ´euma grande ´area de pes- butions, since each task has its own challenges. This quisa do Processamento de L´ınguasNaturais (PLN), work proposed a pipeline for Lexical Adaptation and bastante conhecida como pr´aticaeducacional, e pos- presents contributions in three of the four stages of the sui duas grandes abordagens: a Simplifica¸c˜aoe a Ela- Lexical Adaptation pipeline: (i) proposal and evalua- bora¸c˜aoTextual. N˜aoh´amuitos trabalhos na litera- tion of methods for the Complex Word Identification tura de PLN que tratam todas as fases da Adapta¸c˜ao task; (ii) corpus analysis to survey Lexical Elabora- Lexical para implementa¸c˜ao de sistemas. V´arios tion word definition standards; (iii) the SIMPLEX-PB trabalhos tratam independentemente as tarefas de 3.0 corpus, containing in its new version short defini- Simplifica¸c˜aoe Elabora¸c˜aoLexicais, trazendo contri- tions extracted from dictionaries that were manually bui¸c˜oesparciais, j´aque cada uma das tarefas pos- revised, annotations of technical terms extracted from suem seus pr´opriosdesafios. Este trabalho propˆos a dictionary, and linguistic metrics of lexical comple- um pipeline para a Adapta¸c˜aoLexical e apresenta xity; and (iv) proposal and evaluation of methods for contribui¸c˜oespara trˆesdas quatro etapas do pipe- Lexical Simplification, establishing a new SOTA for line, sendo elas: (i) proposta e avalia¸c˜aode m´etodos the task applied in Brazilian Portuguese. para a tarefa de Identifica¸c˜aode Palavras Complexas; (ii) an´alisede c´orpuspara levantamento de padr˜oes Keywords de Elabora¸c˜aoLexical do tipo defini¸c˜ao;(iii) dispo- text adaptation, lexical simplification, lexical elabo- nibiliza¸c˜ao do c´orpus SIMPLEX-PB 3.0, contendo ration, reading aid for children em sua nova vers˜aodefini¸c˜oescurtas extra´ıdasde di- cion´arioque foram revisadas manualmente, anota¸c˜oes de termos t´ecnicosextra´ıdasde dicion´ario,e m´etricas lingu´ısticasde complexidade lexical; e (iv) proposta e 1. Introdu¸c˜ao avalia¸c˜aode m´etodos para Simplifica¸c˜aoLexical, es- tabelecendo um novo SOTA para a tarefa aplicada no Dada a importˆanciado ensino da leitura e com- PortuguˆesBrasileiro. preens˜ao de textos em ˆambito mundial e aos constantes progressos na ´areade Processamento Palavras chave de L´ınguas Naturais (PLN) nos ´ultimosanos, adapta¸c˜aotextual, simplifica¸c˜aolexical, elabora¸c˜ao tem havido um grande interesse de pesquisa na lexical, aux´ılio`aleitura de crian¸cas adapta¸c˜aoautom´aticade textos escritos a fim de torn´a-losacess´ıveis para um n´umeromaior de pessoas (Siddharthan, 2006; Bult´eet al., 2018; ˇ Abstract Pasqualini, 2018; Stajner et al., 2019), como adultos com baixa escolaridade (Max, 2006; Wa- Text Adaptation is a large Natural Language Pro- tanabe et al., 2010; Amancio, 2011; Alu´ısio & cessing (NLP) research area, well known as educatio- Gasperin, 2010; Barlacchi & Tonelli, 2013; Pas- nal practice and has two main approaches: Simplifica- qualini, 2018), crian¸cas (Mihalcea & Csomai, tion and Text Elaboration. There is not much work in 2007; De Belder & Moens, 2010; Trieschnigg & the NLP literature that addresses all phases of Lexi- Hauff, 2011; Kajiwara et al., 2013), aprendizes de cal Adaptation for systems implementation. Several uma segunda l´ıngua(Gardner & Hansen, 2007; Petersen & Ostendorf, 2007; Paetzold & Spe- DOI: 10.21814/lm.12.2.323 Linguamatica´ | ISSN: 1647{0818 This work is Licensed under a Creative Commons Attribution 4.0 License Vol. 12 N´um. 2 2020 - P´ag.3{27 4{ Linguamatica´ Nathan Siegle Hartmann & Sandra Maria Alu´ısio cia, 2017), indiv´ıduos com deficiˆenciascogniti- Um sistema autom´aticopara simplifica¸c˜aole- vas (Bott et al., 2012), indiv´ıduos surdos (Inui xical realiza os seguintes passos em pipeline, con- et al., 2003; Chung et al., 2013), af´asicos(De- forme apresentado na Figura1: vlin & Tait, 1998; Devlin & Unthank, 2006; Rello et al., 2013b) e disl´exicos(Rello et al., 2013b,a). 1. dada uma