<<

lingua Volume 12, Número 2 (2020)

ISSN: 1647-0818 lingua

Volume 12, N´umero 2 – 2020 Linguamatica´ ISSN: 1647–0818

Editores Alberto Sim˜oes Jos´eJo˜aoAlmeida Xavier G´omezGuinovart

Conteúdo

Artigos de Investiga¸c˜ao

Adapta¸c˜aoLexical Autom´atica em Textos Informativos do PortuguˆesBrasileiro para o Ensino Fundamental Nathan Siegle Hartmann & Sandra Maria Alu´ısio ...... 3

Avaliando entidades mencionadas na cole¸c˜ao ELTeC-por Diana Santos, Eckhard Bick & Marcin Wlodek ...... 29

Avalia¸c˜aode recursos computacionais para o portuguˆes Matilde Gon¸calves, Lu´ısaCoheur, Jorge Baptista & Ana Mineiro ...... 51

Projetos, Apresentam-se!

Aplicaci´onde WordNet e de word embeddings no desenvolvemento de proto- tipos para a xeraci´onautom´atica da lingua Mar´ıaJos´eDom´ınguezV´azquez ...... 71

Editorial

Ainda h´apouco public´avamosa primeira edi¸c˜aoda Linguam´atica e, subitamente, eis-nos a comemorar uma d´uziade anos. A todos os que colaboraram durante todos estes anos, tenham sido leitores, autores ou revisores, a todos o nosso muito obrigado.

N˜ao´ef´acilmanter um projeto destes durante tantos anos, sem qualquer financi- amento. Todo este sucesso ´egra¸cas a trabalho volunt´ario de todos, o que nos permite ter artigos de qualidade publicados e acess´ıveisgratuitamente a toda a comunidade cient´ıfica.

Nestes doze anos muitos foram os que nos acompanharam, nomeadamente na comiss˜aocient´ıfica. Alguns dos primeiros membros, convidados em 2008, continuam ativamente a participar neste projeto, realizando revis˜oesapuradas.

Outros, por via do seu percurso acad´emico e pessoal, j´an˜aocolaboram connosco. Como sinal de agradecimento temos mantido os seus nomes na publica¸c˜ao. No en- tanto, n˜aopodemos estar presos ao passado, pelo que deixamos aqui um agradecimento especial a alguns dos membros que ir˜aodeixar de constar na comiss˜aocient´ıfica, de forma ativa, e que passar˜aoa ser mencionados, no s´ıtioda revista, como anterio- res colaboradores da Linguam´atica: Ana Frankenberg-Garcia, Ant´on Santamarina, Arantza D´ıaz de Ilarraza, Belinda Maia, I˜naki Alegria, Joseba Abaitua, Maria das Gra¸cas Volpe Nunes e Tony Berber Sardinha. O nosso muito obrigado!

Xavier G´omez Guinovart Jos´eJo˜aoAlmeida Alberto Sim˜oes

vii

Comissão Científica

Alberto Alvarez´ Lugr´ıs, Gerardo Sierra, Manex Agirrezabal, Universidade de Vigo Universidad Nacional University of Copenhagen Aut´onoma de M´exico Alberto Sim˜oes, Marcos Garcia, Instituto Polit´ecnico do C´avado e Ave German Rigau, Universidade da Corunha Euskal Herriko Unibertsitatea Aline Villavicencio, Mar´ıa In´esTorres, Universidade Federal do Helena de Medeiros Caseli, Euskal Herriko Unibertsitatea Rio Grande do Sul Universidade Federal de S˜ao Carlos Maria Gra¸cas Volpe Nunes, Alvaro´ Iriarte Sanroman, Horacio Saggion, Universidade de S˜ao Paulo Universidade do Minho University of Sheffield M´ario Rodrigues, Ana Frankenberg-Garcia, Hugo Gon¸calo Oliveira, Universidade de Aveiro University of Surrey Universidade de Coimbra Merc`eLorente Casafont, Anselmo Pe˜nas, I˜naki Alegria, Universitat Pompeu Fabra Universidad Nacional de Euskal Herriko Unibertsitatea Educaci´on a Distancia Miguel Solla Portela, Irene Castell´onMasalles, Universidade de Vigo Ant´onSantamarina, Universitat de Barcelona Universidade de Santiago de Mikel Forcada, Compostela Iria da Cunha, Universitat d’Alacant Universidad Nacional de Antoni Oliver Gonz´alez, Educaci´on a Distancia Pablo Gamallo Otero, Universitat Oberta de Catalunya Universidade de Santiago de Joaquim Llisterri, Compostela Antonio Moreno Sandoval, Universitat Aut`onoma de Barcelona Universidad Aut´onoma de Madrid Patr´ıcia Cunha Fran¸ca, Jos´eJo˜aoAlmeida, Universidade do Minho Ant´onio Teixeira, Universidade do Minho Universidade de Aveiro Patricia Martin Rodilla Jos´ePaulo Leal, Universidade de Santiago de Arantza D´ıaz de Ilarraza, Universidade do Porto Compostela Euskal Herriko Unibertsitatea Joseba Abaitua, Ricardo Rodrigues Arkaitz Zubiaga, Universidad de Deusto Instituto Polit´ecnico de Coimbra Dublin Institute of Technology Juan-Manuel Torres-Moreno, Rui Pedro Marques, Belinda Maia, Universit´ed´Avignon et Universidade de Lisboa Universidade do Porto des Pays du Vaucluse Susana Afonso Cavadas, Bruno Martins, Kepa Sarasola, University of Exeter Instituto Superior T´ecnico Euskal Herriko Unibertsitatea Tony Berber Sardinha, Carmen Garc´ıa Mateo, Karin Becker, Pontif´ıcia Universidade Universidade de Vigo UFRGS, Brasil Cat´olica de S˜ao Paulo Diana Santos, Laura Plaza, Xavier G´omez Guinovart, Linguateca/Universidade de Oslo Complutense University of Madrid Universidade de Vigo Ferran Pla, Llu´ıs Padr´o, Universitat Polit`ecnica de Val`encia Universitat Polit`ecnica de Catalunya Gael Harry Dias, Lu´ısMorgado da Costa, Universit´ede Caen Basse-Normandie Nanyang Technological University

Revisor Convidado: Nuno Escudeiro, Instituto Superior de Engenharia do Porto

ix

Artigos de Investigação

Proposta recebida em Fevereiro 2020 e aceite para publica¸c˜aoem Agosto 2020.

Adapta¸c˜aoLexical Autom´aticaem Textos Informativos do PortuguˆesBrasileiro para o Ensino Fundamental Automatic Lexical Adaptation in Brazilian Portuguese Informative Texts for Elementary Education

Nathan Siegle Hartmann Sandra Maria Alu´ısio Instituto de CiˆenciasMatem´aticase Computa¸c˜ao Instituto de CiˆenciasMatem´aticase Computa¸c˜ao Universidade de S˜aoPaulo, Brasil Universidade de S˜aoPaulo, Brasil [email protected] [email protected]

Resumo works independently deal with the Lexical Simplifi- cation and Elaboration tasks, bringing partial contri- A Adapta¸c˜aoTextual ´euma grande ´area de pes- butions, since each task has its own challenges. This quisa do Processamento de L´ınguasNaturais (PLN), work proposed a pipeline for Lexical Adaptation and bastante conhecida como pr´aticaeducacional, e pos- presents contributions in three of the four stages of the sui duas grandes abordagens: a Simplifica¸c˜aoe a Ela- Lexical Adaptation pipeline: (i) proposal and evalua- bora¸c˜aoTextual. N˜aoh´amuitos trabalhos na litera- tion of methods for the Complex Word Identification tura de PLN que tratam todas as fases da Adapta¸c˜ao task; (ii) corpus analysis to survey Lexical Elabora- Lexical para implementa¸c˜ao de sistemas. V´arios tion word definition standards; (iii) the SIMPLEX-PB trabalhos tratam independentemente as tarefas de 3.0 corpus, containing in its new version short defini- Simplifica¸c˜aoe Elabora¸c˜aoLexicais, trazendo contri- tions extracted from dictionaries that were manually bui¸c˜oesparciais, j´aque cada uma das tarefas pos- revised, annotations of technical terms extracted from suem seus pr´opriosdesafios. Este trabalho propˆos a dictionary, and linguistic metrics of lexical comple- um pipeline para a Adapta¸c˜aoLexical e apresenta xity; and (iv) proposal and evaluation of methods for contribui¸c˜oespara trˆesdas quatro etapas do pipe- Lexical Simplification, establishing a new SOTA for line, sendo elas: (i) proposta e avalia¸c˜aode m´etodos the task applied in Brazilian Portuguese. para a tarefa de Identifica¸c˜aode Palavras Complexas; (ii) an´alisede c´orpuspara levantamento de padr˜oes Keywords de Elabora¸c˜aoLexical do tipo defini¸c˜ao;(iii) dispo- text adaptation, lexical simplification, lexical elabo- nibiliza¸c˜ao do c´orpus SIMPLEX-PB 3.0, contendo ration, reading aid for children em sua nova vers˜aodefini¸c˜oescurtas extra´ıdasde di- cion´arioque foram revisadas manualmente, anota¸c˜oes de termos t´ecnicosextra´ıdasde dicion´ario,e m´etricas lingu´ısticasde complexidade lexical; e (iv) proposta e 1. Introdu¸c˜ao avalia¸c˜aode m´etodos para Simplifica¸c˜aoLexical, es- tabelecendo um novo SOTA para a tarefa aplicada no Dada a importˆanciado ensino da leitura e com- PortuguˆesBrasileiro. preens˜ao de textos em ˆambito mundial e aos constantes progressos na ´areade Processamento Palavras chave de L´ınguas Naturais (PLN) nos ´ultimosanos, adapta¸c˜aotextual, simplifica¸c˜aolexical, elabora¸c˜ao tem havido um grande interesse de pesquisa na lexical, aux´ılio`aleitura de crian¸cas adapta¸c˜aoautom´aticade textos escritos a fim de torn´a-losacess´ıveis para um n´umeromaior de pessoas (Siddharthan, 2006; Bult´eet al., 2018; ˇ Abstract Pasqualini, 2018; Stajner et al., 2019), como adultos com baixa escolaridade (Max, 2006; Wa- Text Adaptation is a large Natural Language Pro- tanabe et al., 2010; Amancio, 2011; Alu´ısio & cessing (NLP) research area, well known as educatio- Gasperin, 2010; Barlacchi & Tonelli, 2013; Pas- nal practice and has two main approaches: Simplifica- qualini, 2018), crian¸cas (Mihalcea & Csomai, tion and Text Elaboration. There is not much work in 2007; De Belder & Moens, 2010; Trieschnigg & the NLP literature that addresses all phases of Lexi- Hauff, 2011; Kajiwara et al., 2013), aprendizes de cal Adaptation for systems implementation. Several uma segunda l´ıngua(Gardner & Hansen, 2007; Petersen & Ostendorf, 2007; Paetzold & Spe- DOI: 10.21814/lm.12.2.323 Linguamatica´ — ISSN: 1647–0818 This work is Licensed under a Creative Commons Attribution 4.0 License Vol. 12 N´um. 2 2020 - P´ag.3–27 4– Linguamatica´ Nathan Siegle Hartmann & Sandra Maria Alu´ısio cia, 2017), indiv´ıduos com deficiˆenciascogniti- Um sistema autom´aticopara simplifica¸c˜aole- vas (Bott et al., 2012), indiv´ıduos surdos (Inui xical realiza os seguintes passos em pipeline, con- et al., 2003; Chung et al., 2013), af´asicos(De- forme apresentado na Figura1: vlin & Tait, 1998; Devlin & Unthank, 2006; Rello et al., 2013b) e disl´exicos(Rello et al., 2013b,a). 1. dada uma senten¸ca,selecionam-se as palavras A Adapta¸c˜aoTextual ´euma ´areade pesquisa ou express˜oesque s˜aoconsideradas complexas do PLN bastante conhecida como pr´aticaedu- para um leitor e/ou tarefa computacional; cacional e possui duas grandes abordagens - a 2. buscam-se substitutos, geralmente usando re- Simplifica¸c˜ao e a Elabora¸c˜ao Textual (Mayer, posit´orioscomo as ; ˇ 1980; Young, 1999; Saggion, 2017; Stajner & 3. filtram-se os substitutos para se recuperar ape- Saggion, 2018; Arf´eet al., 2018). A primeira nas os sinˆonimoscom o mesmo sentido usado pode ser definida como qualquer tarefa que re- no contexto da senten¸caoriginal; e duza a complexidade lexical ou sint´aticade um texto enquanto tenta preservar seu significado 4. ranqueiam-se os substitutos segundo o crit´erio (Siddharthan, 2006, 2014), tendo um grande im- de simplicidade para o leitor e/ou tarefa. Nor- pacto na leiturabilidade (ou inteligibilidade) de malmente, a frequˆenciaem um grande c´orpus um texto; pode ser dividida nas t´ecnicas:(i) Sim- da l´ınguaalvo e o tamanho das palavras s˜ao plifica¸c˜aoLexical, (ii) Simplifica¸c˜aoSint´aticae utilizados como crit´eriode simplicidade. (iii) Sumariza¸c˜aoAutom´atica. A segunda tem 5. Ap´osa escolha do sinˆonimoadequado, h´aa impacto na compreensibilidade de um texto, isto troca da palavra em foco pelo sinˆonimose- ´e, na facilidade com que um texto pode ser lecionado, que pode pedir ajustes na escrita compreendido e tamb´em no aumento do voca- das palavras da ora¸c˜ao,como a adequa¸c˜aode bul´ariodo leitor, pois se utiliza de um conjunto gˆenero,n´umeroe grau. de t´ecnicas para inserir material redundante, por exemplo: (i) adi¸c˜aode sinˆonimos/antˆonimos ao lado de palavras ou express˜oes complexas, (ii) defini¸c˜aode conceitos, ou ainda (iii) tornar expl´ıcitas as conex˜oesentre as ideias do texto (Mayer, 1980; Alu´ısio& Gasperin, 2010). A Adapta¸c˜aoLexical, foco deste trabalho, ´e uma sub´areada Adapta¸c˜aoTextual, trazendo as t´ecnicasde Elabora¸c˜aoe Simplifica¸c˜aoLexicais, apresentadas a seguir. A Elabora¸c˜aoLexical tem a fun¸c˜aode auxi- liar a compreensibilidade de um texto, familia- rizando termos ou palavras desconhecidas para Figura 1: Pipeline tradicional para a tarefa de um dado leitor. Ela ´erealizada com a adi¸c˜aode Simplifica¸c˜aoLexical (Specia et al., 2012), ilus- informa¸c˜oesredundantes como uso de defini¸c˜oes trado com exemplos do Portuguˆes. via links nas pr´opriaspalavras1 ou ao lado das palavras complexas via uso de informa¸c˜oespa- Assim como o pipeline apresentado para a ta- rent´eticas, par´afrases, e apostos (Urano, 2000; refa de Simplifica¸c˜aoLexical, podemos idealizar Bult´e et al., 2018). Essa redundˆanciade in- um fluxo de processamento para a grande tarefa forma¸c˜aoaumenta a coes˜aodo texto e, conse- de Adapta¸c˜aoLexical (Figura2), que tem como quentemente, torna-o mais compreens´ıvel (Cros- prop´ositodecidir quando elaborar ou simplificar sley et al., 2011). J´aa Simplifica¸c˜aoLexical se as palavras de um texto, segundo as necessida- realiza com a troca de palavras ou express˜oes des do leitor e cen´ariode uso do texto. Para por varia¸c˜oes(geralmente sinˆonimos)que podem um dado texto, ou senten¸ca: (i) identificam-se as ser entendidas por um maior n´umerode pessoas palavras complexas; (ii) decide-se qual a melhor (Stajnerˇ & Saggion, 2018). Ao utilizarmos pala- abordagem de adapta¸c˜aopara cada palavra (sim- vras menos frequentes/raras, n˜aoestamos apenas plifica¸c˜aoou elabora¸c˜ao);e (iii) adapta-se cada auxiliando o leitor a compreendˆe-la,mas tamb´em palavra complexa identificada, segundo a abor- a compreender todo o texto, que ficar´amais sim- dagem de adapta¸c˜aolexical selecionada. ples (Crossley et al., 2007, 2011). A Adapta¸c˜aoLexical ´e importante porque, para os leitores compreenderem o contexto do trecho que est˜aolendo, eles precisam relacionar 1Um exemplo deste tipo pode ser visto na Wikip´ediae o seu conhecimento l´exico-semˆantico para inferi- em Amancio(2011). rem o significado das palavras (de Sousa et al., Adapta¸c˜aoLexical Autom´atica em Textos Informativos do Portuguˆes Brasileiro Linguamatica´ – 5

2020). Quando o foco ´e um p´ublicoalvo es- A Se¸c˜ao2 apresenta trabalhos relacionados pec´ıfico como, por exemplo, crian¸cas, devemos da ´area de Adapta¸c˜ao Lexical e o estado da considerar que as limita¸c˜oes da compreens˜aolei- arte para as tarefas de Elabora¸c˜ao e Simpli- tora acarretam em uma dificuldade no estabele- fica¸c˜aoLexicais. A Se¸c˜ao3 apresenta a ´ultima cimento de rela¸c˜oessemˆanticas das palavras no vers˜aodo SIMPLEX-PB, um c´orpusde suporte texto. Essa dificuldade impossibilita os leito- `aAdapta¸c˜aoLexical que ao longo dos ´ultimos res desconsiderarem as informa¸c˜oesirrelevantes e anos foi evoluindo e hoje cont´em,al´emde ou- manterem as informa¸c˜oesrelevantes na mem´oria tras informa¸c˜oes:senten¸cas,suas palavras com- de trabalho (Henderson et al., 2013). Em re- plexas, sinˆonimosranqueados de acordo com sua sumo, as dificuldades no n´ıvel lexical acarretam complexidade pelo p´ublicoalvo (crian¸cas),e de- complica¸c˜oesna compreens˜aoglobal de um texto, fini¸c˜oescurtas para as palavras complexas. A evidenciando a importˆanciada adapta¸c˜aolexical Se¸c˜ao4 apresenta o levantamento de padr˜oesde de textos para certos p´ublicos(de Sousa et al., Elabora¸c˜aoLexical do tipo defini¸c˜ao,via an´alise 2020). de c´orpus,para apoiar a decis˜aode quando usar Elabora¸c˜aoLexical. A Se¸c˜ao5 apresenta os da- Simplificação Lexical tasets compilados (Se¸c˜ao5.1), a descri¸c˜aodos m´etodos desenvolvidos para Identifica¸c˜aode Pa- lavras Complexas (Se¸c˜ao5.2), a avalia¸c˜aodesses m´etodos, usando as m´etricasF1 e AUC (do inglˆes

Texto Original Identificação de Seleção de Texto Adaptado Area Under Curve ROC - tamb´emdo inglˆes Re- palavras complexas Abordagem de Adaptação Lexical ceiver Operating Characteristic) (Se¸c˜ao5.3), e

Elaboração Lexical como aplicamos esses m´etodos na tarefa de Sim- plifica¸c˜aoLexical no cen´ariodo p´ublicoinfan- Figura 2: Pipeline para a tarefa de Adapta¸c˜ao til, avaliando eles no dataset SIMPLEX-PB 3.0 Lexical. (Se¸c˜ao5.4). A Se¸c˜ao 5.5 apresenta o Adapt2Kids, um site para demonstrar a aplica¸c˜aodos m´etodos Este trabalho apresenta contribui¸c˜oesem trˆes e recursos de simplifica¸c˜aolexical avaliados neste das quatro etapas do pipeline de Adapta¸c˜aoLe- artigo. Por fim, a Se¸c˜ao6 apresenta as conclus˜oes xical, sendo elas: deste estudo e os trabalhos futuros. Identifica¸c˜ao de Palavras Complexas - Proposta de 12 m´etodos, contabilizando 153 2. Trabalhos Relacionados diferentes varia¸c˜oespara a tarefa de Identi- fica¸c˜ao de Palavras Complexas, avalia¸c˜ao e N˜aoh´amuitos trabalhos na literatura de PLN apresenta¸c˜aodos melhores resultados obtidos; sobre Adapta¸c˜ao Lexical, na atualidade. Ao An´alise de c´orpus para levantamento de inv´esdisso, tratam independentemente as tare- padr˜oes de Elabora¸c˜ao Lexical do tipo fas de Simplifica¸c˜aoe Elabora¸c˜aoLexicais, j´a defini¸c˜ao e apresenta¸c˜ao dos padr˜oes e que cada uma possui seus pr´opriosdesafios. O ocorrˆenciasidentificadas para apoiar a decis˜ao tutorial sobre Simplifica¸c˜aoTextual apresentado de quando usar Elabora¸c˜aoLexical; por Stajnerˇ e Saggion no Coling 2018 (Stajnerˇ & Saggion, 2018), inclusive, traz a tarefa de ela- Elabora¸c˜ao Lexical - Disponibiliza¸c˜ao do 2 bora¸c˜aocomo um dos m´odulosda Simplifica¸c˜ao c´orpus SIMPLEX-PB 3.0 contendo, al´em Textual, juntando a ela tamb´em a tarefa de dos recursos do SIMPLEX-PB 2.0 (Hartmann redu¸c˜ao/elimina¸c˜aode conte´udo. Neste artigo, et al., 2020), defini¸c˜oescurtas extra´ıdasde di- preferimos, entretanto, trat´a-lasde forma inde- cion´arioe revisadas manualmente, anota¸c˜oes pendente. de termos t´ecnicosextra´ıdasde dicion´ario,e m´etricaslingu´ısticasde complexidade lexical, O trabalho de Bult´eet al.(2018), descrito proporcionando tamb´emo uso do recurso em abaixo, foi, no melhor do nosso conhecimento, estudos de Elabora¸c˜aoLexical; e um desses raros casos que abordou a grande ta- refa de Adapta¸c˜aoLexical, desenvolvendo um pi- Simplifica¸c˜ao Lexical - Proposta de peline de Adapta¸c˜aoLexical para o Holandˆes. m´etodos para Simplifica¸c˜aoLexical e estabe- Primeiro, a complexidade de cada palavra ´e lecimento de um novo estado da arte (SOTA, estimada pela consulta da sua Idade de Aquisi¸c˜ao em inglˆes)para a tarefa aplicada no Portuguˆes em recursos psicolingu´ısticose a sua frequˆencia Brasileiro. no c´orpus Wablief, de holandˆes simplificado. 2https://github.com/nathanshartmann/SIMPLEX- Uma palavra ´ecomplexa se ela ultrapassar um PB-3.0 limiar pr´e-estabelecido dessas duas features. Os 6– Linguamatica´ Nathan Siegle Hartmann & Sandra Maria Alu´ısio sinˆonimospara a palavra complexa s˜aoconsul- vros infantis variou, pois a l´ınguavaria com o pas- tados no Cornetto (Vossen et al., 2013) e esses sar do tempo, e esse processo faz com que pala- s˜aoconsiderados mais simples quando a Idade vras caiam em desuso. A divergˆenciade palavras de Aquisi¸c˜aoe Frequˆenciaforem inferiores `apa- utilizadas chega a 42% comparando textos pro- lavra complexa. Por fim, um modelo de l´ıngua duzidos em 1.825 e textos produzidos em 1.925. ´eacionado para verificar se a palavra de subs- Essa diferen¸cade vocabul´arioindica que crian¸cas titui¸c˜aoselecionada se encaixa no contexto em no s´eculo21 podem encontrar dificuldades ao ler quest˜ao. Os autores elaboram: (i) as palavras esse tipo de material liter´ario.Nesse cen´ario, Tri- identificadas como dif´ıceisque n˜aoforam simpli- eschnigg & Hauff(2011) propuseram um m´etodo ficadas pelo sistema, (ii) as palavras compostas, de Elabora¸c˜aoLexical que busca a defini¸c˜aode e (iii) os nomes pr´oprios,enriquecendo o texto uma palavra dif´ıcil no Wiktionary3 e apresen- com informa¸c˜oes da Wikipedia (defini¸c˜oese links tam ela ao leitor, auxiliando as crian¸casnativas nas palavras). da l´ınguainglesa na leitura dessas hist´oriasdos s´eculospassados.

2.1. Trabalhos de Elabora¸c˜aoLexical 2.2. Trabalhos de Simplifica¸c˜aoLexical N˜aoh´amuitos trabalhos na ´areade Elabora¸c˜ao Textual que propuseram m´etodos computacio- Devlin & Tait(1998) coordenaram o projeto nais. Trabalhos da ´areada educa¸c˜aocom foco PSET (Practical Simplification of English Text), no ensino do inglˆescomo segunda l´ıngua(Tsang, o primeiro trabalho da literatura com foco na 1987; Yano et al., 1994; Urano, 2000) avaliaram simplifica¸c˜aoautom´aticade textos, para torn´a- o seu uso no aux´ılioda leitura em vez de auto- los acess´ıveis para pessoas com afasia. Os autores matizar a tarefa. Trˆestrabalhos que propuseram focaram na simplifica¸c˜aolexical de substantivos e m´etodos para a tarefa de Elabora¸c˜aoLexical s˜ao adjetivos complexos, apenas. Para a identifica¸c˜ao os de Mihalcea & Csomai(2007), Amancio(2011) de palavras complexas, os autores consultaram a e Trieschnigg & Hauff(2011). Esses trˆestraba- frequˆenciadas palavras no Oxford Psycholinguis- lhos fizeram uso de recursos obtidos da Web para tic Database (Quinlan, 1992). Para a sele¸c˜aode elaborar palavras complexas. palavras candidatas a substituir a palavra com- Em um cen´arioeducacional, ´eimportante que plexa, buscaram todos os sinˆonimosda palavra os alunos tenham um f´acilacesso `ainforma¸c˜ao complexa na WordNet (Fellbaum, 1998). 4 adicional relacionada ao material de estudo. O O projeto PorSimples (Alu´ısio& Gasperin, trabalho de Mihalcea & Csomai(2007) prop˜oe 2010) foi o pioneiro em simplifica¸c˜aolexical e um m´etodo de Elabora¸c˜aoLexical que pode ser sint´aticapara o Portuguˆes. O p´ublicoalvo do utilizado para relacionar parte do conte´udodo projeto foram adultos com baixa escolaridade. material escolar a enciclop´ediasou notas de aula, Os autores criaram uma lista de palavras simples por exemplo. O m´etodo proposto pelos autores, composta de palavras do Dicion´arioIlustrado de chamado de Wikify!, identifica conceitos impor- Portuguˆes(Biderman, 2003) para crian¸casde 6 a tantes em um texto e conecta esses conceitos a 11 anos, acrescida de uma lista de palavras dos uma p´aginarelacionada da Wikipedia, permi- textos do jornal Zero Hora, Se¸c˜ao Para seu Filho tindo ao leitor entender um termo ou conceito Ler e de palavras concretas do trabalho de Janc- desconhecido ou simplesmente se informar me- zura et al.(2007). Os autores definiram palavras lhor sobre o assunto. complexas como aquelas n˜aocontidas na lista de Amancio(2011) desenvolvou um trabalho de palavras simples. Elabora¸c˜aoLexical para adultos com baixa es- O trabalho de Bott et al.(2012) desenvolveu colaridade, no escopo do projeto PorSimples o sistema LexSiS, um sistema de Simplifica¸c˜ao (Alu´ısio& Gasperin, 2010). Os autores propu- Lexical baseada em substitui¸c˜aopor sinˆonimos, seram dois m´etodos de Elabora¸c˜aoLexical. O para textos em espanhol. Os autores tamb´em primeiro ´ebaseado em um modelo que gera per- modelaram as palavras do l´exicopor meio de mo- guntas que explicitam a liga¸c˜aoexistente entre o delagem vetorial treinada sobre um c´orpusde 8M verbo da senten¸ca(evocador) e suas constituintes de palavras extra´ıdoda Web. Primeiro, os au- (ou argumentos). O segundo modelo apresenta tores buscaram sinˆonimospara a palavra com- 5 defini¸c˜oespara Entidades Nomeadas a partir de plexa no OpenThesaurus . Ent˜ao,eles geraram consultas na Wikip´edia. 3https://www.wiktionary.org Trieschnigg & Hauff(2011) analisaram livros 4Simplifica¸c˜aoTextual do Portuguˆespara Inclus˜aoe de literatura infantil produzidos entre os anos Acessibilidade Digital. 1.800 e 1.925 e perceberam que a escrita desses li- 5http://openoffice-es.sourceforge.net/ Adapta¸c˜aoLexical Autom´atica em Textos Informativos do Portuguˆes Brasileiro Linguamatica´ – 7 uma representa¸c˜aovetorial para o 10-gram cen- um grande c´orpuspara treinamento do modelo trado na palavra complexa, de forma a modelar de embeddings. Foi usado o modelo de embed- o contexto em que ela ocorre. O substituto es- dings GloVe (Pennington et al., 2014) e os can- colhido ´eo sinˆonimocuja representa¸c˜aovetorial didatos a substituirem a palavra complexa eram tenha o maior valor de similaridade pelo cosseno aqueles com menor distˆanciado cosseno entre a com a representa¸c˜aodo contexto da palavra ori- embedding da palavra candidata e a da palavra ginal. Essa abordagem tamb´emobteve resulta- complexa. dos superiores a baselines que utilizavam apenas Apesar do aumento das iniciativas de pes- conhecimento lexical, selecionando o sinˆonimo quisas em Simplifica¸c˜aoLexical ap´osa SemE- mais frequente do OpenThesaurus como substi- val 2012 Text Simplification shared task, ainda tuto. LexSiS foi incorporado no sistema Sim- n˜aohavia ferramentas que dessem apoio ao de- plext (Saggion et al., 2015), que trata tamb´em senvolvimento de sistemas de Simplifica¸c˜aoLexi- a Simplifica¸c˜aoSint´aticapara o espanhol, e ´e cal ponta a ponta (como o pipeline apresentado composto por trˆes m´odulos: o m´odulode Sim- na Figura1). O trabalho de Paetzold & Spe- plifica¸c˜aoSint´atica, o m´oduloLexSiS, que faz cia(2015) veio suprir essa demanda com o sis- a Simplifica¸c˜aoLexical baseada em sinˆonimos, tema LEXenstein, um framework para desenvol- e um m´odulode Simplifica¸c˜aoLexical baseado vimento de sistemas para Simplifica¸c˜aoLexical. em regras que cobre simplifica¸c˜oesn˜aoresolvidas Em um trabalho subsequente (Paetzold & Spe- pelos m´odulosanteriores como normaliza¸c˜aode cia, 2017), os autores propuseram um m´etodo es- verbos de elocu¸c˜ao,redu¸c˜aodo conte´udode sen- tado da arte para a tarefa de Simplifica¸c˜aoLexi- ten¸cas,e redu¸c˜ao,explica¸c˜aoou normaliza¸c˜aode cal, aperfei¸coandoo m´etodo de Glavaˇs& Stajnerˇ informa¸c˜aonum´erica. (2015) e propondo um ranker, que recebe duas Kajiwara et al.(2013) desenvolveram um tra- palavras e retorna qual delas ´emais simples. balho em Simplifica¸c˜aoLexical para o Japonˆes. Sabe-se que crian¸cas est˜ao em fase de apren- dizado e exposi¸c˜ao`al´ıngua falada e escrita e, 3. O c´orpusSIMPLEX-PB 3.0 portanto, elas possuem um vocabul´ariomenor do que o dos adultos, em geral. Nesse sentido, O SIMPLEX-PB (Hartmann et al., 2018) (ou h´aa necessidade de adequar textos de alguns somente SIMPLEX) ´eum c´orpusoriginalmente gˆenerospara que as crian¸casestejam aptas a lˆe- concebido para avalia¸c˜aode m´etodos de Simpli- los. Os autores simplificaram textos jornal´ısticos fica¸c˜aoLexical em PortuguˆesBrasileiro, criado utilizando apenas palavras contidas no dicion´ario e disponibilizado ao p´ublicocomo um esfor¸co BVL (Basic Vocabulary to Learn)(Mutsuro & para fomentar a pesquisa na ´area. Ele cont´em Toshihiro, 2002), em que as palavras complexas 1.719 instˆanciassegundo a propor¸c˜aode palavras s˜aoas chaves (palavras de consulta) do dicion´ario de conte´udoencontradas no corpus (Hartmann e todas as palavras contidas na descri¸c˜aoda pa- et al., 2016): 56 % substantivos, 18% adjetivos, lavra complexa s˜aocandidatas a substitu´ı-la. 18% verbos e 6% adv´erbios.A partir dessa distri- O trabalho de Glavaˇs& Stajnerˇ (2015) apre- bui¸c˜ao,h´aainda uma subdivis˜aoigualmente dis- senta o sistema Light-LS, que trata a tarefa de tribu´ıdapara favorecer: palavras mais frequen- Simplifica¸c˜aoLexical por meio de uma aborda- tes, palavras com maior n´umerode sinˆonimose gem n˜aosupervisionada de Machine Learning. palavras com mais sentidos. Ao todo, 757 pala- Os autores advogam que o uso de c´orpussimpli- vras distintas foram identificadas como comple- ficados e recursos como wordnets para busca de xas para crian¸casem idade para cursar o Ensino sinˆonimosdificulta a implementa¸c˜aode sistemas Fundamental. de Simplifica¸c˜aoLexical naquelas l´ınguasque n˜ao O c´orpuscont´emuma lista de sinˆonimospara possuem c´orpus e recursos robustos como os en- cada palavra complexa. A gera¸c˜aodessa lista contrados para o inglˆes. Os autores ainda argu- de sinˆonimosfoi feita a partir de um processo mentam que n˜aodeveria ser necess´arioo uso de de anota¸c˜aorealizado por trˆesespecialistas em c´orpusespec´ıficospara a tarefa de Simplifica¸c˜ao lingu´ısticaque trabalham com crian¸cas.Dois de- Lexical, j´aque palavras simples tamb´ems˜aoen- les possuem mestrado e o terceiro possui dou- contradas em c´orpus de prop´ositogeral. Por- torado. Cada anotador filtrou, de uma lista de tanto, os autores prop˜oemo uso de word embed- sinˆonimospreviamente capturada do TeP (The- dings (Mikolov et al., 2013) para a tarefa de Sim- saurus eletrˆonicopara o Portuguˆes do Brasil) plifica¸c˜aoLexical. A abordagem dos autores ´ein- (Maziero et al., 2008), quais palavras eram apro- dependente de l´ınguae necessita unicamente de priadas para substituir a palavra complexa ori- ginal. Eles tamb´emsugeriram substitui¸c˜oesque thesaurus/ n˜aoforam listadas. O especialista doutor ano- 8– Linguamatica´ Nathan Siegle Hartmann & Sandra Maria Alu´ısio tou todas as frases e cada um dos especialistas ria uma cobertura completa. Portanto, opta- com mestrado anotou metade delas em um pro- mos por utilizar o Dicio6, um dicion´ariode por- cedimento duplo-cego. O Cohen Kappa (Cohen, tuguˆes contemporˆaneo, composto por mais de 1960) foi de 0,74 para o primeiro par de anota- 400 mil palavras e que, para cada palavra, apre- dores e 0,72 para o segundo par. senta a sua defini¸c˜ao, classifica¸c˜aogramatical, No entanto, a primeira vers˜aodo SIMPLEX etimologia, divis˜ao sil´abica, plural, sinˆonimos, possuia v´ariaslimita¸c˜oesque impediam sua apli- antˆonimos,transitividade verbal, conjuga¸c˜aode cabilidade, como palavras incorretamente marca- verbos e rimas. O Dicio comtempla 100% das das como sinˆonimospara uma palavra complexa palavras complexas do SIMPLEX. Fazendo uso em seu contexto, baixa quantidade de sinˆonimos do Dicio, recuperamos a defini¸c˜aode cada pala- e a ausˆenciada ordena¸c˜aodos sinˆonimospela sua vra complexa do SIMPLEX. Uma etapa de p´os- simplicidade. Assim, surgiu o SIMPLEX-PB 2.0 processamento foi necess´ariaa fim de garantir (Hartmann et al., 2020), uma vers˜aoampliada que a defini¸c˜aoinserida no SIMPLEX seja curta, e aprimorada do SIMPLEX que foi submetida a direta e simples, removendo apostos e ora¸c˜oesque v´ariasrodadas de anota¸c˜aomanual para captu- n˜aosejam as principais. rar com precis˜aoas necessidades de simplifica¸c˜ao de crian¸cas de escolas de periferia. O c´orpus 3.2. Anota¸c˜oesde termos t´ecnicos foi aprimorado com um incremento no n´umero de sinˆonimospara as palavras-alvos complexas Enriquecemos, ainda, o SIMPLEX com (7,31 sinˆonimosem m´edia) e a introdu¸c˜aoda anota¸c˜oes de quais palavras complexas s˜ao ordena¸c˜aodos sinˆonimospela sua simplicidade, termos t´ecnicos ou possuem um contexto es- produzidas pelo pr´opriop´ublico-alvo — crian¸cas pec´ıfico de aplica¸c˜ao. Para isso, consultamos entre 10 e 14 anos estudando em institui¸c˜oes o Priberam7, que retorna uma anota¸c˜ao e p´ublicasde periferia no Brasil. descri¸c˜ao do uso espec´ıfico de certas palavras Neste trabalho, disponibilizamos uma nova consultadas, por exemplo: vers˜aodo c´orpus,denominada SIMPLEX-PB 3.0. Nessa nova vers˜ao,o c´orpus foi enriquecido com Sangu´ıneo– [Liturgia cat´olica] features lingu´ısticas, proxies de complexidade Pano que serve para limpar o c´alice,na missa lexical. A nova vers˜ao do SIMPLEX ainda (purificador, sanguinho); conta com defini¸c˜oesde suas palavras comple- xas e anota¸c˜oesde termos t´ecnicos, informa¸c˜oes Cˆamara– [Anatomia] que fazem com que o c´orpustamb´empossa ser Cavidade ou espa¸coanat´omico utilizado para estudos em Elabora¸c˜aoLexical. (ex.: cˆamarado olho); Atualmente, o c´orpusconta com 52 colunas de Hardware – [Inform´atica] informa¸c˜ao. Um exemplo da estrutura¸c˜aodo Material f´ısicode um computador; SIMPLEX-PB 3.0 pode ser visto na Figura3e detalhes dos trˆes tipos de enriquecimento de da- Figurado – [Figurado] dos s˜aomostrados nas pr´oximasse¸c˜oes. D´ocil,brando.

Entendemos que essas anota¸c˜oespodem ser 3.1. Defini¸c˜oesde palavras complexas bons indicativos de quais palavras devem ser ela- boradas, mas um estudo com base em c´orpus´e Tomando como base os trabalhos de Mihalcea & necess´ariopara comprovar a hip´otese. Csomai(2007), Amancio(2011) e Bult´eet al. (2018), que trabalharam com a Elabora¸c˜aoLe- xical por meio da inser¸c˜aoda defini¸c˜aodas pala- 3.3. Features lingu´ısticasde complexidade vras complexas, decidimos estender o SIMPLEX lexical com defini¸c˜oescurtas para cada palavra com- Com o intuito de disponibilizar insumos ´uteis plexa, possibilitando assim o uso do recurso para para pesquisas nas ´areasde Identifica¸c˜aode Pala- estudos de Elabora¸c˜aoLexical. vras Complexas e Simplifica¸c˜aoLexical, enrique- Watanabe et al.(2010) mostrou que apro- cemos o SIMPLEX com 38 features lingu´ısticas ximadamente 73,5% dos artigos da Wikipedia implementadas neste trabalho e que j´aforam uti- em Portuguˆes(Wikip´edia)trazem a defini¸c˜aodo lizadas com sucesso por trabalhos da literatura. conceito chave do artigo logo na primeira sen- As features s˜ao: ten¸ca. No entanto, verificamos que nem todas as palavras complexas do SIMPLEX s˜aocontem- 6https://www.dicio.com.br pladas pela Wikip´edia,o que n˜aonos garanti- 7https://dicionario.priberam.org Adapta¸c˜aoLexical Autom´atica em Textos Informativos do Portuguˆes Brasileiro Linguamatica´ – 9

Figura 3: Recorte de dez linhas e seis colunas do SIMPLEX 3.0 para fins ilustrativos.

Contagem – Frequˆenciae diversidade contex- 4. Elabora¸c˜aoLexical tual8 das palavras e de seus lemas no c´orpus Leg2Kids (Hartmann & Alu´ısio, 2019) e no Intuitivamente, podemos supor que palavras da c´orpusde textos informativos infantis (Hart- l´ıngua geral devam ser simplificadas e as pala- mann et al., 2016); vras t´ecnicasou de conceitos enciclop´edicosde- vem ser elaboradas. O trabalho de Bult´eet al. Lexicais – Quantidade de caracteres e s´ılabas (2018), que propˆosum m´etodo para a decis˜ao das palavras e de seus lemas (Devlin & Tait, sobre qual abordagem de Adapta¸c˜aoLexical uti- 1998). Utilizamos o pacote Pyphen para lizar em cada caso de um texto, fez uso de Ela- c´alculodo n´umerode s´ılabas; bora¸c˜aoLexical somente para palavras compos- tas, nomes pr´opriose para aquelas palavras iden- Wordnet – Quantidade de sentidos, hi- tificadas como complexas mas que n˜aotiveram perˆonimos e hipˆonimos das palavras e de sinˆonimosmais simples encontrados na base lexi- seus lemas na OpenWordNet-PT (Paiva et al., cal Cornetto11. 2012; Crossley et al., 2011); Nesta se¸c˜ao, apresentamos uma primeira an´aliseem c´orpusde ocorrˆenciasde Elabora¸c˜ao Psicolingu´ısticas – Frequˆencia subjetiva9, Lexical por defini¸c˜aoe estudo de quais palavras idade de aquisi¸c˜ao(Age of Acquisition — AoA, do SIMPLEX-PB 3.0 est˜aopresentes entre essas em Inglˆes),concretude e imageabilidade das palavras elaboradas. palavras, do reposit´orio Psycholinguistic Pro- perties of Brazilian Portuguese10 (dos Santos et al., 2017), ou de seus lemas quando a pa- 4.1. An´alisede C´orpuspara casos de Ela- lavra n˜ao estiver no reposit´orio (Hartmann bora¸c˜aoLexical et al., 2018); Com o intuito de entender quais palavras devem Modelo de l´ıngua – A log10 probabilidade ser elaboradas para crian¸casdo Ensino Funda- das palavras e seus lemas em c´orpus,conside- mental, realizamos um estudo em um recorte do rando como contexto as 3 palavras preceden- c´orpusformado por mat´erias e artigos de no- tes, no c´orpusde Hartmann et al.(2016). vembro de 1990 a novembro de 2015 da revista CiˆenciaHoje das Crian¸cas(CHC)12, em busca Mais detalhes sobre as features lingu´ısticass˜ao de padr˜oesde Elabora¸c˜aoLexical, via defini¸c˜oes. apresentados na Se¸c˜ao 5.2.1. A CHC ´euma revista de divulga¸c˜aocient´ıfica para crian¸cas (entre 8 a 13 anos), criada em 1986 e editada pelo Instituto CiˆenciaHoje sob 8Diversidade contextual ´en´umerode documentos em que a palavra ou express˜aoocorre. a responsabilidade da Sociedade Brasileira para 9Frequˆenciasubjetiva ´ea estimativa do n´umerode ve- o Progresso da Ciˆencia(SBPC). zes que uma palavra ´eencontrada por indiv´ıduosem sua forma escrita ou falada. 11http://wordpress.let.vupr.nl/cornetto/. 10http://nilc.icmc.usp.br/portlex/ 12http://chc.org.br/ 10– Linguamatica´ Nathan Siegle Hartmann & Sandra Maria Alu´ısio

O trabalho de Alu´ısio(1995) mostra que tra- Para gera¸c˜ao das flex˜oes, fizemos uso do zer uma defini¸c˜aocurta ao lado de uma pala- UNITEX-DELAF (Dicion´ariode Palavras Sim- vra/termo ajuda na familiariza¸c˜aodo conceito ples Flexionadas para o Portuguˆes Brasileiro) da palavra do texto. A autora lista 5 tipos de (Muniz, 2004). defini¸c˜oes: Com base nos padr˜oesde Elabora¸c˜aoLexical por defini¸c˜aolistados, identificamos apenas 294 Defini¸c˜aoFormal – apresenta os elementos senten¸cascontendo a palavra complexa na janela semˆanticos termo, classe e caracteristicas; de at´e5 tokens anteriores ao padr˜aoidentificado. Defini¸c˜aoSemi-formal – similar `aformal, Fizemos esse relaxamento, pois desejavamos ter mas n˜aoapresenta a classe; uma maior cobertura inicial para depois filtrar- mos manualmente os casos v´alidos. Esse rela- Defini¸c˜aopor Substitui¸c˜ao introduz uma xamento n˜aofoi aplicado para os padr˜oes“pa- nova informa¸c˜aocom um significado similar lavra seguida por parˆentese” e “palavra seguida ao termo que foi introduzido, isto ´e,apresenta por travess˜ao”. uma reformula¸c˜aodo termo; Ap´os uma an´alise das ocorrˆencias identi- Definic˜aopor Ilustra¸c˜ao – pode ser sub- ficadas, verificamos que somente 41 das 294 classificada em Defini¸c˜aopor Exemplifica¸c˜aoe ocorrˆenciaseram de fato casos de Elabora¸c˜aoLe- Defini¸c˜aopor Particulariza¸c˜ao.Ambas as sub- xical de uma palavra complexa do SIMPLEX. classifica¸c˜oess˜aoorientadas ao uso de aposto O padr˜aomais comumente encontrado foi o uso mas a primeira traz um exemplo ao contexto e de parˆenteses e travess˜oespara introduzir a de- a segunda especifica o elemento para auxiliar fini¸c˜aode uma palavra (ver Tabela3), o que im- no seu entendimento; plica no uso mais comum de defini¸c˜oespor subs- titui¸c˜ao(ver Tabela4). Defini¸c˜aopor Estipula¸c˜ao – ´eencontrada O c´orpus compilado em Hartmann et al. unida aos outros tipos de defini¸c˜oes e seu (2016) ´e composto, por exemplo, por livros prop´osito´ecolocar limites de tempo, lugar, did´aticose revistas como a Superinteressante e o ´areade pesquisa ou de significado para a de- Mundo Estranho. Estas revistas, por defini¸c˜ao, fini¸c˜aoque a acompanha. apresentam conceitos e conhecimento de mundo para as crian¸cas,sendo necess´arioe, inclusive, ´e Analisamos 187 dos 2.503 artigos do c´orpus parte do prop´ositodo material apresentar e ex- CHC e 26 das 72 reedi¸c˜oesdisponibilizadas em plicar o significado de palavras/conceitos. busca de ocorrˆenciasde elabora¸c˜aopor defini¸c˜ao. Identificamos 126 ocorrˆenciasde defini¸c˜oes,dis- Entendemos que as palavras complexas do tribuidas ao longo de 59 artigos. Na Tabela1, SIMPLEX, extra´ıdasde dicion´ariosque s˜aoum s˜aoapresentadas as estat´ısticasde cada tipo de recorte do l´exicotrabalhado nos ciclos escolares Elabora¸c˜aoLexical por defini¸c˜aoidentificado. do Ensino Fundamental, limitaram nossa an´alise. Al´emdisso, realizamos a busca com uma lista de Com base nas 126 ocorrˆenciasde Elabora¸c˜ao apenas 31 padr˜oes(cf. na Tabela2), o que limi- Lexical identificadas manualmente na amostra do tou a identifica¸c˜aode certos tipos de defini¸c˜ao, c´orpusCHC, levantamos padr˜oesde elabora¸c˜ao como a formal, por exemplo, cujo padr˜aomais para facilitar a busca de defini¸c˜oes em novos comum tamb´emtraz casos n˜aodefinit´orios,como c´orpus. A Tabela2 lista os padr˜oesidentifica- mostrado nos dois exemplos ilustrativos a seguir: dos para cada tipo de Elabora¸c˜aoLexical por de- fini¸c˜ao. O menino ´elegal. (n˜ao´eum caso de Ela- Fazendo uso desses padr˜oes, buscamos no bora¸c˜aoLexical); c´orpus de textos informativos voltados para crian¸casdo Ensino Fundamental compilado em Os mamutes eram quadr´upedes enormes, Hartmann et al.(2016) por ocorrˆenciasde pa- muito pesados e pouco ag´eis.(exemplo de Ela- lavras complexas do SIMPLEX que casem com bora¸c˜aoLexical). os padr˜oesde elabora¸c˜aoelencados. Esse c´orpus cont´em124.993 senten¸cas,das quais 23.790 apre- Das 41 ocorrˆenciasde elabora¸c˜aoidentifica- sentam ocorrˆenciasde alguma das 715 palavras das, filtramos aquelas que possuem anota¸c˜aode dif´ıceis(ou de suas flex˜oes)do SIMPLEX. termo t´ecnicono c´orpusSIMPLEX. Ao todo, 395 das 1.582 entradas do SIMPLEX (aproximada- mente 25%) foram marcadas como termos com- plexos pela consulta ao Priberam. Verificamos que 22 ocorrˆenciasde elabora¸c˜aopossuem essa anota¸c˜ao,ou seja, aproximadamente metade dos Adapta¸c˜aoLexical Autom´atica em Textos Informativos do Portuguˆes Brasileiro Linguamatica´ – 11

Tipo de defini¸c˜ao Ocorrˆencias Exemplo em c´orpus Defini¸c˜aoFormal 60 A alavanca ´e simplesmente uma barra r´ıgidaapoiada sobre um ponto fixo. Defini¸c˜aopor Substitui¸c˜ao 25 (...) per´ımetro, isto ´e, qual ´eo resultado da soma dos lados do triˆangulo. Defini¸c˜aoSemi-formal 22 (...) compostos vol´ateis conhecidos como ´acidosgraxos de cadeia curta, ... Defini¸c˜aopor Substitui¸c˜ao+ Defini¸c˜aopor Estipula¸c˜ao 8 (...) Phalloceros, que pode ser traduzido como “pˆeniscom chifres” em grego... Defini¸c˜aoFormal + Defini¸c˜aopor Estipula¸c˜ao 4 Na mitologia grega, Medusa era um monstro com o rosto de mulher... Defini¸c˜aopor Ilustra¸c˜ao 3 (...) aves de rapina, como os gavi˜oes,as corujas e os falc˜oes... Defini¸c˜aoSemi-formal + Defini¸c˜aopor Estipula¸c˜ao 3 A sucuri-de-Maraj´o, como o nome j´adiz, habita a ilha de Maraj´o... (...) apresenta caracter´ısticastanto de dinossauros quanto de aves (...) Trata-se de Defini¸c˜aopor Ilustra¸c˜ao+ Defini¸c˜aopor Estipula¸c˜ao 1 uma esp´eciede dino-ave.

Tabela 1: Ocorrˆenciasde Elabora¸c˜aoLexical identificadas em estudo em amotra do c´orpusCHC.

Tipo de defini¸c˜ao Padr˜ao casos elaborados possuem a marca¸c˜aode termo ´ea ideia de t´ecnicono SIMPLEX. Temos um bom indicativo Defini¸c˜aoFormal ´econsiderado/(da) de que palavras t´ecnicascostumam ser elabora- s˜aoconsiderados/(das) das. Entretanto, esse estudo precisa ser apro- (´e/s˜ao)caracterizada(s) por (´e/s˜ao)caracterizado(s) por fundado via an´aliseem grandes c´orpusque te- Defini¸c˜aoSemi-formal pode ser definido(a) como nham defini¸c˜oesj´aanotadas, como o Newsela13, podem ser definidos(das) como por exemplo, mesmo sendo este na l´ınguainglesa. recebe esse nome isto ´e que quer dizer 5. Simplifica¸c˜aoLexical em outras palavras conhecido(a) como Defini¸c˜aopor Substitui¸c˜ao conhecidos(das) como Ap´oso sucesso da primeira shared task da tarefa chama(m) de de Identifica¸c˜aode Palavras Complexas (CWI “palavra seguida por parˆenteses” “palavra seguida por travess˜ao” – Complex Word Identification, em Inglˆes)no por exemplo SemEval de 2016, em 2018 aconteceu a se- Defini¸c˜aopor Exemplifica¸c˜ao tal como gunda edi¸c˜aoda tarefa na NAACL-HLT, no BEA tais como Workshop (Tetreault et al., 2018). Defini¸c˜aopor em particular Particulariza¸c˜ao A segunda edi¸c˜aoda CWI foi uma competi¸c˜ao Defini¸c˜aopor Semi-formal na qual os participantes poderiam participar de como o nome j´adiz com Particulariza¸c˜ao duas tarefas: (i) classificar automaticamente pa- Defini¸c˜aopor Substitui¸c˜ao lavras como sendo complexas, ou n˜ao, isto ´e, pode ser traduzido como com Estipula¸c˜ao uma tarefa de classifica¸c˜aobin´aria,ou (ii) pre- dizer o grau de complexidade de uma pala- Tabela 2: Padr˜oesde Elabora¸c˜aoLexical utili- vra, ou seja, uma tarefa de classifica¸c˜aoproba- zados na consulta de ocorrˆenciasde elabora¸c˜ao. bil´ıstica. A competi¸c˜aofoi disponibilizada com datasets para 4 l´ınguas(inglˆes,espanhol, alem˜ao Padr˜ao Ocorrˆencias e francˆes).Para a anota¸c˜aodesses datasets, 10 fa- “palavra seguida por parˆentese” 20 lantes nativos de cada l´ıngua e 10 n˜ao-nativos “palavra seguida por travess˜ao” 14 conhecido como 3 deveriam ler um par´agrafoe anotar as palavras conhecidas como 1 que consideravam dif´ıceis de serem compreen- por exemplo 1 didas por crian¸cas, falantes n˜aonativos e pes- ´econsiderado 1 soas com problemas de linguagem. Ao final, os ´econsiderada 1 datasets disponibilizavam senten¸cas(contextos), as palavras anotadas de cada senten¸ca e dois Tabela 3: Ocorrˆenciasde padr˜oesde Elabora¸c˜ao r´otulos: (i) o primeiro para a tarefa de classi- Lexical por defini¸c˜aode palavras complexas do fica¸c˜ao,com valor 1 caso a maioria dos anota- SIMPLEX em c´orpus. dores tivesse identificado a palavra como dif´ıcil, Tipo de defini¸c˜ao Ocorrˆencias e 0 caso contr´ario;e (ii) a m´ediadas anota¸c˜oes para a tarefa de classifica¸c˜aoprobabil´ıstica. Defini¸c˜aopor Substitui¸c˜ao 38 14 Defini¸c˜aoFormal 2 Com base na nossa experiˆenciano CWI 2018 Defini¸c˜aopor Exemplifica¸c˜ao 1 (Hartmann & dos Santos, 2018), em que obti- vemos a segunda melhor coloca¸c˜aona tarefa de Tabela 4: Ocorrˆenciasde padr˜oesde Elabora¸c˜ao classifica¸c˜aoe terceira melhor coloca¸c˜aona ta- Lexical por tipo de defini¸c˜aode palavras comple- refa de classifica¸c˜aoprobabil´ısticapara a l´ıngua xas do SIMPLEX em c´orpus. 13https://newsela.com/. 14Optamos por competir nas duas tarefas para a l´ıngua inglesa. 12– Linguamatica´ Nathan Siegle Hartmann & Sandra Maria Alu´ısio inglesa (Yimam et al., 2018), trouxemos tanto o mais alto n´ıvel. Com isso, a volumetria final dos conhecimento adquirido para o PortuguˆesBra- trˆesl´exicosindicativos dos anos escolares ´e: sileiro (PB), como as features utilizadas e os m´etodos que melhor desempenharam, realizando Dicion´arioTipo 1 – 1.363 palavras; as adapta¸c˜oesnecess´ariasem rela¸c˜aoaos recursos Dicion´arioTipo 2 – 6.836 palavras; dispon´ıveis. A discuss˜aosegue na Se¸c˜ao 5.2. No Brasil, atualmente, o Ensino Fundamen- Dicion´arioTipo 3 – 22.085 palavras; tal ´edividido em duas etapas – do 1º ao 5º ano, e do 6º ao 9º ano. Os ParˆametrosCurriculares O mapeamento do conhecimento adquirido no Nacionais (1998) subdividem essas duas fases em CWI 2018 para o cen´ariodo PB pˆodeser feito quatro ciclos: 1º ao 3º ano, 4º e 5º anos, 6º e gra¸casaos dicion´ariosdo PNLD, alinhados com 7º anos e 8º e 9º anos. O PNLD (Programa os n´ıveis escolares do Ensino Fundamental, to- Nacional do Livro Did´atico)15, criado em 1985 mando como premissa que uma crian¸caconsulta pelo Minist´erioda Educa¸c˜aodo Brasil, ´euma um dicion´arioquando ela desconhece uma pala- iniciativa de amplo impacto na educa¸c˜ao,pois vra. Assim, podemos assumir que os dicion´arios objetiva a escolha, aquisi¸c˜ao,e distribui¸c˜aogra- direcionados a um dado ano escolar contˆemas pa- tuita de livros did´aticospara os alunos das esco- lavras dif´ıceis/complexaspara as crian¸casneste las p´ublicas do Ensino Fundamental. Desde 2001, n´ıvel. o Programa passou a contemplar a lexicografia Sabendo, ainda, que h´auma progress˜aona- (da Gra¸caKrieger, 2012), selecionando e adqui- tural na aquisi¸c˜aolexical conforme os anos es- rindo dicion´ariospara os alunos dessa etapa de colares avan¸cam(Hartmann et al., 2016), ´ena- ensino. O PNLD, por sua vez, subdivide o En- tural afirmarmos que as palavras do dicion´ario sino Fundamental em 3 n´ıveis de complexidade do tipo 3 s˜aomais complexas que as palavras lexical, sendo eles: 1º ano (n´ıvel 1), 2º ao 5º anos dos dicion´ariosdo tipo 2, e que essas s˜aomais (n´ıvel 2) e 6º ao 9º anos (n´ıvel 3). Al´emdisso, complexas do que as palavras do dicion´ariosdo o PNLD disponibilizou uma s´eriede dicion´arios tipo 1. Para a tarefa de Simplifica¸c˜aoLexical, que contemplam o l´exicoa ser aprendido em cada podemos utilizar essas diferen¸caspara aprender- etapa escolar. O trabalho de Hartmann et al. mos, com uso de m´etodos de Machine Learning, (2016) selecionou uma amostra dos dicion´arios quais s˜aoas caracter´ısticas que determinam a recomendados pelo PNLD para compilar trˆesre- grada¸c˜aoda complexidade de uma palavra e, con- cursos lexicais representativos dos l´exicosdesses sequentemente, ranque´a-lade acordo com a sua n´ıveis escolares: complexidade frente a outras palavras.

Dicion´arioTipo 1 – Composto pelas entra- 5.1. Datasets compilados para a tarefa de das do Dicion´ario Caldas Aulete Turma do Co- Identifica¸c˜aode Palavras Complexas coric´o,Lexikon, contabilizando 1.371 palavras; Dicion´arioTipo 2 – Composto pelas en- Para capturarmos a complexidade lexical a par- tradas do Dicion´arioIlustrado de Portuguˆes, tir de diferentes vis˜oesdos nossos trˆesdicion´arios compilado por Maria Tereza Camargo Bider- que representam os n´ıveis de complexidade le- man, da Editora Atica´ e Dicion´arioEscolar xical do Ensino Fundamental apontados pelo da L´ınguaPortuguesa Ilustrado com a Turma PNLD, pareamos os dicion´ariospara rotular suas do S´ıtiodo Picapau Amarelo, Editora Globo, palavras como “f´aceis”ou “dif´ıceis”: Dicion´ario contabilizando 8.171 palavras diferentes; Tipo 1 com Dicion´arioTipo 2 (Tipo1-Tipo2); Di- cin´arioTipo 1 com Dicion´ario Tipo 3 (Tipo1- Dicion´arioTipo 3 – Composto pelas en- Tipo3); e Dicion´ario Tipo 2 com Dicion´ario tradas do Minidicion´arioContemporˆaneoda Tipo 3 (Tipo2-Tipo3). Os pareamentos dos di- L´ınguaPortuguesa de Caldas Aulete, Lexikon cion´arios nos d˜ao diferentes perspectivas para Editorial, contabilizando 29.970 palavras. mensurar a grada¸c˜ao da complexidade lexical conforme os anos escolares avan¸came, com isso, Eventuais interse¸c˜oesentre os l´exicosdos di- h´aum maior espa¸coa ser explorado por m´etodos cion´ariosforam tratadas. Se uma palavra ´ecom- de Machine Learning. plexa para um ano escolar T +2, ela naturalmente Para cada um desses pares, criamos datasets ´ecomplexa para os anos escolares T e T + 1. As- com as palavras dos dicion´ariose suas ocorrˆencias sim, nos casos de interse¸c˜oes,mantivemos a pa- em senten¸cas do c´orpus de Hartmann et al. lavra apenas no l´exicoreferente ao dicion´ariode (2016), um c´orpusde textos escritos para serem 15http://portal.mec.gov.br/seb/arquivos/pdf/ material de leitura de crian¸casno Ensino Funda- relatorio_internet.pdf mental. Para cada dataset, anotamos aquelas pa- Adapta¸c˜aoLexical Autom´atica em Textos Informativos do Portuguˆes Brasileiro Linguamatica´ – 13 lavras do dicion´ariode menor n´ıvel lexical como 5.2. Identifica¸c˜aode Palavras Complexas f´aceis(valor 0) e as palavras do dicion´ariode maior n´ıvel lexical foram anotadas como dif´ıceis 5.2.1. M´etodo com features lingu´ısticas (valor 1). As volumetrias dos datasets compila- Assim como no CWI 2018, desenvolvemos uma dos e a quantidade de instˆanciascom palavras solu¸c˜aode Machine Learning utilizando features f´aceise dif´ıceis s˜aoapresentados na Tabela5. lingu´ısticasa partir da palavra alvo e do seu con- Dois exemplos de instˆanciasdo dataset Tipo2- texto. Fazendo o devido mapeamento de recursos Tipo3 podem ser vistos na Tabela6. lexicais do PB dos quais calculamos as features, foi poss´ıvel replicar para o PB o conjunto de fea- tures que obtiveram boa performance no inglˆes: Dataset Instˆancias F´aceis Dif´ıceis Tipo1-Tipo2 201.902 100.525 101.377 Contagem – Frequˆenciae diversidade contex- Tipo1-Tipo3 142.157 100.525 41.632 tual das palavras e de seus lemas no c´orpus Tipo2-Tipo3 148.174 103.820 44.354 Leg2Kids (Hartmann & Alu´ısio, 2019) e no c´orpusde textos informativos infantis (Hart- Tabela 5: Estat´ısticasdos datasets compilados mann et al., 2016); para a tarefa de Identifica¸c˜aode Palavras Com- Lexicais – Quantidade de caracteres e s´ılabas plexas. das palavras e de seus lemas; Wordnet – Quantidade de sentidos, hi- perˆonimos e hipˆonimos das palavras e de Palavra do seus lemas na OpenWordNet-PT (Paiva et al., Senten¸ca E´ complexa? Dicion´ario 2012); O livro conta com a hist´oriade um salvamento 0 salvamento muito importante (...) Psicolingu´ısticas – Frequˆencia subjetiva, A data coincide com o dia de Nossa idade de aquisi¸c˜ao,concretude e imageabili- coincide 1 Senhora Aparecida (...) dade das palavras (dos Santos et al., 2017), ou de seus lemas quando a palavra n˜aoestiver Tabela 6: Exemplos de anota¸c˜aoda complexi- contabilizada no recurso; dade lexical para cria¸c˜aode dataset para a tarefa de Identifica¸c˜aode Palavras Complexas. Modelo de l´ıngua – A log10 probabilidade das palavras e seus lemas em c´orpus,conside- rando como contexto as trˆespalavras prece- Os datasets criados n˜aos˜aobalanceados, as- dentes, no c´orpusde Hartmann et al.(2016). sim, fizemos o balancemento dos dados por meio do subsampling da classe majorit´aria. Esse ba- A literatura tamb´emaponta as features sele- lanceamento consiste na sele¸c˜ao de instˆancias cionadas como bons indicativos de complexidade da classe com maior ocorrˆenciaat´eequilibrar- lexical. Devlin & Tait(1998) utilizou m´etricasde mos a volumetria com a da classe com menos contagem b´asicas,como a frequˆenciadas palavras ocorrˆencias(He & Garcia, 2009). e a quantidade de caracteres. Essas features se Dividimos nosso c´orpusem trˆespartes (Ta- mostraram bons proxies para a tarefa de Simpli- bela7): c´orpus de treinamento ( 60% das fica¸c˜aoLexical. De Belder & Moens(2010) ava- instˆancias), c´orpus de desenvolvimento≈ liou o uso da frequˆenciadas palavras na simpli- ( 20% das instˆancias) e c´orpus de teste fica¸c˜aode textos para crian¸casnativas da l´ıngua (≈20% das instˆancias). inglesa. Hartmann & Alu´ısio(2019) fez uso da ≈ frequˆenciae diversidade contextual para a tarefa de Identifica¸c˜aode Palavras Complexas no PB e Dataset Treino Desenvolvimento Teste tamb´emobteve bons resultados. Crossley et al. (2011) comenta que palavra pouco polissˆemicas Tipo1-Tipo2 130.818 37.050 34.884 Tipo1-Tipo3 52.044 15.500 15.716 (que possuem poucos sentidos) e palavras muito Tipo2-Tipo3 53.350 17.084 18.274 espec´ıficas(que possuem poucos hipˆonimosasso- ciados) s˜aoindicativos de complexidade lexical Tabela 7: Estat´ısticasdos datasets compilados e, assim, motiva o uso de features de wordnets. para as etapas de treino, desenvolvimento e teste Hartmann et al.(2018) utilizaram features psi- de m´etodos de classifica¸c˜aopara a tarefa de Iden- colingu´ısticasna tarefa de Simplifica¸c˜aoLexical. tifica¸c˜aode Palavras Complexas. Horn et al.(2014) e Paetzold & Specia(2016) utilizaram modelos de l´ınguana tarefa de Sim- plifica¸c˜aoLexical. 14– Linguamatica´ Nathan Siegle Hartmann & Sandra Maria Alu´ısio

Um total de 19 features foram desenvolvidas. dataset Tipo2-Tipo3. Como os datasets s˜aodis- Aplicamos o zipf score (log10(x)+3) para todas as tintos, n˜aonecessariamente as mesmas features features desenvolvidas, exceto aquelas de modelo foram selecionadas em todos eles. Na Tabela8, de l´ıngua. Com isso, iniciamos o treinamento de s˜aolistadas as features selecionadas para repre- m´etodos de Machine Learning com um total de sentar cada dataset. 38 features. Selecionamos quatro m´etodos de classifica¸c˜ao Sabemos que nem todas essas informa¸c˜oess˜ao baseados em Machine Learning: a Regress˜ao necessariamente ´uteis. Algumas podem n˜aoex- Log´ıstica(m´etodo tradicional e comumente utili- plicar o evento de uma palavra ser simples ou zado como baseline de solu¸c˜oes),o SVM, a Ran- complexa. Outras podem ser correlacionadas en- dom Forest (ensemble do tipo bagging) e XGBo- tre si, ou seja, redundantes. Portanto, rodamos ost (ensemble do tipo boosting). Foi realizada o m´etodo Boruta (Kursa et al., 2010; Kursa & otimiza¸c˜aobayesiana de hiper-parˆametrospara Rudnicki, 2010) de sele¸c˜aode vari´aveis. O Bo- todos os m´etodos com uso do pacote Hyperopt ruta verifica quais features s˜aomais informati- (Bergstra et al., 2013). vas para explicarem o evento de interesse do que uma vari´avel aleat´oriaproduzida a partir do em- 5.2.2. M´etodo com word embeddings baralhamento da pr´opria feature. Se uma feature explica um evento, ela est´acorrelacionada com Utilizamos a mesma arquitetura de rede neural o fato de uma palavra ser simples ou complexa, (ver Figura4) implementada para o m´etodo que mas se embaralharmos essa feature, ela perde a fez uso de word embeddings no CWI 2018, tendo correla¸c˜aocom o evento e passa a n˜aomais ex- sido apenas necess´ariaa substitui¸c˜aodo modelo plic´a-lo. O Boruta eliminou 8 features para os de word embeddings por um treinado no PB. trˆesdatasets. O fluxo de processamento de uma dada pala- A justificativa de escolher o Boruta dentre ou- vra pela rede neural ´eo seguinte: a embedding tros m´etodos de sele¸c˜aofoi devido ao fato do de uma palavra alimenta a entrada da rede, que algoritmo ser projetado para classificar o que o segue com 2 camadas densas de 100 neurˆonios artigo original chama de “problema todas rele- cada e fun¸c˜aode ativa¸c˜aoReLu (Nair & Hin- vantes”: encontrar um subconjunto de features ton, 2010). Por fim, uma ´ultimacamada com que s˜aorelevantes para uma determinada tarefa um ´uniconeurˆonioe fun¸c˜aode ativa¸c˜aosigm´oide de classifica¸c˜ao. Isso ´ediferente do “problema que retorna um score em termos de probabili- m´ınimo-otimo”, que ´eo problema de encontrar dade entre 0 e 1. Quanto mais pr´oximode 1, o subconjunto m´ınimode features que tˆemde- mais complexa ´ea palavra. A rede ´etreinada sempenho em um modelo. Embora os modelos por 10 ´epocas. de aprendizado de m´aquinaem produ¸c˜aodevam, em ´ultimaan´alise, visar a sele¸c˜aode features m´ınimas otimas, a tese de Boruta ´eque, para Camada Sigmóide fins de explora¸c˜ao,a otimiza¸c˜aom´ınimavai longe demais. Al´emdisso, o m´etodo ´erobusto `acor- rela¸c˜aode features. Em cen´arioscom uma quan- Camada ReLU tidade grande de features, tratar a correla¸c˜aode- las pode ser uma tarefa demasiadamente custosa. Camada ReLU Assim, utilizar o Boruta pode tamb´emacelerar a etapa de prepara¸c˜aode features, justificando sua escolha nesta pesquisa. Word Embeddings Em seguida, calculamos a Correla¸c˜aode Pe- arson entre cada par de feature para identificar- mos features correlacionadas. Nos casos em que audacioso a correla¸c˜aofoi maior ou igual a 0,9, mantivemos apenas uma feature do par analisado. Com isso, Figura 4: Arquitetura de rede neural com word removemos mais 14 features dos datasets Tipo1- embeddings de Hartmann & dos Santos(2018). Tipo2 e Tipo2-Tipo3; e 12 features do dataset Tipo1-Tipo3. Para o CWI 2018, fizemos uso do modelo de Assim, 16 features lingu´ısticas foram seleci- word embeddings GloVe (Pennington et al., 2014) onadas para o treinamento de m´etodos de Ma- com 100 dimens˜oes,sem avaliar varia¸c˜oesdo mo- chine Learning nos datasets Tipo1-Tipo2 e Tipo- delo com mais ou menos dimens˜oes(cada di- Tipo3; e 18 features foram selecionadas para o mens˜aopode ser interpretada como uma feature), nem outras abordagens de word embeddings. Adapta¸c˜aoLexical Autom´atica em Textos Informativos do Portuguˆes Brasileiro Linguamatica´ – 15

Tipo1-Tipo2 Tipo1-Tipo3 Tipo2-Tipo3 Idade de aquisi¸c˜ao Idade de aquisi¸c˜ao Idade de aquisi¸c˜ao Concretude Concretude Concretude Imageabilidade Imageabilidade Imageabilidade Modelo de l´ıngua Modelo de l´ıngua Modelo de l´ıngua Modelo de l´ıngualema Modelo de l´ıngua lema Modelo de l´ıngualema Frequˆenciasubjetiva Frequˆenciasubjetiva Frequˆenciasubjetiva Diversidade contextual no Leg2Kids Diversidade contextual no Leg2Kids Diversidade contextual no Leg2Kids Diversidade contextual no Leg2Kids lema Diversidade contextual no Leg2Kids lema Diversidade contextual no Leg2Kids lema Caracteres Caracteres Caracteres Caracteres do lema Caracteres do lema Caracteres do lema Frequˆenciano c´orpusinformativo infantil Frequˆenciano c´orpusinformativo infantil Frequˆenciano c´orpusinformativo infantil Frequˆenciano c´orpusinformativo infantil zipf Frequˆenciano c´orpusinformativo infantil zipf Frequˆenciano c´orpus informativo infantil zipf Sentidos Frequˆenciano c´orpusLeg2Kids Frequˆenciano c´orpusLeg2Kids Sentidos lema Frequˆenciano c´orpusLeg2Kids zipf Frequˆenciano c´orpusLeg2Kids zipf Sentidos lema zipf Sentidos Sentidos Sentidos zipf Sentidos lema Sentidos lema Sentidos lema zipf Sentidos zipf

Tabela 8: Features lingu´ısticasselecionadas de cada dataset para treinamento dos modelos de Iden- tifica¸c˜aode Palavras Complexas.

O trabalho de Hartmann et al.(2017) mostrou Saída que n˜ao´etrivial inferir a performance global de um modelo de word embeddings, ou seja, sua per- Camada sigmóide formance deve ser analisada caso a caso, tarefa a tarefa. Portanto, avaliamos aqui todos os mo- delos pr´e-treinados16 de word embeddings pelo grupo de pesquisa NILC (Hartmann et al., 2017), sendo eles: (Mikolov et al., 2013), Ele e seus colegas têm um plano audacioso Wang2Vec (Ling et al., 2015), GloVe (Penning- ton et al., 2014) e FastText (Joulin et al., 2016), Figura 5: Arquitetura de rede neural com em- com varia¸c˜oesde 50, 100, 300, 600 e 1.000 di- bedding contextual de Hartmann & dos Santos mens˜oes. No geral, os modelos com maior di- (2018). mensionalidade possuem maior custo computaci- onal, o que limita o seu uso, mas empiricamente foi observado que esse custo se paga por apre- retornando um score em termos de probabilidade sentarem melhores resultados quando aplicados entre 0 e 1. A rede ´etreinada por 10 ´epocas. (Hartmann et al., 2017). Atualmente, novos modelos para repre- senta¸c˜aocontextual foram propostos e um novo estado da arte para a representa¸c˜aocontextual 5.2.3. M´etodo com embedding contextual - Elmo foi estabelecido, sendo a rede LSTM precurssora No CWI 2018, avaliamos a LSTM (Gers et al., desses avan¸cos.O trabalho de Peters et al.(2018) 1999; Le et al., 2017), rede neural estado da arte propˆoso Elmo, o primeiro modelo de embeddings na ´epoca para representa¸c˜aocontextual. A rede contextuais da literatura. A arquitetura do Elmo neural foi pr´e-treinadacomo modelo de l´ınguano faz uso de uma rede convolucional para repre- One Billion Word dataset (Chelba et al., 2014), senta¸c˜aodos caracteres de cada palavra e, ent˜ao, o que lhe deu a capacidade de aprender a repre- duas redes LSTM que representam o contexto sentar senten¸cas, ou seja, contextos. analisado. Essa rede foi ent˜aoutilizada para a tarefa de Recentemente, Castro(2019) treinou dois mo- Identifica¸c˜aode Palavras Complexas (ver Figura delos Elmo para o PB. Um desses modelos foi 5). Usando palavra por palavra de uma senten¸ca, treinado numa coleta da Wikip´edia, contendo a rede ´ealimentada at´eatingir a palavra alvo de aproximadamente 267 milh˜oesde tokens. O ou- interesse (aquela que desejamos classificar como tro modelo foi treinado no c´orpusBrWac (Wag- f´acilou dif´ıcil). Nesse momento, fizemos uso da ner Filho et al., 2018), que ´eum c´orpus compilado representa¸c˜aoproduzida pela LSTM (embedding a partir de textos da web e cont´em2,7 bilh˜oesde que codifica o contexto analisado) e passamos tokens. Avaliamos ambos os modelos neste tra- essa embedding por uma camada composta por balho. um ´uniconeurˆonio e fun¸c˜aode ativa¸c˜aosigm´oide, A embedding produzida pelo Elmo cont´em trˆesdimens˜oescom 1.024 valores cada. Segundo 16nilc.icmc.usp.br/embeddings os autores do artigo original, especula-se que 16– Linguamatica´ Nathan Siegle Hartmann & Sandra Maria Alu´ısio a primeira dimens˜aocaptura informa¸c˜oesmor- Neste trabalho, avaliamos o uso de ambas as fol´ogicasdado o seu processamento no n´ıvel dos embeddings do BERT (Base e Large) na tarefa de caracteres das palavras; a segunda camada cap- Identifica¸c˜aode Palavras Complexas. Fazemos tura informa¸c˜oessint´aticas; e a terceira camada uso da mesma arquitetura de rede neural utili- captura informa¸c˜oessemˆanticas. Apesar da ta- zada com as embeddings do Elmo, substituindo refa de Identifica¸c˜aode Palavras Complexas ter essas embeddings pelas produzidas pelo BERT. um alto car´atermorfol´ogico,o contexto no qual a palavra est´a inserido ´e altamente relevante. Logo, avaliamos aqui o uso da representa¸c˜aode 5.3. Avalia¸c˜ao dos M´etodos propostos cada camada independentemente, bem como o para Identifica¸c˜aode Palavras Com- uso agregado das trˆes camadas (concatena¸c˜ao plexas delas) e ainda a m´ediadas camadas. Fazemos uso da mesma arquitetura de rede neural utili- Todo m´etodo de classifica¸c˜aobin´aria(aquele que zada com as embeddings da LSTM no CWI 2018, classifica uma instˆanciacomo 0 ou 1) entrega um substituindo essas embeddings pelas produzidas n´umeroreal (um score) entre 0 e 1, assim como pelo Elmo. a tarefa de classifica¸c˜aoprobabil´ıstica do CWI 2018. A convers˜aodesse score para os valores 0 ou 1 (uma tarefa de classifica¸c˜aotradicional da 5.2.4. M´etodo com embedding contextual - BERT literatura) ´efeita a partir de um ponto de de- cis˜ao(comumente, esse valor ´e0,5), em que valo- As redes neurais recorrentes, como a LSTM e a res abaixo do ponto de decis˜aos˜aoarredondados GRU (Cho et al., 2014), que conseguiram grande para 0 e os valores iguais ou acima s˜aoarredon- destaque na literatura por possuirem a capaci- dados para 1. dade de representar um contexto e terem inclu- Para ordenarmos uma lista de palavras pela sive inspirado a cria¸c˜aodo Elmo, possuem uma sua simplicidade, precisamos fazer uso dos scores limita¸c˜aopara representar sequˆenciaslongas (De- gerados pelo modelo e n˜aodas predi¸c˜oesarredon- vlin et al., 2018). Isso se d´aporque essas re- dadas. Para tanto, analisamos a m´etricaAUC, des possuem um conceito de mem´oriae, para pois ela nos d´auma interpretabilidade quanto a continuarem mantendo o contexto atual proces- qualidade da ordena¸c˜aodos scores de predi¸c˜aoda sado (mem´oriacurta), elas acabam deixando de complexidade de cada palavra: ´eesperado que representar as palavras mais antigas do texto palavras simples possuam um score menor que (mem´orialonga). A mem´oriadessas redes limita os das palavras complexas. Al´emde averiguar a seu uso na representa¸c˜aode senten¸caslongas e, qualidade da ordena¸c˜ao,a AUC ´euma m´etrica principalmente, par´agrafosou texto. de avalia¸c˜aoda qualidade de classificadores pois, Para suprir essa deficiˆencia, o trabalho de se os scores preditos est˜aoordenados pela com- Vaswani et al.(2017) introduziu um novo con- plexidade das palavras, podemos ter um ponto de ceito de rede neural: a Rede com Aten¸c˜ao.Essa decis˜aopara arredondar esses scores, mapeando rede possui um mecanismo que verifica, para as predi¸c˜oespara as classes “f´acil”(valor 0) ou cada palavra, qual a sua relevˆanciana repre- “dif´ıcil”(valor 1). senta¸c˜aode todo o conte´udoprocessado (sen- Calculamos tamb´ema m´etricaF1, por ela ser ten¸ca,par´agrafoou texto). Esse conceito moti- a m´etricamais utilizada na avalia¸c˜aode classifi- vou o trabalho de Devlin et al.(2018), que intro- cadores. Para o c´alculoda F1, fazemos uso do duziu o BERT, um novo modelo de embedding ponto de decis˜aoque maximiza a m´etricano da- contextual. Juntamente com o artigo, os auto- taset de desenvolvimento. As m´etricasAUC e res disponibilizaram dois modelos pr´e-treinados F1 s˜aoreportadas nos datasets de teste, que s˜ao em um c´orpus composto pelas Wikipedias de aqueles n˜aoutilizados no treinamento dos mo- 104 l´ınguas: o BERT Base, modelo treinado a delos nem na identifica¸c˜aodo melhor ponto de partir de uma rede neural com 12 camadas e decis˜ao. que produz uma embedding de 768 valores; e o As performances dos m´etodos com features BERT Large, uma rede neural mais profunda, lingu´ısticass˜aoapresentadas na Tabela9. Nos com 24 camadas, e que produz uma embedding trˆes datasets, os m´etodos foram capazes de clas- de 1.024 valores. sificar a complexidade das palavras com uma alta Recentemente, Souza et al.(2019) treinou es- acertividade. Os m´etodos de ensemble foram os sas duas vers˜oesdo BERT no c´orpusBrWAC que desempenharam melhor, apesar da boa per- (Wagner Filho et al., 2018), o mesmo utilizado formance dos m´etodos tradicionais. Os melhores para treinamento de uma das embeddings do resultados nos trˆes datasets foram obtidos pelo Elmo para o PB, e disponibilizou os modelos. m´etodo XGBoost, o que ´ede se esperar, dado que Adapta¸c˜aoLexical Autom´atica em Textos Informativos do Portuguˆes Brasileiro Linguamatica´ – 17 mais da metade das melhores solu¸c˜oesem com- Dataset Word2Vec Wang2Vec FastText GloVe peti¸c˜oesdo Kaggle (at´emeados de 2016, pelo me- AUC F1 AUC F1 AUC F1 AUC F1 SkipGram 600 SkipGram 300 CBOW 600 GloVe 600 Tipo1-Tipo2 nos) foram obtidas com uso desse m´etodo (Chen 0,88 0,86 0,92 0,86 0,94 0,87 0,89 0,81 SkipGram 300 SkipGram 600 SkipGram 1000 GloVe 600 & Guestrin, 2016). Tipo1-Tipo3 0,95 0,88 0,97 0,90 0,98 0,94 0,98 0,92 SkipGram 600 SkipGram 1000 SkipGram 1000 GloVe 600 Tipo2-Tipo3 Dataset Reg. Log´ıstica SVM R. Forest XGBoost 0,84 0,79 0,84 0,77 0,88 0,81 0,91 0,83 AUC F1 AUC F1 AUC F1 AUC F1 Tipo1-Tipo2 0,82 0,75 0,83 0,77 0,88 0,79 0,93 0,84 Tabela 10: Performance dos m´etodos treinados Tipo1-Tipo3 0,97 0,91 0,97 0,92 0,99 0,95 0,99 0,96 Tipo2-Tipo3 0,88 0,78 0,87 0,78 0,89 0,79 0,91 0,81 com word embeddings na tarefa de Identifica¸c˜ao de Palavras Complexas. Tabela 9: Performance dos m´etodos treina- dos com features lingu´ısticasna tarefa de Identi- senta¸c˜aodos resultos dos modelos de word em- fica¸c˜aode Palavras Complexas. beddings, apresentamos aqui apenas os resultados dos melhores experimentos para cada um dos dois Os resultados dos modelos treinados com uso modelos pr´e-treinadosde embeddings do Elmo. de word embeddings como features s˜aoapresen- Por unanimidade, os melhores modelos foram tados na Tabela 10. Como avaliamos 5 varia¸c˜oes aqueles que fizeram uso da concatena¸c˜aodas trˆes de dimensionalidade (50, 100, 300, 600 e 1.000 di- camadas de embeddings do Elmo. Isso mostra mens˜oes)de 4 diferentes t´ecnicaspara gera¸c˜aode que a mensura¸c˜aoda complexidade lexical de word embeddings (Word2Vec, Wang2Vec, GloVe uma palavra extrapola o n´ıvel morfol´ogico,de- e FastText) em trˆes datasets diferentes, totaliza- pendendo tamb´emda validade da palavra no con- mos o treinamento e teste de 60 modelos. Consi- texto inserido. Esse resultado est´aalinhado com derando a volumetria de resultados produzidos, as quest˜oeslevantadas nos trabalhos Henderson optamos por apresentar somente o melhor resul- et al.(2013) e de Sousa et al.(2020), em que ar- tado de cada t´ecnicade nos trˆes gumentam sobre a importˆanciada manuten¸c˜ao datasets de teste. de um l´exicoadequado ao p´ublicoalvo e que a Percebemos que n˜aohouve a predominˆancia n˜aocompreens˜aodesse l´exicopode levar o lei- de t´ecnicade word embedding entre os modelos tor a n˜aocompreender o contexto lido como um que desempenharam melhor. Para os datasets todo. Tipo1-Tipo2 e Tipo1-Tipo3, os modelos que uti- lizaram FastText (CBOW com 600 dimens˜oese Dataset Elmo Wikip´edia Elmo BrWac SkipGram com 300 dimens˜oes,respectivamente) AUC F1 AUC F1 3 camadas concatenadas 3 camadas concatenadas obtiveram os melhores resultados. Para o dataset Tipo1-Tipo2 0,98 0,94 0,98 0,92 Tipo2-Tipo3, o melhor resultado foi obtido pelo 3 camadas concatenadas 3 camadas concatenadas Tipo1-Tipo3 modelo que utilizou GloVe com 600 dimens˜oes. 0,99 0,94 0,97 0,90 3 camadas concatenadas 3 camadas concatenadas Tipo2-Tipo3 Essa n˜aopredominˆanciaest´aalinhada com os re- 0,96 0,89 0,95 0,84 sultados de Hartmann et al.(2017), que mostrou a n˜aotrivialidade em inferir a performance global Tabela 11: Performance dos m´etodos treina- de uma word embedding, fazendo-se necess´ariaa dos com embeddings do Elmo na tarefa de Iden- avalia¸c˜aodo seu uso em cada tarefa de interesse. tifica¸c˜aode Palavras Complexas. Em rela¸c˜ao `a dimensionalidade das embed- dings utilizadas, os melhores modelos fizeram uso Os resultados dos m´etodos treinados com em- de embeddings com 300 dimens˜oesou mais. Em beddings geradas pelo BERT s˜aoapresentados na sua maioria, os modelos que desempenharam me- Tabela 12. Como aqui n˜aohouve muitas com- lhor utilizaram embeddings de 600 ou 1.000 di- bina¸c˜oesde experimentos, apresentamos as per- mens˜oes,o que refor¸caa maior informatividade formances de todos os 6 modelos treinados. Os das embeddings com mais dimens˜oes. melhores resultados nos trˆes datasets foram obti- Os resultados dos m´etodos treinados com em- das pelas embedding do BERT Large, o que ´ede beddings do Elmo s˜aoapresentados na Tabela se esperar, j´aque a rede neural usada no treina- 11. Treinamos modelos com uso da primeira, se- mento dessas embeddings possui o dobro de ca- gunda e terceira camadas de embedding produzi- madas em rela¸c˜aoao BERT Base, o que lhe d´a das pelo Elmo, bem como com a concatena¸c˜aoe maior poder de aprendizado. m´ediadessas camadas. Avaliamos dois modelos Na Tabela 13, apresentamos o consolidado dos pr´e-treinadosde embeddings do Elmo, um trei- m´etodos que melhor desempenharam em cada nado na Wikip´ediae outro treinado no BrWac. uma das 4 categorias de features avaliadas: featu- Isso totaliza 30 modelos treinados e avaliados em res lingu´ısticas, word embeddings, as embeddings nossos trˆes datasets. Assim como feito na apre- contextuais do Elmo e as do BERT. 18– Linguamatica´ Nathan Siegle Hartmann & Sandra Maria Alu´ısio

Features Word Dataset Elmo BERT Dataset BERT Base BERT Large Lingu´ısticas Embed. AUC F1 AUC F1 AUC F1 AUC F1 AUC F1 AUC F1 Tipo1-Tipo2 0,93 0,84 0,94 0,87 0,98 0,94 0,93 0,86 Tipo1-Tipo2 0,91 0,83 0,93 0,86 Tipo1-Tipo3 0,99 0,96 0,98 0,94 0,99 0,94 0,97 0,92 Tipo1-Tipo3 0,92 0,86 0,97 0,92 Tipo2-Tipo3 0,91 0,81 0,91 0,83 0,96 0,89 0,93 0,86 Tipo2-Tipo3 0,91 0,84 0,93 0,86 Tabela 13: Performance dos melhores m´etodos de cada categoria explorada na tarefa de Identi- Tabela 12: Performance dos m´etodos treinados fica¸c˜aode Palavras Complexas. com embeddings do BERT na tarefa de Identi- fica¸c˜aode Palavras Complexas. que o BERT tenha a capacidade de capturar as rela¸c˜oescontextuais em que a palavra est´ain- Consideramos a m´etricaAUC na sele¸c˜aodo serida, o Elmo ainda possui um alto teor mor- m´etodo com melhor performance. Em caso de fol´ogicoque vai al´emdas capacidades do BERT. empate, selecionamos o m´etodo que obteve maior valor de F1. 5.4. Aplica¸c˜ao dos m´etodos de Identi- Os m´etodos treinados com uso das embeddings fica¸c˜aode Palavras Complexas na ta- obtidas pelo Elmo obtiveram, consistentemente, refa de Simplifica¸c˜aoLexical os melhores resultados nos trˆes datasets. Nossa leitura desses resultados remete ao trabalho de Segundo os m´etodos mais bem sucedidos da lite- Hartmann & dos Santos(2018), que contrasta ratura de Simplifica¸c˜aoLexical, para simplificar- as abordagens de Feature Engineering: engenha- mos uma palavra devemos identificar sinˆonimos ria de features, ou seja, a constru¸c˜aomanual e ranque´a-lospela sua adequa¸c˜aoao contexto e, de vari´aveis que representem o evento desejado; claro, pela sua simplicidade (Paetzold & Specia, e Feature Learning: o aprendizado autom´atico 2017; Stajnerˇ et al., 2019). Assim, propomos a das informa¸c˜oes representativas do evento de aplica¸c˜aodos m´etodos de Identifica¸c˜aode Pala- interesse. vras Complexas, desenvolvidos neste trabalho, na Em rela¸c˜ao`asetapas de Identifica¸c˜aode Pa- tarefa de Simplifica¸c˜aoLexical, j´aque eles levam lavras Complexas e Simplifica¸c˜aoLexical, tra- tanto a complexidade de uma palavra quanto o balhos recentes tˆemmostrado que m´etodos que seu contexto em considera¸c˜ao. fazem uso de Feature Learning est˜aodesempe- Para avalia¸c˜aoda tarefa de Simplifica¸c˜aoLe- nhando melhor do que os m´etodos que utilizam xical, fazemos uso do SIMPLEX-PB 3.0. Como Feature Engineering (Glavaˇs& Stajnerˇ , 2015; Pa- descrito na Se¸c˜ao3, a nova vers˜ao do SIM- etzold & Specia, 2017; Hartmann & dos Santos, PLEX passou por uma etapa de ordena¸c˜aodos 2018; Stajnerˇ et al., 2019). Esse cen´arioest´a sinˆonimosdas palavras complexas, realizada pelo alinhado com os resultados obtidos nesta ava- pr´opriop´ublicoalvo - crian¸cascursando o Ensino lia¸c˜ao.Ainda assim, ´eimportante destacar a boa Fundamental. Sabendo quais palavras s˜aocom- performance dos m´etodos que utilizam features plexas, qual o contexto em que as palavras est˜ao lingu´ısticas.Esses m´etodos obtiveram resultados inseridas e a ordena¸c˜aodos sinˆonimos,podemos pr´oximos(em alguns cen´ariosmelhores, em ou- avaliar quais m´etodos produzem resultados mais tros piores) aos dos m´etodos de word embeddings alinhados com a expectativa das crian¸cas. Para e tamb´emdo BERT. isso, embaralhamos as palavras complexas entre Em um primeiro momento, poder´ıamosespe- os seus sinˆonimose predizemos a complexidade rar que os modelos que fizeram uso das embed- das listas de palavras com os melhores m´etodos dings do BERT obteriam os melhores resulta- obtidos na Se¸c˜ao 5.3. dos em nossos experimentos, j´aque esse modelo Nosso m´etodo com features lingu´ısticasrepre- de embeddings contextuais veio suprir limita¸c˜oes senta a abordagem cl´assica de Simplifica¸c˜aoLe- que persistem no modelo do Elmo. No entanto, xical (Devlin & Tait, 1998; Alu´ısio& Gasperin, vale novamente a ressalva de que ´edif´ıcilinferir 2010), que at´eo inic´ıo da segunda d´ecadado a performance global de uma embedding (agora s´eculo,representou o que havia de melhor na li- extrapolando para as embeddings contextuais). teratura. Nosso m´etodo que faz uso de word em- Enquanto o BERT ´e altamente contextual, j´a beddings representa uma evolu¸c˜aodo trabalho de que foi desenvolvido para melhor representar tex- Glavaˇs& Stajnerˇ (2015) que, pela primeira vez, tos longos em rela¸c˜aoaos modelos anteriores, o obteve resultados melhores do que aqueles que Elmo nos mune de informa¸c˜oesmorfol´ogicas (pri- faziam uso de features lingu´ısticase mostrou o meira camada), al´emde informa¸c˜oescontextuais potencial da abordagem de Feature Learning. Os (segunda e terceira camadas). Assim, por mais m´etodos que fazem uso das embeddings contex- Adapta¸c˜aoLexical Autom´atica em Textos Informativos do Portuguˆes Brasileiro Linguamatica´ – 19 tuais do Elmo e do BERT representam o atual M´ediade todos os modelos treinados no data- est´agiodo PLN e, como apresentado por Stajnerˇ set Tipo1-Tipo3; et al.(2019), s˜aoos com maior potencial para a M´ediade todos os modelos treinados no data- tarefa de Simplifica¸c˜aoLexical. set Tipo2-Tipo3. Nossos m´etodos s˜aocomparados com 5 base- lines, sendo eles: A Tabela 14 apresenta os resultados do nosso Frequˆencia da palavra no c´orpus Leg2Kids experimento, avaliando os m´etodos de Identi- (Hartmann & Alu´ısio, 2019); fica¸c˜aode Palavras Complexas na tarefa de Sim- plifica¸c˜aoLexical. Todos os m´etodos foram ava- Frequˆencia da palavra no c´orpus de textos liados em 4 crit´erios: informativos para crian¸casdo Ensino Funda- mental (Hartmann et al., 2016); Top 1 – A palavra ranqueada como mais sim- ples coincide com a palavra identificada como Diversidade Contextual da palavra no c´orpus mais simples pelas crian¸cas; Leg2Kids; Top 1 e 2 – A palavra ranqueada como mais Idade de Aquisi¸c˜aoda palavra (dos Santos simples est´aentre as duas palavras mais sim- et al., 2017); ples identificadas pelas crian¸cas; M´etodo de Glavaˇs& Stajnerˇ (2015). Top 1, 2 e 3 – A palavra ranqueada como A frequˆencia e diversidade contextual s˜ao mais simples est´aentre as trˆespalavras mais m´etricasconhecidas por serem bons proxies de simples identificadas pelas crian¸cas; simplicidade, como atestado por Hartmann & ρ – Correla¸c˜aode Spearman entre o ranking Alu´ısio(2019). Para ambas as m´etricas,fazemos de palavras produzido e o ranking esperado sua consulta no c´orpusLeg2Kids, um c´orpus de pelas crian¸cas.Valores pr´oximosa -1 indicam legendas de desenhos animados e filmes do gˆenero correla¸c˜aoinversa, valores pr´oximosa zero in- familiar e, para a frequˆencia,tamb´emfazemos dicam a falta de correla¸c˜aoe valores pr´oximos sua consulta no c´orpusde textos informativos a 1 indicam correla¸c˜aoperfeita. voltados para crian¸casdo Ensino Fundamental. A idade de aquisi¸c˜ao´eoutro proxy de simplici- Ao analisarmos a correla¸c˜aode Spearman (ρ) dade (Hartmann et al., 2018) e tamb´emo utili- dos nossos resultados, percebemos que, em linhas zamos como baseline. Por fim, para termos um gerais, os valores est˜aomuito pr´oximosa zero, m´etodo robusto para compara¸c˜ao,implementa- o que indica falta de correla¸c˜aocom o ranquea- mos a solu¸c˜aode Glavaˇs& Stajnerˇ (2015), que mento produzido pelas crian¸cas. No entanto, ´e ranqueia os sinˆonimospela similaridade pelo cos- importante destacarmos que a correla¸c˜aoobtida seno entre a embedding Glove de 300 dimens˜oes entre as pr´opriascrian¸casno SIMPLEX foi muito dos sinˆonimoscom a da palavra complexa. baixa (Hartmann et al., 2020). Nas instˆanciasem Aplicamos todos os nossos m´etodos individu- que 2 crian¸casranquearam a palavra complexa e almente, ranqueando as palavras e comparando- seus sinˆonimos, o ρ foi de 0,05. J´anos casos em os com a ordena¸c˜ao fornecida pelas crian¸cas. que 3 crian¸casranquearam uma mesma instˆancia, Tamb´em avaliamos algumas combina¸c˜oes de o ρ foi de 0,16. Assumindo o ρ das crian¸cascomo m´etodos, conceito aplicado por Hartmann et al. um upperbound, n˜ao´eesperado que tenhamos (2018), ao calcularmos o ranking m´ediode dife- um ρ com o ranqueamento das crian¸casmaior rentes solu¸c˜oes. A combina¸c˜aode modelos visa do que as crian¸casobtiveram entre elas. avaliar se um cen´ariodesempenha melhor do que Sabemos que, durante a anota¸c˜aodo SIM- outro e tamb´emse o uso combinado desses mo- PLEX, as crian¸cas concordaram em 81,5% das delos aumenta a performance geral da predi¸c˜ao. palavras ranqueadas como as mais simples e em Os cen´ariosde combina¸c˜aode m´etodos s˜ao: 58,5% das 2 palavras mais simples. Nesse cen´ario de maior concordˆanciaentre as crian¸cas,temos M´ediados modelos com features lingu´ısticas mais garantias para compara¸c˜aoda performance (modelos com Feature Engineering); das nossas predi¸c˜oesem rela¸c˜aoa expectativa das crian¸cas. M´edia dos modelos com uso de embeddings Analisando o Top 1, o baseline que melhor de- (word embeddings, Elmo e BERT – Feature Le- sempenhou foi a Idade de Aquisi¸c˜ao,ainda que arning); por uma margem muito pequena. Esse resul- M´ediade todos os modelos treinados no data- tado est´acorrelacionado com os pr´opriosciclos set Tipo1-Tipo2; do Ensino Fundamental, pois conforme a idade 20– Linguamatica´ Nathan Siegle Hartmann & Sandra Maria Alu´ısio

Modelo Categoria Top 1 Top 1 ou 2 Top 1, 2 ou 3 ρ M´ediaTipo2-Tipo3 M´ediados rankings 0.392 0.640 0.817 0.155 M´ediaTipo1-Tipo2 M´ediados rankings 0.387 0.646 0.811 0.164 M´ediaTipo1-Tipo3 M´ediados rankings 0.375 0.630 0.812 0.129 M´edia M´ediados rankings 0.359 0.606 0.804 0.094 Elmo Tipo1-Tipo2 Elmo Wikipedia 0.354 0.623 0.809 0.115 M´ediaEmbeddings M´ediados rankings 0.352 0.638 0.811 0.046 Lingu´ısticasTipo2-Tipo3 XGBoost 0.350 0.638 0.809 0.051 M´ediaElmo M´ediados rankings 0.350 0.616 0.809 0.115 BERT Tipo2-Tipo3 BERT Large 0.349 0.640 0.821 0.082 Lingu´ısticasTipo1-Tipo2 XGBoost 0.346 0.601 0.786 0.055 M´ediaLingu´ısticas M´ediados rankings 0.344 0.615 0.799 0.084 Lingu´ısticasTipo1-Tipo3 XGBoost 0.341 0.613 0.796 0.068 Elmo Tipo2-Tipo3 Elmo Wikipedia 0.341 0.591 0.807 0.031 Word Embedding Tipo2-Tipo3 GloVe 600 0.341 0.611 0.801 0.036 Idade de Aquisi¸c˜ao Baseline 0.336 0.588 0.786 0.044 Word Embedding Tipo1-Tipo2 FastText CBOW 600 0.336 0.618 0.796 0.036 Frequˆenciatextos informativos Baseline 0.329 0.633 0.796 0.055 M´ediaBERT M´ediados rankings 0.326 0.613 0.802 0.036 Diversidade Contextual Leg2Kids Baseline 0.324 0.596 0.796 0.026 BERT Tipo1-Tipo3 BERT Large 0.321 0.608 0.801 0.005 Elmo Tipo1-Tipo3 Elmo Wikipedia 0.321 0.590 0.801 0.055 Glavaˇs& Stajnerˇ (2015) Baseline 0.319 0.638 0.806 0.025 FrequˆenciaLeg2Kids Baseline 0.316 0.595 0.797 0.024 Word Embedding Tipo1-Tipo3 FastText SkipGram 1000 0.314 0.626 0.806 -0.032 BERT Tipo1-Tipo2 BERT Large 0.306 0.590 0.789 -0.028

Tabela 14: Performance dos m´etodos propostos e baselines na tarefa de Simplifica¸c˜aoLexical. Mo- delos ordena¸c˜aopela coluna Top 1. da crian¸caavan¸cae ela progride pelos anos esco- O m´etodo que obteve o melhor desempenho lares, o l´exicoa ser desenvolvido aumenta e novas no Top 1 ou 2 e Top 1, 2 ou 3 foi o BERT palavras/desafios surgem. Tipo2-Tipo3. Entendemos que a inferˆenciada O baseline que melhor desempenhou no Top 1 grada¸c˜aoda simplicidade/complexidade de pala- ou 2 e Top 1, 2 ou 3 foi o Glavas. O uso de word vras extrapola o n´ıvel morfol´ogico,dependendo embeddings apresentou uma melhor cobertura de tamb´emdo contexto no qual a palavra est´ain- atua¸c˜aodo que os demais baselines que utili- serida. O BERT ´eum modelo contextual, de- zam contagens ou informa¸c˜oespsicolingu´ısticas. senvolvido para representar textos. Assim, por O m´etodo de Glavaˇs& Stajnerˇ (2015) n˜aofoi mais que nossa correla¸c˜aocom as crian¸casseja o que melhor identificou a palavra mais simples t˜aobaixa quanto a correla¸c˜aodelas pr´oprias, o de acordo com a expectativa das crian¸cas,mas a Tipo2-Tipo3 ´eo modelo que selecionou, como palavra mais bem ranqueada pelo m´etodo estava mais simples, palavras que est˜aocomumente en- entre as 2 ou 3 palavras mais simples na vis˜ao tre as trˆesmais simples na sele¸c˜aodas crian¸cas. das crian¸cas. Entendemos que as crian¸cas n˜ao divergem Dentre os m´etodos desenvolvidos neste traba- completamente quanto ao entendimento da com- lho, aquele que obteve a melhor performance no plexidade das palavras, do contr´arion˜aohaveria Top 1 foi o Elmo Tipo1-Tipo2. Os m´etodos de- l´exicosno PB, informa¸c˜oespsicolingu´ısticasnem senvolvidos com embeddings do Elmo j´ahaviam estudos sobre Adapta¸c˜aoTextual. Embora a cor- sido os melhores na tarefa de Identifica¸c˜aode Pa- rela¸c˜aode Spearman das pr´opriascrian¸casseja lavras complexas e entendemos que, assim como baixa, temos que entender que estamos lidando a Idade de Aquisi¸c˜ao(baseline que obteve me- com crian¸cas em fase de forma¸c˜aoe que cer- lhor desempenho no Top1), o Elmo Tipo1-Tipo2 tamente possuem muito mais incertezas do que consegue capturar as informa¸c˜oesintr´ınsicasda- certezas. Essa incerteza reflete nos baixos valo- quelas palavras mais simples, ou seja, o que as res de correla¸c˜ao,mas ao focar as an´alisesso- tornam as mais simples, j´aque este m´etodo foi mente nas palavras mais bem ranqueadas pelas treinado no dataset composto pelos dicion´arios crian¸cas,percebemos que h´aconcordˆancia.Essa de menor n´ıvel lexical. concordˆancia´erefletida aqui, quando verificamos a alta performance de nossos m´etodos ao restrin- girmos a trˆespalavras mais bem ranqueadas. Adapta¸c˜aoLexical Autom´atica em Textos Informativos do Portuguˆes Brasileiro Linguamatica´ – 21

Finalmente, avaliamos as combina¸c˜oesde mo- O processo interno realizado pelo sistema con- delos. Analisando o Top 1, as trˆes melhores siste em trˆesgrandes etapas: solu¸c˜oesforam as m´ediasdos modelos que me- lhor performaram em cada um dos nossos trˆes 1. A identifica¸c˜ao de palavras complexas por datasets, ou seja, a combina¸c˜aode todas as abor- meio da aplica¸c˜aode um classificador neural dagens avaliadas. Essa combina¸c˜aode m´etodos que faz uso das embeddings contextuais do se beneficia dos diferentes vi´esescapturados por Elmo, abordagem que apresentou melhor per- cada uma das abordagens avaliadas: uso de fe- formance na Identifica¸c˜aode Palavras Com- atures lexicais, word embeddings e embeddings plexas (ver Se¸c˜ao 5.3). Trabalhamos apenas contextuais do Elmo e tamb´emdo BERT. Assim com as palavras do UNITEX-DELAF (Muniz, como em Hartmann et al.(2018), a combina¸c˜ao 2004) para focar nas palavras da l´ınguageral, de diferentes features/solu¸c˜oesproporcionou uma excluindo nomes pr´oprios, por exemplo; performance superior na Simplifica¸c˜aoLexical do que o uso individual de cada uma das solu¸c˜oes. 2. A sele¸c˜ao de palavras candidatas a subs- titui¸c˜ao ´e dada por meio de uma con- Para real¸cara performance da combina¸c˜aodas sulta aos sinˆonimos disponibilizados em melhores solu¸c˜oesde cada uma das quatro abor- http://www.sinonimos.com.br (recurso dagens de Identifica¸c˜aode Palavras Complexas tamb´emutilizado na expans˜aode sinˆonimos exploradas, a m´ediados 3 modelos com embed- do SIMPLEX 2.0 (Hartmann et al., 2020)); ou dings do Elmo, abordagem que obteve os melho- por meio de uma consulta aos sinˆonimosdo res resultados na Identifica¸c˜aode Palavras Com- ª TeP (Maziero et al., 2008) (recurso utilizado plexas, obteve apenas a 8 melhor coloca¸c˜aoen- na busca por sinˆonimosna primeira vers˜ao tre os modelos, analisando o Top 1. Percebemos, do SIMPLEX (Hartmann et al., 2018)); ou portanto, que de fato o uso de diversos vi´esesen- por meio do c´alculo da similaridade pelo riqueceu a solu¸c˜aode ranqueamento de palavras cosseno entre a embedding GloVe (Hartmann pela sua simplicidade ao contexto e que, por mais et al., 2017) da palavra complexa e as demais que as redes neurais atuais (deep learning) sejam palavras do vocabul´ario,limitando as palavras detentoras dos holofotes do Machine Learning, o com mesma PoS tag por meio de verifica¸c˜ao uso de solu¸c˜oescl´assicas,quando combinadas a ao tagger nlpnet (Fonseca & Rosa, 2013); ou essas redes, ainda trazem ganhos `asaplica¸c˜oes. a combina¸c˜aodas abordagens; e 3. O ranqueamento das palavras candidatas por 5.5. Adapt2Kids: Demonstrando os meio da aplica¸c˜aodo classificador de comple- m´etodos de Simplifica¸c˜ao Lexical xidade (o mesmo utilizado na identifica¸c˜aode para Portuguˆesdo Brasil palavras complexas) ao substituir a palavra complexa pela candidata. A fim de disponibilizar uma ferramenta para exemplifica¸c˜aodo pipeline de Simplifica¸c˜aoLexi- Utilizamos a m´ediadas previs˜oesdos trˆesmo- cal e experimenta¸c˜aopor parte da comunidade, delos neurais desenvolvidos baseados nas embed- 17 desenvolvemos o Adapt2Kids . Este sistema dings contextuais do ELMo. Esses modelos fo- exemplifica o processo de Simplifica¸c˜aoLexical ram treinados com diferentes vis˜oes do l´exico para senten¸cas,n˜aoatendendo a demandas reais que contempla o Ensino Fundamental (datesets de simplifica¸c˜aode um texto inteiro, que exigi- Tipo1-Tipo2, Tipo1-Tipo3 e Tipo2-Tipo3). ria uma escolha de quais palavras deveriam ser Apresentamos at´e5 palavras mais bem ran- simplificadas e quais poderiam ser elaboradas. A queadas. Demais candidatos s˜aofiltrados para execu¸c˜aoconsiste em trˆespassos: facilitar a visualiza¸c˜aodo resultado. 1. A entrada de uma senten¸capelo usu´ario(li- mitamos na unidade “senten¸ca”, pois foi a 6. Conclus˜aoe Trabalhos Futuros mesma utilizada ao longo deste artigo; Este trabalho investigou v´ariasetapas do pipe- 2. A delimita¸c˜aode um limiar de classifica¸c˜ao line de Adaptac˜aoTextual, trazendo v´ariascon- para distin¸c˜aoentre palavras simples e com- tribui¸c˜oespara a ´area de PLN e Educa¸c˜ao. plexas; e Em rela¸c˜ao`aIdentifica¸c˜aode Palavras Com- 3. A submiss˜aodo processamento ao clicar no plexas, avaliamos desde abordagens cl´assicasat´e bot˜ao“Processar”. as mais modernas, passando por word embed- dings e tamb´em embeddings contextuais. Trou- 17http://www.nilc.icmc.usp.br/adapt2kids/ xemos a expertise obtida ao trabalharmos com 22– Linguamatica´ Nathan Siegle Hartmann & Sandra Maria Alu´ısio a tarefa para o inglˆes,desenvolvemos e avalia- os melhores resultados foram obtidos ao combi- mos v´ariosm´etodos para a tarefa. Apesar da narmos nossas abordagens pelo ranking m´edio boa performance dos m´etodos cl´assicos,que fa- delas. Nossa solu¸c˜ao´eo novo SOTA para a tarefa zem uso de features lingu´ısticas,o uso de embed- de Simplifica¸c˜aoLexical aplicada ao PB. dings contextuais do Elmo foi a solu¸c˜aoque de- Para a tarefa de Elabora¸c˜aoLexical, enrique- sempenhou melhor na tarefa de Identifica¸c˜aode cemos o c´orpusSIMPLEX com defini¸c˜oescurtas, Palavras Complexas. Como trabalhos futuros, revisadas manualmente, das palavras complexas, pretendemos avaliar o silibificador utilizado no o que possibilita a sua aplica¸c˜aocomo m´etodo de projeto ReGra (Nunes et al., 1999) e inclu´ıdona Elabora¸c˜aoLexical por defini¸c˜ao. Como traba- ferramenta Coh-Metrix-Port (Scarton & Alu´ısio, lhos futuros, pretendemos criar um recurso mais 2010). Neste trabalho, fizemos uso do pyphen18, sofisticado que contemple uma quantidade maior que utiliza os dicion´arios do (dicion´arios de palavras e defini¸c˜oescurtas, podendo ser uti- utilizados em solu¸c˜oesde mercado, como o Libre- lizado at´emesmo para o aprendizado da gera¸c˜ao Office, OpenOffice.org, Mozilla Firefox e Google de defini¸c˜oes. Chrome), para o qual identificamos erros produ- Por fim, neste trabalho, disponibilizamos pu- zidos na silabifica¸c˜aode palavras (uma das fea- blicamente o SIMPLEX-PB 3.0. Nessa nova tures lingu´ısticasutilizadas neste trabalho). vers˜ao, o c´orpus foi enriquecido com features Para a etapa de Sele¸c˜aode Abordagem de lingu´ısticas,que s˜ao proxies de complexidade le- Adapta¸c˜aoLexical, fizemos um estudo baseado xical, defini¸c˜oes de suas palavras complexas e em c´orpuspara identificar padr˜oesde elabora¸c˜ao anota¸c˜oesde termos t´ecnicos, informa¸c˜oesque e tamb´emquais s˜aoas palavras do SIMPLEX fazem com que o c´orpustamb´empossa ser utili- mais comumente elaboradas. Aproximadamente, zado para estudos em Elabora¸c˜aoLexical. O site 50% das palavras elaboradas tinham anota¸c˜aode Adapt2Kids19 apresenta uma demonstra¸c˜aodos termos t´ecnicosno dataset SIMPLEX, o que ´e recursos e m´etodos desenvolvidos e relatados no um bom indicativo de que palavras t´ecnicasde- artigo. vem ser elaboradas, corroborando nossa hip´otese inicial. No entanto, devido ao conjunto limitado de regras estabelecidas, n˜aoconseguimos tirar Agradecimentos conclus˜oesdefinitivas a respeito de quais features das palavras indicam um processo de elabora¸c˜ao O presente trabalho foi realizado com o apoio da ou simplifica¸c˜ao. Como trabalhos futuros nessa FAPESP, proc. nº 2016/00500-1. Agradecemos frente, o estudo com foco no desenvolvimento de tamb´em`ascrian¸casdo Projeto Pequeno Cidad˜ao um m´etodo que selecione a melhor abordagem de do campus USP em S˜aoCarlos, por terem feito Adapta¸c˜aoLexical passa possivelmente pelo uso a avalia¸c˜aode senten¸casdo corpus SIMPLEX- de grandes c´orpusde textos simplificados, como o PB 3.0 e as equipes gestora e profissional do Pro- Newsela ou a Wikip´ediaem Inglˆes,pois nesses re- jeto Pequeno Cidad˜aopelo apoio. cursos encontramos defini¸c˜oesque ajudam a cap- turar features destas palavras que foram elabora- das. A Newsela, especialmente, possui anota¸c˜oes Referˆencias de elabora¸c˜oese simplifica¸c˜oes,o que possibilita- ria o treinamento de m´etodos de Machine Lear- Alu´ısio, Sandra Maria & Caroline Gasperin. ning para aprender quando simplificar ou elabo- 2010. Fostering digital inclusion and accessibi- rar. Uma vez que tenhamos o m´etodo de sele¸c˜ao lity: the PorSimples project for simplification das abordagens de Adapta¸c˜aoLexical funcional of Portuguese texts. Em NAACL HLT 2010 seria interassante realizar novamente a avalia¸c˜ao Young Investigators Workshop on Computati- com crian¸cas,para assim avaliar um sistema com- onal Approaches to Languages of the Americas, pleto de Adapta¸c˜aoLexical. 46–53. Em rela¸c˜ao`aetapa de Simplifica¸c˜aoLexical, Alu´ısio, Sandra Maria. 1995. Ferramentas de aplicamos os m´etodos desenvolvidos para a ta- aux´ılioa escrita de artigos cient´ıficos em Inglˆes refa de Identifica¸c˜aode Palavras Complexas e como l´ıngua estrangeira: Universidade Esta- observamos que eles desempenham melhor do dual de S˜aoPaulo, Brasil. Tese de Doutora- que baselines da ´areae, inclusive, s˜aomelho- mento. res do que uma das abordagens mais bem su- cedidas da literatura, por exemplo, o m´etodo de Amancio, Marcelo Adriano. 2011. Elabora¸c˜ao Glavaˇs& Stajnerˇ (2015). Verificamos ainda que textual via defini¸c˜aode entidades mencionadas

18https://pyphen.org/ 19http://nilc.icmc.usp.br/adapt2kids/ Adapta¸c˜aoLexical Autom´atica em Textos Informativos do Portuguˆes Brasileiro Linguamatica´ – 23

e de perguntas relacionadas aos verbos em tex- Chung, Jin-Woo, Hye-Jin Min, Joonyeob Kim & tos simplificados do portuguˆes: Universidade Jong C Park. 2013. Enhancing readability of de S˜aoPaulo, Brasil. Tese de Mestrado. web documents by text augmentation for deaf rd Arf´e, Barbara, Lucia Mason & Inmacu- people. Em 3 International Conference on lada Fajardo. 2018. Simplifying infor- Web Intelligence, Mining and Semantics, 1–10. 10.1145/2479787.2479808 mational text structure for struggling rea- . ders. Reading and Writing 31(9). 2191–2210. Cohen, Jacob. 1960. A coefficient of agre- 10.1007/s11145-017-9785-6. ement for nominal scales. Educational Barlacchi, Gianni & Sara Tonelli. 2013. ER- and Psychological Measurement 37–46. NESTA: A sentence simplification tool 10.1177/001316446002000104. for children’s stories in Italian. Em Crossley, Scott A., David B. Allen & Danielle S. Computational Linguistics and Intelli- McNamara. 2011. Text readability and intui- gent (CICLing), 476–487. tive simplification: A comparison of readabi- 10.1007/978-3-642-37256-8_39. lity formulas. Reading in a foreign language Bergstra, James, Daniel Yamins & David Daniel 23(1). 84–101. Cox. 2013. Making a science of model search: Crossley, Scott A., David F. Dufty, Philip M. Hyperparameter optimization in hundreds of McCarthy & Danielle S. McNamara. 2007. dimensions for vision architectures. Em In- Toward a new readability: A mixed model ap- ternational Conference on International Con- proach. Em Annual Meeting of the Cognitive ference on Machine Learning, I–115–I–123. Science Society, 197–202. Biderman, Maria Tereza Camargo. 2003. Di- De Belder, Jan & Marie-Francine Moens. 2010. cion´ariosdo portuguˆes:da tradi¸c˜ao`acontem- Text simplification for children. Em SIGIR poraneidade. ALFA: Revista de Lingu´ıstica workshop on accessible search systems, 19–26. 47(1). 53–69. Devlin, Jacob, Ming-Wei Chang, Kenton Lee & Bott, Stefan, Luz Rello, Biljana Drndarevic & Kristina Toutanova. 2018. BERT: pre-training Horacio Saggion. 2012. Can Spanish be sim- of deep bidirectional transformers for language pler? LexSiS: Lexical simplification for Spa- understanding. ArXiv:1810.04805 [cs.CL]. nish. Em International Conference on Com- putational Linguistics (COLING), 357–374. Devlin, Siobhan & John Tait. 1998. The use of a psycholinguistic database in the simplification Bult´e, Bram, Leen Sevens & Vincent Van- of text for aphasic readers. Linguistic databases deghinste. 2018. Automating lexical simplifi- 161–173. cation in dutch. Computational Linguistics in the Netherlands Journal 8. 24–48. Devlin, Siobhan & Gary Unthank. 2006. Hel- ping aphasic people process online informa- Castro, Pedro Vitor Quinta. 2019. Aprendizagem tion. Em International Conference on Compu- profunda para reconhecimento de entidades no- ters and Accessibility (SIGACCESS), 225–226. meadas em dom´ıniojur´ıdico: Universidade Fe- 10.1145/1168987.1169027. deral de Goi´as,Brasil. Tese de Mestrado. Fellbaum, Christiane. 1998. WordNet: An elec- Chelba, Ciprian, Tomas Mikolov, Mike Schus- tronic lexical database. MIT Press. ter, Qi Ge, Thorsten Brants, Phillipp Koehn & Tony Robinson. 2014. One billion word bench- Fonseca, Erick R. & Jo˜ao Lu´ıs G. Rosa. mark for measuring progress in statistical lan- 2013. A two-step convolutional neural guage modeling. ArXiv:1312.3005 [cs.CL]. network approach for semantic role la- beling. Em International Joint Confe- Chen, Tianqi & Carlos Guestrin. 2016. XGBo- rence on Neural Networks (IJCNN), 1–7. ost: A scalable tree boosting system. Em 10.1109/IJCNN.2013.6707118. International Conference on Knowledge Dis- covery and Data Mining (KDD), 785–794. Gardner, Dee & Elizabeth C. Hansen. 2007. Ef- 10.1145/2939672.2939785. fects of lexical simplification during unaided reading of english informational texts. TESL Cho, Kyunghyun, Bart Van Merri¨enboer, Caglar Reporter 40(2). 27–59. Gulcehre, Dzmitry Bahdanau, Fethi Bouga- res, Holger Schwenk & Yoshua Bengio. 2014. Gers, Felix A, J¨urgenSchmidhuber & Fred Cum- Learning phrase representations using RNN mins. 1999. Learning to forget: Continual encoder-decoder for statistical machine trans- prediction with LSTM. Neural Computation lation. ArXiv:1406.1078 [cs.CL]. 12(10). 10.1162/089976600300015015. 24– Linguamatica´ Nathan Siegle Hartmann & Sandra Maria Alu´ısio

Glavaˇs, Goran & Sanja Stajner.ˇ 2015. Sim- knowledge and data engineering 21(9). 1263– plifying lexical simplification: Do we need sim- 1284. 10.1109/TKDE.2008.239. plified corpora? Em Annual Meeting of the Henderson, Lisa, Margaret Snowling & Paula Association for Computational Linguistics and Clarke. 2013. Accessing, integrating, and inhi- the International Joint Conference on Natural biting word meaning in poor comprehenders. Language Processing (ACL-IJCNLP), vol. 2, Scientific Studies of Reading 17(3). 177–198. 10.3115/v1/P15-2011 63–68. . 10.1080/10888438.2011.652721. da Gra¸caKrieger, Maria. 2012. Dicion´arioses- Horn, Colby, Cathryn Manduca & David Kau- colares e ensino de l´ıngua materna. Estudos chak. 2014. Learning a lexical simplifier using Lingu´ısticos 41(1). 169–180. Wikipedia. Em Annual Meeting of the Associ- Hartmann, Nathan, Livia Cucatto, Danielle ation for Computational Linguistics, 458–463. Brants & Sandra Alu´ısio. 2016. Automa- 10.3115/v1/P14-2075. tic classification of the complexity of non- Inui, Kentaro, Atsushi Fujita, Tetsuro Ta- fiction texts in Portuguese for early school kahashi, Ryu Iida & Tomoya Iwakura. years. Em Jo˜ao Silva, Ricardo Ribeiro, 2003. Text simplification for reading as- Paulo Quaresma, Andr´e Adami & Ant´onio sistance: a project note. Em Internatio- Branco (eds.), Computational Processing of nal Workshop on Paraphrasing (IWP), 9–16. the Portuguese Language (PROPOR), 12–24. 10.3115/1118984.1118986. 10.1007/978-3-319-41552-9_2. Janczura, Gerson A., Goiara M. Castilho, Nel- Hartmann, Nathan, Erick Fonseca, Christopher son O. Rocha, Terezinha de Jesus C. Van Er- Shulby, Marcos Treviso, Jessica Rodrigues & ven & Tin Po Huang. 2007. Normas de concre- Sandra Aluisio. 2017. Portuguese word embed- tude para 909 palavras da l´ınguaportuguesa. dings: Evaluating on word analogies and natu- Psicologia: Teoria e Pesquisa 23(2). 195–204. ral language tasks. ArXiv:1708.06025 [cs.CL]. 10.1590/S0102-37722007000200010. Hartmann, Nathan & Leandro Borges dos San- Joulin, Armand, Edouard Grave, Piotr Boja- tos. 2018. NILC at CWI 2018: Explo- nowski, Matthijs Douze, H´erve J´egou& To- ring feature engineering and feature learning. mas Mikolov. 2016. FastText.zip: Compressing Em Workshop on Innovative Use of NLP for text classification models. arXiv:1612.03651 Building Educational Applications, 335–340. [cs.CL] . 10.18653/v1/W18-0540 . Kajiwara, Tomoyuki, Hiroshi Matsumoto & Ka- Hartmann, Nathan S., Gustavo H. Paetzold zuhide Yamamoto. 2013. Selecting proper le- & Sandra M. Alu´ısio. 2018. SIMPLEX-PB: xical paraphrase for children. Em Conference A lexical simplification database and bench- on Computational Linguistics and Speech Pro- mark for Portuguese. Em International Con- cessing (ROCLING), 59–73. ference on Computational Processing of the Kursa, Miron B., Aleksander Jankowski & Wi- Portuguese Language (PROPOR), 272–283. told R. Rudnicki. 2010. Boruta–a system for 10.1007/978-3-319-99722-3_28. feature selection. Fundamenta Informaticae Hartmann, Nathan S, Gustavo H Paetzold 101(4). 271–285. 10.3233/FI-2010-288. & Sandra M Alu´ısio. 2020. A data- Kursa, Miron B. & Witold R. Rudnicki. 2010. set for the evaluation of lexical simplifi- Feature selection with the Boruta package. cation in portuguese for children. Em Journal of Statistical Software 36(11). 1–13. Conference on Computational Processing of 10.18637/jss.v036.i11. the Portuguese Language (PROPOR), 55–64. 10.1007/978-3-030-41505-1_6. Le, Minh, Marten Postma & Jacopo Urbani. 2017. Word sense disambiguation with lstm: Hartmann, Nathan Siegle & Sandra Maria Do we really need 100 billion words? Ar- Alu´ısio. 2019. Avalia¸c˜aodo uso da diversi- Xiv:1712.03376 [cs.CL]. dade contextual e da frequˆenciapara a tarefa Ling, Wang, Chris Dyer, Alan Black & Isa- de identifica¸c˜aode palavras complexas em sim- bel Trancoso. 2015. Two/too simple adapta- plifica¸c˜aolexical. Em Symposium in Informa- tions of word2vec for syntax problems. Em tion and Human Language Technology (STIL), Conference of the North American Chapter 294–302. of the Association for Computational Linguis- He, Haibo & Edwardo A. Garcia. 2009. Learning tics: Human Language Technologies, 1299– from imbalanced data. IEEE Transactions on 1304. 10.3115/v1/N15-1142. Adapta¸c˜aoLexical Autom´atica em Textos Informativos do Portuguˆes Brasileiro Linguamatica´ – 25

Max, Aur´elien. 2006. Writing for language- Paetzold, Gustavo H. & Lucia Specia. 2016. Sim- impaired readers. Em 7th Conference plenets: Evaluating simplifiers with resource- on Intelligent Text Processing and Com- light neural networks. Em LREC Workshop & putational Linguistics (CICLing), 567–570. Shared Task on Quality Assessment for Text 10.1007/11671299_59. Simplification, 42–46. Mayer, Richard E. 1980. Elaboration te- Paetzold, Gustavo Henrique & Lucia Specia. chniques that increase the meaningfulness 2015. LEXenstein: A framework for lexi- of technical text: An experimental test of cal simplification. International Joint Confe- the learning strategy hypothesis. Journal rence on Natural Language Processing 2015: of Educational Psychology 72(6). 770–784. System Demonstrations (ACL-IJCNLP) 85– 10.1037/0022-0663.72.6.770. 90. 10.3115/v1/P15-4015. Maziero, Erick G., Thiago A.S. Pardo, Ariani Paiva, Valeria de, Alexandre Rademaker & Ge- Di Felippo & Bento C. Dias-da Silva. 2008. A rard de Melo. 2012. OpenWordNet-PT: An base de dados lexical e a interface web do TeP open brazilian for reasoning. Em CO- 2.0: thesaurus eletrˆonicopara o portuguˆesdo LING: Demonstration Papers, 353–360. Brasil. Em Proceedings of the XIV Brazilian Pasqualini, Bianca Franco. 2018. CorPop: um Symposium on Multimedia and the Web, 390– corpus de referˆenciado portuguˆespopular es- 392. 10.1145/1809980.1810076. crito do Brasil: Universidade Federal do Rio Mihalcea, Rada & Andras Csomai. 2007. Wi- Grande do Sul. Tese de Doutoramento. kify!: linking documents to encyclopedic kno- Pennington, Jeffrey, Richard Socher & Chris- wledge. Em Conference on Information and topher D. Manning. 2014. Glove: Glo- Knowledge Management (CIKM), 233–242. bal vectors for word representation. Em 10.1145/1321440.1321475. Conference on Empirical Methods in Natural Language Processing (EMNLP), 1532–1543. Mikolov, Tomas, Ilya Sutskever, Kai Chen, 10.3115/v1/D14-1162. Greg S. Corrado & Jeff Dean. 2013. Distribu- ted representations of words and phrases and Peters, Matthew E., Mark Neumann, Mohit their compositionality. Em Advances in neural Iyyer, Matt Gardner, Christopher Clark, information processing systems, 3111–3119. Kenton Lee & Luke Zettlemoyer. 2018. Deep contextualized word representations. Muniz, Marcelo Caetano Martins. 2004. A cons- Em Conference of the North American tru¸c˜aode recursos ling¨u´ıstico-computacionais Chapter of the Association for Compu- para o portuguˆes do Brasil: o projeto de tational Linguistics (NAACL), 2227–2237. Unitex-PB: Universidade de S˜aoPaulo. Tese 10.18653/v1/N18-1202. de Mestrado. Petersen, Sarah E. & Mari Ostendorf. 2007. Text Mutsuro, Kai & Matsukawa Toshihiro. 2002. simplification for language learners: a corpus Method of vocabulary teaching: Vocabulary ta- analysis. Em Workshop on Speech and Lan- ble version. Mitsumura Tosho Publishing. guage Technology for Education (SLaTE), 69– Nair, Vinod & Geoffrey E. Hinton. 2010. Recti- 72. fied linear units improve restricted boltzmann Quinlan, Philip T. 1992. The Oxford psycholin- machines. Em International Conference on guistic database. University Press. Machine Learning (ICML), 807–814. Rello, Luz, Ricardo Baeza-Yates, Stefan Bott & Nunes, Maria das G. V., Denise C. Kuhn, Horacio Saggion. 2013a. Simplify or help?: Ana Raquel Marchi, Ana Cl´audiaNascimento, text simplification strategies for people with Sandra M. Alu´ısio & Osvaldo N. de Oli- dyslexia. Em International Cross-Disciplinary veira Junior. 1999. Novos rumos para o ReGra: Conference on Web Accessibility (W4A), 1–10. extens˜aodo revisor gramatical do portuguˆes 10.1145/2461121.2461126. do Brasil para uma ferramenta de aux´ılio `a Rello, Luz, Ricardo Baeza-Yates, Laura escrita. Em Encontro para o Processamento Dempere-Marco & Horacio Saggion. 2013b. Computacional da L´ıngua Portuguesa Escrita Frequent words improve readability and e Falada (PROPOR), s/p. short words improve understandability Paetzold, Gustavo & Lucia Specia. 2017. Lexical for people with dyslexia. Em Interna- simplification with neural ranking. Em Confe- tional Conference on Human-Computer rence of the European Chapter of the Associa- Interaction (INTERACT), 203–219. tion for Computational Linguistics, 34–40. 10.1007/978-3-642-40498-6_15. 26– Linguamatica´ Nathan Siegle Hartmann & Sandra Maria Alu´ısio

Saggion, Horacio. 2017. Automatic text Expert Systems with Applications 118. 80–91. simplification. Synthesis Lectures on Hu- 10.1016/j.eswa.2018.08.034. man Language Technologies 10(1). 1–137. Tetreault, Joel, Jill Burstein, Ekaterina Koch- 10.2200/S00700ED1V01Y201602HLT032. mar, Claudia Leacock & Helen Yannakoudakis Saggion, Horacio, Sanja Stajner,ˇ Stefan Bott, Si- (eds.). 2018. Proceedings of the 13th workshop mon Mille, Luz Rello & Biljana Drndarevic. on innovative use of nlp for building educatio- 2015. Making it simplext: Implementation nal applications. and evaluation of a text simplification system Trieschnigg, Dolf & Claudia Hauff. 2011. for Spanish. ACM Transactions on Accessible Classic children’s literature-difficult to Compututing 6(4). s/p. 10.1145/2738046. read? Em European Conference on dos Santos, Leandro Borges, Magali San- Information Retrieval (ECIR), 691–694. ches Duran, Nathan Siegle Hartmann, Ar- 10.1007/978-3-642-20161-5_72. naldo Candido, Gustavo Henrique Paet- zold & Sandra Maria Aluisio. 2017. A Tsang, Wai King. 1987. Text modi- lightweight regression method to infer psy- fications in ESL reading comprehen- cholinguistic properties for Brazilian Por- sion. RELC journal 18(2). 31–44. 10.1177/003368828701800203 tuguese. Em International Conference . on Text, Speech, and Dialogue, 281–289. Urano, Ken. 2000. Lexical simplification and 10.1007/978-3-319-64206-2_32. elaboration: Sentence comprehension and in- Scarton, Carolina Evaristo & Sandra Maria cidental vocabulary acquisition: University of Alu´ısio. 2010. An´aliseda inteligibilidade de Hawai’i, EUA. Tese de Doutoramento. textos via ferramentas de processamento de Vaswani, Ashish, Noam Shazeer, Niki Parmar, l´ınguanatural: adaptando as m´etricasdo Coh- Jakob Uszkoreit, Llion Jones, Aidan N. Go- Metrix para o Portuguˆes. Linguam´atica 2(1). mez, Lukasz Kaiser & Illia Polosukhin. 2017. 45–61. Attention is all you need. ArXiv:1706.03762 Siddharthan, Advaith. 2006. Syntactic simplifi- [cs.CL]. cation and text cohesion: University of Cam- Vossen, Piek, Isa Maks, Roxane Segers, Hen- bridge, Inglaterra. Tese de Doutoramento. nie Van Der Vliet, Marie-Francine Moens, Siddharthan, Advaith. 2014. A survey of re- Katja Hofmann, Erik Tjong Kim Sang & search on text simplification. International Maarten De Rijke. 2013. Cornetto: a Journal of Applied Linguistics 165(2). 259– combinatorial lexical semantic database for 298. 10.1075/itl.165.2.06sid. Dutch. Em Essential Speech and Lan- guage Technology for Dutch, 165–184. Sprin- de Sousa, Lucilene Bender, Lilian Cristine ger. 10.1007/978-3-642-30910-6_10. H¨ubner & Roselaine Berenice Ferreira da Silva. 2020. Lexical-semantic inte- Wagner Filho, Jorge, Rodrigo Wilkens, Marco gration by good and poor reading com- Idiart & Aline Villavicencio. 2018. The brWaC prehenders. Ilha do Desterro 73(1). 63–78. corpus: A new open resource for Brazilian 10.5007/2175-8026.2020v73n1p63. Portuguese. Em International Conference on Language Resources and Evaluation (LREC), Souza, Fabio, Rodrigo Nogueira & Roberto Lo- 4339–4344. tufo. 2019. Portuguese named entity recogni- tion using BERT-CRF. ArXiv:1909.10649. Watanabe, Willian Massami, Arnaldo Can- dido Jr, Marcelo Adriano Amˆancio,Matheus Specia, Lucia, Sujay Kumar Jauhar & Rada De Oliveira, Thiago Alexandre Salgueiro Mihalcea. 2012. Semeval-2012 task 1: English Pardo, Renata PM Fortes & Sandra M lexical simplification. Em First Joint Confe- Alu´ısio.2010. Adapting web content for low- rence on Lexical and Computational Semantics literacy readers by using lexical elaboration (SEM), 347–355. and named entities labeling. New Review of Stajner,ˇ Sanja & Horacio Saggion. 2018. Data- Hypermedia and Multimedia 16(3). 303–327. driven text simplification. Em International 10.1080/13614568.2010.542620. Conference on Computational Linguistics: Tu- Yano, Yasukata, Michael H Long & Steven Ross. torial Abstracts (COLING), 19–23. 1994. The effects of simplified and elabora- Stajner,ˇ Sanja, Horacio Saggion & Simone Pa- ted texts on foreign language reading com- olo Ponzetto. 2019. Improving lexical cove- prehension. Language learning 44(2). 189–219. rage of text simplification systems for spanish. 10.1111/j.1467-1770.1994.tb01100.x. Adapta¸c˜aoLexical Autom´atica em Textos Informativos do Portuguˆes Brasileiro Linguamatica´ – 27

Yimam, Seid Muhie, Chris Biemann, Shervin Malmasi, Gustavo H. Paetzold, Lucia Specia, Sanja Stajner,ˇ Ana¨ısTack & Marcos Zampi- eri. 2018. A report on the complex word iden- tification shared task 2018. ArXiv:1804.09132 [cs.CL]. Young, Dolly J. 1999. Linguistic sim- plification of SL reading material: Ef- fective instructional practice? The Modern Language Journal 83(3). 350–366. 10.1111/0026-7902.00027.

Proposta recebida em Julho 2020 e aceite para publica¸c˜aoem Dezembro 2020.

Avaliando entidades mencionadas na cole¸c˜aoELTeC-por Assessing named entities in the ELTeC-por collection

Diana Santos Eckhard Bick Marcin Wlodek Linguateca & Universidade de Oslo South Denmark University Linguateca [email protected] [email protected] [email protected]

Resumo Abstract

Este artigo relata a prepara¸c˜aoda anota¸c˜aoda This paper reports on the NER annotation of the cole¸c˜aoELTeC-por com entidades mencionadas apro- ELTeC-por collection, a collection of hundred Portu- priadas ao g´enerotextual “romances e novelas publi- guese novels published between 1840 and 1920, compi- cadas entre 1840 e 1920”, para possibilitar a leitura led in the scope of the COST action “Distant reading distante em portuguˆes. for European literary history”. Em primeiro lugar apresentamos a cole¸c˜aoELTeC- In addition to discussing its compilation, the choi- por, compilada no ˆambito da a¸c˜aoCOST “Distant Re- ces taken and what remains to be done, we provide ading for European Literary History” para estudar a an initial characterization of the novels according to literatura europeia, e explicamos as diversas restri¸c˜oes size, subgenre, publication place, author gender and e escolhas necess´arias,fornecendo uma caracteriza¸c˜ao which edition was used. inicial segundo v´arioseixos: a origem e tamanho das Then we present PALAVRAS-NER, the NER sys- obras, o seu (sub)g´enero liter´ario,o g´enerodo autor, tem which we use to annotate the collection, explai- o local de publica¸c˜aoe a existˆencia ou n˜aode mais ning the way it works. edi¸c˜oes. We then focus on a subcollection of eight novels Em seguida apresentamos o sistema PALAVRAS- fully human revised, which we use to both evaluate NER, com o qual anotaremos a cole¸c˜ao,explicando the performance of the automatic system, and to cha- detalhadamente o seu funcionamento. racterize the population of the full collection. These Passamos ent˜ao`adescri¸c˜aoda cria¸c˜aode uma sub- novels can be further subdivided according to two dif- cole¸c˜aode oito obras revistas, que servem, por um ferent features: historical versus contemporary novels, lado, para avaliar o desempenho do sistema de REM on the one hand, and original vs. modernized orto- autom´atico,e, por outro, para caracterizar o tipo de graphy, on the other. Also some works are canonical popula¸c˜aoesperada. As obras podem classificar-se while others are not. segundo dois eixos diferentes: romances hist´oricosvs. In addition to the quantitative analysis of the an- romances contemporˆaneos;e obras com grafia original notation results and process, we present some quali- ou grafia modernizada. Al´emdisso, algumas obras s˜ao tative description of the human revision as well. obviamente can´onicas,outras n˜ao. We offer a detailed analysis of some categories, de- Al´emda descri¸c˜aoquantitativa do resultado de monstrating how the most mentioned places, professi- anota¸c˜ao e revis˜ao, apresentamos algumas consi- ons and demonyms can be good indicators for distant dera¸c˜oesqualitativas sobre o processo. reading. Tamb´emfornecemos uma an´alisedetalhada de al- We end the paper comparing briefly with other gumas categorias, tentando mostrar como os lugares, work using named entities for literary texts and sug- profiss˜oese gent´ılicos mais mencionados podem ser gesting future work. indicadores numa leitura distante. Conclu´ımoscomparando com o trabalho interna- Keywords cional feito na an´alisede entidades mencionadas de distant reading, named entity recognition, Portu- obras liter´arias,explicando as diferen¸cas e sugerindo guese, Portuguese literature, , cor- trabalho futuro. pus compilation Palavras chave leitura distante, reconhecimento de entidades menci- 1. Introdu¸c˜ao onadas, portuguˆes,literatura portuguesa, humanida- des digitais, compila¸c˜aode corpos Este trabalho foi desenvolvido no ˆambito da a¸c˜ao COST “Distant reading for European literary history” (CA16204)1, que tem por objetivo re-

1Veja-se https://www.distant-reading.net/ DOI: 10.21814/lm.12.2.336 Linguamatica´ — ISSN: 1647–0818 This work is Licensed under a Creative Commons Attribution 4.0 License Vol. 12 N´um. 2 2020 - P´ag. 29–49 30– Linguamatica´ Diana Santos, Eckhard Bick & Marcin Wlodek volucionar a hist´oria da literatura na Europa No m´aximo11 e no m´ınimo9 autores devem (ou, pelo menos, a hist´oriado romance e novela) ter trˆesobras na cole¸c˜ao. atrav´esda aplica¸c˜aode m´etodos emp´ıricosa uma Entre 10 a 50% das obras devem ser escritas cole¸c˜aomultilingue de v´ariasliteraturas. Uma por mulheres. destas ´ea portuguesa, e da´ıo presente artigo. Apesar de termos batalhado por uma cole¸c˜ao Dentro destes parˆametros,cada grupo dedicado que refletisse a literatura lus´ofona(Santos et al., a uma literatura5 tem de fazer as escolhas que 2018), acab´amos por construir duas cole¸c˜oes: lhe pare¸cammais apropriadas, visto que datas uma que contivesse obras apenas de literatura de publica¸c˜ao,tipo de escritores, e crit´eriosde portuguesa, para seguir o padr˜aodo ELTeC, a perten¸caao cˆanone,s˜aodiferentes em cada co- chamada cole¸c˜aonuclear, ELTeC-por, tal como munidade liter´aria(ou linguacultura).6 foi feito para o espanhol e para o inglˆes, e a Esta a¸c˜aoCOST est´adividida em quadro ver- cole¸c˜ao ELTeC-por-ext, ou seja, uma cole¸c˜ao tentes (correspondentes a grupos de trabalho), alargada, que cont´em (ainda em andamento) enquadrando-se o trabalho que descrevemos aqui tamb´emobras brasileiras, e obras que por ou- nas duas primeiras, denominadas respetivamente tros motivos n˜aose enquadram nos crit´eriosda Scholarly resources e Methods and tools. O pri- cole¸c˜aopadr˜ao,quer por terem dimens˜oesdema- meiro grupo de trabalho lida com a constitui¸c˜aoe siado reduzidas ou por serem escritas pelos mes- valida¸c˜aodas cole¸c˜oes,enquanto o segundo tem mos autores (relembramos que cada autor pode como objetivo investigar e desenvolver m´etodos ter no m´aximotrˆes obras). A cole¸c˜aoalargada ´e, e ferramentas que possam ser usadas na cria¸c˜ao de facto, o conjunto da ElTeC-por e da ElTeC- (da anota¸c˜ao)das cole¸c˜oes,e para o seu proces- por-ext, mas por raz˜oes´obvias n˜aoduplicamos samento. as obras.2 No seio do segundo grupo, um subgrupo Com efeito, as regras para a constru¸c˜aodas dedicou-se `aquest˜aodas entidades mencionadas, cole¸c˜oesm´ınimas,que contˆemou dever˜aoconter de que tratamos em detalhe no presente artigo. cem obras3, s˜aoas seguintes (ver a documenta¸c˜ao oficial do ELTeC(2018)): 2. Caracteriza¸c˜aoda cole¸c˜ao A cole¸c˜aoapenas cont´emromances ou novelas publicadas na Europa entre 1840 e 19194, para Visto que a primeira cole¸c˜aose encontra j´arazo- que as obras perten¸camao dom´ıniop´ublico. avelmente terminada, enquanto a alargada ainda est´ano seu in´ıcioe ainda nem todos os (novos) Devemos procurar um equil´ıbrioentre os se- crit´eriospara esta ´ultimaforam definidos, neste guintes parˆametros:vintena em que a obra foi artigo apenas descrevemos cabalmente a cole¸c˜ao publicada (1840–1859; 1860–1879; 1880–1899; ELTeC-por, fazendo apenas referˆenciapontual a 1900–1920); tamanho da obra — tendo sido casos presentes na cole¸c˜aoELTeC-por-ext. definidos os seguintes intervalos com base no Conforme indicado na documenta¸c˜aoassoci- n´umerode palavras: pequena (entre 10.000 ada a esta cole¸c˜ao,j´ap´ublica7, como compilado- a 50.000 palavras), m´edia (entre 50.000 e res8 depar´amo-noscom uma grande escassez de 100.000 palavras) e grande, com um tamanho obras publicamente dispon´ıveis. Podemos mesmo maior do que 100.000 palavras; e canonicidade: dizer, sem perigo de errar, que praticamente s´o al´emde obras que pertencem ao cˆanone,de- autores can´onicostinham sido digitalizados em vem constar muitas que n˜aoo fazem. Es- portuguˆes. As poucas exce¸c˜oes`aregra vinham cusado ser´adizer que esta quest˜aoprovocou muita celeuma, visto que h´amuitas formas de 5Usamos o termo “grupo dedicado a uma literatura” compreender o cˆanone,e que acabou por ser e n˜aopa´ısporque por exemplo as literaturas em inglˆes, parafraseada pelo crit´erioobjetivo “tem mais francˆes, ou alem˜ao abarcam v´arios pa´ıses da Europa. Al´emdisso, os grupos na a¸c˜aon˜aos˜aoautomaticamente do que uma reedi¸c˜aono per´ıodo 1980–2010”, defin´ıveis por pa´ıs-literatura,visto que v´ariosparticipan- que pode ter o valor sim ou n˜ao. tes na a¸c˜aorepresentam um pa´ıs e dedicam-se a outra literatura, como ´eo caso de Christof Sch¨och, alem˜aoes- 2Mais informa¸c˜aosobre as variadas cole¸c˜oesencontra- pecialista em literatura francesa, ou Jan Rybicki, polaco se em https://www.distant-reading.net/eltec/. especialista em literatura inglesa, ou a primeira autora 3A` data da escrita do presente artigo, apenas 5 cole¸c˜oes deste artigo, que representa a Noruega mas trabalha so- contˆem100 obras, das 10 publicadas por Odebrecht et al. bre o portuguˆes. (2020). 6Sobre este assunto leia-se Herrmann et al.(2020). 4Embora o per´ıodo do COST seja de 1840 a 1920, n˜ao 7Em https://github.com/COST-ELTeC/ELTeC-por us´amoso ano 1920 para que o quarto per´ıodo tamb´em 8A responsabilidade da compila¸c˜ao´eda primeira au- cobrisse exatamente vinte anos, como os outros. Mas isso tora e dos representantes de Portugal no COST: Raquel n˜ao´econsistente em todas as cole¸c˜oesELTeC. Amaro, Isabel Ara´ujoBranco e Paulo Silva Pereira. Avaliando entidades mencionadas na cole¸c˜aoELTeC-por Linguamatica´ – 31 do projeto Gutenberg, e/ou de projetos que dis- no caso das pedidas `aBiblioteca Nacional, n˜ao ponibilizam vers˜oesmodernas de livros antigos, tivemos qualquer influˆencianessa escolha). As- como o LusoLivros. sim, em 23 casos a edi¸c˜aodigitalizada n˜ao´ea Foi por isso necess´arioproceder ao trabalho primeira. Mas a obra ´edatada e classificada no de revis˜aodo reconhecimento ´oticode caracte- per´ıodo COST com base na sua primeira edi¸c˜ao, res (ROC) feito por projetos estrangeiros e com exceto no ´unico caso em que n˜aose conhece a ferramentas certamente muito pouco apropriadas data da primeira edi¸c˜ao.9 `atarefa (ou seja, com sistemas antigos que n˜ao Em rela¸c˜aoao sexo do autor, infelizmente ape- tinham sido treinados ou pensados para o por- nas conseguimos 17 obras de escritoras, 12 de- tuguˆes,e muito menos para a ortografia portu- las pequenas. Outras obras inicialmente elenca- guesa do s´eculoXIX). Isso levou a que um livro das, como Severina de Guiomar Torres˜ao,acaba- digitalizado, por exemplo, pelo googlebooks le- ram por se revelar pequenas demais. Parece as- vasse em m´ediade 10 a 20 horas para limpar. sim poss´ıvel afirmar que as escritoras femininas Tivemos tamb´ema ajuda da Biblioteca Naci- nesse per´ıodo geralmente produziam obras de di- onal portuguesa para digitalizar (desta vez com mens˜aomais reduzida, muitas delas novelas ou um sistema mais adaptado ao portuguˆes)algu- contos. mas obras das quais s´ohavia vers˜aoem papel. Na figura1 mostramos a distribui¸c˜ao das A revis˜aodo reconhecimento ´oticode caracte- obras por d´ecada.Como n˜aoser´ade espantar, as res (ROC, em inglˆesOCR) destas obras levou obras antigas (das primeiras duas d´ecadas)s˜aoas certamente menos tempo, mas foram relativa- menos abundantes. A primeira d´ecadado s´eculo mente poucas devido a o nosso projeto n˜aoser XX ´ea que tem maior n´umerode livros, o que evidentemente priorit´ariopara essa institui¸c˜ao,`a poder´aser explicado pela primeira guerra mun- qual estamos de qualquer maneira muito agrade- dial na segunda d´ecada,mas n˜aopodemos evi- cidos. Na tabela1 apresentamos a proveniˆencia dentemente concluir nada desta pequena amos- das obras. tra. Para isso, ter´ıamosde ter dados sobre todo o universo de publica¸c˜aoe n˜aos´osobre os roman- Origem Quantidade ces e novelas escolhidos. Gutenberg 32 Archive.org 30 Biblioteca Nacional 16 Luso-Livros 12 Projeto Adamastor 2 Googlebooks 3 Bibliotr´onica 1 Wikimedia 1 NuPill 1 Arq. Mun. Sines 1 Hathitrust 1

Tabela 1: Donde vˆemas obras (Santos(2020))

Vemos que grande parte delas foi necess´ario rever no ˆambito desta a¸c˜ao.Apenas as obras dis- ponibilizadas pelo Gutenberg e pelos sites Luso- Livros, Bibliotr´onicaPortuguesa e Projeto Ada- mastor (totalizando 47 obras) j´ase encontravam revistas, e a sua grafia, exceto no caso do pro- Figura 1: As obras do ELTeC-por por d´ecada jeto Gutenberg, atualizada. Quando fomos n´os a rever, mantivemos a grafia original. Donde na Uma quest˜aoque merece alguma aten¸c˜aofoi a cole¸c˜aoELTeC-por temos apenas 15 casos de gra- quantidade de obras de cariz hist´oricoque foram fia modernizada. Trataremos ali´asdessa quest˜ao encontradas, e que levam `apossibilidade de con- mais adiante neste artigo (sec¸c˜ao 3.4), em que siderar que o g´eneroromance hist´oricofoi muito analisamos obras com as v´ariasgrafias. cultivado na ´epoca a que nos reportamos. Com E´ no entanto tamb´emimportante indicar que nem todas as obras foram digitalizadas a partir 9O conde de Castel Melhor, de D. Jo˜aoda Cˆamara,2ª da sua primeira edi¸c˜ao(e repare-se que, exceto edi¸c˜aode 1903. 32– Linguamatica´ Diana Santos, Eckhard Bick & Marcin Wlodek efeito, podemos identificar, nas 100 obras presen- n˜aoa incorporar no ELTeC-por visto que n˜aofoi tes, 33 romances hist´oricos. publicada em Portugal at´edez anos da sua pu- Outra quest˜aointeressante ´ea quantidade de blica¸c˜aoinicial. Foi, contudo, uma das obras tra- romances ou novelas cujo t´ıtulo´eapenas o nome tadas no presente artigo – o que ali´asdemonstra de uma mulher (sete casos), ou de um homem que a fixa¸c˜aodos crit´eriospara a decis˜aofinal (catorze casos).10 Se considerarmos casos de da cole¸c˜aofoi algo que levou muito tempo e de- t´ıtuloscorrespondendo `adescri¸c˜aode uma perso- libera¸c˜ao. nagem masculina, como O crist˜aonovo ou Trans- A quest˜aoda publica¸c˜aona Europa ´ealgo viado, ou feminina, como a A divorciada ou A que poderia dar a possibilidade de incluirmos j´a filha do Cabinda, temos onze casos de t´ıtulos na cole¸c˜aoELTeC-por livros de autores brasi- correspondendo a uma personagem masculina, leiros, visto que ´esabido que era comum estes e nove correspondendo a uma feminina. Final- publicarem em Portugal ou em Fran¸ca, prova- mente, contando tamb´emos casos em que o t´ıtulo velmente devido aos encargos da publica¸c˜aono menciona ou inclui personagens femininas, temos Brasil (Barbosa & Wyler, 2009). Por exemplo, dois casos em O juramento da condessa Ester e Trist˜aode Alencar Araripe J´unior´eum escritor Um conto portuguˆes:epis´odioda guerra civil: a brasileiro que publicou livros em Portugal com Maria da Fonte e oito casos que incluem uma per- o pseud´onimode Cosme Velho, um deles inicial- sonagem masculina, como A Confiss˜aode L´ucio mente inclu´ıdono ELTeC-por mas depois trans- ou O crime do Padre Amaro. N˜aoh´ad´uvida, ferido para o ELTeC-por-ext. com estes n´umeros,que o protagonismo mascu- Existem tamb´emescritores portugueses que lino ´epredominante. publicaram fora de Portugal, por exemplo na Quanto ao local de publica¸c˜aoda primeira It´alia,ou no Brasil. Pelas regras do COST, ape- edi¸c˜aoou da edi¸c˜aousada, a tabela2 apresenta a nas os textos publicados na Europa devem fazer distribui¸c˜aodas 119 obras da cole¸c˜aoELTec-por- parte da cole¸c˜aonuclear. J´aa quest˜aoda pri- ext, em que n˜aonos pareceu relevante distinguir meira publica¸c˜aoem livro seguir-se `apublica¸c˜ao entre as diferentes edi¸c˜oes. O caso de local de em jornal ou peri´odicoser desaconselhada, esse publica¸c˜aodesconhecido reporta-se em geral `as requisito n˜aofoi seguido, por nos parecer impe- primeiras edi¸c˜oesa que n˜aotivemos acesso. dir v´ariasobras importantes de pertencerem `a cole¸c˜ao,como o primeiro romance policial por- Local Quantidade tuguˆes, O Mist´erio da Estrada de Sintra, de Ra- malho Ortig˜aoe E¸cade Queir´os(ali´astamb´emo Lisboa 67 ´unicoem co-autoria na cole¸c˜aoportuguesa). Porto 27 Coimbra 7 Relembrando as regras descritas na sec¸c˜aoan- Ponta Delgada 1 terior, us´amosnove autores com trˆesobras. Os Guimar˜aes 1 autores s˜ao,por ordem alfab´etica,Abel Botelho, Rio de Janeiro 1 Alberto Pimentel, Alexandre Herculano, Ana de Funchal 1 Castro Os´orio,Ant´onioFrancisco Barata, Camilo desconhecido 14 Castelo Branco, E¸cade Queir´os,J´ulioDinis e Raul Brand˜ao. Tabela 2: Local de publica¸c˜aodo conjunto das O equil´ıbrio entre os v´arioscrit´eriosn˜ao´esem- obras, na cole¸c˜aoalargada (118 obras) pre poss´ıvel, o que significa que, se tentarmos apresentar todos na mesma visualiza¸c˜ao(veja-se O caso do Rio de Janeiro, correspondente `a a figura2), ´evis´ıvel o vi´espara textos curtos (na obra A mulata, ´eum exemplo de uma situa¸c˜ao bitola do ElTeC) e para autores masculinos, e em que sabemos com certeza que o autor era por- mais recentes. tuguˆes,devido `areedi¸c˜aomuito mais tardia e `a Em rela¸c˜aoa n˜aotermos conseguido cumprir explica¸c˜aode toda a hist´oriada obra no pref´acio. o crit´eriode pelo menos 20 obras longas, e sem O facto de ter sido reeditado em 1975 (80 anos minimizar a grande dificuldade de obter textos depois da primeira publica¸c˜ao)torna a obra espe- longos, podemos relatar que dois dos textos ini- cialmente interessante, mas acab´amospor decidir cialmente considerados nessa categoria tiveram de ser ou retirados por ainda n˜aose encontrarem 10Isto vai contra a nossa impress˜aoinicial de ser muito mais comum um nome de mulher como t´ıtulo,mas uma no dom´ınio p´ublico,ou reclassificados como de observa¸c˜aomais cuidada revela que os nomes de mulheres tamanho m´edio,por a digitaliza¸c˜aoconter v´arias s˜aoquase sempre primeiros nomes, enquanto os de ho- p´aginasrepetidas. mem s˜aosempre o nome completo, excetuando Eurico, o presb´ıtero e nomes de personagens religiosas, que, como ´e sabido, s˜aoem portuguˆestratados pelo primeiro nome. Avaliando entidades mencionadas na cole¸c˜aoELTeC-por Linguamatica´ – 33

tos et al., 2006), baseando-nos no portuguˆes),e tivemos que concordar num conjunto de catego- rias (ELTeC, 2019) que todas as l´ınguastinham de identificar, para depois compararmos as lite- raturas. Nesse contexto, ´eimportante chamar a aten¸c˜aopara o facto de que muito provavelmente n˜aoexistir´anenhum sistema autom´aticoque fa¸ca essas decis˜oese s´oessas, visto que este ´eum con- junto de categorias de certa forma arbitr´ario. Para o portuguˆes,contudo, tanto profiss˜oes como nacionalidades j´afaziam parte do arsenal usado para a an´alisesint´actico-semˆantica do PA- LAVRAS (Bick, 2000), correspondentes `asmar- cas prof e Hnat, veja-se Bick(2006, 2007), por isso bastou transformar estas marca¸c˜oesem ca- tegorias de entidades mencionadas, na sa´ıdado PALAVRAS-NER, e omitir (ou n˜aoconsiderar) os outros tipos de categorias semˆanticas identi- ficadas por este sistema. Ou seja, concentr´amo- Figura 2: Visualizando o ELTeC-por de acordo nos em pessoas, lugares, organiza¸c˜oes,obras, abs- com o per´ıodo, o tamanho e o g´enerodo autor tra¸c˜oes,acontecimentos, profiss˜oese gent´ılicos. Um dos objetivos do presente estudo ´eavaliar 3. Entidades mencionadas em textos li- o desempenho desta anota¸c˜ao(neste contexto es- pec´ıfico), e indagar, de forma preliminar, sobre ter´arios o que ela nos pode trazer sobre a literatura ano- tada. A cole¸c˜aoser´atanto mais ´utilpara a leitura dis- tante da literatura lus´ofona(e mundial) quanto mais informa¸c˜aocontiver sobre os pr´opriostex- 3.1. O PALAVRAS-NER tos. Uma primeira e ´obvia anota¸c˜ao´ea das en- tidades mencionadas, em particular as pesssoas, Inclu´ıdono analisador sint´aticoPALAVRAS, o os locais e as obras que s˜aomencionadas num li- PALAVRAS-NER ´eprimordialmente baseado em vro, assim como informa¸c˜aorelacionada com uma regras, como todos os outros n´ıveis de anota¸c˜ao,e caracteriza¸c˜aosociol´ogicada(s) realidade(s) des- a informa¸c˜aolexical e gramatical para reconhecer critas nos romances. entidades mencionadas est´aintegrada nos l´exicos Ap´osalguma discuss˜aoentre participantes de e gram´aticas gerais. A estrutura do sistema v´ariasl´ınguas, e a constru¸c˜aode uma cole¸c˜ao ´e um conjunto de m´odulosem cadeia (“pipe- dourada inicial com base em excertos de roman- line”), cada um focando numa tarefa espec´ıfica, ces em dez l´ınguasdiferentes (veja-se o trabalho mas usando a etiquetagem j´aconstru´ıda pelos de Stankovi´cet al.(2019) e Frontini et al.(2020)), m´odulosanteriores, e preparando o terreno para consider´amosque dois campos geralmente n˜ao os m´odulossubsequentes ao enriquecer o con- cobertos pela ´area do reconhecimento de enti- junto de categorias (desambiguado) que ´eentrada dades mencionadas (REM) seriam interessantes para as regras contextuais. no estudo comparativo da literatura europeia: gent´ılicose profiss˜oes. 3.1.1. Identifica¸c˜aode entidades mencionadas e Vale lembrar que a defini¸c˜aode entidade men- sua segmenta¸c˜ao cionada est´ageralmente ligada `acaracteriza¸c˜ao morfossint´aticade nome pr´oprio,que ´ediferente O reconhecimento de entidades mencionadas em l´ınguasdiferentes — e que ´ediferentemente pode ser dividido em duas tarefas: (a) identi- sinalizada em termos gr´aficospor l´ınguas dife- fica¸c˜aoe (b) classifica¸c˜aodas entidades. A iden- rentes. Assim, ´e conhecido que em inglˆes os tifica¸c˜ao´egeralmente (mas nem sempre) exe- gent´ılicoss˜aomarcados com mai´uscula,e os no- cutada primeiro e inclui a atribui¸c˜aoda cate- mes de profiss˜oesem alem˜aotamb´emapresen- goria gramatical “nome pr´oprio”(PROP) ou a tam mai´uscula— visto que todos os substanti- dete¸c˜ao de outras categorias gramaticais usa- vos o fazem. Por isso n˜aoseria poss´ıvel para uma das como nomes, geralmente em mai´usculas,`as cole¸c˜aomultilingue usar uma abordagem baseada quais ´eatribu´ıda uma categoria gramatical se- na l´ıngua(como fizemos para o HAREM (San- cund´aria . Na tarefa de identifica¸c˜ao 34– Linguamatica´ Diana Santos, Eckhard Bick & Marcin Wlodek tamb´emest´ainclu´ıdoo reconhecimento de uma dade/Minist´erio/Pra¸ca/Prˆemio de... ou Sra.... cadeia de unidades como a ocorrˆenciade uma en- Usando uma estrat´egia“global”, podemos usar tidade (por exemplo primeiros nomes e apelidos, regras contextuais para desambiguar a catego- nomes de institui¸c˜oes), e a identifica¸c˜aode abre- ria de uma entidade mencionada: por exemplo a viaturas como entidades mencionadas. Algumas preposi¸c˜ao em num contexto adverbial pode ser express˜oescom v´ariaspalavras s˜aot˜aofrequen- usada para projetar Lugar no seu dependente, tes que foram dicionarizadas, mas na maior parte assim como entidades mencionadas que s˜aosujei- dos casos a identifica¸c˜aodas entidades multipa- tos de um verbo de fala ou de um verbo cogni- lavra ´efeita dinamicamente, da seguinte forma: tivo s˜aoprovavelmente Pessoa. Para nomes de a anota¸c˜aomorfol´ogica´efeita primeiro, e regras pessoas em particular, uma lista de primeiros no- gramaticais subsequentes atribuem classifica¸c˜ao mes internacionais, lista de apelidos comuns em de partes de nome pr´oprio(@prop1 para a pri- portuguˆese part´ıculasde liga¸c˜aocomuns (da/do, meira parte e @prop2 para as seguintes), o que von/van, bin) permite o reconhecimento parcial tem ´obvias vantagens em rela¸c˜ao`aalternativa de de nomes de pessoas, que s˜aodepois propagados usar um pr´e-processador com reconhecimento de para a entidade mencionada completa. padr˜oes:

1. Permite que a an´alisemorfol´ogicaestabele¸cao 3.1.3. O conjunto de categorias n´umeroe o g´enerodas entidades a partir dos O conjunto de categorias identificado pelo seus constituintes e da sua estrutura PALAVRAS-NER tem um grupo nuclear de seis 2. A gram´atica de REM pode mudar a com- classes comuns `amaioria dos sistemas de REM: posi¸c˜aode um nome pr´oprioremovendo, adici- Pessoa (), Organiza¸c˜ao (), Local onando ou substituindo etiquetas de in´ıcioou (), Acontecimento (), Obra () continua¸c˜ao e Marca (). Al´emdisso, tem outras cate- gorias menos comuns, adicionadas por serem fun- Assim, o comprimento de um grupo de palavras cionalmente amb´ıguas: Assim, cidades e pa´ıses reconhecido como uma unidade pode ser aumen- s˜aoclassificados como e ou tado incrementalmente de uma forma sens´ıvel ao com uma classifica¸c˜aosubespecificada em contexto e gramaticalmente motivada, por exem- vez de , porque podem ser usados como plo adicionando coordena¸c˜oes(as ´ultimasduas lugares (viver em X) ou como pessoas ou orga- palavras em Doen¸casInfecciosas e Parasit´arias) niza¸c˜oes(X lan¸cou/criouetc.). Da mesma forma, ou sintagmas preposicionais (idem em Cˆamara o PALAVRAS-NER usa para designar Municipal de Leiria). Como as partes de en- algo que pode funcionar como t´ıtulode uma obra tidades mencionadas s˜aoneste est´adiovis´ıveis ou como organiza¸c˜ao;e para cinemas, lo- como nomes ou outras categorias, at´ea valˆencia jas ou embaixadas, por exemplo, para lidar com sint´aticapode ser utilizada. a ambiguidade lugar/organiza¸c˜ao. Tal ´econsis- tente com a filosofia do PALAVRAS de distinguir 3.1.2. Classifica¸c˜aode entidades mencionadas entre forma e fun¸c˜ao: a classifica¸c˜aoimediata refere-se `aforma semˆantica, deixando a fun¸c˜ao A tarefa de classifica¸c˜ao atribui categorias semˆantica ser atribu´ıda numa camada superior semˆanticas `as unidades simples ou complexas que distinguir´aentre Pessoa ou Lugar ao conce- identificadas pela tarefa de identifica¸c˜ao. Nos der os pap´eissemˆanticos de agente ou experienci- casos mais simples basta consultar almanaques ador ao primeiro caso e de Localiza¸c˜aoou Destino (“gazeteers”). O PALAVRAS tem dicion´arios no segundo. com cerca de 26.000 entradas, al´emde verificar Outras categorias cobrem classes menores nomes internacionais numa base de dados ainda como pr´emio (), doen¸ca (), maior para o inglˆes.Contudo, a categoria nome astro () para estrelas e planetas e ve´ıculo pr´oprion˜ao´euma classe fechada em nenhuma () para carros e barcos. Como j´amencio- l´ınguae ´eportanto preciso reconhecer e classifi- nado anteriormente, os limites do que constitui car os nomes pr´opriosde outra maneira (em al- uma entidade mencionada variam de l´ınguapara guns textos, isto abrange a maioria dos nomes l´ıngua,e por isso, para permitir uma an´alisecom- pr´oprios). Usando uma estrat´egia“local” (in- parativa entre v´ariasl´ınguas, faz sentido mar- terna `aentidade), podemos usar padr˜oessobre car palavras que n˜ao s˜ao consideradas nomes cadeias de caracteres e pistas morfol´ogicas. Em pr´opriosem portuguˆes,tal como meses, nacio- entidades com v´ariaspalavras, a classe semˆantica nalidades e profiss˜oes,que o PALAVRAS pode do n´ucleodo sintagma (ou de outro constituinte) “elevar” ao estatuto de entidade mencionada fa- geralmente fornece um pista vital, cf. Socie- zendo uso da marca¸c˜aosemˆantica dos nomes co- Avaliando entidades mencionadas na cole¸c˜aoELTeC-por Linguamatica´ – 35

Figura 3: An´aliseda frase Jos´edas Dornas era um lavrador abastado, em que Jos´edas Dornas e lavrador est˜aomarcados como entidades mencionadas, em formato MALT. muns, marca¸c˜aoesta que inclui 200 categorias mil regras. O l´exicogeral cont´emcerca de 70.000 protot´ıpicasnuma ontologia ordenada hierarqui- lemas e o almanaque (“gazeteer”) 26.000 nomes. camente e com poucos n´ıveis de profundidade. Um terceiro tipo de entidade mencionada con- Primeiro pr´e-processador Atomiza¸c˜ao e re- siderado pelo PALAVRAS-NER s˜aoexpress˜oes conhecimento de entidades mencionadas ba- num´ericascomo data () e ano (). seado em reconhecimento de padr˜oes. As moradas tamb´emincluem n´umerosde forma Segundo pr´e-processador Consulta a alma- sistem´atica,e s˜aomarcadas com

em naques incluindo a ontologia internacional, vez de simplesmente . Obviamente, todos e verifica¸c˜aode express˜oescom v´ariaspala- estes casos usam emparelhamento de padr˜oese vras a constru¸c˜aodinˆamicade constituintes (adici- onando unidades marcadas @prop2) em vez de Analisador morfol´ogico (incluindo apoio di- simples consulta ao dicion´ario. cionar´ıstico) atribui¸c˜ao de categoria gra- matical, afixa¸c˜ao e inflex˜ao, e categorias O sistema completo do PALAVRAS-NER semˆanticas para nomes pr´opriose subpartes compreende um m´odulo final de filtragem que de entidades mencionadas transforma o formato interno do PALAVRAS em texto corrido, re-contraindo as contra¸c˜oesorigi- Desambigua¸c˜aomorfol´ogica (regras de CG) nais, juntando os encl´ıticose colocando espa¸cos trata de nomes pr´oprios amb´ıguos, por nas express˜oescom v´ariaspalavras. S´oas enti- exemplo em posi¸c˜aoinicial de frase dades mencionadas mantˆema sua classifica¸c˜ao, usando etiquetas e em que a cate- Primeira gram´aticade REM (regras de goria gramatical (PROP, N ou NUM) ´eum atri- CG) verifica e corrige os limites das EM, e buto da entidade, veja-se o seguinte exemplo: faz classifica¸c˜aolocal e contextual Fun¸c˜aosint´atica (regras de CG de “mapping” A mobilia, de um estofo azul e assetinado, e de desambigua¸c˜ao)explora as etiquetas de rivalisa em symetria com os mais encantados EM para decis˜oesde semˆantica jardins de Gra- nada. Segunda gram´aticade REM (regras de CG) explora as rela¸c˜oes sint´aticas e outra in- Tamb´em´eposs´ıvel obter toda a anota¸c˜aoem forma¸c˜aode outros m´odulospara adicionar, XML (formato MALT (Hall & Nilsson, 2005)) modificar e desambiguar as classes de REM usando um novo campo para a classifica¸c˜aoem Gram´aticade estrutura sint´atica (regras entidades mencionadas, como mostra a figura3. de CG) adiciona marcadores para liga¸c˜ao de complementos a curta e longa distˆancia, 3.1.4. A sequˆenciade comandos do PALAVRAS- para a estrutura do sintagma verbal, e para NER coordena¸c˜ao Gram´aticade dependˆencias conjunto de re- Aqui mostramos como as tarefas associadas ao gras para construir as ´arvores sint´aticas REM est˜aodistribu´ıdasna sequˆenciade coman- completas dos do analisador. As duas gram´aticas de REM contˆem1400 regras de CG, enquanto o resto do P´os-processador Transforma o resultado num sistema (todos os n´ıveis) compreende cerca de 7 formato textual ou no formato XML MALT 36– Linguamatica´ Diana Santos, Eckhard Bick & Marcin Wlodek

3.1.5. Tradu¸c˜aodo PALAVRAS-NER para este veja-se a figura6. projeto Apresentamos aqui brevemente a “tradu¸c˜ao” 3.3. Textos processados das categorias produzidas pelo PALAVRAS-NER Os textos escolhidos para esta experiˆencia– mui- para as classifica¸c˜oesque usamos neste trabalho, tos deles acabando por n˜aofazer parte da cole¸c˜ao na Tabela3. final – foram os seguintes: PALAVRAS-NER Aqui Tripeiros Antonio Jos´e Coelho Lousada. Os hum, groupind Pessoa tripeiros: Cr´onica do s´eculoXIV, 1857, or- civ, top, inst, site Local tografia n˜aoatualizada. (POR0040) official Profissao org, admin Organizacao Pupilas J´ulioDinis. As pupilas do Senhor Rei- date, periodo Data tor, 1867, edi¸c˜aodos anos 1990, ortografia tit, brand Obra atualizada. Hnat Demonimo Viscondessa S. de Magalh˜aes Lima. A senhora - Outro viscondessa, 1875, ortografia n˜aoatualizada. (POR0028) Tabela 3: Tradu¸c˜aodas categorias do PALA- VRAS-NER para a grelha do COST Maias E¸cade Queir´os. Os Maias, 1888, edi¸c˜ao dos anos 1990, ortografia atualizada. Febo J.P. Oliveira Martins. Febo Moniz, 1867, 3.2. A anota¸c˜aoe sua revis˜ao edi¸c˜aodos anos 1980, ortografia atualizada. (POR0067) Para anotar quer do princ´ıpio quer como re- vis˜aous´amoso sistema BRAT11, que permite a Mulata Carlos Malheiro Dias. A Mulata, 1896, anota¸c˜aoatrav´esda internete (ver figura5), e edi¸c˜aodos anos 1970, ortografia atualizada. que usa uma codifica¸c˜aoem termos de posi¸c˜ao no ficheiro, veja-se a Figura4. Ambi¸c˜oes Ana de Castro e Almeida. Ambi¸c˜oes, 1903, ortografia n˜aoatualizada. (POR0099) Viagens Almeida Garrett. Viagens na mi- nha terra, 1846, ortografia n˜aoatualizada. (POR0004)

As Pupilas e os Maias, can´onicos,beneficiam de uma ortografia atualizada (anos 90), depois te- mos dois (Febo e Mulata) semi-can´onicos13 que tˆema ortografia atualizada (anos 70 ou 80 do s´eculoXX), e mais trˆesn˜aocan´onicos(Tripei- ros, Viscondessa e Ambi¸c˜oes)com a ortografia da ´epoca em que foram publicados (1857, 1875 Figura 4: As entidades mencionadas codificadas e 1903). Finalmente, junt´amosum can´onico(as pelo BRAT Viagens) com a ortografia original, de 1846. Por uma quest˜aode simplicidade de escrita, Infelizmente a anota¸c˜aoatrav´esdeste sistema referiremos no que se segue cada texto pelo nome mostrou-se muito lenta (chegou a 20 segundos en- curto da lista acima. tre a mudan¸cade uma an´alisee a visualiza¸c˜ao da mesma!), e tivemos que dividir os ficheiros em v´ariosfragmentos e apenas ter uma obra acess´ıvel 3.4. Primeiras tarefas do servidor de cada vez. Os tempos indicados neste artigo s˜aoportanto consequˆenciadesta si- Para ter a no¸c˜aode quanto tempo levaria a fa- tua¸c˜ao. zer a anota¸c˜aohumana de um texto usando o Para transferir entre XML e o formato BRAT, 13Obviamente que a canonicidade ´ealgo que depende de usamos os v´ariosconversores desenvolvidos e dis- uma defini¸c˜aocomplexa, que neste momento n˜ao´econsen- ponibilizados pela Universidade de Belgrado12, sual. Mas estes dois textos, por terem sido repescados nos anos 70 ou 80 para n˜aoca´ıremno esquecimento, tˆemevi- 11http://brat.nlplab.org/index.html dentemente mais direito a um estatuto de semi-can´onicos 12http://nerbeyond.jerteh.rs/ do que os que nunca mais foram editados ou analisados. Avaliando entidades mencionadas na cole¸c˜aoELTeC-por Linguamatica´ – 37

Figura 5: Sistema BRAT de revis˜aode anota¸c˜ao,com uma parte de Os Maias

BRAT, fizemos essa experiˆencia. O texto esco- A esse respeito, consideramos dois tipos de lhido, Tripeiros, tinha 38.173 palavras (contadas textos: aqueles que tˆemuma grafia atualizada, pelo programa wc do Linux) e foram encontradas e que se espera, portanto, que o sistema au- 2.149 entidades mencionadas. A sua anota¸c˜ao tom´aticotrate melhor, e aqueles com grafias an- levou 10 horas (mas refira-se a lentid˜aodo sis- tigas e provavelmente mais problem´aticas. tema, visto que todo o ficheiro estava acess´ıvel Os dois primeiros textos anotados, os Maias ao mesmo tempo). e a Viscondessa, tinham os seguintes tamanhos Depois fizemos a experiˆencia de quanto le- em palavras: 218.665 e 26.305 e os seguintes varia a anotar apenas adicionando profiss˜oese n´umerosde entidades reconhecidas automatica- gent´ılicos(que tamb´emchamaremos dem´onimos mente: 11.862 (13.739) e 664 (846).14 S´oem neste texto), a uma obra automaticamente ano- si j´auma diferen¸caassombrosa. Como a dife- tada e j´a humanamente revista em rela¸c˜ao a ren¸capodia ser devida `acanonicidade ou `agrafia pessoas, lugares e obras (no ˆambito da nossa (Os Maias fazem parte do cˆanonee apresentavam anota¸c˜ao de personagens (Santos & Freitas, uma grafia modernizada, a Viscondessa foi esque- 2019)). O texto escolhido, Pupilas, tinha 96.448 cida e tinha grafia antiga), trat´amosem seguida palavras com 2400 entidades mencionadas. O re- dos outros textos, para ver se era a canonicidade sultado da revis˜aoextra e da adi¸c˜aode gent´ılicos a respons´avel pelo n´umero maior de entidades, e profiss˜oeslevou a 3453 entidades, em 11 horas. ou se isso seria uma caracter´ısticada obra ou do Pass´amos depois `a tarefa mais natural, e autor. aquela que pretendemos utilizar na constru¸c˜ao da cole¸c˜aoElTeC-por: a revis˜aohumana de tex- tos automaticamente anotados pelo PALAVRAS- 14 NER. O primeiro n´umerorefere-se aos casos sem dem´onimos nem profiss˜oes,o segundo incluindo estes. 38– Linguamatica´ Diana Santos, Eckhard Bick & Marcin Wlodek

Figura 6: Parte do sistema para convers˜aoacess´ıvel do servidor s´ervio

A tabela4 mostra os tamanhos de todas estas 3.5. Relato de um trabalho intelectual obras, assim como o n´umerode entidades dete- tadas, antes e depois da revis˜aohumana. Apresentamos nesta sec¸c˜aoalguns coment´arios Vemos aqui j´auma grande variabilidade, tanto que nos parece importante salientar, visto que nas dimens˜oesdos textos como no n´umerode en- em geral n˜ao´edada voz `aspessoas que fazem a tidades mencionadas que contˆem.Nas oito obras pr´opriarevis˜aoou anota¸c˜aohumana. escolhidas, de oito autores diferentes, a densidade A primeira observa¸c˜aoque ´eextremamente de entidades mencionadas varia de 2,7 entidades importante considerar ´eque o tempo e esfor¸code por 100 palavras a 6,4. uma revis˜aon˜aodepende muito de o texto estar Mas muito mais pode ser estudado com a in- j´aanotado ou n˜ao,visto que o anotador/revisor forma¸c˜aoque coligimos. Come¸camospor deta- tem sempre de fazer uma leitura atenta de toda lhar o tipo de entidades existentes e a sua forma a obra, e dirigir a sua aten¸c˜aopara o significado (no sentido de serem compostas por uma ou das palavras que tem de anotar. Por isso, em v´ariaspalavras). Na tabela5 apresentamos as termos de tempo e esfor¸co,n˜ao´esignificativa a quantidades para cada tipo de entidade. diferen¸ca entre um texto virgem e um texto j´a anotado. O tempo que se usa a corrigir (muitas Nota: visto que os n´umerosrefletem um tra- vezes duas a¸c˜oes)´equase o mesmo que se perde balho que foi modificando as carater´ısticaspara a anotar de novo (uma a¸c˜ao).15 obter uma maior eficiˆencia,´epreciso explicar que o texto Viscondessa e um ter¸codos Maias foram Tamb´eme de um ponto de vista subjetivo, n˜ao anotados com a vers˜ao13892 do PALAVRAS- foi encontrada diferen¸caentre textos com grafia NER, que ainda n˜aodetetava explicitamente pro- antiga ou moderna. Mas podemos indicar que, fiss˜oesou gent´ılicosenquanto que o resto do ma- quando se tratava de um romance hist´orico,foi terial j´afoi anotado com profiss˜oese dem´onimos por vezes necess´arioidentificar sentidos de pala- automaticamente, com a vers˜ao13930. vras que j´aca´ıramem desuso, como ´eo caso de correio: “indiv´ıduoque precede viajantes de dis- Tamb´empodemos olhar para o tamanho das tin¸c˜aopara lhes preparar aposentos, etc.” (Di- entidades: quantas vezes correspondem a uma cion´arioPriberam). palavra s´o,ou a muitas palavras, como a Tabela6 mostra. 15Para demonstrar isto n˜aobastam os poucos n´umeros Antes de analisarmos este material, faz sen- que temos, que al´emdisso foram certamente influenciados tido descrever o pr´oprio processo de revis˜ao, pela ordem da revis˜aoe pelas diversas altera¸c˜oes nos servi- dores para tornar o processo de revis˜aomais r´apido,al´em dando voz ao revisor. de que o car´acterde cada obra ter´auma influˆencian˜ao despicienda, mas aqui ficam: Tripeiros, 15 horas; Pupilas, 11; Viscondessa, 5; Maias: 33. Avaliando entidades mencionadas na cole¸c˜aoELTeC-por Linguamatica´ – 39

Id tamanho EM antes EM depois densidade Tripeiros 38.173 0 (2.080) 2.149 5,6 Viscondessa 26.305 664 (846) 727 2,7 Pupilas 96.448 2.400 (4.116) 3.453 3,5 Maias 218.665 13.739 14.094 6,4 Febo 69.683 3.747 3.559 5,1 Mulata 103.676 3.169 2.995 2,9 Ambi¸c˜oes 78.933 2.370 2.523 3,2 Viagens 71.843 3.139 2.956 4,1

Tabela 4: Descri¸c˜aodas obras anotadas com entidades mencionadas. Densidade ´edefinida como o 100*n´umerode EM/n´umero de palavras.

Id Pessoa Local Profiss˜ao Obra Org. Dem. Abst. Acont. Tripeiros a.r. 1030 231 568 8 56 101 0 0 Tripeiros d.r. 1007 306 646 8 0 152 1 12 Pupilas a.r. 2737 154 1052 23 37 13 0 0 Pupilas d.r. 2498 73 806 32 3 18 13 10 Viscondessa a.r. 457 71 172 31 50 29 0 0 Viscondessa d.r 375 68 239 8 6 22 7 0 Maias a.r. 8065 2265 1463 361 591 254 0 0 Maias d.r. 8148 2553 1778 324 92 522 137 12 Febo a.r. 1977 540 703 64 73 210 0 0 Febo d.r. 1870 369 841 22 0 264 36 20 Mulata a.r. 1673 419 700 73 79 57 0 0 Mulata d.r. 2462 280 204 36 9 3 1 0 Ambi¸c˜oesa.r. 1287 403 447 33 124 47 0 0 Ambi¸c˜oesd.r. 1354 204 831 22 21 61 10 7 Viagens a.r. 1692 540 567 101 128 22 0 0 Viagens d.r. 1326 607 701 103 32 123 8 10

Tabela 5: Que tipos de entidades mencionadas: a.r. significa antes da revis˜ao(ou seja, automatica- mente analisado pelp PALAVRAS-NER), d.r. depois da revis˜ao.

Id 1 2 3 4 5 6 7+ nossas expectativas iniciais: ou seja, que a re- vis˜aoseria consideravelmente mais r´apida do que Tri 1481 463 153 45 5 1 1 a anota¸c˜aototal; e que textos com grafia mo- Pup 2774 363 282 31 2 1 0 derna seriam significativamente mais f´aceisde re- Vis 636 43 39 8 1 0 0 ver ou anotar. Mai 11919 1281 624 245 18 5 2 Feb 2707 540 274 35 3 0 0 Do processo de anota¸c˜aomanual, conclu´ımos Mul 2462 280 204 36 9 3 1 que h´acertas classifica¸c˜oesque ´equase imposs´ıvel Amb 2020 348 129 18 11 2 0 conseguir automaticamente. Exemplos s˜aocasos Viag 2538 176 211 20 8 3 0 de gent´ılicosque descrevem uma moda de barba (su´ı¸cas), nomes de pessoas que se referem a uma Tot 26537 3494 1916 438 57 18 4 ´epoca (rel´ogioLu´ısXV), ou nomes de obras que incluem profiss˜oese locais, como o Barbeiro de Tabela 6: Qual o comprimento das entidades Sevilha. mencionadas, depois de revistas Particularmente dif´ıceis,confirmamos, s˜aoos casos de locais com nomes de pessoas: uma vi- Assim como procurador do povo (no sentido de venda chamada Vila Balzac ou uma freguesia de- representante nas Cortes) por oposi¸c˜aoa procu- nominada S˜aoDomingos. rador (no sentido de profiss˜aojudicial moderna). Finalmente, deveria ser poss´ıvel corrigir erros Estas duas observa¸c˜oes(sobre a dicotomia re- sistem´aticosem rela¸c˜aoa personagens de uma vis˜ao/anota¸c˜aoe grafia antiga/moderna) s˜aoes- obra, como ´eo caso de Carlos da Maia, sempre pecialmente interessantes porque v˜aocontra as interpretado pelo PALAVRAS-NER como uma 40– Linguamatica´ Diana Santos, Eckhard Bick & Marcin Wlodek pessoa (Carlos) de uma organiza¸c˜ao(Maia) no E,´ portanto, muito importante salientar que o livro Maias, ou Tom´e, sistematicamente classifi- processo de revis˜aon˜aosignifica apenas corrigir cado como Lugar em vez de Pessoa na obra Febo. erros, mas tamb´emadaptar ou “personalizar”, (Embora isto seja poss´ıvel de fazer, n˜aofoi con- para uma dada tarefa, um sistema mais gen´erico. templado no processo de revis˜aoque relatamos Passaremos a uma avalia¸c˜aomais objetiva dos aqui, e ´eposs´ıvel que tenha contribu´ıdonegati- resultados nas sec¸c˜oesque se seguem, depois de vamente para a percep¸c˜aodo(s) revisor(es).) apresentar em mais pormenor a informa¸c˜aoque obtivemos com a revis˜ao.

3.5.1. Erro ou divergˆencia? 4. Resultados detalhados

A nossa experiˆenciade revis˜aodos textos anota- As trˆestabelas apresentadas antes est˜ao,natu- dos automaticamente leva-nos a considerar que ralmente, longe de esgotar a informa¸c˜aoque po- houve v´ariasraz˜oespara uma divergˆenciaentre a demos obter com este processo. opini˜aohumana e a do sistema autom´atico,que Podemos, por exemplo, indagar quais as enti- conv´emidentificar e tamb´em“resolver” de um dades mais comuns em cada obra (Tabela7). Po- modo diferente. demos ver imediatamente quais as personagens Em primeiro lugar, uma das caracter´ısticas centrais nas obras (que s˜aosempre as entidades mais salientes da divergˆencia´eaquilo que se pode mais frequentes), assim como algumas profiss˜oes considerar uma profiss˜aodo ponto de vista de ser e gent´ılicosque podem dar uma idea do ambi- uma atividade constante ou essencial, e aquilo a ente, e por vezes locais. Assim, fala-se de al- que poderemos antes chamar papel, e que pode caides, mouras, cavaleiros e besteiros nos Tripei- ser tempor´arioou acess´orio.Para o PALAVRAS- ros, mas de viscondessas, padres e oper´ariosna NER – e eventualmente para outros analistas hu- Viscondessa. As Pupilas tˆemreitor, lavrador e manos – n˜aofaria sentido separar os dois ca- padre, enquantos os Maias tˆemmarquˆese con- sos, mas no nosso caso n´osapenas est´avamos in- dessa. Febo tem castelhanos, rei e Cardeal, e a teressados em profiss˜oes como categorias socio- Mulata criada, m´edico,artista e poeta. O que profissionais, ou como t´ıtulos nobili´arquicosou n˜ao´eprevis´ıvel ´ea presen¸cade Deus, que ´edas eclesi´asticos(prior do Crato, duque de Palmela) mais frequentes no Febo, na Viscondessa, na Mu- ou hier´arquicos(presidente, gr˜ao-mestre). lata e nas Viagens, e provavelmente reflete mais Isso levou a que muitas “profiss˜oes”reconheci- o discurso direto do que um vi´esreligioso. das pelo PALAVRAS-NER fossem por n´osrejei- Mas podemos fazer uma an´alisesemelhante tadas, como emiss´ario,leitor, representante, pro- por categoria. Em vez de nos concentrarmos no feta, portador, educador, orador e muitos outros. conjunto de todas as entidades mencionadas, po- Tamb´emdecidimos n˜aoconsiderar classe ou esta- demos apreciar cada tipo separadamente. tuto social como profiss˜ao,e portanto n˜aoanotar Assim, come¸candopelos lugares, vemos na Fi- povo, clero, nobreza, escravo, propriet´ario,ama. gura7, na distribui¸c˜aoem n´umerosabsolutos Alguns dos “erros” do PALAVRAS-NER que os Maias mencionam quase 2500 lugares, en- deveram-se, por outro lado, a conflitos entre vari- quanto as Pupilas apenas nomeiam cerca de 100. edades do portuguˆes: rapariga ter´asido sin´onimo Tendo em conta que as obras tˆemdimens˜oes de prostituta, uma profiss˜ao,em portuguˆesdo bastante diferentes, e comparando valores rela- Brasil, mas significa apenas menina em portuguˆes tivos, vemos que as Pupilas tˆema menor densi- de Portugal, Veja ´euma revista brasileira da atu- dade de lugares, enquanto os Maias j´an˜aodife- alidade, mas isso ´eirrelevante para a literatura rem muito dos Tripeiros ou das Viagens. do s´eculoXIX; ou entre diferentes ´epocas: como Mas al´emde uma an´alisequantitativa pode- ´eo caso do procurador e do correio j´amenci- mos tamb´em investigar que lugares ´e que s˜ao onados; cavaleiro antigamente era uma posi¸c˜ao mais mencionados (Tabela8), e quantos lugares social ou um lugar no ex´ercito,mas muitas vezes diferentes por obra (Tabela9). tamb´emindicava apenas algu´emque se deslocava Vemos assim que aqueles textos que mais men- a cavalo (por isso n˜aoconsider´amosprofiss˜ao),e cionam lugares, tamb´em s˜ao, talvez n˜ao sur- Prior do Crato ´eagora um largo de Lisboa, mas preendentemente, aqueles que os repetem mais: em romance hist´oricosrefere-se a uma pessoa es- Mais uma vez os Maias est˜aono topo. Exce¸c˜ao pec´ıfica,e n˜aoa um local. Finalmente, enquanto para o caso da Mulata que, talvez por ser pas- cen´ografo ´enos nossos dias uma profiss˜aocono- sada no Brasil, menciona bastantes lugares mas tada com o teatro, no s´eculoXIX significava apa- pouco os repete. rentemente cen´ario. Avaliando entidades mencionadas na cole¸c˜aoELTeC-por Linguamatica´ – 41

Viscondessa Pupilas Tripeiros Maias Viscondessa 76 Daniel 535 Fernando 76 Carlos 1714 Julio 73 Margarida 427 Irene 57 Ega 1069 Alfredo 70 Clara 334 Jo˜aoBispo 54 Dˆamaso 374 viscondessa 37 reitor 246 Garifa 51 Vila¸ca 283 Deus 26 Pedro 182 Jo˜ao 37 Maria 240 Cecilia 25 Jos´edas Dornas 138 Gon¸caloDomingues 36 Craft 235 Felisbella 21 Jo˜aoSemana 105 alcaide 33 Afonso 202 Virginia 19 padre 84 moura 33 Alencar 198 padre 12 Guida 78 besteiro 28 Lisboa 195 operario 12 Joana 71 Mestre 28 Ramalhete 167 sr. Francisco Alves 11 Sr. Reitor 60 Jo˜aoRamalho 26 Cruges 166 sr. Francisco 8 Jo˜aoda Esquina 58 Gaia 26 marquˆes 152 creado 8 Sr.ª Teresa 47 Rui Pereira 26 condessa 137 creada 8 Clarinha 41 conde 24 Maria Eduarda 116 Maria 7 lavrador 39 cavaleiros 23 Paris 111 Febo Mulata Ambi¸c˜oes Viagens Ana 203 Edmundo 515 Jo˜ao 161 Carlos 191 Deus 164 Honorina 193 Bella 100 Joanninha 170 Maria 128 Em´ılio 83 Candida 87 Deus 147 castelhano 111 Deus 79 Viscondessa 65 frade 137 Tom´e 110 Juli˜ao 72 Visconde 55 Santarem 82 Febo 109 criada 40 Vihegas 56 fr. Diniz 76 D. Alonso 109 senhora Maria 31 Pillar 48 Georgina 50 Fern˜ao 108 m´edico 26 Isabella 44 Lisboa 50 Cardeal 95 artista 25 Telles 41 Portugal 43 Marcos 90 criado 22 Lisboa 37 poeta 40 Febo Moniz 79 senhor Edmundo 19 abbade 36 Julia 36 rei 66 Em´ılia 15 dr. Ramalho 35 Joanna 35 Margarida 58 turco 15 Maximiano 35 Cartaxo 29 Lisboa 55 poeta 15 Maria Helena 35 frades 26 castelhanos 55 Rio Grande 14 doutor 35 Laura 26

Tabela 7: As 15 entidades mais frequentes em cada obra

Obra Lugares Tripeiros Gaia 26, Lisboa 20, Porto 19, Castela 18, Le¸ca15, Olival 10, S. Domingos 9, Monsaraz 8, Portugal 8, Miragaia 7, Douro 7 Pupilas Porto 15, Lua 8, Terra 8, Sol 6, Coimbra 4 Viscondessa Alcantara 7, Portugal 4, Fran¸ca4, Lisbˆoa3, theatro de D. Maria 3 Maias Lisboa 195, Ramalhete 167, Paris 111, Sintra 106, Santa Ol´avia103, Olivais 66, Portugal 61, Rua de S. Francisco 59 Febo Lisboa 55, Portugal 35, Santar´em24, Espanha 19, Almeirim 14, Tejo 12 Mulata Rio Grande 14, S˜aoPaulo 10, Rio 9, Juiz de Fora 9, Pascoal 8, Tijuca 8, Rua do Ouvidor 8, Botafogo 7, Roma 7, Largo do Pa¸co7 Ambi¸c˜oes Lisboa 37, Paris 24, Portugal 13, Inglaterra 8, Coimbra 7, casa do Maximiano 5 Viagens Santarem 74, Lisboa 49, Portugal 40, Cartaxo 26, Tejo 15, Inglaterra 14, Azambuja 12, pinhal da Azambuja 10

Tabela 8: Quais os lugares mais mencionados por obra 42– Linguamatica´ Diana Santos, Eckhard Bick & Marcin Wlodek

(a) N´umerosabsolutos (b) N´umerosrelativos

Figura 7: Distribui¸c˜aodos lugares

Obra Diferentes Locais Repeti¸c˜ao ver Figura8, mas a n´ıvel relativo isso n˜ao´et˜ao pronunciado. Desta vez as Pupilas n˜aose desta- Tripeiros 123 306 2,49 cam pela negativa, sendo a Mulata e a Viscon- Pupilas 29 73 2,52 dessa as que apresentam menos designa¸c˜oesde Viscondessa 43 68 1,58 pessoas. Isto est´amuito provavelmente relacio- Maias 500 2553 5,11 nado com o pequeno n´umerode personagens das Febo 116 369 3,18 duas obras. Mulata 228 411 1,80 Ambi¸c˜oes 73 204 2,79 Olhando agora para as profiss˜oes,deparamo- Viagens 229 607 2,65 nos com outra situa¸c˜ao. Embora ainda existam mais profiss˜oesnos Maias em termos absolutos, Tabela 9: Lugares diferentes e repeti¸c˜ao visto que ´ea obra mais longa, em termos relativos s˜aoclaramente os Tripeiros que ganham. Em rela¸c˜aoaos gent´ılicos, s˜aoos romances Devemos tamb´emcomentar o facto de que a hist´oricos,provavelmente porque descrevem ba- Lua, o Sol e a Terra foram considerados luga- talhas e lutas contra outros povos ou pa´ıses,que res na anota¸c˜aodas Pupilas. Se os tiv´essemos levam a palma no uso de dem´onimos. relegado para Outro (planeta, abstra¸c˜ao),ainda A ´ultimacategoria que nos parece fazer sen- ter´ıamosmenos lugares mencionados na referida tido comparar ´ea das Obras, at´eporque um obra — nas outras obras ou nem lua nem sol fo- trabalho anterior (Stankovi´cet al., 2019) pare- ram grafados com mai´usculas16, ou seja como for ceu apontar para uma diferen¸casignificativa en- n˜aochegaram a ser dos mais mencionados: Terra tre textos can´onicose n˜aocan´onicosexatamente ´emencionada 25 vezes nos Maias e 1 vez na Mu- no que se referia `amen¸c˜ao(ou n˜ao)de nomes lata, mas n˜aochegam para atingir as posi¸c˜oesde de obras, que seriam muito mais frequentes nos topo na lista de lugares. casos em que as obras pertenciam ao cˆanone.Os Se considerarmos agora o n´umerode pessoas resultados no nosso (pequeno) universo n˜aocon- mencionadas, mais uma vez s˜aoos Maias a obra firmam essa hip´otese. que usa mais nomes de pessoas (mais de 8000), Aqui s˜aoos Maias, as Viagens e a Mulata que 16De facto, nas Pupilas h´amuitas outras ocorrˆencias tˆemsignificativamente mais men¸c˜oes a obras, o de sol e de lua tamb´emem min´usculas;estes lugares s˜ao que se pode explicar pelo facto de os protago- devidos a uma explica¸c˜aoastron´omicadada por Daniel a nistas destes romances serem pessoas de cultura, uma crian¸cana quinta, e poderiam ser retirados da classi- fica¸c˜aode lugares. Referimos contudo esta situa¸c˜aoaqui lidos e habituados a comentar obras de outros no para mostrar a quantidade de incertezas e de decis˜oes que seu dia a dia. Se olharmos para as obras men- s˜aoarbitr´arias,mesmo numa anota¸c˜aohumana. Avaliando entidades mencionadas na cole¸c˜aoELTeC-por Linguamatica´ – 43

5. Avalia¸c˜aodo desempenho do PALA- VRAS-NER

O trabalho efetuado at´eagora, de revis˜aode uma anota¸c˜aoautom´aticade nove romances, permite- nos duas coisas diferentes:

1. avaliar o desempenho do PALAVRAS-NER para este tipo de tarefa, e consequentemente a necessidade de revis˜ao,assim como estimar a taxa de erro expect´avel no caso de anota¸c˜ao sem revis˜aohumana; 2. desenvolver parˆametrosde estudo das obras li- ter´ariasdo per´ıodo COST, a serem testados e avaliados em maior n´umerode obras.

Tratamos aqui do primeiro aspeto, deixando o segundo para a pr´oximasec¸c˜ao. Em rela¸c˜ao especificamente ao desempenho do PALAVRAS- NER, depois de apresentar a precis˜ao e a abrangˆenciado mesmo em rela¸c˜aoa alguns dos textos, tentaremos responder `asseguintes per- guntas:

H´adiferen¸casignificativa entre o desempenho em textos com grafia moderna e antiga? H´adiferen¸casignificativa entre o desempenho em textos can´onicose n˜aocan´onicos? H´a diferen¸ca significativa entre o desempe- nho em textos correspondentes a romances hist´oricose textos modernos (ou melhor, con- temporˆaneosda ´epoca em que foram escritos)? H´a´areas espec´ıficas em que o PALAVRAS- NER se atrapalha? Por exemplo tipos de en- tidades? Figura 8: Distribui¸c˜aoem n´umerosabsolutos, Existem regras f´aceis de implementar no e relativos, das pessoas, das profiss˜oes,das obras PALAVRAS-NER e que aumentem o seu de- e dos gent´ılicos sempenho para o resto dos textos? A tabela 10 d´auma vis˜aoglobal do desempe- cionadas nestes livros, vemos que nos Maias s˜ao nho do PALAVRAS-NER em rela¸c˜aoa estes tex- maioritariamente jornais (os dois mais frequen- tos, tomando a anota¸c˜aomanual como o correto. tes s˜aoa Corneta e o Figaro), na Mulata ro- (Devido a uma diferen¸ca entre o formato que foi mances contemporˆaneos(o Bar˜aode Lavos e a revisto nas Pupilas e ao formato obtido automati- Dama das Cam´elias), e nas Viagens cl´assicos(os camente, n˜aopodemos, infelizmente, avaliar este Lus´ıadas e o Fausto). Isso espelha a vida quo- texto.) tidiana de Carlos da Maia, que gira `avolta da As medidas de avalia¸c˜aoempregadas s˜aoas pol´ıtica;de Edmundo, que ´eou tenta ser escritor; usuais neste tipo de tarefa de classifica¸c˜ao,da- e do pr´oprioAlmeida Garrett, poeta, romancista das pelas equa¸c˜oesseguintes, em que Corr re- e dramaturgo.17 presenta o n´umerode classifica¸c˜oescorretas pro- duzidas pelo sistema, P res indica o n´umerode casos que deviam ser classificados, com base na 17Certamente o narrador de um romance n˜aopode ge- ralmente ser identificado com o autor, mas neste caso n˜ao classifica¸c˜aohumana, e Esp indica o n´umerode parece haver muita diferen¸caentre o “eu” das Viagens e classifica¸c˜oeserr´oneas(ou esp´urias)produzidas o pr´oprioGarrett. pelo sistema. 44– Linguamatica´ Diana Santos, Eckhard Bick & Marcin Wlodek

Corr falta Esp P A E Corr Precis˜ao = (1) Corr + Esp Mai 208 304 34 .860 .406 .140 Mul 46 26 11 .807 .639 .193 Corr Abrangˆencia = (2) Feb 193 71 9 .955 .731 .045 P res Tri 57 94 2 .966 .377 .034 Esp Vis 2 20 26 .071 .091 .929 Excesso = (3) Corr + Esp Amb 22 39 25 .468 .361 .532 Via 12 105 9 .571 .103 .429 As f´ormulas s˜aoas mesmas quer se refiram `a totalidade das entidades, ou apenas a uma cate- Tabela 11: Desempenho do PALAVRAS-NER goria espec´ıfica. Ao contr´ariodo HAREM, n˜ao em rela¸c˜aoaos dem´onimosnos textos revistos separamos a tarefa da identifica¸c˜aoe da clas- sifica¸c˜ao,nem aceitamos classifica¸c˜oesvagas: ´e apenas o desempenho da tarefa da classifica¸c˜ao ou allem˜a, impedindo o PALAVRAS-NER de os que medimos, assumindo que apenas uma classi- reconhecer, no Febo (com grafia moderna), a es- fica¸c˜ao´epertinente. magadora maioria dos dem´onimoseram castelha- nos e portugueses, f´aceisportanto de identificar. Corr falta Esp P A E Na tabela 12 mostramos os gent´ılicosmais fre- Mai 10702 1866 1208 .797 .759 .090 quentes em cada obra, em que vemos, surpreen- Mul 2456 203 247 .808 .820 .081 dentemente, que os ingleses aparecem com muito Feb 2759 356 408 .764 .776 .113 peso em quatro das sete obras. Ter-se-´ade espe- Tri 1474 563 314 .783 .691 .167 rar pela an´aliseda cole¸c˜aointeira para confirmar Vis 502 176 206 .664 .691 .272 se tˆemde facto um papel importante na litera- Amb 1626 535 377 .686 .643 .159 tura portuguesa do per´ıodo considerado, ou se foi Via 2028 548 731 .646 .686 .233 apenas uma coincidˆencia. Em rela¸c˜ao`asprofiss˜oes(e t´ıtulosde nobreza), Tabela 10: Desempenho do PALAVRAS-NER existem muito mais casos de palavras referindo- em sete textos revistos: P, A e E representam as em todas as obras, como se vˆena tabela 13. respetivamente a precis˜ao,a abrangˆenciae o ex- Inesperadamente, vemos que o reconheci- cesso, nesta e em pr´oximastabelas. Por uma mento de profiss˜oestem um desempenho relati- quest˜aode formata¸c˜ao,nestas tabelas o ponto vamente bom, e que portanto n˜aopodemos con- decimal ´eusado em vez da v´ırgula. cluir que as duas novas categorias constituam o calcanhar de Aquiles da anota¸c˜ao. De qualquer Imediatamente observamos que os textos de maneira, ´einteressante reparar que a abrangˆencia grafia antiga (os ´ultimosquatro) tˆempior de- dos Maias est´ano grupo dos piores, juntamente sempenho, como seria de esperar, sobretudo na com a Viscondessa e as Ambi¸c˜oes.Por isso pode abrangˆencia, mas n˜ao t˜ao pronunciado como fazer sentido olhar para as profiss˜oesdestes tex- tem´ıamos, mesmo entrando em conta com o tos, ou melhor, de todos, na tabela 12. facto de que a vers˜aousada nos Tripeiros tinha Mas, ao contr´ariodo que vimos no caso dos in´umerosproblemas de segmenta¸c˜ao,que podem gent´ılicos,o simples rol das profiss˜oesmais fre- evidentemente impedir um programa de analisar quentes n˜aoparece explicar as diferen¸casencon- convenientemente o texto. tradas. Tivemos que investigar quais os casos de Quanto aos textos de romances hist´oricos(Tri- profiss˜oesque faltavam nos Maias: e a grande peiros e Febo) poderem apresentar pior desempe- maioria dos casos s˜aode t´ıtulos nobili´arquicos, nho do que os “modernos”, tal n˜ao´eobservado como marquˆes ou duquesa que aparecem sozi- aqui. Vejamos mais em detalhe os casos das cate- nhos, e que n˜aos˜aomarcados como “profiss˜oes” gorias novas, ou seja, os gent´ılicose as profiss˜oes. pelo PALAVRAS-NER. Este ´eum caso ´obvio de A an´alisedos dem´onimosmostra que esta ca- diferen¸ca entre as duas filosofias de anota¸c˜ao,e tegoria varia muito de obra para obra. Na Vis- que ser´af´acilde resolver no futuro, quer adici- condessa, a obra com menos dem´onimos,o de- onando estes t´ıtulosao PALAVRAS-NER como sempenho ´ep´essimo,no Febo, que tem muitos, Hprof, ou n˜aoas considerando na an´alisemanual. ´eo melhor. Impunha-se portanto uma an´alise Em ´ultimolugar, na Figura9 apresentamos o mais aturada para identificar o porquˆedestas di- desempenho (precis˜aoe abrangˆenciae F1) para feren¸cas,que foi f´acilde descobrir: enquanto que, as trˆescategorias mais frequentes: Locais, Pes- na Viscondessa, dos 13 tipos de den´onimos,oito soas e Profiss˜oes,por obra, assim como os valores tinham grafia antiga, como francezes ou orientaes globais na mesma forma de visualiza¸c˜ao. Avaliando entidades mencionadas na cole¸c˜aoELTeC-por Linguamatica´ – 45

Obra Dem´onimos Mai inglesa 48, inglˆes44, portuguˆes24, brasileira 22 Mul turco 15, cabocla 4, portuguˆes4, ´ındia3 Feb castelhano 111, castelhanos 55, portugueses 20, portuguˆes 14 Tri moura 33, galegos 13, castelhanos 12, portuenses 10 Vis portuguez 3, havano 3, mouro 2, francez 2 Amb inglesa 12, brazileiro 7, inglˆes4, portuguez 3 Via inglez 11, portuguez 11, ingleza 8, portugueza 5 Profiss˜oesou t´ıtulos Mai marquˆes152, condessa 137, conde 87, criado 80 Mul criada 40, m´edico26, artista 25, criado 22 Feb Cardeal 88, rei 66, Prior 34, frade 33 Tri alcaide 33, besteiro 28, conde 24, cavaleiros 23 Vis Viscondessa 76, viscondessa 37, operario 12,padre 12 Amb Viscondessa 64, Visconde 45, abbade 36, doutor 35 Via frade 137, poeta 40, frades 26, bar˜ao23

Tabela 12: Dem´onimose profiss˜oesmais frequentes em cada obra

Corr falta Esp P A E 6. Hip´otesessobre os textos liter´arios

Mai 1026 742 253 .802 .580 .198 As seguintes perguntas parecem ser pertinentes: Feb 649 150 155 .807 .812 .193 Mul 585 61 82 .877 .906 .123 Existe alguma rela¸c˜aoentre a popula¸c˜aode Tri 393 252 101 .796 .609 .204 entidades mencionadas e caracter´ısticasexte- Vis 105 130 53 .665 .447 .335 riores de uma obra, como a sua canonicidade Amb 375 392 71 .841 .489 .159 ou o (sub)g´eneroliter´ario? Via 471 225 92 .837 .677 .163 idem em rela¸c˜aoao tipo de entidades, ao com- Tabela 13: Desempenho do PALAVRAS-NER primento (em n´umerode palavras) dessas en- em rela¸c˜ao`asprofiss˜oesnos textos revistos tidades N˜aoconseguimos responder positivamente a ne- Concluindo, a tarefa que definimos como ´util nhuma destas perguntas. Em caso nenhum con- para os textos liter´ariosexige certa adapta¸c˜aoe seguimos encontrar uma propriedade que sepa- fixa¸c˜aode crit´erios,visto que n˜aoexiste nenhum rasse as obras em duas classes obviamente distin- sistema que tenha sido desenhado para esta ta- tas, quer entre can´onicase n˜aocan´onicas, quer refa e para este tipo de textos. entre romances hist´oricosou contemporˆaneos. O PALAVRAS-NER tem um desempenho De facto, as nove obras parecem ser dema- razo´avel, mas que pode ser melhorado se adici- siado d´ısparespara podermos ver qualquer cor- onarmos informa¸c˜aode dois tipos: rela¸c˜ao.Uma (os Maias) ´emuito mais extensa do que as outras, o que pode levar a que tenha pro- l´exico (ou melhor dizendo, ortografia) de priedades diferentes; outra (as Viagens) ´eescrita per´ıodos antigos no que se refere a profiss˜oese na primeira pessoa, o que tamb´empode resultar lugares em diferen¸cas relevantes; finalmente apenas uma (Ambi¸c˜oes)´eescrita por uma mulher, tudo fac- l´exicode t´ıtulosque queiramos que sejam mar- tores que podem ser fontes de varia¸c˜aoadicional. cados tal como profiss˜oes Por isso, conclu´ımosque temos de classificar as cem obras de cole¸c˜aopara poder responder Se, al´em disso, atrav´es de um an´alise r´apida a estas e outras perguntas com um m´ınimo de do seu resultado, conseguirmos identificar ca- confian¸ca,embora n˜aoseja de rejeitar a hip´otese sos de erro sistem´atico que podemos corrigir de que a distribui¸c˜ao,tipo e quantidade das en- (atrav´esda adi¸c˜aoao seu dicion´ario),pensamos tidades mencionadas n˜aotenha qualquer rela¸c˜ao que pode ser usado para leitura distante, ano- com a qualidade liter´ariae ainda menos com a tando (semi)automaticamente as 100 obras da “canoniza¸c˜ao”de algumas obras em detrimento cole¸c˜aoELTeC-por. de outras. 46– Linguamatica´ Diana Santos, Eckhard Bick & Marcin Wlodek

(a) Locais (b) Pessoas

(c) Profiss˜oes (d) Todas as categorias

Figura 9: Avalia¸c˜aodo PALAVRAS-NER: Precis˜ao,abrangˆenciae F1

7. Compara¸c˜aocom outros trabalhos Como consequˆenciadessa anota¸c˜ao,identifi- caram que os nomes de pessoas e de “facilities” Nos ´ultimos tempos temos assistido a alguns es- (locais criados pelo Homem) eram muito mais tudos de REM sobre textos liter´arios,que men- referidos em texto liter´ario,enquanto que orga- cionamos aqui. niza¸c˜oese entidades geopol´ıticascomo pa´ıseso Bamman et al.(2019) anotaram cerca de 210 eram muito menos. mil palavras de cem romances em inglˆesno Lit- Descobriram al´emdisso um vi´espronunciado Bank data sheet, num per´ıodo compar´avel ao do contra o reconhecimento de personagens femini- ELTeC-por (escolhendo as primeiras 20.000 pala- nas: o sistema reconhecia sistematicamente me- vras de cada obra) com as diretivas do ACE LDC lhor homens do que mulheres, mesmo retirando (2005) (exceto a categoria armas), e utilizaram os casos ´obvios de “Mr”, “Miss” e “Mrs.”. um sistema de REM treinado no material do ACE e treinado neste LitBank para mostrarem as diferen¸casde desempenho. Avaliando entidades mencionadas na cole¸c˜aoELTeC-por Linguamatica´ – 47

No nosso caso, ao contr´ariodeste trabalho, mos aqui. Relembramos ali´asque, ao contr´ario partimos de um conjunto de categorias que n˜ao do inglˆes, do holandˆes e do alem˜ao, o por- tinha ainda sido testado para outros tipos de tuguˆes´euma l´ınguade sujeito nulo, o que com- texto, por isso compara¸c˜oesdiretas com os re- plica bastante esta contabiliza¸c˜ao,como apon- sultados do HAREM (Santos & Cardoso, 2007; tado por Freitas et al.(2019). Mota & Santos, 2008) n˜aoseriam justas. Po- Por outro lado, estes estudos quase sempre se der´ıamos certamente comparar apenas nas ca- dedicam apenas a pessoas — e, por vezes, mesmo tegorias comuns, mas visto que o PALAVRAS- apenas a personagens. Lee & Yeung(2012) s˜aoa NER foi o vencedor do HAREM, n˜aose espe- exce¸c˜ao,obtendo tanto pessoas como lugares em raria um decr´ecimode pontua¸c˜ao. Por outro redes com dois tipos de n´os(locais e pessoas). lado, a diferen¸cadevida `asnovas categorias j´a Frontini et al.(2020) fizeram uma primeira foi medida com cuidado no presente artigo. Al´em avalia¸c˜aodo desempenho de sistemas de REM disso, n˜aoestamos especialmente interessados em para quatro l´ınguas, com dois sistemas cada. ver se o texto liter´ario´ediferente do conjunto Para o portuguˆes, al´em do PALAVRAS-NER de textos usados nos v´ariosHAREM, visto que, foi usado o spaCy18. Este trabalho ´eevidente- ao contr´ariodo ACE, esta avalia¸c˜aofoi pensada mente o que mais se aproxima do que descreve- para v´ariosg´enerose n˜aoapenas para texto jor- mos aqui, visto que se baseia no mesmo tipo de nal´ıstico. anota¸c˜ao,contudo apenas trata pessoas e luga- Mas seria interessante como trabalho futuro res. A cole¸c˜aodourada para o portuguˆesreferida identificar o g´enerodas pessoas mencionadas, e nesse artigo corresponde a excertos de 40 obras, confirmar se existe ou n˜aomais dificuldade de as primeiras vinte (53.958 palavras) com grafia reconhecer um ou outro g´enero, al´em de essa moderna e as segundas (55.429 palavras) com an´alisenos permitir ter uma ideia mais clara da grafia original, ao todo correspondendo a 1999 popula¸c˜aodos romances (e de certa forma cor- pessoas e 607 lugares, enquanto o trabalho des- roborar, ou n˜ao,a observa¸c˜aofeita na sec¸c˜ao2 crito no presente artigo refere-se a textos com- baseando-nos apenas nos t´ıtulos). pletos, totalizando 703.726 palavras, englobando Dekker et al.(2019) comparam quatro siste- 4.591 lugares e 19.040 pessoas. mas de REM para identificar personagens (me- lhor dizendo, redes de personagens) em romances 8. Conclus˜oese trabalho futuro antigos e modernos de fic¸c˜aocient´ıficaem inglˆes (vinte de cada): BookNLP, StanfordNER, Illi- Neste artigo apresentamos uma cole¸c˜aode cem nois NET e IXA-Pipe-NERC, e criam tamb´em obras liter´ariasportuguesas constru´ıdano ˆambito uma cole¸c˜aodourada com essas entidades e co- de uma a¸c˜aoeuropeia de forma a comparar v´arias referˆencias. Chamam a aten¸c˜aopara casos de literaturas, cole¸c˜aoessa publicamente acess´ıvel19. nomes dif´ıceis(por exemplo contendo ap´ostrofes como D’Artagnan), e para a possibilidade de ser Essa cole¸c˜aoser´atanto mais ´utilquanto for ´utilmanter diferentes designa¸c˜oesda mesma per- pass´ıvel de ser “lida” a distˆancia,e um dos me- sonagem nas redes. J´a Valaa et al.(2015) ti- canismos para o fazer ´eidentificar automatica- nham usado alguns sistemas de REM para pre- mente que entidades l´as˜aomencionadas. ver o n´umerode personagens numa obra, mas o Por isso, e como trabalho preliminar para esse foco principal era compreender co-referˆenciasen- objetivo, apresentamos um sistema de reconheci- tre denomina¸c˜oesde personagens. mento de entidades mencionadas, o PALAVRAS- de Does et al.(2017) estudam o REM da iden- NER, assim como oito textos revistos de acordo tifica¸c˜aode pessoas em romances em holandˆes, com diretivas especialmente pensadas para a li- teratura europeia. Essa anota¸c˜aopode ser ins- criando um sistema especificamente para esse 20 dom´ınio. Krug et al.(2018) criaram uma cole¸c˜ao pecionada , para que os leitores possam ajuizar dourada para texto em alem˜ao,com 90 excertos as dificuldades do processo, assim como a (falta) de romances totalizando quase 400 mil palavras, de qualidade em termos dos materiais usados — em que todas as personagens est˜aomarcadas e desde erros de codifica¸c˜aodo pr´opriotexto at´e identificadas. uma divis˜aoautom´aticade frases muito defici- ente produzida pelo BRAT. Conv´em,contudo, salientar que estes sistemas n˜aomarcam apenas nomes pr´opriosquando se re- Neste artigo, al´emde descrevermos o processo ferem a personagens: pronomes e descri¸c˜oesno- de revis˜ao,analisamos detalhadamente o desem- minais tamb´ems˜aomarcados. Por isso mais uma 18https://spacy.io/ vez n˜aopodemos comparar facilmente os valo- 19https://github.com/COST-ELTeC/ELTeC-por res e os resultados com o estudo que apresenta- 20http://dinis2.linguateca.pt/brat-v1.3_ Crunchy_Frog/#/Marcin/ 48– Linguamatica´ Diana Santos, Eckhard Bick & Marcin Wlodek penho do PALAVRAS-NER sobre cada obra e trabalho 1 da ac¸c˜aoCOST, nomeadamente Lou cada tipo de entidade, assim como tentamos ex- Burnard e Carolin Odebrecht, e do respons´avel plorar possibilidades de leitura distante das obras principal da a¸c˜ao,Christof Sch¨och. atrav´esda frequˆencia,da distribui¸c˜aodas entida- Tamb´emagradecemos `aBiblioteca Nacional des, e dos seus casos mais frequentes. de Portugal, na pessoa da Dra. Margarida Conclu´ımos que o analisador era suficiente- Concei¸c˜aoLopes, o ter prontamente digitalizado mente bom para ser aplicado `acole¸c˜aointeira, vinte obras a nosso pedido. com eventuais adi¸c˜oes aos seus l´exicospara dar O terceiro autor agradece o apoio financeiro da conta de ortografias anteriores. Universidade de Oslo para a revis˜aoda anota¸c˜ao Contamos, por isso, em breve anotar auto- dos textos aqui descrita. maticamente toda a cole¸c˜aocom entidades men- Agradecemos `aequipa de HPC da Universi- cionadas (al´em de an´alisemorfossint´atica), de dade de Oslo, assim como ao grupo Sigma, o forma a caracteriz´a-lausando informa¸c˜aodesta apoio computacional, a Tino Didrichsen o apoio anota¸c˜ao. em rela¸c˜aoao vislcg3, e a Ranka Stankovi´co Quanto `aobten¸c˜aoautom´aticade redes de apoio em rela¸c˜aoao sistema de convers˜ao“NER personagens, trabalho inicial usando uma iden- and Beyond”. tifica¸c˜aopreliminar das v´ariasmaneiras de no- Finalmente, agradecemos a todos os elemen- mear uma mesma pessoa em algumas obras, foi tos da Linguateca que leram e comentaram este j´arelatado por Santos & Freitas(2019). Ser´a artigo, e a Bruno Martins e a Jos´eJo˜aoDias de preciso desenvolver um processo de o realizar Almeida por um trabalho aturado de revis˜aocom (semi)automaticamente, de forma a podermos muitas sugest˜oespertinentes. comparar cem ou mais redes de forma an´aloga `ade Dekker et al.(2019), mas isso ter´ade ficar para uma pr´oximaocasi˜ao. Referˆencias Tamb´empretendemos realizar a identifica¸c˜ao dos lugares mencionados na literatura como um Bamman, David, Sejal Popat & Sheng Shen. todo, como inicialmente discutido por Sanches 2019. An annotated dataset of literary entities. et al.(2019), caracterizando os romances passa- Em Conference of the North American Chapter dos no campo ou na cidade, identificando os cen- of the Association for Computational Linguis- tros de poder e de referˆencia,e eventualmente tics, 2138–2144. 10.18653/v1/N19-1220. quais as conota¸c˜oescom eles relacionadas, na es- Barbosa, Heloisa Gon¸calves & Lia Wyler. 2009. teira de Cooper & Gregory(2011). Este ´eum Brazilian tradition. Em Gabriela Saldanha & trabalho — paralelo — em progresso, mas que Mona Baker (eds.), Routledge Encyclopedia of j´apermitiu verificarmos que a maior parte das Translation Studies, 326–332. entidades mencionadas que aqui referimos como “lugares” n˜aoidentificam lugares no mapa, real Bick, Eckhard. 2000. The system ”Pala- ou fict´ıcio,mas sim quest˜oesde identidade, abs- vras”: Automatic grammatical analysis of Por- tractas, ou metonimicamente aplicadas. tuguese in a constraint grammar framework: Finalmente, como j´areferido na sec¸c˜aoante- Aarhus University. Tese de Doutoramento. rior, encontra-se tamb´emem curso uma inves- Bick, Eckhard. 2006. Functional aspects in Por- tiga¸c˜aosobre se h´adiferen¸cas sistem´aticasna tuguese NER. Em Renata Vieira, Paulo Qua- men¸c˜aode pessoas (e personagens) de acordo resma, Maria da Gra¸caVolpes Nunes, Nuno J. com o seu g´eneroe, em caso positivo, quais. Mamede, Cl´audiaOliveira & Maria Carme- lita Dias (eds.), Computational Processing of Agradecimentos the Portuguese Language (PROPOR), 80–89. 10.1007/11751984_9. Estamos gratos `aa¸c˜aoCOST “Distant reading Bick, Eckhard. 2007. Automatic semantic role for European literary history” sem a qual este annotation for Portuguese. Em Workshop em trabalho n˜aoteria existido. A a¸c˜ao´efinanciada Tecnologia da Informa¸c˜aoe da Linguagem Hu- pela COST e pela Uni˜aoEuropeia, atrav´esdo mana (TIL), 1715–1719. programa Horizon 2020. Sem a equipa do COST portuguˆesn˜aoteria sido poss´ıvel criar a cole¸c˜ao. Cooper, David & Ian N. Gregory. 2011. Nomeadamente: a Raquel Amaro, Paulo Silva Mapping the English lake district: A li- Pereira e Isabel Ara´ujoBranco, assim como `as terary GIS. Transactions of the Insti- diversas revisoras contratadas. Al´emdisso, foi tute of British Geographers 36(1). 89–108. muito apreciado o apoio dos l´ıderesdo grupo de 10.1111/j.1475-5661.2010.00405.x. Avaliando entidades mencionadas na cole¸c˜aoELTeC-por Linguamatica´ – 49

Dekker, Niels, Tobias Kuhn & Mariekke van Odebrecht, Carolin, Lou Burnard & Chris- Erp. 2019. Evaluating named entity recog- tof Sch¨och (eds.). 2020. European Literary nition tools for extracting social networks Text Collection (ELTeC). COST Action Dis- from novels. PeerJ Computer Science 5(189). tant Reading for European Literary History 10.7717/peerj-cs.189. (CA16204). 10.5281/zenodo.4274954. de Does, Jesse, Katrien Depuydt, Karina Van Version 1.0.0, November 2020. Dalen-Oskam & Maarten Marx. 2017. Names- Sanches, Danielle, Daniel Alves & Diana Santos. cape: named entity recognition from a literary 2019. O projeto BILLIG: aplicando sistemas perspective. Em CLARIN in the Low Coun- de informa¸c˜aogeogr´aficae lingu´ısticacompu- tries, 361–370. tacional ao estudo da literatura. Apresenta¸c˜ao ELTeC. 2018. Sampling criteria for the ELTeC. no Primeiro Encontro sobre leitura distante em Relat´oriot´ecnico.COST Action CA16204 – portuguˆes. WG1. Santos, Diana. 2020. Cole¸c˜ao portuguesa ELTeC. 2019. Annotation guidelines for named de romances e novelas (ELTeC-por). entities in ELTeC corpus. Relat´oriot´ecnico. 10.5281/zenodo.4271644. Vers˜aov0.9.0, COST Action CA16204 – WG2. novembro de 2020. Freitas, Cl´audia,Elvis de Souza & Lu´ısaRocha. Santos, Diana & Nuno Cardoso (eds.). 2007. HA- 2019. Quantificando e qualificando o sujeito REM, a primeira avalia¸c˜aoconjunta de siste- oculto em portuguˆes.Em Jornada de descri¸c˜ao mas de reconhecimento de entidades mencio- do Portuguˆes, s/pp. nadas para portuguˆes: documenta¸c˜aoe actas do encontro. Linguateca. Frontini, Francesca, Carmen Brando, Joanna Byszuk, Ioana Galleron, Diana Santos & Santos, Diana & Cl´audiaFreitas. 2019. Estu- Ranka Stankovi´c.2020. Named entity recog- dando personagens na literatura lus´ofona.Em nition for distant reading in ELTeC. Em CLA- Symposium in Information and Human Lan- RIN Annual Conference 2020, 37–41. guage Technology (STIL), 48–52. Hall, Johan & Jens Nilsson. 2005. Converting de- Santos, Diana, Cl´audiaFreitas & Jo˜aoMarques pendency to MALT-XML. Relat´orio Lopes. 2018. Ler e estudar a literatura lus´ofona t´ecnico.Computer Science, V¨axj¨oUniversity. como parte da literatura mundial: recursos Herrmann, J. Berenike, Carolin Odebrecht, Di- para leitura distante em portuguˆes.Em Suemi ana Santos & Pieter Francois. 2020. Towards Higuchi & Cl´audioJos´eSilva Ribeiro (eds.), I modeling the european novel. introducing EL- Congresso Internacional em Humanidades Di- TeC for multilingual and pluricultural distant gitais no Rio de Janeiro (HdRio2018), 375– reading. 10.17613/tfbp-p625. Presenta- 383. CPDOC/FGV. tion at the Digital Humanities Conference. Santos, Diana, Nuno Seco, Nuno Cardoso & Rui Krug, Markus, Lukas Weimer, Isabella Reger, Vilela. 2006. HAREM: an advanced NER eva- Luisa Macharowsky, Stephan Feldhausa, Frank luation contest for Portuguese. Em Confe- Puppe & Fotis Jannidis. 2018. Description of a rence on Language Resources and Evaluation corpus of character references in german novels (LREC), 1986–1991. - DROC [Deutsches ROman Corpus]. Relat´orio Stankovi´c,Ranka, Diana Santos, Francesca Fron- t´ecnico.Georg-August-Universit¨at,G¨ottingen. tinia, TomaˇzErjavec & Carmen Brando. 2019. LDC. 2005. ACE (Automatic Content Extrac- Named entity recognition for distant reading tion) English annotation guidelines for enti- in several european literatures. Apresenta¸c˜ao ties, version 5.6.1. Relat´oriot´ecnico.Linguistic na Digital Humanities Conference. Data Consortium. Valaa, Hardik, David Jurgens, Andrew Piper Lee, John & Chak Yan Yeung. 2012. Extrac- & Derek Ruths. 2015. Mr. Bennet, his co- ting networks of people and places from lite- achman, and the archbishop walk into a bar rary texts. Em Pacific Asia Conference on but only one of them gets recognized: On Language, Information and Computation, 209– the difficulty of detecting characters in li- 218. terary texts. Em Conference on Empirical Methods in Natural Language Processing, 769– Mota, Cristina & Diana Santos (eds.). 2008. De- 774. 10.18653/v1/D15-1088. safios na avalia¸c˜aoconjunta do reconhecimento de entidades mencionadas: O segundo HA- REM. Linguateca.

Proposta recebida em Maio 2020 e aceite para publica¸c˜aoem Novembro 2020.

Avalia¸c˜aode recursos computacionais para o portuguˆes Evaluating computational resources for Portuguese

Matilde Gon¸calves Lu´ısaCoheur Instituto Superior T´ecnico Instituto Superior T´ecnico Universidade de Lisboa Universidade de Lisboa INESC-ID Lisboa INESC-ID Lisboa [email protected] [email protected] Jorge Baptista Ana Mineiro Universidade do Algarve Instituto de Ciˆenciasda Sa´ude INESC-ID Lisboa Universidade Cat´olicaPortuguesa [email protected] Centro de Investiga¸c˜aoInterdisciplinar em Sa´ude [email protected]

Resumo mance. In this work, we propose an evaluation of to- ols, publicly available and free, that perform the tasks Tˆemsido desenvolvidas v´ariasferramentas para of Part-of-Speech Tagging and Named Entity Recog- o processamento da l´ınguaportuguesa. No entanto, nition, for the Portuguese language. We evaluate devido a escolhas variadas na base dos comporta- twelve different models for the first task and eight for mentos destas ferramentas (diferentes op¸c˜oesde pr´e- the second. All the resources used in this evaluation processamento, diferentes conjuntos de etiquetas mor- (mapping tables between labels, testing corpora, etc.) fossint´aticase de dependˆencias, etc.), torna-se dif´ıcil will be made available, allowing to replicate/fine-tune ter uma ideia do desempenho comparativo de cada the results here presented. We also present a qualita- uma. Neste trabalho, avaliamos um conjunto de fer- tive analysis of two dependency parsers. To the best ramentas gratuitas e publicamente dispon´ıveis, que of our knowledge, no recent work that considers the realizam as tarefas de Etiqueta¸c˜aoMorfossint´aticae recent available tools, was carried out for the Portu- de Reconhecimento de Entidades Mencionadas, para guese language. a l´ıngua portuguesa. S˜aotidos em conta doze mo- delos diferentes para a primeira tarefa e oito para a Keywords segunda. Todos os recursos usados nesta avalia¸c˜ao natural language processing, evaluation of resources, (tabelas de mapeamento de etiquetas, corpora de re- portuguese language, part-of-speech tagging, named ferˆencia,etc.) s˜aodisponibilizados, permitindo repli- entity recognition, dependency parsing car/afinar os resultados. Apresentamos ainda um es- tudo qualitativo de dois analisadores de dependˆencias. N˜aotemos conhecimento de nenhum trabalho similar recente, isto ´e,que tenha em conta as ferramentas atu- 1. Introdu¸c˜ao ais dispon´ıveis, realizado para a l´ıngua portuguesa. Palavras chave A ´area do Processamento da Linguagem Na- tural (PLN) encontra-se em profunda expans˜ao processamento da linguagem natural, avalia¸c˜aode re- e em Portugal n˜ao´eexcep¸c˜ao. Se h´aalguns cursos, l´ınguaportuguesa, an´alisemorfosint´atica,re- anos os trabalhos computacionais ligados `al´ıngua conhecimento de entidades mencionadas, an´alisede portuguesa eram de pura investiga¸c˜ao,hoje em dependˆencias dia v´ariasempresas tˆemprojetos neste campo, desenvolvendo sistemas de pesquisa em dados m´edicos,agentes virtuais, sistemas de tradu¸c˜ao, Abstract etc. Do mesmo modo, v´ariosagentes interessa- dos utilizam ferramentas que operam sobre o por- There are several tools for the Portuguese lan- tuguˆese, apesar de a l´ınguainglesa continuar a guage. However, and due to different choices at ser imbat´ıvel em termos de recursos dispon´ıveis, the basis of these tools’ behaviour (different pre- existem actualmente v´ariasferramentas gratui- processing, different labels, etc.), it becomes difficult tas que oferecem modelos pr´e-treinados(ou facil- to have an idea of each one’s comparative perfor- mente trein´aveis) para a l´ınguaportuguesa, em DOI: 10.21814/lm.12.2.331 Linguamatica´ — ISSN: 1647–0818 This work is Licensed under a Creative Commons Attribution 4.0 License Vol. 12 N´um. 2 2020 - P´ag. 51–68 52– Linguamatica´ Matilde Gon¸calves, Lu´ısa Coheur, Jorge Baptista & Ana Mineiro especial para as variantes do portuguˆeseuropeu cial destaque para as tabelas de mapeamento de e do Brasil. Coloca-se, ent˜ao,a quest˜aode es- etiquetas. Estas permitem avaliar os sistemas so- colher a ferramenta mais adequada para a tarefa bre a mesma referˆencia,sendo o ponto que maior em m˜aos.V´arios trabalhos tˆem-sefocado na ava- dificuldades acarreta ao levar a cabo uma tarefa lia¸c˜aode ferramentas (Gamallo & Garcia, 2013), de avalia¸c˜aocom sistemas t˜aovariados, os quais al´emdas que tˆemsido levadas a cabo no qua- retornam etiquetas diferentes, em especial na ta- dro de diferentes fora de avalia¸c˜aoconjunta para refa de EMS. De notar, igualmente, que neste a l´ınguaportuguesa, tendo como objectivo deter- artigo v˜aoser avaliadas apenas ferramentas dis- minar o estado da arte em v´ariastarefas de PLN. pon´ıveis publica e gratuitamente para a l´ıngua Algumas destas avalia¸c˜oesconjuntas focaram-se portuguesa. Al´emdisso, apresentamos um es- na avalia¸c˜aode ferramentas que realizam tare- tudo qualitativo de duas ferramentas que reali- fas de base, nomeadamente Etiqueta¸c˜ao Mor- zam a tarefa de An´alisede Dependˆencias(AD), fossint´atica(EMS) — Morfo-olimp´ıadas(Santos tendo em conta v´ariosfactores, tais como a pon- et al., 2003)1 — e Reconhecimento de Entidades tua¸c˜ao,a segmenta¸c˜aoe a etiquetagem morfos- Mencionadas (REM) — MiniHAREM, primeiro e sint´atica,dos quais dependem as dependˆencias segundo HAREM (Santos & Cardoso, 2007; San- obtidas. De notar que se trata de um estudo qua- tos et al., 2008), bem como IberLEF-2019 (Col- litativo das sa´ıdasde dois sistemas, sem qualquer lovini et al., 2019). Outras avalia¸c˜oesvisaram pretens˜aode generalidade ou de quantificar essas tarefas de mais alto n´ıvel, tais como determinar observa¸c˜oes. a similaridade semˆantica entre duas frases (Fon- As contribui¸c˜oesdeste trabalho s˜ao,pois: seca et al., 2016). Todas estas competi¸c˜oess˜ao tipicamente montadas por equipas de peritos em a constru¸c˜aode dois corpora de referˆencia, um PLN, respons´aveis pelos dados de treino, cole¸c˜oes para cada uma das tarefas (EMS e REM); douradas, etc. (Santos et al., 2003); do mesmo a adapta¸c˜aodos corpora de referˆenciatendo modo, em todas estas em conta os diferentes pr´e-processamentos dos competi¸c˜oes participam usualmente equipas dados, realizados pelas diversas ferramentas; que fazem a sua investiga¸c˜aoem PLN. Ora, nos dias de hoje, mais do que saber exa- os scripts de convers˜aoentre as etiquetas de tamente qual o estado da arte na realiza¸c˜aode cada ferramenta e as etiquetas dos corpora de uma tarefa, os n˜ao-especialistas precisam de po- referˆencia; der decidir (rapidamente) que ferramentas usar. a avalia¸c˜aode nove ferramentas (doze modelos Dada toda a oferta actual, perdemo-nos facil- diferentes) na tarefa de EMS; mente na avalia¸c˜aode ferramentas. Assim, neste a avalia¸c˜aode oito modelos distintos na tarefa artigo, focamo-nos na avalia¸c˜aode ferramentas de REM; que realizam as tarefas de EMS e REM para a l´ıngua portuguesa (portuguˆeseuropeu). No a avalia¸c˜ao(qualitativa) de dois analisadores entanto, n˜ao ´e nosso objectivo comparar de- na tarefa de AD. talhadamente as v´ariasferramentas e escolher a vencedora com base em sofisticados corpora Apesar de, ao longo dos anos, v´ariostrabalhos de referˆenciaanotados, tal como realizado em se focaram na avalia¸c˜aode ferramentas para a avalia¸c˜oes anteriores, nomeadamente nas leva- l´ıngua portuguesa, n˜aotemos conhecimento de das a cabo pela Linguateca2, mas mostrar como, um trabalho similar a esta escala. com base numa metodologia simples mas cor- Este artigo est´aorganizado como se segue: reta, se pode ter uma ideia da utilidade de na Sec¸c˜ao2, apresentamos as ferramentas em uma ferramenta e/ou modelos associados, conso- an´alisee, na Sec¸c˜ao3, todo o setup experimental. ante as necessidades da aplica¸c˜aofinal em vista. A Sec¸c˜ao4 trata os resultados relativos `aEMS Tamb´emn˜ao´enosso objetivo trazer os utiliza- e a Sec¸c˜ao5, os resultados relativos `atarefa de dores para uma avalia¸c˜ao. No entanto, al´em REM. Finalmente, na Sec¸c˜ao6, apresenta-se o da facilidade de instala¸c˜ao e de utiliza¸c˜ao de estudo relativo `aAD e, na Sec¸c˜ao7, resume-se cada ferramenta, mostramos como estas podem as principais conclus˜oese discute-se o trabalho ser testadas, dando pistas sobre a sua aplicabili- futuro. dade. Todo o c´odigousado, bem como recursos lingu´ısticoscriados, est˜aodispon´ıveis3, com espe-

1https://www.linguateca.pt/Morfolimpiadas/ 2http://www.linguateca.pt 3https://gitlab.hlt.inesc-id.pt/lcoheur/ptools Avalia¸c˜aode recursos computacionais para o portuguˆes Linguamatica´ – 53

2. Ferramentas em an´alise conjunto de programas para a linha de coman- dos chamado NLTK-Trainer8 que permite ao uti- Nesta sec¸c˜ao,s˜aodescritas as ferramentas e mo- lizador abstrair-se da programa¸c˜ao, facilitando delos pr´e-treinados,desenvolvidos para o proces- o treino de modelos presentes na ferramenta, a samento de portuguˆes,para as tarefas de EMS e avalia¸c˜aodesses modelos e a an´alisede corpora. REM (e, em dois casos, de AD), e disponibiliza- A instala¸c˜aoda plataforma NLTK encontra-se dos gratuitamente. A maioria destas ferramen- documentada para cada sistema operativo9. Por tas fornece modelos pr´e-treinadospara as tarefas outro lado, a utiliza¸c˜aodas componentes que a em estudo. As linguagens de programa¸c˜aodes- ferramenta oferece ´efacilitada com exemplos de tas ferramentas alternam entre o Java, o C++ utiliza¸c˜ao,incluindo a realiza¸c˜aode tarefas para e o Python, e, de um modo geral, apresentam a l´ınguaportuguesa10. documenta¸c˜ao,o que torna relativamente f´acil a sua instala¸c˜aoe utiliza¸c˜ao. Algumas destas ferramentas podem ser usadas em linha de co- 2.3. OpenNLP mando, n˜aoexigindo muitos conhecimentos de O OpenNLP (Apache Software Foundation, programa¸c˜ao. 2014)11 ´euma biblioteca para Java, que fornece modelos pr´e-treinados,inclusive para portuguˆes, 2.1. FreeLing para a tarefa de EMS. A documenta¸c˜aopara a instala¸c˜aoda ferramenta n˜aose encontra refe- O FreeLing (Padr´o, 2012)4 ´euma biblioteca open renciada na p´aginada ferramenta12, o que difi- source em C++, que disponibiliza modelos pr´e- cultou a instala¸c˜ao. No entanto, no site da fer- treinados para o portuguˆes,para (entre outras) as ramenta, existe um guia de referˆenciabem estru- tarefas de EMS e REM. Encontra-se dispon´ıvel turado, que descreve os modos de utiliza¸c˜aoda um manual de utilizador5 completo e bem estru- ferramenta, o procedimento para treino de mo- turado, no qual s˜aodescritos os procedimentos de delos e a execu¸c˜aode cada componente com base instala¸c˜ao,importa¸c˜aopara outras linguagens de em modelos pr´e-treinados. Estas informa¸c˜oes, programa¸c˜ao,o sistema de etiquetas, etc. Ape- s˜aoacompanhadas por exemplos. O OpenNLP sar de a maioria das tarefas de FreeLing estar oferece ainda um modo de utiliza¸c˜aobaseado na dispon´ıvel atrav´esde linha de comandos, algu- execu¸c˜aode programas na linha de comandos. mas funcionalidades apenas s˜aoacess´ıveis usando Assim, para treinar, testar e aplicar esta ferra- a ferramenta como biblioteca. menta com modelos pr´e-treinadosnas diferentes tarefas de PLN, n˜aos˜aoexigidos conhecimentos de programa¸c˜ao.Por ser uma biblioteca direcio- 2.2. NLTK nada para a linguagem de programa¸c˜aoJava, a sua importa¸c˜aopara Python requer uma compo- O NLTK (Bird et al., 2009)6 ´euma das plata- nente que fa¸caa liga¸c˜ao.Para tal, neste trabalho formas mais utilizadas em PLN. N˜aodisp˜oede usou-se a interface nltk-opennlp13. modelos pr´e-treinadospara o portuguˆes,mas ofe- rece v´ariasfuncionalidades (implementadas em Python), bem como v´arios corpora (incluindo 2.4. NLPyPort em portuguˆes europeu), que permitem criar mo- delos para v´arias tarefas de PLN. Os cor- O NLPyPort (Ferreira et al., 2019b,a)14 (Python) pora dispon´ıveis para o processamento de texto realiza as tarefas de EMS e REM, disponibili- em portuguˆesfazem parte do projeto Floresta zando os modelos criados. Os recursos usados Sint´atica7. De notar que os corpora do Flo- pelo NLPyPort, `aexcep¸c˜aodos da tarefa de iden- resta Sint´atica permitem treinar modelos ca- tifica¸c˜aodo lema, s˜aobaseados em modelos e pazes de realizar a tarefa de EMS, mas n˜ao fun¸c˜oesda ferramenta NLTK, previamente apre- contˆem informa¸c˜ao sobre entidades nomeadas, sentada. A` fun¸c˜aogen´ericade divis˜aoem tokens pelo que a realiza¸c˜aoda tarefa de REM depende 8 da existˆenciade outros corpora. Acess´ıvel em https://github.com/japerk/nltk- trainer e documentado em https://nltk- O uso desta plataforma requer algum conhe- trainer.readthedocs.io/en/latest/ cimento em programa¸c˜ao. Contudo, existe um 9https://www.nltk.org/install.html 10http://www.nltk.org/howto/portuguese_en.html 4http://nlp.lsi.upc.edu/freeling/index.php/ 11http://opennlp.apache.org/ 5https://freeling-user-manual.readthedocs.io/ 12O procedimento da instala¸c˜aoencontra-se na p´agina en/latest/ https://opennlp.apache.org/building.html 6http://www.nltk.org 13https://github.com/paudan/opennlp_python 7https://www.linguateca.pt/Floresta/. 14https://github.com/jdportugal/NLPyPort 54– Linguamatica´ Matilde Gon¸calves, Lu´ısa Coheur, Jorge Baptista & Ana Mineiro da ferramenta NLTK (word tokenize), o NLPy- fordNLP ´euma interface para Python da ferra- Port adiciona uma fun¸c˜aode identifica¸c˜aode pro- menta Stanford CoreNLP, em Java, que o grupo nomes cl´ıticose contra¸c˜oes.De notar que existe Stanford NLP disponibiliza. A interface para uma vers˜aoanterior desta ferramenta compat´ıvel Python requer conhecimentos em programa¸c˜ao. com projetos desenvolvidos na linguagem de pro- No entanto, as mesmas funcionalidades que o grama¸c˜aoJava (Rodrigues et al., 2018)15. StanfordNLP apresenta podem ser executadas por via da linha de comandos, usando a ferra- menta principal (Stanford CoreNLP). Existem 2.5. Polyglot tutoriais20 que descrevem os passos da instala¸c˜ao O Polyglot (Al-Rfou, 2015)16 ´euma biblioteca e utiliza¸c˜aodesta biblioteca, assim como exem- plos para as diferentes tarefas de PLN, nomeada- para Python que suporta funcionalidades que 21 permitem realizar v´ariastarefas de PLN para mente para as de EMS e REM . diversas l´ınguas, incluindo as de EMS e REM. Disp˜oeainda de modelos pr´e-treinadoscapazes 2.8. TreeTagger de levar a cabo ambas as tarefas em an´alise.Por consistir numa biblioteca (Python), a sua uti- Das tarefas em estudo, o TreeTagger (M`arquez liza¸c˜aopressup˜oealguma experiˆenciacom pro- 22 17 & Rodr´ıguez, 1998) realiza apenas a tarefa de grama¸c˜ao. A documenta¸c˜ao desta ferramenta EMS para o portuguˆeseuropeu, oferecendo mo- encontra-se bem estruturada e os procedimentos delos pr´e-treinados. Os procedimentos relativos para a sua instala¸c˜aoe importa¸c˜aoest˜aodescritos `asua instala¸c˜aoe uso s˜aodescritos de forma clara de forma clara. A documenta¸c˜aoinclui tamb´em no site da ferramenta. O modo de utiliza¸c˜aode tutoriais e informa¸c˜oessobre cada tarefa, o que TreeTagger n˜aoimplica conhecimentos de pro- simplifica o seu uso. grama¸c˜ao,pois pode ser realizado atrav´esda li- nha de comandos. A ferramenta pode ser igual- 2.6. SpaCy mente importada para Python por via de uma componente intermedi´aria, como por exemplo, O SpaCy (Honnibal et al., 2020)18 ´e uma bi- treetagger-python23. S˜aotamb´emdisponibiliza- blioteca que incorpora modelos pr´e-treinadosde dos tutoriais24. v´ariasl´ınguas, inclusive de portuguˆes, para as tarefas de EMS, REM e AD. Esta ferramenta foi pensada para ser importada como biblioteca 2.9. LinguaKit em programas Python e n˜aodisponibiliza outras op¸c˜oesde uso. A sua documenta¸c˜aocont´em,en- O LinguaKit (Gamallo & Garcia, 2017a) une tre outras informa¸c˜oes,procedimentos para a sua v´ariasferramentas de processamento da l´ıngua instala¸c˜ao,importa¸c˜aopara outras linguagens e natural permitindo a realiza¸c˜aode tarefas como a realiza¸c˜aodas diferentes tarefas de PLN, acom- lematiza¸c˜ao,an´alisede sentimentos, an´alisemor- panhados de exemplos, o que contribui para a fossint´atica,an´alisesint´atica,reconhecimento e sua usabilidade. No entanto, n˜aoexiste docu- classifica¸c˜aode entidades nomeadas, entre ou- menta¸c˜aosobre as etiquetas usadas, o que com- tras. As diferentes tarefas podem ser execu- tadas atrav´es da linha de comandos ou pela plicou a sua avalia¸c˜aono que respeita a tarefa 25 26 de EMS. vers˜ao web . No reposit´orio do LinguaKit encontram-se as instru¸c˜oes de instala¸c˜ao,proce- dimentos e exemplos de utiliza¸c˜aoda ferramenta 2.7. StanfordNLP atrav´esda linha de comandos.

19 O StanfordNLP (Qi et al., 2018) ´euma biblio- 20https://stanfordnlp.github.io/stanfordnlp/ teca para Python, que permite realizar v´ariasta- installation_usage.html#getting-started refas de PLN, incluindo EMS e REM. Tal como 21Por falta de mem´oriaRAM foi necess´ariousar o servi- o SpaCy, tamb´emrealiza AD. O StanfordNLP dor da Google (Google Colabs) para instalar a biblioteca (seguir estes passos: https://stanfordnlp.github.io/ oferece modelos pr´e-treinadospara 53 l´ınguas, stanfordnlp/). 22 inclusive para portuguˆes. Na realidade, o Stan- https://www.cis.uni-muenchen.de/~schmid/ tools/TreeTagger/ 15https://github.com/rikarudo/NLPPORT. 23https://github.com/miotto/treetagger-python 16https://draquet.github.io/PolyGlot/ 24https://freeling-tutorial.readthedocs.io/en/ 17https://polyglot.readthedocs.io/en/latest/ latest/ Installation.html 25https://www.linguakit.com/es/analisis- 18http://www.spacy.io completo 19http://stanfordnlp.github.io/stanfordnlp/ 26https://github.com/citiususc/Linguakit Avalia¸c˜aode recursos computacionais para o portuguˆes Linguamatica´ – 55

2.10. Modelos pr´e-treinados para a ta- Tipo Fonte % refa de Reconhecimento de Entida- des Mencionadas Revistas Vis˜ao 30 Exame Inform´atica 29 O trabalho descrito por Pires(2017) fornece mo- Jornais Observador 27 delos pr´e-treinadospara a tarefa de REM, para o P´ublico 2 portuguˆeseuropeu. Estes modelos – doravante modelos-SIGARRA – foram treinados com as Livro 13 ferramentas OpenNLP, StanfordNLP, SpaCy27 e NLTK, com base no corpus SIGARRA NEWS. Tabela 1: Composi¸c˜aodo corpus de referˆencia. Neste trabalho, vamos tamb´emavaliar estes mo- delos tendo em conta a tarefa de REM. ponto de avalia¸c˜ao.Assume-se assim que os tex- tos que chegam `asdiferentes ferramentas est˜ao 3. Setup Experimental limpos de erros ortogr´aficos. Seguidamente, foram anotadas as classes gra- O primeiro passo foi criar um corpus de referˆencia maticais e informa¸c˜oes de flex˜ao associadas a (ou colec¸c˜aodourada ou corpus de teste) para as cada palavra e respetiva classe. Por exemplo, duas tarefas em an´alise. Esse corpus ´edescrito para um substantivo, al´emdo seu tipo (comum na Sec¸c˜ao 3.1. O segundo passo foi atender a ou pr´oprio), foram igualmente anotados o seu especificidades de cada ferramenta, o que levou g´eneroe n´umero.Da mesma forma, para os ver- a modifica¸c˜oesdo corpus de referˆencia(Sec¸c˜ao bos foram anotados o modo, o tempo, a pessoa e 3.2) no que respeita `asegmenta¸c˜aofeita pelas di- o n´umero. Repetiu-se este processo para as ou- ferentes ferramentas. De seguida, foram ainda tras classes gramaticais. A Tabela2 apresenta definidos v´arios scripts que transformam etique- a frequˆenciade cada classe e a Tabela3 lista tas do corpus criado nas etiquetas usadas pelas a frequˆenciadas entidades nomeadas na cole¸c˜ao diferentes ferramentas (Sec¸c˜oes 3.3e 3.4 para a dourada. convers˜aode etiquetas na tarefa de EMS e REM, De notar que esta tarefa de anota¸c˜aon˜aofoi respetivamente). Finalmente, apresentam-se as realizada por um perito. A ideia n˜ao´eter um medidas de avalia¸c˜ao,na Sec¸c˜ao 3.6. corpus perfeito sob o ponto de vista da anota¸c˜ao, mas um corpus que representasse o que um n˜ao- perito consideraria interessante/correto anotar. 3.1. Constru¸c˜aodo Corpus de Referˆencia

O corpus de referˆencia´ecomposto por 101 frases retiradas de revistas, jornais e livros portugue- 3.2. Adapta¸c˜ao`asdiferentes ferramentas ses, dispon´ıveis on-line. Para efeitos deste es- Como foi dito, cada ferramenta apresenta as suas tudo considerou-se um corpus de referˆenciare- particularidades no que respeita ao modo como duzido, ainda que constru´ıdotendo em conta al- processa texto, o que implica que a cole¸c˜aodou- guma diversidade e propor¸c˜aodas fontes utiliza- rada anterior n˜aopossa ser usada sem antes ser das, nomeadamente, por ser constitu´ıdopor dife- pr´e-processada de acordo com as caracter´ısticas rentes tipos de texto e, dentro de cada tipo, com de cada ferramenta. Por exemplo, a maior parte fontes diversas, para abranger diferentes usos da destas ferramentas n˜aodivide contra¸c˜oes. As- l´ıngua. Dessas frases, 59% pertencem a revistas sim, a cole¸c˜aodourada teve de ser adaptada a como a Vis˜ao28 e a Exame Inform´atica29, 29% s˜ao algumas ferramentas: Polyglot, NLTK, SpaCy e de jornais (jornal Observador30 e as restantes do OpenNLP. Por outro lado, as ferramentas Free- P´ublico31) e 13% pertencem ao livro “O Pr´ıncipe Ling e LinguaKit permitem unir locu¸c˜oese no- com Orelhas de Burro”, de Jos´eR´egio(Tabela1). mes compostos, sendo uma op¸c˜aoque decidi- Antes da anota¸c˜aodas frases, foram corrigidos mos explorar. Por exemplo, a locu¸c˜ao“a par- pequenos erros ortogr´aficos,pois este n˜aoera um tir de”, apesar de ter 3 palavras, ´evista como 27As instru¸c˜oespara o carregamento do modelo da fer- uma unidade lexical, o que ´erepresentado ligando ramenta SpaCy n˜aose ajustaram ao ficheiro, pelo que n˜ao os seus elementos por underscore: “a partir de”. foi poss´ıvel usar esse modelo. A raz˜aopode ter ficado a Esta particularidade implica que, para estas fer- dever-se `aincompatibilidade da vers˜aomais recente da ramentas, sejam anotadas como uma unidade as ferramenta com o modelo. locu¸c˜oese nomes compostos da colec¸c˜aodou- 28https://visao.sapo.pt 29https://visao.sapo.pt/exameinformatica/ rada, ao inv´esde serem anotados separadamente 30https://observador.pt. os elementos gramaticais que comp˜oemessas ex- 31https://www.publico.pt press˜oes. 56– Linguamatica´ Matilde Gon¸calves, Lu´ısa Coheur, Jorge Baptista & Ana Mineiro

Classes Sub-classes Frequˆencia Adjetivo (Adj) 179 Adv´erbio(Adv) Nega¸c˜ao(N) 15 Normal (G) 73 Conjun¸c˜ao(Conj) Coordenativa (C) 93 Subordinativa (S) 58 Determinante (Det) Artigo (Art) 468 Indefinido (Ind) 24 Possessivo (Poss) 14 Demonstrativo (Dem) 35 Interrogativo (Int) 2 Nome (Nom) Comum (C) 699 Pr´oprio(P) 109 Numeral (Num) 77 Preposi¸c˜ao(Prep) 525 Pronome (Pron) Pessoal (Pes) 23 Indefinido (Ind) 4 Relativo (Rel) 43 Demonstrativo (Dem) 16 Verbo (Verb) Auxiliar (Aux) 82 Indicativo (Ind) 142 Condicional (Cond) 3 Conjuntivo (Conj) 5 Ger´undio(Ger) 13 Partic´ıpioPassado (PP) 98 Infinitivo (Inf) 74

Tabela 2: Frequˆenciade cada classe morfossint´aticana cole¸c˜aodourada.

Classes Frequˆencia No que respeita `atarefa de Reconhecimento de Entidades Mencionadas, foram consideradas Organiza¸c˜ao 30 as entidades espec´ıficasde cada uma das ferra- Localiza¸c˜ao 22 mentas, de modo a que as sa´ıdas das diversas Pessoa 8 ferramentas fossem compatibilizadas com as en- Data 21 tidades consideradas na cole¸c˜aodourada. Tabela 3: Frequˆenciade cada classe de entida- des nomeadas na cole¸c˜aodourada. 3.3. Sobre as Classes Morfossint´aticas

Cada ferramenta tem o seu sistema de classes A forma como as unidades textuais s˜ao ou etiquetas morfossint´aticaspara as tarefas de segmentadas (segmenta¸c˜ao) varia igualmente.. PLN. O acesso a esta informa¸c˜ao facilita a Por exemplo, algumas ferramentas consideram convers˜aoautom´aticadas anota¸c˜oesda cole¸c˜ao “quarta-feira” como um ´unicotoken e outras se- dourada nas etiquetas das diferentes ferramen- param cada elemento da palavra (“quarta”, “-” tas. Esta tarefa n˜ao´e,de todo, trivial devido e “feira”). J´ao OpenNLP considera os verbos li- `asdiferen¸casnas etiquetas das ferramentas e, em gados a pronomes cl´ıticoscomo um ´unicotoken, alguns casos, devido `aindisponibilidade de um como sucede em “reuniram-se” e em “escondˆe- manual de utilizador que descrevesse o conjunto lo”. Esta variedade de caracter´ısticas, tornou de s´ımbolos poss´ıveis. E´ o caso da ferramenta ´arduaa compatibilidade da cole¸c˜aodourada prin- SpaCy, que n˜aopossui uma descri¸c˜aodas eti- cipal com todas as ferramentas, pelo que foram quetas morfossint´aticas.No entanto, foi poss´ıvel, criadas diferentes cole¸c˜oesdouradas, espec´ıficas na maioria dos casos, mapear sem problemas de para cada ferramenta. maior, as etiquetas usadas pelo corpus de re- Avalia¸c˜aode recursos computacionais para o portuguˆes Linguamatica´ – 57 ferˆencianas etiquetas das diferentes ferramentas. atribu´ıdaa um token quando o sistema n˜aocon- De notar ainda que algumas ferramentas contri- segue identificar a sua classe gramatical. Essa buem com etiquetas com uma maior granulari- etiqueta (“N”) corresponde `aclasse gramatical dade (por exemplo, o FreeLing, tal como se ver´a nome. Assim, existem duas etiquetas diferentes adiante). (“N” e “n”) para a classe nome comum e deci- dimos tratar estas duas etiquetas como sendo a mesma. 3.3.1. NLTK, OpenNLP e NLPyPort

O sistema de etiquetas do NLTK corresponde ao 3.3.2. Polyglot e StanfordNLP conjunto de etiquetas com a categoria gramati- cal utilizado na anota¸c˜aodos corpora da Floresta As ferramentas Polyglot e StanfordNLP baseiam Sint´atica32. Quanto ao OpenNLP, n˜aose encon- as suas etiquetas nas da CoNLL-U (Buchholz trou, na documenta¸c˜aoda ferramenta, uma des- & Marsi, 2006), compostas por v´arioselementos cri¸c˜aodo conjunto de etiquetas para o modelo em que descrevem morfossintaticamente uma pala- portuguˆes,apenas para a l´ınguainglesa. No en- vra. Um dos elementos corresponde `aclasse gra- 33 tanto, verificou-se que o sistema de etiquetas do matical universal, UPOS ; outro dos elementos 34 OpenNLP ´esemelhante ao da ferramenta NLTK, vem do FEATS , que descreve informa¸c˜oesmor- existindo uma ligeira diferen¸caentre ambos no fol´ogicasassociadas `apalavra. Com este con- tratamento de sinais de pontua¸c˜ao:o OpenNLP junto universal de etiquetas, a correspondˆencia agrupa os sinais de pontua¸c˜aosob uma ´unicaeti- entre as anota¸c˜oes da cole¸c˜ao de referˆencia e queta, ao contr´ariodo NLTK, que considera cada as classes gramaticais realizou-se de uma forma sinal de pontua¸c˜ao como uma classe distinta. mais simples. No entanto, o Polyglot s´oapre- Desta forma, para a convers˜aodas anota¸c˜oes, senta informa¸c˜oessobre a classe gramatical uni- procedeu-se de maneira semelhante `ada ferra- versal. Em particular, o conjunto de etique- menta NLTK, `aexce¸c˜aodos sinais de pontua¸c˜ao tas morfossint´aticasusado nos modelos do Poly- que precisaram de um outro processamento. Por glot corresponde `asclasses gramaticais princi- outro lado, as etiquetas consideradas nestas duas pais da Tabela2, como adjetivo, determinante, ferramentas n˜aocontˆem informa¸c˜aode flex˜ao. adv´erbio,etc. Al´emdisso, o NLTK e o OpenNLP distinguem apenas verbos no infinitivo, ger´undio e partic´ıpio 3.3.3. SpaCy passado; todos as restantes formas verbais s˜ao classificadas de forma indiferenciada como “ver- No que respeita ao SpaCy, e tal como dito ante- bos finitos”. Relativamente aos tipos de Prono- riormente, apesar de ter uma fun¸c˜aoque permite mes s´os˜aoidentificados 3 tipos (v.g. determi- obter a descri¸c˜aode uma determinada etiqueta, o nativos, pessoais e independentes). A existˆencia sistema n˜aodisponibiliza um gloss´ariocompleto de uma descri¸c˜aodo conjunto de etiquetas faci- com a descri¸c˜aodas etiquetas relativas `aan´alise litou a convers˜aodas anota¸c˜oesda cole¸c˜aodou- de texto em portuguˆes,o que dificultou a com- rada, apesar de n˜aoser totalmente clara a ca- preens˜aodos resultados obtidos. Assim, o seu sis- tegoriza¸c˜aode alguns determinantes e pronomes, tema de etiquetas n˜ao´eclaro, apesar de, aparen- como por exemplo a classe pron-det (pronome de- temente, se basear igualmente nos mesmos for- terminativo). Por esta raz˜ao,as etiquetas relati- malismos standard do Polyglot e StanfordNLP. vas aos pronomes e determinantes ser˜aotratadas No entanto, partilha as etiquetas relativas aos `aparte. pronomes e determinantes do NLTK e OpenNLP. Quanto ao NLPyPort, avaliou-se apenas o mo- A convers˜aoautom´atica tornou-se mais complexa delo pr´e-treinadopara a tarefa de EMS. Dado para esta ferramenta. que os recursos da ferramenta NLPyPort se ba- seiam na ferramenta NLTK e o modelo para 3.3.4. FreeLing, LinguaKit e TreeTagger esta tarefa foi treinado com os corpora Bosque da Floresta Sint´atica e Mac-Morpho (Fonseca No manual de utilizador da ferramenta FreeLing & Rosa, 2013), o conjunto de etiquetas mor- encontram-se descritos os conjuntos de etiquetas fossint´aticasassemelha-se ao conjunto de etique- morfossint´aticase de entidades nomeadas. Al´em tas da ferramenta NLTK. Contudo, tal como no das classes gramaticais principais, as etiquetas OpenNLP, os sinais de pontua¸c˜aos˜aoagrupa- contˆeminforma¸c˜oessobre outros aspetos mor- dos numa mesma etiqueta, punc. Existe ainda fol´ogicoscomo o g´enero,n´umero,modo e tempo uma etiqueta adicional (etiqueta por omiss˜ao) 33https://universaldependencies.org/u/pos/. 34https://universaldependencies.org/u/feat/ 32https://www.linguateca.pt/ index.html 58– Linguamatica´ Matilde Gon¸calves, Lu´ısa Coheur, Jorge Baptista & Ana Mineiro verbal. Por exemplo, para os adjetivos, as classes ´ultimaetiqueta corresponde a entidades nomea- existentes tˆemem conta o tipo, o g´enero,grau e das que n˜aose integram em nenhuma das cate- n´umero.O sistema de etiquetas desta ferramenta gorias anteriores. No entanto, por ser uma classe ´eextenso, tornando a convers˜aoautom´aticacom- amb´ıgua,tokens que n˜aos˜aoreconhecidos como plexa. Por´em,a descri¸c˜aoclara de cada classe no entidades na cole¸c˜aodourada como “Ver˜ao”s˜ao manual de utilizador evitou dificuldades na cor- classificados como Outros. Para facilitar a ava- respondˆenciaentre as anota¸c˜oesda cole¸c˜aodou- lia¸c˜aoautom´atica,foi adicionada mais uma eti- rada e as etiquetas. De acordo com os autores35, queta (“O”) que identifica os tokens que n˜ao o LinguaKit tem as mesmas etiquetas que o Free- s˜aoentidades. Finalmente, quanto ao Polyglot, Ling36. No entanto, foram encontradas pequenas este deteta apenas 3 classes de entidades: Pes- diferen¸cas. soa (I-PER), Localiza¸c˜ao(I-LOC) e Organiza¸c˜ao O TreeTagger utiliza um sistema de etiquetas (I-ORG). Tal como para a ferramenta anterior semelhante, no qual, al´emdas classes gramaticais foi adicionada a etiqueta “O”, com o mesmo principais, s˜aorepresentadas outras informa¸c˜oes significado. morfol´ogicasdas palavras37. No entanto, as clas- ses n˜aopossuem o mesmo n´ıvel de especificidade 3.5. Sobre a An´alisede Dependˆencias que as do FreeLing. Por exemplo, apenas a classe dos nomes incorpora informa¸c˜oessobre flex˜aoem No que respeita `atarefa de AD, cinco frases fo- g´eneroe n´umero. A descri¸c˜aodo conjunto das ram aleatoriamente retiradas do corpus e proces- classes tamb´em´eclara. Quanto `asetiquetas dos sadas pelas ferramentas SpaCy e StanfordNLP. verbos, s´oapresentam informa¸c˜aosobre o tipo As frases s˜aoas seguintes: do verbo (auxiliar ou principal) e os modos ver- bais. Tal como na ferramenta FreeLing, as con- 1. Num comunicado enviado `asredac¸c˜oes,o gabi- tra¸c˜oess˜aoresolvidas automaticamente e identifi- nete do primeiro-ministro fazia saber que con- cadas com o sinal “+”. Por exemplo, a contra¸c˜ao siderava que a interpreta¸c˜aoda lei que defen- “das” ´eidentificada com “SPS + DA” por ser a dia a demiss˜aoimediata de um governante por contra¸c˜aode uma Preposi¸c˜ao(SPS) com o Artigo neg´ociosde empresas de familiares com entida- Definido (DA) (“de + as”). des p´ublicas,mesmo que estas nada tivessem a ver com o titular de cargo pol´ıtico,“ultrapassa largamente, no seu ˆambito e consequˆencias,o 3.4. Sobre as Entidades Mencionadas que tem sido a pr´aticacorrente ao longo dos anos”. Como dito anteriormente, consideraremos os mo- delos pr´e-treinadospara a tarefa de REM, para o 2. Em 2016, v´ariosmembros do governo ameri- portuguˆeseuropeu, tais como descritos em Pi- cano que estavam a prestar servi¸cosem Ha- res(2017) (os modelos-SIGARRA) e treinados vana, Cuba , assim como os seus familiares , com as ferramentas OpenNLP, StanfordNLP e come¸carama queixar-se de uma s´eriede sin- NLTK, com base no corpus SIGARRA NEWS38. tomas neurol´ogicos,incluindo dificuldades de Este corpus ´ecomposto por 1.000 artigos reti- concentra¸c˜aoe mem´oria,tonturas e problemas rados da sec¸c˜aode not´ıcias do sistema de in- visuais e de equil´ıbrio. forma¸c˜aoda Universidade do Porto (SIGARRA) 3. Os sintomas foram associados `aexposi¸c˜aoa e, de acordo com Pires(2017), o seu conjunto sons repentinos e de grande intensidade e vo- de etiquetas corresponde a oito classes relaciona- lume de uma fonte desconhecida que os pa- das com o dom´ıniodos corpora: Hora, Evento, cientes reportam ter ouvido nas suas casas e Organiza¸c˜ao,Curso, Pessoa, Localiza¸c˜ao,Data e quartos de hotel. UnidadeOrganica. 4. Nem o seu marido, por´em,voltou a reparar No que respeita `asrestantes ferramentas, o nesse ind´ıcio que uma tarde lhe gelara nos FreeLing e o LinguaKit apresentam as seguin- l´abiospalavras de exprobra¸c˜aoe c´olera. tes classes de entidades e as respetivas etiquetas: Pessoa (NP00SP0), Localiza¸c˜ao(NP00G00), Or- 5. Um homem de 44 anos foi identificado. ganiza¸c˜ao(NP00O00) e Outros (NP00V00). Esta Seguidamente, os resultados do processa- 35https://gramatica.usc.es/pln/tools/ mento foram dados a um especialista, para CitiusTools.html an´alise, sem que fossem identificadas as ferra- 36 https://github.com/citiususc/Linguakit/blob/ mentas. Este analisou os resultados das frases master/tagger/tagset_pt-es-gl.html 37 dadas tendo em conta a pontua¸c˜ao,segmenta¸c˜ao, https://www.cis.uni-muenchen.de/~schmid/ tools/TreeTagger/data/Portuguese-Tagset.html. etiquetagem morfossint´aticae, finalmente, as de- 38rdm.inesctec.pt/ro/dataset/cs-2017-006 pendˆencias. Avalia¸c˜aode recursos computacionais para o portuguˆes Linguamatica´ – 59

3.6. Medidas de Avalia¸c˜ao o efeito. No entanto, alguns modelos tˆemas suas especificidades. Assim, para o modelo de bigra- Estando as etiquetas da cole¸c˜aodourada em con- mas, cada bigrama ´eum token, tal como identi- formidade com as etiquetas de cada ferramenta, o ficado pelo tokenizador; no caso de aparecer um pr´oximopasso consistiu em decidir que medidas token nunca visto no treino, decidiu-se atribuir, usar na avalia¸c˜ao.Opt´amospor usar a Micro- e por omiss˜ao,a etiqueta “n” (classe gramatical a Macro-M´ediada medida F1, tal como descritas Nome), por ser a classe mais comum. Nos casos por Jurafsky & Martin(2019) e implementadas em que os modelos requeriam a recolha de ca- 39 no scikit-learn , pois tamb´ems˜aousadas por racter´ısticas(features) dos dados, foram usadas outros trabalhos nesta ´area,tais como o proposto caracter´ısticasmuito simples, como a pr´opriapa- por Garcia & Gamallo(2015). lavra, a palavra anterior e a seguinte, se a palavra corrente come¸cava com mai´uscula,etc. A sele¸c˜ao 4. Etiqueta¸c˜aoMorfossint´atica das features dita o desempenho da ferramenta. No entanto, est´afora do ˆambito deste trabalho Come¸camospor discutir alguns aspectos relati- desenvolver um estudo exaustivo sobre as featu- vos aos modelos criados pelo NLTK. De seguida, res a utilizar. apresentamos e discutimos os resultados obtidos pelos diferentes modelos e ferramentas. 4.2. Resultados Globais A Tabela4 apresenta os resultados globais dos 4.1. Sobre o Modelos do NLTK diferentes modelos, tendo em conta a totalidade das etiquetas (de cada ferramenta) e conside- Todas as ferramentas com a excep¸c˜aodo NLTK rando a Micro- e a Macro-m´ediarelativas `ame- oferecem modelos pr´e-treinados. Assim, para dida F1, tal como definidas anteriormente. Deve- esta ferramenta, foram treinados v´ariosmode- mos real¸carque estes valores n˜aopermitem uma los. Um desses modelos ´eo modelo de Bigramas, compara¸c˜aototalmente justa dos diferentes mo- tal como apresentado nos manuais do NLTK. Fo- delos, pois, como dito anteriormente, os valores ram ainda implementados modelos baseados na de Micro- e Macro-M´ediada F1 s˜aocalculados M´aximaEntropia e ainda um modelo denomi- com base no conjunto de etiquetas de cada ferra- nado Perceptr˜ao,pois o OpenNLP fornece mo- menta, que varia entre estas. Assim, estes valores delos baseados nestes dois algoritmos e consi- devem dar apenas uma ideia geral. De modo a der´amosinteressante a compara¸c˜ao. De notar comparar de forma justa estes modelos, a sec¸c˜ao que poderiam ter sido implementados modelos seguinte detalha os valores para estas medidas mais adequados `apredi¸c˜aode sequˆencias,como sem ter em conta as informa¸c˜oesde flex˜ao. os HMM ou os CRF (Lafferty et al.(2001)) ou ainda modelos baseados em redes neuronais. No entanto, a ideia foi testar o que a ferramenta ofe- 4.3. Resultados por Classe Gramatical rece directamente. Todos estes modelos foram A Tabela5 permite comparar os diferentes mo- treinados nos corpora “Floresta Sint´atica”,dis- delos tendo em conta as categorias que tˆemem pon´ıveis com o NLTK40. De notar que a vers˜ao comum e sem ter em conta as informa¸c˜oesde dispon´ıvel no NLTK da Floresta Sint´atican˜ao flex˜ao. De notar que s˜aoapenas mostradas as cont´emalguns sinais de pontua¸c˜aocomo dois- classes gramaticais mais relevantes (‘Bg’ repre- pontos <:>, reticˆencias < >, parˆenteses cur- senta o modelo baseado em Bigramas, ‘P’ o Per- vos e o s´ımbolo de percentagem··· < % >, pelo ceptr˜ao, ‘ME’ a M´axima Entropia, ‘NLPy’ o que estes items n˜aos˜aoprevistos pelos diferentes NLPyPort, ‘PG’ o Polyglot, ‘TT’ o TreeTag- modelos. A divis˜aoem tokens das frases foi rea- ger, ‘FL’ o FreeLing, ‘StfNLP’ o StanfordNLP e lizada pela fun¸c˜ao word tokenize41. A cria¸c˜aode ‘ONLP’ o OpenNLP). As Tabelas6e7 apresen- qualquer um dos modelos n˜aorequer um grande tam os resultados para os dois grupos de modelos esfor¸co na ´oticade um inform´atico, pois con- que partilham algumas etiquetas espec´ıficas. siste em importar uma biblioteca pr´opriapara

39https://scikit-learn.org 4.4. Discuss˜ao 40Os modelos disponibilizados pelo OpenNLP, SpaCy e StanfordNLP tamb´emutilizam este corpus. Os melhores resultados globais s˜aoobtidos pelo 41 Esta fun¸c˜aotem a particularidade de mudar as aspas OpenNLP, M´axima Entropia, 91% de Macro- iniciais <“> de uma frase para dois acentos graves <``> e M´ediae aos 94% de Micro-M´edia,por´em,´eim- as finais <”> para duas plicas <00>. Por isso, ´enecess´aria uma reconvers˜aopara aspas, antes do treino e teste dos portante real¸carque o n´ıvel de detalhe do con- dados. junto de etiquetas da ferramenta n˜ao´et˜aofino 60– Linguamatica´ Matilde Gon¸calves, Lu´ısa Coheur, Jorge Baptista & Ana Mineiro

Ferramenta Micro-M´edia Macro-M´edia NLTK (Bigramas) 0.87 0.69 NLTK (Perceptr˜ao) 0.89 0.71 NLTK (M´aximaEntropia) 0.93 0.74 NLPyPort 0.86 0.83 Polyglot 0.79 0.68 Spacy 0.90 0.47 FreeLing 0.90 0.58 LinguaKit 0.83 0.48 TreeTagger 0.91 0.73 StanfordNLP 0.91 0.61 OpenNLP (Perceptr˜ao) 0.93 0.77 OpenNLP (M´aximaEntropia) 0.94 0.91

Tabela 4: Micro- e Macro-M´ediarelativos a F1 para os diferentes modelos.

NLTK NLPy SpaCy ONLP Classes PG TT FL LinguaKit StfNLP Bg P ME ME P Adj 0.76 0.82 0.83 0.75 0.63 0.89 0.92 0.96 0.81 0.94 0.88 0.85 G 0.91 0.84 0.85 0.89 Adv 0.81 0.77 0.81 0.80 0.46 0.85 0.82 0.81 N 0.97 0.97 0.93 0.97 C 0.97 0.95 0.96 0.97 0.94 0.95 0.97 0.94 0.97 0.97 0.97 0.98 Conj S 0.56 0.72 0.60 0.60 0.56 0.68 0.87 0.88 0.75 0.74 0.70 0.70 Det Art 0.95 0.93 0.96 0.97 - 0.97 0.94 0.99 0.95 0.98 0.96 0.97 C 0.82 0.91 0.93 0.81 0.93 0.95 0.94 0.98 0.92 0.98 0.94 0.94 Nom P 0.33 0.33 0.81 0.33 0.68 0.85 0.51 0.96 0.97 0.85 0.77 0.75 Num 0.84 0.95 0.98 0.83 0.72 0.96 0.98 0.95 0.80 0.97 0.94 0.97 Prep 0.95 0.95 0.96 0.97 0.85 0.96 0.97 0.99 0.95 0.96 0.96 0.96 Pron Pes 0.97 0.90 0.90 1.00 - 0.83 0.98 0.84 0.70 1.00 0.91 0.94 Verb Aux 0.00 0.84 0.00 0.00 0.00 0.73 Ind 0.88 0.82 0.83 0.81 0.85 0.88 0.94 0.97 0.88 0.96 0.97 Cond 0.50 * * 0.80 Conj 0.36 0.74 0.71 0.78 0.92 0.62 Ger 0.91 1.00 0.91 0.91 0.95 0.91 0.91 0.76 0.95 1.00 0.96 PP 0.82 0.95 0.92 0.82 0.94 0.96 0.95 0.79 0.93 0.96 0.96 Inf 0.89 0.93 0.95 0.89 0.91 0.92 0.94 0.91 0.95 0.96 0.95

Tabela 5: Valores de F1 para as categorias comuns. O * indica que o Condicional ´evisto como Indicativo por estes sistemas

Classes Polyglot TreeTagger FreeLing LinguaKit StanfordNLP Ind 0.96 1.00 0.96 0.91 Poss 1.00 1.00 0.70 1.00 Det 0.79 Dem 0.89 1.00 0.89 0.97 Int 0.00 0.00 0.00 1.00 Ind 0.46 0.89 0.43 0.75 Pron Rel0.70 0.93 0.94 0.88 0.94 Dem 0.79 0.86 0.76 0.90

Tabela 6: Valores de F1 para as ferramentas que tˆemas categorias Det e Pron mais finas Avalia¸c˜aode recursos computacionais para o portuguˆes Linguamatica´ – 61

NLTK NLPy SpaCy OpenNLP Classes Bigramas Perc. ME ME Perc. Pron-det 0.83 0.79 0.86 0.88 0.81 0.89 0.88 Pron-indp 0.80 0.88 0.82 0.79 0.91 0.86 0.88

Tabela 7: Valores de F1 para as etiquetas Pron-det e Pron-indp. A primeira cont´emos de- terminantes, pronomes demonstrativos, pronomes interrogativos, pronomes possessivos e pronomes relativos; a segunda os pronomes indefinidos e outros pronomes de outras categorias que expressam imprecis˜ao. quanto nos modelos anteriores, pois, tal como re- cri¸c˜aodesta etiqueta. Estas ferramentas tamb´em ferido anteriormente, o conjunto de etiquetas do unem numerais, por exemplo, consideram “10 mil OpenNLP n˜aocont´eminforma¸c˜oesde flex˜aode milh˜oes”como um ´unico token. No que diz res- n´umero,g´eneroe tempos verbais (ao contr´ario peito apenas ao FreeLing, estas uni˜oesn˜aos˜ao de outras ferramentas como o FreeLing, o Stan- totalmente precisas, levando a erros de classi- fordNLP e o TreeTagger, que apresentam etique- fica¸c˜aode alguns tokens, como acontece na ex- tas mais finas). press˜ao“15 e 35”, que ´econsiderado como um s´o Quanto `aavalia¸c˜aopor classe, a ferramenta token “15 e 35”. Esta situa¸c˜aoleva, posterior- StanfordNLP ´e aquela que apresenta maiores mente, a uma incorreta classifica¸c˜ao,neste caso valores na previs˜ao de verbos no conjuntivo atribuindo a classe Interjei¸c˜ao. e no condicional. O FreeLing apresenta me- lhor desempenho na classifica¸c˜aode adjetivos e conjun¸c˜oessubordinativas. O LinguaKit ultra- 5. Reconhecimento de Entidades passa Freeling na previs˜aode nomes pr´oprios,al- can¸cando97% de F1-measure. Por fim, o Tree- Nesta subsec¸c˜aoser˜aoapresentados os resultados Tagger destaca-se na previs˜aode adv´erbios(de e conclus˜oessobre o desempenho das ferramentas notar que nesta ferramenta o condicional n˜ao´e na tarefa de REM. considerado modo mas sim um tempo verbal do modo indicativo). Existem ainda algumas particularidades das ferramentas, que merecem ser discutidas. Por 5.1. Sobre os modelos-SIGARRA exemplo, como dito anteriormente, o FreeLing e o LinguaKit reconhecem nomes compostos como No que diz respeito ao NLTK, tal como pre- um ´unico token (por exemplo, “Eduardo Ca- viamente indicado, estudaram-se trˆesmodelos- SIGARRA, pr´e-treinadosno corpus SIGARRA brita” ´e tratado como um token ´unico“Edu- ´ ardo Cabrita”). Esta particularidade auxilia a NEWS: modelo baseado em Arvores de Decis˜ao, classifica¸c˜aode nomes pr´oprioscompostos, evi- no Na¨ıve Bayes e na M´axima Entropia. Os tando assim que preposi¸c˜oese nomes pr´oprios modelos avaliados associados ao OpenNLP e sejam incorretamente classificados, o que ´econs- StanfordNLP s˜aotamb´emos referidos modelos- tante nas outras ferramentas. Desta forma, es- SIGARRA, treinados no mesmo corpus, mas com tas duas ferramentas obtiveram o melhor desem- estas ferramentas. penho na previs˜aode nomes pr´oprios. Infeliz- mente estas ferramentas n˜aoclassificam corre- tamente verbos auxiliares (VA). Neste aspecto, 5.2. Resultados Globais a melhor ferramenta ´e o SpaCy (84%), ape- sar de o StanfordNLP tamb´emconseguir iden- A Tabela8 mostra os resultados globais dos di- tificar verbos auxiliares (73%). O FreeLing e ferentes modelos, tendo em conta a Micro- e a LinguaKit tˆemtamb´emoutras caracter´ısticas a Macro-M´ediarelativas `amedida F1. O Fre- que as tornam interessantes: palavras relaciona- eling e o LinguaKit s˜ao os melhores sistemas das com datas s˜aounidas e consideradas como quanto `aMicro-M´ediae o StanfordNLP quanto um s´otoken, `asemelhan¸cados nomes pr´oprios, `aMacro-M´edia.De notar que, sendo os modelos como “Novembro de 2018”, que ´etratado como do NLTK, StanfordNLP e OpenNLP, modelos- “Novembro de 2018”. Para a ferramenta Fre- SIGARRA, h´auma diferen¸casubstancial de valo- eLing, o crit´erio de atribui¸c˜ao desta classe ´e, res quanto `aMacro-M´edia(o modelo Na¨ıve Bayes contudo, pouco claro, por n˜aohaver uma des- com 0.18 e o StanfordNLP 0.78), assunto que se discutir´amais `afrente. 62– Linguamatica´ Matilde Gon¸calves, Lu´ısa Coheur, Jorge Baptista & Ana Mineiro

Ferramenta Micro-M´ediaF1 Macro-M´edia F1 NLTK (Arvore´ de Decis˜ao) 0.97 0.47 NLTK (Na¨ıve Bayes) 0.92 0.18 NLTK (M´aximaEntropia) 0.97 0.35 Polyglot 0.98 0.76 FreeLing 0.99 0.77 LinguaKit 0.99 0.69 StanfordNLP 0.98 0.78 OpenNLP 0.97 0.46

Tabela 8: Micro- e Macro-M´ediarelativos a F1 para os diferentes modelos.

5.3. Resultados por Tipo de Entidade Outra caracter´ısticaque se real¸cacorresponde `a sua capacidade para identificar entidades nome- A Tabela9 apresenta a compara¸c˜aoentre os va- adas estrangeiras como “Sujoy Ghosh”, “Eins- lores de F1-measure de cada classe e para cada tein” e “Xuekun Fang”. Em contrapartida, ferramenta na tarefa de REM. O StanfordNLP ´e verificou-se que a ferramenta FreeLing consi- a ferramenta com bons (ou os melhores) em pra- derou incorretamente alguns tokens presentes ticamente todas as classes, `aexce¸c˜aodas classes no in´ıcio das frases como entidades, talvez por Localiza¸c˜aoe Organiza¸c˜ao,nas quais ´ea ferra- come¸caremcom letra mai´uscula. Segue-se um menta FreeLing que se destaca. exemplo desse caso: “Contactada pela Lusa. . . ”. Em compara¸c˜aoao FreeLing, o LinguaKit apre- senta piores resultados, principalmente na clas- 5.4. Discuss˜ao sifica¸c˜aode localiza¸c˜oese organiza¸c˜oes. Estes Como dito anteriormente, h´auma grande dife- s˜aoalguns exemplos de entidades classificadas er- ren¸cade valores quanto `aMicro- e Macro-M´edia roneamente: “ANA”(Organiza¸c˜ao)e “Am´erica em alguns modelos. Na verdade, os resultados do Sul”(Localiza¸c˜ao)foram considerados como ´ apresentados mostram qu˜aoenganadora pode ser “Pessoa”, “Xuekun Fang” (Pessoa) e “Asia do a Micro-M´edia(F1). Esta medida tem em conta Sul” (Localiza¸c˜ao)como “Outros”. a soma de todos os Verdadeiros/Falsos Positi- A an´aliseda classifica¸c˜aodo Polyglot revelou vos/Negativos de todas as classes, sendo calcu- que esta considera nacionalidades tais como “me- lada posteriormente a Precis˜aoe a Cobertura, e, xicanos”, “dinamarquesa” e “americanos” sem- finalmente, a F1. Ora, todos os casos que n˜ao pre como Localiza¸c˜ao. No entanto, esta ferra- s˜aoconsiderados como entidades mencionadas e menta consegue identificar entidades nomeadas n˜aos˜aode facto entidades mencionadas (isto ´e,o estrangeiras como “Einstein”, “Kaiserslautern” grosso das palavras, pois a maioria das palavras e “Sujoy Ghosh” e algumas entidades nomea- de um texto n˜aos˜aoentidades mencionadas) con- das compostas como “Estados Unidos”, “Univer- tam como Verdadeiros Positivos, indicando que sidade de Aveiro” e “Physical Review”. J´ao esta m´etrican˜ao´enada informativa neste cen´ario OpenNLP tem dificuldades a identificar enti- em que as classes n˜aos˜aobalanceadas. dades nomeadas estrangeiras, como por exem- Por outro lado, e como referido, os algoritmos plo, “Netflix”, “Maximilian Gunther”, “Eins- usados tˆemum papel extremamente relevante na tein”; por outro lado, n˜ao´etotalmente capaz tarefa de NER. Os resultados dos diferentes algo- de classificar nomes compostos. Por exemplo, ritmos na base dos modelos-SIGARRA treinados “Associa¸c˜aode Prote¸c˜aoe Socorro” e “Universi- com o NLTK ilustram bem essa situa¸c˜ao. dade de Londres” s˜aocorretamente identificadas. Contudo, outras entidades como “Universidade E´ tamb´eminteressante verificar como a es- da Calif´ornia”,“Di´ariode Not´ıcias”, “Estados trat´egiade segmenta¸c˜aousada pelas ferramentas Unidos” e “Eduardo Cabrita” j´an˜aoo s˜ao.Ou- pode fazer a diferen¸ca. No caso do FreeLing e tra conclus˜aoretirada ´eque n˜aoidentifica siglas do LinguaKit, a divis˜aoem tokens destas ferra- como “EUA”, “MIT”, “PSML”, “EHT”, etc. mentas foi um alicerce na classifica¸c˜aocorreta de entidades nomeadas, pelo simples facto de preser- O StanfordNLP, por seu turno, consegue iden- var nomes compostos, tornando poss´ıvel a iden- tificar entidades nomeadas noutras l´ınguas, in- tifica¸c˜aode entidades compostas como , “Esta- cluindo siglas. No entanto, verificou-se que, dos Unidos da Am´erica”e “Di´ariode Not´ıcias”. quando uma sigla est´aentre parˆenteses, a fer- Avalia¸c˜aode recursos computacionais para o portuguˆes Linguamatica´ – 63

NLTK Classes FreeLing LinguaKit Polyglot AD NB EM OpenNLP StanfordNLP Data – – – 0.78 0.11 0.74 0.76 0.92 Localizacao 0.92 0.82 0.73 0.51 0.06 0.17 0.00 0.34 Organizacao 0.84 0.63 0.61 0.62 0.34 0.58 0.70 0.75 Pessoa 0.67 0.63 0.70 0.42 0.00 0.35 0.32 0.88

Tabela 9: Valores de F1 de cada ferramenta, tendo em conta as entidades nomeadas da cole¸c˜ao dourada. ramenta identifica os parˆenteses como fazendo deslocado para o in´ıcio de frase (v.g. Em um parte da entidade nomeada. Por exemplo, dada a comunicado enviado a as reda¸c˜oes ,) apresenta a sigla MIT neste formato “(MIT)”, al´emde MIT dependˆencia punct ligando o partic´ıpio enviado `a ser considerada como Organiza¸c˜ao,o parˆentese v´ırgula;este partic´ıpiodepende de/modifica (de- “( )” tamb´emo ´e.De entre as ferramentas anali- pendˆencia acl, adjectival clause, clausal modifier sadas para esta tarefa, o StanfordNLP apresenta of noun) o nome comunicado, que ´ea cabe¸caou um melhor desempenho em praticamente todas n´ucleodeste constituinte, pelo que todos os ou- as classes, `aexcep¸c˜aoda classe Localiza¸c˜aoe Or- tros elementos flecham direta ou indiretamente ganiza¸c˜ao,onde o vencedor ´eo FreeLing, como sobre este nome. Por sua vez, este nome de- anteriormente referido. pende (obl; complemento obl´ıquo)do verbo prin- cipal da ora¸c˜aoseguinte (fazia). Ora, se a fun¸c˜ao da v´ırgulaneste exemplo ´eassinalar a desloca¸c˜ao 6. An´alisede Dependˆencias (anteposi¸c˜ao)do adjunto complemento de fazer, a partir da sua posi¸c˜aob´asica,para o in´ıcioda Nesta sec¸c˜ao,apresentamos o estudo qualitativo frase; esta forma de representa¸c˜ao,n˜aod´aconta relativo `atarefa de AD. V´ariosparˆametross˜ao de forma clara da fun¸c˜aosint´aticaque a v´ırgula analisados: pontua¸c˜ao, segmenta¸c˜ao, etiqueta- exerce, j´aque n˜aofaz depender a v´ırgula do gem morfossint´aticae dependˆencias. Como dito n´ucleosint´aticodo complemento (comunicado), anteriormente, este trabalho foi executado sem mas sim de um dos seus modificadores (enviado). conhecimento dos sistemas que produziram as anota¸c˜oes. Assim, doravante, o Sistema A cor- responde ao SpaCy e Sistema B ao StanfordNLP.

6.1. Pontua¸c˜ao

Os dois sistemas adotam diferentes estrat´egias Figura 1: “Num comunicado enviado `asre- de segmenta¸c˜aorelativamente aos sinais de pon- dac¸c˜oes,. . . ”, Sistema B (Frase 1). tua¸c˜aoe `asua an´alise. No Sistema A, os sinais de pontua¸c˜ao (v´ırgulas, aspas e pontos finais) aparecem liga- Mais adiante, e ainda no Sistema B e na dos ao token anterior, e.g. (Frase 1) redac¸c˜oes, ; mesma frase, duas v´ırgulasdelimitam a ora¸c˜ao p´ublicas, ; pol´ıtico,“ ; anos”. (negritos nossos), subordinada concessiva ( , mesmo que estas e n˜aoparecem receber qualquer an´alise,n˜aoha- nada tivessem a ver com. . . ,) e encontram-se (e vendo nenhuma dependˆenciaassociada. Note-se, bem!) “emparelhadas”, estando ambas depen- al´emdisso, que as aspas junto a pol´ıtico empare- dentes do verbo finito desta ora¸c˜ao(tivessem). lham com as aspas ligadas a anos, mas este em- O mesmo sucede (Figura2), no complemento parelhamento n˜aoparece ser feito pelo sistema. adjunto (. . . pol´ıtico ,“ ultrapassa largamente , Por outro lado, no Sistema B, os sinais de pon- no seu ˆambitoe consequˆencias ,), tamb´emdeli- tua¸c˜aos˜aotratados como tokens independentes mitado por v´ırgulas, e que s˜aoemparelhadas e e sobre eles recai (sobretudo) uma dependˆencia postas na dependˆenciado verbo anterior (ultra- espec´ıfica: punct. No entanto, n˜ao´eevidente o passa). Contudo, no caso das aspas, as primei- significado que a dependˆenciaexprime, quando ras (de abertura), estas s˜aofeitas depender do se considera o elemento que opera sobre o sinal verbo ultrapassa que est´a`asua direita e (estra- de pontua¸c˜ao,a sua fun¸c˜aona frase ou outros nhamente) com a dependˆencia nsubj, que corres- sinais com que se encontra articulado. Assim, ponde `afun¸c˜aode sujeito; enquanto as segundas por exemplo, na Frase 1 (Figura1), o adjunto (de fecho), s˜aocolocadas na dependˆenciade anos 64– Linguamatica´ Matilde Gon¸calves, Lu´ısa Coheur, Jorge Baptista & Ana Mineiro

(no fim da frase, fora da Figura2), mas agora conjun¸c˜aocomposta mesmo que. As restantes com a etiqueta amod, que corresponde `afun¸c˜ao locu¸c˜oesdesta frase tamb´em n˜aos˜aoidentifica- de modificador (adjetival) de nome. das por este sistema. Na frase 2, a locu¸c˜aocon- juncional assim como/conj tamb´emn˜aofoi re- conhecida pelos sistemas. As restantes frases n˜ao apresentam express˜oesmultipalavras, exceto, tal- vez, o composto quarto de hotel, na frase 3, que nenhum dos sistemas analisa como um ´unico to- ken. Alguns problemas de etiquetagem morfos- sint´aticapodem ainda ser observados na sa´ıda Figura 2: “ “ ultrapassa largamente , em o seu do Sistema A e parecem dif´ıceisde explicar. Na ˆambito e consequˆencias , ”, Sistema B (Frase 1). frase 2, o nome membros ´emarcado como propn (nome pr´oprio); tamb´emo elemento como (da locu¸c˜ao assim como) ´ecuriosamente etiquetado E,´ assim, ´obvia a inconsistˆencia da anota¸c˜ao como noun. O nome anos, no fim da frase 1 e o das dependˆenciassobre os sinais de pontua¸c˜ao, o adjetivo-nome familiares, na frase 2, a que se quer pelo uso de etiquetas que n˜aopodem ser encontram ligados um ponto final e uma v´ırgula, aplicadas a este tipo de tokens (nsubj e amod), respetivamente, aparecem etiquetados como sym quer pelos elementos textuais de que se faz de- (symbol), talvez pelo facto de os sinais de pon- pender os sinais de pontua¸c˜ao,quer ainda pelo tua¸c˜ao n˜ao terem sido tratados como tokens. incorreto emparelhamento de sinais que funcio- Contudo, tal s´oocorre nestes dois nomes, ha- nam em conjunto (aspas e v´ırgulas). vendo v´ariasoutras situa¸c˜oes idˆenticas, com estes sinais de pontua¸c˜ao,em que tal n˜aosucede. 6.2. Segmenta¸c˜ao e etiquetagem morfos- sint´atica 6.3. Dependˆencias Ambos os sistemas apresentam diversos proble- mas de segmenta¸c˜aode texto (delimita¸c˜aode Os sistemas apresentam an´alisesmuito semelhan- tokens) e de marca¸c˜ao de categorias morfos- tes, pelo que analisaremos os problemas com base sint´aticas.V´ariasunidades lexicais multipalavras na sa´ıdado Sistema A, indicando as diferen¸cas (ou palavras compostas/locu¸c˜oes)s˜aoanalisadas mais relevantes. Nesta forma representa¸c˜ao,as como tokens distintos. No Sistema A, por exem- dependˆencias s˜ao marcadas sobre os arcos do plo, encontramos primeiro-/adj e ministro/noun grafo de dependˆenciase estabelecem-se sempre e n˜aoo nome composto primeiro-ministro/noun; entre palavras/tokens, isto ´e, entre os elemen- mesmo/adv e que/conj e n˜aoa locu¸c˜aoconjun- tos que s˜aon´ucleos(cabe¸ca) dos constituintes tiva (ou conjun¸c˜aocomposta mesmo que/conj; sint´aticose os elementos que deles dependem, cargo/noun e pol´ıtico/adj e n˜ao o composto e.g. a pr´atica: a (def) pr´atica. Os consti- cargo pol´ıtico/noun; e a sequˆencia a/prep o/art tuintes da frase (e.g.← grupos nominais, preposi- longo/adj de/prep n˜ao ´e tratado como uma cionais, etc.) n˜aos˜aodiretamente delimitados, locu¸c˜aopreposicional (ou preposi¸c˜aocomposta), mas podem ser deduzidos a partir do grafo de ao longo de/prep. Refira-se, ainda, a misteriosa dependˆencias,j´aque todos os elementos se ligam etiqueta x (Figura3) atribu´ıdaao pronome da direta ou indiretamente ao seu n´ucleo. Repare- (assim chamada) ora¸c˜aorelativa sem antecedente se que se adota uma representa¸c˜ao top-down da (Veloso(2013)), v.g. o/X que tem sido. dependˆencia,em que um elemento hierarquica- mente superior (governor) flecha sobre o ele- mento diretamente abaixo (dependent), indepen- dentemente da sua disposi¸c˜ao linear na frase, e.g. enviado `asredac¸c˜oes: enviado (obl) re- dacc¸c˜oes, redac¸c˜oes (det) as. → → Figura 3: Etiqueta x, Sistema A Para maior facilidade de compara¸c˜ao, em (Frase 1). ambas as sa´ıdas, foram utilizadas as j´areferi- das dependˆenciasuniversais (de Marneffe et al., 2014), em cuja descri¸c˜aonos base´amospara a J´ao Sistema B trata como um s´otoken o an´alisedestas sa´ıdas. Assim na Frase 1 (Fi- composto primeiro-ministro e liga por uma de- gura1), o complemento indireto (dativo) `as pendˆencia fixed o elemento mesmo a que na reda¸c˜oes encontra-se (corretamente!) ligado ao Avalia¸c˜aode recursos computacionais para o portuguˆes Linguamatica´ – 65

Outro aspeto interessante ´e a an´alise da ora¸c˜aorelativa sem antecedente, introduzida por o (marcado em A com a categoria x). Este elemento ´etratado como determinante do pro- nome que (n˜aose indica a subclasse de pronome, nomeadamente, se ´erelativo ou de outro sub- Figura 4: “Num comunicado. . . ”, Sistema A tipo). Esta an´alisepoderia ser considerada cor- reta no caso das verdadeiras relativas sem ante- cedente, resultantes da redu¸c˜aode um nome eli- partic´ıpio enviado, mas pela dependˆencia obl dido que fosse cabe¸cadesse constituinte e ante- (oblique, obl´ıquo) e n˜ao,como se esperaria, por cendente do pronome relativo (e.g. Havia v´arios iobj (indirect object). livros. Comprei o [livro] que tinha capa azul). O determinante poderia, nesse caso variar em Ambos os sistemas fazem depender o com- g´eneroe n´umeroconsoante o nome que determina plemento preposicional Em comunicado enviado (e.g.Havia v´ariascamisas. Comprei as [cami- `asredac¸c˜oes, deslocado para o in´ıcio da frase, sas] que n˜aotinham colarinho). Ora, neste caso, do verbo fazia por meio da dependˆencia obl. trata-se de uma constru¸c˜aodiferente, em que o Contudo, o sistema A extrai tamb´emuma de- ´einvari´avel (*as que tˆemsido pr´atica corrente), pendˆencia appos, que consideramos esp´uria,en- e cuja an´alisepode ser aproximada do pronome tre comunicado e gabinete. Tal pode dever-se ao relativo o qual. facto de primeiro-ministro n˜aoter sido tratado como um ´unico token. Efetivamente, o Sistema Um outro problema detetado, envolvendo B reconhece o composto e analisa-o corretamente tamb´emdeterminantes, ´ea dependˆencia det en- como complemento de nome (nmod) de gabinete, tre nada e estas (v.g. mesmo que estas nada enquanto o Sistema A apenas estabelece essa de- tivessem a ver com), o que faz considerar que pendˆenciacom o elemento primeiro. Por essa as duas palavras foram analisadas como um s´o raz˜aotamb´em,o sujeito (nsubj) de fazia, no sis- constituinte. Trata-se aqui do chamado “em- tema B, ´e(corretamente) gabinete, ao passo que prego pronominal” de estas (= estas entidades no Sistema A, que n˜aoconsidera o composto, o p´ublicas) e n˜aodo “emprego determinativo”, que sujeito deste verbo ´e ministro. forma um constituinte aut´onomo,sujeito de ti- vessem; e do pronome indefinido nada que ´e Outro aspeto relacionado com a incorreta seg- aqui complemento deste verbo. Provavelmente, menta¸c˜ao´eo facto de a preposi¸c˜aocomposta por essa raz˜ao,a dependˆenciade sujeito (nsubj) ao longo de, que forma a express˜aotemporal ao estabelece-se entre nada e o verbo, apesar de a longo dos anos, n˜aoter sido identificada, pelo que flex˜aodeste ´ultimon˜aoautorizar essa rela¸c˜ao, o seu elemento longo/noun ´eanalisado, por am- j´aque viola a concordˆanciagramatical sujeito- bos os sistemas, como um mero complemento de verbo. nome (ncomp) de pr´atica. O facto de, aparente- mente, n˜aose ter tratado a express˜aocomo uma Um dos problemas mais dif´ıceis de tratar ´e entidade mencionada de tempo (Hag`egeet al., a imbrica¸c˜ao de elementos coordenados. Na 2010) leva a supor que, se este nome n˜aoestivesse formaliza¸c˜ao em grafo aqui adotada, a de- constru´ıdocom um verbo copulativo (sido), a ex- pendˆencia conj liga os elementos coordenados, press˜aotemporal iria ficar a depender de qual- sendo sempre orientada da esquerda para a di- quer constituinte anterior e n˜aodo verbo (pleno) reita, enquanto uma dependˆencia cc liga o se- de tal frase. gundo membro da coordena¸c˜ao`aconjun¸c˜aoco- ordenativa, sendo igualmente sempre orientada, Ainda neste sentido, repare-se que a locu¸c˜ao mas da direita para a esquerda. Podemos ver tivessem a ver (praticamente sin´onimade estar um caso complexo deste problema na Frase 2, relacionado com) n˜aodever´ater sido reconhe- cuja hierarquia representamos por parˆenteses nu- cida por nenhum dos sistemas, que a analisam merados: (. . . ) incluindo [ [ dificuldades de como uma mera constru¸c˜aode auxiliar (Bap- 1 2 [ concentra¸c˜ao] e [ mem´oria] ] ,[ tonturas] ] tista et al., 2010), a qual, ali´as,aparentemente 3 3 4 4 2 5 5 e [ problemas [ visuais] e [ de equil´ıbrio] ] ] . s´oexiste em portuguˆescom um valor modal: “S´o 6 7 7 8 8 6 1 Esta estrutura leva a considerar os seguin- tenho a/posso/devo dizer que. . . ”, e que, clara- tes pares de elementos coordenados (cuja nu- mente n˜ao´ea constru¸c˜aoaqui empregue. Vemos, mera¸c˜aomantemos, para maior clareza): concen- assim, a importˆanciado reconhecimento das ex- tra¸c˜ao (conj) mem´oria , visuais (conj) press˜oesmultipalavra e do impacto que tˆemna 3 4 3 de equil´ıbrio ; e→ a tripla coordena¸c˜ao,assinalada→ an´alisesint´atica (dependˆencias)das frases. 4 com uma v´ırgulae a conjun¸c˜ao e, que se repre- 66– Linguamatica´ Matilde Gon¸calves, Lu´ısa Coheur, Jorge Baptista & Ana Mineiro

Figura 5: “. . . incluindo dificuldades. . . ” senta por duas dependˆenciascom foco no pri- 6.4. Discuss˜ao meiro elemento: dificuldades2 (conj) tonturas5 e dificuldades (conj) problemas .→ Em jeito de s´ıntese, ´eposs´ıvel dizer que: (i) os 2 → 6 Ora, os sistemas apresentam uma sa´ıdaigual problemas de segmenta¸c˜ao e de etiquetagem (Figura5), onde apenas o primeiro par ´ecorre- morfossint´aticaest˜aona origem n˜aos´odas di- tamente capturado. A Frase 3 apresenta um pro- feren¸cas entre os sistemas comparados, mas blema similar. Aparentemente, o facto de ape- tamb´emdos principais erros de an´alisesint´atica nas um dos sistemas tratar explicitamente a pon- (dependˆencias) encontrados. (ii) Neste sen- tua¸c˜ao(neste caso, a v´ırgula) n˜aoparece fazer tido, reveste-se de especial importˆanciaa iden- diferen¸ca nos resultados. tifica¸c˜aodas unidades lexicais compostas e ex- press˜oesmultipalavras, praticamente ignoradas Noutras situa¸c˜oes,os erros parecem resultar por um dos sistemas e muito incompleta no ou- de dificuldades de an´alisede dependˆenciaa longa tro. (iii) Nos restantes casos, os sistemas tˆem distˆanciaentre os elementos relacionados. Assim, um comportamento muito semelhante ou mesmo na ora¸c˜aorelativa explicativa da Frase 3 (Figura idˆentico. (iv) A pontua¸c˜ao´eum elemento funda- 6), v.g. sons (. . . ), que os pacientes reportam ter mental na an´alisesint´atica,mas um dos sistemas ouvido, o pronome relativo que, referente a sons, aparentemente ignora-a, enquanto o outro parece deveria ter sido analisado como complemento di- n˜aoa usar, do que resultam diversos erros. reto (obj) de ouvido e n˜aode reportam. Entre os diversos problemas de an´alise Ao seguir a defini¸c˜ao e exemplos das de- sint´aticadetetados, salientamos (v) o tratamento pendˆenciasuniversais (de Marneffe et al., 2014), da coordena¸c˜aoe da imbrica¸c˜aode elementos co- a descri¸c˜aodos adv´erbiosparece particularmente ordenados, bem como (vi) a ausˆenciade distin¸c˜ao problem´atica,j´aque ignora distin¸c˜oessubstan- entre fun¸c˜oessint´aticasmuito diferentes, desem- ciais, algumas bem conhecidas pelas gram´aticas penhadas por v´ariostipos sint´atico-semˆanticos de mais tradicionais (para uma s´ıntese moderna, adv´erbios,e todas colapsadas sob a mesma de- v. (Molinier & Levrier, 2000)). Assim, n˜aose pendˆencia“universal”. Trata-se de fen´omenos distinguem: (i) o valor determinativo de nem lingu´ısticos bem conhecidos, por vezes comple- no grupo nominal nem o seu marido (frase 4); xos e dificilmente trat´aveis, mas que o desenvol- (ii) o adv´erbio (de quantifica¸c˜ao) largamente, vimento de sistemas de processamento computa- que funciona como mero modificador verbal de cional de portuguˆester´aenfrentar. O levanta- ultrapassa, em ultrapassa largamente (frase 4); mento destas e de outras situa¸c˜oesproblem´aticas e o adv´erbio conjuntivo (com valor adversa- ´efundamental para construir um roadmap dos tivo) por´em (frase 4), que deve ser considerado desafios a vencer. como modificador de toda a frase, ligando-a `a frase anterior. Ainda que os argumentos da de- pendˆenciapossam ser considerados corretos, to- 7. Conclus˜oese Trabalho Futuro dos estes adv´erbioss˜aorepresentados pela mesma dependˆencia(advmod), sem os diferenciar. Por Neste trabalho fizemos a avalia¸c˜aode v´ariasfer- outro lado, nenhum dos sistemas reconhece o va- ramentas (a maioria atrav´es de modelos pr´e- lor adverbial da express˜aotemporal uma tarde treinados) para as tarefas de EMS e REM, para (frase 5), o que d´aorigem a um conjunto de de- a l´ınguaportuguesa. Apresent´amosainda um es- pendˆenciasincorretas. tudo qualitativo sobre duas ferramentas que re- Avalia¸c˜aode recursos computacionais para o portuguˆes Linguamatica´ – 67

Figura 6: “sons . . . que os pacientes reportam ter ouvido. . . ” alizam a tarefa de AD. N˜aoh´auma ferramenta Referˆencias claramente vencedora, pois, dependendo das ne- cessidades de cada um, uma ferramenta pode ser Al-Rfou, Rami. 2015. Polyglot: A massive mul- mais ou menos apropriada, de acordo com v´arios tilingual natural language processing pipeline: factores. Fica, no entanto, claro, que, para al´em State University of New York at Stony Brook. da utiliza¸c˜aode colec¸c˜oesde etiquetas variadas, Tese de Doutoramento. h´auma grande diferen¸ca entre as ferramentas se considerarmos o modo como a segmenta¸c˜ao´e Apache Software Foundation. 2014. OpenNLP feita. Por outro lado, h´aferramentas que s˜ao natural language processing library. http:// mais finas em algumas classes de etiquetas, o opennlp.apache.org/. que torna mais dif´ıcila obten¸c˜aode bons resul- Baptista, Jorge, Nuno Mamede & Fernando tados. No entanto, mais uma vez, dependendo Gomes. 2010. Auxiliary verbs and ver- das necessidades dos seus utilizadores, pode fa- bal chains in European Portuguese. Em zer sentido ou n˜aousar essas etiquetas mais finas Computational Processing of the Por- em detrimento de melhores resultados. De notar tuguese Language (PROPOR), 110–119. tamb´emque as decis˜oestomadas a n´ıvel da seg- 10.1007/978-3-642-12320-7_14. menta¸c˜ao,bem como os resultados atingidos em termos de EMS (e REM), v˜aoafectar a AD. To- Bird, Steven, Ewan Klein & Edward Loper. dos os corpora usados, bem como o mapeamento 2009. Natural language processing with Python. de etiquetas, ser˜aotornados p´ublicos42, permi- O’Reilly Media, Inc. tindo a replica¸c˜aodas experiˆenciase facilitando Buchholz, Sabine & Erwin Marsi. 2006. CoNLL- futuras avalia¸c˜oes na mesma linha. Como tra- X shared task on multilingual dependency par- balho futuro, o LinguaKit (Gamallo & Garcia, sing. Em Conference on Computational Natu- 2017b; Gamallo et al., 2018) dever´aser avaliado ral Language Learning, 149–164. na tarefa de AD. Por outro lado, podem tamb´em ser explorados mais modelos, por exemplo, com Collovini, Sandra, Joaquim Francisco Santos o NLTK. Uma outra experiˆenciaa realizar, se- Neto, Bernardo Scapini Consoli, Juliano Terra, ria usar o mesmo corpus de treino para treinar Renata Vieira, Paulo Quaresma, Marlo Souza, v´ariosmodelos de maneira a poder comparar di- Daniela Barreiro Claro & Rafael Glauber. retamente e apenas os diferentes algoritmos. 2019. IberLEF 2019 Portuguese named entity recognition and relation extraction tasks. Em Proceedings of the Iberian Languages Evalua- tion Forum (IberLEF), 390–410. Agradecimentos Ferreira, Jo˜ao, Hugo Gon¸calo Oliveira & Ricardo Rodrigues. 2019a. Improving Este trabalho foi parcialmente suportado pela NLTK for processing Portuguese. Em Funda¸c˜aopara a Ciˆenciae a Tecnologia atrav´es Symposium on Languages, Applications dos projectos UIDB/50021/2020 e PTDC/LLT- and Technologies (SLATE), 18:1–18:9. LIN/29887/2017, financiando este ´ultimoa bolsa 10.4230/OASIcs.SLATE.2019.18. de Matilde Gon¸calves. Ferreira, Jo˜ao,Hugo Gon¸caloOliveira & Ricardo Rodrigues. 2019b. NLPyPort: Named entity 42https://gitlab.hlt.inesc-id.pt/lcoheur/ptools recognition with CRF and rule-based relation 68– Linguamatica´ Matilde Gon¸calves, Lu´ısa Coheur, Jorge Baptista & Ana Mineiro

extraction. Em Iberian Languages Evaluation labeling sequence data. Em International Con- Forum (IberLEF), 468–477. ference on Machine Learning, 282–289. Fonseca, Erick, Leandro Borges dos Santos, Mar- de Marneffe, Marie-Catherine, Timothy Dozat, celo Criscuolo & Sandra Alu´ısio.2016. Vis˜ao Natalia Silveira, Katri Haverinen, Filip Gin- geral da avalia¸c˜aode similaridade semˆantica e ter, Joakim Nivre & Christopher D. Manning. inferˆenciatextual. Linguam´atica 8(2). 3–13. 2014. Universal stanford dependencies: A cross-linguistic typology. Em Conference on Fonseca, Erick Rocha & Jo˜aoLu´ısG. Rosa. 2013. Language Resources and Evaluation (LREC), Mac-Morpho revisited: Towards robust part- 4585–4592. of-speech tagging. Em Brazilian Symposium in Information and Human Language Technology M`arquez, Llu´ıs & Horacio Rodr´ıguez. 1998. (STIL), s/pp. Part-of-speech tagging using decision trees. Em Machine Learning, 25–36. Gamallo, P., M. Garcia, C. Pi˜neiro,R. Martinez- 10.1007/BFb0026668. Casta˜no& J. C. Pichel. 2018. LinguaKit: A big data-based multilingual tool for linguis- Molinier, Christian & Fran¸coise Levrier. 2000. tic analysis and . Em Grammaire des adverbes: description des for- Conference on Social Networks Analysis, Ma- mes en -ment. Gen`eve: Droz. nagement and Security (SNAMS), 239–244. Padr´o,Llu´ıs.2012. Analizadores multiling¨uesen 10.1109/SNAMS.2018.8554689. FreeLing. Linguam´atica 3(2). 13–20. Gamallo, Pablo & Marcos Garcia. 2013. Free- Pires, Andr´eRicardo Oliveira. 2017. Named En- ling e treetagger: um estudo comparativo no tity Extraction from Portuguese web text: Fa- ˆambito do Portuguˆes. Relat´oriot´ecnico.Uni- culty of Engineering of University of Porto. versidade de Santiago de Compostela. Tese de Mestrado. Gamallo, Pablo & Marcos Garcia. 2017a. Lingua- Qi, Peng, Timothy Dozat, Yuhao Zhang & Ch- kit: A multilingual tool for linguistic analysis ristopher D. Manning. 2018. Universal de- and information extraction. Linguam´atica 9. pendency parsing from scratch. Em CoNLL 19–28. 10.21814/lm.9.1.243. Shared Task: Multilingual Parsing from Raw Text to Universal DependenciesCoNLL Shared Gamallo, Pablo & Marcos Garcia. 2017b. Task, 160–170. 10.18653/v1/K18-2016. LinguaKit: uma ferramenta multilingue para a an´alise lingu´ıstica e a extra¸c˜ao Rodrigues, Ricardo, Hugo Gon¸calo Oli- de informa¸c˜ao. Linguam´atica 9(1). 19–28. veira & Paulo Gomes. 2018. NLPPort: 10.21814/lm.9.1.243. A pipeline for Portuguese NLP. Em Symposium on Languages, Applications Garcia, Marcos & Pablo Gamallo. 2015. Yet and Technologies (SLATE), 18:1–18:9. another suite of multilingual NLP tools. Em 10.4230/OASIcs.SLATE.2018.18. Languages, Applications and Technologies, 65– 75. 10.1007/978-3-319-27653-3_7. Santos, Diana & Nuno Cardoso. 2007. Balan¸co do primeiro HAREM e perspectivas de traba- Hag`ege,Caroline, Jorge Baptista & Nuno Ma- lho futuro. Em Reconhecimento de entidades mede. 2010. Caracteriza¸c˜aoe processamento mencionadas em portuguˆes: Documenta¸c˜aoe de express˜oestemporais em portuguˆes. Lin- actas do HAREM, a primeira avalia¸c˜aocon- guam´atica 2(1). 63–76. junta na ´area, 87–94. Linguateca. Honnibal, Matthew, Ines Montani, Sofie Santos, Diana, Lu´ısCosta & Paulo Rocha. 2003. Van Landeghem & Adriane Boyd. 2020. Cooperatively evaluating portuguese morpho- spaCy: Natural language understanding logy. Em Computational Processing of the with bloom embeddings, convolutional Portuguese Language (PROPOR), 259–266. neural networks and incremental parsing. 10.1007/3-540-45011-4_40. 10.5281/zenodo.1212303. Santos, Diana, Hugo Gon¸caloOliveira, Cl´audia Jurafsky, Dan & James H. Martin. 2019. Spe- Freitas, Cristina Mota & Paula Carvalho. 2008. ech and language processing : an introduction Segundo HAREM: Balan¸coe perspectivas de to natural language processing, computational futuro. Apresenta¸c˜aono Encontro do Segundo linguistics, and . Pearson. HAREM. Lafferty, John D., Andrew McCallum & Fer- Veloso, Rita. 2013. Gram´atica do Portuguˆes, nando C. N. Pereira. 2001. Conditional random vol. 2 chap. Subordina¸c˜aorelativa, 2061–2134. fields: Probabilistic models for segmenting and Funda¸c˜aoCalouste Gulbenkian. Projetos, Apresentam-se!

Proposta recibida en xullo 2020 e aceptada para publicaci´onen decembro 2020.

Aplicaci´on de WordNet e de word embeddings no desenvolvemento de prototipos para a xeraci´onautom´aticada lingua Application of WordNet and word embeddings in the development of prototypes for automatic language generation

Mar´ıaJos´eDom´ınguezV´azquez Universidade de Santiago de Compostela-ILG [email protected]

Resumo de intercambio.1 Nesta li˜na,resulta especialmen- te relevante o dese˜node l´exicos computacionais Esta presentaci´onde dous prototipos de xeraci´on — lexibles por m´aquinase dotados de informa- autom´aticade lingua natural achega unha visi´onde ci´onsem´antica —, que faciliten a desambiguaci´on conxunto da metodolox´ıaaplicada na descrici´one pro- dos diferentes significados (Agirre & Edmonds, cesamento dos datos ling¨u´ısticos,as´ıcomo das t´ecni- 2006). As investigaci´onslexicogr´aficas poden im- cas e ferramentas xa existentes ou desenvolvidas co pulsar significativamente esta tarefa, se entende- fin de garantir o funcionamento dos simuladores en mos que “[b]y far the best existing semantic des- alem´an,espa˜nole franc´es. criptions of language are dictionaries [...]” (Trap- Palabras chave Jensen, 2018, p.34). Nesta dobre aproximaci´on — a lexicogr´aficae computacional — enm´arcan- Gram´aticade valencias, Patr´onsargumentais, Proce- se os prototipos de xeraci´onautom´aticade frases samento da linguaxe natural (PLN) e Xeraci´onda lin- nominais en contexto para o espa˜nol,franc´ese guaxe natural (XLN), WordNet, word embeddings alem´an, Xera e Combinatoria (vid. 2.2).2 Estes xeradores nacen ligados ao dicionario online multiling¨ue PORTLEX3 , un recurso va- Abstract lencial, semicolaborativo, modular, multiling¨ue e cross-lingual sobre o potencial combinatorio This presentation of two prototypes of automatic da frase nominal en 5 linguas (Dom´ınguez & natural language generation provides an overview of Valc´arcel, 2020). As principais dificultades no seu the methodology applied in the description and pro- desenvolvemento non so atinxen ´anotable inver- cessing of linguistic data, as well as of the techniques si´onde tempo na an´alisee compilaci´onde to- and tools already existing or developed in order to dos e cada uns dos esquemas argumentais as´ıco- guarantee the functioning of the simulators in Ger- mo do seu potencial combinatorio (Dom´ınguez& man, Spanish and French. Valc´arcel, 2020), sen´ontam´en´aslimitaci´onsob- Keywords servadas no uso de c´orpora:4 Valency Grammar, Argument patterns, Natural Lan- Na extracci´ondos datos tirados dos c´orpo- guage Processing (NLP) and Natural Language Ge- ra non ´eposible aplicar ning´unfiltro de pre- neration (NLG), WordNet, word embeddings

1A d´ıade hoxe xa existen asistentes virtuais como Siri, Alexa ou Google Home, isto ´e, m´aquinasque “falan”, pero 1. Introduci´on:estado do problema tam´entemos m´aquinasque aprenden e son adestradas. 2http://portlex.usc.gal/combinatoria. Os recur- sos son gratuitos e de libre acceso. Para m´aisinformaci´on, vid. a informaci´onsobre as condici´onsde uso na anterior Un importante h´andicap na intelixencia ar- ligaz´on. tificial ´e converter a informaci´on ling¨u´ıstico- 3http://portlex.usc.gal/portlex/ sem´antica en informaci´oncodificable e reprodu- 4C´ompredicir que os c´orpora ofrecen paulatinamente cible por non humanos, isto ´e,dotar as m´aqui- v´ıasm´aisprecisas en prol da an´alisedas propiedades dis- nas de co˜necemento l´exico(Navigli & Ponzeto, tributivas e sintagm´aticasdo l´exico.Serven de exemplo Sketch Engine (https://www.sketchengine.eu/), COS- 2012) coa pretensi´onde que as computadoras MAS II (https://cosmas2.ids-mannheim.de/cosmas2- interact´uencoa s´uacontorna de modo humani- web/), CORGA (http://corpus.cirp.es/corga/) ou zado utilizando as linguas naturais como c´odigo TLFi (http://atilf.atilf.fr/). DOI: 10.21814/lm.12.2.337 Linguamatica´ — ISSN: 1647–0818 This work is Licensed under a Creative Commons Attribution 4.0 License Vol. 12 N´um. 2 2020 - P´ag. 71–80 72– Linguamatica´ Mar´ıaJos´eDom´ınguez V´azquez

selecci´onsem´antico-argumental nin un envor- versa: xerar directamente as estructuras argu- cado de datos atendendo as acepci´ons de mentais aplicando previamente filtros sem´antico- significado.5 As´ı, o lexema x no composto combinatorios (vid. 2.2), no canto de buscalas x + umzug alem´anna s´uaacepci´on‘cambio nos c´orpora. Este ´e o punto de partida dos de domicilio ou lugar de traballo’ pode ex- simuladores. presar un rol sem´antico axente — “Aquel ou aquilo que realiza unha acci´on”.Non obs- tante, a listaxe de frecuencia obtida mediante 2. Os xeradores ling¨u´ısticos: metodo- unha busca Corpus Query Language (CQL) en lox´ıae fases Sketch Engine recolle maioritariamente exem- plos de compostos doutra acepci´onde signifi- 2.1. Visi´onde conxunto cado, en concreto de “cabalgata” ou “desfile”.6 Xunto coa necesidade, pois, de cribar os com- E´ a partir dos anos 90 cando se intensifica a postos atendendo ao seu significado relacional, investigaci´onno campo da xeraci´onautom´atica eng´adesea de atopar de xeito autom´aticoas da lingua natural. Nun principio os xeradores non s´uasposibles combinatorias cos outros actan- priorizaban aspectos importantes como a integra- tes argumentais nas diferentes realizaci´ons— bilidade, a portabilidade ou a eficiencia, nin lle combinatorias, ademais, com´unsna lingua. dedicaban especial atenci´ona aspectos de natu- reza m´aisling¨u´ıstica,como a coherencia sem´anti- Os resultados envorcados non cumpren os re- ca ou textual, factores que, xunto coa fluidez e a quisitos para a s´uainclusi´onnun dicionario variaci´onnas posibles realizaci´ons,son elemen- de valencias ao non exemplificar complementos tos centrais na avaliaci´ondos xeradores de lin- argumentais. Un claro exemplo desta casu´ısti- gua natural (Hashimoto et al., 2019; Horacek & ca son as realizaci´ons adxectivais nas dife- Zock, 2015; Jim´enezet al., 2020; Vicente et al., rentes linguas contempladas no recurso. Unha 2015). Xunto con protocolos e estudos de avalia- an´alisesem´antica dos 70 primeiros adxectivos ci´onda calidade dos resultados, xa se poden xerar obtidos de Sketch Engine para o esquema ar- de xeito autom´aticotextos e frases con diferen- gumental ausencia + Adxectivo, permite con- tes caracter´ısticas(Vicente et al., 2015; Nallapati clu´ırque soamente unha porcentaxe moi redu- et al., 2016; Sordoni et al., 2015) — incluso case cida serve para o prop´ositodo noso recurso. De sen input de partida (Roemmele, 2016) —, as´ıco- entre esta listaxe s´oun 4 % dos adxectivos re- mo imaxes a partir de textos e viceversa (Otter presenta un rol sem´antico e soamente un ´unico et al., 2020). As aproximaci´ons´axeraci´onau- exemplo pode ser adxudicado ao rol axente tom´aticadende ou para a aplicaci´onlexicogr´afi- (a ausencia escolar), sendo o mesmo, por´en, ca non ´eampla.7 Existen diferentes propostas pa- ambiguo. ra a xeraci´onautom´aticade dicionarios (Bardan- Xa que a frecuencia l´exicano eixo sintagm´ati- ca Outeiri˜no, 2020; Kabashi, 2018; Delli Bovi & co non est´aen necesaria correlaci´oncoa s´uafun- Navigli, 2017), de artigos lexicogr´aficos(Geyken ci´onespec´ıfica ou argumental, atopar candida- et al., 2017) ou ben dalgunha das s´uaspartes (os tos l´exicosque cubran o actante valencial que se exemplos, en Kosem et al.(2019)). Estes recur- exemplifica sup´ona an´alisemanual dun n´ume- sos, por´en,non perseguen os mesmos obxectivos ro significativo de coocorrencias, e isto, para as que os xeradores que aqu´ıpresentamos. 5 linguas contempladas no dicionario. Consta- tadas estas dificultades, que ademais atrasaban 2.2. Os xeradores Xera e Combinatoria enormemente o traballo, decidimos proceder ´ain- Os dous prototipos para a xeraci´onde patr´ons 5Recursos de diferente tipolox´ıa achegan des- crici´ons sem´antico-argumentais, en especial, pa- argumentais de frases simples (Xera) e comple- ra o ingl´es — Verbnet (http://verbs.colorado. xas (Combinatoria) en espa˜nol,franc´ese alem´an edu/~mpalmer/projects/.html), Propbank (http://verbs.colorado.edu/~mpalmer/projects/ 7Si que se aplican diferentes ferramentas de an´alisee ace.html), VerbAtlas (http://verbatlas.org/), t´ecnicas,por exemplo, FreeLing (Padr´o, 2012), estudos pa- CPA (http://www.pdev.org.uk/). Para outras ra a extracci´onautom´aticade diferentes tipos de datos linguas, como espa˜nol e catal´an, vid. AnCora (Gamallo & Pichel, 2007; Kilgarriff et al., 2008; Renau (http://clic.ub.edu/corpus/es/ancora). & Nazar, 2016), as´ıcomo con softwares que permiten a 6Por cuesti´onde espazo am´osansesoamente os 10 pri- compilaci´onde dicionarios, como, por exemplo, Tshwa- meiros lemas e a s´uafrecuencia: Festumzug (18742), La- neLex (https://tshwanedje.com/). As´ımesmo, cr´eanse ternenumzug (5568), Faschingsumzug (5191), Karneval- aplicaci´onsde dicionarios para dispositivos m´obilesa par- sumzug (4669), Martinsumzug (2838), Rosenmontagsum- tir de redes sem´anticas como WordNet, por exemplo o Di- zug (2441), Serverumzug (1952), Lampionumzug (1638), cionario GalNet (http://sli.uvigo.gal/digalnet/) de Fackelumzug (1626) e Fastnachtsumzug (1467). G´omezGuinovart en Google Play. Aplicaci´onde WordNet e de word embeddings no desenvolvemento de prototipos para a xeraci´onautom´atica da lingua Linguamatica´ – 73

Figura 1: Metodolox´ıae recursos de xeraci´onautom´aticaargumental est´anen funcionamento. Para o seu dese˜nopreci- gumentais son espec´ıficos de cada substantivo8 samos unha metodolox´ıaque nos permitise des- e que caudal l´exico pode cubrir o eixo para- cribir e procesar os datos ling¨u´ısticoscon infor- digm´aticodos devanditos actantes. Tomando co- maci´onsint´actico-sem´antica combinatoria argu- mo referencia a estrutura argumental do diciona- mental, de tal xeito que estes se puideran progra- rio PORTLEX, analizamos os trazos ontol´oxicos- mar e xerar automaticamente. Para tal fin, com- categoriais (Engel, 2004) das (co)aparici´onsargu- binamos propostas te´oricase metodol´oxicasreco- mentais extra´ıdasseguindo criterios de frecuen- rrendo ´agram´aticae sem´antica valencial, ´ateor´ıa cia de Sketch Engine. Atop´amonosna fase de dos prototipos l´exicos,ao PLN (recuperaci´one prototipado l´exico:buscamos, por tanto, candi- extracci´on)e XLN, as´ıcomo a WordNet. Na se- datos protot´ıpicos para cubrir actantes funcio- gunda das ferramentas, aplicamos o m´etodo pre- nais concretos, isto ´e,exemplares l´exicos,como, dictivo Word2vec (vid. 3). A Figura1 recolle a por exemplo, os lexemas suor, tabaco ou p´olvo- metodolox´ıaxeral e as ferramentas que dan sus- ra no rol clasificativo de olor + A. S´eguelle tento aos xeradores no proceso de xeraci´onda a segunda fase de prototipado, que consiste na estrutura argumental; a Figura2 resume o pro- determinaci´ondas clases sem´anticas protot´ıpicas cedemento da contextualizaci´on,que xa se desen- dun argumento concreto. Para o caso citado, por volveu para a frase adxectival, pero est´aen curso exemplo, [+Material] [+Substancia]: suor, taba- no caso da oraci´on. co, p´olvora — [+Animado] [+Planta]: flor, ro- O primeiro paso para a xeraci´onautom´ati- sa — [+Animado] [+Animal]: porco, can etc. ca da argumentaci´one o potencial combinatorio A Figura3 amosa un exemplo. nominal consiste en establecer que actantes ar- A descrici´ondos trazos categoriais e o prototi- pado l´exicoson conceptos esenciais non s´odende un punto de vista puramente descritivo, sen´on tam´enporque nos permiten acometer o seguinte estadio de traballo: a expansi´onl´exicarecorren- do a WordNet. Esta ampliaci´ondo n´umerode candidatos l´exicosatribu´ıblesa cada actante fun- cional cons´eguesemediante os trazos categoriais,

8A escolla dos 10 substantivos dos prototipos segue dous criterios centrais: (a) o seu estatus de portadores va- lenciais, isto ´e,a s´uacapacidade de abrir casillas funcio- nais e (b) a s´uapertenza a diferentes campos sem´anticos, como Locaci´on(presenza), Expresi´on(pregunta, discusi´on Figura 2: Metodolox´ıaxeral de contextualiza- e texto), Afecci´on(morte, aumento e dor) e Clasificaci´on (olor e sabor). Deste xeito obtemos un amplo abanico de ci´on esquemas sint´actico-argumentais e combinatorias. 74– Linguamatica´ Mar´ıaJos´eDom´ınguez V´azquez

selecci´onde caudal l´exicono eixo paradigm´ati- co que comparte as caracter´ısticassem´anticas do prototipo l´exico-sem´antico que tomamos como punto de partida, isto ´e,que conforma unha clase sem´antica concreta. Por tanto, a partir dos pro- totipos l´exicosdeterminamos clases sem´anticas protot´ıpicas.Unha vez obtido este caudal l´exico, real´ızasea flexi´one o empaquetado, no que temos en conta cuesti´onsde etiquetaxe morfosint´actica e sem´antica. Estes repertorios l´exicosatribu´ıdos Figura 3: Argumentaci´one clases sem´anticas a cada argumento nominal son fundamentais pa- protot´ıpicas ra a xeraci´on.

3. Ferramentas e recursos

No desenvolvemento dos xeradores operamos nas diferentes fases con (a) recursos existentes ou con ferramentas creadas ad hoc (vid. Figuras1 e5), entre as que diferenciamos (b) as que dan sustento aos xeradores, as´ıcomo (c) os xeradores en si mesmos, que envorcan os datos en formato JSON e CSV.11

(a) Recursos existentes: Cabe subli˜nar Figura 4: Expansi´onl´exicausando WordNet aqu´ı Sketch Engine, FreeLing e WordNet: i) Sketch Engine perm´ıtenos extraer, que fan de nexo de uni´oncoas clases e atribu- mediante consultas CQL, a frecuencia tos das categor´ıasde WordNet (vid. Figura4). de cooaparici´ons en diferentes estruturas Dom´ınguez et al.(2019) indican que “the syn- argumentais que tomamos do dicionario sets of the wordnets following the EuroWordNet PORTLEX; ii) para o desenvolvemento do model of the Multilingual Central Repository ( c´odigode flexi´onpartimos dos dicionarios do MCR) (...) are associated with semantic or cogni- etiquetador FreeLing. Xa que na extracci´on tive features categorized in different ontologies”.9 l´exicaa partir de WordNet tam´ense obte˜nen A´ındaque esta organizaci´oncognitiva das on- formas compostas — sendo estas unha po- tolox´ıas de WordNet non coincide exactamente sible realizaci´on argumental — recorremos co inventario categorial da lexicograf´ıavalencial, tam´en a este recurso para obter a divisi´on tam´ense constata que os trazos categoriais de en lemas. iii) A rede sem´antica WordNet tipo xeral si que conforman clases xerais nas on- (G´omezGuinovart & Solla, 2018) posibilita a tolox´ıasdo MCR. Por tanto, mediante este pro- obtenci´ondo caudal l´exicoatendendo a clases cedemento de expansi´onl´exica10, e posterior de- ontol´oxico-categoriais(vid. b). puraci´one etiquetaxe seguindo unha ontolox´ıa (b) Ferramentas para a an´alise ling¨u´ıstica sumativa de elaboraci´onpropia, ac´adaseunha desenvolvidas ad hoc:12 9Dado que ao inicio do traballo unicamente o espa˜nol ˆ Coa finalidade de extraer datos l´exicos contaba cun wordnet vinculado ´asontolox´ıasmenciona- das consultas que recorren ´asrelaci´ons das como parte do MCR (http://adimen.si.ehu.es/ sem´anticas de WordNet e ´asontolox´ıas web/MCR), foi preciso crear bases de datos para o franc´ese o alem´an.O procedemento expl´ıcaseen Dom´ınguezet al. vinculadas aos synsets no modelo Eu- (2019, p. 61–62): “This was done by extracting the align- roWordNet desenvolv´eronse tres APIs, ment between lexical variants and identifying offsets of the unha para cada lingua obxecto de estu- meaning from the WordNet Libre du Fran¸cais(WOLF) do.13. (Sagot & Fiˇser, 2008) and with data from the Exten- ded Open Multilingual WordNet (Bond & Foster, 2013). 11Poden ser, por tanto, de aplicaci´on como l´exicos Both have been made available on the GalNet interfa- computacionais lexibles por m´aquinas con informaci´on ce after being converted to the EuroWordNet format of sem´antica. the MCR.”. Dende o 2017 tam´en est´a en desenvolve- 12Unha descrici´ondetallada das ferramentas at´opaseen mento o Open German WordNet (https://github.com/ (Dom´ınguezet al., 2019). hdaSprachtechnologie/odenet). 13http://portlex.usc.gal/develop/de/api/; http: 10Para m´aisinformaci´on vid. a descripci´onda ferramen- //portlex.usc.gal/develop/es/api/; http://portlex. ta Combina no apartado3. usc.gal/develop/fr/api/ Aplicaci´onde WordNet e de word embeddings no desenvolvemento de prototipos para a xeraci´onautom´atica da lingua Linguamatica´ – 75

Figura 5: Imaxe de Lematiza

ˆ A partir dos datos envorcados do cor- o repertorio l´exicoexpandido no eixo pa- pus Sketch Engine, Lematiza14 amosa os radigm´atico.As´ı,na busca de exemplares lemas coas s´uasvariantes de significado l´exicosque, por exemplo, ocupen o actan- (synsets) ligadas ´asdiferentes ontolox´ıas te locativo para un esquema argumental de WordNet (vid. Figura5). Tam´en´epo- do tipo ausencia + de + Locaci´on unha sible acceder a cada unha das categor´ıas busca compartida nesta ferramenta20 en- das ontolox´ıasde WordNet directamente vorca un repertorio l´exicoen consonan- premendo nos diferentes apartados. cia cos prototipos l´exicosestablecidos, por ˆ A ferramenta Combina15 permite reali- exemplo: zar consultas ´asontolox´ıas de WordNet [03259505-n casa], ◦ (vid. 2.2) e, deste xeito, o envorcado se- [04172107-n chalet adosado], ◦ miautom´atico de datos compartidos ou [03259505-n domicilio], 16 ◦ combinados da Top Concept Ontology [03259505-n piso], (Alvez´ et al., 2008), dos WordNet Do- ◦ [03259505-n residencia] ou mains17 (Bentivogli et al., 2004), da Sug- ◦ 18 [04517408-n segunda residencia]. gested Upper Merged Ontology (Niles & ◦ Pease, 2001), dos Basic Level Concepts ˆ A ferramenta Flexiona realiza a flexi´on (Izquierdo et al., 2007) e dos Epin´onimos dos lemas seleccionados. (G´omezGuinovart & Solla, 2018), ade- mais dos primitivos sem´anticos de Miller (c) Ferramentas de xeraci´on: Xera e Com- et al.(1990). Tras un procedemento de de- binatoria. puraci´one etiquetaxe, este caudal l´exico Na actualidade ambas ferramentas contem- expandido conforma os paquetes l´exicos. plan a an´alisede 10 substantivos en 3 linguas Por tanto, se Lematiza amosa as variantes e aportan datos para 429 patr´onssint´acticos, de significado (por exemplo para “domi- 2536 estruturas sint´actico-sem´anticas (que re- cilio” na Figura5) 19, Combina presenta sultan da interface entre a realizaci´onformal e a clasificaci´onsem´antico-relacional), as´ıco- 14http://portlex.usc.gal/develop/lematiza mo uns 2479 exemplos est´andar.Un total de 15http://portlex.usc.gal/develop/combina.php 60001 formas e 15718 lemas est´anadxudicados 16 https://adimen.si.ehu.es/web/WordNet2TO a diferentes clases sem´anticas. 17http://wndomains.fbk.eu/ 18http://www.adampease.org/OP/ 20API http://portlex.usc.gal/develop/es/api? 19Os resultados da Figura5 fan referencia ´abusca CQL ontology=top&category=Building e http://portlex. en Sketch Engine [lemma=‘‘mudanza’’] [lemma=‘‘de’’] usc.gal/develop/es/api?ontology=epinonyms& [tag=‘‘D.*’’]? [tag=‘‘A.*’’]? [tag=‘‘N.*’’] . category=ili-30-03259505-n&subcategories=on 76– Linguamatica´ Mar´ıaJos´eDom´ınguez V´azquez

Figura 6: Clases sem´anticas para n1 de discu- sion´ Figura 7: Interface de usuario en Combinatoria Na primeira interface de acceso a Xera, o usuario selecciona nun despregable o idioma, 2 niveis con d´uasimplementaci´onsdiferentes: o n´ucleo— neste caso discusion´ — e a estru- o algoritmo Skip-gram tenta predicir o contex- tura argumental — n1: axente (“Aquel ou to m´aisadecuado dunha palabra analizando o aquilo que realiza unha acci´on”)—, as´ıcomo seu vector e os vectores posteriores das pala- a clase ou clases sem´anticas protot´ıpicaspa- bras vinculadas ao vector da palabra orixe. O ra o argumento concreto dun substantivo en modelo CBOW tenta adivi˜nara palabra m´ais cuesti´on(Figura6) 21. C´ompreengadir que os adecuada para un contexto espec´ıfico,´edicir, datos xerados seguen un principio de aleato- a palabra que m´aisfrecuentemente ocupa un ria predeterminada. Isto significa que as clases espazo: a dor de [espazo] do neno. Para a apli- sem´anticas da cada argumento seguen un fil- caci´onde Word2vec partimos dun modelo pre- tro sem´antico e a aleatoriedade atinxe aos re- adestrado de Sketch Engine e gardamos os re- presentantes l´exicosde cada clase, non ao rol sultados no formato propio de Word2vec (en sem´antico. matrices de N tama˜no,onde N ´eo tama˜no Un proceso semellante s´eguesena consulta do do vector preconfigurado para cada palabra). xerador de combinatoria biargumental, Com- Para calcular a similitude entre os tokens cal- binatoria, que permite ao usuario seleccionar culamos a similitude entre os cosenos de dous os actantes, paquetes e a combinatoria argu- vectores, tal e como representa a seguinte fun- mental (Figura7), obtendo datos como os que ci´onmatem´atica: recolle a Figura8). ~a ~b Por´en, o tipo de datos envorcados non ´ea cos θ = · (1) ~a ~b ´unicadiferenza entre ´ambalas d´uasferramen- k kk k tas. Combinatoria tam´enofrece a posibili- dade de cribar as combinatorias mediante o O exemplo, tomado de (Bardanca Outeiri˜no, uso de word embeddings, representaci´onsvec- 2020), amosa as´ı a distancia dos cosenos toriais dunha palabra en contexto, por tan- ou a similitude entre os lemas rose e tulip to, un filtrado seguindo criterios de frecuen- (Figura9). Coa aplicaci´onda f´ormula a es- cia de coaparici´oncontextual (vid. parte supe- tes vectores obtemos un grao de similitude rior da Figura8). Para o desenvolvemento des- de 0.73: tes vectores recorremos ao m´etodo predictivo Word2vec (Mikolov et al., 2013), que fai uso aT b = 1 1 + 1 1 + 1 1 + 1 1 + · × × × × dunha RNN (Recurrent Neural Network) de 0 1 + 1 0 + 1 0 = 4, × × × 2 2 2 2 2 2 2 21 ~a = 1 + 1 + 1 + 1 + 0 + 1 + 1 = 2,44, Isto obs´ervase comparando as clases sem´anticas da k k Figura6 cos resultados dunha busca do argumento n3 ~b = p12 + 12 + 12 + 12 + 12 + 02 + 02 = 2,23, (“afectado: thema”) coa mesma estrutura sint´actica k k [determinante + adxectivo o + discusi´on + adxectivo o + p 4 similaridade = = 0,73 de + determinante + actante: n3] 2,44 2,23 × Aplicaci´onde WordNet e de word embeddings no desenvolvemento de prototipos para a xeraci´onautom´atica da lingua Linguamatica´ – 77

Figura 8: Envorcado de combinatoria

sulta especialmente relevante, xa que a correc- ci´ongramatical non implica directamente co- rrecci´onou adecuaci´onsem´antico- comunicati- va. Word2vec tam´ense aplica na fase de con- textualizaci´on(Figura2) para cribar a coapa- rici´onen contexto da modificaci´onadxectival (vid. 2.2).

Figura 9: Similitude - Word2vec 4. Conclusi´onse traballos futuros

As principais dificultades no desenvolvemen- Este mesmo procedemento ´eo que aplicamos to dos prototipos foron as propias dos estudios para calcular a frecuencia de coaparici´onen multiling¨uese, en especial, a escolla da metodo- contexto das palabras relacionadas cun token. lox´ıam´aisapropiada para a obtenci´one envor- Isto ´e,non usamos a an´alisevectorial para cado dos datos seguindo criterios non so formais, desambiguar significados, sen´onpara filtrar os sen´ontam´en sem´anticos. Establecer unha onto- datos atendendo ´acompatibilidade sem´antico- lox´ıadescriptiva que permitise combinar os tra- contextual dos argumentos — ou sexa, a dis- zos categoriais que serv´ıande punto de partida tribuci´onno sentido de Firth(1957, p.11f) — os da lexicograf´ıavalencial - coas ontolox´ıas ou o significado combinatorio de Engel(2004, de WordNet foi unha das tarefas m´aislaboriosas. p.188). En definitiva, filtramos incompatibili- Finalmente desenvolveuse unha ontolox´ıapropia dades do significado combinatorio, o que re- seguindo unha aproximaci´on bottom up. 78– Linguamatica´ Mar´ıaJos´eDom´ınguez V´azquez

Os prototipos xa est´anen funcionamento: da animal parte do corpo] ´epropia dunha acepci´on xeraci´onde frases nominais simples — por tan- do tipo ‘sensaci´onmolesta de tipo f´ısico’e non to, frases con estrutura monoargumental correc- dunha acepci´onrelacionada co campo do senti- tas dende un punto de vista gramatical e acep- mento. Por tanto, a an´alisedos exemplares l´exi- tables sem´anticamente — enc´argaseo simulador cos xunto cos roles e clases sem´anticas poder´ıa Xera. Combinatoria, pola s´uabanda, aporta a xe- ser un punto de partida. Ademais contamos con raci´onautom´aticade frases nominais con estru- estudos preliminares sobre a modificaci´onadxec- turas biargumentais, tendo tam´enentre as s´uas tival (L´opez Iglesias, 2020) que permiten observar competencias a xeraci´ondo contexto frasal e do non s´oa especializaci´ondistribucional de deter- marco oracional. Pers´eguese,pois, o obxectivo de minados adxectivos, sen´ontam´ena s´uaaparici´on humanizar os resultados xerados. A curto prazo preferente ou exclusiva segundo a acepci´onde sig- c´ompreacometer: nificado.23 Nesta li˜na,un estudo dos datos que envorca Word2vec (vid. 3) poder´ıaser de interese 1. tarefas de optimizaci´ondos propios recursos e para a an´alise da interface sint´actico-sem´antica. a s´uadidactizaci´on,destacando aqu´ıo aumen- to do n´umerodas unidades de an´aliseas´ıco- mo de novos campos informativos. Queda por Agradecementos desenvolver o contexto oracional. Esta investigaci´onest´aen relaci´oncos proxec- 2. unha automatizaci´on dos procedementos tos “Generaci´onmultiling¨uede estructuras argu- anal´ıticos. Hai que continuar traballando na mentales del sustantivo y automatizaci´onde ex- aplicaci´oncombinada de ferramentas co fin tracci´onde datos sint´actico-sem´anticos” - Mul- de avanzar na automatizaci´one optimizaci´on tiGenera (financiado pola Fundaci´onBBVA) — na extracci´on de informaci´on sint´actico- Convocatoria de ayudas a equipos de investiga- argumental e combinatoria. Nesta li˜na,uns ci´oncient´ıficaen Humanidades Digitales 2017), dos aspectos que estamos a mellorar atinxe “Generador multiling¨uede estructuras argumen- ´aextracci´one tratamento do l´exico expandido, tales del sustantivo con aplicaci´onen la produc- que se vi˜nafacendo de xeito individualizado ci´onen lenguas extranjeras” — MultiComb (fi- para cada unha das linguas e que sup´on,por nanciado por FEDER/Ministerio de Econom´ıa, exemplo, a reiteraci´onde tarefas de depurado. Industria y Competitividad — Agencia Estatal Coa finalidade de evitar esta repetici´on de de investigaci´on;2018, FFI2017-82454-P) as´ıco- procedementos, desenvolveuse TraduWord, mo con “Ferramentas TraduWord e XeraWord: unha ferramenta de traduci´ondo caudal l´exico traduci´onde caudal l´exicoe xeraci´onautom´atica paradigm´atico a partir dos datos extra´ıdos da linguaxe natural en galego e portugu´es”(2020- de WordNet. TraduWord xa foi aplicada no PU004, convocatoria de proxectos colaborativos, dese˜nodun prototipo de xeraci´onautom´atica USC). para o galego e o portugu´es, XeraWord 22 (Bardanca Outeiri˜noet al., 2021), o cal se fundamenta na metodolox´ıade Xera e Com- Referencias binatoria. O dese˜node ferramentas deste tipo abre, por tanto, unha nova canle de traballo. Agirre, Eneko & Philip Edmonds. 2006. Word sense disambiguation. algorithms and applica- Cara ao futuro poder´ıaseexplorar se a descrip- tions. Dordrecht: Springer. ci´onda interface sint´actico-sem´antica mediante roles e clases sem´anticas, que da sustento aos xe- Alvez,´ Javier, Jordi Atserias, Jordi Carrera, Sal- radores, permitir´ıaavanzar na obtenci´onde re- vador Climent, Egoitz Laparra, Antoni Oliver sultados sistem´aticose regulares en prol da des- & German Rigau. 2008. Complete and consis- ambiguaci´onde acepci´onsde significado. Alg´uns tent annotation of wordnet using the top con- datos apuntan nesta direcci´on:as´ı,no substan- cept ontology. En International Conference on tivo espa˜nol DOLOR unha metaestructura do Language Resources and Evaluation (LREC), tipo [de +determinante+nome] ´ec´omun ´aexpre- 1529–1534. si´ondo experimentante (el dolor del animal), Bardanca Outeiri˜no,Daniel. 2020. Automatic ge- da orixe (el dolor de la operaci´on) e da lo- neration of dictionaries: Universidade de San- cacion´ (el dolor de espalda). Por´en,a aparici´on dun rol locativo e, por tanto, de clases sem´anti- 23As´ı,por exemplo, para a expresi´ondunha dor de tipo cas como [animado humano ´organo]ou [animado f´ısicoson frecuentes en espa˜noladxectivos como leve, per- sistente ou frecuente, frente a sincero, hondo e irreparable 22http://ilg.usc.gal/xeraword que aparecen en realizaci´onsdo campo do sentimento. Aplicaci´onde WordNet e de word embeddings no desenvolvemento de prototipos para a xeraci´onautom´atica da lingua Linguamatica´ – 79

tiago de Compostela. Trabajo de Fin de Hashimoto, Tatsunori, Hugh Zhang & Percy M´aster. Liang. 2019. Unifying human and statistical Bardanca Outeiri˜no, Daniel, Mar´ıa Ca´ı˜na evaluation for natural language generation. En Hurtado, Mar´ıa Jos´e Dom´ınguez V´azquez, Conference of the North American Associa- Jos´eLuis Iglesias Allones & Alberto Sim˜oes. tion for Computational Linguistics (NAACL), 2021. Automatic generation of nominal phra- 1689–1701. 10.18653/v1/N19-1169. ses: Extending the tool Xera for portuguese Horacek, Helmut & Michael Zock. 2015. New and galician languages. No prelo. concepts in natural language generation: Plan- Bentivogli, Luisa, Pamela Forner, Bernardo Mag- ning, realization and systems. London: Blo- nini & Emanuele Pianta. 2004. Revising Word- omsbury Academic. Net domains hierarchy: Semantics, coverage, Izquierdo, Rub´en,Armando Su´arez& German and balancing. En COLING Workshop on Rigau. 2007. Exploring the automatic selection Multilingual Linguistic Resources, 101–108. of basic level concepts. En International Con- Bond, Francis & Ryan Foster. 2013. Linking and ference on Recent Advances on Natural Lan- extending an open multilingual WordNet. En guage Processing (RANLP), 298–302. Meeting of the Association for Computational Jim´enez, Moreno, Luis Gil, Juan Manuel Linguistics (ACL), 1352–1362. Torres-Moreno, Roseli S. Wedemann & Erich Delli Bovi, Claudio & Roberto Navigli. 2017. SanJuan. 2020. Generaci´on autom´atica de Multilingual semantic dictionaries for natural frases literarias. Linguam´atica 12(1). 15–30. language processing: The case of BabelNet. En 10.21814/lm.12.1.308. Encyclopedia with Semantic Computing and Kabashi, Besim. 2018. A lexicon of Albanian for Robotic Intelligence, 149–163. World Scientific. natural language processing. En EURALEX 10.1142/9789813227927_0017. International Congress: Lexicography in Global Dom´ınguez, Mar´ıa Jos´e,Miguel Anxo Solla & Contexts, 855–862. Carlos Valc´arcel.2019. Resources interopera- bility: exploiting lexicographic data to automa- Kilgarriff, Adam, Milos Hus´ak,Katy McAdam, tically generate dictionary examples. En eLex Michael Rundell & Pavel Rychl´y.2008. GDEX: Conference: Electronic lexicography in the 21st automatically finding good dictionary exam- century, 51–57. ples in a corpus. En EURALEX International Congress, 425–432. Dom´ınguez, Mar´ıa Jos´e & Carlos Valc´arcel. 2020. PORTLEX as a multilingual and Kosem, Iztok, Kristina Koppel, Tanara Zingano cross-lingual online dictionary. En Stu- Kuhn, Jan Michelfeit & Carole Tiberius. 2019. dies on multilingual lexicography, 135–158. Identification and automatic extraction of go- 10.1515/9783110607659-008. od dictionary examples: the case(s) of GDEX. International Journal of Lexicography 32. 119– Engel, Ulrich. 2004. Deutsche Grammatik – Neu- 137. 10.1093/ijl/ecy014. bearbeitung. M¨unchen: Iudicium. Firth, John Rupert. 1957. A synopsis of linguistic L´opez Iglesias, Nerea. 2020. Analysing nominal theory: 1930–1955. Philological Society. phrase contexts for the automatic extraction of linguistic and lexicographic data: Universidade Gamallo, Pablo & Jose Ramom Pichel. 2007. do Minho. Trabajo de Fin de M´aster. Un m´etodo de extracci´onde equivalentes de traducci´ona partir de un corpus comparable Mikolov, Tomas, Ilya Sutskever, Kai Chen, Greg castellano-gallego. Procesamiento del Lenguaje Corrado & Jeffrey Dean. 2013. Distributed re- Natural 39. 241–248. presentations of words and phrases and their compositionality. En International Conferen- Geyken, Alexander, Frank Wiegand & Kay- ce on Neural Information Processing Systems, Michael W¨urzner.2017. On-the-fly generation 3111–3119. of dictionary articles for the DWDS website. En eLex Conference: Electronic lexicography in Miller, George A., Richard Beckwith, Christiane the 21st century, 560–570. Fellbaum, Derek Gross & Katherine J. Miller. 1990. WordNet: an on-line lexical database. In- G´omezGuinovart, Xavier & Miguel Anxo So- ternational Journal of Lexicography 3(4). 235– lla. 2018. Building the Galician word- 244. 10.1093/ijl/3.4.235. net: methods and applications. Langua- ge Resources and Evaluation 52(1). 317–339. Nallapati, Ramesh, Bowen Zhou, Cicero dos 10.1007/s10579-017-9408-5. Santos, C¸a˘glar G¨ul¸cehre & Bing Xiang. 80– Linguamatica´ Mar´ıaJos´eDom´ınguez V´azquez

2016. Abstractive text summarization using sequence-to-sequence RNNs and beyond. En Conference on Computational Natu- ral Language Learning (CoNLL), 280–290. 10.18653/v1/K16-1028. Navigli, Roberto & Simone Paolo Ponzeto. 2012. BabelNet: the automatic cons- truction, evaluation and application of a wide-coverage multilingual . Artificial Intelligence 193. 217– 250. 10.1016/j.artint.2012.07.001. Niles, Ian & Adam Pease. 2001. Towards a stan- dard upper ontology. En International Confe- rence on Formal Ontology in Information Sys- tems, 2–9. doi/10.1145/505168.505170. Otter, Daniel. W., Julian R. Medina & Ju- gal K. Kalita. 2020. A survey of the usages of deep learning for natural langua- ge processing. IEEE Transactions on Neu- ral Networks and Learning Systems 1–21. 10.1109/TNNLS.2020.2979670. Padr´o,Llu´ıs.2012. Analizadores multiling¨uesen FreeLing. Linguam´atica 3(2). 13–20. Renau, Irene & Rogelio Nazar. 2016. Automa- tic extraction of lexical patterns from corpora. En EURALEX International Congress: Lexi- cography and Linguistic Diversity, 823–830. Roemmele, Melissa. 2016. Writing stories with help from recurrent neural networks. En Conference on Artificial Intelligence (AAAI), 4311–4312. Sagot, Benoˆıt& Darja Fiˇser. 2008. Building a free French wordnet from multilingual resour- ces. En OntoLex 2008 Workshop, s/pp. Sordoni, Alessandro, Michel Galley, Michael Au- li, Chris Brockett, Yangfeng Ji, Margaret Mit- chell, Jian-Yun Nie, Jianfeng Gao & Bill Do- lan. 2015. A neural network approach to context-sensitive generation of conversational responses. En Annual Conference of the North American Chapter of the ACL, 196–205. 10.3115/v1/N15-1020. Trap-Jensen, Lars. 2018. Lexicography between nlp and linguistics: Aspects of theory and prac- tice. En EURALEX International Congress: Lexicography in Global Contexts, 25–37. Vicente, Marta, Cristina Barros, Francisco Agull´o,Fernand S. Peregrino & Elena Lloret. 2015. La generaci´onel lenguaje natural: an´ali- sis del estado actual. Computaci´ony Sistemas 19(2). 721–756. 10.13053/CyS-19-4-2196. http://www.linguamatica.com/

Artigos de Investiga¸c˜ao Adapta¸c˜aoLexical Autom´aticaem Textos Informativos do PortuguˆesBrasileiro Nathan Siegle Hartmann & Sandra Maria Alu´ısio Avaliando entidades mencionadas na cole¸c˜aoELTeC-por Diana Santos, Eckhard Bick & Marcin Wlodek Avalia¸c˜aode recursos computacionais para o portuguˆes Matilde Gon¸calves,Lu´ısaCoheur, Jorge Baptista & Ana Mineiro

Projetos, Apresentam-se! Aplicaci´onde WordNet e de word embeddings no desenvolvemento de prototipos para a xeraci´on autom´aticada lingua Mar´ıaJos´eDom´ınguezV´azquez lingua