lingua Volume 12, Número 1 (2020)

ISSN: 1647-0818 lingua

Volume 12, N´umero 1 – 2020 Linguamatica´ ISSN: 1647–0818

Editores Alberto Sim˜oes Jos´eJo˜aoAlmeida Xavier G´omezGuinovart

Conteúdo

Artigos de Investiga¸c˜ao

Relaci´onentre calidad de escritura y rasgos lingu´ıstico-discursivos¨ en las introducciones de los trabajos finales de grado de ingenier´ıa civil inform´atica Fernando Lillo-Fuentes & Ren´eVenegas ...... 3

Generaci´on autom´atica de frases literarias Luis-Gil Moreno-Jim´enezet al...... 15

An´alise da Lei de Menzerath no PortuguˆesBrasileiro Leonardo Araujo, Aline Benevides & Marcos Pereira ...... 31

Reescrita sentencial baseada em tra¸cos de personalidad Georges Basile Stavracas Neto & Ivandr´eParaboni ...... 49

Subjetividade em corre¸c˜ao de reda¸c˜oes: detec¸c˜ao autom´atica atrav´esde l´exico de operadores de vi´eslingu´ıstico M´arcia Can¸cado, Luana Amaral, Evelin Amorim, Adriano Veloso & Heliana Mello 63

Periodiza¸c˜ao autom´atica: Estudos lingu´ıstico-estat´ısticos de literatura lus´ofona Diana Santos, Emanoel Pires, Cl´audiaFreitas, Rebeca S. Fu˜ao& Jo˜aoM. Lopes 81

Una aplicaci´on tecnol´ogica que ayuda a la ciudadan´ıa a escribir textos a la Administraci´on p´ublica Iria da Cunha ...... 97

Distˆancia diacr´onica autom´atica entre variantes diat´opicas do portuguˆese do espanhol Jos´eRamom Pichel, Pablo Gamallo, Marco Neves & I˜nakiAlegria ...... 117

Editorial

Caras lectoras e caros lectores,

Chegamos ao duod´ecimovolume da Linguam´atica, sumando xa vinte e catro exem- plares da revista nos seus doce anos de vida. Nesta longa xeira, tentamos sempre fornecer unha publicaci´onacad´emica de calidade con artigos cient´ıficos orixinais que presentasen, en cada momento, o estado da cuesti´onda investigaci´onno eido do procesamento da linguaxe natural no dominio lingu´ıstico¨ espec´ıfico das nosas linguas peninsulares: portugu´es,galego, catal´an,castel´an,´euscaro, asturiano, mirand´esou aran´es. Al´endiso, promovemos que os artigos estivesen sempre escritos preferente- mente nunha desas nosas linguas, coa aspiraci´onde crear conciencia de comunidade cient´ıfica e favorecer sinerx´ıasentre os diversos grupos de investigaci´ondentro deste ´ambito.

A´ındaque non todos os nosos obxectivos foron atinxidos a´ındana s´uatotalidade, o certo ´eque a Linguam´atica foi aumentando a s´uavaloraci´onnos distintos ´ındices mundiais creados para a avaliaci´onda calidade das revistas cient´ıficas, o que consi- deramos un reco˜necemento para todos e todas as que colaboramos en levar adiante este proxecto. Neste senso, logo de Scimago/Scopus actualizaren os indicadores SJR das revistas para 2019 e o seu Journal & Country Rank, na nova clasificaci´ona Lin- guam´atica ascendeu ´aclase Q1, isto ´e,ao primeiro “cuartil” de Scopus no que se catalogan as mellores revistas en cada categor´ıa.

Neste n´umero que xa fai vinte e catro, inclu´ımos oito artigos de investigaci´on elaborados por equipos de investigaci´onen PLN das linguas da Pen´ınsula Ib´erica procedentes de Chile, Francia, Brasil, Noruega, Espa˜na,Galiza, Portugal e o Pa´ıs Vasco. Esperamos que a s´ualectura resulte de interese e sexa ben proveitosa.

Finalmente, queremos agradecer de coraz´on,coma sempre, o labor inmenso desen- volvido por autoras, autores, revisoras e revisores na realizaci´ondeste n´umero. Sen v´os,a Linguam´atica simplemente non existir´ıa.Obrigados!

Xavier G´omez Guinovart Jos´eJo˜aoAlmeida Alberto Sim˜oes

vii

Comissão Científica

Alberto Alvarez´ Lugr´ıs, Iria da Cunha, Universidade de Vigo Universidad Nacional de Educaci´on a Distancia Alberto Sim˜oes, Joaquim Llisterri, Universidade do Minho Universitat Aut`onoma de Barcelona Aline Villavicencio, Jos´eJo˜ao Almeida, Universidade Federal do Rio Grande do Sul Universidade do Minho Alvaro´ Iriarte Sanroman, Jos´ePaulo Leal, Universidade do Minho Universidade do Porto Ana Frankenberg-Garcia, Joseba Abaitua, University of Surrey Universidad de Deusto Anselmo Pe˜nas, Juan-Manuel Torres-Moreno, Univers. Nac. de Educaci´on a Distancia Lab. Informatique d’Avignon - UAPV Ant´on Santamarina, Kepa Sarasola, Universidade de Santiago de Compostela Euskal Herriko Unibertsitatea Antoni Oliver Gonz´alez, Laura Plaza, Universitat Oberta de Catalunya, Complutense University of Madrid Antonio Moreno Sandoval, Llu´ısPadr´o, Universidad Aut´onoma de Madrid Universitat Polit`ecnica de Catalunya Ant´onio Teixeira, Manex Agirrezabal, Universidade de Aveiro University of Copenhagen (KU), Denmark Arantza D´ıaz de Ilarraza, Marcos Garcia, Euskal Herriko Unibertsitatea Universidade da Corunha Arkaitz Zubiaga, Mar´ıa In´esTorres, Dublin Institute of Technology Euskal Herriko Unibertsitatea Belinda Maia, Maria das Gra¸cas Volpe Nunes, Universidade do Porto Universidade de S˜ao Paulo Bruno Martins, M´ario Rodrigues, Instituto Superior T´ecnico Universidade de Aveiro Carmen Garc´ıaMateo, Merc`eLorente Casafont, Universidade de Vigo Universitat Pompeu Fabra Diana Santos, Miguel Solla Portela, Linguateca/Universidade de Oslo Universidade de Vigo Ferran Pla, Mikel Forcada, Universitat Polit`ecnica de Val`encia Universitat d’Alacant Gael Harry Dias, Pablo Gamallo Otero, Universit´ede Caen Basse-Normandie Universidade de Santiago de Compostela Gerardo Sierra, Patr´ıcia Cunha Fran¸ca, Univers. Nacional Aut´onoma de M´exico Universidade do Minho German Rigau, Patricia Martin Rodilla Euskal Herriko Unibertsitatea Universidade de Santiago de Compostela Helena de Medeiros Caseli, Ricardo Rodrigues Universidade Federal de S˜ao Carlos CISUC / Instituto Polit´ecnico de Coimbra Horacio Saggion, Rui Pedro Marques, University of Sheffield Universidade de Lisboa Hugo Gon¸calo Oliveira, Susana Afonso Cavadas, Universidade de Coimbra University of Exeter I˜naki Alegria, Tony Berber Sardinha, Euskal Herriko Unibertsitatea Pontif´ıcia Univ. Cat´olica de S˜ao Paulo Irene Castell´onMasalles, Xavier G´omez Guinovart, Universitat de Barcelona Universidade de Vigo

ix

Artigos de Investigação

Propuesta recibida en mayo 2019 y aceptada para publicaci´onen mayo 2020.

Relaci´onentre calidad de escritura y rasgos ling¨u´ıstico-discursivos en las introducciones de los trabajos finales de grado de ingenier´ıacivil inform´atica Relationship between quality of writing and linguistic-discursive features in the introductions of the Undergraduate thesis of Civil Engineering in Computer science

Fernando Lillo-Fuentes Pontificia Universidad Cat´olicade Valpara´ıso,Chile [email protected] Ren´eVenegas Pontificia Universidad Cat´olicade Valpara´ıso,Chile [email protected]

Resumen Abstract

En este art´ıculonos proponemos relacionar la cali- In this article we propose to relate the quality of dad de la escritura con un amplio conjunto de rasgos writing with a wide range of linguistic and discursi- ling¨u´ısticosy discursivos presentes en introducciones ve features present in the introductions of the final de los trabajos finales de grado de Ingenier´ıacivil in- works of the degree in Civil Engineering in Computer form´atica. Science. Para ello se evaluaron 101 introducciones, utilizan- For this purpose, an evaluation of 101 introduc- do una r´ubricadise˜nadapara este efecto. Se realiza tions is carried out, based on a rubric designed for un estudio correlacional entre la evaluaci´onde la cali- this purpose. A correlation study is carried out bet- dad y 203 variables l´exicas, de extensi´on,sint´acticasy ween the evaluation of quality and 203 variables iden- discursivas. Luego, se realiz´oun an´alisisde regresi´on tified in the texts. Then, a linear regression analysis lineal con el fin de identificar variables predictoras de was carried out in order to identify predictive varia- la calidad de las introducciones. bles of the quality of the introductions. Entre nuestros hallazgos destacamos que la exten- Among our findings we highlight that the length si´on(promedio de palabras) presenta una relaci´onne- (average of words) presents a strong negative rela- gativa fuerte con la calidad de la introducci´on,a su tionship with the quality of the introduction, in turn vez el uso de conectores conclusivos y la complejidad the use of conclusive connectors and syntactic comple- sint´acticase correlacionan de manera positiva con la xity are positively correlated with the quality of the calidad de las introducciones. As´ı tambi´en,el cum- introductions. Also, the fulfillment of communicati- plimiento de prop´ositoscomunicativos, en particular ve purposes, in particular the indication of the gap, la indicaci´ondel vac´ıo,presenta correlaciones positi- presents mean positive correlations with the quality vas medias con la calidad del escrito. Con el an´alisis of the writing. With the regression analysis it was de regresi´onse pudo identificar que las tres prime- possible to identify that the first three variables have ras variables tienen valores estad´ısticossignificativos significant statistical values to predict the quality of para predecir las calidad de la introducci´onde acuer- the introduction according to the average evaluation do a los valores promedio de evaluaci´onasignada por values assigned by the evaluators. These results are los evaluadores. Estos resultados son de inter´espara of interest for computational applications to support aplicaciones computacionales de apoyo a la escritura academic writing. acad´emica. Keywords Palabras clave quality of writing, linguistic-discoursive features, in- calidad escritura, rasgos ling¨u´ıstico-discursivos, intro- troductions, undergraduate graduation project ducci´on,trabajos finales de grado

DOI: 10.21814/lm.12.1.297 Linguamatica´ — ISSN: 1647–0818 This work is Licensed under a Creative Commons Attribution 4.0 License Vol. 12 N´um. 1 2020 - P´ag.3–13 4– Linguamatica´ Fernando Lillo-Fuentes & Ren´eVenegas

1. Introducci´on en torno a los principales hallazgos del estudio. Por ´ultimo,se dar´ana conocer las conclusiones y algunas proyecciones, surgidas a prop´osito de Desde la ´ultimad´ecadadel siglo veinte, ha esta investigaci´on. proliferado la calificaci´ono evaluaci´onautom´ati- ca de ensayos, entendida como una pr´acticaque otorga puntuaci´ony, en algunos casos, retroali- 2. Trabajos relacionados mentaci´ona los escritos de los estudiantes (Vaj- jala, 2018). La masificaci´onde su empleo se ha Project Essay Grade1, E-Rater2 e IntelliMe- debido a que los resultados se asemejan a las eva- tric3 son algunos ejemplos de los sistemas que se luaciones realizadas por revisores humanos. han utilizando para evaluar autom´aticamente la A pesar del buen desempe˜noque han teni- calidad de los ensayos. Estas herramientas utili- do las herramientas desarrolladas con estos fines, zan variadas caracter´ısticaso ´ındices para cons- los investigadores no han llegado a un consen- truir sus modelos predictivos y otorgar puntua- so acerca de las caracter´ısticaso rasgos que per- ci´onal escrito. As´ı,seg´un Dikli(2006) se entrenan miten evaluar autom´aticamente la calidad de un sistemas que predicen el juicio humano de ano- texto (Vajjala, 2018). Adem´as,ninguna de ellas taci´on,utilizando ´ındicestales como longitud de se ha enfocado en indagar los rasgos ling¨u´ıstico- palabras y oraciones, ortograf´ıa,diversidad l´exica discursivos que tienen una mayor predicci´onpara y fluidez. A pesar del buen desempe˜noque han evaluar los textos escritos, principalmente, por- tenido estas herramientas, a´unno existe consenso que han sido desarrolladas por investigadores del acerca de las caracter´ısticaso rasgos ling¨u´ısticos campo de la inform´aticay se han creado m´asbien que permiten evaluar la calidad un texto (Vaj- con fines comerciales (Dikli, 2006; Vajjala, 2018). jala, 2018), por lo que se han realizado nuevos As´ı,la falta de indagaciones de estos rasgos ha acercamientos para mejorar la predicci´on,a par- provocado que en cada herramienta se utilicen tir de los rasgos ling¨u´ısticosimplicados en dicha rasgos diversos, sin una verificaci´onexhaustiva tarea. de sus niveles de predictibilidad. En este ´ambito, McNamara et al.(2010) utili- A su vez, gran parte de los estudios en es- zando ensayos argumentativos, demostraron que ta ´arease han desarrollado en torno a las res- los textos puntuados con alta calidad son los puestas cortas y ensayos acad´emicoscomo acre- que poseen mayor diversidad l´exica,alta frecuen- ditaci´ondel dominio de lenguas extranjeras. Si cia de palabras y mayor complejidad sint´actica. bien se destaca la importancia de estos g´eneros Complementando lo ya expuesto, en estudios pos- en el contexto acad´emico,existen otros que no teriores, Guo et al.(2013) determinaron que la han recibido la atenci´onnecesaria en este campo longitud del texto, la sofisticaci´onl´exicay la com- de investigaci´on.Un ejemplo de lo anterior son plejidad sint´acticapermit´ıancaracterizar textos las tesis de licenciatura, g´enerodiscursivo clave de alta calidad. Tambi´en,identificaron que en es- para la transici´onentre la vida acad´emicay la tos escritos se utilizaba con mayor frecuencia el profesional. pasado participio y la voz pasiva. A diferencia de Sumado a lo anterior, la mayor´ıa de las in- lo propuesto por McNamara et al.(2010), Guo vestigaciones se han llevado a cabo en ingl´es, et al.(2013) identificaron una correlaci´onnegati- por lo que en espa˜nolsolo existen algunos inci- va entre la cohesi´ony la calidad del texto, lo que pientes acercamientos a evaluaciones autom´aticas significa que, a menor cohesi´ontextual mayor ca- en g´enerossimilares. Sin embargo, estas apro- lidad del escrito. ximaciones se han centrado, mayoritariamente, Por su parte, Crossley et al.(2014) demostra- en las t´ecnicasque permitir´ıan evaluar los en- ron que los ensayos de mayor calidad textual son sayos, por sobre los rasgos que permitir´ıanpre- aquellos que contienen mayor diversidad de pa- decir la evaluaci´onde la calidad de un g´enero labras, palabras m´asinfrecuentes en sus p´arrafos acad´emicoen particular. Debido a lo anterior, y no utilizan la segunda persona singular. Poste- el objetivo general que guiar´aeste estudio ser´a riormente, Crossley et al.(2016) expusieron que relacionar la calidad de la escritura con rasgos el mejor indicador de la calidad de un escrito es ling¨u´ıstico-discursivos presentes en introduccio- la longitud de la oraci´on,pues permite identificar nes de los trabajos finales de grado de ingenier´ıa la calidad del escrito hasta en un 60 %. Adem´as civil inform´atica. de este indicador, la diversidad l´exicay, en una En lo que sigue, se expondr´analgunas no- 1https://www.measurementinc.com/products- ciones fundamentales para nuestra investigaci´on, services/automated-essay-scoring se plantear´anlos sustentos metodol´ogicos,se ex- 2https://www.ets.org/erater/about pondr´analgunos resultados y una breve discusi´on 3http://www.intellimetric.com/direct/ Relaci´onentre calidad de escritura y rasgos lingu´ıstico-discursivos¨ Linguamatica´ – 5 menor medida, la cohesi´onglobal, permiten dife- 3.2. Tesis de Licenciatura renciar entre textos de alta y baja calidad (Cross- ley et al., 2016). Con respecto a la complejidad Entre los g´enerosque componen el macrog´ene- sint´actica,los autores concuerdan con McNama- ro trabajo final de grado, uno de los m´asdes- ra et al.(2010) y Guo et al.(2013) en sostener tacados es el g´enerotesis. Para Carlino Cantis que esta es un buen indicador, si se entiende co- (2003) “el cumplir con la escritura de la tesis y mo el n´umeromedio de palabras que antecede al sus requisitos es trascendental para que el estu- verbo de la oraci´onprincipal. diante se inserte en su comunidad y se inicie en Como se desprende de lo hasta aqu´ırevisado, el camino de la cultura de la investigaci´on”.Asi- la cohesi´ontextual fue considerada por la ma- mismo, Meza(2013) expone que la principal ca- yor´ıade los autores como uno de los indicadores racter´ısticade una tesis es que los estudiantes de de la calidad textual. Sin embargo, en las ´ulti- pre y postgrado deben ser capaces de glosar el mas investigaciones del grupo fundador de Coh- discurso de otro, transform´andoloy apropi´ando- Metrix, se ha demostrado que este indicador solo se de ´el,pues el nuevo integrante debe comunicar predice entre un 6 y 11 % la calidad de un es- el conocimiento y ha de hacerlo de acuerdo a las crito (Crossley et al., 2016; Perin et al., 2017). A normas establecidas por su disciplina. diferencia de lo propuesto por el equipo de McNa- En esta investigaci´on,el g´enerotesis de licen- mara, en un estudio posterior, MacArthur et al. ciatura lo entenderemos, siguiendo a Tamola de (2019) demostraron que la cohesi´ontextual se re- Spiegel(2005), como un trabajo escrito que cum- laciona con la calidad del texto, pero solo con la ple con la funci´onde informar acerca del proceso cohesi´onreferencial, aunque el valor predictivo y los resultados de una investigaci´onte´oricao no fue considerado dentro de los mejores ´ındices. emp´ıricacon el fin de obtener el grado acad´emi- co de licenciado. Este texto es dirigido por un docente investigador, quien guiar´ay revisar´ael trabajo realizado por el alumno que tiene a su 3. Marco te´orico cargo. Para el caso de las tesis de licenciatura, si bien, no se exige un alto nivel de originalidad, s´ı 3.1. Macrog´eneroTrabajo final de grado se requiere que la producci´oncontenga la canti- dad de informaci´onnecesaria para que las conclu- El trabajo final de grado (TFG) se configu- siones sean sustentadas. A su vez, el estudiante ra como un macrog´enero,pues adquiere diversas debe utilizar un m´etodo sistem´aticoy un modo formas textuales y distintos nombres (tesis, tesi- de transmisi´onadecuado, seg´unlas expectativas na, art´ıculo,memoria, trabajo final, ensayo, entre y requerimientos de la comunidad disciplinar. otros) seg´un las diferentes comunidades discursi- vas en las que circule y se desarrolle (Venegas- 3.3. Calidad de escritura Velasquez, 2014). Todos ellos comparten un prop´ositocomunica- Respecto al t´erminocalidad de un texto o de tivo acreditativo-evaluativo, un tipo de audiencia escritura, si bien, no existe una definici´oncan´oni- especializada y un registro acad´emicodisciplinar ca, algunos autores se han aproximado al con- por medio del que se instancian (Venegas et al., cepto desde los par´ametroso criterios que permi- 2016). Desde esta perspectiva, el TFG es enten- ten evaluarla. As´ı, S´anchez Ceballos(2014), reto- dido como un trabajo de investigaci´onescrito de mando la investigaci´onde Beaugrande & Dress- car´acterevaluativo acreditativo, presentado por ler(1997), menciona que un texto es de calidad los estudiantes universitarios al t´erminode sus cuando se puede evaluar en todas sus dimensiones estudios, como requisito para la obtenci´ondel formales y cognitivas, a partir de seis de los siete grado acad´emicode licenciado, de mag´ıstero de criterios propuestos por los autores, a saber: in- doctor. Su finalidad es informar y acreditar los tencionalidad, situacionalidad, adecuaci´on,infor- m´eritosque posee un estudiante como investiga- matividad, cohesi´ony coherencia. Para S´anchez dor (Venegas-Velasquez, 2014; Zamora & Vene- Ceballos(2014), estos criterios no solo permiten gas, 2013; Venegas et al., 2016). evaluar la calidad de un texto, sino que demues- Asimismo, el TFG corresponde a una pr´acti- tran que est´abien construido y lo validan como ca discursiva clave en el paso de la vida estu- un evento de comunicaci´on. diantil universitaria a la acad´emico-cient´ıfica,ya Por su parte, Castell´o(2002) expone que pa- que se ha transformado en un rito de iniciaci´on ra producir un texto de calidad se deben te- para el novato que ingresa a una nueva comuni- ner en consideraci´onsiete tipos de dominios, a dad (Moyano, 2000; Koutsantoni, 2006; Venegas- saber, conocimiento y profundizaci´ondel tema, Velasquez, 2014). conocimiento ling¨u´ıstico,es decir, cumplimiento 6– Linguamatica´ Fernando Lillo-Fuentes & Ren´eVenegas de reglas l´exicas,gramaticales y ortogr´aficas,co- A continuaci´on,en el cuadro1 se ilustran las nocimiento de la situaci´onret´oricay, finalmen- caracter´ısticasde la selecci´onde la muestra y la te, conocimiento del g´enerotextual. Estos domi- conformaci´ondel corpus empleado en la presente nios han sido considerados por diversos autores investigaci´on. a la hora de evaluar la calidad de la producci´on escrita. No introducciones del corpus 101 A los dominios ya descritos, se suma la organi- % introducciones del corpus 96 % zaci´ono estructura de un escrito, pues Jin(2001) M´etodo selecci´onmuestra Aleatorio menciona que la estructura y la similitud o cer- No total palabras del corpus 17.946 can´ıaentre las partes consecutivas de un texto permiten evidenciar la calidad del escrito. Cuadro 1: Caracter´ısticasdel corpus empleado A partir de las diversas propuestas que se han revisado para realizar esta investigaci´on,se puede desprender la calidad de la escritura se ha asocia- 4.2. Procedimientos generales do com´unmente con algunos criterios ling¨u´ısticos y estructurales que permiten evaluarla (McNa- Una vez recolectados los TFG mencionados, se mara et al., 2010; Crossley et al., 2014; Vajja- procedi´oa separar las macromovidas 1 (Introduc- la, 2018), pero no se ha encontrado una defini- ciones) y se convirtieron los archivos a formato ci´oncan´onicarespecto al t´ermino.Lo anterior se txt. Posteriormente, bas´andonos en la noci´onde puede deber a que la calidad de la escritura no calidad referida en el apartado anterior, se pro- se puede evaluar de forma general, pues se debe cedi´oa construir una pauta de evaluaci´onpara considerar que cada g´enerodiscursivo tiene sus evaluar manualmente la calidad de los escritos propias caracter´ısticasy, por ende, sus respecti- (ver anexoA). El instrumento de evaluaci´oncon- vas exigencias (Figueroa et al., 2019). Adem´as, tiene una medici´onhol´ısticay otros indicadores las convenciones propias de la comunidad discur- relacionados con la calidad del texto. Para me- siva, la situaci´onret´oricay la tarea de escritura dir cada uno de los criterios, se utiliz´ouna escala afectar´anlo que en la comunidad se entienda por con un intervalo de seis puntos (Crossley et al., calidad textual. 2014). En ella se consider´o1 como no cumplido y 6 como cumplido totalmente. Esta pauta fue Dado lo anterior, para esta investigaci´onen- validada por expertos del ´areade la ling¨u´ısticay tenderemos que la calidad de un texto correspon- de la inform´atica,pues se requer´ıauna aproba- der´aa la adecuaci´ona la tarea de escritura, al ci´ona partir de sus conocimientos disciplinares, g´eneroy a todas las condiciones espec´ıficas de en el caso de los primeros, y de sus conocimientos producci´ontextual en el contexto acad´emicoes- como profesores en el ´area,para los ´ultimos. pec´ıficoconsideradas por el escritor en su texto. Una vez validada la pauta, se entren´oa 3 ana- listas (ling¨uistas)en un periodo de tres horas ca- 4. Metodolog´ıa da uno (9 horas total), posteriormente 30 intro- ducciones fueron evaluadas por los mismos. Se En la presente investigaci´on,de tipo no experi- calcularon los valores Kappa de Fleiss y se repiti´o mental, alcance correlacional y enfoque cuantita- el entrenamiento hasta que se obtuvieran valores tivo, se identifican y relacionan rasgos ling¨u´ıstico- superiores a 0.7 (acuerdo considerable). Una vez discursivos con la calidad de las introducciones de finalizada la etapa de entrenamiento, se proce- los trabajos finales de grado (TFG) de Ingenier´ıa di´oa evaluar las dem´asintroducciones. De esta Civil Inform´atica. manera, aquellas que obten´ıanun porcentaje de logro mayor o igual a 70 % se consideraron de al- 4.1. Corpus de estudio ta calidad, mientras que las con valores menores o iguales a 40 % fueron consideradas de baja ca- La muestra del presente estudio se compone lidad. En el an´alisisestad´ıstico T-student se ob- 6 de 101 introducciones o Macromovidas introducir serv´odiferencia estad´ıstica(p = 5169 10− ) en- × al lector (MM1) de los trabajos finales de grado tre las introducciones de alta calidad (x = 5, 03) de Ingenier´ıa Civil Inform´aticade la PUCV rea- y las de baja calidad (x = 3, 43). lizadas entre los a˜nos2009 y 2017. Esta muestra Una vez separadas las introducciones en alta y fue seleccionada a partir del subcorpus de tesis baja calidad, se realizaron las mediciones con los (TINF) del proyecto Fondecyt 1140967 y desde el ´ındicesque, seg´unla literatura permit´ıanevaluar sistema de biblioteca de la universidad. La mues- la calidad de los escritos. De esta manera, se co- tra es representativa con un nivel de confianza del menz´ocon los rasgos ling¨u´ıstico-discursivos. Para 95 % y un intervalo de confianza de Z = 1, 96. efectuar estas mediciones de manera autom´atica, Relaci´onentre calidad de escritura y rasgos lingu´ıstico-discursivos¨ Linguamatica´ – 7 se emple´oSINLP4 (Crossley et al., 2014) con dic- genier´ıacivil en inform´atica.A partir de ellos, se cionarios en espa˜noly PACTE5. puede afirmar que el rasgo ling¨u´ıstico-discursivo Luego, se procedi´oa evaluar los ´ındicesque que m´asse relaciona con la evaluaci´onhol´ısti- permiten medir la calidad de los escritos. Pa- ca realizada por los expertos es la complejidad ra ello, se calcul´oel grado de asociaci´ono re- sint´actica(r = 0,779***)8. La correlaci´oncon es- laci´onentre la calidad del texto, la complejidad te rasgo resulta un hallazgo importante, puesto sint´actica,la cohesi´ontextual, el vocabulario es- que, por un lado, McNamara et al.(2010), Guo pecializado, la frecuencia de palabras y los ´ındi- et al.(2013) y Crossley et al.(2014) han demos- ces b´asicosde informaci´ontextual. Para ello, se trado que la complejidad suele ser un buen indi- utilizaron los softwares R6 y Jasp7. Posterior- cador de la calidad del texto cuando se considera mente, se realiz´oun modelo de regresi´onlineal como el n´umeromedio de palabras que antecede con las variables seleccionadas mediante la co- al verbo principal. Pero, por otro lado, investi- rrelaci´onentre la evaluaci´onhol´ıstica y las va- gaciones de MacArthur et al.(2019) consideran riables independientes. Finalmente, se ajust´oel que la complejidad posee una correlaci´onnegati- modelo de regresi´onempleando el m´etodo back- va en textos escritos en ingl´esy que no es un buen ward,iniciando con un modelo que consideraba predictor de la calidad. En nuestra investigaci´on, todas las variables para luego ir eliminando se- los resultados respecto a este rasgo nos permiten cuencialmente las que no presentaban significan- afirmar que en introducciones escritas en espa˜nol cia estad´ıstica(p-value > 0,05). s´ıexiste una relaci´onpositiva entre la calidad del escrito y la complejidad sint´actica del texto. 4.3. Par´ametrosempleados para evaluar la El n´umerode palabras del texto, a su vez, calidad de las introducciones se correlaciona de manera negativa con el escri- to con un valor de r = –0,756***. Estos resul- A continuaci´on,se definen, brevemente, las va- tados se diferencian de investigaciones similares riables que se emplearon en el presente estudio: como las de McNamara et al.(2010) y Guo et al. Complejidad sint´actica:N´umeromedio de pa- (2013), pues en dichos estudios, los autores esta- labras que anteceden al verbo principal. blecen que los textos de alta calidad suelen tener mayor cantidad de palabras y, por ende, una ma- Pronombres personales: N´umerode pronom- yor extensi´on.La diferencia con nuestros resul- bres personales empleados por p´arrafo. tados se explica, debido al g´enerodiscursivo en Cohesi´ontextual: N´umerode nexos ling¨u´ısti- cuesti´ony la disciplina en la que se realiza el es- cos o conectores empleados por p´arrafo. tudio, puesto que en la comunidad de ingenier´ıa en inform´aticason poco frecuentes las introduc- Voz pasiva: N´umerode casos de voz pasiva por ciones extensas y las que lo son, suelen reiterar p´arrafo. informaci´ony no cumplir con los prop´ositosco- Vocabulario especializado: frecuencia relativa municativos asociados a los segmentos funciona- de palabras propias del discurso acad´emicode les del apartado. Ingenier´ıaCivil Inform´atica. Otro rasgo que se vincula con la evaluaci´on hol´ıstica es el uso de voz pasiva en el escrito 5. Resultados (r = 0,613***). Si bien, este aspecto es m´asrecu- rrente en ingl´esque en espa˜nol,en la disciplina de 5.1. Correlaciones entre rasgos ling¨u´ıstico- ingenier´ıaen inform´atica,se suelen escribir las in- discursivos y calidad de escritura troducciones empleando oraciones impersonales y pasivas en la mayor´ıade los apartados. As´ı,solo Las correlaciones efectuadas entre los rasgos se utiliza tercera persona singular en la interpre- ling¨u´ıstico-discursivos y la evaluaci´onhol´ıstica se taci´onde los resultados y las conclusiones, por lo realizaron con el fin de corroborar la existencia de que en las introducciones se suelen emplear estos algunos aspectos que se relacionan con la evalua- rasgos de forma frecuente. Los resultados a par- ci´onglobal que realizan los analistas de las intro- tir de la correlaci´onrespecto al empleo de la voz ducciones de los trabajos finales de grado de in- pasiva concuerdan con los de Guo et al.(2013), 4http://linguisticanalysistools.org/sinlp.html pues los autores mencionan que los textos de alta 5http://www.redilegra.com/sistema — herramienta calidad suelen emplear la voz pasiva como rasgo desarrollada por el grupo Redilegra que permite realizar protot´ıpico. c´alculosestad´ısticosb´asicos,identificaci´onde N-grams de lemas y POS e identificaciones de modalizadores discursi- vos, entre otras funciones 6https://www.r-project.org/ 7https://jasp-stats.org/ 8*** Correlaci´onde pearson, significativa a p < 0,001 8– Linguamatica´ Fernando Lillo-Fuentes & Ren´eVenegas

Respecto al uso de pronombres (r = 5.2. Correlaciones entre calidad de escritu- 0,528***), estos se consideran buenos indicado- ra y segmentos funcionales del texto res de la calidad de las introducciones de los TFG de ingenier´ıacivil en inform´atica.Este resultado Este procedimiento se llev´oa cabo, porque a es relevante pues los pronombres son mecanismos partir de los resultados de las relaciones entre cohesivos que se emplean para mantener los refe- los criterios de la pauta de evaluaci´ony la eva- rentes en el escrito y as´ıevitar reiterar las mismas luaci´onhol´ıstica, uno de los aspectos que m´as palabras. se vinculaba con la calidad era el cumplimiento Continuando con aspectos ligados a los ´ındi- de los prop´ositoscomunicativos. Como forma de ces b´asicosde informaci´ontextual, el n´umero operacionalizarlos, se emplearon los trigramas de de oraciones que posee un escrito y la canti- lemas, pues en investigaciones anteriores (Cotos dad de p´arrafos tambi´ense correlacionan con la & Pendar, 2016; Lillo, 2016) han demostrado ser evaluaci´onhol´ıstica.De esta manera, ambos as- buenas representaciones de las diferentes macro- pectos poseen una correlaci´onmedia (oraciones movidas y de las movidas del apartado Introdu- r = 0,475 y p´arrafos r = 0,470 respectivamen- cir al lector en la investigaci´on.Con respecto a te; p = 0,002). Estos resultados concuerdan con la noci´onde movida, debemos mencionar que en los obtenidos por Crossley et al.(2016), pues los esta investigaci´onla entenderemos como unidad autores concluyen de su investigaci´onque la can- ret´orica-funcionalque realiza un prop´ositocomu- tidad de oraciones y su longitud es uno de los nicativo de un texto y que, a su vez, se realiza en mejores rasgos para predecir la calidad, ya que una unidad textual (Swales, 1990; Askehave & permite identificarla hasta en un 60 %. Swales, 2001). El vocabulario especializado es otro de los ras- De los resultados, se puede desprender que to- gos ling¨u´ıstico-discursivos que se relaciona de ma- dos los trigramas de lemas m´asrepresentativos nera media con la evaluaci´onhol´ısticade las in- de las movidas de la introducci´onse correlacio- troducciones (r = 0,468; p = 0,002), lo que in- nan con la evaluaci´onhol´ısticarealizada por los dica que, aunque no se considera dentro de los analistas. A su vez, se puede identificar que los primeros rasgos que se relacionan con la calidad, trigramas asociados a la movida 2, cuyo prop´osi- su empleo junto a otros aspectos podr´ıapermi- to es establecer el nicho indicando limitaciones tir identificar la calidad del escrito. Nuestros re- de investigaciones anteriores o mostrando ´areas sultados respecto al vocabulario de especialidad de inter´esnovedosas (Venegas et al., 2016), pre- concuerdan con los de Guo et al.(2013) y Cross- sentan un valor de r = 0,498***. ley et al.(2014) debido a que los autores exponen Respecto a las relaciones de los trigramas de 10 que los textos con mayor calidad, en su caso los lema asociados a la movida 3 con la evaluaci´on ensayos, son aquellos que poseen un mayor n´ume- hol´ıstica,estos poseen un r = 0,358; p = 0,031, ro de vocabulario de especialidad y diversidad de lo que relaciona a estos rasgos como significativos palabras. con valor de magnitud bajo respecto a la calidad del escrito. Por su parte, los trigramas asociados El siguiente aspecto ligado a la evaluaci´on 11 hol´ısticaes uno que a´unno genera acuerdo en- a la movida 1 obtiene valores de correlaci´onde tre los especialistas en el tema, pues la cohesi´on r = 0,338; p = 0,031. es considerada por algunos investigadores como Una posible explicaci´ona la relaci´onexisten- un rasgo que se liga con la calidad del texto, te entre la movida 2 y la evaluaci´onhol´ısticaes mientras que para otros no. Nuestros resulta- que es uno de los aspectos que menos se presen- dos indican que los conectores y mecanismos de ta, pero que m´asse valora en las introduccio- cohesi´onse relacionan con la evaluaci´onhol´ıstica nes es la indicaci´ondel vac´ıo.Por lo anterior, se (r = 0,491***). Si bien, en la presente investi- podr´ıaconsiderar que en el momento de realizar gaci´onno se midi´ola cohesi´onreferencial, por lo una evaluaci´onse valora como un aspecto dife- que nuestros resultados no pueden ser compara- renciador de alta y baja calidad el cumplimiento dos con los de MacArthur et al.(2019), s´ıpode- del prop´ositocomunicativo de esta movida (re- mos mencionar que nuestros hallazgos se condi- presentado, en este caso, por sus trigramas de cen con los de Crossley et al.(2016), pues hemos lemas). Con respecto a los valores de correlaci´on identificado que existe una relaci´onmedia entre el uso de mecanismos de cohesi´ony la calidad del correlaciones.docx?dl=0 10 escrito.9 Ocupar el nicho: movida con el prop´ositode intro- ducir los aspectos te´orico-metodol´ogicosadoptados en la investigaci´on. 9Para m´as detalle de las correlaciones entre los 11Establecer el territorio: movida con el prop´ositode rasgos ling¨u´ıstico-discursivos y calidad de escritu- situar tem´aticamente la investigaci´on,justificando su re- ra ver https://www.dropbox.com/s/oc2qsnc18kdx3bf/ levancia y dando cuenta de investigaciones en el ´area. Relaci´onentre calidad de escritura y rasgos lingu´ıstico-discursivos¨ Linguamatica´ – 9 para la movida 1, estos se podr´ıanatribuir a que A su vez, la voz pasiva tambi´ense correlaciona tanto introducciones de alta como de baja calidad con el n´umerode palabras (r = 0,661***). Estos suelen presentar esta movida, pues la Generaliza- datos se condicen con lo propuesto por Cubo de ci´ondel t´opicoes el aspecto m´asprotot´ıpico de Severino(2007), quien expone que, en el discurso las introducciones y el que se presentaba en la acad´emico,entre los procedimientos que se sue- mayor´ıade los trabajos que formaron parte de len emplear al momento de redactar, predomina este corpus. la voz pasiva. La complejidad sint´acticase rela- De los resultados expuestos hasta aqu´ı,desta- ciona con la voz pasiva (r = 0,602***). A partir ca que las tres movidas de la macromovida Intro- de esta relaci´onsurge otra que se vincula directa- ducir al lector en la investigaci´onse correlacionan mente con los resultados obtenidos por el grupo con la calidad de las introducciones, por lo que liderado por McNamara, pues a partir de nues- el componente funcional debe ser incluido como tras correlaciones, a mayor n´umero de verbos en un aspecto al momento de evaluar de forma au- las oraciones, mayor ser´ala complejidad sint´acti- tom´aticamente la calidad de un escrito. Si bien, ca del escrito, lo que se condice directamente con sabemos que la representaci´onque hemos realiza- los hallazgos de Guo et al.(2013) y Crossley et al. do de las movidas no dan cuenta totalmente de su (2014). presencia o ausencia, consiste en un acercamiento El vocabulario especializado tambi´ense co- para incluir este aspecto ligado a los segmentos rrelaciona con el n´umerode palabras y de ora- funcionales que ha sido desatendido en investiga- ciones del escrito con valores que var´ıan entre ciones similares. r = 0,905*** y r = 0,850***, respectivamen- te. En cuanto a los conectores, estos de igual 5.3. Comparaci´onentre todos los rasgos manera establecen una correlaci´onpositiva de ling¨u´ıstico-discursivos en las introduc- r = 0,799*** con el vocabulario especializado, ciones de los TFG de alta y baja cali- por lo que cuando se emplea este ´ultimoras- dad go, las introducciones de alta calidad suelen te- Los aspectos ling¨u´ıstico-discursivos que m´as ner mayor extensi´on,mayor cantidad de oracio- se correlacionan entre s´ıcorresponden al uso de nes y mecanismos de cohesi´on.Respecto al uso pronombres y el n´umerode palabras del texto de pronombres, estos poseen una correlaci´onde (r = 0,984***). A su vez, el n´umerode pala- r = 0,881*** con el empleo de vocabulario es- bras total del texto tambi´ense vincula con el pecializado. Una posible explicaci´onpara estas empleo de conectores (r = 0,922***) y el n´umero relaciones podr´ıadeberse a que cuando se utiliza de p´arrafos(r = 0,789***) de este, por lo que a vocabulario especializado, resulta complejo susti- mayor n´umerode palabras empleadas en el es- tuir la palabra, pues en muchos casos el t´ermino crito, es decir, extensi´on,mayor ser´ael uso de no posee una equivalencia precisa, por lo que se estos aspectos. La vinculaci´onde los rasgos ante- podr´ıa emplear pronombres con el fin de man- riormente destacados tiene bastante l´ogica,pues tener el referente a trav´esde una pronomina- si el apartado es extenso, en una tesis de alta lizaci´on. calidad, se deber´anemplear m´asp´arrafos,pues Con respecto al empleo de pronombres en se requerir´aseparar las ideas principales en dife- los textos de alta calidad, estos se correlacionan rentes p´arrafosy luego, para unirlas se deber´an (r = 0,866***) con el n´umerode p´arrafosy la ex- emplear m´ultiplesmecanismos de cohesi´on. tensi´ondel escrito (r = 0,884***). A su vez, estas Ligado al n´umerode palabras, el n´umerode palabras empleadas para sustituir a los nombres oraciones se vincula con ella con un r = 0,908***, se correlacionan (r = 0,882***) con el empleo de lo que significa que en textos de alta calidad, a conectores. Respecto a esto ´ultimo,cabe destacar mayor cantidad de palabras m´asser´anlas ora- que una de las formas de mantener la cohesi´onde ciones y p´arrafosen el escrito. Lo anterior tiene un escrito es mediante la pronominalizaci´on,por directa relaci´oncon lo planteado por McNama- lo que estos dos rasgos estar´ıandirectamente vin- ra et al.(2010), pues desde su perspectiva, los culados. textos de alta calidad se caracterizan por tener Finalmente, en el Cuardro2 se presentan, de un gran n´umerode oraciones. A su vez, nuestros mayor a menor magnitud, los 11 rasgos que se resultados tambi´ense vinculan a los de Crossley asocian m´asfuertemente a la calidad de las in- et al.(2016), pues en su investigaci´on,estos au- troducciones de los trabajos finales de grado de tores concluyen que las oraciones se vinculan di- ingenier´ıacivil inform´atica. rectamente con la cantidad de p´arrafosque posee un escrito y que estos dos rasgos unidos son los mejores predictores de la calidad de la escritura. 10– Linguamatica´ Fernando Lillo-Fuentes & Ren´eVenegas

Orden Rasgo Correlaci´on Como se observa, el orden de los rasgos var´ıa, 1 Complejidad sint´actica 0.78*** aunque ello no produce cambios significativos en 2 Promedio de palabras -0.76*** los valores. Para el an´alisisde regresi´onse opt´o 3 Voz pasiva 0.61*** por el m´etodo backward, el cual se inicia con 4 Pronombres 0.53*** un modelo completo para luego ir eliminando se- 5 Conclusivos 0.51*** cuencialmente las variables que no presenten sig- 6 Prop´ositocomunicativo 0.50*** nificancia estad´ıstica(p-value > 0,05). A partir 7 Conectores 0.48** de la tercera regresi´onse obtuvieron los gr´aficos 8 Ordenadores temporales 0.48** post-regresi´onpara determinar normalidad de los 9 N´umerode oraciones 0.48** residuos, homogeneidad de la varianza, observa- 10 N´umerode p´arrafos 0.47** 11 Vocabulario especializado 0.47** ciones influyentes y outliers. De acuerdo con este an´alisisse fueron eliminando una a una las va- Cuadro 2: Organizaci´on de los rasgos riables contenidas en lo Cuadro3 que no presen- ling¨u´ıstico-discursivos relacionados con la taron significancia estad´ıstica.De tal modo, las calidad textual en t´erminos de evaluaci´on 3 variables independientes con significancia es- hol´ıstica. tad´ıstica(p-value > 0,01) que dan cuenta de un relaci´onlineal con el promedio de calidad son: la complejidad sint´actica,el promedio de pala- 5.4. Modelo regresi´onlineal bras y los conectores conclusivos. Cabe destacar que respecto a la bondad de ajuste, el R2 ajus- Tal como se ha mencionado en apartados ante- tado indica que el modelo representa el 85 % de riores, para el ajuste del modelo se utilizaron las la variabilidad total del sistema. En el Cuadro4 variables seleccionadas (ver Cuadro2) mediante se presentan los resultados del ´ultimo modelo de correlaci´onde Pearson entre los valores prome- regresi´onlineal efectuado y en el Cuadro5 los va- dio de la r´ubrica,utilizada para la evaluaci´onde lores de validaci´ondel Modelo de regresi´onlineal la calidad y las dem´asvariables independientes. final. Cabe se˜nalarque para la ejecuci´ondel modelo de regresi´onse ha optado por el promedio, pues el valor hol´ısticoes binomial lo que no permite Variable dependiente Correlaci´oncalidad cumplir con los supuestos cuantitativos para la Complejidad sint´actica 0.3948416 posible identificaci´onde una relaci´onlineal. Por Promedio de palabras -0.3673670 otra parte, la correlaci´onexistente entre la eva- Conectores conclusivos 0.3710280 luaci´onhol´ıstica y el promedio obtenido de los criterios de la r´ubricaes de r = 0,95***. Por lo Cuadro 4: Modelo de regresi´onlineal final mismo, la diferencia que se produce en las corre- laciones no es muy diferente a las obtenidas con la evaluaci´onhol´ıstica. En lo Cuadro3 se presentan los valores de R2 0.868 correlaci´onentre los rasgos y el promedio de la R2 ajustado 0.849 evaluaci´onde la r´ubrica. Akaike 20.595 Error est´andarResidual 0.297 (df = 29) Orden Rasgo Correlaci´on F 47.473*** (df = 4; 29) 1 Promedio de palabras -0.80*** Cuadro 5: Valores de validaci´ondel Modelo de 2 Complejidad sint´actica 0.73*** 3 Voz pasiva 0.59*** regresi´onlineal final 4 Conclusivos 0.53*** 5 Prop´ositocomunicativo 0.52*** 6 Pronombres 0.47** A partir de las tablas anteriores se puede in- 7 Ordenadores temporales 0.47** terpretar que si la complejidad sint´acticase incre- 8 N´umerode oraciones 0.47** menta en una unidad de desviaci´onest´andar,en 9 Vocabulario especializado 0.47** promedio, la evaluaci´onde la calidad aumenta en 10 Conectores 0.44** 0,39 unidades de desviaci´onest´andar.A su vez, 11 N´umerode p´arrafos 0.43** si el promedio de palabras se incrementa en una unidad de desviaci´onest´andarla evaluaci´onde la Cuadro 3: Organizaci´on de los rasgos calidad disminuye en 0,37 unidades. Finalmente, ling¨u´ıstico-discursivos relacionados con la si los conclusivos incrementan en una unidad de calidad textual en t´erminos del promedio de desviaci´onest´andar,en promedio, la calidad au- evaluaci´oncon la r´ubrica menta en 0,37 unidades de desviaci´onest´andar. Relaci´onentre calidad de escritura y rasgos lingu´ıstico-discursivos¨ Linguamatica´ – 11

6. Comentarios de cierre nativas posibles. Educere: Revista Venezolana de Educaci´on 20. 409–420. Destacamos en nuestros hallazgos que, a di- Castell´o, Montserrat. 2002. De la investiga- ferencia de investigaciones similares, existe una ci´on sobre el proceso de composici´on a la correlaci´onnegativa entre el n´umerode palabras ense˜nanza de la escritura. Revista Signos: del escrito y la calidad de la escritura, por lo que Estudios de Ling¨u´ıstica 35(51-52). 149–162. las introducciones que poseen mayor extensi´on, 10.4067/S0718-09342002005100011. tienden a catalogarse de baja calidad. A su vez, identificamos que rasgos como el empleo de co- Cotos, Elena & Nick Pendar. 2016. Discour- nectores conclusivos y la complejidad sint´actica se classification into rhetorical functions for se correlacionan de manera positiva con la cali- AWE feedback. CALICO Journal 33(1). 1–22. dad de las introducciones de los TFG de inge- 10.1558/cj.v33i1.27047. nier´ıacivil en inform´atica.Este subconjunto de Crossley, Scott, Kristopher Kyle, Laura Allen, rasgos que representan al plano sint´actico,a la Liang Guo & Danielle McNamara. 2014. Lin- extensi´ony a la organizaci´onargumentativa de la guistic microfeatures to predict L2 writing pro- introducci´onpermitir´ıan,de acuerdo con nuestro ficiency: A case study in automated writing modelo, predecir la calidad de la introducci´onen evaluation. The Journal of Writing Assess- esta disciplina. ment 7(1). 10–16. Adem´as,como hemos mencionado, en el an´ali- sis incluimos los trigramas de lemas para evaluar Crossley, Scott A., Kristopher Kyle & Danielle S. la relaci´onentre la instanciaci´onde las movidas McNamara. 2016. The tool for the automatic del apartado y la calidad del escrito, dando como analysis of text cohesion (TAACO): Automatic resultado correlaciones positivas y significativas assessment of local, global, and text cohesion. entre los rasgos medidos, aunque no recogidas en Behavior Research Methods 48(4). 1227–1237. el modelo de regresi´onfinal. 10.3758/s13428-015-0651-7. Debido a lo anterior, como proyecciones de Dikli, Semire. 2006. An overview of automated este estudio, se espera poder considerar los as- scoring of essays. The Journal of Technology, pectos funcionales como parte de los rasgos que Learning, and Assessment 5(1). 4–35. permiten evaluar la calidad del escrito e incluir otros ´ındicespara medir el cumplimiento de los Figueroa, Javiera, Alejandra Meneses & Euge- prop´ositoscomunicativos, identificar otros rasgos nio Chand´ıa. 2019. Desempe˜nosen la cali- e ´ındicesde complejidad sint´acticay ampliar el dad de explicaciones y argumentaciones en es- a corpus de estudio. tudiantes chilenos de 8 b´asico. Revista Sig- nos: Estudios de Ling¨u´ıstica 52(99). 31–54. 10.4067/S0718-09342019000100031. Agradecimientos Guo, Liang, Scott A. Crossley & Danielle S. McNamara. 2013. Predicting human judg- Esta investigaci´onfue financiada parcialmen- ments of essay quality in both integrated and te por el proyecto Fondecyt 1190639, titulado independent second language writing samples: “Modelamiento de la pr´acticadiscursiva de acre- A comparison study. Assessing Writing 18(3). ditaci´ondel conocimiento por medio de g´eneros 218–238. 10.1016/j.asw.2013.05.002. acad´emicosen ingenier´ıa.” Jin, Wenjun. 2001. A quantitative study of cohe- sion in chinese graduate students’ writing: va- Referencias riations across genres and proficiency levels. Informe t´ecnico.Northern Illinois University, Askehave, Inger & John M. Swales. 2001. USA. Genre identification and communicative pur- pose: A problem and a possible solu- Koutsantoni, Dimitra. 2006. Rhetorical stra- tion. Applied Linguistics 22(2). 195–212. tegies in engineering research articles and 10.1093/applin/22.2.195. research theses: Advanced academic literacy and relations of power. Journal of En- Beaugrande, Robert-Alain & Wolfgang Ultich glish for Academic Purposes 5(1). 19–36. Dressler. 1997. Introducci´ona la ling¨u´ıstica del 10.1016/j.jeap.2005.11.002. texto. Grupo Planeta. Lillo, Fernando. 2016. Clasificaci´onautom´ati- Carlino Cantis, Paula. 2003. Alfabetizaci´on ca de movidas ret´oricas en trabajos finales de acad´emica:Un cambio necesario, algunas alter- grado a partir de lemas: Pontificia Universidad 12– Linguamatica´ Fernando Lillo-Fuentes & Ren´eVenegas

Cat´olicade Valpara´ıso,Valpara´ıso,Chile. Te- Venegas-Velasquez, Rene. 2014. Proyecto fon- sis de grado. decyt — caracterizaci´onde g´eneros evaluati- vos como trabajos finales de grado en licen- MacArthur, Charles A., Amanda Jennings & ciatura y mag´ıster:Desde los patrones l´exico- Zoi A. Philippakos. 2019. Which linguistic fea- gramaticales y ret´orico-estructurales al anda- tures predict quality of argumentative writing miaje de la escritura acad´emico disciplinar. for college basic writers, and how do those fea- ANID: Agencia Nacional de Investigaci´ony tures change with instruction? Reading and Desarrollo. Writing 32. 10.1007/s11145-018-9853-6. Zamora, Sof´ıa& Ren´eVenegas. 2013. Estructura McNamara, Danielle S., Scott A. Crossley & Phi- y prop´ositoscomunicativos en tesis de mag´ıster lip M. McCarthy. 2010. Linguistic features y licenciatura. Literatura y Ling¨u´ıstica 201– of writing quality. Written Communication 218. 10.4067/S0716-58112013000100011. 27(1). 57–86. 10.1177/0741088309351547. Meza, Paulina. 2013. La comunicaci´ondel cono- cimiento en las secciones de tesis de ling¨u´ısti- ca: Determinaci´onde la variaci´onentre grados acad´emicos: Pontificia Universidad Cat´olicade Valpara´ıso,Valpara´ıso,Chile. Tesis de docto- rado. Moyano, Estela In´es.2000. Comunicar ciencia: El art´ıculo cient´ıfico y las comunicaciones a congresos. Universidad Nacional de Lomas de Zamora. Perin, Dolores, Mark Lauterbach, Julia Raufman & Hoori Santikian Kalamkarian. 2017. Text- based writing of low-skilled postsecondary stu- dents: relation to comprehension, self-efficacy and teacher judgments. Reading and Writing 30. 887–915. 10.1007/s11145-016-9706-0. Cubo de Severino, Liliana (ed.). 2007. Los textos de la ciencia. Cordova: Comunicarte. Swales, John. 1990. Genre analysis. english in academic and research settings. Cambridge: Cambridge University Press. S´anchez Ceballos, Lina Maria. 2014. La escritu- ra de calidad: base para la transformaci´onde la instrucci´onen efectiva mediaci´ondid´actica. Revista Reflexi´ony Saberes 1(1). 33–37. Tamola de Spiegel, Diana. 2005. La tesina de licenciatura. En Los textos de la ciencia. Prin- cipales clases del discurso acad´emico-cient´ıfico, 235–263. C´ordoba,Argentina: Comunicarte. Vajjala, Sowmya. 2018. Automated assessment of non-native learner essays: Investigating the role of linguistic features. International Jour- nal of Artificial Intelligence in Education 28. 79–105. 10.1007/s40593-017-0142-3. Venegas, Ren´e, Sof´ıa Zamora & Amparo Gal- dames. 2016. Hacia un modelo ret´ori- co discursivo del macrog´enero trabajo fi- nal de grado en licenciatura. Revista Sig- nos: Estudios de Ling¨u´ıstica 49(S1). 247–279. 10.4067/S0718-09342016000400012. Relaci´onentre calidad de escritura y rasgos lingu´ıstico-discursivos¨ Linguamatica´ – 13

A. Pauta de evaluaci´onpara evaluar manualmente la calidad de los escritos

Descriptor Nvl 1 Nvl 2 Nvl 3 Nvl 4 Nvl 5 Nvl 6 En la introducci´onse cumple el prop´ositode orientar al lector en la tem´aticay presentar el objetivo de investigaci´on. En la introducci´onse destaca la importancia del tema abordado en el Trabajo de t´ıtulo, generalizando y/o mostrando la necesidad de realizar la investigaci´on. En la introducci´onse establece el ´areaespec´ıfi- ca del Trabajo de t´ıtulo,mostrando las limita- ciones de investigaciones previas, aspectos que no se han abordado o ´areasde inter´es novedo- sas. En la introducci´on, la informaci´onse presen- ta organizada desde la m´asgeneral a la m´as espec´ıfica. En la introducci´onse utilizan diversos conec- tores discursivos y mecanismos de cohesi´onpa- ra unir la informaci´onpresente en la introduc- ci´ondel Trabajo de t´ıtulo. La informaci´onincluida en la introducci´onse relaciona con el tema abordado en el Trabajo de t´ıtulo. El tema se mantiene a lo largo de toda la in- troducci´ondel trabajo de t´ıtulo. La extensi´onde la introducci´on es entre una plana y media y dos planas. El vocabulario utilizado en la Introducci´ones acorde a la disciplina y la audiencia del Tra- bajo de t´ıtulo. En la introducci´onse presenta una correcta ortograf´ıapuntual, acentual y literal. Las oraciones incluidas en la introducci´ondel Trabajo de t´ıtuloson, en su mayor´ıa,pasivas e impersonales. La persona discursiva es consistente a lo largo de la introducci´ondel Trabajo de t´ıtulo. Las oraciones de la introducci´onest´ancons- truidas con una sintaxis acorde al espa˜noly presentan concordancia entre sujeto y predi- cado en n´umeroy persona. La introducci´ondel Trabajo de t´ıtulono pre- senta vicios idiom´aticos tales como: redundan- cia, discordancia, deque´ısmo,que´ısmo,marcas de oralidad, entre otros. La introducci´ones de alta calidad, pues cum- ple con el prop´ositode introducir al lector en la investigaci´on.Adem´as,posee buena redac- ci´on,cohesi´on,coherencia, las ideas son cla- ras, el vocabulario es acorde a la audiencia y al g´enerodiscursivo. No presenta errores or- togr´aficos(acentual, literal y literal).

Propuesta recibida en octubre 2019 y aceptada para publicaci´onen mayo 2020.

Generaci´onautom´aticade frases literarias Automatic Generation of Literary Sentences

Luis-Gil Moreno-Jim´enez Juan-Manuel Torres-Moreno Universit´ed’Avignon/LIA Universit´ed’Avignon/LIA Universidad Tecnol´ogicade la Selva Polytechnique Montr´eal [email protected] [email protected] Roseli S. Wedemann Eric SanJuan Universidade do Estado do Rio de Janeiro Universit´ed’Avignon/LIA [email protected] [email protected]

Resumen 1. Introducci´on

En este art´ıculoabordamos el tema de la genera- ci´onautom´aticade frases literarias, que es una parte Los investigadores en Procesamiento de Len- importante de los estudios relacionados al ´areade la guaje Natural (PLN) durante mucho tiempo han Creatividad Computacional (CC). Proponemos tres utilizado diversos corpora constituidos por docu- modelos de generaci´ontextual guiados por un contex- mentos enciclop´edicos (principalmente Wikipe- to, basados principalmente en algoritmos estad´ısticos dia), period´ısticos(peri´odicoso revistas) o espe- y an´alisissint´acticosuperficial. Los textos generados cializados (documentos legales, cient´ıficoso t´ecni- fueron evaluados por siete personas a partir de 4 crite- cos) para el desarrollo y pruebas de sus modelos rios: gramaticalidad, coherencia, relaci´oncon el con- (Torres-Moreno, 2014; Iria et al., 2011; Mart´ınez, texto y una adaptaci´ondel test de Turing, en don- 2018). de se pidio a los evaluadores clasificar los textos en: El uso y an´alisisde los corpora literarios sis- textos generados autom´aticamente y textos generados tem´aticamente han sido dejados a un lado por por humanos. Los resultados obtenidos son bastante varias razones. En primer lugar, el nivel de dis- alentadores. curso literario es m´ascomplejo que los otros g´ene- ros. En segundo lugar, a menudo, los documentos Palabras clave literarios hacen referencia a mundos o situacio- corpora literarios, generaci´onautom´atica de frases, nes imaginarias o aleg´oricas,a diferencia de los cadenas de Markov, Word2vec otros g´enerosque describen sobre todo situacio- nes o hechos factuales. Estas y otras caracter´ısti- cas presentes en los textos literarios, vuelven su- Abstract mamente compleja la tarea de an´alisisautom´ati- co de este tipo de textos. En este trabajo nos In this article, we regard the task of automatic proponemos utilizar corpora literarios, a fin de generation of literary sentences, which is an impor- generar realizaciones literarias (frases nuevas) no tant topic in the area of Computational Creativity. presentes en dichos corpora. We propose three generative models mainly based on La producci´onde textos literarios es el resul- statistical algorithms and shallow parsing. The gene- tado de un proceso donde una persona hace uso rated texts were evaluated by seven persons according de aptitudes creativas. Este proceso, denomina- to four criteria: grammar, coherence, context related, do “proceso creativo”, ha sido analizado por Bo- and an adaptation of the Turing test. We present pre- den(2004), quien propone tres tipos b´asicosde liminary results of their implementations that are qui- creatividad: la primera, Creatividad Combinato- te encouraging. ria (CCO), donde se fusionan elementos conoci- Keywords dos para la generaci´onde nuevos elementos. La segunda, Creatividad Exploratoria (CE), donde literary corpora, automatic sentence generation, Mar- la generaci´onocurre a partir de la observaci´on kov chains, Word2Vec o exploraci´on.La tercera, Creatividad Transfor- macional (CT), donde los elementos generados son producto de alteraciones o experimentacio- nes aplicadas al dominio de la CE. DOI: 10.21814/lm.12.1.308 Linguamatica´ — ISSN: 1647–0818 This work is Licensed under a Creative Commons Attribution 4.0 License Vol. 12 N´um. 1 2020 - P´ag. 15–30 16– Linguamatica´ Luis-Gil Moreno-Jim´enez et al.

Sin embargo, cuando se pretende automatizar esos modelos da lugar a una homosintaxis, es de- el proceso creativo, la tarea debe ser adaptada a cir, la producci´onde texto nuevo a partir de for- m´etodos formales que puedan ser realizados en un mas de discurso de diversos autores. La homosin- algoritmo. Este proceso automatizado da lugar taxis no tiene el mismo contenido sem´antico, ni a un nuevo campo de investigaci´on,denominado siquiera las mismas palabras, aunque guarda la Creatividad Computacional (CC) (P´erezy P´erez, misma estructura sint´actica. 2015), en donde se retoman los conceptos: CT y En este trabajo proponemos estudiar el pro- la CE propuestos por Boden(2004). Es en este blema de la generaci´onde texto literario original campo donde nosotros hemos trabajado para la en forma de frases aisladas, no a nivel de p´arra- generaci´onde frases literarias. fos. La generaci´onde p´arrafospuede ser objeto Por otro lado, la definici´onde literatura no de trabajos futuros. Una evaluaci´onde la calidad tiene un consenso universal, y muchas variantes de las frases generadas por nuestro sistema ser´a de la definici´onpueden ser encontradas. En es- presentada. te trabajo optaremos por introducir una defini- Este art´ıculoest´aestructurado como sigue. En ci´onpragm´aticade frase literaria, que servir´apa- la Secci´on2 presentamos un estado del arte de la ra nuestros modelos y experimentos. generaci´onautom´aticade textos. En la Secci´on3 describimos los corpora utilizados. Nuestros mo- Definici´on1 Una frase literaria es una frase delos son descritos en la Secci´on4. Los resultados que se diferencia de las frases en lengua gene- y su interpretaci´onse encuentran en la Secci´on5. ral, porque contiene elementos (nombres, verbos, Finalmente, la Secci´on6 presenta algunas ideas adjetivos, adverbios) que son percibidos como ele- de trabajos futuros antes de concluir. gantes o menos coloquiales que sus equivalentes en lengua general. 2. Estado del arte

Por ejemplo, la frase en lengua general: A continuaci´on,se presenta un estudio del es- tado del arte en donde se mencionan trabajos pa- Me par´ea ver unos libros viejos en la librer´ıa ra la generaci`onde texto con enfoques variados que est´aen la esquina de mi casa. y objetivos bastante interesantes. En principio, mostramos algunos trabajos que no est`anrela- Puede ser ligeramente re-escrita para generar tres cionados a la CC literaria. Posteriormente, anali- frases literarias seg´unnuestra definici´on: zamos investigaciones dedicadas a la generaci`on textual dentro del marco de la CC, como genera- Me detuve a mirar libros antiguos en la librer´ıa ci`onde poemas, poes`ıasy otras formas literarias. pr´oximaa mi casa. Durante nuestra investigaci`on,hemos percibi- Mir´edurante unos momentos algunos libros do que la CC no busca solucionar los problemas antiguos en la librer´ıacercana a mi casa. de la sociedad en sus variados aspectos, sino en- contrar nuevos paradigmas para la creaci´onde Hoje´edurante algunos instantes libros viejos obras con un importante valor cultural y art´ısti- en la librer´ıacercana a mi hogar. co (Colton & Wiggins, 2012). Sin embargo, una gran variedad de modelos de IA han sido adap- Por supuesto, un autor puede decidir escribir tados e incluso mejorados para lograr simular el un texto literario basado exclusivamente en fra- proceso creativo a trav´esde modelos computacio- ses de lengua general. Por ejemplo, Jos´eAgust´ın nales (Colton, 2012). en “De perfil” donde el fragmento: “. . . me qued´e dormido en el Jard´ın. Supongo que el sol y lo 2.1. Generaci´ontextual no literaria fresco del aire crearon el t´erminoexacto para adormecerme.”1, usa frases literarias dentro de La generaci´onde texto es una tarea relativa- un texto desbordante de lengua general. Sin em- mente cl´asica,que ha sido estudiada en diversos bargo, nosotros no intentaremos mezclar ambas trabajos. Por ejemplo, Szymanski & Ciota(2002) lenguas y nos restringiremos a analizar y generar presentam un modelo basado en cadenas de Mar- frases literarias. kov para la generaci´onde texto en idioma polaco. En particular, proponemos crear artificial- Los autores definen un conjunto de estados actua- mente frases literarias, utilizando modelos gene- les y calculan la probabilidad de pasar al estado rativos y aproximaciones sem´anticas basados en siguiente. La ecuaci´on(1) calcula la probabilidad corpora de lengua literaria. La combinaci´onde de pasar al estado Xi a partir de Xj,

1J. Agust´ın. De perfil, Joaqu´ınMortiz, M´exico,1993. P (X X ) = P (X X ) P (X ) . (1) ij i| j i ∩ j | j Generaci´onautom´atica de frases literarias Linguamatica´ – 17

Para ello, se utiliza una matriz de transici´on, 2.2. Generaci´onde poes´ıa la cual contiene las probabilidades de transici´on de un estado actual Xi a los posibles estados fu- Tambi´en se encuentran trabajos de genera- turos Xi+1. Cada estado puede estar definido por ci´ontextual que se proponen como meta resul- n-gramas de letras o de palabras. tados con un valor literario. La generaci´onde texto literario es un proceso distinto a la genera- La tarea inicia en un estado Xi dado por el usuario. Posteriormente, usando la matriz de ci´onde texto general (Lebret et al., 2016; Welleck transici´on,se calcula la probabilidad de pasar al et al., 2019), y ha sido abordado desde los a˜nos 60’s por investigadores del campo de humanida- estado siguiente Xi+1. En ese momento el esta- des, siendo hasta principios del a˜no2000 aborda- do predicho Xi+1 se convierte en el estado actual da fuertemente por la Ciencias Computacionales Xi, repitiendo este proceso hasta satisfacer una condici´on.Este m´etodo tiene un buen compor- (Gon¸caloOliveira, 2017), Entre estos, se tienen tamiento al generar palabras de 4 o 5 letras. En trabajos para la generaci´onde poes´ıao poemas. polaco esta longitud corresponde a la longitud Zhang & Lapata(2014) proponen un mode- media de la mayor parte de las palabras (Torres- lo para la generaci´onde poemas que se basa en Moreno, 2012). dos premisas b´asicas: ¿qu´edecir? y ¿c´omode- Tambi´en hay trabajos que realizan an´ali- cirlo? La propuesta parte de la selecci´onde un sis m´as profundos para generar no solamen- conjunto de frases, tomando como gu´ıauna lis- te palabras, sino p´arrafoscompletos. Sridhara ta de palabras dadas por el usuario. Las frases et al.(2010) presentan un algoritmo que gene- son procesadas por un modelo de red neuronal ra autom´aticamente comentarios descriptivos pa- (Mikolov & Zweig, 2012), para construir combi- ra bloques de c´odigo(m´etodos) en Java. Para naciones coherentes y formular un contexto. Este ello, se toma el nombre del m´etodo y se usa co- contexto es analizado para identificar sus princi- mo la acci´ono idea central de la descripci´ona pales elementos y generar las l´ıneasdel poema, generar. Posteriormente se usan un conjunto de que tambi´enpasar´ana formar parte del contex- heur´ısticas,para seleccionar las l´ıneasde c´odigo to. El modelo fue evaluado manualmente por 30 del m´etodo que puedan aportar mayor informa- expertos en una escala de 1 a 5, analizando le- ci´on,y se procesan para generar la descripci´on. gibilidad, coherencia y significatividad en frases de 5 palabras, obteniendo una precisi´onde 0.75. La tarea consiste en construir sintagmas, a Sin embargo, la coherencia entre frases result´oser partir de la idea central dada por el nombre del muy pobre. m´etodo, y enriquecerlos con la informaci´onde los elementos extra´ıdos.Por ejemplo, si hay un m´eto- Gon¸caloOliveira(2012); Gon¸caloOliveira & do removeWall(Wall x) y se encuentra la lla- Cardoso(2015) proponen un modelo de genera- mada al m´etodo removeWall(oldWall), la des- ci´onde poemas basado en el uso de plantillas. El cripci´ongenerada podr´ıaser: “Remove old Wall”. algoritmo inicia con un conjunto de frases relacio- Obteni´endosela acci´on(verbo) y el objeto (sus- nadas a partir de palabras clave. Las palabras cla- ve sirven para generar un contexto. Las frases son tantivo) directamente del nombre del m´etodo y el 2 adjetivo a partir de la llamada. Estas ideas per- procesadas usando el sistema PEN para obtener miten a los autores la generaci´onde comentarios su informaci´ongramatical. Esta informaci´ones extensos sin perder la coherencia y la gramatica- empleada para la generaci´onde nuevas plantillas lidad. gramaticales y finalmente la construcci´onde las l´ıneasdel poema, tratando de mantener la cohe- Tambi´enexisten trabajos con un alcance m´as rencia y la gramaticalidad. limitado pero de mayor precisi´on. Huang et al. (2012) proponen la evaluaci´onde un conjunto de Otros trabajos han sido propuestos para la ge- datos con un modelo basado en redes neurona- neraci´onde poes´ıa,como en (Agirrezabal et al., les para la generaci´onde subconjuntos de multi- 2013), donde se presenta un m´etodo bastante in- palabras. Este mismo an´alisisse considera por teresante, en donde a partir del an´alisisde diver- Fu et al.(2014), en donde se busca establecer sos corpora, se extraen las secuencias de etiquetas o detectar la relaci´onhiper´onimo-hip´onimocon POS con sus respectivas inflexiones para calcular la ayuda del modelo Word2vec, tambi´enbasa- la probabilidad de aparici´onde cada una de ellas. do en redes neuronales (Mikolov et al., 2013b). Este m´etodo estoc´asticosirve para la generaci´on Esta propuesta reporta una precisi´onde 0.70, de nuevas secuencias y posteriormente se procede al ser evaluado sobre un corpus manualmente a la sustituci´onde las etiquetas POS. Se realiza- etiquetado. ron tres experimentos para la sustituci´on.En el primero se sustituyen todas las etiquetas de las

2Disponible en: http://code.google.com/p/pen 18– Linguamatica´ Luis-Gil Moreno-Jim´enez et al. secuencias POS por palabras que respeten la gra- problemas de calidad y coherencia. Se utiliza el maticalidad de la etiqueta. En el segundo se sus- an´alisissem´antico de una entrada proporciona- tituyen ´unicamente adjetivos y sustantivos bajo da por el usuario que sirve para la creaci´ondel la misma condici´on,y finalmente en el tercer ex- contexto. La propuesta principal de SentiGAN perimento s´olose reemplazan sustantivos con pa- sugiere establecer un n´umerodefinido de genera- labras con una relaci´onsem´antica determinada. dores textuales que deber´anproducir texto rela- cionado a una emoci´ondefinida. Los generadores son entrenados bajo dos esquemas: i) una serie 2.3. Generaci´onde narrativas de elementos ling¨u´ısticosque deben ser evitados para la generaci´ondel texto; y ii) un conjunto La literatura es una actividad art´ıstica que de elementos relacionados con la emoci´onligada exige capacidades creativas importantes y que ha al generador. A trav´esde c´alculosde distancia, llamado la atenci´onde cient´ıficosdesde hace cier- heur´ısticasy modelos probabil´ısticos,el genera- to tiempo. Diversos investigadores han trabajado dor crea un texto lo m´asalejado del primer es- en proyectos que permiten la generaci´onde tex- quema y lo m´ascercano al segundo. to literario cruzando la frontera de textos cortos P´erezy P´erez(2015) presentam una revisi´on como poemas o poes´ıa,para dar lugar a la gene- interesante del estado del arte en este tema, don- raci´onde textos m´asextensos. de se mencionan algunos de los primeros intentos Riedl & Young(2006) presentan un conjun- de generaci´onautom´aticade textos literarios. Por to de algoritmos para la generaci´onde una gu´ıa ejemplo, el modelo “Through the park” (Mont- narrativa basada en la idea de Creatividad Ex- fort, 2008b), es capaz de generar narraciones ploratoria (Boden, 2004). El modelo establece i) hist´oricasempleando la elipsis. Esta t´ecnicaes un conjunto universal U de conceptos relevantes empleada para manipular, entre otras cosas, el relacionados a un dominio; ii) un modelo genera- ritmo de la narraci´on.En los trabajos “About So dor de texto; iii) un subconjunto de conceptos S Many Things” (Montfort, 2008c) y “Taroko Gor- que pertenecen al conjunto universal U; y iv) al- ge” (Montfort, 2009) se muestran textos genera- goritmos encargados de establecer las relaciones dos autom´aticamente. El primero de ellos genera entre U y S para generar nuevos conceptos. Estos estrofas de 4 l´ıneas estrechamente relacionadas nuevos conceptos ser´anposteriormente compara- entre ellas. Eso se logra a trav´esde un an´alisis dos con los conceptos ya existentes en U, para gramatical que establece conexiones entre entida- verificar la coherencia y relaci´oncon la idea prin- des de distintas l´ıneas.El segundo trabajo mues- cipal. Si los resultados son adecuados, estos nue- tra algunos poemas cortos generados autom´atica- vos conceptos se utilizan para dar continuaci´ona mente, con una estructura m´ascompleja que la la narrativa. de las estrofas. El inconveniente de ambos enfo- Son diversos los trabajos que est´anorientados ques es el uso de una estructura inflexible, lo que a la generaci´onde una narrativa ficticia, como genera textos repetitivos con una gramaticalidad cuentos o historias. Clark et al.(2018) propo- limitada. nen un modelo de generaci´onde texto narrativo a El proyecto MEXICA modela la generaci´on partir del an´alisisde entidades. Dichas entidades colaborativa de narraciones P´erezy P´erez(2015). son verbos, sustantivos o adjetivos dentro de un El prop´ositoes la generaci´onde narraciones com- texto, que ser´anusados para generar la frase si- pletas utilizando obras de la ´epoca Precolombi- guiente. El modelo recupera las entidades obteni- na. MEXICA genera narraciones simulando el das de tres fuentes principales: la frase actual, la proceso creativo de E-R (Engaged and Reflexi- frase previa y el documento completo (contexto), ve) (Sharples, 1996). Este proceso se describe co- y las procesa con una red neuronal para seleccio- mo la acci´on,donde el autor trae a su mente un nar las mejores de acuerdo a diversos criterios. A conjunto de ideas y contextos y establece una co- partir de un conjunto de heur´ısticas,se analiza- nexi´oncoherente entre estas (E). Posteriormente ron las frases generadas para separar aquellas que se reflexiona sobre las conexiones establecidas y expresaran una misma idea (par´afrasis),de aque- se eval´uael resultado final para considerar si este llas que tuvieran una relaci´onentre sus entidades realmente satisface lo esperado (R). El proceso pero con ideas diferentes. itera hasta que el autor lo considera concluido. El modelo sentiGAN (Ke & Xiaojun, 2018) Otro trabajo que contempla la generacion de pretende generar texto con un contexto emocio- narrativas es el que se presenta en (Gerv´aset al., nal. Se trata de una actualizaci´ondel modelo 2015), en donde se expone el m´etodo bajo el cual, GAN (Generative Adversarial Net)(Goodfellow algunos escritores reutilizan las experiencias re- et al., 2014) que ha producido resultados alenta- cabadas en textos le´ıdoso escritos, estas son apli- dores en la generaci´ontextual, aunque con ciertos Generaci´onautom´atica de frases literarias Linguamatica´ – 19 cadas para la creaci´onde nuevos textos. En este Frases Tokens Caracteres trabajo, estas experiencias son traducidas como escenarios, estructuras, acciones, etc., que sirven 5KL 9 M 149 M 893 M como datos de entrenamiento para la generaci´on Media por 2.4 K 37.3 K 223 K de nuevas narrativas. documento Nuestro modelo de generaci´onde frases no fue concebido para la generaci´onde poes´ıao narra- Cuadro 1: Corpus 5KL compuesto de 4 839 tiva. Mas bien est´adentro de un cuadro general obras literarias. de generaci´onautom´atica,teniendo como objeti- vo la construcci´onde un generador artificial de te “frases literarias”. Muchas de ellas son frases texto literario. Desde este punto de vista es s´olo de lengua general: estas frases a menudo otorgan un m´odulode un sistema mas complejo en pers- una fluidez a la lectura y proporcionan los enla- pectiva, que contempla la sem´antica, el manejo ces necesarios a las ideas expresadas en las frases de figuras literarias y las emociones. literarias. Otra desventaja de este corpus es el ruido que 3. Corpora utilizados contiene. Por lo que, el proceso de segmentaci´on puede producir errores en la detecci´onde fron- En esta secci´ondescribimos los corpora utili- teras de frases. Tambi´enlos n´umerosde p´agina, zados en nuestros modelos para los experimentos. cap´ıtulos, secciones o ´ındices producen errores. Se trata del corpus 5KL y del corpus 8KF, ambos No se realiz´oning´unproceso manual de verifica- creados en idioma espa˜nol. ci´on,por lo que a veces se introducen informacio- nes indeseables: copyrights, datos de la edici´onu 3.1. Corpus 5KL otros. Estas son, sin embargo, las condiciones que presenta un corpus literario real. Este corpus fue constituido con aproximada- mente 5 000 documentos (en su mayor parte li- 3.2. Corpus 8KF bros) en espa˜nol.Los textos, en su mayoria, co- rrespondem a los g´eneros literarios: narrativa, Decidimos crear un peque˜nocorpus controla- poes´ıa,teatro, ensayos, etc3. Los documentos ori- do, exclusivamente compuesto de “frases litera- ginales, en formatos muy heterog´eneos4, fueron rias”, que ser´autilizado en la fase generativa de procesados para crear un ´unicodocumento co- los modelos propuestos. Un corpus heterog´eneo dificado en UTF-8. Dada su heterogeneidad, es- de casi 8 000 frases literarias fue constituido ma- te corpus presenta una gran cantidad de errores nualmente, a partir de poemas, discursos, citas, (palabras cortadas o pegadas, s´ımbolos extra˜nos cuentos y otras obras. y disposici´onno convencional de p´arrafos). Se evitaron cuidadosamente las frases de len- Las herramientas cl´asicas como Free- gua general, y tambi´enaquellas demasiado cortas Ling (Padr´o, 2012) tienen mucha dificultad (N 3 palabras) o demasiado largas (N 30 en tratar estes tipos de documentos. Por ello, palabras).≤ Algunos elementos que sirvieron≥ pa- decidimos construir un segmentador de frases ad ra seleccionar manualmente las frases “literarias” hoc para este tipo de corpus ruidoso. Las frases fueron: un vocabulario complejo y est´etico, el fueron segmentadas autom´aticamente, usando cual rara vez es empleado en el lenguaje com´un, un programa en Perl y expresiones regulares, adem´asde la identificaci´onde ciertas figuras li- para obtener una frase por l´ınea. terarias como la rima, la an´afora,la met´aforay Las caracter´ısticasdel corpus 5KL se encuen- otras. Algunos ejemplos de frases literarias son tran en el Cuadro1 5. Este corpus es empleado los siguientes: para el entrenamiento del modelo Word2vec (ver Secci´on4). La mentira y la verdad no pueden vivir en paz. El corpus literario 5KL posee la ventaja de El amor, como la tos, no puede ocultarse. ser muy extenso y adecuado para el aprendiza- je autom´atico.Tiene sin embargo, la desventa- Si tu belleza fuera enfermedad, vida m´ıa,no ja de que no todas las frases son necesariamen- habr´ıaremedio. Grabad esto en vuestro coraz´on:cada d´ıaes el 3Dada la dimensi´onde este corpus, no nos fue posible cuantificar los g´enerosmanualmente. Una aproximaci´on mejor del a˜no. autom´aticapodr´arealizarse a futuro. 4pdf, txt, html, doc, docx, odt, etc. Las caracter´ısticas del corpus 8KF se mues- 5M representa un valor de 106 y K de 103. tran en el Cuadro2. Este corpus fue utiliza- 20– Linguamatica´ Luis-Gil Moreno-Jim´enez et al. do principalmente en los dos modelos generati- (EGP), compuesta de etiquetas POS y de pala- vos: modelo basado en cadenas de Markov (Sec- bras funcionales (art´ıculos,pronombres, conjun- ci´on 4.1.1) y modelo basado en la generaci´onde ciones, etc.). Texto enlatado (Canned Text, Secci´on 4.1.2). En la segunda fase, las etiquetas POS (en la EGV y la EGP) ser´anreemplazadas por un voca- Frases Tokens Caracteres bulario adecuado usando ciertas aproximaciones 8KF 7 679 114 K 652 K sem´anticas. La producci´onde una frase f(Q, N) es guiada por dos par´ametros:un contexto repre- Media — 15 85 sentado por un t´ermino Q (query) y una longitud por frase 3 N 15, dados por el usuario. Los corpora 5KL≤ y 8KF≤ son utilizados en varias fases de la Cuadro 2: Corpus 8KF compuesto de 7 679 fra- producci´onde las frases f. ses literarias. El Modelo 1 est´acompuesto por: i) un mode- lo generativo estoc´asticobasado en cadenas de 4. Modelos propuestos Markov, para la selecci´onde la pr´oximaetique- ta POS usando el algoritmo de Viterbi; y ii) un En este trabajo proponemos tres modelos modelo Word2vec, para recuperar el vocabula- h´ıbridos(combinaciones de modelos generativos rio que reemplazar´ala secuencia de etiquetas cl´asicos y aproximaciones sem´anticas) para la POS. producci´onde frases literarias. Hemos adaptado El Modelo 2 es una combinaci´onde: i) el mo- dos modelos generativos, usando an´alisissint´acti- delo generativo de texto enlatado; y ii) un mo- co superficial (shallow parsing), combinados con delo Word2vec, con un c´alculode distancias tres modelos de aproximaci´onsem´antica usando entre diversos vocabularios que han sido cons- Word2vec. tituidos manualmente. En una primera fase, los modelos generati- vos recuperan la informaci´ongramatical de cada El Modelo 3 utiliza: i) la generaci´onde texto palabra del corpus 8KF (ver Secci´on3), en for- enlatado; y ii) una interpretaci´ongeom´etrica, ma de etiquetas POS (Part of Speech), a trav´es utilizando redes neuronales con Word2vec. Es- de un an´alisismorfosint´actico.Utilizamos Free- ta interpretaci´onest´abasada en una b´usqueda Ling (Padr´o, 2012) que permite an´alisisling¨u´ısti- de informaci´oniterativa (Information Retrie- cos en varios idiomas6 y que adem´asde devolver- val, IR), que realiza simult´aneamente un ale- nos las etiquetas POS, que nos permiten saber jamiento de la sem´antica original y un acerca- si la palabra analizada es un verbo, sustantivo, miento al query Q del usuario. adjetivo, etc., tambi´ennos da informaci´onacer- ca de las inflexiones en ella, es decir, conjuga- ciones, g´enero,n´umero,etc. Por ejemplo, para la Freeling palabra “Profesor” FreeLing genera la etiqueta Texto POS [NCMS000]. La primera letra indica un sus- 8KF 5KL Markov enlatado tantivo (Noun), la segunda un sustantivo com´un (Common); la tercera indica el g´eneromasculino EGV EGP EGP (Male) y la cuarta da informaci´onde n´umero Aprendizaje Aprendizaje Aprendizaje profundo profundo profundo (Singular). Los 3 ´ultimoscaracteres dan infor- maci´ondetallada del campo sem´antico, entida- Query Q 7 Longitud N des nombradas, etc. En nuestro caso, usaremos Modelo Modelo Modelo solamente los 4 primeros niveles de las etiquetas. 1 2 3 Con los resultados del an´alisismorfosint´acti- co, se genera una salida que llamaremos Estruc- tura gramatical vac´ıa (EGV), compuesta exclu- f (Q,N) f (Q,N) f (Q,N) sivamente de una secuencia de etiquetas POS, 1 2 3 o una Estructura gramatical parcialmente vac´ıa Figura 1: Arquitectura general de los modelos. 6FreeLing ha sido desarrollado en el centro TALP (Uni- versidad Polit´ecnicade Catalu˜na).Puede ser obtenido en La Figura1 muestra la arquitectura general la direcci´on: http://nlp.lsi.upc.edu/freeling 7M´as detalles de las etiquetas FreeLing en de nuestro sistema. En la Secci´on 4.1 se describen http://blade10.cs.upc.edu/freeling-old/doc/ los dos modelos generativos, y enseguida los tres tagsets/tagset-es.html modelos de aproximaci´onsem´antica. Generaci´onautom´atica de frases literarias Linguamatica´ – 21

4.1. Modelos generativos El resultado es una EGV, donde cada cuadro vac´ıorepresenta una etiqueta POS que ser´arem- A continuaci´on, se presentan dos modelos plazada por una palabra, en la etapa final de ge- generativos de estructuras gramaticales en sus neraci´onde la nueva frase. El remplazo se realiza dos variantes, Estructuras Gramaticales Vac´ıas usando el modelo descrito en la Secci´on 4.2. La (EGV) y Estructuras Gramaticiales Parcialmen- arquitectura general de este modelo se muestra te Vac´ıas (EGP), que sirven a los modelos des- en la Figura2. critos en las secciones 4.2, 4.3y 4.4 para la gene- raci´onde frases. Pre- 8KF proceso Freeling 8KPOS 4.1.1. Modelo generativo estoc´astico usando ca- denas de Markov Markov Este modelo generativo, que llamaremos Mo- Matriz de delo de Markov, est´abasado en el algoritmo de transición Longitud N Viterbi y las cadenas de Markov (Manning & N Viterbi Sch¨utze, 1999), donde se selecciona una etiqueta POS con la m´aximaprobabilidad de ocurrencia, para ser agregada al final de la secuencia actual. EGV Utilizamos el corpus de frases literarias 8KF (ver Secci´on 3.2), que fue convenientemente fil- trado para eliminar tokens indeseables: n´umeros, Figura 2: Modelo generativo estoc´astico(Mar- siglas, horas y fechas. El corpus filtrado se analiz´o kov) que produce una estructura gramatical vac´ıa usando FreeLing, que recibe en entrada una ca- EGV. dena de texto y entrega el texto con una etiqueta POS para cada palabra. El corpus es analizado frase a frase, reemplazando cada palabra por su 4.1.2. Modelo generativo basado en texto enlata- respectiva etiqueta POS. Al final del an´alisis,se do obtiene un nuevo corpus 8KPOS con s = 7 679 El algoritmo Creativo-Markov del Modelo secuencias de etiquetas POS, correspondientes al de Markov logra reproducir patrones ling¨u´ısti- mismo n´umerode frases del corpus 8KF. Las se- cos (secuencias POS) detectados en el corpus cuencias del corpus 8KPOS sirven como conjun- 8KPOS, pero de corta longitud. Cuando se in- to de entrenamiento para el algoritmo de Viterbi, tent´oextender la longitud de las frases a N > 6 que calcula las probabilidades de transici´on,que palabras, no fue posible mantener la coherencia y ser´anusadas para generar cadenas de Markov. legibilidad (como se ver´aen la Secci´on 4.2). De- Las s estructuras del corpus 8KPOS procesa- cidimos entonces utilizar m´etodos de generaci´on das con el algoritmo de Viterbi son representadas textual guiados por estructuras morfosint´acticas en una matriz de transici´on P[s s]. P ser´autiliza- × fijas: el texto enlatado. Molins & Lapalme(2015) da para crear nuevas secuencias de etiquetas POS argumentan que el uso de estas estructuras aho- no existentes en el corpus 8KPOS, simulando un rran tiempo de an´alisissint´acticoy permite con- proceso creativo. Nosotros hemos propuesto el al- centrarse directamente en el vocabulario. goritmo Creativo-Markov que describe este pro- La t´ecnicade texto enlatado ha sido emplea- cedimiento. da tambi´en en varios trabajos, con objetivos En este algoritmo, Xi representa el estado de espec´ıficos. McRoy et al.(2003); van Deemter una etapa de la creaci´onde una frase, en el ins- et al.(2005) desarrollaron modelos para la ge- tante i, que corresponde a una secuencia de eti- neraci´onde di´alogosy frases simples. Esta t´ecni- quetas POS. Siguiendo un procedimiento de Mar- ca es llamada “Generaci´onbasada en plantillas” kov, en un instante i se selecciona la pr´oxima (Template-based Generation) o de manera intui- etiqueta POSi+1, con m´aximaprobabilidad de tiva, texto enlatado8. ocurrencia, dada la ´ultima etiqueta POS de la i Decidimos emplear texto enlatado para la ge- secuencia X . La etiqueta POS ser´aagrega- i i+1 neraci´ontextual, usando un corpus de plantillas da al final de X para generar el estado X . i i+1 (templates) construido a partir del corpus 8KF P (X = Y X = Z) es la probabilidad de i+1 i (Secci´on3). Este corpus contiene estructuras gra- transici´onde un| estado a otro, obtenido con el algoritmo de Viterbi. Se repiten las transiciones, 8http://projects.ict.usc.edu/nld/cs599s13/ hasta alcanzar una longitud deseada. LectureNotes/cs599s13dialogue2-13-13.pdf 22– Linguamatica´ Luis-Gil Moreno-Jim´enez et al.

4.2. Modelo 1: Markov y Word2vec 8KF Pre- proceso Freeling En este modelo se retoman las estructuras gramaticales vac´ıas(EGV), descritas en la Sec- ci´on 4.1.1, que pueden ser manipuladas para ge- nerar nuevas frases f(Q, N). La idea es que las Detección frases f sean generadas por homosintaxis. En esta de sintagmas secci´on,proponemos un modelo que combina el Longitud N modelo generativo de Markov (Secci´on 4.1.1), con un algoritmo de aproximaci´onsem´antica que uti- liza un modelo de redes neuronales, el Word2vec. EGP La labor de Word2vec es obtener la representa-

ci´onde una palabra en un espacio vectorial (em- beddings), a trav´esde un an´alisiscontextual10. El proceso se describe a continuaci´on. Figura 3: Modelo generativo de Texto enlatado El corpus 5KL es pre-procesado para unifor- que produce una estructura parcialmente vac´ıa. mizar el formato del texto, eliminando caracteres que no son importantes para el an´alisissem´antico (puntuaci´on,n´umeros,etc.). Esta etapa prepara maticales flexibles que pueden ser manipuladas los datos de entrenamiento del Word2vec que uti- para crear nuevas frases. Estas plantillas pue- liza una representaci´onvectorial del corpus 5KL. den ser seleccionadas aleatoriamente o a trav´es Para este, utilizamos la biblioteca Gensim11, una de heur´ısticas,seg´unun objetivo predefinido. implementaci´onen Python de Word2vec12. Con Una plantilla es construida a partir de las pa- este algoritmo, se obtiene un conjunto de pala- labras de una frase f, donde se reemplazan ´unica- bras, o embeddings, asociadas a un contexto defi- mente las palabras llenas de las clases verbo, sus- nido por un query Q. Word2vec recibe un t´ermino tantivo o adjetivo V, S, A , por sus respectivas { } Q y devuelve un l´exico L(Q) = (w1, w2, . . . , wm), etiquetas POS. Las otras palabras, en particular que representa un conjunto de m = 10 palabras las palabras funcionales, son conservadas. Esto sem´anticamente pr´oximasa Q. El valor de m fue producir´auna estructura gramatical parcialmente definido de esta manera ya que se se percibi´o vac´ıa,EGP. Posteriormente las etiquetas podr´an que, mientras m´asse extiende el n´umerode pala- ser reemplazadas por palabras (t´erminos),rela- bras proximas a Q, estas pierden m´assu relaci´on cionadas con el contexto definido por el query Q con respecto a Q. Formalmente, representamos del usuario. Word2vec: Q L(Q). → El proceso inicia con la selecci´onaleatoria de Para el entrenamiento de Word2vec se con- una frase original f corpus 8KF de longitud o ∈ sideran palabras con m´asde 5 ocurrencias en fo = N. fo ser´aanalizada con FreeLing para el corpus. La ventana contextual definida tiene identificar| | los sintagmas. Los elementos V, S, A { } una dimensi´onde 10. Para las dimensiones de de los sintagmas de fo ser´anreemplazados por sus las representaciones vectoriales se hicieron prue- respectivas etiquetas POS. Estos elementos son bas dentro de un rango de 50 a 100, siendo 60 la los que mayor informaci´onaportan en cualquier dimensi´oncon la que se obtuvieron embeddings texto, independientemente de su longitud o g´ene- mejores relacionados. El modelo de entrenamien- ro (Bracewell et al., 2005). Nuestra hip´otesis es to fue continuous skip-gram model (Skip-gram), que al cambiar solamente estos elementos, simu- el cual funciona mejor con copora de tama˜nos lamos la generaci´onde frases por homosintaxis: significativos (Mikolov et al., 2013a). sem´antica diferente, misma estructura9. El pr´oximopaso consiste en procesar la EGV La salida de este proceso es una estructura producida por Markov. Las etiquetas POS ser´an h´ıbridaparcialmente vac´ıa(EGP), con palabras identificadas y clasificadas como POSΦ funcio- funcionales que dan un soporte gramatical y las nales (correspondientes a puntuaci´ony palabras etiquetas POS. La arquitectura general de este funcionales) y POSλ llenas V, S, A (Verbos, modelo se ilustra en la Figura3. Los cuadros lle- Sustantivos, Adjetivos). ∈ { } nos representan palabras funcionales y los cua- dros vac´ıosetiquetas POS a ser reemplazadas. 10Word2vec pertenece a un amplio campo de investiga- ci´ondentro de PLN, conocido como Representation Lear- ning (Bengio et al., 2013). 9Al contrario de la par´afrasisque busca conservar com- 11Disponible en: https://pypi.org/project/gensim/ pletamente la sem´antica, alterando completamente la es- 12https://towardsdatascience.com/introduction- tructura sint´actica. to-word-embedding-and-word2vec-652d0c2060fa Generaci´onautom´atica de frases literarias Linguamatica´ – 23

4.3. Modelo 2: Texto enlatado, Word2vec Pre- Word2vec 5KL proceso Léxico y an´alisis morfosint´actico guiado por Q En este modelo proponemos una combinaci´on L(Q) entre el modelo de texto enlatado (Secci´on 4.1.2) Query Q y el algoritmo Word2vec entrenado sobre el cor- pus 5KL. El objetivo es eliminar las iteraciones Recursos lingüísticos Freeling del Modelo 1, que son necesarias cuando las eti- quetas POS14 no pueden ser reemplazadas con el l´exico L(Q). PATTERN EGV (Markov) Se efect´uaun an´alisismorfosint´acticodel cor- pus 5KL usando FreeLing y se usan las etiquetas f1(Q,N) POS para crear conjuntos de palabras que po- sean la misma informaci´ongramatical (etiquetas POS id´enticas). Una Tabla Asociativa (TA) es Figura 4: Modelo 1 de aproximaci´onsem´antica, generada como resultado de este proceso. La TA usando Markov y Word2vec. consiste en entradas de pares POSk y una lista de palabras asociadas. Formalmente, se repren- ta POSk Vk = vk,1, vk,2, . . . , vk,i . El Modelo 2 es ejecutado→ una{ sola vez para cada} etiqueta POS . La EGP no ser´areemplazada completa- Las etiquetas POS ser´anreemplazadas por k Φ mente: las palabras funcionales y los signos de palabras obtenidas de recursos ling¨u´ısticos(dic- puntuaci´onson conservados. cionarios) constru´ıdoscon la ayuda de FreeLing. Los diccionarios consisten en entradas de pares: Para generar una nueva frase se reemplaza ca- da etiqueta POS EGP, k = 1, 2,..., por una POSΦ y una lista de palabras y signos asociados, k palabra adecuada.∈ Para cada etiqueta POS , se formalmente POSΦ l(POSΦ) = (l1, l2, . . . , lj). k → recupera el l´exico V a partir de TA. Se reemplaza aleatoriamente cada POSΦ por una k palabra de l que corresponda a la misma clase El vocabulario es procesado por el algorit- gramatical. mo Word2vec, que calcula el valor de proximi- dad (distancia), dist(Q, v ), entre cada pala- Las etiquetas POSλ ser´anreemplazadas por k,i las palabras, L(Q), producidas por Word2vec. Si bra del vocabulario, vk,i, y el query Q del usua- ninguna de las palabras de L(Q) tiene la forma rio. Despu´esse ordena el vocabulario Vk en for- ma descendente seg´unlos valores de proximidad sint´acticaexigida por POSλ, empleamos la biblio- teca PATTERN13, para realizar conjugaciones o dist(Q, vk,i) y se escoge aleatoriamente uno de conversiones de g´eneroy/o n´umero y reemplazar los primeros tres elementos para reemplazar la etiqueta POS de la EGP. correctamente POSλ. k Si el conjunto de palabras L(Q) no contiene 14Por motivos de claridad de la notaci´on,en esta sec- ning´untipo de palabra llena, que sea adecuada ci´ony en la siguiente una etiqueta POSλ ser´adesignada o que pueda manipularse con la biblioteca PAT- solamente por POS. TERN, para reemplazar las etiquetas POSλ, se toma otra palabra, wi L(Q), lo m´ascercana Texto enlatado EGP a Q (en funci´onde la∈ distancia producida por

Word2vec). Se define un nuevo Q∗ = wi que ser´a Léxico utilizado para generar un nuevo conjunto de pa- TA retornado de etiqueta POS labras L(Q∗). Este procedimiento se repite, hasta POS - Pre- Vk que L(Q∗) contenga una palabra que pueda re- 5KL proceso Léxico emplazar la POSλ en cuesti´on.El resultado de V(Q) este procedimiento es una nueva frase f que no Léxico existe en los corpora 5KL y 8KF. La Figura4 Word2vec ordenado, muestra el proceso descrito. guiado por Q

f (Q,N) Query Q 2

Figura 5: Modelo 2 de aproximaci´onsem´antica 13https://www.clips.uantwerpen.be/pattern basada en Word2vec y an´alisismorfosint´actico. 24– Linguamatica´ Luis-Gil Moreno-Jim´enez et al.

El resultado es una nueva frase f2(Q, N) que o, Q y w generan respectivamente tres vecto- no existe en los corpora 5KL y 8KF. El proceso res num´ericosde 30 dimensiones: se ilustra en la figura5. o : X~ = (x1, . . . , x10, x11, . . . , x20, x21, . . . , x30) ,

Q : Q~ = (q1, . . . , q10, q11, . . . , q20, q21, . . . , q30) , 4.4. Modelo 3: Texto enlatado, Word2vec ~ e interpretaci´ongeom´etrica w : W = (w1, . . . , w10, w11, . . . , w20, w21, . . . , w30) ,

El Modelo 3 reutiliza varios de los recursos an- donde los valores de X~ son obtenidos tomando la teriores: el algoritmo Word2vec, la Tabla Asocia- distancia entre la palabra o y cada palabra u j ∈ tiva TA y la estructura gramatical parcialmente U,~ j = 1,..., 30. La distancia, xj = dist(o, uj) vac´ıa(EGP) obtenida del modelo de texto enlata- es proporcionada por Word2vec y adem´as xj do. El modelo utiliza distancias vectoriales para [0, 1]. Evidentemente la palabra o estar´a m´as∈ determinar las palabras m´asadecuadas que sus- pr´oximaa las 10 primeras palabras uj que a las tituir´anlas etiquetas POS de una EGP y as´ıge- restantes. nerar una nueva frase. Para cada etiqueta POSk, Un proceso similar permite obtener los valores k = 1, 2,... EGP, que se desea sustituir, usa- de Q~ y W~ a partir de Q y w, respectivamente. En mos el algoritmo∈ descrito a continuaci´on. estos casos, el query Q estar´am´aspr´oximoa las Se construye un vector para cada una de las palabras uj en las posiciones j = 11,..., 20 y la tres palabras siguientes. palabra candidata w estar´am´aspr´oximaa las palabras uj en las posiciones j = 21,... 30. o: es la palabra k de la frase fo (Secci´on 4.1.2), Enseguida, se calculan las similitudes coseno correspondiente a la etiqueta POSk. Esta pa- entre Q~ y W~ (4) y entre X~ y W~ (5), labra permite recrear un contexto del cual la nueva frase debe alejarse, evitando producir Q~ W~ una par´afrasis. θ = cos(Q,~ W~ ) = · , (4) Q~ W~ | || | Q: es la palabra que define al query proporcio- nado por el usuario. X~ W~ β = cos(X,~ W~ ) = · . (5) X~ W~ w: la palabra candidata que podr´ıareempla- | || | zar POS , w V . El vocabulario posee un k ∈ k Estos valores de θ y β est´annormalizados en [0,1]. tama˜no Vk = m palabras y es recuperado de El proceso se repite para todas las palabras w del la TA correspondiente| | a la POS . k l´exico Vk. Esto genera otro conjunto de vectores X,~ Q~ y W~ para los cuales se deber´ancalcular Las 10 palabras oi m´aspr´oximasa o, las 10 nuevamente las similitudes. Al final se obtienen palabras Qi m´aspr´oximasa Q y las 10 palabras m valores de similitudes θi y βi, i = 1, . . . , m, y wi m´aspr´oximasa w (en este orden y obtenidas se calculan los promedios θ y β . h i h i con Word2vec), son concatenadas y representa- El cociente normalizado das en un vector simb´olico U~ de 30 dimensiones. El n´umerode dimensiones fue fijado a 30 de ma- θ h i nera emp´ırica, como un compromiso razonable θi entre diversidad l´exicay tiempo de procesamien-   ~ to. El vector U puede ser escrito como indica qu´etan grande es la similitud de θi con respecto al promedio θ (interpretaci´onde tipo maximizaci´on);es decir,h i que tan pr´oximase en- U~ = (u1, . . . , u10, u11, . . . , u20, u21, . . . , u30) , (2) cuentra la palabra candidata w al query Q. El cociente normalizado donde cada elemento uj, j = 1,..., 10, represen- ta una palabra pr´oximaa o; uj, j = 11,..., 20, β representa una palabra pr´oximaa Q; y u , j = i j β 21,..., 30, es una palabra pr´oximaa w. U~ puede h i ser re-escrito de la siguiente manera, indica qu´etan reducida es la similitud de βi con respecto a β (interpretaci´onde tipo minimiza- ~ U = (o1, . . . , o10,Q11,...,Q20, w21, . . . , w30) . (3) ci´on);es decir,h i qu´etan lejos se encuentra la pa- labra candidata w de la palabra o de fo. Generaci´onautom´atica de frases literarias Linguamatica´ – 25

Estas fracciones se obtienen en cada pretaci´ongeom´etricapara la generaci´onde las par (θi, βi) y se combinan (minimizaci´on- frases f3. maximizaci´on)para calcular un score Si, seg´un la ecuaci´on Dado la especificidad de nuestros experimen- tos (idioma, corpora disponibles, homosintaxis), θ βi no es posible compararse directamente con otros Si = h i . (6) θ · β m´etodos. Tampoco consideramos la utilizaci´onde  i    h i un baseline de tipo aleatorio, porque los resulta- Mientras m´aselevado sea el valor Si, mejor obe- dos carecer´ıande la homosintaxis y ser´ıasuma- dece a nuestros objetivos: acercarse al query y mente f´acilobtener mejores resultados. Dicho lo alejarse de la sem´antica original. anterior, el Modelo 1 podr´ıaser considerado co- Finalmente, ordenamos en forma decrecien- mo nuestro propio baseline. te la lista de valores de Si y se escoge, de ma- nera aleatoria, entre los 3 primeros, la palabra 5.1. Resultados candidata w que reemplazar´ala etiqueta POSk en cuesti´on. El resultado es una nueva frase Enseguida presentamos unos ejemplos de las f3(Q, N) que no existe en los corpora utilizados frases obtenidas en funci´onde los experimentos para construir el modelo. propuestos. Para el query, Q, y la longitud en En la Figura6 se muestra una representaci´on n´umerode palabras, N, los resultados se mues- del modelo descrito. tran en el formato,

TA EGP Texto POS - f(Q, N) = frase generada . (7) Lexico enlatado {Vk} Léxico asociado a la etiqueta POS k o Palabra original de la frase fo Los resultados han sido generados empleando los

Léxicos ordenados, guiados por Q 5KL pre- queries Q= GUERRA,SOL en todos los casos. Vk o procesado [o] { } 1 2 ... 10 U⃗ =[o]+[Q]+[w] Word2vec [Q] Modelo 1 1 2 ... 10 1 2 ... 11 12 ... 21 ... 30 [w] X⃗ =dist (⃗o ,U⃗ ) 1. f(GUERRA, 12) = El ej´ercito conquista median- 1 2 ... 10 W⃗ =dist(w⃗ ,U⃗ ) ⃗ ⃗ ⃗ te el enemigo. La batalla es la guerra desde. Query Q Q=dist(Q ,U ) max( β ) 2. f(GUERRA, 13) = Toda batalla en rebeli´ones la min( Θ ) guerra contra el ej´ercito en el combate.

f3(Q,N) 3. f(SOL, 12) = La luna salvo la lluvia sobre el ocaso hacia el cielo brilla. Figura 6: Modelo 3 de aproximaci´onsem´antica, 4. f(SOL, 13) = Cu´antosnaveguen salvo iluminar basada en interpretaci´ongeom´etricamin-max. para el cielo hacia la aurora es la luna.

5. Experimentos y resultados Modelo 2

Se han dise˜nadotres experimentos para vali- 1. f(GUERRA, 9) = El incivil comportamiento para dar los tres modelos sem´anticos desarrollados en la magnificencia es la dicha. este trabajo. A partir de un query del usuario y 2. f(GUERRA, 10) = La cultura es la religi´onde de una longitud de palabras, el sistema realiza los dogmatizar los bienes caducos. procesos siguientes. 3. f(SOL, 11) = Brilla que contener siempre. Modelo 1: El modelo generativo de cadenas Nunca se es dominado de el todo. de Markov produce una EGV que se env´ıaal 4. f(SOL, 10) = El roc´ıoexhala el bosque despu´es modelo de aproximaci´onsem´antica para gene- de haberlo fatigado. rar las frases f1. Modelo 2: El modelo generativo de texto en- Modelo 3 latado produce una EGP y se env´ıaal mode- lo de aproximaci´onsem´antica para generar las 1. f(GUERRA, 9) = Existe demasiada innovacion frases f2. en torno a muy pocos sucesos. Modelo 3: El modelo de texto enlatado pro- 2. f(GUERRA, 9) = En la pelea todo debe motivo, duce una EGP y se utiliza el modelo de inter- menos la retirada. 26– Linguamatica´ Luis-Gil Moreno-Jim´enez et al.

3. f(SOL, 11) = Con rapidez, los mon´ogamosim- pedimentos buscan para iluminar nos la luz. 4. f(SOL, 10) = Incluso los luceros ingratos son comilones, y por tanto antiguos.

5.2. Protocolo de evaluaci´one interpreta- ci´onde resultados

A continuaci´onpresentamos un protocolo de evaluaci´onmanual de los resultados obtenidos. El Figura 7: Evaluaci´onde la coherencia, gramati- experimento consisti´oen la generaci´onde 15 fra- calida y contexto. ses por cada uno de los tres modelos propuestos. Para cada modelo, se consideraron tres queries, Q = AMOR, GUERRA, SOL , generando 5 frases La estrecha relaci´oncon el contexto se debe al con cada{ uno. Las 15 frases} fueron mezcladas en- alto grado de libertad que caracteriza a la EGV tre s´ıy reagrupadas por queries, antes de presen- generada por el modelo de Markov. Esta EGV tarlas a los evaluadores. permite que todos los elementos de la estructura Para la evaluaci´on, se pidi´o a 7 personas puedan ser sustituidos por un l´exicoguiado por leer cuidadosamente las 45 frases (15 frases por los resultados del algoritmo Word2vec. query). Todos los evaluadores poseen estudios Para los resultados del Modelo 2, los evaluado- universitarios y son hispanohablantes nativos. Se res perciben frases razonablemente coherentes y les pidi´oanotar en una escala de [0,1,2] (donde gramaticalmente correctas. Sin embargo, los eva- 0=mal, 1=aceptable y 2=correcto) los criterios luadores no percibieron una relaci´onevidente en- siguientes: tre el contexto de la frase generada y el query. Esto se debe a que las frases generadas reportan, Gramaticalidad: ortograf´ıa, conjugaciones en su mayor´ıa,el mismo contexto o idea de la fra- correctas, concordancia en g´eneroy n´umero. se original, pudiendo ser interpretado como una par´afrasiselemental, que no es lo que deseamos. Coherencia: legibilidad, percepci´onde una idea general. Finalmente, el Modelo 3 genera frases cohe- rentes, gramaticalmente correctas y m´asbien re- Contexto: relaci´onde la frase con respecto al lacionadas al query que el Modelo 2, siendo el query. ´unicomodelo donde los tres criterios evaluados se hacen presentes. Esto se logra siguiendo una in- En el AnexoA se muestran las frases generadas tuici´onopuesta a la par´afrasis:buscamos conser- para la evaluaci´onmanual. var la estructura sint´acticade la frase original, ge- El mini-test de Turing fue evaluado con una nerando una sem´antica completamente diferente. nota de 0 o 1. A los evaluadores se les hizo creer En general se puede apreciar que a diferencia que hab´ıa algunas frases escritas por personas de los modelos 1 y 2, en donde s´olo2 de cada 3 y otras escritas por los algoritmos. Se les pidi´o criterios fueron percibidos con claridad, el Mode- indicar cu´alesfrases pensaban que hab´ıan sido lo 3 es el ´unicoque obtuvo resultados positivos generadas por personas (0) y cu´alespor algorit- en los tres criterios. mos (1). Los resultados de la evaluaci´onse presentan en la Figura7, en la forma de gr´aficade barras, donde cada barra representa un criterio evalua- do. Los valores representados corresponden a la moda para cada uno de los criterios. La primera secci´onde barras ilustra la eva- luaci´onde las frases generadas por el Modelo 1. En ella se puede apreciar como los evaluadores percibieron una estrecha relaci´oncon el contex- to query (barra roja) y una gram´aticaaceptable (barra gris). Sin embargo para este modelo, la barra de coherencia (barra azul) es nula, lo que indica que los evaluadores no perciben las frases como coherentes. Figura 8: Evaluaci´ondel mini-test de Turing. Generaci´onautom´atica de frases literarias Linguamatica´ – 27

En la Figura8, de acuerdo a los resultados La introducci´onde la rima puede ser suma- del mini-test de Turing, se muestra en tonali- mente interesante cuando se produzcan varias dad oscura la moda con la que los evaluadores frases para constituir un p´arrafoo una estrofa. percibieron las frases como escritas por personas, El acoplamiento con un generador de rimas aso- mientras que en una tonalidad clara (gris) cuan- nantes y consonantes (Medina-Urrea & Torres- do las frases se percibieron como generadas por Moreno, 2019) est´aprevisto. m´aquinas.En general, los evaluadores perciben Finalmente, un protocolo de evaluaci´onsemi- con el 44 % de las frases generadas por el Mode- autom´atico(y a gran escala) est´aigualmente pre- lo 3 como generadas por una persona. Esta es la visto. mejor percepci´onde los tres modelos.

Agradecimientos 6. Conclusi´ony trabajo futuro Este trabajo est´a financiado por el Conse- En este art´ıculohemos presentado tres mode- jo Nacional de Ciencia y Tecnolog´ıa (Conacyt, los de producci´onde frases literarias. La genera- M´exico),beca n´um.661101 y parcialmente por ci´onde este g´enerotextual necesita sistemas es- la Universit´ed’Avignon, Laboratoire Informati- pec´ıficosque deben considerar el estilo, la sintaxis que d’Avignon (LIA), programa de becas Agricol y una sem´antica, que no necesariamente respeta Perdiguier (France). la l´ogicade los documentos de g´enerosfactua- Los autores agradecen profundamente a los les, como el period´ıstico,enciclop´edicoo cient´ıfi- siete evaluadores an´onimosque participaron en co. Los resultados obtenidos son alentadores para este trabajo; y a Carlos Gonz´alezpor sus obser- el Modelo 3, utilizando texto enlatado, Word2vec vaciones y sugerencias, asi como a los ´arbitrosde con redes neuronales y una interpretaci´ondel ti- la revista por sus comentarios pertinentes. po IR. Uno de los principales problemas detectados en los tres modelos es la p´erdidade coherencia Referencias en las frases generadas. Esto puede deberse a la ambig¨uedadgramatical que FreeLing es incapaz Abascal-Mena, Roc´ıo, Jean-Val`ere Cossu, Ale- de resolver. Por ejemplo, en la frase: “Es preci- jandro Molina-Villegas & Juan-Manuel Torres- so que uno de los tres muera.”, FreeLing detecta Moreno. 2015. Anotaci´onautom´aticade datos el verbo en subjuntivo —muera— como un sus- acerca de la reputaci´onde los pol´ıticos en re- tantivo y lo etiqueta como N. Los sustantivos son des sociales. Research in Computing Science candidatos a ser subsituidos en nuestros modelos. 97. 81–99. A partir de ah´ı,al construir una nueva frase con nuestros sistemas a partir de esta representaci´on Agirrezabal, Manex, Bertol Arrieta, Aitzol Asti- y usando el query=“mundo”, obtemos por ejem- garraga & Mans Hulden. 2013. POS-tag based plo: “Es necesario que uno de los tres tierra”, poetry generation with WordNet. En 14th Eu- que es incoherente. ropean Workshop on Natural Language Gene- El trabajo a futuro necesita la implementa- ration, 162–166. ci´onde m´odulospara procesar los queries multi- t´erminodel usuario. Tambi´ense tiene contempla- Bengio, Yoshua, Aaron Courville & Pascal da la generaci´onde frases ret´oricasen el dominio Vincent. 2013. Representation learning: de discursos pol´ıticos,utilizando los modelos aqu´ı A review and new perspectives. IEEE propuestos u otros con un enfoque probabil´ıstico Transactions on Pattern Analysis and (Charton & Torres-Moreno, 2010). Tenemos la Machine Intelligence 35(8). 1798–1828. hip´otesisque una cierta atractividad del discurso 10.1109/TPAMI.2013.50. pol´ıticoreside no tanto en el contenido mismo, Boden, Margaret A. 2004. The creative mind: sino en la estructura y en la manera de producir Myths and mechanisms. Abingdon: Routledge dichas frases (Cossu et al., 2014; Abascal-Mena 2a ed. et al., 2015). Los modelos aqu´ıpresentados pueden ser enri- Bracewell, David B, Fuji Ren & Shingo Kuriowa. quecidos a trav´esde la integraci´onde otros com- 2005. Multilingual single document keyword ponentes, como caracter´ısticasde una personali- extraction for information retrieval. En Inter- dad y/o las emociones (Wedemann & Carvalho, national Conference on Natural Language Pro- 2012; Wedemann & Plastino, 2016; Edalat, 2017; cessing and Knowledge Engineering, 517–522. Siddiqui et al., 2018). 10.1109/NLPKE.2005.1598792. 28– Linguamatica´ Luis-Gil Moreno-Jim´enez et al.

Charton, Eric & Juan-Manuel Torres-Moreno. Gon¸calo Oliveira, Hugo. 2012. PoeTryMe: a 2010. Mod´elisation automatique de con- versatile platform for poetry generation. En necteurs logiques par analyse statistique du 1st International Workshop on Computational contexte. Canadian Journal of Informa- Creativity, Concept Invention and General In- tion and Library Science 35(3). 287–306. telligence, s.p. 10.1353/ils.2011.0017. Gon¸calo Oliveira, Hugo & Am´ılcar Cardo- Clark, Elizabeth, Yangfeng Ji & Noah A. Smith. so. 2015. Poetry generation with PoeTry- 2018. Neural text generation in stories using Me. En Computational Creativity Re- entity representations as context. En Con- search: Towards Creative Machines, 243–266. ference of the North American Chapter of 10.2991/978-94-6239-085-0_12. the Association for Computational Linguis- Goodfellow, Ian, Jean Pouget-Abadie, Mehdi tics: Human Language Technologies, 2250– Mirza, Bing Xu, David Warde-Farley, Sherjil 2260. 10.18653/v1/N18-1204. Ozair, Aaron Courville & Yoshua Bengio. 2014. Colton, Simon. 2012. Automated theory forma- Generative adversarial nets. En Z. Ghahrama- tion in pure mathematics. London: Springer. ni, M. Welling, C. Cortes, N. D. Lawrence & 10.1007/978-1-4471-0147-5. K. Q. Weinberger (eds.), Advances in Neural Colton, Simon & Geraint A Wiggins. 2012. Information Processing Systems, vol. 27, 2672– Computational creativity: The final frontier? 2680. En 20th European Conference on Artificial In- Huang, Eric H., Richard Socher, Christopher D. telligence, 21–26. Manning & Andrew Y. Ng. 2012. Improving word representations via global context and Cossu, Jean-Val`ere, Roc´ıo Abascal-Mena, Ale- th jandro Molina-Villegas, Juan-Manuel Torres- multiple word prototypes. En 50 Annual Moreno & Eric SanJuan. 2014. Bilingual and Meeting of the Association for Computational cross domain politics analysis. Research in Linguistics, vol. 1, 873–882. Computing Science 85. 9–19. Iria, da Cunha, M. Teresa Cabr´e, Eric San- van Deemter, Kees, Mari¨et Theune & Emiel Juan, Gerardo Sierra, Juan-Manuel Torres- Krahmer. 2005. Real versus template-based Moreno & Jorge Vivaldi. 2011. Automatic specialized vs. non-specialized sentence dif- natural language generation: A false opposi- th tion? Computational Linguistics 31(1). 15–24. ferentiation. En 12 International Confe- 10.1162/0891201053630291. rence on Computational Linguistics and In- telligent Text Processing (CICLing), 266–276. Edalat, Abbas. 2017. Self-attachment: A 10.1007/978-3-642-19437-5_22. holistic approach to computational psy- chiatry. En P´eter Erdi,´ Basabdatta. Ke, Wang & Wan Xiaojun. 2018. SentiGAN: Ge- Sen Bhattacharya & Amy L Cochran nerating sentimental texts via mixture adver- (eds.), Computational Neurology and Psy- sarial networks. En 27th International Joint chiatry, vol. 6, 273–314. Cham: Springer. Conference on Artificial Intelligence (IJCAI), 10.1007/978-3-319-49959-8_10. 4446–4452. 10.24963/ijcai.2018/618. Fu, Ruiji, Jiang Guo, Bing Qin, Wanxiang Che, Lebret, R´emi, David Grangier & Michael Au- Haifeng Wang & Ting Liu. 2014. Lear- li. 2016. Neural text generation from struc- ning semantic hierarchies via word embed- tured data with application to the biography dings. En 52nd Annual Meeting of the Associa- domain. En Conference on Empirical Met- tion for Computational Linguistics, 1199–1209. hods in Natural Language Processing, 1203– 10.3115/v1/P14-1113. 1213. 10.18653/v1/D16-1128. Gerv´as,Pablo, Raquel Herv´as& Carlos Le´on. Manning, Christopher D. & Hinrich Sch¨utze. 2015. Generating plots for a given query using 1999. Foundations of statistical natural lan- a case-base of narrative schemas. En 23rd In- guage processing. Cambridge: The MIT Press. ternational Conference on Case-Based Reaso- Mart´ınez,Gerardo Sierra. 2018. Introducci´ona ning, 103–112. los corpus ling¨u´ısticos. Mexico: Instituto de Gon¸calo Oliveira, Hugo. 2017. A survey Ingenier´ıa,UNAM. on intelligent poetry generation: Languages, McRoy, Susan, Songsak Channarukul & Syed features, techniques, reutilisation and eva- Ali. 2003. An augmented template-based luation. En 10th International Conferen- approach to text realization. Natu- ce on Natural Language Generation, 11–20. ral Language Engineering 9(4). 381–420. 10.18653/v1/W17-3502. 10.1017/S1351324903003188. Generaci´onautom´atica de frases literarias Linguamatica´ – 29

Medina-Urrea, Alfonso & Juan-Manuel Torres- Sridhara, Giriprasad, Emily Hill, Divya Mup- Moreno. 2019. RIMAX: ranking semantic rhy- paneni, Lori Pollock & K. Vijay-Shanker. mes by calculating definition similarity. arXiv 2010. Towards automatically generating CoRR abs/1912.09558. summary comments for java methods. En IEEE/ACM International Conference on Mikolov, Tomas, Ilya Sutskever, Kai Chen, Automated Software Engineering, 43–52. Greg S Corrado & Jeff Dean. 2013a. Distribu- 10.1145/1858996.1859006. ted representations of words and phrases and their compositionality. En 26th International Szymanski, Grzegorz & Zygmunt Ciota. 2002. Conference on Neural Information Processing Hidden markov models suitable for text gene- Systems, 3111–3119. ration. En International Conference on Signal, Mikolov, Tomas, Wen-tau Yih & Geoffrey Zweig. Speech and Image Processing, 3081–3084. 2013b. Linguistic regularities in continuous Torres-Moreno, Juan-Manuel. 2012. Beyond space word representations. En North Ame- stemming and lemmatization: Ultra-stemming rican Chapter of the Association for Compu- to improve automatic text summarization. ar- tational Linguistics: Human Language Techno- Xiv abs/1209.3126. logies, 746–751. Torres-Moreno, Juan-Manuel (ed.). 2014. Auto- Mikolov, Tomas & Geoffrey Zweig. 2012. Con- matic text summarization. London: ISTE, Wi- text dependent recurrent neural network lan- ley. guage model. En IEEE Spoken Langua- ge Technology Workshop (SLT), 234–239. Wedemann, Roseli S. & Luiz Alfredo Vidal de 10.1109/SLT.2012.6424228. Carvalho. 2012. Some things psychopatho- logies can tell us about consciousness. En Molins, Paul & Guy Lapalme. 2015. JSrealB: International Conference on Artificial Neu- A bilingual text realizer for web program- ral Networks (ICANN), vol. 7552, 379–386. ming. En 15th European Workshop on Na- 10.1007/978-3-642-33269-2_48. tural Language Generation (ENLG), 109–111. 10.18653/v1/W15-4719. Wedemann, Roseli S. & Angel Ricardo Plastino. 2016. F´ısica estad´ıstica, redes neuronales y Montfort, Nick. 2008b. Through the park. freud. Revista N´ucleos 3. 4–10. https://nickm.com/poems/through_the_ park.html. Welleck, Sean, Kiante Brantley, Hal Daum´e& Kyunghyun Cho. 2019. Non-monotonic se- Montfort, Nick. 2008c. The two. https:// quential text generation. En 36th Internatio- nickm.com/poems. nal Conference on Machine Learning, 11656– Montfort, Nick. 2009. Taroko gorge. https:// 11676. nickm.com/poems/taroko_gorge.html. Zhang, Xingxing & Mirella Lapata. 2014. Chine- Padr´o,Llu´ıs.2012. Analizadores multiling¨uesen se poetry generation with recurrent neural net- freeling. Linguam´atica 3(2). 13–20. works. En Conference on Empirical Methods in Natural Language Processing (EMNLP), 670– P´erezy P´erez,Rafael. 2015. Creatividad compu- 680. 10.3115/v1/D14-1074. tacional. M´exico:Larousse, Grupo Editorial Patria. Riedl, Mark O. & R. Michael Young. 2006. Story planning as exploratory creativity: Tech- niques for expanding the narrative search spa- ce. New Generation Computing 24(3). 303– 323. 10.1007/BF03037337. Sharples, Mike. 1996. How we write: Writing as creative design. London: Routledge. Siddiqui, Maheen, Roseli S. Wedemann & Hen- rik Jeldtoft Jensen. 2018. Avalanches and ge- neralized memory associativity in a network model for conscious and unconscious men- tal functioning. Physica A: Statistical Me- chanics and its Applications 490. 127–138. 10.1016/j.physa.2017.08.011. 30– Linguamatica´ Luis-Gil Moreno-Jim´enez et al.

A. Frases evaluadas 8. f(SOL, 10) = En el vocabulario est´ael bosque mixto de una pol´ıtica. En este anexo presentamos las 45 (15 frases 9. f(SOL, 10) = El roc´ıoexhala el bosque despu´esde 3 sistemas) frases generadas por nuestros mode-× haber lo fatigado. los, que fueron evaluadas manualmente (ver sec- 10. f(SOL, 11) = Brilla que contener siempre. Nunca ci´on5). se es dominado de el todo. 11. f(AMOR, 9) = Estorbas una amada calle de un amor Modelo 1 de fantas´ıas. 1. f(GUERRA, 10) = La simpat´ıaes el aprecio que ha 12. f(AMOR, 9) = Jam´ashubo una conquista nueva o olvidado la ternura. una amistad extra˜na. 2. f(GUERRA, 13) = Toda batalla en rebeli´ones la gue- 13. f(AMOR, 11) = Dios dej´ola desesperacion para tra- rra contra el ej´ercito en el combate. bajar la y no para desilusionarla. 14. f(AMOR, 11) = Abultar se en cualquier mentira, es 3. f(GUERRA, 12) = El ej´ercito conquista mediante el conveniente que no porfiar nada. enemigo. La batalla es la guerra desde. 15. f(AMOR, 10) = Por culpa, el anhelo no suprime 4. f(GUERRA, 13) = El enemigo salvo la batalla en el siempre con el deseo. terrorismo mediante el ej´ercito conquista contra. 5. f(GUERRA, 11) = Su at´omica lucha. la guerra desde el combate. la derrota es. Modelo 3 6. f(SOL, 12) = La luna salvo la lluvia sobre el ocaso 1. f(GUERRA, 9) = Existe demasiada innovacion en hacia el cielo brilla. torno a muy pocos sucesos. 7. f(SOL, 13) = Cu´antosnaveguen salvo iluminar para 2. f(GUERRA, 9) = En la pelea todo debe motivo, me- el cielo hacia la aurora es la luna. nos la retirada. 8. f(SOL, 13) = Nuestro cielo es verdaderamente el 3. f(GUERRA, 10) = La nueva pelea se combate cuando que luna es la lluvia bajo la aurora. se abandona la civilizaci´on. 9. f(SOL, 9) = Cu´antosperezcas durante amanecer el 4. f(GUERRA, 10) = La codicia, siempre adversa, es te- ocaso bajo la luna. rrible engendrada contra un desgraciado. 10. f(SOL, 6) = El resplandor deshoja bajo la aurora. 5. f(GUERRA, 10) = La retirada es el vapor remediable de el lucha ilimitada. 11. f(AMOR, 13) = Toda amistad contra compasi´onpor la ternura es la pasi´onen el afecto. 6. f(SOL, 9) = Si tus dulces fueran amanecer, mis ojos marchitas fueran. 12. f(AMOR, 13) = Todos durante la ternura con el afec- to hacia la compasi´onpor la virtud. 7. f(SOL, 11) = Con rapidez, los mon´ogamosimpedi- mentos buscan para iluminar nos la luz. 13. f(AMOR, 12) = El cari˜nocon el afecto hacia el ama- do aborrece salvo en sentimiento. 8. f(SOL, 10) = Incluso los luceros ingratos son comi- lones, y por tanto antiguos. 14. f(AMOR, 11) = La ternura envidia entre el cari˜no. El amado es demasiada compasi´on. 9. f(SOL, 9) = El ocaso es una extra˜nafrente de la inmortalidad. 15. f(AMOR, 11) = Cu´antobien deseo sin la amistad. El afecto es otra ternura. 10. f(SOL, 9) = La aurora es el amanecer que ha olvi- dado la calma. 11. f(AMOR, 10) = En el aprecio est´ael cari˜noforzoso Modelo 2 de una simpat´ıa. 1. f(GUERRA, 9) = El incivil comportamiento para la 12. f(AMOR, 10) = Los cari˜nosno conocen de nada a un magnificencia es la dicha. respeto loco. 2. f(GUERRA, 9) = Mi anciana: t´u felicidad no la 13. f(AMOR, 10) = No est´ala simpat´ıaen las bondades alumbra ninguna autoridad. de la envidia. 3. f(GUERRA, 9) = No hay hipocres´ıam´asimpopular 14. f(AMOR, 9) = Si el respeto es felicidad, que oculten que la historia simulada. los cari˜nos. 4. f(GUERRA, 10) = La cultura es la religi´onde dog- 15. f(AMOR, 10) = Acostumbramos de lamentar aquello matizar los bienes caducos. que se ha ense˜nadoa comprender. 5. f(GUERRA, 10) = De el temperamento a la entereza hay una velocidad terrible. 6. f(SOL, 9) = El color que reanima m´ases una pi- card´ıasuprema. 7. f(SOL, 10) = La paz es el suelo artificial de la luz moderna. Proposta recebida em September 2019 e aceite para publica¸c˜aoem April 2020.

An´aliseda Lei de Menzerath no PortuguˆesBrasileiro Menzerath’s law analysis in Brazilian Portuguese

Leonardo Araujo Aline Benevides Universidade Federal de S˜aoJo˜aodel Rei Universidade de S˜aoPaulo [email protected] [email protected] Marcos Pereira Universidade Federal de S˜aoJo˜aodel Rei [email protected]

Resumo 1. Introdu¸c˜ao

Sob a ´oticada Lingu´ısticaQuantitativa, este tra- balho revisita a Lei de Menzerath, aplicando-a aos A lingu´ıstica´eo campo das ciˆenciasque estuda dados do portuguˆesbrasileiro, a partir das seguin- a linguagem, analisando a sua forma, utiliza¸c˜ao, tes unidades de an´alise: palavras, s´ılabase fonemas. significado e contexto. Ela se estabeleceu, de Os dados foram extra´ıdosdo Corpus ABG. An´alises forma consistente, a partir do s´eculoXX, atrav´es estat´ısticasforam realizadas nos modelos propostos, da publica¸c˜aodo Curso de Lingu´ısticaGeral, de as quais demonstraram uma rela¸c˜aode decrescimento Ferdinand de Saussure, em 1916, dando in´ıcioa entre o comprimento m´ediodas palavras (em s´ılabas) Lingu´ısticaModerna. Neste per´ıodo, a primeira e o comprimento m´ediodas s´ılabas(em fonemas); re- orienta¸c˜ao te´orica, denominada de Lingu´ıstica sultados esses que corroboram a Lei de Menzerath. Estruturalista, emerge com o objetivo de esta- Al´emdisso, constatou-se, de maneira geral, que me- belecer e de descrever os sistemas lingu´ısticos, lhores medi¸c˜oesou a existˆenciade vari´aveis n˜aocon- valendo-se, para tanto, da no¸c˜aode valor, a partir sideradas no modelo poder˜aoser utilizadas para me- de distin¸c˜oeste´oricas como l´ıngua vs. fala, forma lhor´a-lo. vs. substˆancia. Os estruturalistas, por serem avessos ao estudo do sentido, de car´atermental Palavras chave e, portanto, pertencente `apsicologia individual, lei de Menzerath, lingu´ısticaquantitativa, an´alisees- dedicam-se ao estudo da forma. Nesse sentido, tat´ıstica a l´ınguapassa a ser analisada do ponto de vista sistˆemicopor meio de rela¸c˜oesde oposi¸c˜ao(no¸c˜ao de valor). Sob orienta¸c˜aode Leonard Bloomfi- Abstract eld, o estruturalismo americano estabelece que a an´alisedas estruturas e das categorias gramati- Under the perspective of Quantitative Linguistics, cais devem ser realizadas a partir de dados de this paper revisits the Menzerath’s Law, applying it senten¸casou de textos, e n˜aomais extra´ıdosde to data from Brazilian Portuguese, using the following experiˆenciaspr´evias(Ilari, 2003). unities of analysis: words, syllables and phonemes. A Lingu´ıstica Quantitativa ganha abran- The data was extracted from the ABG Corpus. Sta- gˆencia,nesse sentido, ao conjugar m´etodos es- tistical analyses are performed on the proposed mo- tat´ısticose computacionais, a partir da an´alisede dels, corroborating the existence of a decay relati- corpora lingu´ısticos,a fim de caracterizar a lin- onship between the mean length of words (in sylla- guagem, sua evolu¸c˜aoe estrutura. O seu princi- bles) and the average length of syllables (in phone- pal prop´osito´eestabelecer leis que modelem a lin- mes); what corroborates the Menzerath Law. It is guagem ou a comunica¸c˜aoe produzir formula¸c˜oes noticed that better measures or variables not consi- para uma teoria geral da linguagem (Altmann dered in the model might be used to improve it. & Schwibbe, 1989; K¨ohler, 2005). Atribui-se o Keywords status de leis cient´ıficas`aquelasformula¸c˜oesque podem ser derivadas a partir de axiomas, criando Menzerath’s law, quantitative linguistics, statistical uma estrutura firme de rede nomol´ogica. analysis Sob o ausp´ıcio da tradi¸c˜ao das ciˆencias teor´eticas,a Lingu´ısticaQuantitativa busca es- tabelecer leis e formula¸c˜oes capazes de inter- DOI: 10.21814/lm.12.1.300 Linguamatica´ — ISSN: 1647–0818 This work is Licensed under a Creative Commons Attribution 4.0 License Vol. 12 N´um. 1 2020 - P´ag. 31–48 32– Linguamatica´ Leonardo Araujo, Aline Benevides & Marcos Pereira relacion´a-las,atrav´esde proposi¸c˜oese deriva¸c˜oes qual descreve o crescimento sublinear do voca- l´ogicas. E´ sob essa perspectiva que o presente bul´ariocom o comprimento do corpus. trabalho se baseia. Propomo-nos, neste artigo, a Tendo em vista que as bases ontol´ogicass˜ao testar a predi¸c˜aoda Lei de Menzerath a partir essenciais para a constru¸c˜aode uma verdadeira da an´alisede um corpus lingu´ısticodo portuguˆes teoria da linguagem e da comunica¸c˜ao sob o brasileiro, o Corpus ABG (Benevides & Guide, prisma da Lingu´ısticaQuantitativa, transcreve- 2017). A Lei de Menzerath ´econhecida por pre- se abaixo um trecho do cap´ıtuloinicial de Alt- dizer, em termos gerais, que “um som ´emais mann & Schwibbe(1989): curto qu˜aomaior o todo em que ele ocorre (lei da quantidade)” e que “quantos mais sons pos- suir uma s´ılaba,menor ser˜aoseus comprimentos Leis s˜ao hip´oteses bem fundamentadas e relativos”(Menzerath, 1954, p. 100). confirmadas. Uma generaliza¸c˜aoemp´ırica nunca poder´ase tornar uma lei, a menos Este artigo estrutura-se da seguinte maneira: que sejamos capazes de derivar a teoria de na Se¸c˜ao1, apresenta-se uma contextualiza¸c˜aoda uma hip´otese correspondente a ela. Nas ´areade Lingu´ısticaQuantitativa (Se¸c˜ao 1.1), da ciˆenciasemp´ıricas, esta ´ea forma mais co- Lei de Menzerath-Altmann (Se¸c˜ao 1.2) e de sua mum de pesquisa: observa¸c˜oess˜aofeitas sob formula¸c˜aomatem´atica(Se¸c˜ao 1.3); a Se¸c˜ao2 o pano de fundo de uma ‘teoria’ ainda em- apresenta a abordagem deste trabalho, desta- brion´aria,vaga e n˜aoformalizada, levando cando as unidades lingu´ısticas e o corpus com a generaliza¸c˜oesemp´ıricas, para a qual uma os dados do portuguˆesbrasileiro que foram uti- teoria correspondente ´e constru´ıda. Sem lizados para realizar as an´alisesdesta pesquisa; o estabelecimento de leis, um conjunto de a Se¸c˜ao 2.4 apresenta os resultados gerados a afirma¸c˜oesdificilmente poder´aser chamado partir da an´alisedos dados do corpus e os re- de teoria. Por esta raz˜ao,hoje n˜aopodemos sultados de ajustes dos modelos matem´aticos;na falar na existˆenciade uma teoria da lingua- Se¸c˜ao 2.5, busca-se explorar os resultados e con- gem, teoria gramatical, e assim por diante. trast´a-loscom as teorias lingu´ısticas;e, por fim, A maioria dos conceitos lingu´ısticos, embora conclui-se o trabalho na Se¸c˜ao3. bem complicados, consiste em uma gama de generaliza¸c˜oesemp´ıricas. (Altmann & Schwibbe, 1989, p. 1) 1.1. Lingu´ısticaQuantitativa

Os trabalhos em Lingu´ıstica Quantitativa bus- cam explica¸c˜oesprovenientes de leis estoc´astico- 1.2. O todo sem a parte n˜ao´etodo lingu´ısticasque venham a estabelecer uma teoria geral da linguagem. Uma r´apidarevis˜aoa res- E´ not´orioque todas as l´ınguas, apesar de te- peito das principais leis estat´ısticas na lingu´ıstica rem uma representa¸c˜ao fonol´ogica das unida- pode ser encontrada em Altmann & Gerlach des lingu´ısticas,se manifestam de forma que h´a (2016) ou tamb´emna enciclop´edia on-line des- grande varia¸c˜ao em suas realiza¸c˜oes, seja en- tinada `aLingu´ıstica Quantitativa, Glottopedia tre grupos ou indiv´ıduos, ou mesmo quando se (2019). A lei mais conhecida ´ea Lei de Zipf (Zipf, analisa diferentes realiza¸c˜oes de um mesmo in- 1935, 1949; Ferrer-i-Cancho & Sol´e, 2002; Mit- div´ıduo. Os falantes n˜ao s˜ao meros usu´arios zenmacher, 2004; Ferrer-i-Cancho, 2006). Zipf passivos, mas s˜aoparte integrante e ativa na observou, por meio da quantidade de ocorrˆencias dinˆamicade uma l´ıngua. O uso acarreta mu- de palavras em um corpus, a existˆenciade uma dan¸cas, sendo que diversos fatores contribuem propor¸c˜aoinversa entre a frequˆenciada palavra e para tal. Fatores cognitivos, culturais, sociais e o seu ranque, quando ordenadas por frequˆencia. hist´oricos,por exemplo, levam a mudan¸cascons- O mesmo tipo de rela¸c˜aotamb´em ´everificada tantes que, ao longo do tempo, podem provocar em outros fenˆomenos da natureza, por exem- o surgimento de novos dialetos e idiomas (Bybee, plo: na magnitude de terremotos (Abe & Su- 2015). Al´emdos fatores extralingu´ısticos, fatores zuki, 2005), na popula¸c˜aode cidades (Gabaix, internos `al´ıngua,como fonˆemicos,morfol´ogicos, 1999) e no n´umerode requisi¸c˜oes de p´aginas sint´aticose semˆanticos, tamb´emcontribuem para na internet (Adamic & Huberman, 2002). H´a, as constantes mudan¸cas.Estas podem ser visua- ainda, trabalhos que buscam relacionar diferen- lizadas de forma sincrˆonicaou diacrˆonicae sem- tes leis da Lingu´ısticaQuantitativa, como o tra- pre evidenciam a existˆenciada ordem imanente. balho de L¨uet al.(2010) que buscou relacionar a Quer a an´alisede uma l´ınguaseja feita no n´ıvel Lei de Zipf com a Lei de Heaps (Grzybek, 2007; de senten¸cas, palavras, morfemas, s´ılabasou fo- L¨uet al., 2010; Heaps, 1978; Herdan, 1960), a nemas, ordem e desordem s˜aofor¸cas inerentes ao An´alise da Lei de Menzerath no Portuguˆes Brasileiro Linguamatica´ – 33 processo lingu´ıstico.1 Embora muito tenha sido proposi¸c˜aofilos´ofica,chamando-a de Princ´ıpioda investigado sobre a estrutura e a forma da l´ıngua Economia Cognitiva, o que se manifestaria como e sua varia¸c˜aono tempo, ainda n˜aoexistem cer- um “fluxo constante de informa¸c˜aolingu´ıstica” tezas r´ıgidasa respeito da aquisi¸c˜aoe do proces- (Fenk & Fenk-Oczlon, 2013). samento lingu´ıstico. Uma das hip´otesesseria a Conforme salientado, a proposta de Men- existˆenciade processos prim´ariosque guiariam a zerath(1954) ganhou formula¸c˜ao matem´atica estrutura¸c˜aoe o uso da l´ıngua, processos esses com o trabalho de Altmann(1980), que bus- que atuariam em n´ıveis mais altos e que pode- cou descrever a rela¸c˜aoentre os constituintes e riam ser compreendidos como generaliza¸c˜oes(ou os construtos. A sua validade foi observada, abstra¸c˜oes)de v´ariosprocessos lingu´ısticos, como inicialmente, no indon´esioe no inglˆescom Alt- leis fon´eticase gramaticais. mann(1980), seguida pelos trabalhos de Gerlach Em consonˆanciacom essa hip´otese,v´arioses- (1982), Hˇreb´ıˇcek(1995), Polikarpov(2000a) para tudos buscam encontrar e analisar quais seriam as l´ınguasalem˜a,turca e russa, respectivamente. os motores atuantes em n´ıveis hier´arquicosmais Al´emdesses trabalhos, verificou-se, mais recen- altos. A Lei de Menzerath, por exemplo, ´e temente, a aplica¸c˜aoda Lei de Menzerath em uma das leis mais conhecidas e corroboradas pela uma an´aliseparalela de um mesmo texto em 50 Lingu´ıstica Quantitativa. Ela foi inicialmente l´ınguas diferentes (Coloma, 2015). Mais tarde, elaborada por Menzerath(1928), sendo mate- a mesma rela¸c˜aofoi mostrada v´alidaem m´usica maticamente formulada por Altmann(1980) e, (Boroda & Altmann, 1991), cromossomos e ge- posteriormente, confirmada pelos trabalhos de nes (Wilde & Schwibbe, 1989; Ferrer-I-Cancho & Hˇreb´ıˇcek(1995); Andres(2010), dentre outros. Forns, 2009; Li, 2011; Nikolaou, 2014), prote´ınas Menzerath(1928, p. 104) prop˜oeque “um som ´e (Shahzad et al., 2015) e, ainda, na compress˜ao mais curto qu˜aomaior o todo em que ele ocorre de dados, sob a ´oticada teoria da informa¸c˜ao (lei da quantidade)” e “quantos mais sons pos- (Gustison et al., 2016; Ferrer-i-Cancho, 2017). suir uma s´ılaba,menor ser˜aoseus comprimentos relativos”. Tal postula¸c˜aofoi realizada a partir de uma an´alisedo l´exicoda l´ınguaalem˜a,em que 1.3. Formula¸c˜ao Matem´atica da Lei de Menzerath(1954, p. 101) concluiu que “o n´umero Menzerath relativo de sons em uma s´ılabadecresce quando o n´umerode s´ılabas em uma palavra aumenta”, A formula¸c˜aomatem´atica,apresentada por Alt- cunhando a frase “qu˜aomaior o todo, menores mann(1980), prop˜oeuma taxa de decrescimento as partes!”. constante do comprimento do componente, ou seja, (1/y)dy/dx = c, onde y ´eo comprimento do Antes de Menzerath, outros pesquisadores j´a constituinte e x o− comprimento do construto. A demonstraram algumas observa¸c˜oesque v˜aoao formula¸c˜aousual se restringe aos componentes de encontro da formula¸c˜aode Menzerath. Jesper- unidades imediatamente vizinhas, como ora¸c˜ao sen(1904), por exemplo, analisou o comprimento e senten¸caou palavras e s´ılabas. Entretanto, ´e das s´ılabas do francˆes, em especial a dura¸c˜ao poss´ıvel estabelecermos rela¸c˜oescompostas entre da vogal a em palavras como pˆatisserie, pˆate e unidades que n˜aosejam imediatamente vizinhas pˆat´e, e verificou que a vogal era sistematicamente hier´arquicas,por exemplo, palavras e senten¸cas, mais curta em palavras mais longas. Outros au- fonemas e palavras. Essa formula¸c˜aopode ser ne- tores tamb´em observaram semelhante tendˆencia cess´ariaem l´ınguasque apresentam palavras n˜ao de redu¸c˜aoda dura¸c˜aodas vogais (Meyer, 1904; sil´abicas,2 como o russo (Grzybek & Altmann, Roudet, 1910). Essas observa¸c˜oesforam siste- 2002). Um refinamento no modelo ´efeito, con- matizadas e estruturadas por Menzerath(1954), siderando, al´emdo decrescimento constante, um em uma an´alisesobre a estrutura morfol´ogica membro adicional inversamente proporcional ao do alem˜ao. De forma semelhante ao Princ´ıpio comprimento do construto, como apresentado na do Esfor¸coM´ınimo formulado por Zipf(1935, Equa¸c˜ao(1). 1949), Menzerath(1954) utilizou essa mesma

dy/dx b 1A linguagem pode ser vista como um sistema com- = c + (1) plexo e adaptativo, consistindo de m´ultiplosagentes que y − x interagem entre si. O comportamento de cada agente de- pende de suas experiˆenciaspassadas e tamb´emdo ambi- 2Algumas l´ınguaspossuem palavras n˜aosil´abicas,usu- ente e do contexto em que est´ainserido. O comportamento almente constitu´ıdas por uma ou duas consoantes (n˜ao de um agente ´efruto de diversos fatores, desde restri¸c˜oes sil´abicas)e sem a presen¸cade vogais. O russo, por exem- perceptuais at´emotiva¸c˜oessociais. Como resultado da de- plo, possui as preposi¸c˜oes k, v e s que funcionam como sordem criada nesse processo complexo, h´aa emergˆencia procl´ıticos para as palavras seguintes, contribuindo, as- de regularidades e de padr˜oes(Beckner et al., 2010). sim, para o seu comprimento. 34– Linguamatica´ Leonardo Araujo, Aline Benevides & Marcos Pereira

A taxa relativa de mudan¸cano comprimento E´ poss´ıvel, ent˜ao,utilizar um modelo linear do constituinte ((dy/dx)/y) ´euma soma de duas para relacionar a vers˜aotransformada da vari´avel parcelas: a primeira, inversamente proporcional independente (vari´avel explicativa), chamada de ao comprimento do construto (b/x), e a segunda, x0, com a vers˜aotransformada da vari´avel de- um fator constante ( c). Essa equa¸c˜aodiferen- pendente (vari´avel de resposta), chamada de y0. cial em (1) pode ser solucionada− pela integra¸c˜ao A essˆenciadesse modelo pode ser expressa, de direta,3 resultando em forma geral, por

b cx y = Ax e− , (2) E[Y 0 x] = β + β x0 + β x, (12) | 0 1 2 onde o termo e cx e a constante A s˜aosempre onde E[ ] representa o valor esperado e Y x in- − · 0| maiores do que zero. A curva dada pela eq. (2) dica a busca de poss´ıveis valores de Y 0 (em que ´econvexa crescente quando b > 1, uma curva Y 0 = log Y ), o que restringe x a um ´unicova- cˆoncava crescente quando 0 < b < 1 e uma curva lor (consequentemente, x0 tamb´em estar´a res- convexa decrescente quando b < 0 (Altmann, trito). O parˆametro β0 ´e o intercepto, β1 e 1980). A eq. (2) pode assumir diferentes formas β2 s˜aoas constantes de proporcionalidade em para b = 0, b = 0, c = 0 e c = 0, conforme a rela¸c˜aoa cada um dos fatores (x0 e x, respec- Tabela1. 6 6 tivamente). Dado um conjunto de observa¸c˜oes, ´eposs´ıvel ajustar o modelo,4 ou seja, encontrar cx b = 0 y = Ae− modelo I (3) os parˆametros β0, β1 e β2 que melhor (sob al- c = 0 y = Axb modelo II (4) gum crit´erioa ser definido) explicam os dados. b = 0 b cx 6 c = 0 y = Ax e− modelo III (5) Para realizar o ajuste do modelo, deve-se ter um 6 conjunto de dados, relacionando y e x. Tabela 1: Solu¸c˜oespara diferentes possibilida- Para uma regress˜aolinear simples, a princi- des das constantes b e c (Altmann, 1980). pal hip´otesenula ´e H0 : β1 = 0 e β2 = 0, ou seja, a m´ediapopulacional de Y 0 ´e β0 para Cada uma das solu¸c˜oesapresentadas na Ta- todo valor de x, implicando que x n˜aopossui bela1 pode ser linearizada aplicando o logaritmo efeito em Y . A hip´otesealternativa, dessa ma- natural a ambos os lados, como nas eqs. (6) a (8): neira, ser´a H1: β1 = 0 e/ou β2 = 0, impli- cando que mudan¸casem6 x acarretam6 mudan¸cas log y = log A cx I (6) em Y . Em alguns casos, ´e razo´avel conside- − rar uma hip´otesenula diferente, por exemplo, log y = log A + b log x II (7) quando comparado com um padr˜aode referˆencia. log y = log A + b log x cx III (8) Nesse caso, a hip´otesenula usualmente conside- − rada ´e H0 : β1 = 1, com a hip´otesealternativa Note que, em cada uma das eqs. (6) a (8), H1 : β1 = 1. Neste trabalho, assume-se a se- 6 tem-se uma rela¸c˜aolinear entre as formas trans- guinte hip´otesenula: o comprimento m´edio das formadas dessas vari´aveis: s´ılabas (em termos do n´umerode fonemas que as constituem) ´econstante, para qualquer com- y0 = log y = log A cx primento de palavra (em n´umerode s´ılabas),ou − seja, H : β = 0 e β = 0. = β + β x (9) 0 1 2 0 2 Para que o modelo I, dado pela Equa¸c˜ao(3), y0 = log y = log A + b log x descreva uma rela¸c˜ao de decrescimento entre componentes e construtos, devemos ter c > 0. = η0 + β1x0 (10) No caso do modelo II, dado pela Equa¸c˜ao(4), y0 = log y = log A + b log x cx − devemos ter b < 0. J´ao modelo III, dado pela = β0 + β1x0 + β2x (11) Equa¸c˜ao(5), ter´aderivada dada por

b 1 cx b cx dy/dx = Abx e Acx e onde β0 , log A, β1 , b, x0 , log x e β2 , c. − − − − −cx b 1 = (b cx)Ae− x − . (13) 3Verifica-se a seguir que a Equa¸c˜ao (2) ´e de fato − solu¸c˜ao: 4Se o ajuste for realizado atrav´esdo m´etodo dos m´ıni- b 1 cx b cx mos quadrados, o crit´erio escolhido ser´aminimizar o erro dy/dx = Abx − e− cAx e− − quadr´aticom´edio; se o modelo for ajustado usando o b cx = Ax e− (b/x c) m´etodo da m´aximaverossimilhan¸ca,busca-se maximar a − = y (b/x c) , probabilidade de que os dados observados sejam proveni- − entes do modelo encontrado, ou seja, maximizar a veros- ou seja, obt´em-sea Equa¸c˜ao(1). similhan¸ca. An´alise da Lei de Menzerath no Portuguˆes Brasileiro Linguamatica´ – 35

Considerando que o comprimento do construto Para este modelo composto, poderemos ter x n˜aopode assumir valores negativos, para que uma rela¸c˜aocrescente ou decrescente entre os vi- a Equa¸c˜ao (13) seja negativa, e assim exista zinhos indiretos, dependendo do valor das cons- uma rela¸c˜aode decrescimento, ser´anecess´arioter tantes b e b0. Se os vizinhos diretos possu´ırem (b cx) < 0, que poder´aocorrer quando b < c e o mesmo tipo de rela¸c˜aoentre eles, crescente ou c >−0, considerando x 1 (x = 1), ou quando decrescente, ou seja, b > 0 e b > 0 ou b < 0 e ≥ min 0 b < cxsup e c < 0, onde xsup ´eo limite superior b0 < 0, respectivamente, teremos b00 > 0 e, por para os valores que o comprimento do construto conseguinte, existir´auma rela¸c˜aocrescente entre pode assumir. y e x, vizinhos indiretos. Se a rela¸c˜aoentre os Em algumas contextos, podemos analisar uma vizinhos diretos n˜aofor a mesma, teremos um condi¸c˜aoem que h´aum elemento hierarquica- expoente positivo e outro negativo, de forma que mente intermedi´ario.Nesses casos, podemos ob- obteremos b00 < 0, uma rela¸c˜aodecrescente entre ter uma rela¸c˜aodecrescente entre construto e vizinhos indiretos. constituinte ou observar uma rela¸c˜aocrescente Para o caso mais geral, dado pelo modelo III entre eles (Altmann & Schwibbe, 1989; Pr¨un, (Equa¸c˜ao(5)), teremos as seguintes rela¸c˜oesen- 1994; Grzybek & Stadlober, 2007). Suponha, tre vizinhos hier´arquicos: ent˜ao,que z seja nosso elemento intermedi´ario b cz entre y e x. Vamos analisar cada um dos mode- y = Az e− , (21) los a seguir. b c x z = A0x 0 e− 0 . (22) Para o modelo I, teremos:

cz A partir das eqs. (21) e (22), podemos estabelecer y = Ae− , (14) uma rela¸c˜aoentre vizinhos indiretos y e x, nos c x mesmos moldes da Equa¸c˜ao(5): z = A0e− 0 , (15)

b c x b c(A xb0 e c0x) e, assim, podemos escrever y em fun¸c˜aode x, y = A(A0x 0 e− 0 ) e− 0 − b c x b b0b (c0bx+cA0x 0 e− 0 ) c(A e c0x) = A(A0) x e− y = Ae− 0 − . (16) b (c x+c xb0 e c0x) = A00x 00 e− 00 000 − , (23) Para que exista uma rela¸c˜aode decrescimento b entre y e z, devemos ter c > 0. Da mesma onde definimos A00 = A(A0) , b00 = b0b, c00 = c0b, forma, analisando z e x, devemos ter c0 > 0. c000 = cA0. O uso do modelo mais geral acaba le- Para que tamb´emexista uma rela¸c˜aode decres- vando a uma rela¸c˜aointrincada entre as vari´aveis. cimento entre y e x, devemos analisar a derivada A derivada de y ser´adada por de Equa¸c˜ao(16). A cxb0 ( e c0x) c x dy dx 0 − 0 c x / = (A(c0x b0)e − − cA0e− 0 c0x − − dy/dx = AA0cc0e− − . (17) b c x b c x b (A0x 0 e− 0 ) (be 0 A0cx 0 ))/x. (24) − A Equa¸c˜ao(17) ser´apositiva para c > 0 e c0 > 0 A rela¸c˜aoentre x e y ser´adecrescente se, e, portanto, haver´auma rela¸c˜aocrescente entre os vizinhos indiretos. Caso exista uma rela¸c˜ao c x b > 0 e bec0x A cxb0 > 0, ou 0 − 0 − 0 crescente apenas entre um dos vizinhos diretos, c x b c0x b0 < 0 e be 0 A0cx 0 < 0. c < 0 ou c0 < 0, haver´auma rela¸c˜aodecres- − − cente entre os vizinhos indiretos. Se existir uma Em geral, os trabalhos que analisam a Lei rela¸c˜aocrescente para ambos os vizinhos diretos, de Menzerath utilizam os modelos simplificados a rela¸c˜aotamb´emser´acrescente para os vizinhos e limitam suas an´alises a um mesmo sistema indiretos. hier´arquico,ainda que possa haver alguma sobre- Analisando agora o modelo II, teremos: posi¸c˜aoe intera¸c˜aoentre sistemas hier´arquicos b distintos (Pike, 1967). Os modelos analisados y = Az , (18) buscam descrever a rela¸c˜aoentre construtos e b0 constituintes, sendo regidos por determinadas z = A0x , (19) formula¸c˜oesmatem´aticasque utilizam constan- dessa maneira, a rela¸c˜aoentre y e z ser´ada forma tes a serem determinadas ao ajustar o modelo aos dados observados. Entretanto, ainda n˜ao´e b b b b y = A(A0) x 0 = A00x 00 , (20) claro qual ´ea rela¸c˜aoentre as constantes e a in- terpreta¸c˜aodelas sob a ´oticada teoria da lin- b onde definimos A00 = A(A0) e b00 = b0b. guagem (Pr¨un, 1994; K¨ohler, 1989; Altmann & 36– Linguamatica´ Leonardo Araujo, Aline Benevides & Marcos Pereira

Schwibbe, 1989). Existem, entretanto, regi˜oesde Segundo Martinet(1978), as palavras podem valores que aparentemente possuem rela¸c˜aocom ser segmentadas, do ponto de vista morfol´ogico, o n´ıvel lingu´ısticode an´alise,havendo a forma¸c˜ao em morfemas, que consistem na menor unidade de grupos quando observamos os parˆametrosdos lingu´ısticaportadora de significado, e, do ponto modelos (Cramer, 2005). de vista fonol´ogico, em s´ılabas e em fonemas, E´ importante ressaltar que, do ponto de vista sendo estes as menores unidades distintivas de lingu´ıstico, quando analisamos tais construtos, significado. Os fonemas, dependendo do con- constituintes e suas rela¸c˜oes,estamos diante de texto em que ocorrem, podem ser expressos de conjuntos e rela¸c˜oes,de certa forma, difusos, so- diferentes formas, sendo estas chamadas de fo- bretudo quando hierarquias lexicais e fonol´ogicas nes. Uma elocu¸c˜aoqualquer pode ser descrita s˜aoanalisadas concomitantemente. As unida- por uma sequˆenciade fones que convencional- des lingu´ısticas e a forma como seus sistemas mente s˜aorepresentados graficamente atrav´esde hier´arquicosse relacionam variam de uma l´ıngua um alfabeto fon´etico. para outra. Os modelos aqui propostos podem se De modo semelhante `apalavra, a defini¸c˜aode adequar melhor ou pior a cada caso, n˜aopodendo s´ılabaainda ´ealvo de in´umerosdebates na lite- ser considerados como uma forma de abarcar to- ratura lingu´ıstica. Steriade(2002, p. 1) define- das as nuances de uma l´ıngua. a como “uma sequˆenciade segmentos agrupa- dos em torno de uma vogal obrigat´oriaou de um elemento voc´alico(sil´abico)”, mas tal de- fini¸c˜aon˜ao´econsensual. De forma que, para alguns linguistas, a s´ılaba ´e elemento central 2. Abordagem deste trabalho na teoria fonol´ogica (Selkirk, 1982), enquanto para outros ´eum construto te´oricodesnecess´ario (K¨ohler, 1966). N˜aoadentraremos aqui nesse em- Para realizar a an´aliseda Lei de Menzerath em bate te´orico,tendo em vista que o corpus utili- uma l´ıngua, deve-se, inicialmente, definir sob zado neste estudo j´aapresenta silabifica¸c˜aopro- qual n´ıvel ser´arealizada a an´alise. Este traba- veniente de um silabificador autom´aticopautado lho at´em-se`asunidades: palavras, s´ılabase fone- na escala de sonoridade (Selkirk, 1984). Inde- mas. Em uma an´alisefonol´ogica,cada uma des- pendente do m´etodo de silabifica¸c˜aoempregado, sas unidades encontra-se em um n´ıvel hier´arquico seja por meio do dicion´ario, seja pelo silabifi- distinto da l´ıngua.Ainda que seja poss´ıvel reali- cador autom´atico, n˜ao se espera grandes dis- zar an´alisesno n´ıvel morfol´ogico(Altmann, 1980; crepˆanciasque venham a prejudicar a an´alisere- Gerlach, 1982; Polikarpov, 2000b; Krott, 1996), alizada (Marchand et al., 2009). ou mesmo considerando a taxa de elocu¸c˜ao(Men- No ˆambito da escrita, as unidades da l´ıngua zerath, 1954), iremos nos ater a palavras, s´ılabas (fonemas, s´ılabase palavras) usualmente s˜aore- e fonemas, unidades essas decorrentes do n´ıvel fo- presentadas por meio do seu sistema ortogr´afico, nol´ogico,que est˜aoacess´ıveis no Corpus ABG e o qual requer a disseca¸c˜ao do fluxo da fala que s˜aoescopo deste trabalho. em partes distingu´ıveis. Para Coulmas(2002, Embora uma an´alisesimplista conceba a pala- p. 151), “todo sistema de escrita mapeia um sis- vra como uma unidade situada entre dois espa¸cos tema lingu´ıstico,incorpora e exibe visivelmente em branco, do ponto de vista lingu´ıstico,o con- a disseca¸c˜aodas unidades da l´ınguae, portanto, ceito de palavra ainda n˜ao´eclaramente definido. realiza uma an´aliselingu´ıstica”. Assumimos, aqui, a defini¸c˜aode palavra empre- Embora os corpora lingu´ısticos, em geral, gada por Crist´ofaro-Silva(2011, p. 169), apre- apresentem apenas a representa¸c˜aoortogr´aficada sentada no Dicion´ariode Fon´etica e Fonologia, palavra, o Corpus ABG, base de dados desta pes- a qual consiste em uma “unidade lingu´ıstica que quisa, foi selecionado por j´adispor da transcri¸c˜ao agrega som e significado em uma unidade. Pode fonˆemicadas palavras, bem como de outras in- ser compreendido [sic] como a menor unidade forma¸c˜oesfonol´ogicas.Deve-se salientar que, por de significado em uma l´ıngua”. Para Coulmas quest˜oesmetodol´ogicas,foram utilizados carac- (2002, p. 38), “palavras s˜aounidades na fronteira teres do teclado para representar os fonemas, o entre morfologia e sintaxe, possuindo importante que n˜aosignifica que eles sejam grafemas em si. fun¸c˜aoao levar concomitantemente informa¸c˜ao S˜ao,na verdade, apenas s´ımbolos diferentes do semˆantica e sint´atica,estando assim sujeitas `a pr´oprioIPA (International Phonetic Alphabet), varia¸c˜ao.Em algumas l´ınguas,palavras parecem mas que tˆema mesma fun¸c˜ao:representar e ex- ser mais bem definidas e est´aveis que em outras. pressar os sons das l´ınguas. A estrutura que constitui as palavras depende das caracter´ısticastipol´ogicasdas l´ınguas”. An´alise da Lei de Menzerath no Portuguˆes Brasileiro Linguamatica´ – 37

2.1. Tokeniza¸c˜ao uma dada amostra. Ela vem sendo incorporada na descri¸c˜ao e na an´alise de diversos estudos O primeiro problema com o qual se deve lidar lingu´ısticos, tanto no estudo de l´ıngua adulta, ao trabalhar com um corpus escrito ´eo da to- como de aquisi¸c˜aode linguagem (Bybee, 1995, keniza¸c˜ao. Tokens s˜aorealiza¸c˜oesde uma de- 2001; Pierrehumbert, 2003; Jarosz et al., 2016). terminada unidade, isto ´e, toda ocorrˆenciade Na Lingu´ıstica Quantitativa, diversas leis uma sequˆenciaidˆentica de caracteres (unidades) examinam o comportamento da frequˆencia de representa uma realiza¸c˜aode um tipo (entidade ocorrˆencia de tipos e sua rela¸c˜aocom propri- abstrata) na forma de um token (instˆanciacon- edades lingu´ısticas. A mais conhecida ´e a creta). Estabelecer, a partir de uma sequˆencia Lei de Zipf, j´amencionada na Se¸c˜ao1. Zipf de caracteres, a sua divis˜ao,eliminando os carac- (1935, 1949) propˆos, no ˆamagode sua teoria, teres irrelevantes, como os de pontua¸c˜ao,n˜ao´e o Princ´ıpiodo Esfor¸coM´ınimo, sendo este res- uma tarefa trivial. A simples remo¸c˜aoda pon- pons´avel por explicar as observa¸c˜oesque obteve tua¸c˜aoe a utiliza¸c˜aodos espa¸cosem branco para sobre a frequˆenciade ocorrˆenciade palavras. delimitar os tokens geram alguns resultados in- As unidades lingu´ısticas, como fonemas, le- desejados, como em palavras com ap´ostrofee/ou tras, s´ılabas, morfemas e palavras, podem com h´ıfen. Por exemplo, como devemos lidar ser estudadas atrav´es de suas frequˆencias de com as sequˆencias: “ex-presidente”, “dona-de- ocorrˆencia. Tal an´alise´e poss´ıvel at´e mesmo casa”, “arqui-inimigo” e “copo-d’´agua”? De- em estruturas que ocupam n´ıvel hier´arquicomais ver´ıamossepar´a-lose gerar os tokens:“ex”, “pre- alto. A frequˆenciade ocorrˆenciapode ser uti- sidente”, “dona”, “de”, “casa”, “arqui”, “ini- lizada para inferir, por exemplo, sobre a dis- migo”, “copo”, “d” e “´agua”? Ou devemos tribui¸c˜aosubjacente da fonte que produz uma tratar a sequˆenciacomo um ´unico token:“ex- sequˆenciade s´ımbolos observada. Busca-se, as- presidente”, “dona-de-casa”, “arqui-inimigo” e sim, deduzir e quantificar a informa¸c˜aoprodu- “copo-d’´agua”? Observe que, ao utilizar o h´ıfene zida por uma fonte. Esta tamb´em ´eusada em o ap´ostrofe como caracteres que delimitam a fron- psicolingu´ısticapara explicar o fenˆomenode re- teira de palavra, geram-se palavras malformadas, cupera¸c˜aolexical, considerado um dos proces- como arqui e d. Para os casos de h´ıfen,de forma sos centrais do processamento da linguagem, o geral, uma estrat´egiaaparentemente mais apro- qual consiste na transforma¸c˜aode um conceito priada seria assumi-las como palavras compostas abstrato em uma realiza¸c˜aoconcreta, a elocu¸c˜ao e, conforme a an´aliselingu´ısticaa ser realizada, da palavra (Gleason & Ratner, 1998; Marantz, consider´a-lasou n˜aono corpus em investiga¸c˜ao 2015). A frequˆenciade ocorrˆenciatamb´em´euti- - abordagem adotada neste estudo, uma vez que lizada em outras ´areascomo no estudo do apren- essa foi a abordagem utilizada para criar o Cor- dizado, da organiza¸c˜aoe do desenvolvimento de pus ABG (Benevides & Guide, 2017). uma l´ıngua (Phillips, 2006; Lieberman et al., 2007; Bybee, 2007, 2015). 2.2. Frequˆenciade Ocorrˆencia

V´arios estudos mostram que o efeito de 2.3. Base de dados para o presente traba- frequˆencia´eub´ıquonas ´areasligadas `acogni¸c˜aoe lho ao comportamento humano (Sikstr¨om, 2002; No- sofsky, 1988; Ellis, 2015), sobretudo, na aquisi¸c˜ao Este trabalho verificou a aplica¸c˜ao da Lei de de linguagem (Ambridge et al., 2015; Ellis, 2002), Menzerath em um corpus do portuguˆes,anali- no processamento de linguagem (Ellis, 2002) e sando a rela¸c˜aoentre o n´umerode s´ılabas das nas mudan¸caslingu´ısticas(Bybee, 2010). Espe- palavras e o comprimento m´ediodas s´ılabas,em cificamente, a frequˆenciade ocorrˆenciapode ser fonemas. Para tanto, fez-se necess´aria uma base utilizada como um instrumento de an´alisequan- de dados que possu´ısseo n´umerode s´ılabase o titativa de v´ariosaspectos lingu´ısticos.5 Segundo n´umerode fonemas para cada palavra, al´emde Bybee(2001), frequˆenciade ocorrˆenciaconsiste sua frequˆenciade ocorrˆenciano corpus. Utilizou- se como base de dados o Corpus ABG (Benevides na quantidade de vezes que uma unidade, em 6 geral uma palavra, ocorre em determinado cor- & Guide, 2017). Este ´eum corpus lingu´ısticodo pus ou texto. Para calcul´a-la,deve-se contabi- portuguˆesbrasileiro (PB) que pode ser utilizado lizar quantas vezes cada uma delas aparece em como fonte de extra¸c˜ao de dados fonol´ogicos, contendo, para cada palavra, sua frequˆencia de 5Aprendizado, memoriza¸c˜ao, percep¸c˜ao, recupera¸c˜ao ocorrˆencia(oral e escrita), transcri¸c˜aofonol´ogica, lexical, regulariza¸c˜ao,redu¸c˜aofon´etica,dentro muitos ou- tros. Estes s˜aoapenas alguns exemplos da relevˆanciae da 6O Corpus ABG est´a dispon´ıvel no s´ıtio https:// atua¸c˜aoda frequˆenciade ocorrˆencia. github.com/SauronGuide/corpusABG. 38– Linguamatica´ Leonardo Araujo, Aline Benevides & Marcos Pereira codifica¸c˜aoda estrutura da s´ılaba,7 al´emde ca- Embora ambos os trabalhos sugiram que a Lei tegoria morfol´ogica,lema e acentua¸c˜ao.Mais in- de Menzerath descreve adequadamente o com- forma¸c˜oessobre a cria¸c˜ao,a estrutura¸c˜aoe a uti- portamento de encurtamento do constituinte em liza¸c˜aodo corpus podem ser obtidas em Benevi- rela¸c˜ao ao construto, eles analisam dados em des & Guide(2017). n´ıveis hier´arquicoslingu´ısticosdistintos, os quais tamb´ems˜aodiferentes daqueles que s˜aoabor- dados neste trabalho, e, principalmente, pos- 2.4. Lei de Menzerath no portuguˆesbrasi- suem uma base de dados de pequeno volume, leiro o que compromete o estabelecimento de con- S˜aopoucos os trabalhos que analisam a Lei de clus˜oesrobustas. Diante dessa carˆencia,este tra- Menzerath no portuguˆes. Por exemplo, Coloma balho apresenta os resultados da aplica¸c˜aoda (2015) faz um paralelo com 50 l´ınguasdistintas, Lei de Menzerath em dados do portuguˆesbra- dentre elas o portuguˆes. O foco principal deste sileiro, a partir do Corpus ABG, que “contabi- trabalho ´ecomparar o ajuste de dois modelos liza 3.616.625 ocorrˆenciasde palavras e 92.602 ti- distintos: o tradicional, de Menzerath-Altmann pos de palavras, sendo que 1.938.805 ocorrˆencias (Altmann, 1980), e o modelo hiperb´olicopro- s˜aoprovenientes dos corpora de fala e 1.676.820 posto por Miliˇcka(2014). Utilizou, para isso, o ocorrˆenciasdos corpora escritos” (Benevides & conto “O Vento Norte e o Sol” de Esopo, em suas Guide, 2017, p. 1). diversas tradu¸c˜oescontidas no Handbook of the O corpus foi submetido ao script de trata- International Phonetic Association. Este livro ´e mento e de cria¸c˜aodo banco de dados desta pes- um guia sobre como utilizar o alfabeto fon´etico quisa. Como o corpus j´aapresenta dados de IPA e assim apresenta, al´emdos textos traduzi- transcri¸c˜aofonol´ogicae de estrutura sil´abica,o dos, suas transcri¸c˜oesfon´eticas.A vers˜aotradu- n´umerode fonemas e o n´umerode s´ılabas das zida para o portuguˆespossui apenas 8 ora¸c˜oes, palavras foram extra´ıdosdiretamente do corpus. 98 palavras e 380 fonemas. Ao analisar a rela¸c˜ao Ao final, foi criada uma base de dados com in- entre fonemas por palavra e palavras por ora¸c˜ao forma¸c˜oesde frequˆenciade ocorrˆencia,n´umero nas 50 l´ınguas, Coloma(2015) concluiu que am- de fonemas e n´umero de s´ılabaspara cada uma bos os modelos apresentam igualmente bem a das palavras do Corpus ABG. correla¸c˜aonegativa visualizada entre n´umerode Os dados obtidos, a partir da rela¸c˜aoentre o fonemas por palavra e palavras por ora¸c˜ao. n´umerode fonemas e o n´umerode s´ılabas das Rothe-Neves et al.(2018), por sua vez, anali- palavras do PB, s˜aoexpostos nas Figuras1e2. sou a rela¸c˜aoentre a dura¸c˜aom´ediadas s´ılabas Como o n´umerode s´ılabas e o n´umerode pala- em elocu¸c˜oes e o n´umerode s´ılabas nas sen- vras s˜aovalores inteiros, o comprimento m´edio ten¸cas,a partir da elocu¸c˜aode 20 sujeitos para das s´ılabass´opoder´aassumir alguns valores fra- 40 senten¸cas, que variam de 2 a 29 s´ılabas. cion´ariosposs´ıveis. Tˆem-se, assim, apenas al- O trabalho buscou investigar a tendˆencia ge- guns n´ıveis discretos de comprimento m´edio,o ral de compress˜aoda dura¸c˜aodos sons da fala que resultou em uma grande sobreposi¸c˜aodos em fun¸c˜ao do n´umero de sons em uma sen- dados. Os gr´aficos de densidade expostos na Fi- ten¸ca,independente do seu conte´udolingu´ıstico. gura2 apresentam, portanto, uma interpola¸c˜ao Para tanto, Rothe-Neves et al.(2018) ajusta- dos valores. Para representar graficamente a so- ram o modelo II (Equa¸c˜ao(4)) para os dados breposi¸c˜aode dados, nas Figuras1e3, utilizou- de cada um dos sujeitos e tamb´empara o con- se o tamanho dos c´ırculos para representar o junto de todos os dados. Suas observa¸c˜oescor- n´umerode palavras encontradas com determi- roboraram a hip´otesede independˆencia entre os nado n´umerode s´ılabas e de fonemas. A Fi- parˆametros A e b (Miliˇcka, 2014; Rothe-Neves gura1 apresenta tamb´ema distribui¸c˜aomarginal et al., 2018), em oposi¸c˜ao`aargumenta¸c˜aode que do n´umerode fonemas e do n´umerode s´ılabasno tais parˆametrosseriam dependentes da l´ıngua Corpus ABG. (Cramer, 2005; Kelih, 2010; Kulacka , 2010); e, O ajuste dos m´ınimos quadrados8 aponta sobretudo, corroboraram a Lei de Menzerath para uma rela¸c˜aodecrescente entre o n´umero ao observar uma tendˆenciade encurtamento na de s´ılabasdas palavras e o tamanho m´ediodas dura¸c˜aodas s´ılabasconforme o alongamento dos s´ılabas, em n´umerode fonemas. Os resultados enunciados. estat´ısticosexibidos na Tabela4 evidenciam que

7A codifica¸c˜aoutilizada consistiu em: C para conso- ante, V para vogal, G para glide e S para as fricativas alve- 8O m´etodo dos m´ınimosquadrados aproxima um dado olares em posi¸c˜aode coda em final de palavra. Esta codi- modelo (isto ´e,encontra o conjunto de parˆametros),bus- fica¸c˜aofoi empregada em decorrˆenciada invisibilidade de cando a solu¸c˜aoque minimize a soma dos quadrados do tal segmento `as regras acentuais (Bisol, 1994; Lee, 1995). res´ıduo. An´alise da Lei de Menzerath no Portuguˆes Brasileiro Linguamatica´ – 39

palavra frequˆencia transcri¸c˜ao n´umero tipo n´umero fon´etica∗ de fones sil´abico de s´ılabas de 125749 de 2 CV 1 que 116882 ke 2 CV 1 a 102779 a 1 V 1 o 91246 o 1 V 1 e 87868 e 1 V 1 ´e 61550 3 1 V 1 eu 46558 eW 2 VG† 1 do 46538 do 2 CV 1 n˜ao 43919 nAW 3 CVG 1 da 40205 da 2 CV 1 em 37053 EJ 2 VG 1 um 35188 U 1 V 1 vocˆe 29544 vo-se 4 CV-CV 2 na 29447 na 2 CV 1 com 29013 kO 2 CV 1 uma 28659 u-ma 3 V-CV 2 no 28427 no 2 CV 1 n´e 25291 n5 2 CV 1 assim 24666 a-sI 3 V-CV 2 * transcri¸c˜aofonol´ogicaadotada no Corpus ABG Benevides & Guide(2017) Glide (ou semivogal). † Tabela 2: Exemplifica¸c˜aode alguns dados contidos no Corpus ABG.

´e poss´ıvel descartar com seguran¸ca a hip´otese nula: a hip´otesede que n˜aoexiste rela¸c˜aoen- tre o n´umerode s´ılabae o tamanho m´ediodas s´ılabas.9 Em outros termos, observa-se que existe uma tendˆenciaa se utilizar s´ılabasmenores em palavras com mais s´ılabas. Os modelos obti- dos aqui tamb´emforam comparados utilizando ANOVA, sendo que os resultados apresentados na Tabela3 evidenciam que o modelo III ´emais explicativo para os dados observados. Pelo gr´aficodos res´ıduos, exibido nas Figu- número de sílabas ras 4a, 4ce 4e (veja ApˆendiceA), constata-se que, em m´edia,o modelo ´eadequado, visto que os res´ıduos encontram-se centrados em zero, o que pode ser observado pela linha m´edia dos res´ıduos ao longo do eixo da vari´avel indepen- dente (n´umerode s´ılabas). Note tamb´emque

número de fonemas o res´ıduon˜ao´esistematicamente grande ou pe- queno em diferentes regi˜oes,o res´ıduo est´asi- Figura 1: Rela¸c˜aoentre o n´umerode s´ılabas metricamente distribu´ıdo em torno do zero, n˜ao e o n´umerode fonemas nas palavras do PB. A sendo assim poss´ıvel estabelecer alguma predi¸c˜ao figura apresenta os c´ırculos com tamanho pro- sobre os res´ıduos a partir da vari´avel indepen- porcional ao n´umerode palavras com cada uma dente. Conclui-se, dessa maneira, que n˜aoh´ain- das rela¸c˜oesencontradas entre n´umerode fone- mas e s´ılabas. Nas laterais s˜aoapresentados os 9O coeficiente de determina¸c˜aoaparentemente ´ebaixo, histogramas do n´umero de s´ılabase do n´umero quando comparado aos valores observados na literatura. de fonemas. Entretanto, devemos observar que utilizamos aqui um vo- lume de dados muito maior que o usual e, ainda mais, o modelo ´edeterminado para todos os dados da amostra, enquanto na literatura obt´em-sevalores altos de R2 t˜ao somente por ajustarem o modelo `asm´edias. 40– Linguamatica´ Leonardo Araujo, Aline Benevides & Marcos Pereira

(b) Considerando a frequˆenciade ocorrˆenciade cada (a) Considerando a frequˆencia de tipo das palavras. palavra.

Figura 2: Rela¸c˜aoentre o n´umerode s´ılabase o n´umero m´ediode fonemas por s´ılabasobservada nas palavras do Corpus ABG.10 forma¸c˜aoexplanat´oriado modelo sendo perdida variabilidade ´emenor. A existˆencia de heteros- e, consequentemente, sendo observada atrav´es cedasticidade implica que o teorema de Gauss- dos res´ıduos. Markov12 n˜ao´ev´alidopara o caso em quest˜ao, Observa-se, por´em,que a variˆanciado res´ıduo de forma que ´eposs´ıvel que o estimador linear cresce com a vari´avel independente, indicando de m´ınimosquadrados ordin´ario13 utilizado n˜ao a presen¸cade heterocedasticidade.11 Isto pode seja a melhor escolha, em termos de prover a me- invalidar os testes estat´ısticos de significˆancia, nor variˆanciadentre todos estimadores n˜aopo- pois estes pressup˜oem que os erros na mode- larizados. Com isso, observa-se que n˜aoh´acor- lagem s˜ao descorrelacionados e uniformes. A rela¸c˜aoentre o valor ajustado pelo modelo e o ausˆenciade homoscedasticidade pode tamb´emin- res´ıduo,como era esperado, e, ainda, que h´ahe- dicar a existˆenciade n˜ao-linearidadenos dados. teroscedasticidade nos modelos propostos. Es- Heteroscedasticidade usualmente ocorre quando sencialmente, qualquer modelo ´eimpreciso, desta h´auma grande diferen¸ca no tamanho das ob- forma, dentre as in´umerasop¸c˜oes de modelos que serva¸c˜oes. No caso em quest˜ao,quanto maior poderiam ser propostas, busca-se sempre o mais o n´umerode s´ılabas de uma palavra, maior a simples, que seja capaz de explicar os dados ob- variabilidade das s´ılabas usadas para construir servados (princ´ıpioda Navalha de Occam). Tal- essa palavra. Quando a palavra ´epequena, a vez os modelos propostos possam ser melhorados se for acrescentada uma nova vari´avel, por eles 10Conforme exposto na Figura2, ´eposs´ıvel encontrar n˜aoabarcada, ou ainda, uma melhor estimativa no Corpus ABG, e no portuguˆes,palavras simples com das vari´aveis envolvidas poderia ser suficiente e, 6, 7 e at´emesmo 8 s´ılabas, como pro.gres.si.va.men.te, pro.ble.ma.ti.za.re.mos e tra.di.ci.o.na.l´ıs.si.mo, ainda que com isso, o efeito da heteroscedasticidade poderia elas sejam poucas. H´a,ainda, palavras com extens˜aoigual ser diminu´ıdo, mantendo as demais qualidades ou superior a elas, que s˜ao,em geral, palavras compos- dos modelos utilizados. Trabalhos como o de van tas, como ex-pro.cu.ra.dor-ge.ral, la.ti.no-a.me.ri.ca.na e Heuven et al.(2014) mostram a importˆanciade pre.si.dˆen.cia-e.xe.cu.ti.va. 11Diz-se que h´aheterocedasticidade em um conjunto de vari´aveis aleat´oriasquando existe subpopula¸c˜oescom di- 12O teorema de Gauss-Markov estipula que, em um mo- ferentes variabilidades. Se a variabilidade de uma vari´avel delo de regress˜aolinear, sob certas condi¸c˜oes,o estimador n˜aose mant´emigual ao longo da extens˜aode uma segunda linear n˜aopolarizado com menor variˆancia´edado pelo vari´avel que a prediz, ent˜ao,diz-se que h´aheterocedasti- estimador dos m´ınimosquadrados ordin´ario,se existir. cidade. Algumas poss´ıveis causas da heterocedasticidade 13 O estimador de m´ınimosquadrados ordin´ario´eaquele s˜ao: a pr´oprianatureza de algumas vari´aveis que apre- que utiliza a soma dos quadrados das diferen¸casentre a sentam tendˆencia`aheterocedasticidade, a existˆenciade vari´avel dependente observada e o valor predito pelo mo- 2 valores extremos e as falhas na especifica¸c˜aodo modelo. delo linear, ou seja, x(y(x) yˆ(x)) , onde x ´ea vari´avel A existˆenciade heterocedasticidade pode comprometer al- independente, y a vari´avel dependente− ey ˆ o valor predito guns testes de significˆanciaem uma an´alisede regress˜ao. pelo modelo. P An´alise da Lei de Menzerath no Portuguˆes Brasileiro Linguamatica´ – 41

Figura 3: Rela¸c˜aoentre o n´umerode s´ılabase o n´umerom´ediode fonemas nas palavras do PB. S˜ao tra¸cadosos modelos I, II e III obtidos pelo ajuste de modelo linear a partir da base de dados ABG e a hip´otesenula como referˆencia.

Res.Df RSS Df Soma Qd. F Pr(>F) I 92602 2096,3 16 III 92601 2020,5 1 75,829 3475,3 < 2,2 10− * II 92602 2043,7 × III 92601 2020,5 1 23,207 1063,6 < 2,2 10 16 * × − Nota: ∗p < 0,001 Tabela 3: An´alisede Variˆancia(ANOVA) comparando modelo I com modelo III e comparando modelo II com modelo III para os dados do Corpus ABG. uma boa estima¸c˜aode vari´aveis como frequˆencia e de intervalo de confian¸ca. Embora, no caso de ocorrˆencia,comprimento e similaridade de pa- em quest˜ao,constate-se a n˜aonormalidade dos lavras, uma vez que a melhor estima¸c˜aodessas res´ıduos, ainda assim a normalidade ´euma su- vari´aveis ´ecapaz de agregar maior explica¸c˜aoso- posi¸c˜aorazo´avel. bre a variˆanciados dados do que a inclus˜aode novas vari´aveis. O gr´afico Q-Q normal (normal quantile- 2.5. A Lei de Menzerath frente aos dados quantile plot), apresentado nas Figuras 4b, 4d do portuguˆes e 4f (veja ApˆendiceA), revela um desvio em dire¸c˜aoa uma distribui¸c˜aocom cauda longa, o No presente trabalho, conforme apresentado na que pode ser constatado pela observa¸c˜aode va- se¸c˜ao 2.4, buscou-se verificar a veracidade da Lei lores mais extremos do que o esperado, caso os de Menzerath frente aos dados de um corpus dados fossem provenientes de uma distribui¸c˜ao lingu´ıstico do portuguˆesbrasileiro. A Lei pre- normal. Avaliar a normalidade dos dados ´e diz que o n´umerode fonemas nas s´ılabasdiminui importante, pois muitos procedimentos de in- `amedida que o n´umerode s´ılabasda palavra au- ferˆenciaestat´ıstica presumem que as amostras, menta. A fim de testar essa predi¸c˜ao,utilizou-se resultantes de um conjunto fixo de valores de uma como fonte de dados o Corpus ABG. vari´avel dependente, provenham de uma distri- Observa-se, de maneira geral, que o n´umero bui¸c˜aonormal. Viola¸c˜oesseveras dessa suposi¸c˜ao de fonemas diminui `amedida que o n´umerode podem levar a resultados errados em valor de p s´ılabasaumenta, o que corrobora a Lei de Men- zerath. Tal proporcionalidade ´eclaramente vi- Vari´aveldependente: log(comprimento m´edioem fonemas) (I) (II) (III)

n´umerode s´ılabas 0,041∗ -0,054∗ (0,0004) (0,002)

log(n´umerode s´ılabas) 0,148∗ -0,319∗ −(0,001) (0,005) Leonardo Araujo, Aline Benevides & Marcos Pereira

Constante 0,946∗ 0,981∗ 0,996∗ (0,002) (0,002) (0,002)

Observa¸c˜oes 92.604 92.604 92.604 R2 0,091 0,114 0,124 R2 Ajustado 0,091 0,114 0,124 Erro padr˜aoresidual 0,150 (df = 92.602) 0,149 (df = 92.602) 0,148 (df = 92.601) Estat´ısticaF 9.281,210∗ (df = 1; 92.602) 11.904,500∗ (df = 1; 92.602) 6.552,366∗ (df = 2; 92.601)

Nota: ∗p < 0,01 Tabela 4: Resultados do ajuste dos modelos lineares para os dados do Corpus ABG. ´ atica m Lingua 42– An´alise da Lei de Menzerath no Portuguˆes Brasileiro Linguamatica´ – 43 sualizada na Figura 2a, a qual expressa uma 3. Conclus˜ao maior densidade de tipos de palavras de at´e4 O presente estudo n˜ao fornece resposta a to- ´ s´ılabascom at´e3 fonemas (por s´ılaba). E inte- das as quest˜oesem aberto que permeiam a Lei ressante notar que a redu¸c˜aodo n´umerode fone- de Menzerath-Altmann na linguagem. Buscou- mas por s´ılabaconduz, consequentemente, a pre- se aqui analisar os modelos frente aos dados do dile¸c˜aopor s´ılabasmais simples, em geral, CV, portuguˆesbrasileiro; a partir dos quais verifica- V e CVC. Essa preferˆencia´e esperada, tendo mos a existˆenciade uma tendˆencia`adiminui¸c˜ao em vista que, segundo Crystal(1988), as duas do n´umerode constituintes na composi¸c˜aode primeiras s´ılabass˜aouniversais nas l´ınguasna- construtos maiores, corroborando assim a Lei de turais. No portuguˆes,as trˆesfiguram entre as Menzerath. No contexto de uma teoria geral da mais frequentes, com´ındices, respectivamente, de comunica¸c˜ao,argumenta-se que mecanismos de 192.532, 26.907 e 24.055 em termos de frequˆencia percep¸c˜aoe de cogni¸c˜aodevam ser considerados 14 de tipo, segundo dados do Corpus ABG (Bene- para explicar essa observa¸c˜ao. Zipf(1935, 1949) vides & Guide, 2017). usa o Princ´ıpiodo Esfor¸coM´ınimo como funda- Al´emde nos mostrar que, quanto maior a pa- mento para suas observa¸c˜oes.Mais tarde, K¨ohler lavra, menor a quantidade de fonemas por s´ılaba, (1989) utiliza um modelo de processamento de as distribui¸c˜oesexpostas nas Figuras2e3, a linguagem para fundamentar as observa¸c˜oesfei- partir da Lei de Menzerath, demonstram que, tas atrav´esda Lei de Menzerath. O processa- quanto maior a estrutura da palavra, menor a mento de linguagem ´esequencial, ao menos no quantidade de tipos de palavra. Isto ´e,as es- n´ıvel mais baixo, uma vez que a fala se rea- truturas de palavras mais frequentes da l´ıngua liza sequencialmente ao longo do tempo, atrav´es tendem a ter estruturas sil´abicas mais simples da sucess˜aolinear de perturba¸c˜oesac´usticascom (CV). Tal afirmativa ´e visualizada no Corpus caracter´ısticasque se modificam no decorrer do ABG, o qual apresenta as seguintes estruturas tempo. Al´emdisso, K¨ohler(1989) utiliza como mais frequentes: CV-CV-CV (5.243 tipos), CV- argumento a capacidade finita de processamento CV (3.553), CV-CV-CV-CV (3.229), CV-CV- e mem´oriaem tarefas cognitivas. Esse racioc´ınio CVS (1.671) e V-CV-CV-CV (1.625). Note que leva `aconclus˜aode que construtos mais comple- a ´unicaestrutura com ramifica¸c˜aode rima ocupa xos e mais longos necessitam utilizar-se de cons- a quarta posi¸c˜aoe ainda assim ´epreenchida por tituintes menores e mais simples. Desta forma, s, marcador, em geral, de plural, o qual ´etido n˜aoapenas se observa a tendˆencia`autiliza¸c˜ao por diversas propostas como invis´ıvel a alguns de constituintes mais simples na composi¸c˜aode fenˆomenosfonol´ogicos,como o acento (Massini- construtos mais complexos, como tamb´emuma Cagliari, 1992; Bisol, 1994). Tal correla¸c˜aopo- menor variabilidade. J´ana constru¸c˜aode cons- deria ser estendida, no caso do portuguˆes, a trutos mais simples, a variabilidade dos cons- frequˆenciadas palavras, tendo em vista que, se- tituintes ´emaior. Tal argumenta¸c˜aoentra em gundo Ara´ujoet al.(2007), os pentass´ılabos figu- consonˆanciacom o limite da mem´oriade curta ram entre as palavras com ´ındicede frequˆencia dura¸c˜ao(Miller, 1956), segundo o qual o n´umero mais raro da l´ıngua,com 41,5%, em compara¸c˜ao de objetos que em m´ediauma pessoa ´ecapaz de a 21% dos triss´ılabos, por exemplo. A raridade manter na mem´oriade trabalho ´ede 7 2, a cha- de frequˆenciadas palavras tende a aumentar con- mada Lei de Miller. As tarefas analisadas± por forme aumenta as suas extens˜oes,como demons- Miller(1956) mostram que h´aqueda na perfor- tra a Figura 2b. mance `amedida que o n´umerode est´ımulos di- Diante disso, destaca-se, no presente artigo, a ferentes (variando apenas um dos atributos) au- aplicabilidade da Lei de Menzerath para o cor- menta para al´emde cinco ou seis. A capacidade pus do portuguˆes,o que permite tecer an´alises de mem´oriaimediata, o presente psicol´ogico, ´e quantitativas relevantes com rela¸c˜ao`aestrutura dito ter uma dura¸c˜aode 1,5 a 3 segundos, ope- da palavra e das s´ılabas. A Lingu´ısticaQuanti- rando principalmente no n´ıvel de processamento tativa, dessa maneira, permite realizar descri¸c˜oes de senten¸cas. Al´emdisso, para palavras em que essenciais `asan´alisesfonol´ogicasem geral. a rela¸c˜aoentre o n´umerode s´ılabae o n´umerode fonemas se mant´em constante, a dura¸c˜aotem- poral ´efator determinante para a recupera¸c˜ao de palavras, apresentando melhor desempenho aquelas de curta dura¸c˜ao(Baddeley et al., 1975). 14 Assume-se, aqui, a concep¸c˜aode frequˆenciade tipo Essa an´alisesugere a necessidade de se analisar de (Bybee, 2001, p. 10), segundo a qual “frequˆenciade tipo refere-se `afrequˆenciade dicion´ariode um padr˜aoes- tamb´ema dura¸c˜aode palavras e de senten¸casem pec´ıfico”; neste caso, a quantidade de tipos de palavras elocu¸c˜oes para verificar se a Lei de Menzerath que possui semelhante estrutura sil´abica. tamb´emse faz presente. 44– Linguamatica´ Leonardo Araujo, Aline Benevides & Marcos Pereira

Nos modelos aqui contemplados, atrav´esda r´ıgido de um sistema estrutural bem definido, an´alisedos res´ıduos,´eposs´ıvel verificar que n˜ao uma vez que os modelos tesos e austeros culmi- s˜aosatisfeitas as considera¸c˜oesde heteroscedas- nam em uma descri¸c˜aoimprecisa e inconsistente. ticidade e de normalidade dos res´ıduos. Isto in- As express˜oesquantitativas permitem uma me- dica que possivelmente existem fatores que n˜ao lhor adequa¸c˜ao`arealidade que aquelas qualita- foram abarcados pelo modelo proposto, ou que tivas, permitem ainda uma an´alisemais fina em ´e necess´arioobter medidas mais acuradas das diferentes resolu¸c˜oes,uma grada¸c˜aocont´ınua de vari´aveis envolvidas, ou ainda que ´enecess´ario formatos representacionais que, sob outra ´otica, modificar o modelo, utilizando algum termo de seriam discretos e muitas vezes impossibilitariam outra sorte para conseguir um melhor ajuste. A o estabelecimento de inter-rela¸c˜oesentre diferen- frequˆenciade ocorrˆenciade palavras pode ser uti- tes n´ıveis de an´alise. A an´alisequantitativa da lizada para ponderar a rela¸c˜aoentre o n´umero linguagem busca explorar os fundamentos, esta- de s´ılabasem palavras e o comprimento m´edio belecer explica¸c˜oese construir uma teoria consis- das s´ılabasem fonemas. A influˆenciadessa nova tente com hip´otesesrefut´aveis. vari´avel pode alterar a rela¸c˜aoobservada entre comprimento m´ediodas s´ılabase o comprimento Referˆencias das palavras. Essa vari´avel, ainda n˜aoconside- rada, pode inclusive ser fator causador da hetero- Abe, Sumiyoshi & Norikazu Suzuki. 2005. Scale- cedasticidade observada. Outros fatores impor- free statistics of time interval between succes- tantes tamb´empoderiam ser considerados, como sive earthquakes. Physica A: Statistical Mecha- a frequˆenciade ocorrˆenciade sequˆenciasde pa- nics and its Applications 350(2–4). 588–596. lavras, a complexidade articulat´oria,a dura¸c˜aoe 10.1016/j.physa.2004.10.040. a distintividade lingu´ısticade fonemas, s´ılabase palavras. Afinal, fatores relacionados `aprodu¸c˜ao Adamic, Lada A. & Bernardo A. Huberman. e `apercep¸c˜aotamb´empossuem papel importante 2002. Zipf’s law and the internet. Glottome- no uso da linguagem. trics 3. 143–150. Deve-se ter em mente a separa¸c˜aoentre os trˆes Altmann, Eduardo G. & Martin Gerlach. 2016. processos centrais que foram abarcados no pre- Statistical laws in linguistics. Em M. Degli sente trabalho: a sele¸c˜aodo modelo, a estima¸c˜ao Esposti, E.G. Altmann & F. Pachet (eds.), dos parˆametrose a predi¸c˜aode resultados a partir Creativity and Universality in Language, 7–26. do modelo e dos parˆametrosdos dados. O modelo Springer. 10.1007/978-3-319-24403-7_2. correto nunca ser´aconhecido, mas, como ponde- Altmann, Gabriel. 1980. Prolegomena to Menze- rou Box(1976), “alguns s˜ao´uteis”.A an´alisede rath’s law. Glottometrika 2(2). 1–10. um problema n˜aodeve consistir na aplica¸c˜aodos trˆespassos descritos uma ´unicavez, mas deve re- Altmann, Gabriel & Michael H. Schwibbe. 1989. tornar ao passo anterior sempre que se verificar Das Menzerathsche Gesetz in informationsve- falsas suposi¸c˜oesque foram rejeitadas nas etapas rarbeitenden systemen. Hildesheim: Olms. seguintes. Durante a constru¸c˜aoe a aplica¸c˜ao Ambridge, Ben, Evan Kidd, Caroline F. Rowland de um modelo, muitas vezes adotam-se genera- & Anna L. Theakston. 2015. The ubiquity liza¸c˜oes;esse processo pode ser perigoso, pois in- of frequency effects in first language acquisi- certezas est˜aoinseridas em distintas etapas. tion. Journal of Child Language 42(2). 239– A partir do estudo aqui depreendido sobre a 273. 10.1017/s030500091400049x. rela¸c˜aoentre construto e constituinte na comu- Andres, Jan. 2010. On a conjecture about nica¸c˜aorestritos ao ˆambito fonol´ogico,constata- the fractal structure of language. Journal se que as observa¸c˜oesquantitativas e o trata- of Quantitative Linguistics 17(2). 101–122. mento matem´atico tornam-se necess´arios para 10.1080/09296171003643189. a descri¸c˜aode fenˆomenosque n˜aopodem ser representados por um arqu´etipo de uma de- Ara´ujo,Gabriel A. de, Zwinglio O. Guimar˜aes Fi- terminada categoria, nem explicado por regras lho, Leonardo Oliveira & Viaro M. Eduardo. simb´olicasestruturais, ou seja, ´euma abordagem 2007. As proparox´ıtonase o sistema acentual necess´ariapara estudar a variabilidade e a impre- do portuguˆes. Em O acento em portuguˆes: cis˜aonas l´ınguasnaturais. Prefere-se lidar aqui abordagens fonol´ogicas, 37–60. Par´abola. com tendˆenciase com preferˆenciasa lidar com Baddeley, Alan D., Neil Thomson & Mary Bu- rela¸c˜oes est´aveis de estruturas bem definidas. chanan. 1975. Word length and the structure As rela¸c˜oesdinˆamicase a variabilidade revelam of short-term memory. Journal of Verbal Le- mais sobre o fenˆomenodo que o funcionamento arning and Verbal Behavior 14(6). 575–589. 10.1016/s0022-5371(75)80045-4. An´alise da Lei de Menzerath no Portuguˆes Brasileiro Linguamatica´ – 45

Beckner, Clay, Nick C. Ellis, Richard Blythe, Crist´ofaro-Silva, Tha´ıs. 2011. Dicion´ario de John Holland, Joan Bybee, Jinyun Ke, Mor- fon´etica e fonologia. Contexto. ten H. Christiansen, Diane Larsen-Freeman, Crystal, David. 1988. Dicion´ariode lingu´ıstica e William Croft & Tom Schoenemann. 2010. fon´etica. J. Zahar Editor. Language is a complex adaptive system: Po- sition paper. Em Nick C. Ellis & Diane Ellis, Nick C. 2002. Frequency effects Larsen-Freeman (eds.), Language as a Com- in language processing. Studies in Se- plex Adaptive System, 1–26. University of Mi- cond Language Acquisition 24(2). 143–188. chigan: Wiley-Blackwell. 10.1017/s0272263102002024. Benevides, Aline De Lima & Bruno Ferrari Ellis, Nick C. 2015. Cognitive and social aspects Guide. 2017. Corpus ABG. Texto Li- of learning from usage. Em Usage-Based Pers- vre: Linguagem e Tecnologia 10(1). 139–163. pectives on Second Language Learning, 49–74. 10.17851/1983-3652.10.1.139-163. De Gruyter. 10.1515/9783110378528-005. Bisol, Leda. 1994. O acento e o p´em´etrico. Letras Fenk, August & Gertraud Fenk-Oczlon. 2013. de Hoje 29(4). 25–36. Menzerath’s Law and the constant flow Boroda, Mojsej G. & Gabriel Altmann. 1991. of linguistic information. Em Reinhard Menzerath’s law in musical texts. Musikome- K¨ohler & Burghard B. Rieger (eds.), Con- trica 3. 1–13. tributions to Quantitative Linguistics: Pro- ceedings of the First International Confe- Box, George E. P. 1976. Science and sta- rence on Quantitative Linguistics, Springer. tistics. Journal of the American Sta- 10.1007/978-94-011-1769-2_2. tistical Association 71(356). 791–799. 10.1080/01621459.1976.10480949. Ferrer-i-Cancho, Ramon. 2006. On the univer- sality of Zipf’s law for word frequencies. Em Bybee, Joan. 1995. Regular morpho- P. Grzybek & R. K¨ohler(eds.), Exact methods logy and the lexicon. Language and in the study of language and text. In honor of Cognitive Processes 10(5). 425–455. Gabriel Altmann, 131–140. Gruyter. 10.1080/01690969508407111. Bybee, Joan. 2001. Phonology and lan- Ferrer-i-Cancho, Ramon. 2017. The placement guage use Cambridge Studies in Lin- of the head that maximizes predictability. An guistics. Cambridge University Press. information theoretic approach. Glottometrics 10.1017/CBO9780511612886. 39. 38–71. Bybee, Joan. 2007. Frequency of Ferrer-I-Cancho, Ramon & N´uriaForns. 2009. use and the organization of lan- The self-organization of genomes. Complexity guage. USA: Oxford University Press. 15. 34–36. 10.1002/cplx.20296. 10.1093/acprof:oso/9780195301571.001. Ferrer-i-Cancho, Ramon & Ricard V. Sol´e. 0001. 2002. Zipf’s law and random texts. Bybee, Joan. 2010. Language, usage and Advances in Complex Systems 5(1). 1–6. cognition. Cambridge University Press. 10.1142/S0219525902000468. 10.1017/cbo9780511750526. Gabaix, Xavier. 1999. Zipf’s law for ci- Bybee, Joan. 2015. Language change Cambridge ties: An explanation. Quarterly Jour- Textbooks in Linguistics. Cambridge Univer- nal of Economics 114(3). 739–767. sity Press. 10.1017/CBO9781139096768. 10.1162/003355399556133. Coloma, Germ´an. 2015. The Menzerath- Gerlach, Rainer. 1982. Zur Uberpr¨ufung¨ Altmann law in a cross-linguistic context. SKY des menzerath’schen gesetzes im bereich der Journal of Linguistics 28. 139–159. morphologie. Glottometrika 4. 95–102. Coulmas, Florian. 2002. Writing sys- Gleason, Jean Berko & Nan Bernstein Ratner. tems: An introduction to their linguistic 1998. Psycholinguistics. Fort Worth: Harcourt analysis. Cambridge University Press. Brace College Publishers. 10.1017/CBO9781139164597. Glottopedia. 2019. The free encyclopedia of lin- Cramer, Irene. 2005. The parameters of guistics. http://www.glottopedia.org/. the Altmann-Menzerath law. Journal of Quantitative Linguistics 12(1). 41–52. Grzybek, Peter. 2007. Contributions to 10.1080/09296170500055301. the science of text and language: Word 46– Linguamatica´ Leonardo Araujo, Aline Benevides & Marcos Pereira

length studies and related issues Text, Spe- K¨ohler,Konrad. J. 1966. Is the syllable a phono- ech and Language Technology. Springer. logical universal? Journal of Linguistics 2(2). 10.1007/978-1-4020-4068-9. 207–208. 10.1017/S0022226700001493. Grzybek, Peter & Gabriel Altmann. 2002. Os- K¨ohler,Reinhard. 1989. Das Menzerathsche Ge- cillation in the frequency-length relationship. setz als Resultat des Sprachverarbeitungsme- Glottometrics 2. 97–107. chanismus. Em Gabriel Altmann & Michael H. Grzybek, Peter & Ernst Stadlober. 2007. Do Schwibbe (eds.), Das Menzerathsche Gesetz we have problems with arens’ law? a new in informationsverarbeitenden Systemen, Hil- look at the sentence-word relation. Em desheim: Olms. Peter Grzybek & Reinhard K¨ohler (eds.), K¨ohler, Reinhard. 2005. Gegenstand und Ar- Exact Methods in the Study of Language beitsweise der Quantitativen Linguistik. Em and Text, 205–218. Walter de Gruyter. Reinhard K¨ohler, Gabriel Altmann & Raj- 10.1515/9783110894219.205. mund G. Piotrowski (eds.), Quantitative Lin- Gustison, Morgan L., Stuart Semple, Ramon Fer- guistik. Ein internationales Handbuch, 1–16. rer i Cancho & Thore J. Bergman. 2016. Ge- de Gruyter. lada vocal sequences follow menzerath’s lin- Krott, Andrea. 1996. Some remarks on the guistic law. Proceedings of the National Aca- relation between word length and morpheme demy of Sciences of the USA 113(19). E2750– length. Journal of Quantitative Linguistics E2758. 10.1073/pnas.1522072113. 3(1). 29–37. 10.1080/09296179608590061. Heaps, Harold Stanley. 1978. Information retri- eval, computational and theoretical aspects Li- Kulacka, Agnieszka. 2010. The coefficients in the brary and information science. USA: Academic formula for the menzerath-altmann law. Jour- Press. nal of Quantitative Linguistics 17(4). 257–268. 10.1080/09296174.2010.512160. Herdan, Gustav. 1960. Type-token mathematics, vol. 4 Janua linguaarum, studia memoriae Ni- Lee, Seung Hwa. 1995. Morfologia e fonologia le- colai van Wijk dedicata. Series maior. Mouton xical do portuguˆesdo Brasil. Campinas: Uni- & Cie. versidade Estadual de Campinas. Tese de Dou- toramento. van Heuven, Walter J. B., Pawel Mandera, Emmanuel Keuleers & Marc Brysbaert. Li, Wentian. 2011. Menzerath’s law at the gene- 2014. Subtlex-UK: A new and impro- exon level in the human genome. Complexity ved word frequency database for british 17(4). 49–53. 10.1002/cplx.20398. english. Quarterly Journal of Expe- rimental Psychology 67(6). 1176–1190. Lieberman, Erez, Jean-Baptiste Michel, Joe 10.1080/17470218.2013.850521. Jackson, Tina Tang & Martin A. Nowak. 2007. Quantifying the evolutionary dyna- Hˇreb´ıˇcek,Ludˇek. 1995. Text levels: Language mics of language. Nature 449(7163). 713–716. constructs, constituents and the menzerath- 10.1038/nature06137. altmann law Quantitative linguistics. Wissens- chaftlicher Verlag Trier. L¨u, Linyuan, Zi-Ke Zhang & Tao Zhou. 2010. Zipf’s law leads to heaps’ law: Ilari, Rodolfo. 2003. A ling¨u´ıstica e o ensino da Analyzing their relation in finite-size l´ınguaportuguesa. S˜aoPaulo: Martins Fontes. systems. PLoS ONE 5(12). e14139. Jarosz, Gaja, Shira Calamaro & Jason 10.1371/journal.pone.0014139. Zentz. 2016. Input frequency and the acquisition of syllable structure in po- Marantz, Alec. 2015. Morphology. Em Gregory lish. Language Acquisition 24(4). 361–399. Hickok & Steven L. Small (eds.), Neurobio- 10.1080/10489223.2016.1179743. logy of Language, chap. 13, 153–163. Academic Press. Jespersen, Otto. 1904. Lehrbuch der phonetik. Leipzig: Teubner. Marchand, Yannick, Connie R. Adsett & Ro- bert I. Damper. 2009. Automatic syllabifica- Kelih, Emmerich. 2010. Parameter interpretation tion in english: A comparison of different al- of the menzerath law: evidence from serbian. gorithms. Language and Speech 52(1). 1–27. Em Peter Grzybek, Emmerich Kelih & J´an 10.1177/0023830908099881. Maˇcutek (eds.), Text and Language: Struc- tures, Functions, Interrelations: Quantitative Martinet, Andr´e.1978. Elementos de ling¨u´ıstica Perspectives, 71–79. Praesens. geral. Martins Fontes. An´alise da Lei de Menzerath no Portuguˆes Brasileiro Linguamatica´ – 47

Massini-Cagliari, Gladis. 1992. Acento e ritmo. Polikarpov, Anatoliy Anatolyevich. 2000b. Men- S˜aoPaulo: Contexto. zerath’s law for morphemic structures of Menzerath, Paul. 1928. Uber¨ einige phonetische words: A hypothesis for the evolutionary me- Probleme. Em Actes du premier Congres In- chanism of its arising and its testing. Em Qua- ternational de Linguistes, 104–105. lico: Quantitative Linguistics Conference,. Menzerath, Paul. 1954. Die architektonik des Pr¨un, Claudia. 1994. Validity of menzerath- deutschen Wortschatzes Phonetische Studien. altmann’s law: Graphic representation F. D¨ummler. of language, information processing sys- tems and synergetic linguistics. Journal Meyer, Ernst Alfred. 1904. Zur Vokaldauer im of Quantitative Linguistics 1(2). 148–155. Deutschen. Em Adolf Gotthard (ed.), Nordiska 10.1080/09296179408590009. studier tillegnade Adolf Noreen p˚ahans 50- ˚arsdagden 13 Mars 1904, Wentworth Press. Rothe-Neves, Rui, B´arbara Marques Ber- nardo & Robert Espesser. 2018. Shor- Miliˇcka, Jiˇr´ı.2014. Menzerath’s law: The whole tening tendency for syllable duration in is greater than the sum of its parts. Jour- brazilian portuguese utterances. Journal nal of Quantitative Linguistics 21(2). 85–99. of Quantitative Linguistics 25(2). 156–167. 10.1080/09296174.2014.882187. 10.1080/09296174.2017.1360172. Miller, George A. 1956. The magical num- ´ ber seven, plus or minus two: some li- Roudet, L´eonce.1910. El´ementsde phon´etique mits on our capacity for processing infor- g´en´erale. Welter. mation. Psychological Review 63(2). 81–97. Selkirk, Elisabeth. 1982. The syllable. Em Harry 10.1037/h0043158. van der Hulst & Norval Smith (eds.), The Mitzenmacher, Michael. 2004. A brief history of structure of phonological representations, Fo- generative models for power law and lognormal ris. distributions. Internet Mathematics 1(2). 226– Selkirk, Elisabeth. 1984. On the major class fea- 251. 10.1080/15427951.2004.10129088. tures and syllable theory. Em Mark Aronoff & Nikolaou, Christoforos. 2014. Menzerath- Richard T. Oehrle (eds.), Language Sound and altmann law in mammalian exons re- Structure, The MIT Press. flects the dynamics of gene struc- Shahzad, Khuram, Jay E. Mittenthal & Gustavo ture evolution. Computational Biology Caetano-Anoll´es.2015. The organization of do- and Chemistry 53, Part A. 134–143. mains in proteins obeys Menzerath-Altmann’s 10.1016/j.compbiolchem.2014.08.018. law of language. BMC Systems Biology 9. 44. Nosofsky, Robert M. 1988. Similarity, fre- 10.1186/s12918-015-0192-9. quency, and category representations. Journal of Experimental Psychology: Le- Sikstr¨om,Sverker. 2002. Habituation during en- arning, Memory, and Cognition 14(1). 54–65. coding of episodic memory. Em Connectionist 10.1037/0278-7393.14.1.54. Models of Cognition and Perception, 107–117. 10.1142/9789812777256_0009. Phillips, Betty. 2006. Word frequency and lexi- cal diffusion. Basingstoke England New York: Steriade, Donca. 2002. The syllable. Em Wil- Palgrave Macmillan. liam Frawley (ed.), International Encyclopedia of Linguistics, Oxford University Press. Pierrehumbert, Janet. 2003. Probabilistic pho- nology: Discrimination and robustness. Em Wilde, Joachim & Michael H. Schwibbe. 1989. Rens Bod, Jennifer Hay & Stefanie Jannedy Organizationsformen von Erbinformation Im (eds.), Probability Theory in Linguistics, 177– Hinblick auf die Menzerathsche Regel. Em Ga- 228. Cambridge MA: The MIT Press. briel Altmann & Michael H. Schwibbe (eds.), Das Menzerathsche Gesetz in informationsve- Pike, Kenneth Lee. 1967. Language in relation rarbeitenden Systemen, 92–107. Olms. to a unified theory of the structure of human behavior Janua Linguarum. Series Maior. De Zipf, George Kingsley. 1935. The psycho-biology Gruyter. of language: an introduction to dynamic philo- Polikarpov, Anatoliy A. 2000a. Menzerath’s law logy. The MIT Press. for morphemic structures of words: A hypothe- Zipf, George Kingsley. 1949. Human behaviour sis for the evolutionary mechanism of its ari- and the principle of least effort: An introduc- sing and its testing. Em Qualico: Quantitative tion to human ecology. Hafner Pub. Co. Linguistics Conference,. 48– Linguamatica´ Leonardo Araujo, Aline Benevides & Marcos Pereira

A. Dados, scripts e outros resultados

Os dados, os scripts desenvolvidos para a realiza¸c˜aodeste trabalhos e todos os resultados est˜aodis- pon´ıveis em reposit´oriosno GitHub.

1. Corpus ABG: https://github.com/SauronGuide/corpusABG. 2. Scripts voltados para a ´areade Lingu´ısticaQuantitativa e Computacional: https://github.com/ leolca/clscripts. 3. Notebook com anota¸c˜oes,c´odigose resultados gerados para este trabalho: https://github.com/ leolca/clscripts/blob/master/menzerath_abg.ipynb.

número de palavras resíduos

valores ajustados (a) Gr´aficodos res´ıduospara o modelo I. (b) Gr´aficoQQ para o modelo I.

número de palavras resíduos

valores ajustados (c) Gr´aficodos res´ıduospara o modelo II. (d) Gr´aficoQQ para o modelo II.

número de palavras resíduos

valores ajustados (e) Gr´aficodos res´ıduospara o modelo III. (f) Gr´aficoQQ para o modelo III.

Figura 4: An´alisedos res´ıduospara os modelos utilizando os dados do Corpus ABG. Proposta recebida em Dezembro 2019 e aceite para publica¸c˜aoem Abril 2020.

Reescrita sentencial baseada em tra¸cosde personalidade Personality-dependent sentence rewriting

Georges Basile Stavracas Neto Ivandr´eParaboni Universidade de S˜aoPaulo (USP) Universidade de S˜aoPaulo (USP) [email protected] [email protected]

Resumo More specifically, the model transforms the input sen- tence into another one in which certain lexical forms Sistemas de Gera¸c˜aode L´ıngua Natural (GLN) are replaced by terms more suited to a certain per- s˜ao centrais para o desenvolvimento de comu- sonality type. Results suggest that personality-based nica¸c˜ao humano-computador realista e psicologica- generation produces sentences that are closer to those mente plaus´ıvel que n˜aorecorra ao uso de texto fixo produced by a human speaker with those personality ou predefinido, fazendo uso de uma ampla gama de traits than what would be possible without access to estrat´egiaspara modelar alguma forma de varia¸c˜ao this information, thus paving the way for future stu- estil´ıstica. Entre estas estrat´egias,o uso de mode- dies of speaker-dependent natural language genera- los computacionais da personalidade humana emergiu tion in Portuguese. como uma alternativa popular na ´area. Neste con- texto, o presente trabalho apresenta um modelo de Keywords GLN do tipo texto-para-texto (ou reescrita sentencial) natural language generation, personality para o portuguˆesque leva em conta, al´emda senten¸ca a ser reescrita, informa¸c˜oessobre a personalidade de 1. Introdu¸c˜ao um locutor-alvo de interesse. Mais especificamente, o modelo transforma a senten¸cade entrada em outra na qual certas formas lexicais s˜aosubstitu´ıdaspor termos Sistemas de gera¸c˜aode l´ıngua natural (GLN) mais adequados ao tipo de personalidade-alvo forne- produzem texto a partir de uma representa¸c˜ao cido. Resultados sugerem que as senten¸casgeradas lingu´ısticaou n˜ao-lingu´ısticafornecida como en- com base em personalidade s˜aomais pr´oximasdas que trada, e s˜aocentrais para o desenvolvimento de seriam produzidas por um locutor humano com as ca- comunica¸c˜aohumano-computador realista e psi- racter´ısticasde personalidade fornecidas do que seria cologicamente plaus´ıvel que n˜aorecorra ao uso poss´ıvel sem acesso a essa informa¸c˜ao,e abrem assim de texto fixo ou predefinido. Aplica¸c˜oesde GLN caminho para futuros estudos de gera¸c˜aode l´ıngua incluem, por exemplo, a gera¸c˜aode resumos tex- natural personalizada em portuguˆes. tuais a partir de dados obtidos de unidades de terapia neonatal intensiva (Portet et al., 2009), Palavras chave hist´oricosde pacientes e relat´oriosde enferma- gera¸c˜aode l´ınguanatural, personalidade gem (Hunter et al., 2012; di Eugenio et al., 2014; Jordan et al., 2014), cartas personalizadas de cessa¸c˜aodo tabagismo (Reiter et al., 2003), bo- letins de previs˜oesmeteorol´ogicas(Reiter et al., Abstract 2005), di´alogose textos narrativos (Walker et al., Natural Language Generation (NLG) systems are 2011a,b), poesia (Zhang & Lapata, 2014), legen- central to the development of psychologically plau- das de imagens (Karpathy & Fei-Fei, 2015; Xu sible human-computer communication that does not et al., 2015) e muitas outras. rely on canned text, and which makes use of a wide Podemos em princ´ıpiodistinguir dois tipos de range of strategies to model some stylistic variation. sistemas de GLN (Reiter & Dale, 2000): siste- Among these, the use of computational models of hu- mas do tipo dados-para-texto, que recebem uma man personality has emerged as a popular alterna- representa¸c˜aon˜aolingu´ısticacomo entrada (e.g., tive in the field. In this context, the present work dados num´ericosprovenientes de sensores) e pro- presents a text-to-text (or sentential rewriting) GLN duzem texto como sa´ıda(e.g., relat´oriosdo mer- model for Portuguese that takes into account, in ad- cado financeiro), e sistemas do tipo texto-para- dition to the sentence to be rewritten, information texto, que recebem como entrada um texto j´are- about the personality of a target speaker of interest. digido em l´ınguanatural (possivelmente por um autor humano) e produzem uma vers˜aomodifi- DOI: 10.21814/lm.12.1.312 Linguamatica´ — ISSN: 1647–0818 This work is Licensed under a Creative Commons Attribution 4.0 License Vol. 12 N´um. 1 2020 - P´ag. 49–61 50– Linguamatica´ Georges Basile Stavracas Neto & Ivandr´eParaboni cada deste mesmo texto como sa´ıda(e.g., uma Para melhor apreciar o papel das dimens˜oes vers˜aosimplificada, resumida, traduzida, adap- de personalidade CGF na produ¸c˜aohumana de tada estilisticamente etc.) No presente trabalho l´ınguanatural, considere-se a tarefa de produzir ser´aabordado exclusivamente o segundo tipo de uma descri¸c˜aotextual simples de uma determi- sistema, tratando da quest˜aoda reescrita de sen- nada cena como na figura1, extra´ıda da base ten¸caspreexistentes com base em crit´eriosa se- GAPED de Dan-Glauser & Scherer(2011). rem discutidos a seguir. Sistemas de GLN podem, em princ´ıpio, produ- zir sempre o mesmo texto de sa´ıdapara uma de- terminada entrada. No entanto, sistemas que vi- sam gerar texto de maneira mais natural ou seme- lhante ao humano geralmente implementam uma ampla gama de estrat´egiaspara modelar varia¸c˜ao estil´ıstica, incluindo o controle de parˆametros que afetam o tamanho ou complexidade das sen- ten¸cas, uso de pausas, ˆenfases, pontua¸c˜ao,es- colha lexical e muitos outros. Uma vis˜aodeta- lhada destas estrat´egias ´eapresentada por Mai- resse(2008). Entre estas possibilidades, o uso de modelos computacionais da personalidade hu- mana emergiu como uma alternativa popular na ´area(Mairesse & Walker, 2010). Figura 1: Um exemplo de imagem extra´ıdada De especial interesse para o presente trabalho, base GAPED. consideraremos o uso do modelo dos Cinco Gran- des Fatores (CGF) da personalidade humana, ou Big Five (Goldberg, 1990). O modelo CGF Em uma situa¸c˜aodesse tipo, diferentes locu- baseia-se no pressuposto de que as diferen¸casde tores poderiam produzir um grande n´umerode personalidade s˜aoreveladas pela maneira como descri¸c˜oesalternativas do mesmo contexto. Por os indiv´ıduos se expressam em l´ıngua natural exemplo, um indiv´ıduocom maior escore para a e, em especial, nas escolhas lexicais realizadas. dimens˜ao Agradabilidade pode descrever o perso- Dada a sua motiva¸c˜aolingu´ıstica,o modelo CGF nagem da cena como “uma linda crian¸ca”, en- tem sido aplicado a uma ampla gama de estu- quanto que um indiv´ıduode menor escore pode dos tanto na interpreta¸c˜ao(Plank & Hovy, 2015; descrevˆe-locomo “um pirralho sujo”, dentre mui- tas outras possibilidades. De forma an´aloga,po- Alvarez-Carmona´ et al., 2015; Gonz´alez-Gallardo demos tamb´emconceber aplica¸c˜oescomputacio- et al., 2015) como na gera¸c˜aode l´ınguanatural nais em que um sistema n˜aoapenas descreve uma (Mairesse & Walker, 2011; Herzig et al., 2017) e, imagem seguindo um padr˜aofixo ou pr´e-definido, embora haja v´ariasoutras teorias de personali- mas o faz impondo um estilo espec´ıficoditado por dade em discuss˜ao(em especial, o modelo MBTI uma personalidade-alvo de interesse. de Briggs Myers & Myers(2010)), a quase to- talidade dos estudos em Ciˆenciada Computa¸c˜ao A varia¸c˜aohumana em GLN ´eum t´opicore- tende a ser baseado no modelo CGF. corrente na pesquisa na ´area(Viethen & Dale, 2010; Mairesse & Walker, 2011; Ferreira & Pa- O modelo CGF compreende cinco dimens˜oes raboni, 2014) e ser´atamb´emo tema do presente fundamentais da personalidade: Extrovers˜ao, trabalho. De forma mais espec´ıfica,prop˜oe-sede- Agradabilidade, Conscienciosidade, Neuroticismo senvolver um modelo de reescrita sentencial para e Abertura `aexperiˆencia. Cada dimens˜aoCGF o portuguˆesque leva em conta, al´emda senten¸ca ´eassociada a um escore que representa a inten- a ser reescrita, informa¸c˜oessobre a personali- sidade com que um indiv´ıduomanifesta cada as- dade de um locutor-alvo de interesse. Modelos pecto da personalidade. Assim, por exemplo, deste tipo s˜aopotencialmente ´uteis,por exem- um escore abaixo da m´edia(de acordo com uma plo, quando procura-se obter maior engajamento popula¸c˜aode interesse) para Extrovers˜aoindica do leitor (ou usu´ario),como no caso de aplica¸c˜oes um indiv´ıduo introvertido, enquanto que um es- em educa¸c˜ao,no relacionamento com clientes ou core acima da m´edia indica um indiv´ıduo ver- consumidores e outras. dadeiramente extrovertido. Escores de persona- lidade podem ser obtidos por diversos m´etodos, O modelo a ser apresentado objetiva trans- incluindo a aplica¸c˜aode question´ariosespec´ıficos formar uma senten¸cafornecida como entrada em (John et al., 2008). outra na qual certas formas lexicais s˜aosubs- titu´ıdaspor termos mais adequados ao tipo de Reescrita sentencial baseada em tra¸cos de personalidad Linguamatica´ – 51 personalidade-alvo fornecido1. Neste contexto, a humanos como refletindo certos tra¸cosde per- hip´otesea ser investigada ´ea de que as senten¸cas sonalidade espec´ıficos. A lexicaliza¸c˜aono sis- geradas com base em personalidade sejam mais tema PERSONAGE ´erealizada para cada pa- pr´oximasdas que seriam produzidas por um locu- lavra de conte´udono texto com base em trˆes tor humano com as caracter´ısticasde personali- parˆametros: a frequˆenciado l´exico,o tamanho dade fornecidas do que as que seria poss´ıvel obter da palavra e a for¸ca verbal (por exemplo, “suge- utilizando-se um modelo de gera¸c˜aode texto sem rir” seria mais fraco do que “recomendar”). Es- acesso `ainforma¸c˜aode personalidade. ses parˆametrosfazem uso do conhecimento ob- O restante deste artigo est´aorganizado da se- tido a partir de v´ariosrecursos lexicais on-line guinte forma. Na Se¸c˜ao2 s˜aodiscutidos traba- (por exemplo, WordNet e VERBOCEAN) e de lhos relacionados `a´areade GLN baseada em per- contagens de frequˆenciade corpus. sonalidade. Na Se¸c˜ao 3.2 ´edescrito o c´orpusa ser Diversos estudos subsequentes foram desen- empregado neste trabalho, a anota¸c˜aosemˆantica volvidos como extens˜oes do sistema PERSO- realizada e os modelos de lexicaliza¸c˜aoe reescrita NAGE. Estes estudos incluem uma s´eriede me- sentencial propostos. Na Se¸c˜ao4 estes mode- lhorias na arquitetura do sistema original, e los s˜aoavaliados tanto sob uma perspectiva de acrescentam suporte aos outros quatro tra¸cos aprendizado de m´aquinacomo orientada `atarefa de personalidade do modelo CGF (al´emde Ex- de reescrita propriamente dita. Os resultados trovers˜ao) (Mairesse & Walker, 2011). Al´em destas duas formas de avalia¸c˜aos˜aoapresentados disso, a arquitetura PERSONAGE original foi nas Se¸c˜oes 4.1e 4.2. Finalmente, a Se¸c˜ao5 apre- tamb´emaplicada a outros dom´ınios,incluindo a senta algumas conclus˜oese trabalhos futuros. gera¸c˜aopersonalizada de fofocas (Khosmood & Walker, 2010), di´alogossobre jogos de compu- tador (McCormick, 2012), escrita criativa (Lukin 2. Trabalhos relacionados et al., 2014), narra¸c˜aode hist´orias(Bowden et al., 2016), gera¸c˜aode gestos (Aly & Tapus, 2016) Estudos de GLN baseado em personalidade s˜ao e gera¸c˜aode feedback a clientes (Herzig et al., de modo geral escassos, e n˜aofoi poss´ıvel identi- 2017). ficar na literatura iniciativas deste tipo (ou siste- No caso do idioma portuguˆes,n˜aoforam iden- mas de GLN minimamente completos) voltados tificados estudos de GLN baseados em perso- para o idioma portuguˆes.Nesta se¸c˜aos˜aodiscuti- nalidade exceto dois trabalhos pr´evios relacio- dos assim alguns estudos da ´areade GLN baseada nados ao projeto atual para tratamento de ou- em personalidade dedicados ao idioma inglˆes. tras quest˜oesde pesquisa, e ambos utilizando Estudos de GLN s˜aofortemente relacionados o pr´oprioc´orpus b5 a ser discutido na pr´oxima ao trabalho seminal de Mairesse(2008) e suas ex- se¸c˜ao. Estes dois estudos, detalhados por Pa- tens˜oes.Todos estes estudos abordam a gera¸c˜ao raboni et al.(2017) e Lan & Paraboni(2018), de texto em l´ınguainglesa, e nenhum deles trata que abordam a quest˜aoda rela¸c˜aoentre perso- da tarefa de gera¸c˜aotexto-para-texto (como no nalidade e a tarefa de sele¸c˜aode conte´udona caso da reescrita sentencial tratada no presente gera¸c˜aode express˜oesde referˆencia(GER). Esta trabalho), mas apenas da gera¸c˜aode dados-para- tarefa, que ´eum subcomponente da arquitetura texto. Estes estudos s˜aobrevemente discutidos a de sistemas de GLN, utiliza algoritmos pr´oprios seguir. para decidir, nos est´agiosiniciais da gera¸c˜aode O estudo de Mairesse & Walker(2010) abor- texto, qual o conte´udosemˆantico a ser expresso dou uma ampla gama de decis˜oesde gera¸c˜ao na forma de descri¸c˜oesdefinidas (e.g., “a m˜aoes- que podem ser influenciadas por um perfil de querda do menino”). Uma vis˜aogeral da ´area, personalidade-alvo. O trabalho se concentra na que est´afora do escopo do presente trabalho, ´e gera¸c˜aode l´ınguanatural do tipo ponta-a-ponta, apresentada por van Deemter(2016). ou dados para texto, apresentando um sistema de GLN configur´avel que produz recomenda¸c˜oes textuais de restaurantes. O sistema resultante — 3. M´etodo chamado PERSONAGE— ´etreinado com base em dados anotados com informa¸c˜aode persona- Nesta se¸c˜aos˜aodescritos o c´orpusempregado lidade proveniente do modelo CGF, e os textos neste trabalho (Se¸c˜ao 3.1), a prepara¸c˜ao de assim produzidos foram reconhecidos por ju´ızes dados realizada (Se¸c˜ao 3.2) e os modelos de lexicaliza¸c˜ao e reescrita sentencial propostos 1O presente foco na quest˜aoda escolha lexical ´emoti- (Se¸c˜ao 3.3). vado pela natureza lexical do pr´opriomodelo CGF, mas outras dire¸c˜oesposs´ıveis de pesquisa s˜aodiscutidas na se¸c˜ao5. 52– Linguamatica´ Georges Basile Stavracas Neto & Ivandr´eParaboni

3.1. O c´orpusb5 A por¸c˜ao b5-text dos dados cont´em84463 to- kens e a por¸c˜ao b5-caption cont´em4896. Os tex- Neste trabalho ser´autilizado o c´orpus b5 (Ramos tos completos da por¸c˜ao b5-text s˜aousados para et al., 2018) de textos em portuguˆesbrasileiro ro- fins de treinamento dos modelos a serem discuti- tulados com escores de personalidade do modelo dos. A por¸c˜ao b5-caption foi utilizada para fins CGF relativos aos seus autores. O c´orpusfoi uti- de teste tal qual descrito na Se¸c˜ao4. lizado em estudos pr´eviosde gera¸c˜aode texto ba- seada em personalidade (Paraboni et al., 2017) 3.2. Prepara¸c˜aodos dados e inferˆencia de tra¸cosde personalidade a partir de textos e caracteriza¸c˜aoautoral (dos Santos A gera¸c˜aode texto com varia¸c˜aolexical decor- et al., 2017; Hsieh et al., 2018; Silva & Paraboni, rente de personalidade (ou outros fatores) requer 2018b,a). Detalhes desta organiza¸c˜aos˜aodiscu- a identifica¸c˜aode conceitos de n´ıvel semˆantico a tidos por Ramos et al.(2018). serem lexicalizados. Assim, o uso do c´orpus b5 Os textos a serem utilizados s˜aoprovenientes descrito na se¸c˜aoanterior demanda uma tarefa de duas bases (ou subc´orpus)do c´orpus b5 deno- de anota¸c˜aosemˆantica com o objetivo de esta- minados b5-text e b5-caption, em ambos os casos belecer um mapeamento entre conceitos e suas coletados em uma s´eriede experimentos presen- lexicaliza¸c˜oesposs´ıveis. Esta atividade ´edescrita ciais envolvendo participantes humanos engaja- a seguir. dos na tarefa de descri¸c˜aode imagens. Para este Os modelos de reescrita a serem propostos fim, foram empregados 10 est´ımulos visuais ex- tratam da lexicaliza¸c˜aode trˆestipos de concei- tra´ıdosda base GAPED (Dan-Glauser & Sche- tos semˆanticos representados nas cenas do c´orpus rer, 2011) de imagens classificadas por valˆenciae b5-text (Ramos et al., 2018): conceitos a serem re- significˆancianormativa, e designadas de modo a alizados como substantivos (como a maior parte despertar diferentes graus e tipos de emo¸c˜ao.Um das entidades das cenas do c´orpus,pessoas, obje- exemplo de imagem deste tipo foi apresentado na tos etc.), adjetivos (e.g., caracter´ısticasconcretas Figura1 da Se¸c˜ao1. e abstratas das entidades da cena, como cores, O c´orpuscontempla duas subtarefas de des- emo¸c˜oesetc.) e verbos (e.g., a¸c˜oesque as entida- cri¸c˜ao de imagens: em vers˜ao detalhada (em des presentes na cena executam). Estes conceitos texto multi-sentencial) e em vers˜aoresumida (na s˜aoaqui denominados CRS, CRA e CRV, respec- forma de uma senten¸ca´unica,ao estilo de uma tivamente, em referˆencia`aforma de realiza¸c˜ao legenda que resume o conte´udo da imagem). superficial (substantivo, adjetivo ou verbo) que Um exemplo de descri¸c˜aotextual resumida para cada um assume no texto, e foram escolhidos por a imagem anterior, tal qual observado em b5- estarem entre os mais facilmente observ´aveis nas caption, poderia ser simplesmente “Trabalho in- imagens do c´orpus. fantil”. A vers˜aodetalhada desta mesma des- Dado que um determinado conceito pode ser cri¸c˜ao,tal qual observada em b5-text, ´eapresen- lexicalizado de muitas formas, o primeiro passo tada a seguir. desse estudo consistiu em computar todos os con- ceitos referenciados no c´orpus b5 e ent˜aoasso- Crian¸ca de cerca de 5 anos, traba- ciar cada conceito a uma lista de formas lexi- lhando injustamente, despejando terra cais poss´ıveis. Para este fim, foi atribu´ıdo um num balde por algum motivo para aju- r´otulo´unicoa cada conceito, aqui designado na dar algu´em.Cen´ariode pobreza no qual forma $nome, onde ‘nome’ ´eum termo represen- ao seu fundo existe uma casa constru´ıda tado em inglˆescomo forma de distingui-lo de suas de sacos pl´asticos e alguns tijolos. formas lexicais em portuguˆes. A seguir apresen- tamos um exemplo deste tipo de nota¸c˜ao,em que o CRS $bucket ´eassociado a trˆesformas lexicais O c´orpus b5 cont´em descri¸c˜oes textuais de poss´ıveis. 10 contextos visuais como o da figura ante- rior. Todas as imagens foram descritas por um $bucket ‘balde’, ‘recipiente’, ‘pote’ grupo de 151 participantes, havendo portanto 151 → { } vers˜oeslongas e outras 151 vers˜oescurtas de cada O procedimento para cˆomputo dos mapea- uma —todas potencialmente influenciadas pelas mentos de conceitos para lexicaliza¸c˜oes difere diferentes personalidades de seus autores. Todos para cada tipo de conceito (CRS, CRA ou CRV) os 1510 textos longos e 1510 legendas encontram- por motivos discutidos a seguir. Em todos os ca- se rotulados com escores de personalidade CGF sos, a anota¸c˜aodos dados foi realizada por dois obtidos por meio de invent´ariosde personalidade avaliadores, e nos poucos casos de ambiguidade dos participantes que os escreveram. observados, foram decididos por um terceiro. Reescrita sentencial baseada em tra¸cos de personalidad Linguamatica´ – 53

No caso dos CRS, uma vez que os textos do anterior. Assim, $black-bucket ´eo CRA que re- c´orpus b5 s˜aofortemente apoiados nos elemen- presenta a cor escura de um balde, e $black-skin ´e tos visuais de cada cena, optou-se por modelar o CRA que representa a cor escura da pele de um apenas a lexicaliza¸c˜aode conceitos que represen- indiv´ıduo. A defini¸c˜aode conceitos distintos as- tam elementos referenci´aveis das cenas, incluindo sociados a cada tipo de objeto a que se referem ´e por exemplo personagens e objetos f´ısicos,enti- motivada pelas observa¸c˜oesde que seus conjuntos dades representando indiv´ıduosou grupos, e en- de lexicaliza¸c˜oesposs´ıveis podem n˜aocoincidir tidades representando um todo ou suas partes, totalmente, e de que mesmo sendo idˆenticas estas mas excluindo-se conceitos mais abstratos ou de lexicaliza¸c˜oespodem ser empregadas de forma di- car´aterret´oricopresentes no discurso (e.g., pro- ferente para cada conceito por locutores com de- blemas, quest˜oes,diferen¸casetc.) Assim, criou-se terminados tipos de personalidade. inicialmente uma lista de todos elementos visuais Cada grupo de adjetivos assim identificado re- que poderiam ser realizadas na forma de subs- cebeu um r´otulo´unicorepresentando seu signi- tantivos, atribuindo-se um r´otuloidentificador a ficado e contendo indica¸c˜aodo CRS ao qual se cada um. Por exemplo, para a Figura1 ante- refere. Um exemplo de mapeamento de um CRA rior poderiam ser enumerados, dentre outros, os para uma lista de adjetivos ´eilustrado a seguir, CRS $bucket, $child, $tent para os objetos balde, representando a qualidade do objeto balde de crian¸cae barraca, respectivamente. possuir uma cor escura. A seguir, o c´orpus foi analisado sintatica- mente com uso da ferramenta PALAVRAS (Bick, 2000), escolhida pela conveniˆencia de uso de $black-bucket ‘escuro’,‘preto’,‘negro’ → { } sua vers˜aoonline, e por de modo geral apre- sentar bom desempenho para o Portuguˆesbra- sileiro. Foram selecionados todos os substanti- Seguindo-se este procedimento, 114 CRA fo- vos com um m´ınimo de cinco ocorrˆencias nos ram associados a 191 adjetivos ´unicoscom cinco textos, um limite m´ınimofoi adotado para evi- ou mais ocorrˆencias no c´orpus. tar casos muito infrequentes, e que n˜aoseriam No caso dos CRV, que representam a¸c˜oesque pass´ıveis de aprendizado autom´atico.Estes subs- podem estar relacionadas a m´ultiplasentidades, tantivos foram ent˜aomanualmente associados a optou-se simplesmente por computar todos os cada um dos CRS enumerados no passo ante- verbos do c´orpuse agrup´a-losem conjuntos de rior examinando-se as imagens quando necess´ario sinˆonimos(ou synsets) obtidos a partir do di- para fins de desambigua¸c˜ao,objetivando agrupar cion´arioTeP 2.0 (Maziero et al., 2008). A cada todos os sinˆonimosreferentes a cada um dos con- synset foi ent˜aoatribu´ıdo um r´otuloarbitr´ario ceitos. Um exemplo de mapeamento de um CRS ´unico.Um exemplo de mapeamento de um CRV para uma lista de substantivos foi ilustrado no para uma lista de verbos ´eilustrado a seguir. exemplo acima, para o caso do CRS $bucket. Neste processo, alguns novos CRS que n˜aoti- $v1 ‘cansar’, ’debilitar’ nham sido originalmente listados foram descober- → { } tos a partir dos pr´oprios substantivos, e a lista de CRS foi atualizada de acordo quando perti- nente. O resultado desta atividade foi a produ¸c˜ao Como resultado, foram identificados 198 CRV de uma s´eriede mapeamentos de CRS para suas associados a 352 verbos ´unicoscom cinco ou mais formas lexicais poss´ıveis, contendo 151 CRS as- ocorrˆenciasno c´orpus. sociados a 191 substantivos ´unicoscom cinco ou Finalmente, dado o objetivo de explorar lexi- mais ocorrˆenciasno c´orpus. caliza¸c˜oesalternativas (i.e., de acordo com uma Uma vez definidos os CRS poss´ıveis, o personalidade-alvo) dos CRS, CRA e CRV identi- cˆomputodos CRA foi realizado de forma semi- ficados, apenas conceitos com mais de uma lexi- autom´aticautilizando-se a informa¸c˜aosint´atica caliza¸c˜aoposs´ıvel foram mantidos. A Tabela1 dispon´ıvel. De forma mais espec´ıfica,os adjeti- sumariza os trˆes conceitos mais frequentes de vos associados a cada substantivo ou pronome2 cada tipo, o n´umerode vezes que suas lexica- de interesse no c´orpusforam manualmente asso- liza¸c˜oess˜aoutilizadas no c´orpus,e suas poss´ıveis ciados a cada um dos CRS definidos no passo lexicaliza¸c˜oes. Os mapeamentos entre conceitos (CRA, CRS ou CRV) e suas poss´ıveis lexicaliza¸c˜oesser˜aoto- 2A identifica¸c˜aode antecedentes anaf´oricosfoi feita de forma manual. Para abordagens computacionais, ver por mados por base para o modelo de reescrita sen- exemplo Paraboni & de Lima(1998); Cuevas & Paraboni tencial baseada em personalidade discutido na (2008). pr´oximase¸c˜ao. 54– Linguamatica´ Georges Basile Stavracas Neto & Ivandr´eParaboni

Tipo ID Instˆancias Lexicaliza¸c˜oes $child 1399 crian¸ca, menino, garoto, bebˆe CRS $scene 761 imagem, cena, cen´ario,foto $soil 437 terra, barro, areia $white-human 989 claro, branco CRA $black-human 823 escuro, preto, negro $pale-object 674 p´alido,desmaiado, claro $v1 8024 haver, ser, estar, existir CRV $v2 4592 querer, relevar, estar, assentar $v3 3144 ser, servir

Tabela 1: Trˆesconceitos mais frequentes de cada classe (CRS, CRA e CRV).

3.3. Modelo proposto casos pode ser descrita como ‘mo¸ca’e em outras n˜ao).Assim, cada subconjunto do c´orpus b5-text Nesta se¸c˜ao´eapresentado o modelo de reescrita precisa ser tratado com um c´orpusdistinto. sentencial que ´e o foco principal deste traba- Para cada palavra w representando um ad- lho. O modelo recebe como entrada uma sen- jetivo, substantivo ou verbo com 50 ou mais ten¸ca s em Portuguˆes e os escores das cinco di- ocorrˆenciasno c´orpus,foram criadas instˆancias mens˜oesde personalidade P de um locutor-alvo de aprendizado supervisionado como segue. Pri- de interesse, e produz como sa´ıdauma nova sen- meiramente, cada palavra w ´epesquisada nos ten¸ca s0 que ´euma varia¸c˜aode s em que cer- mapeamentos de conceitos para palavras (cf. tas palavras foram substitu´ıdas por sinˆonimos se¸c˜aoanterior) e o conceito id correspondente ´e que seriam tipicamente empregados por um locu- recuperado. Em paralelo a isso, o autor do texto tor de personalidade P . Neste modelo, a tarefa ´epesquisado na base de participantes do c´orpus de escolha lexical ´eimplementada com uso de b5 e seus escores de personalidade P s˜aotamb´em m´etodos de aprendizado de m´aquinasupervisio- recuperados. Assim, a instˆanciade aprendizado nado (ou classificadores). Estes dois componen- ´eformada pelos atributos id e P , e a classe a tes —classificadores e o reescrevedor sentencial ser apreendida ´ea palavra w. Havendo mais propriamente dito— s˜aoilustrados na Figura2, de um mapeamento para a palavra em quest˜ao, e ser˜aodetalhados separadamente nas pr´oximas m´ultiplasinstˆanciasde aprendizado s˜aocriadas. se¸c˜oes. Finalmente, todas as instˆanciasrelativas a con- ceitos com menos de cinco ocorrˆenciasforam des- 3.3.1. Classificadores de escolha lexical cartadas. Este procedimento resultou em um conjunto O componente principal do modelo de reescrita de dados contendo 35k instˆanciasde aprendi- ´eformado por um conjunto de 10 classificadores zado de 734 lexicaliza¸c˜oesposs´ıveis para todos (um para cada contexto do c´orpus b5-text) que re- os CRA, CRS e CRV com frequˆenciam´ınimano cebe como entrada um conceito semˆantico repre- c´orpuse que apresentavam alguma varia¸c˜aolexi- sentado por id e escores de uma personalidade- cal3. A distribui¸c˜aogeral de classes por tipo de alvo P , e retorna a lexicaliza¸c˜ao w de id que seria conceito ´eilustrada na Tabela2. tipicamente empregada por locutores de persona- lidade P para descrever o conceito id. Por exem- Tipo de Instˆanciasde Lexicaliza¸c˜oes plo, dado id = $child e um perfil P de maior agra- Conceito aprendizado poss´ıveis dabilidade, a classifica¸c˜aopode sugerir a forma lexical w = ‘crian¸ca’. Com menor agradabili- CRS 10428 191 dade, por outro lado, o classificador pode sugerir, CRA 5741 191 e.g., w = ‘pirralho’. CRV 18905 352 O uso de classificadores individuais para cada contexto do c´orpus´emotivado pela observa¸c˜ao Tabela 2: N´umerode instˆanciase lexicaliza¸c˜oes de que cada imagem ´eefetivamente um dom´ınio por tipo de conceito. distinto, e conceitos superficialmente semelhan- tes (como ‘mulher’) possuem significados e lexica- liza¸c˜oesdistintas em cada um (i.e., cada imagem 3O n´umerode poss´ıveis escolhas lexicais para cada con- representa uma mulher diferente, que em alguns ceito variou entre 2 e 12 alternativas. Reescrita sentencial baseada em tra¸cos de personalidad Linguamatica´ – 55

Figura 2: Fases da reescrita sentencial.

Em um experimento-piloto foi avaliado o uso palavra original e, caso a predi¸c˜aoresulte em uma de m´aquinasde vetor de suporte (SVM), indu¸c˜ao forma v´alidapara o conceito fornecido4, a subs- de ´arvore de decis˜aoe classifica¸c˜aoNaive Bayes titui¸c˜aolexical ´erealizada. Nota-se tamb´emque, na tarefa de lexicaliza¸c˜ao. Como resultado, caso a palavra de entrada j´aesteja na forma ade- optou-se por construir todos os classificadores quada para o tipo de personalidade em quest˜ao,a utilizando-se SVMs com n´ucleode base radial. lexicaliza¸c˜aosugerida pelo classificador pode ser Os parˆametros´otimosde cada modelo foram ob- idˆentica `apalavra de entrada, e neste caso ne- tidos por grid search, e os classificadores resul- nhuma substitui¸c˜ao´erealizada. tantes foram ent˜aoincorporados ao modelo de reescrita sentencial propriamente dito. 3.3.3. Exemplo de funcionamento

3.3.2. Reescrevedor sentencial Esta se¸c˜aodescreve um exemplo simplificado de funcionamento do modelo proposto. Para este Os classificadores descritos na se¸c˜aoanterior s˜ao fim, considere-se a tarefa de reescrever a frase de combinados em um modelo reescrevedor que re- entrada a seguir com base em um conjunto de cebe como entrada uma senten¸caem l´ıngua natu- tra¸cosde personalidade-alvo P . ral e efetua substitui¸c˜oeslexicais de acordo com um determinado perfil de personalidade forne- Homem maduro demonstrando preocupa¸c˜ao. cido. Assim, ´eposs´ıvel converter uma dada sen- ten¸caem vers˜oesalternativas que refletem um Inicialmente, ´eobtido o conceito (CRS, CRV maior ou menor grau de extrovers˜ao,agradabi- ou CRA) referente a cada substantivo, verbo ou lidade, conscienciosidade, neuroticismo ou aber- adjetivo da frase fornecida. Neste exemplo se- tura `aexperiˆencia,tal qual definido no modelo riam obtidos os conceitos $man (com poss´ıveis dos Cinco Grandes Fatores (Goldberg, 1990). lexicaliza¸c˜oescomo ‘homem’, ‘senhor’ etc.) $old O processo de reescrita segue um pipeline de (’maduro’, ’idoso’, ’velho’ etc.), $show (’demons- trˆesfases onde a senten¸cafornecida ´eanalisada trar’, ’mostrar’, ’revelar’ etc.) e $negemotion e modificada conforme o diagrama da Figura2 (’preocupa¸c˜ao’,’sofrimento’, ’desespero’ etc.) anterior. Primeiramente, a senten¸cade entrada Cada conceito, associado a um conjunto de passa por um processo de tokeniza¸c˜ao e lema- tra¸cos P fornecido, forma uma instˆanciade teste tiza¸c˜aodos termos constituintes, gerando assim a ser submetida ao respectivo classificador de es- uma lista de palavras na sua forma canˆonica.A colha lexical (de CRS, CRA ou CRV, conforme o seguir, os mapeamentos de palavras para concei- caso) de modo a obter a lexicaliza¸c˜aomais ade- tos discutidos na Se¸c˜ao 3.2 s˜aoutilizados para quada (i.e., de acordo com a personalidade-alvo obter os conceitos que as palavras de entrada re- presentam. Finalmente, os classificadores de es- 4Ou seja, dado que os classificadores n˜aopossuem de- colha lexical s˜aoinvocados para predizer a forma sempenho perfeito, ´eposs´ıvel que fa¸campredi¸c˜oesincon- modificada (baseada em personalidade) de cada sistentes a serem desconsideradas. 56– Linguamatica´ Georges Basile Stavracas Neto & Ivandr´eParaboni fornecida). Supondo-se, respectivamente, esco- m´aquina. Para este fim, foi realizada a com- res de Extrovers˜ao,Agradabilidade, Conscienci- para¸c˜aoentre os resultados dos modelos base- osidade, Neuroticismo e Abertura `aexperiˆencia ados em personalidade com uma alternativa de como P = 3.0, 3.0, 2.4, 2.0, 3,5 , um exemplo baseline na qual os cinco atributos de aprendi- de instˆanciade{ aprendizado a ser} submetidas ao zado representando os escores de personalidade classificador de lexicaliza¸c˜aode CRA seria como do autor-alvo s˜aoomitidos. Assim, a escolha segue: lexical neste caso passa a ser feita apenas com base no conceito fornecido como entrada. Todos [ $old, 3.0, 3.0, 2.4, 2.0, 3.5 ] os classificadores com e sem acesso `ainforma¸c˜ao A seguir, os classificadores de CRS, CRA e de personalidade foram avaliados utilizando-se CRV s˜aoinvocados, retornando a lexicaliza¸c˜ao o conjunto de dados completo do c´orpus b5- de cada conceito fornecido. No exemplo, seriam text com valida¸c˜aocruzada de 10 parti¸c˜oes, e obtidas as lexicaliza¸c˜oes‘homem’, ‘velho’, ‘mos- computando-se sua medida F1 m´edia. trar’ e ‘desespero’, respectivamente. Finalmente, No caso da reescrita sentencial, por outro os termos originais da frase de entrada s˜aosubs- lado, objetiva-se verificar se o uso de informa¸c˜ao titu´ıdospelas formas lexicais sugeridas pelos clas- de personalidade permite gerar senten¸casmais sificadores com a devida flex˜ao,resultando na se- pr´oximasdas produzidas por humanos (tal qual guinte senten¸careescrita: observadas no c´orpus)do que uma alternativa que n˜aotenha acesso a este tipo de informa¸c˜ao Homem velho mostrando desespero. (ou seja, constru´ıda utilizando-se os classificado- Variando-se os escores de personalidade em res de baseline acima.) Para este fim, todos os P , lexicaliza¸c˜oesalternativas podem ser sugeri- modelos com e sem acesso `ainforma¸c˜aode per- das pelos classificadores, resultando em senten¸cas sonalidade foram treinados com o conjunto com- distintas por´emde significado aproximado. Por pleto de textos do c´orpus b5-text, e aplicados `a exemplo, um maior grau de Extrovers˜ao mo- gera¸c˜aode senten¸casdo c´orpus b5-caption, que dificaria a lexicaliza¸c˜aodo verbo $show, e um cont´emlegendas das mesmas imagens e escritas maior grau de Neuroticismo modificaria simulta- pelos mesmos autores dos textos de treinamento. neamente as lexicaliza¸c˜oesdo adjetivo $old e do A avalia¸c˜aoneste caso foi realizada seguindo- substantivo $negemotion. Assim, dado um perfil se pr´aticacomum na avalia¸c˜aode sistemas de de personalidade P = 4.0, 3.0., 2.4, 4.1, 3, 5 , a GLN, em especial no que diz respeito `atarefa seguinte senten¸caseria obtida.{ } de realiza¸c˜aosuperficial (Reiter & Belz, 2009), comparando-se cada senten¸caoriginal do c´orpus Homem idoso revelando sofrimento. e sua vers˜aomodificada e medindo-se a distˆancia de edi¸c˜ao(Damerau, 1964) entre ambas. E´ im- Cabe destacar, entretanto, que a intera¸c˜aoen- portante observar tamb´emque os reflexos de dife- tre os cinco tra¸cos de personalidade ´ede modo ge- rentes personalidades na produ¸c˜aotextual tende ral complexa, e que o efeito de um tra¸copode ser a ser sutis (Walker et al., 2011b), o que dificulta atenuado ou amplificado por outro. Por exem- o uso de m´etodos de avalia¸c˜aomais sofisticados plo, um escore mais baixo de Conscienciosidade (e possivelmente de maior custo) como o uso de neste exemplo faria com que a lexicaliza¸c˜aodo julgamento humano. adjetivo $old fosse definida como ‘idoso’ indepen- dentemente do grau de Neuroticismo. 4.1. Resultados dos modelos de classi- 4. Avalia¸c˜aoe resultados fica¸c˜aode escolha lexical

A avalia¸c˜aodos modelos propostos foi realizada A Tabela3 apresenta os resultados m´ediosde de duas formas: considerando-se o desempenho lexicaliza¸c˜aodos CRS, CRA e CRV do c´orpus individual dos classificadores de escolha lexical, e b5-text. considerando-se o uso destes classificadores como Para os trˆestipos de conceitos, observa-se que parte de um modelo completo de reescrita senten- o uso de informa¸c˜aode personalidade (`adireita cial. As duas formas de avalia¸c˜aos˜aodetalhadas na tabela) apresenta resultados superiores ao mo- nas se¸c˜oesa seguir. delo de baseline que n˜aotem acesso a esse tipo Dado que os classificadores, se tomados isola- de informa¸c˜ao, e que os resultados da lexica- damente, n˜aopossuem fun¸c˜aopr´atica,sua ava- liza¸c˜aona forma de adjetivos s˜aoconsideravel- lia¸c˜aoobjetiva unicamente ilustrar seu desempe- mente superiores aos demais. Este comporta- nho na tarefa de lexicaliza¸c˜aode conceitos in- mento era em grande parte esperado, j´aque o mo- dividuais sob a perspectiva de aprendizado de delo CGF ´emais fortemente relacionado ao uso Reescrita sentencial baseada em tra¸cos de personalidad Linguamatica´ – 57

sem personalidade com personalidade sem com Tipo P R F1 PRF1 Substantivos personalidade personalidade CRS 0,45 0,64 0,52 0,73 0,75 0,70 foto 0,45 0,53 CRA 0,78 0,79 0,76 0,85 0,82 0,82 imagem 0,56 0,62 CRV 0,76 0,77 0,74 0,78 0,78 0,76 cena 0,00 0,33 crian¸ca 0,64 0,64 Tabela 3: M´ediasponderadas de precis˜ao(P), jovem 0,00 0,00 revoca¸c˜ao(R) e medida F1 do modelo de lexica- casaco 0,69 0,67 liza¸c˜aocompleto. O maior valor de medida F1 de jaqueta 0,00 0,33 cada tipo ´edestacado. 0,69 0,68 mulher 0,64 0,62 cal¸ca 0,86 0,82 de adjetivos (Goldberg, 1990), e estes seriam as- jeans 0,00 0,35 sim os elementos que melhor refletem a distin¸c˜ao entre tipos de personalidade. Tabela 5: Medida F1 m´ediaobtida para os cinco CRS mais frequentes, por forma lexical. Dado que estes resultados incluem diversos conceitos com pequeno n´umerode ocorrˆencias,´e poss´ıvel obter uma vis˜aomais clara do desempe- sem com nho efetivo dos classificadores analisando-se ape- Adjetivos personalidade personalidade nas o resultado m´ediodos 10 conceitos mais fre- quentes de cada tipo. Os resultados desta an´alise alto 0,83 0,85 forte 0,65 0,71 s˜aoapresentados na Tabela4. bravo 0,69 0,82 simples 0,89 0,89 sem personalidade com personalidade singelo 0,00 0,44 Tipo P R F1 PRF1 rural 0,71 0,63 CRS 0,53 0,58 0,52 0,6 0,58 0,56 r´ustico 0,00 0,30 CRA 0,48 0,52 0,48 0,74 0,67 0,68 velho 0,63 0,71 CRV 0,55 0,52 0,51 0,72 0,56 0,58 idoso 0,74 0,75 Tabela 4: M´ediasponderadas de precis˜ao(P), preocupado 0,76 0,92 apreensivo 0,00 0,80 revoca¸c˜ao(R) e medida F1 do modelo de lexica- liza¸c˜aopara os dez conceitos mais frequentes de Tabela 6: Medida F m´ediaobtida para os cinco cada tipo. O maior valor de medida F de cada 1 1 CRA mais frequentes, por forma lexical. tipo ´edestacado.

sem com Novamente, observa-se que os classificadores Verbox personalidade personalidade com acesso `ainforma¸c˜aode personalidade apre- sentam resultados mais pr´oximosdo desempenho mostrar 0,73 0,74 humano do que os classificadores de baseline. dar 0,50 0,60 Por fim, como forma de comparar o desem- revelar 0,00 0,67 penho dos classificadores com e sem acesso `ain- dividir 0,33 0,75 forma¸c˜aode personalidade por meio de exemplos, destacar 0,80 0,81 as Tabelas5,6e7 apresentam resultados das separar 0,48 0,56 alternativas de lexicaliza¸c˜aodos conceitos mais carregar 0,58 0,56 frequentes de cada tipo (CRA, CRS e CRV). passar 0,61 0,60 No caso dos CRS mais frequentes listados tirar 0,93 0,92 na Tabela5, observa-se que o uso de persona- separar 0,48 0,56 lidade foi superior em seis das onze lexicaliza¸c˜oes afastar 0,00 0,20 mais frequentes, havendo tamb´em um empate (no grupo crian¸ca/jovem) e quatro casos em que espalhar 0,56 0,58 ´eligeiramente inferior, embora todos concentra- dar 0,50 0,60 dos nas classes menos frequentes. Estes resul- tado era de certa forma esperado dado que subs- Tabela 7: Medida F1 m´ediaobtida para os cinco tantivos tendem a apresentar menor varia¸c˜aode CRV mais frequentes, por forma lexical. sinˆonimosdo que adjetivos e verbos. 58– Linguamatica´ Georges Basile Stavracas Neto & Ivandr´eParaboni

No caso dos CRA a vantagem dos modelos ba- teste ANOVA de fator ´unico(F (1, 1624) = 13.23, seados em personalidade ´emais expressiva, sendo MSE = 11.39, p < 0.001). Esse resultado ofere- superiores em 9 dos 11 casos de lexicaliza¸c˜ao ce suporte `ahip´otesede pesquisa deste estudo, ou considerados. Finalmente, no caso dos CRV, o seja, de que o uso de informa¸c˜aode personalidade uso de informa¸c˜aode personalidade ´esuperior permite a gera¸c˜aode senten¸casmais pr´oximas em 10 de 13 casos. daquelas que seriam geradas por um locutor hu- mano com estas caracter´ısticas. 4.2. Resultados de reescrita sentencial 5. Conclus˜ao Embora os resultados da avalia¸c˜aodo classifica- dor apontem uma certa vantagem no uso de in- Este trabalho apresentou um modelo de reescrita forma¸c˜aode personalidade na tarefa de lexica- sentencial que leva em conta, al´emda senten¸caa liza¸c˜ao,resta a quest˜aode qu˜aoefetiva seria a ser reescrita, informa¸c˜oessobre a personalidade tarefa de reescrita sentencial baseada nestes clas- de um locutor-alvo de interesse. O modelo pro- sificadores. A avalia¸c˜aoglobal do modelo de re- posto efetua substitui¸c˜oeslexicais com base no escrita ´edescrita a seguir. modelo de personalidade CGF e ´e,at´eonde te- A Tabela8 apresenta a distˆanciade edi¸c˜ao mos conhecimento, o primeiro deste tipo para m´edia obtida pelas duas variantes do modelo o portuguˆes(pelo menos em sua variante brasi- proposto —com e sem acesso `ainforma¸c˜aode leira). Resultados sugerem que levar em conta a personalidade— para cada contexto do c´orpus. personalidade do autor-alvo de interesse produz senten¸casmais pr´oximasdas que seriam produ- sem com zidas por um locutor humano com as mesmas ca- personalidade personalidade racter´ısticasdo que um modelo de gera¸c˜aosem acesso a este tipo de informa¸c˜ao,e sugerem assim Contexto M´edia DP M´edia DP a possibilidade de gera¸c˜aode texto mais natural 1 3,28 3,01 2,81 3,29 e/ou psicologicamente plaus´ıvel. 2 3,52 1,93 2,23 2,41 Uma das poss´ıveis limita¸c˜oesdo presente tra- 3 3,02 3,69 2,91 3,73 balho ´eo fato de ser baseado em um conjunto de 4 0,45 3,28 0,56 3,51 textos rotulados manualmente com informa¸c˜oes 5 1,11 3,39 1,26 3,25 de conceitos semˆanticos de interesse para fins 6 1,07 2,65 1,30 3,06 de aprendizado de m´aquinasupervisionado. As- 7 2,89 2,70 2,28 3,14 sim, o uso dos m´etodos aqui discutidos em ou- 8 0,32 1,47 0,36 1,72 tro dom´ınioem princ´ıpioexigiria um novo tra- 9 3,34 4,22 2,70 3,74 balho de anota¸c˜aode c´orpus,possivelmente com 10 2,27 3,61 1,57 2,92 avalia¸c˜aodo grau de concordˆanciaentre ju´ızes M´edia 3,37 3,36 2,53 3,36 (no presente caso omitido dada a simplicidade do dom´ınioe do pequeno tamanho do c´orpus consi- Tabela 8: M´edias e desvios padr˜ao das derado). Alternativas mais generaliz´aveis, como distˆanciasde edi¸c˜aopor contexto. O melhor re- as baseadas em m´etodos semi ou n˜aosupervisio- sultado para cada contexto ´edestacado. nados de aprendizado, s˜aodeixadas como traba- lho futuro. Com base nesses resultados, observa-se que Finalmente, observa-se que o foco do presente a distˆanciade edi¸c˜aom´ediados modelos com trabalho foi a quest˜aoda escolha lexical feita por acesso `apersonalidade ´e inferior `ados mode- indiv´ıduos com diferentes personalidades, e foi los sem acesso a esta informa¸c˜ao. Al´emdisso, motivado pela pr´oprianatureza lexical do modelo os modelos baseados em personalidade possuem, CGF. No entanto, para al´emdeste modelo es- em m´edia,menor distˆanciade edi¸c˜aoem 6 dos pec´ıfico,´eposs´ıvel considerar diversas outras for- 10 contextos visuais do c´orpus,e observa-se ainda mas de varia¸c˜aohumana na produ¸c˜aode l´ıngua que os 4 contextos em que o uso de informa¸c˜ao natural. Estas varia¸c˜oesincluem o uso de certas de personalidade foi prejudicial s˜aojustamente constru¸c˜oessint´aticaspreferenciais, tempos ver- aqueles em que ocorreu menor volume de subs- bais e at´emesmo a determina¸c˜aodo conte´udo titui¸c˜ao lexical (indicado pelo menor grau de semˆantico a ser representado em forma textual. distˆanciade edi¸c˜ao). Estas varia¸c˜oes,que seriam uma extens˜aonatu- ral do presente trabalho, tamb´ems˜aodeixadas A diferen¸caentre a distˆanciade edi¸c˜aom´edia como trabalho futuro. dos modelos de reescrita sentencial com e sem personalidade ´esignificativa de acordo com um Reescrita sentencial baseada em tra¸cos de personalidad Linguamatica´ – 59

Agradecimentos di Eugenio, Barbara, Andrew Boyd, Camillo Lu- garesi, Abhinaya Balasubramanian, Gail Ke- Este trabalho contou com apoio FAPESP nro. enan, Mike Burton, Tamara Goncalves Re- 2016/14223 0. zende Macieira, Jianrong Li & Yves Lus- sier. 2014. PatientNarr: Towards gene- rating patient-centric summaries of hospital Referˆencias stays. Em 8th International Natural Lan- guage Generation Conference (INLG), 6–10. Alvarez-Carmona,´ Miguel A., A. Pastor L´opez- 10.3115/v1/W14-4402. Monroy, Manuel Montes y G´omez,Luis Vil- Ferreira, Thiago Castro & Ivandr´e Paraboni. lase˜nor-Pineda& Hugo Jair Escalante. 2015. 2014. Classification-based referring expression INAOE’s participation at PAN’15: Author generation. Em Computational Linguistics and profiling task. Em Working Notes of the Intelligent Text Processing (CICLing), 481– Conference and Labs of the Evaluation Forum 491. 10.1007/978-3-642-54906-9_39. (CLEF), s.p. Goldberg, Lewis R. 1990. An alterna- Aly, Almir & Adriana Tapus. 2016. Towards tive “description of personality”: The Big- an intelligent system for generating an Five factor structure. Journal of Perso- adapted verbal and nonverbal combi- nality and Social Psychology 59. 1216–1229. ned behavior in human–robot interac- 10.1037/0022-3514.59.6.1216. tion. Autonomous Robots 40(2). 193–209. Gonz´alez-Gallardo, Carlos E., Azucena Mon- 10.1007/s10514-015-9444-1. tes, Gerardo Sierra, J. Antonio N´u˜nez-Juar´ez, Bick, Eckhard. 2000. The parsing system PA- Adolfo Jonathan Salinas-L´opez & Juan Ek. LAVRAS: Automatic grammatical analysis of 2015. Tweets classification using corpus de- portuguese in a constraint grammar famework: pendent tags, character and POS n-grams. Em Aarhus University. Tese de Doutoramento. Working notes of the Conference and Labs of the Evaluation Forum (CLEF), s.p. Bowden, Kevin K., Grace Lin, Lena Reed, Jean E. Fox Tree & Marilyn A. Walker. 2016. M2D: Herzig, Jonathan, Michal Shmueli-Scheuer, Monolog to dialog generation for conversatio- Tommy Sandbank & David Konopnicki. nal story telling. Em 9th International Con- 2017. Neural response generation for customer service based on personality ference on Interactive Digital Storytelling, 12– th 24. 10.1007/978-3-319-48279-8_2. traits. Em 10 International Conference on Natural Language Generation, 252–256. Briggs Myers, Isabel & Peter B. Myers. 2010. 10.18653/v1/W17-3541. Gifts differing: Understanding personality Hsieh, Fernando Chiu, Rafael Felipe Sandroni type. Davies-Black 2nd edn. Dias & Ivandr´eParaboni. 2018. Author profi- th Cuevas, Ramon Re Moya & Ivandr´eParaboni. ling from Facebook corpora. Em 11 Interna- 2008. A machine learning approach to Por- tional Conference on Language Resources and tuguese pronoun resolution. Em Advances in Evaluation (LREC), 2566–2570. Artificial Intelligence (IBERAMIA), 262–271. Hunter, James, Yvonne Freer, Albert Gatt, 10.1007/978-3-540-88309-8_27. Ehud Reiter, Somayajulu Sripada & Cindy Sykes. 2012. Automatic generation of natu- Damerau, Fred J. 1964. A technique for compu- ral language nursing shift summaries in ne- ter detection and correction of spelling errors. onatal intensive care: BT-Nurse. Artifi- Communications of the ACM 7(3). 171–176. cial intelligence in medicine 56(3). 157–172. 10.1145/363958.363994. 10.1016/j.artmed.2012.09.002. Dan-Glauser, Elise S. & Klaus R. Scherer. John, Oliver P., Laura P. Naumann & Ch- 2011. The Geneva affective picture database ristopher J. Soto. 2008. Paradigm shift to (GAPED): a new 730-picture database focu- the integrative Big-Five trait taxonomy: His- sing on valence and normative significance. tory, measurement, and conceptual issues. Em Behavior Research Methods 43(2). 468–477. Handbook of personality: Theory and research, 10.3758/s13428-011-0064-1. 114–158. New York: Guilford Press. van Deemter, Kees. 2016. Computational models Jordan, Pamela, Nancy Green, Chistopher Tho- of referring. a study in cognitive science. Cam- mas & Susan Holm. 2014. TBI-Doc: Gene- bridge: MIT Press. rating patient & clinician reports from brain 60– Linguamatica´ Georges Basile Stavracas Neto & Ivandr´eParaboni

imaging data. Em 8th International Natu- texts. Em 17th International Conference ral Language Generation Conference (INLG), on Computational Linguistics, 1010–1014. 143–146. 10.3115/v1/W14-4423. 10.3115/980691.980735. Karpathy, Andrej & Li Fei-Fei. 2015. Deep Paraboni, Ivandr´e, Danielle Sampaio Monteiro visual-semantic alignments for genera- & Alex Gwo Jen Lan. 2017. Personality- ting image descriptions. Em IEEE Con- dependent referring expression generation. Em ference on Computer Vision and Pat- Text, Speech and Dialogue (TSD), 20–28. tern Recognition (CVPR), 3128–3137. 10.1007/978-3-319-64206-2_3. 10.1109/CVPR.2015.7298932. Plank, Barbara & Dirk Hovy. 2015. Persona- Khosmood, Foaad & Marilyn Walker. 2010. Gra- lity traits on Twitter - or - how to get 1,500 pevine: a gossip generation system. Em 5th personality tests in a week. Em 6th Workshop International Conference on the Foundations on Computational Approaches to Subjectivity, of Digital Games, 92–99. Sentiment and Social Media Analysis, 92–98. Lan, Alex Gwo Jen & Ivandr´eParaboni. 2018. 10.18653/v1/W15-2913. Definite description lexical choice: taking spe- Portet, Fran¸cois,Ehud Reiter, Albert Gatt, Jim aker’s personality into account. Em 11th In- Hunter, Somayajulu Sripada, Yvonne Freer & ternational Conference on Language Resources Cindy Sykes. 2009. Automatic generation of and Evaluation (LREC), 2999–3004. textual summaries from neonatal intensive care Lukin, Stephanie M., James O. Ryan & Ma- data. Artificial Intelligence 173(7–8). 789–816. rilyn Walker. 2014. Automating direct speech 10.1016/j.artint.2008.12.002. variations in stories and games. Em Games Ramos, Ricelli Moreira Silva, Georges Basile Sta- and Natural Language Processing Workshop vracas Neto, Barbara Barbosa Claudino Silva, (GAMNLP), s.p. Danielle Sampaio Monteiro, Ivandr´eParaboni Mairesse, Fran¸cois & Marilyn A. Walker. & Rafael Felipe Sandroni Dias. 2018. Building 2010. Towards personality-based user a corpus for personality-dependent natural lan- th adaptation: psychologically informed sty- guage understanding and generation. Em 11 listic language generation. User Model. International Conference on Language Resour- User-Adapt. Interaction 20(3). 227–278. ces and Evaluation (LREC), 1138–1145. 10.1007/s11257-010-9076-2. Reiter, Ehud & Anja Belz. 2009. An in- Mairesse, Fran¸cois& Marilyn A. Walker. 2011. vestigation into the validity of some me- Controlling user perceptions of linguistic style: trics for automatically evaluating natu- Trainable generation of personality traits. ral language generation systems. Com- Computational Linguistics 37(3). 455–488. putational Linguistics 35(4). 529–558. 10.1162/COLI_a_00063. 10.1162/coli.2009.35.4.35405. Mairesse, Fran¸cois.2008. Learning to adapt in Reiter, Ehud & Robert Dale. 2000. Building na- dialogue systems: Data-driven models for per- tural language generation systems. New York: sonality recognition and generation: University Cambridge University Press. of Sheffield. Tese de Doutoramento. Reiter, Ehud, Roma Robertson & Liesl Osman. Maziero, Erick G., Thiago A. S. Pardo, Ariani 2003. Lessons from a failure: Genera- di Felippo & Bento C. Dias da Silva. 2008. ting tailored smoking cessation letters. A base de dados lexical e a interface web do Artificial Intelligence 144(1–2). 41–58. TeP 2.0: Thesaurus eletrˆonico para o por- 10.1016/S0004-3702(02)00370-3. tuguˆesdo Brasil. Em 14th Brazilian Sympo- Reiter, Ehud, Somayajulu Sripada, Jim Hun- sium on Multimedia and the Web, 390–392. ter & Jin Yu. 2005. Choosing words in 10.1145/1809980.1810076. computer-generated weather forecasts. McCormick, Christopher. 2012. Evaluating the Artificial Intelligence 167(1–2). 137–169. perception of personality and naturalness in 10.1016/j.artint.2005.06.006. computer generated utterances: University of dos Santos, Vitor Garcia, Ivandr´eParaboni & Dublin, Trinity College. Tese de Mestrado. B´arbaraBarbosa Claudino Silva. 2017. Big Paraboni, Ivandr´e & Vera Lucia Strube five personality recognition from multiple text de Lima. 1998. Possessive pronominal genres. Em Text, Speech and Dialogue (TSD), anaphor resolution in Portuguese written 29–37. 10.1007/978-3-319-64206-2_4. Reescrita sentencial baseada em tra¸cos de personalidad Linguamatica´ – 61

Silva, B´arbara Barbosa Claudino & Ivandr´e Paraboni. 2018a. Learning personality traits from Facebook text. IEEE La- tin America Transactions 16(4). 1256–1262. 10.1109/TLA.2018.8362165. Silva, B´arbara Barbosa Claudino & Ivandr´e Paraboni. 2018b. Personality recognition from Facebook text. Em 13th Internatio- nal Conference on the Computational Pro- cessing of Portuguese (PROPOR), 107–114. 10.1007/978-3-319-99722-3_11. Viethen, Jette & Robert Dale. 2010. Speaker- dependent variation in content selection for re- ferring expression generation. Em Australasian Language Technology Association Workshop, 81–89. Walker, Marilyn, Grace Lin, Jennifer Sawyer, Ricky Grant, Michael Buell & Noah Wardrip- Fruin. 2011a. Murder in the arboretum: Com- paring character models to personality models. Em Intelligent Narrative Technologies, Santa Cruz: AAAI. Walker, Marilyn A., Ricky Grant, Jenni- fer Sawyer, Grace I. Lin, Noah Wardrip- Fruin & Michael Buell. 2011b. Percei- ved or not perceived: Film character mo- dels for expressive NLG. Em Internatio- nal Conference on Interactive Digital Story- telling: Interactive Storytelling (ICIDS), 109– 121. 10.1007/978-3-642-25289-1_12. Xu, Kelvin, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron C. Courville, Ruslan Salakhutdi- nov, Richard S. Zemel & Yoshua Bengio. 2015. Show, attend and tell: Neural image caption generation with visual attention. Em 32nd In- ternational Conference on Machine Learning, ICML, 2048–2057. Zhang, Xingxing & Mirella Lapata. 2014. Chinese poetry generation with recur- rent neural networks. Em Conference on Empirical Methods in Natural Lan- guage Processing (EMNLP), 670–680. 10.3115/v1/D14-1074.

Proposta recebida em Dezembro 2019 e aceite para publica¸c˜aoem Mar¸co2020.

Subjetividade em corre¸c˜aode reda¸c˜oes:detec¸c˜aoautom´atica atrav´esde l´exico de operadores de vi´es lingu´ıstico Subjectivity in essay grading: automatic detection through language bias operator lexicon

M´arciaCan¸cado Luana Amaral FALE/Univ.Federal de Minas Gerais FALE/Univ. Federal de Minas Gerais [email protected] [email protected] Evelin Amorim Adriano Veloso DCC/Univ. Federal de Minas Gerais DCC/Univ. Federal de Minas Gerais [email protected] [email protected] Heliana Mello FALE/Univ. Federal de Minas Gerais [email protected]

Resumo que o grau de subjetividade das corre¸c˜oes´ealto, es- tando mais pr´oximodo grau de subjetividade de um As reda¸c˜oess˜aoinstrumentos avaliativos muito im- texto como as resenhas. Conclu´ımos,portanto, que portantes para os estudantes brasileiros. Mesmo que essas corre¸c˜oesrefletem pontos de vista do corretor, seja assumido que a subjetividade esteja presente em que se afastam dos crit´eriosde corre¸c˜ao,o que coloca todo e qualquer texto, espera-se que as corre¸c˜oes des- d´uvidassobre a considera¸c˜aodesse gˆenerocomo um sas reda¸c˜oessejam feitas com o m´ınimode subjeti- instrumento avaliador isento e justo. vidade poss´ıvel. Entretanto, a partir da an´alisede uma amostra de corre¸c˜oesde reda¸c˜ao,percebemos um Palavras chave alto grau de subjetividade nesses textos. Baseados corre¸c˜aode reda¸c˜ao,subjetividade, l´exicode operador nessa pr´e-an´alise, feita de forma manual, levantamos de vi´es,detec¸c˜aoautom´atica a hip´otesede que o gˆenero“corre¸c˜aode reda¸c˜ao”´e mais subjetivo do que se esperaria. Para corrobo- rar essa hip´otese,elaboramos uma lista de operadores Abstract lingu´ısticos,marcadores de vi´es,dividida em quatro categorias: operadores argumentativos, operadores de Essays are very important assessment tools for pressuposi¸c˜ao,operadores de modalidade e operado- Brazilian students. Therefore, it is expected that res de opini˜aoe valora¸c˜ao. Essa lista foi aplicada, the grading of these texts will be made with as lit- atrav´esde uma metodologia de detec¸c˜aoautom´atica tle subjectivity as possible. However, in an analy- de linguagem enviesada, a um corpus de corre¸c˜oesde sis of a sample of grading sheet comments by evalu- reda¸c˜ao.A partir disso, quantificamos os operadores ators, we have noticed a high degree of subjectivity de vi´espresentes nesses textos. Foram tamb´emanali- in these texts. From this first analysis, carried ma- sados esses operadores de vi´esem dois outros corpora: nually, we proposed the hypothesis that this genre de resumos acadˆemicose de resenhas de produtos pu- is more subjective than one would expect. In order blicadas em sites de vendas na internet. A ideia dessa to corroborate this hypothesis, we have drawn up a an´alisefoi compararmos a distribui¸c˜aodessas marcas list of linguistic bias markers, divided into four cate- de vi´esnas corre¸c˜oesde reda¸c˜aoe em gˆenerosreco- gories: argumentative operators, presupposition ope- nhecidamente menos subjetivos (resumos acadˆemicos) rators, modalization operators, and opinion and va- e reconhecidamente mais subjetivos (resenhas). Para lue operators. This list was applied to a corpus of tal compara¸c˜ao,lan¸camosm˜aode uma ferramenta es- essay grading sheet comments by evaluators, using tat´ısticamuito utilizada na an´alisede compara¸c˜aode an automatic language bias detection methodology. dados, os boxplots. Os nossos resultados mostraram From this, we were able to quantify the linguistic bias que a distribui¸c˜aode operadores de vi´eslingu´ıstico markers present in these texts. These bias markers nas corre¸c˜oesde reda¸c˜aose aproxima mais da distri- were also analyzed in two other corpora: abstracts bui¸c˜aodesses itens em resenhas do que em resumos and product reviews published on internet sales sites. acadˆemicos. Isso corrobora nossa hip´otesee indica We have compared the percentage of these markers in

DOI: 10.21814/lm.12.1.313 Linguamatica´ — ISSN: 1647–0818 This work is Licensed under a Creative Commons Attribution 4.0 License Vol. 12 N´um. 1 2020 - P´ag. 63–79 64– Linguamatica´ M´arcia Can¸cado, Luana Amaral, Evelin Amorim, Adriano Veloso & Heliana Mello evaluators’ comments with the percentage numbers Neste artigo, propomos que o grau de vi´es of these markers in genres admittedly less subjective lingu´ısticoapresentado pelo corretor de reda¸c˜oes (abstracts) and admittedly more subjective (reviews). pode ser detectado por pistas lingu´ısticas nos For such comparison, we have used boxplots, a statisti- textos dessas corre¸c˜oes.Analisamos, preliminar- cal tool widely used in data comparison analysis. Our mente, uma amostra de 50 exemplares do gˆenero. results indicated that the grading sheets, as for the Identificamos, manualmente, a partir do nosso number of bias markers, are closer to more subjective conhecimento te´orico e da nossa intui¸c˜aode fa- texts than to less subjective texts. This corroborates lantes do portuguˆes,marcas lingu´ısticasde sub- our hypothesis and indicates that these grading she- jetividade nesses textos. Os resultados dessa pri- ets present a high degree of subjectivity, closer to the meira an´aliseindicaram o oposto do esperado: degree of a more subjective text. Thus, we conclude encontramos corre¸c˜oescom um n´umeroalto de that these grading sheets reflect the personal views of operadores lingu´ısticosmarcadores de vi´es.Al´em the evaluator, deviating from the correction criteria, disso, ao fazermos n´osmesmos a corre¸c˜aodas which raises doubts about considering this genre an reda¸c˜oes,percebemos que as notas que se distan- exempt and fair assessment instrument. ciavam muito das notas atribu´ıdaspor n´os,seja para cima ou para baixo, eram acompanhadas de Keywords justificativas muito subjetivas, segundo crit´erios essay grading, subjectivity, bias operator lexicon, au- preliminares que estabelecemos. Dessa forma, tomatic detection chegamos `ahip´otesede que o gˆenerocorre¸c˜aode reda¸c˜aon˜ao´et˜aoisento de subjetividade quanto 1. Introdu¸c˜ao se esperaria e esses textos, sendo permeados de Seguindo a linha te´orica da Semˆantica Argu- marcas de vi´eslingu´ıstico,indicam tamb´emum mentativa, Anscombre & Ducrot(1976) e Du- vi´esdo corretor na corre¸c˜aode reda¸c˜oes. crot(1987) (e trabalhos subsequentes) afirmam Na mesma linha da nossa hip´otese, Men- que h´apistas na l´ıngua que indicam uma ori- des(2013), em seu artigo sobre a subjetivi- enta¸c˜ao,ou um vi´es,do locutor. Essas pistas dade na avalia¸c˜aode reda¸c˜oes,demonstra a in- podem ser detectadas por operadores argumen- viabilidade de se manter tal tipo de prova em tativos, tipos espec´ıficosde verbos, modalizado- processos seletivos, dada a impossibilidade de res e outras express˜oeslingu´ısticas. A distri- se fazer justi¸ca aos candidatos. A pesquisa- bui¸c˜aonum´ericadessas marcas no texto pode in- dora aponta que nos pr´oprioscrit´erios usados dicar graus de subjetividade, o que chamamos na corre¸c˜aodo ENEM “encontram-se evidˆencias aqui de “vi´eslingu´ıstico”. Mesmo que seja as- do problema da subjetividade na descri¸c˜aodos sumido que a subjetividade esteja presente em n´ıveis das competˆencias. Como se poder´averi- todo e qualquer texto, ainda assim, ´eposs´ıvel fa- ficar, esses descritores s˜aoeivados de modaliza- zer distin¸c˜oesde grau e, ainda mais, ´eposs´ıvel dores, apresentam vagueza conceitual e termos detectar a orienta¸c˜aode textos muito marcados obscuros” (Mendes(2013), p. 439). A autora nesse sentido. apresenta, ainda, uma pesquisa emp´ırica sobre Tendo em vista essa afirma¸c˜ao,espera-se que o sistema de avalia¸c˜oesde reda¸c˜oesno ENEM, um texto como a corre¸c˜aode uma reda¸c˜aon˜ao em que ela e mais um grupo de docentes e alu- apresente um alto ´ındice de vi´eslingu´ıstico.Essa nos de p´os-gradua¸c˜aocorrigiram 700 reda¸c˜oesfei- expectativa deve-se ao fato de que, primeira- tas por alunos de um curso pr´e-vestibular. Essa mente, a reda¸c˜ao´eusada como um instrumento corre¸c˜aofoi feita seguindo os mesmos crit´eriose avaliativo durante toda a trajet´oriade forma¸c˜ao sistem´aticade corre¸c˜aodo ENEM. A partir dessa escolar de um estudante do ensino b´asico; e, pesquisa emp´ırica,o artigo apresenta interessan- um segundo fato, de grande relevˆancia,´eque tes resultados, como a discrepˆanciaentre as notas reda¸c˜oess˜aoamplamente utilizadas como instru- atribu´ıdaspelos avaliadores, a discrepˆancia entre mento de classifica¸c˜aoem concursos importan- as notas dependendo do hor´arioda corre¸c˜aoe tes, real¸cando,no Brasil, a utiliza¸c˜aodesse pro- at´emesmo diferen¸casem notas atribu´ıdasa uma cedimento no ENEM (Exame Nacional do Ensino mesma reda¸c˜aopor um mesmo corretor, em mo- M´edio). Neste ´ultimocaso, a nota da reda¸c˜ao´e mentos diferentes. A autora aponta que, al´em a respons´avel por uma grande parte da classi- da subjetividade intr´ınseca ao pr´oprioavaliador, fica¸c˜aode um candidato, fechando ou abrindo outros fatores tamb´emsubjetivos interferem na as portas de entrada em nossas universidades confiabilidade da avalia¸c˜ao,como o perfil do ava- p´ublicas.Por isso, espera-se que esse instrumento liador, a sua tolerˆanciaao cansa¸co,a intera¸c˜ao de avalia¸c˜aoseja o mais isento poss´ıvel de qual- entre avaliadores e erros na avalia¸c˜ao. quer tipo de vi´esdo corretor, n˜aoapresentando, assim, desigualdades nos resultados. Subjetividade em corre¸c˜aode reda¸c˜oes: detec¸c˜aoautom´atica Linguamatica´ – 65

Para provarmos essa hip´otesede forma mais a princ´ıpio, se aproximar mais dos textos de rigorosa, neste trabalho, nos valemos de uma me- gˆeneros acadˆemicos. Esse resultado confirma todologia de an´aliseusada na Lingu´ısticaCom- nossa hip´otesee os resultados de Mendes(2013) e putacional, chamada de “detec¸c˜ao autom´atica coloca em d´uvida a forma de corre¸c˜aode reda¸c˜oes de linguagem enviesada” (Recasens et al., 2013). utilizada atualmente, como um instrumento ava- A proposta dessa metodologia ´eque, a partir de liador isento e justo. um trabalho manual de an´aliselingu´ısticafeita O artigo est´aorganizado da seguinte forma: por falantes nativos para o entendimento da re- a pr´oximase¸c˜aoapresenta os procedimentos me- aliza¸c˜aodos vieses lingu´ısticos, pode-se propor todol´ogicosda pesquisa; a Se¸c˜ao3 traz a cons- um detector autom´aticode vi´escomposto de uma tru¸c˜aoda lista de operadores de vi´es;a Se¸c˜ao4 lista de palavras indutoras de vieses lingu´ısticos. apresenta os resultados e an´alisese a Se¸c˜ao5 in- Assim, elaboramos uma lista de operadores, mar- clui uma breve aprecia¸c˜aoda poss´ıvel extens˜ao cadores de vi´eslingu´ıstico, dividida em quatro desses resultados para as corre¸c˜oesde reda¸c˜aodo categorias: operadores argumentativos, operado- ENEM. A Se¸c˜ao6 apresenta as considera¸c˜oesfi- res de pressuposi¸c˜ao,operadores de modaliza¸c˜ao nais do trabalho. e operadores de opini˜aoe valora¸c˜ao.Para a ela- bora¸c˜aodessa lista, apoiamo-nos nos pressupos- tos te´oricosda Semˆantica Argumentativa, princi- 2. Metodologia palmente por Anscombre & Ducrot(1976); Du- crot(1987); Koch(2011, 2015). Apresentamos 2.1. Metodologia lingu´ıstica tamb´em,como objetivo do artigo, a elabora¸c˜ao dessa lista de operadores de vi´eslingu´ısticopara Tomamos como objeto principal de investiga¸c˜ao o portuguˆes. os textos de corre¸c˜aode reda¸c˜aopublicados no Dando continuidade `a nossa pesquisa, ex- banco de reda¸c˜oesdo UOL. Esse banco ´eum tra´ımos,de forma autom´atica,um corpus de tex- servi¸co online que tem como objetivo estimu- tos do gˆenerocorre¸c˜aode reda¸c˜ao,dispon´ıveis lar estudantes a treinar produ¸c˜aode textos do no banco de reda¸c˜oesdo UOL, para proceder- tipo argumentativo. Professores associados ao mos, tamb´em de forma autom´atica, `a identi- banco corrigem os textos enviados, que s˜aopu- fica¸c˜aoe `acontagem dos operadores de vi´es lis- blicados mensalmente no site, juntamente com tados. Mas somente a contagem desses opera- as respectivas corre¸c˜oes. As avalia¸c˜oess˜aoba- dores de vi´esn˜aocomprovaria nossa hip´otese,j´a seadas nos crit´eriosadotados para a corre¸c˜aoda que ´econsenso na literatura em Lingu´ısticaTex- reda¸c˜aodo ENEM, que s˜aoos seguintes: dom´ınio tual que marcas de subjetividade s˜aoencontradas da norma culta do portuguˆes, compreens˜ao e em qualquer texto. Ent˜ao,assumimos uma pers- desenvolvimento do tema baseados em conheci- pectiva comparativa, partindo do pressuposto de mentos gerais, capacidade de argumenta¸c˜ao,co- que, entre os v´ariosgˆenerostextuais, ´eposs´ıvel nhecimento de mecanismos lingu´ısticosde coes˜ao detectar distin¸c˜oesdo grau de subjetividade. As- e elabora¸c˜aode uma proposta de interven¸c˜ao, sim, comparamos a distribui¸c˜aodos operadores respeitando os valores humanos e a diversidade nas corre¸c˜oesde reda¸c˜oescom a distribui¸c˜aodes- cultural. sas marcas em um corpus de resumos acadˆemicos Preocupados em manter um maior rigor na (textos com menor grau de subjetividade) e em quantifica¸c˜aodos dados, compilamos um corpus um corpus de resenhas (textos com maior grau de corre¸c˜oescomposto de 610.543 palavras. Para de subjetividade). Nosso prop´osito,ao fazer tal chegar a esse valor, seguimos as afirma¸c˜oesde compara¸c˜ao,´everificar de qual polo de subjeti- Alu´ısio& de Barcellos Almeida(2006) e Sardi- vidade as corre¸c˜oesmais se aproximam. nha(2002). Conforme Alu´ısio& de Barcellos Al- Para fazer a compara¸c˜aoentre os trˆesgˆeneros, meida(2006), para estudos de processos gramati- utilizamos uma ferramenta gr´aficamuito usada cais, ´enecess´arioum corpus de 500 mil a 1 milh˜ao em estat´ıstica na an´alisede compara¸c˜aode da- de palavras. Conforme Sardinha(2002), um cor- dos: o boxplot. O resultado que obtivemos ´eque pus m´ediopara trabalhos na Lingu´ısticade Cor- textos do gˆenerocorre¸c˜aode reda¸c˜ao,em rela¸c˜ao pus ´ecomposto de 500 mil palavras. ao grau de subjetividade, se aproximam mais Como j´a mencionamos, al´em desse corpus, do comportamento de textos do gˆeneroresenha utilizamos dois outros corpora: de resumos do que de textos do gˆeneroresumo acadˆemico. acadˆemicose de resenhas. Tivemos o cuidado Consideramos que tal resultado n˜ao´eo dese- de comparar textos do mesmo tipo textual da jado para um gˆenerotextual que deveria apre- corre¸c˜ao de reda¸c˜ao, o argumentativo stricto sentar um baixo grau de subjetividade, devendo, sensu. Conforme Marcuschi(2002), os tipos textuais podem ser classificados em categorias 66– Linguamatica´ M´arcia Can¸cado, Luana Amaral, Evelin Amorim, Adriano Veloso & Heliana Mello como a narra¸c˜ao,a exposi¸c˜ao,a descri¸c˜ao,a in- res lingu´ısticos tamb´emcontribuem para a ar- jun¸c˜ao(ou prescri¸c˜ao)e a argumenta¸c˜ao stricto gumenta¸c˜ao,tornando os textos mais ou menos sensu. Esses tipos s˜aodefinidos por estrutu- subjetivos. ras lingu´ısticas. O tipo argumentativo stricto Tendo isso como premissa, e tamb´emtendo sensu se caracteriza pela sequˆenciade rela¸c˜oes como norte parˆametrosde uniformidade entre os entre argumentos e conclus˜oes,sendo marcado trˆes corpora, no que diz respeito ao tamanho de pela presen¸cade “operadores argumentativos”. cada texto e ao n´umerototal de palavras, foram Todos os textos analisados aqui se caracterizam feitas buscas na internet para compor os grupos por apresentarem esse esquema b´asicode estru- de compara¸c˜ao.O corpus de resumos acadˆemicos tura lingu´ıstica,em que argumentos levam a uma foi constru´ıdo atrav´esde consultas e extra¸c˜oes conclus˜aoe s˜aomarcados pela presen¸cade opera- autom´aticasdo Google Scholar4. As ´areasde pes- dores argumentativos, que podem ser vistos nos quisa selecionadas foram as mais variadas, desde exemplos de corre¸c˜ao(1), de resumo (2) e de re- Ciˆenciasda Computa¸c˜aoat´eArtes e Educa¸c˜ao senha (3): F´ısica. Adotamos essa diversidade para manter- mos um equil´ıbrioentre o car´atermais ou me- (1) Na realidade, o texto n˜aoargumenta a res- nos subjetivo da linguagem adotada nas diversas peito de aspectos positivos ou negativos da ´areasdo conhecimento. O n´umerode palavras to- quest˜ao, mas apenas arrola elementos do tal desse corpus ´e460.011. E coletamos tamb´em senso comum para discorrer sobre o tema.1 textos do gˆeneroresenha, extra´ıdosdo corpus j´a compilado “Buscap´e”(Hartmann et al., 2014)5, (2) Al´emdisso, os professores e os alunos est˜ao sobre os mais variados temas, desde cˆamerasfo- submetidos a uma alta infraestrutura e alto togr´aficas,passando por balan¸cae at´eapontador. conhecimento em inform´atica.. . 2 Esses textos s˜aocoment´ariosfeitos por consumi- dores sobre produtos em sites de vendas na in- (3) E ´otimafacil de usar tem boa imagem e at´e ternet. Esse corpus possui 717.096 palavras. na grva¸c˜ao,exelente. (sic)3 Ap´osa compila¸c˜aodos corpora, elaboramos, manualmente, a lista de operadores de vi´es Esses textos argumentativos, apesar de com- lingu´ıstico para ser aplicada automaticamente partilharem caracter´ısticastipol´ogicas,se distin- aos trˆes grupos analisados. Para elaborarmos guem em gˆenero,por terem fun¸c˜oessociocomu- essa lista, nos valemos da metodologia de an´alise nicativas distintas. O gˆenero corre¸c˜aode reda¸c˜ao de “detec¸c˜aode linguagem enviesada” (Recasens tem como fun¸c˜ao apontar problemas de uma et al., 2013), previamente utilizada para o inglˆes. reda¸c˜ao,de acordo com uma lista de crit´erios. Uma primeira ideia foi que poder´ıamos usar a Sua finalidade ´e justificar a nota atribu´ıda `a tradu¸c˜aodessas palavras j´aanalisadas em inglˆes reda¸c˜ao. J´ao resumo acadˆemicose caracteriza para a nossa an´alisede textos no portuguˆes.En- pela fun¸c˜aode levar o alocut´arioa compreen- tretanto, como ´eassumido na ´areade Semˆantica der o conte´udode um texto base, sem ter tido Lexical (Levin & Rappaport Hovav, 1995), a acesso a ele. O resumo deve ser sucinto e fiel ao tradu¸c˜aode palavras de uma l´ınguapara outra conte´udodo texto original. Resumos acadˆemicos n˜ao´ealgo trivial; sempre existem nuances de sen- obedecem a r´ıgidas regras de formula¸c˜ao, que tido e muita interferˆenciade contexto sentencial. incluem restri¸c˜oessobre formata¸c˜ao,tamanho e Com isso, optamos por nos pautar somente na conte´udo(Motta-Roth & Hendges, 2010; Japi- metodologia de desenvolvimento da lista das pa- ass´u, 2013). E a resenha ´eum gˆeneroque com- lavras indutoras de vi´ese elaborar uma lista es- preende textos em que o locutor decididamente pec´ıficapara o portuguˆes. explicita sua opini˜aosobre algo. Sua fun¸c˜ao´e Recasens et al.(2013) prop˜oemanalisar exem- avaliar um determinado objeto, com base em ex- plos reais de edi¸c˜aode textos da Wikipedia para periˆenciaspr´evias,e recomend´a-loou n˜aoao alo- remover os vieses lingu´ısticosde artigos, que de- cut´ario.Assim, apesar de serem do mesmo tipo, veriam ser textos isentos de opini˜ao. A ideia ´e por possu´ırem fun¸c˜oessociocomunicativas dife- que a partir do entendimento da realiza¸c˜aodesses rentes, esses gˆenerostamb´empossuem diferen- vieses, feita por falantes nativos do inglˆes, pode- tes marcas de subjetividade. Al´emdos opera- se propor um detector de vi´esautom´aticocom- dores argumentativos, outros tipos de operado- posto de palavras indutoras de vieses lingu´ısticos. Os autores mostram que o modelo de informa¸c˜ao 1https://educacao.uol.com.br/bancoderedacoes/ redacao/ult4657u82.jhtm. Acesso: 27/08/2019. lingu´ıstica de vi´esdesenvolvido teve uma per- 2Damasceno et al.(2016) 3https://sites.google.com/icmc.usp.br/ 4https://scholar.google.com/ opinando/. Acesso: 05/12/2019. 5https://sites.google.com/icmc.usp.br/opinando Subjetividade em corre¸c˜aode reda¸c˜oes: detec¸c˜aoautom´atica Linguamatica´ – 67 formance muito pr´oximada an´alisede lingua- senten¸cano nosso corpus de corre¸c˜oesde reda¸c˜ao: gem enviesada feita pelos falantes nativos. Reca- a frase final est´aabstrata demais6. A palavra sens et al.(2013) se valem de trabalhos propos- abstrata seria um operador de vi´es. O que se tos na literatura que abordam o vi´eslingu´ıstico espera de um corretor de reda¸c˜aos˜aoavalia¸c˜oes associado a pistas lexicais e gramaticais sobre sobre a coes˜ao,dom´ınioda norma culta etc. e subjetividade (Wiebe et al., 2004), sobre senti- n˜aoa sua opini˜aosobre “o que ´eser abstrato”. mento (Liu et al., 2005; Lin et al., 2011; Tur- Portanto, para se detectar um vi´eslingu´ısticoem ney, 2002) e, especialmente, sobre atitudes (Lin corre¸c˜oesde reda¸c˜ao,essa ´euma palavra ade- et al., 2006; Somasundaran & Wiebe, 2010; Yano quada. Por outro lado, se pensamos em um re- et al., 2010; Conrad et al., 2012). Os autores sumo acadˆemicona ´areade Artes, em que o autor dividem os tipos de vieses em dois grandes gru- descreve uma pintura abstrata, certamente n˜ao pos: os vieses epistemol´ogicose os vieses estrutu- teremos vi´esnessa palavra. Como essa, percebe- rais. Os vieses epistemol´ogicospodem ser detec- mos outras tantas express˜oesque se comporta- tados pela presen¸cade verbos factivos (Kiparsky vam de acordo com o tipo de conte´udodo texto. & Kiparsky, 1968), verbos implicativos (Karttu- Considerando o nosso objetivo de estabelecer nen, 1971), verbos assertivos (Hooper, 1974) e uma lista de operadores de vi´eslingu´ısticoque operadores de modaliza¸c˜ao‘hedges’(Yule, 1996); gere um modelo de detec¸c˜aode vi´espara qual- os vieses estruturais podem ser detectados por quer tipo de texto, na nossa proposta, precisamos intensificadores subjetivos e termos tendenciosos que essa lista detecte as palavras e express˜oes (Lin et al., 2006). enviesadas de corre¸c˜oesde reda¸c˜ao,de resumos Ao iniciarmos a an´alise dos nossos textos, acadˆemicose de textos opinativos de forma in- por´em, percebemos que os dois grandes gru- distinta. A partir da´ı, pretendemos que essa pos propostos pelos autores n˜aocaptavam uma lista seja suficientemente abrangente para a uti- quest˜aofundamental para a compreens˜aoe de- liza¸c˜aoem modelos computacionais para qual- tec¸c˜aodos vieses de forma autom´atica,que seria quer gˆenero textual. Contudo, estabelecer os o problema do sentido dependente de contexto. v´arioscontextos para que o significado de ex- Dividimos, ent˜ao,as palavras e express˜oesque press˜oescom sentidos dependentes de contexto comporiam a nossa lista em dois grandes gru- seja detectado em um modelo computacional n˜ao pos distintos dos propostos por Recasens et al. ´euma tarefa trivial. Percebemos mesmo que a (2013): express˜oes carregadas de sentido que lista de express˜oesque est´avamos gerando apre- variavam a significa¸c˜aosegundo o contexto, ou sentava, ela pr´opria,uma natureza enviesada, ba- seja, express˜oesdependentes de contexto (geral- seada na nossa intui¸c˜aode falantes. Em vista mente, as classes gramaticais abertas, como no- desses resultados preliminares, optamos por se- mes, verbos e adjetivos) e express˜oescujos sig- guir um caminho distinto do seguido em Reca- nificados n˜ao dependem de contexto, conside- sens et al.(2013) e resolvemos descartar as ex- radas mais “leves” semanticamente (geralmente, press˜oesdependentes de contexto e criar uma as classes gramaticais fechadas, como adv´erbios, lista somente com palavras n˜ao-dependentes de preposi¸c˜oese conjun¸c˜oes).Pode-se associar os ti- contexto. pos de vieses propostos por Recasens et al.(2013) Isso n˜aosignifica, por´em, que elementos de a esses dois grupos da seguinte forma: express˜oes vi´esdependentes de contexto n˜aoser˜aotamb´em dependentes de contexto s˜aoos termos tendenci- detectados nesse tipo de lista. E´ importante osos, os verbos implicativos e os verbos asserti- real¸carque essas palavras e express˜oesfuncio- vos; express˜oesn˜ao-dependentes de contexto s˜ao nam como operadores sobre outros itens lexicais, os operadores de modaliza¸c˜ao,os verbos factivos apontando assim para uma por¸c˜aomaior do grau e os intensificadores subjetivos. de subjetividade do texto. Fazendo uma analo- Com esses pressupostos te´oricose a nossa in- gia, grosso modo, com a Matem´atica,as palavras tui¸c˜aode falantes do portuguˆes,partimos para n˜ao-dependentes de contexto funcionam como os o trabalho minucioso da an´alisedos textos co- operadores da adi¸c˜ao,subtra¸c˜ao,multiplica¸c˜ao letados. Fizemos primeiramente a an´alise de etc., que apontam para a rela¸c˜aopretendida en- 50 corre¸c˜oes,aleatoriamente selecionadas, apon- tre os n´umeros,gerando um produto final. Ope- tando, segundo os crit´erioslingu´ısticosacima, to- radores lingu´ısticosfuncionam da mesma forma: das as palavras e express˜oesque nos pareciam estabelecem uma rela¸c˜aoentre parcelas do texto, indicar algum tipo de subjetividade do corretor. gerando uma interpreta¸c˜aosubjetiva como pro- Entretanto, ao examinarmos express˜oesde- duto. Assim, detectar operadores de vi´esn˜ao- pendentes de contexto, deparamo-nos com outro problema. Por exemplo, detectamos a seguinte 6https://educacao.uol.com.br/bancoderedacoes/ redacao/ilusao.jhtm. Acesso: 06/09/2019. 68– Linguamatica´ M´arcia Can¸cado, Luana Amaral, Evelin Amorim, Adriano Veloso & Heliana Mello dependentes de contexto em um determinado Adicionalmente, constru´ımos dois outros texto, mesmo que em pouca quantidade, indicar´a corpora para compara¸c˜ao: um de resumos tamb´ema presen¸cade vi´esem outras partes de acadˆemicos,com 460.011 palavras e outro de re- texto, sobre as quais esses operadores tˆemescopo. senhas, com 717.096 palavras8. Para a com- Dessa forma, voltamos nossa aten¸c˜aopara as posi¸c˜aodo corpus de resumos, os textos foram ex- palavras e express˜oesn˜ao-dependentes de con- tra´ıdosde consultas autom´aticasao Google Scho- texto, que apresentam o mesmo tipo de signi- lar, considerando-se diversas ´areasdo conheci- fica¸c˜aoem qualquer situa¸c˜ao. A` primeira vista, mento, retiradas do site da Universidade Federal essas palavras e express˜oesparecem apresentar de Minas Gerais. Para se determinar os tipos de menos conte´udosemˆantico, tendo uma fun¸c˜aoes- consulta, lan¸camosm˜aodo reposit´oriode teses e sencialmente gramatical. Entretanto, para os es- disserta¸c˜oesdessa universidade9, selecionando as tudiosos da Semˆantica Argumentativa, essas ex- palavras-chave em teses ou disserta¸c˜oes.Usamos press˜oess˜aoalvo de muita aten¸c˜aoe pesquisa. um programa que fazia consultas e downloads de O que se assume nessa linha te´orica´eque essas artigos no Google Scholar e foram extra´ıdosos re- palavras ou express˜oes“despretensiosas” s˜aoas sumos desses textos. Se a quantidade de palavras respons´aveis por grande parte da for¸caargumen- era pequena (menos de 50) ou muito grande (mais tativa dos textos, ou seja, a dire¸c˜aoou sentido de 1000), os textos eram descartados. Foi feita para o qual apontam. Segundo Anscombre & uma verifica¸c˜aomanual de alguns desses textos Ducrot(1976); Ducrot(1987), toda l´ınguapossui e constatamos que a metodologia de extra¸c˜aode em sua gram´aticamecanismos que captam essa dados era confi´avel. subjetividade atrav´esde marcas lingu´ısticas da O corpus de resenhas consiste num fragmento, argumenta¸c˜ao;entre essas marcas, encontram-se tamb´emextra´ıdode forma autom´atica,do Cor- as palavras e express˜oesque denominamos “n˜ao- pus Buscap´e. A utiliza¸c˜aode apenas um frag- dependentes de contexto”. mento do Corpus Buscap´e foi necess´ariapara Com esse procedimento, elaboramos uma lista manter a uniformidade com os demais corpora, de 578 itens. Baseados na classifica¸c˜aoencon- tanto no n´umerototal de palavras quanto no ta- trada em Koch(2011, 2015), dividimos esses ope- manho dos textos. Utilizamos apenas as rese- radores em quatro tipos: operadores argumenta- nhas do Corpus Buscap´ecom mais de 200 pa- tivos, operadores de pressuposi¸c˜ao,operadores de lavras, pois muitas delas eram curtas e n˜aoser- modalidade e operadores de opini˜aoe valora¸c˜ao7. viam `anossa compara¸c˜ao,e tentamos manter um A partir desse trabalho metodol´ogico,a lista n´umeropr´oximoao total de palavras dos demais constru´ıda foi aplicada a cada um dos corpora corpora. mencionados acima e os operadores de vi´esde No processamento computacional que realiza- cada texto foram quantificados e comparados. A mos desses dados, cada texto, seja uma corre¸c˜ao seguir, indicamos com mais detalhes como foram de reda¸c˜ao,uma resenha ou um resumo, foi con- feitas as compila¸c˜oesdos corpora e como fize- siderado um “documento”, representado por d. mos a quantifica¸c˜aodos operadores de vi´esnas Cada documento foi processado a fim de se com- corre¸c˜oesde reda¸c˜aoe a compara¸c˜aocom os de- putar a propor¸c˜aode ocorrˆenciasde operadores mais gˆenerosanalisados. de vi´es,em rela¸c˜aoao n´umerototal de palavras do texto. A metodologia utilizada para fazer esse c´alculoseguiu os seguintes passos: 2.2. Metodologia computacional A compila¸c˜aodos corpora utilizados nesta pes- 1. Divis˜aodos documentos em tokens. quisa foi feita de forma autom´atica,a partir de Dividimos os documentos em unidades buscas em bancos de textos dos gˆeneros ana- lingu´ısticasmenores: as palavras e express˜oes lisados. Nosso corpus principal se comp˜oede fixas compar´aveis a palavras, que chamamos textos do gˆenero corre¸c˜ao de reda¸c˜ao. Esse de tokens. Os documentos foram, assim, to- corpus foi constru´ıdo a partir da extra¸c˜aoau- kenizados e essas unidades, ou tokens, foram tom´aticade textos do banco de reda¸c˜oesdo UOL, identificadas a partir de sua separa¸c˜aogr´afica considerando-se um per´ıodo de cerca de 10 anos. Relembrando, o n´umerototal de palavras ´ede 8Apesar de haver uma diferen¸cano n´umerode palavras 610.543. total dos corpora (de 25% entre os resumos e as corre¸c˜oes e de 35% entre as resenhas e as corre¸c˜oes), os c´alculosda frequˆenciade ocorrˆenciados operadores de vi´esem cada corpus foram feitos proporcionalmente. Assim, essa dife- ren¸can˜aoteve impacto em nossos resultados. 7Esse l´exicode operadores de vi´esest´adispon´ıvel em 9https://repositorio.ufmg.br/custom/ https://bit.ly/2sJzt21 presentation.jsp Subjetividade em corre¸c˜aode reda¸c˜oes: detec¸c˜aoautom´atica Linguamatica´ – 69

por s´ımbolos, como espa¸coe h´ıfen.Utilizamos min´usculas,para que esses tokens se tornem para esse fim a fun¸c˜ao word tokenize, da “vis´ıveis” a programas computacionais utiliza- biblioteca de c´odigoNLTK10. Essa biblioteca dos no processamento dos documentos. possui diversas funcionalidades prontas para 5. Identifica¸c˜aodos operadores de vi´esem cada uso em processamento de linguagem natural. documento. A partir desse processo, ´eposs´ıvel identificar e quantificar operadores de vi´esem um texto, j´a A fim de contabilizarmos o n´umero de que ocorrˆenciasdesses operadores fazem parte ocorrˆenciasdos operadores de vi´esnos docu- do conjunto de tokens de um documento. mentos dos corpora, primeiramente, identifi- camos em cada documento os tokens corres- 2. Classifica¸c˜aode partes do discurso. pondentes a operadores da nossa lista. Para O pr´oximopasso da nossa metodologia foi de- isso, comparamos os tokens dos documentos de terminar a categoria gramatical dos tokens, em cada corpus com cada operador de vi´eslistado. termos de classes de palavras. Para isso, utili- Sendo o token uma ocorrˆenciade um desses zamos um classificador de partes do discurso, operadores, ele seria, ent˜ao,computado em um o POS Tagging, tamb´emda biblioteca NLTK. acumulador que chamamos de ic. O resultado Para construir o modelo do classificador de final desse c´alculo ic ´e, portanto, o n´umero partes do discurso, a base de dados utilizada de ocorrˆenciasde operadores de vi´esde um foi o Mac Morpho (Alu´ısio et al., 2003) e o determinado tipo em um documento. Cada c´odigopara sua constru¸c˜aopode ser facilmente documento apresentou, assim, quatro n´umeros reproduzido. desse tipo, um para cada tipo de operador de vi´es. 3. Lematiza¸c˜aode operadores verbais. 6. Quantifica¸c˜aode ocorrˆenciasde operadores de Categorizar os tokens nos documentos analisa- vi´esem rela¸c˜aoao n´umerode palavras. dos foi essencial para esta terceira etapa me- todol´ogica,a lematiza¸c˜ao.Lematiza¸c˜ao´euma A partir do n´umerode ic foi poss´ıvel, ent˜ao, t´ecnicautilizada para buscar palavras, abran- contabilizar o percentual de tokens de um de- gendo um paradigma de op¸c˜oesrelacionado terminado documento que se caracterizavam a elas. No caso de verbos que se encontram como operadores de vi´es.Esse c´alculofoi feito na nossa lista de operadores de vi´es,´efeita da seguinte forma. Para cada documento e a lematiza¸c˜ao,de forma que seja poss´ıvel a para cada tipo de operador de vi´es,dividimos busca por todo o paradigma de flex˜oesdesse o acumulador ic pelo n´umerode tokens do do- cumento, representado por d . Assim, a pro- item. Um exemplo ´eo verbo come¸car, para o | | qual a utiliza¸c˜aodo lematizador possibilita a por¸c˜aode ocorrˆenciasde operadores de vi´es, busca por todo o paradigma flexional: come- de cada tipo, representada por Pc, ´edada pela cei, come¸camos,come¸cando etc. Para pala- f´ormula ic vras invari´aveis e express˜oesfixas, mesmo que Pc = . d sejam verbais, n˜ao´efeita a lematiza¸c˜ao. Por | | exemplo, as express˜oes desde que ou ´ebom Os passos descritos acima foram implementa- que n˜aopassam pelo lematizador, sendo bus- dos na linguagem de programa¸c˜aoPython em sua cadas sempre na mesma forma fixa. Esse pro- vers˜ao311. E com essas etapas metodol´ogicas cesso permite que sejam identificados, dentre chegamos ao n´umerode propor¸c˜aode ocorrˆencias os tokens de um documento, todas as formas de operadores de vi´espor documento. Ap´osesse poss´ıveis de um operador de vi´esverbal. Para procedimento, analisamos estatisticamente os re- esta etapa, utilizamos a linguagem de pro- sultados, a fim de fazer uma compara¸c˜aoentre grama¸c˜aoJava, pois a biblioteca de c´odigo, os trˆesgˆeneros. Nosso objetivo n˜aofoi somente chamada de LemPORT, ´ebaseada em Java. computar os operadores do gˆeneroem an´alise,as O processo utilizado por esta biblioteca de le- corre¸c˜oes,mas observar se esses textos se aproxi- matiza¸c˜aoest´adescrito em Rodrigues et al. mam mais dos resumos acadˆemicos,o polo menos (2014). subjetivo, ou das resenhas, o polo mais subjetivo. 4. Uniformiza¸c˜aodos tokens atrav´esda utiliza¸c˜ao Para isso usamos uma ferramenta estat´ıstica,que de caixa baixa. ser´aapresentada a seguir. A terceira etapa da metodologia computaci- onal consistiu em colocar todos os caracte- res dos tokens de cada documento em letras

10https://www.nltk.org 11https://www.python.org 70– Linguamatica´ M´arcia Can¸cado, Luana Amaral, Evelin Amorim, Adriano Veloso & Heliana Mello

2.2.1. Ferramenta de an´aliseestat´ıstica A linha horizontal mais grossa representa a me- diana. O terceiro quartil representa o valor que Como ferramenta de an´aliseestat´ıstica, utiliza- separa dos demais os 25% dos dados que possuem mos o diagrama de caixa, ou boxplot.O box- o maior valor. No boxplot, o terceiro quartil ´e plot ´euma ferramenta n˜ao-param´etrica,auto evi- graficamente representado pela linha horizontal dente, e n˜aodeixa d´uvidasquanto `adistribui¸c˜ao mais acima na caixa. As linhas horizontais me- emp´ıricados dados: esse gr´aficopermite visua- nores, que aparecem fora da caixa, indicam os li- lizar a distribui¸c˜aode uma vari´avel em termos mites dos dados at´e1,5 vezes a distˆanciaentre os da sua loca¸c˜ao(mediana/quartis), dispers˜ao(va- quartis (distribui¸c˜aointerquart´ılica). Os pontos riabilidade), grau de assimetria, presen¸cade va- acima e abaixo dessas linhas representam valo- lores extremos/discrepantes (outliers), entre ou- res discrepantes, ou outliers, do conjunto. Esses tros. Para gerar os boxplot, utilizamos a lingua- pontos mostram valores que est˜aono extremo da 12 gem R . A Figura1 mostra um boxplot padr˜ao, distribui¸c˜ao. Por fim, o tamanho da caixa est´a que est´amarcado com seus principais elementos. relacionado com a variabilidade do conjunto de dados. Assim, se a distˆanciaentre a mediana e os outliers for maior de um lado do que do outro, os dados possuem uma distribui¸c˜aoassim´etrica; caso contr´ario,sim´etrica. Na Figura1, o tama- nho da caixa nos dois quartis ´esimilar, portanto, a distribui¸c˜aodos dados ´esim´etrica. O boxplot ´emuito ´utilpara a visualiza¸c˜aode diferentes conjuntos de dados com rela¸c˜aoa uma vari´avel. Este ´eo caso deste trabalho, j´aque te- mos trˆesconjuntos de dados (trˆesgˆenerostextu- ais) e quatro vari´aveis (quatro tipos de operado- res de vi´es).Portanto, para cada tipo de opera- dor, geramos um boxplot e analisamos os resulta- dos. Na se¸c˜aoseguinte, antes de partirmos para Figura 1: Exemplo de boxplot a explicita¸c˜aodesses resultados, explicamos com detalhes cada um desses tipos de operadores. Essa figura cont´emuma “caixa”, o retˆangulo central da figura, com uma linha horizontal mais grossa, duas linhas horizontais menores, uma li- 3. L´exicode operadores de vi´es nha vertical e pontos acima e abaixo das linhas lingu´ıstico horizontais menores, que aparecem fora da caixa. Cada um desses elementos gr´aficospossui um sig- Conforme Anscombre & Ducrot(1976) e Du- nificado estat´ıstico,em rela¸c˜ao`avaria¸c˜aodos da- crot(1987) (e trabalhos subsequentes), a argu- dos observados de uma vari´avel num´erica.Assim, menta¸c˜ao,em um sentido mais amplo, est´ains- o gr´aficopermite a visualiza¸c˜aode valores que di- crita na l´ıngua,n˜aodepende exclusivamente de videm um conjunto de dados ordenados em qua- um tipo textual e pode ser guiada por itens es- tro partes iguais, que s˜aochamados de “quartis”. pec´ıficos da gram´atica. Como mostramos na A primeira parte, ou primeiro quartil, ´eo va- metodologia (2.1), o que nos interessa na nossa lor que divide 25% dos menores valores do con- an´alises˜aoexatamente esses itens, que apon- junto de dados dos 75% restantes. O primeiro tam para a direcionalidade da argumenta¸c˜ao,dei- quartil ´erepresentado pela linha inferior da caixa xando `amostra o grau de subjetividade do texto. (abaixo da caixa est˜aoos 25% dos dados que pos- Portanto, s˜aoessas marcas lingu´ısticas,que cha- suem menor valor). O segundo quartil, ou a me- mamos de “operadores de vi´eslingu´ıstico”,que diana, ´eo valor que divide os dados ordenados fazem parte da nossa lista, que pode ser tamb´em ao meio. A mediana ´edefinida como o valor que entendida como um “l´exico”. Lembramos que est´ano meio de um conjunto de valores (Lane nosso foco ´eem express˜oesn˜ao-dependentes de et al., 2017). Outra forma de pensar a mediana contexto e que essas express˜oess˜aooperadores ´eque metade do conjunto de valores, 50%, ser´a que agem sobre por¸c˜oesmaiores de texto, resul- menor que o valor da mediana e a outra metade tando em senten¸cas com implica¸c˜oessubjetivas. do conjunto, 50%, ser´amaior. Por esta raz˜ao, Seguimos as propostas de Koch(2011, 2015), a mediana tamb´em´echamada de percentil 50. para quem as marcas de argumenta¸c˜aoem um 12Dispon´ıvel em https://www.rdocumentation.org/ texto podem ser expressas atrav´esdas seguin- packages/graphics/versions/3.6.1/topics/boxplot. tes categorias: operadores argumentativos, ope- Subjetividade em corre¸c˜aode reda¸c˜oes: detec¸c˜aoautom´atica Linguamatica´ – 71 radores de pressuposi¸c˜ao,operadores de moda- Na senten¸ca(5), pode-se perceber que h´aum lidade, operadores de opini˜aoe valora¸c˜ao,tem- desfecho glorioso em rela¸c˜ao`aspropriedades da pos verbais e ´ındices de polifonia. Usamos as reda¸c˜ao,na perspectiva de quem elabora o enun- quatro primeiras categorias, marcas poss´ıveis de ciado. serem utilizadas em um detector autom´aticode Um terceiro tipo de operador argumentativo vi´eslingu´ıstico.Tamb´emampliamos a lista dada s˜aoos que introduzem a conclus˜ao`aqual o locu- pela autora, usando express˜oesencontradas em tor quer que seu alocut´ariochegue, a partir dos nossos dados. A lista completa ´ecomposta por argumentos apresentados anteriormente: 578 itens, sendo 118 operadores argumentativos, 212 operadores de pressuposi¸c˜ao,93 modaliza- (6) N˜aodesenvolve, portanto, uma disserta¸c˜ao dores e 155 operadores de opini˜aoe valora¸c˜ao. argumentativa.16 A seguir explicitamos essas quatro categorias13. Em (6), portanto indica que o fato de que o aluno n˜aodesenvolve uma disserta¸c˜aoargumen- 3.1. Operadores argumentativos tativa ´euma conclus˜ao,que pode ser tirada a partir de argumentos elencados anteriormente. O Os operadores argumentativos tˆem a fun¸c˜ao operador ´eutilizado pelo produtor do texto como de estabelecer uma liga¸c˜ao entre as ora¸c˜oes, um “guia” para que o alocut´ariocompartilhe com per´ıodos ou par´agrafos,deixando transparecer a ele essa mesma posi¸c˜ao. inten¸c˜aodo locutor. S˜aoas estruturas que carac- Um quarto tipo de operador introduz argu- terizam os textos de tipo argumentativo stricto mentos alternativos que marcam uma conclus˜ao sensu. Segundo Koch(2011, 2015), esses opera- oposta `aafirma¸c˜aoanterior, indicando a d´uvida dores encontram-se divididos em alguns tipos. do locutor: Um primeiro tipo ´eo dos operadores que assi- nalam o argumento mais ou menos proeminente (7) Seria melhor substituir a express˜ao“o casal de uma escala orientada no sentido de deter- e os amigos” por “amigos” somente ou ent˜ao minada conclus˜ao,os chamados “operadores de por “par”.17 escala argumentativa”. Operadores como esses mostram que o locutor constr´oiuma escala de Um quinto tipo ´eo que estabelece rela¸c˜oes argumentos, sendo o mais forte ou o mais fraco de compara¸c˜aoentre elementos, indicando uma introduzido pelo operador. Por exemplo: dada conclus˜aopor parte do locutor:

(4) A escolha das palavras ´e,em geral, confusa (8) Mal o aluno acaba de falar de uma coisa, ele e amb´ıgua, comprometendo a compreens˜ao pula para outra como se continuasse a falar 18 das ideias e at´emesmo mantendo num n´ıvel da mesma. superficial a an´aliseque faz do tema.14 Um sexto tipo ´e o que estabelece rela¸c˜oes de condi¸c˜aoentre elementos, indicando uma im- A senten¸ca em (4), retirada do corpus de posi¸c˜aopor parte do locutor: corre¸c˜oes,mostra que o operador at´emesmo in- dica que h´auma escala constru´ıdapelo locutor: (9) Isso se chama tautologia, e deve ser evitado; confusa amb´ıgua superficial, em que o valor → → pode-se repetir, desde que avan¸cando nas alto da escala, e talvez n˜ao-esperado, “ser super- ideias.19 ficial”, reflete a opini˜aode quem usa o operador. Um segundo tipo de operador argumentativo ´eo que soma um argumento a favor da afirma¸c˜ao feita anteriormente, de uma forma positiva ou mesmo negativa:

(5) A objetividade, ali´as, ´eo ponto mais alto 15 dessa reda¸c˜ao. 16https://educacao.uol.com.br/bancoderedacoes/ redacao/bandido-bom-e-bandido-recuperado.jhtm? 13O l´exicocompleto com todos os operadores encontra- action=print. Acesso: 11/09/2019. se dispon´ıvel em https://bit.ly/2sJzt21. 17https://educacao.uol.com.br/bancoderedacoes/ 14https://educacao.uol.com.br/bancoderedacoes/ redacao/ult4657u564.jhtm. Acesso: 06/09/2019. redacao/a-importancia-de-biografias-autorizadas. 18https://educacao.uol.com.br/bancoderedacoes/ jhtm. Acesso: 06/09/2019. redacoes/policia-e-bandido-violencia-no-seculo- 15https://educacao.uol.com.br/bancoderedacoes/ xxi.htm. Acesso: 06/09/2019. redacao/educacao-e-mais-forte-que-violencia.jhtm. 19https://educacao.uol.com.br/bancoderedacoes/ Acesso: 06/09/2019. redacao/ult4657u488.jhtm. Acesso: 06/09/2019. 72– Linguamatica´ M´arcia Can¸cado, Luana Amaral, Evelin Amorim, Adriano Veloso & Heliana Mello

Um s´etimooperador introduz uma justifica- (13) Depois de um ca´otico e redundante tiva ou explica¸c˜aodo locutor, em rela¸c˜aoao enun- par´agrafo introdut´orio, o autor come¸ca a ciado anterior: dizer contrassensos ou a usar conceitos va- gos. . . 23 (pressuposto: o par´agrafointro- (10) . . . desse modo, fica imposs´ıvel atribuir al- dut´orio´eca´oticoe redundante) guma nota `ascompetˆencias2, 3 e 4.20 Outros exemplos de operadores de pressu- Um oitavo tipo contrap˜oeargumentos, indi- posi¸c˜aos˜aoexpress˜oesverbais que denotam uma cando conclus˜oescontr´arias: mudan¸caou uma manuten¸c˜aodo estado; essas express˜oespressup˜oemo estado anterior `amu- (11) . . . a an´alisedas causas ´esimplificadora e dan¸ca ou a ocorrˆenciapr´eviado estado que se superficial, apesar de plaus´ıvel21 mant´em;por exemplo: O locutor faz uma afirma¸c˜ao,mas introduz uma contraposi¸c˜aoao seu argumento, criando (14) O que o autor parece n˜aoperceber ´eque o uma expectativa contr´ariano alocut´ario. Esses trote vem se tornando mais violento hoje em operadores ligam dois argumentos opostos, mas dia. (pressuposto: o trote antes era menos sempre colocam mais relevˆanciapara um dos ar- violento) gumentos, aquele que corrobora a conclus˜aopre- Um ´ultimotipo de operador de pressuposi¸c˜ao tendida. s˜aoos verbos chamados “factivos”. Quando em- pregados, esses verbos desencadeiam a pressu- 3.2. Operadores de pressuposi¸c˜ao posi¸c˜aoda verdade do seu complemento senten- cial. Um exemplo desse tipo de verbo ´e notar: Um segundo grupo de operadores de vi´es lingu´ıstico s˜aoexpress˜oesque tˆem a fun¸c˜aode introduzir no texto um conte´udopressuposto, (15) Note-se ainda que o texto n˜aojustifica o aos quais chama-se na literatura de “desencade- t´ıtulo.24 adores de pressuposi¸c˜ao”.Quando usamos itens lingu´ısticosque trazem em si uma verdade assu- Na senten¸ca acima, toma-se como verdade que mida anteriormente, estamos impondo aos alo- “o texto n˜ao justifica o t´ıtulo”. Quando ex- cut´ariosessa verdade, o que nem sempre pode press˜oescontendo esses verbos s˜aousadas, h´a ser um fato, mas pode corresponder `aopini˜ao uma indu¸c˜aodo alocut´ario a aceitar uma opini˜ao de quem a enuncia, ou seja, o uso de operado- do locutor como verdade. res de pressuposi¸c˜ao´euma “manobra argumen- tativa”(Fiorin, 2007). 3.3. Operadores de modalidade Um primeiro tipo desses operadores (agora, ainda, atualmente etc.) ´eexemplificado a seguir, Os operadores de modalidade, ou modalizado- com trechos retirados das pr´opriascorre¸c˜oesque res, s˜aoelementos lexicais (e gramaticais, que comp˜oemo nosso corpus. n˜aoabordaremos aqui) pelos quais o locutor ma- nifesta uma determinada atitude em rela¸c˜aoao (12) Acrescenta-se uma informa¸c˜ao j´a esbo¸cada conte´udode seu pr´oprioenunciado. Pode-se di- anteriormente....22 (pressuposto: a in- vidir, de uma maneira mais ampla, os modali- forma¸c˜aon˜aodevia aparecer novamente) zadores em dois tipos, segundo Pires de Oliveira (2001): os de possibilidade e os de necessidade. Al´emdessas marcas temporais, existem alguns Esses dois tipos de modalizadores podem expres- conectores circunstanciais, sobretudo quando a sar a possibilidade e a necessidade de acordo senten¸caintroduzida por eles vem anteposta, que com normas morais ou legais, os modalizadores s˜aodesencadeadores de pressuposi¸c˜ao; toma-se deˆonticos, ou podem expressar a necessidade e como fato o conte´udoda senten¸caintroduzida a possibilidade em rela¸c˜aoao conhecimento e `a pelo conector: cren¸cado locutor, os modalizadores epistˆemicos.

20https://educacao.uol.com.br/bancoderedacoes/ redacoes/uma-perda-historica-para-o-pais.htm. Acesso: 06/09/2019. 21https://educacao.uol.com.br/bancoderedacoes/ 23https://educacao.uol.com.br/bancoderedacoes/ redacao/violencia-comeca-em-casa.jhtm. Acesso: redacoes/brasil-por-uma-migracao-segura- 05/09/2019 ordenada-e-regular.htm. Acesso: 06/09/2019. 22https://educacao.uol.com.br/bancoderedacoes/ 24https://educacao.uol.com.br/bancoderedacoes/ redacoes/violencia-gera-consequencia.htm. Acesso: redacao/os-desafios-da-interacao.jhtm. Acesso: 06/09/2019. 06/09/2019. Subjetividade em corre¸c˜aode reda¸c˜oes: detec¸c˜aoautom´atica Linguamatica´ – 73

Esses operadores lingu´ısticospodem vir lexi- Podem ser indicadores desse tipo express˜oesad- calizados na forma “verbo ser + adjetivo”): verbiais, express˜oesverbais e alguns adjetivos que n˜aotˆemaltera¸c˜aodo sentido segundo o contexto. (16) E´ preciso evitar esse tipo de redundˆancia, Veja um exemplo: resultante da falta de planejamento na cria¸c˜aodo texto.25 (necessidade) (21) Al´emdisso, em vermelho, ´e ruim usar duas vezes seguidas o “por´em,atualmente”30 Os modalizadores tamb´empodem aparecer na forma de adv´erbiosou locu¸c˜oesadverbiais (cer- Ainda, dentro dessa categoria, podem-se in- tamente, sem d´uvida,de fato): cluir os operadores de valora¸c˜ao.Segundo Koch (2015), a atitude subjetiva do locutor pode ser (17) Texto fraco, marcado pelo uso inadequado medida tamb´empela avalia¸c˜aoe valora¸c˜aodos do vocabul´ario,em que as palavras s˜aousa- fatos, estados ou qualidades atribu´ıdasa um re- das com significados que, de fato, n˜aotˆem.26 ferente. Em geral, essa medi¸c˜aose d´apor ex- (necessidade) press˜oesadjetivas e intensificadores. Veja um exemplo de valora¸c˜aoextra´ıdodas corre¸c˜oes: Ainda, modalizadores podem ser verbos mo- dais: (22) A sugest˜aoque conclui a reda¸c˜aotamb´em ´e ret´orica e panflet´aria, propondo mani- (18) E´ o m´aximoque se pode extrair de um texto festa¸c˜oes contr´arias ao que est´a a´ı, que cuja linguagem obscura parece usada para foi analizado (sic) de modo excessivamente iludir e impressionar o alocut´ario.. . 27 (pos- gen´erico.. . 31 sibilidade) Apresentamos, em seguida, os resultados da A modaliza¸c˜aoaparece tamb´emem ora¸c˜oes an´alisedo vi´eslingu´ısticonas corre¸c˜oes,feita a modalizadoras (tenho a certeza de que, existe a partir da aplica¸c˜aoautom´aticado l´exicodos ope- possibilidade de etc.): radores de vi´es. Apresentamos tamb´emo resul- tado comparativo da aplica¸c˜aodessa lista nos (19) N˜aoh´anecessidade de usar essa locu¸c˜aono textos dos nossos outros dois corpora, o de re- 28 trecho assinalado. (possibilidade) sumos acadˆemicos e o de resenhas. E, por fim, aparece em certos tipos de verbos que denotam cren¸caou sentimento (achar, acre- 4. Resultados e an´alisedos dados ditar, desejar etc.): Antes de procedermos `aan´alise,´eimportante (20) O autor crˆeque o leitor deva subentender observar que os n´umerosde porcentagens obti- o que ele est´adizendo com essas express˜oes dos podem n˜aoser expressivos numericamente, incorretas, mas n˜ao´eassim que funciona a mas indicam com clareza como se d´aa distri- comunica¸c˜aoescrita.29 (possibilidade) bui¸c˜aodos operadores nos trˆes corpora compa- rados. Como j´aobservado, o n´umerode opera- 3.4. Operadores de opini˜aoe valora¸c˜ao dores em rela¸c˜aoao n´umerode outras categorias lingu´ısticasque comp˜oemum texto ´emuito pe- Finalmente, apresentamos os operadores de queno, assim como s˜aopoucos os operadores ma- opini˜aoe valora¸c˜ao.Operadores de opini˜aoapon- tem´aticosem rela¸c˜aoaos n´umeros. Ent˜ao,´ede tam para um determinado estado psicol´ogico,um se esperar que a porcentagem dessas ocorrˆencias certo tipo de sentimento, de opini˜aoque o locutor nos textos analisados seja um n´umero baixo. assume em rela¸c˜aoao conte´udode seu enunciado. Mas, como mostramos na Se¸c˜ao3, esses opera- dores agem sobre express˜oeslingu´ısticas e at´e 25 https://noticias.uol.com.br/educacao/ mesmo sobre senten¸casinteiras, resultando em bancoderedacoes/redacao/ult4657u67.jhtm Acesso: 06/09/2019 por¸c˜oesmaiores de texto com implica¸c˜oessubje- 26https://educacao.uol.com.br/bancoderedacoes/ tivas. Analisando dessa forma, o grau de subjeti- redacao/horario-apolitico.jhtm. Acesso: 05/09/2019. vidade n˜aose encontra somente no n´umeroabso- 27https://educacao.uol.com.br/bancoderedacoes/ luto de operadores, mas, sim, em todo o produto redacoes/menos-influencia-estatal-nao-significa- menos-ordem.htm. Acesso: 05/09/2019. 30https://noticias.uol.com.br/educacao/ 28https://educacao.uol.com.br/bancoderedacoes/ bancoderedacoes/redacao/ult4657u27.jhtm. Acesso: redacao/ult4657u140.jhtm. Acesso: 05/09/2019 05/09/2019. 29https://educacao.uol.com.br/bancoderedacoes/ 31https://educacao.uol.com.br/bancoderedacoes/ redacoes/justica-pra-alguns-stf-pra-outros.jhtm. redacoes/educacao-brasileira-conhecimento-ja.htm. Acesso: 18/12/2019 Acesso: 05/09/2019. 74– Linguamatica´ M´arcia Can¸cado, Luana Amaral, Evelin Amorim, Adriano Veloso & Heliana Mello

final da interpreta¸c˜aodaquela por¸c˜aolingu´ıstica gerada pelo operador. Por isso, para uma an´alise autom´atica,assumimos que a presen¸cados opera- dores nos textos nos d´aevidˆenciasquantitativas de que uma por¸c˜aomaior do texto apresenta um grau de vi´eslingu´ıstico. Para iniciar a an´alise,apresentamos, na Ta- bela1, o n´umero absoluto de ocorrˆencias de cada tipo de operador de vi´esem cada corpus analisado.

Tipo de Gˆenero operador de vi´es Corre¸c˜ao Resenha Resumo Argumentativo 48912 39282 18949 Opini˜ao/valora¸c˜ao 12742 22604 3903 Pressuposi¸c˜ao 6081 10750 947 Figura 2: Boxplot para operadores argumenta- Modalidade 5446 4539 1074 tivos

Tabela 1: Ocorrˆenciasde operadores de vi´espor gˆenero ocorrˆenciasdos operadores argumentativos nos trˆesgˆeneros. As corre¸c˜oes tamb´emapresentam o Os n´umerosda Tabela1 mostram que os ope- maior n´umerodesses operadores em valor abso- radores argumentativos e de opini˜aoe valora¸c˜ao luto. ocorrem em maior quantidade que os demais ope- Outra observa¸c˜aoa respeito dos dados da Ta- radores, nos trˆesgˆenerosanalisados. Ainda, as bela1 ´eque os operadores argumentativos ocor- corre¸c˜oesapresentam n´umerosmais pr´oximosda rem em um n´umerobem maior do que os ou- resenha que do resumo. tros operadores. Isso se deve ao fato de serem Por´em,uma an´alisepor valores absolutos n˜ao os trˆesgˆenerosdo tipo textual argumentativo e, ´esuficiente para mostrar e comparar como es- por isso, apresentam mais operadores desse tipo. sas ocorrˆenciass˜aodistribu´ıdaspelos textos es- Esse ´eum resultado esperado. Entretanto, a di- pec´ıficos que comp˜oemcada corpus. Por isso, feren¸cagrande entre as medianas e a diferen¸ca analisamos os n´umerosde ocorrˆenciasde cada num´ericaentre os gˆeneros´eum resultado ines- tipo de operador distribu´ıdospor cada texto de perado: sendo esses textos do mesmo tipo, ar- cada gˆenero, o que nos d´aa propor¸c˜aodesses ope- gumentativo, era de se esperar uma distribui¸c˜ao radores em rela¸c˜aoao n´umerode tokens de cada e quantidade de operadores mais equilibrada en- ic documento, a partir da f´ormula Pc = d , como tre eles. Como operadores argumentativos s˜ao explicitado na metodologia. Partindo-se,| | ent˜ao, marcas de subjetividade, isso nos leva a uma pri- dessa propor¸c˜ao,foram gerados boxplots, a fim de meira an´alisede que, em rela¸c˜aoa essas mar- facilitar a visualiza¸c˜aodessa distribui¸c˜ao.Os di- cas, o gˆenerocorre¸c˜aode reda¸c˜aoj´aapresenta agramas das Figuras2,3,4e5, ilustrativos para um maior grau de vi´eslingu´ıstico,na compara¸c˜ao cada tipo de operador de vi´es,s˜aomostrados a dos trˆesgˆeneros. seguir. Os pontos de discrepˆancia,ou seja, os outli- Primeiramente, temos o diagrama que mostra ers, que representam 1% da popula¸c˜aopara cima o comportamento dos operadores argumentativos ou 1% da popula¸c˜aopara baixo, tamb´emest˜ao nos trˆesgˆenerosanalisados na Figura2. presentes nos trˆesgˆeneros,mas isso indica ape- Na Figura2, a linha no meio dos retˆangulos nas que alguns textos contˆempouqu´ıssimos ope- aponta para a mediana das ocorrˆenciaspor cor- radores ou muito mais operadores do que os 50% pus. Comparando os trˆesgrupos, a mediana nas distribu´ıdos dentro do retˆangulo,n˜aotrazendo corre¸c˜oesde reda¸c˜ao´ede 0,08, nas resenhas ´e significa¸c˜aopara a an´alisede subjetividade. de 0,05 e nos resumos ´ede 0,04. Esses n´umeros O segundo diagrama a ser apresentado ´eo dos indicam que a porcentagem de ocorrˆenciades- operadores de opini˜aoe valora¸c˜aoque est´ana ses operadores nas corre¸c˜oes´emaior do que nas Figura3. resenhas e nos resumos, o que pode ser verifi- No diagrama da Figura3, as medianas divi- cado visualmente no diagrama. Essa constata¸c˜ao dem a distribui¸c˜aodos operadores de opini˜aoe tamb´em pode ser evidenciada pelos dados da valora¸c˜aode forma assim´etricanos trˆesgˆeneros. Tabela1, que apresenta o valor absoluto das A mediana nas corre¸c˜oesde reda¸c˜ao´ede 0,02, Subjetividade em corre¸c˜aode reda¸c˜oes: detec¸c˜aoautom´atica Linguamatica´ – 75

opini˜aoe valora¸c˜aoe chegam mesmo a ultrapas- sar os desvios dos textos de resenhas, em ampli- tude e em quantidade. N˜aoseria de se esperar que pudessem aparecer no corpus corre¸c˜oescom um grau de vi´esmaior do que o das resenhas. Passemos, agora, para os diagramas com os operadores de pressuposi¸c˜aoe de modalidade, que est˜aorespectivamente nas Figuras4e5.

Figura 3: Boxplot para operadores de opini˜aoe valora¸c˜ao nas resenhas ´ede 0,03 e nos resumos ´emuito pr´oximade 0. Esses n´umerosindicam que a pro- por¸c˜aodesses operadores nas resenhas ´emaior do que nas corre¸c˜oese nos resumos, o que pode ser verificado visualmente no diagrama. Esse ´e um resultado esperado, j´aque resenhas certa- Figura 4: Boxplot para operadores de pressu- mente v˜aoapresentar mais palavras que expres- posi¸c˜ao sem opini˜ao,visto que a fun¸c˜aodo gˆenero´epre- cisamente avaliar. Resumos j´aapresentam um grau baix´ıssimode operadores de opini˜aoe va- lora¸c˜ao,j´aque sua fun¸c˜ao´erelatar resultados de uma pesquisa acadˆemicada forma menos sub- jetiva poss´ıvel. Por´em,pensando nas corre¸c˜oes e em sua fun¸c˜aode ser um instrumento avalia- tivo isento, o n´umerode ocorrˆenciasdos opera- dores de opini˜aoe valora¸c˜aodeveria estar mais pr´oximodos resumos, n˜aodas resenhas. E, como podemos observar, n˜ao´eisso que ocorre, j´aque as corre¸c˜oesse aproximam mais da resenha do que do resumo acadˆemico,em rela¸c˜aoa esses marca- dores e, consequentemente, ao grau de subjeti- vidade. Essa ´emais uma evidˆenciaem dire¸c˜ao `anossa hip´oteseinicial, de que as corre¸c˜oess˜ao mais subjetivas do que se esperaria. Tamb´em os dados da Tabela1 eviden- Figura 5: Boxplot para operadores de Modali- ciam que, em termos de valor absoluto das dade ocorrˆencias dos operadores de opini˜ao e va- lora¸c˜ao,as corre¸c˜oes se aproximam mais das re- Esses dois tipos de operadores apresentam senhas do que dos resumos. E´ uma grande di- uma menor relevˆanciano grau do vi´es,pois, como feren¸caem termos num´ericos: as resenhas apre- pode ser visto nos diagramas, as medianas dos sentam 22.604 ocorrˆenciasdesses operadores, as trˆesgˆenerosn˜aoultrapassam 0,01. Entretanto, corre¸c˜oes12.742 e os resumos apenas 3.903. ainda assim, ´e poss´ıvel notar visualmente nos Os outliers do diagrama da Figura3 ainda nos boxplots que a mediana das corre¸c˜oes,tanto na d˜aoum outro tipo de evidˆencia: quando existe pressuposi¸c˜aocomo na modalidade, se aproxima algum desvio nas corre¸c˜oes,esses desvios s˜aoso- mais das resenhas. E, no n´umerodos operadores mente para cima, ou seja, documentos que se de modalidade, as corre¸c˜oeschegam a ultrapassar desviam do comportamento da maioria apresen- as resenhas. Mostramos na Tabela2 as medianas tam sempre um n´umeromaior de operadores de desses dois operadores. 76– Linguamatica´ M´arcia Can¸cado, Luana Amaral, Evelin Amorim, Adriano Veloso & Heliana Mello

Tipo de Gˆenero deveria ter um car´atermenos subjetivo. Final- operador de vi´es Corre¸c˜ao Resenha Resumo mente, como nos boxplots, a pressuposi¸c˜aoe a modalidade apresentam um n´umeromenos rele- Pressuposi¸c˜ao 0,009 0,014 0 vante para o diagn´osticode vi´esnos trˆesgˆeneros. Modalidade 0,008 0,005 0 Mas, mesmo assim, a corre¸c˜aotamb´emse apro- xima mais das resenhas do que dos resumos e, Tabela 2: Medianas para operadores de pressu- ainda, apresenta valores que chegam a superar posi¸c˜aoe modalidade aqueles encontrados para as resenhas. Com a Tabela3, que mostra os percentuais Em rela¸c˜aoaos outliers, um fato interessante de ocorrˆenciados tipos de marcadores no con- a se notar ´eque os desvios ocorrem sempre em junto de cada corpus, tomado como uma unidade, uma dire¸c˜aomaior de vi´ese em uma maior am- evidenciamos que as caracter´ısticasde subjetivi- plitude nas corre¸c˜oes, assim como ocorre para os dade encontradas para as corre¸c˜oespertencem ao operadores de opini˜aoe valora¸c˜ao. gˆenero,e n˜aoprovˆemde peculiaridades individu- Tamb´emnos valores da Tabela1 as corre¸c˜oes ais de corretores. As an´alisespor documento e a se aproximam mais das resenhas do que dos re- an´alisegeral do corpus levam `amesma conclus˜ao sumos, apresentando um valor maior para os mo- e nossos resultados indicam uma uniformidade de dalizadores. O que se pode concluir desse padr˜ao comportamento desses textos, enquanto parte de ´e que tamb´em no comportamento desses dois um mesmo gˆenerotextual. operadores, ainda que em menor relevˆancia,as Concluindo a an´alise,os resultados apresen- corre¸c˜oesse aproximam mais das resenhas, in- tados nos levam a confirmar nossa hip´otese: as clusive ultrapassando-as na categoria de moda- corre¸c˜oesde reda¸c˜aoapresentam um maior grau lidade. Esse comportamento n˜aoseria esperado, de vi´eslingu´ısticodo que o esperado para esse dada a fun¸c˜aodo gˆenerocorre¸c˜aode reda¸c˜ao.Es- gˆenerotextual. Em termos de distribui¸c˜aode ses resultados corroboram, novamente, a hip´otese operadores de vi´es,as corre¸c˜oesse aproximam levantada. mais de resenhas (o polo mais subjetivo) do que Como ´ultimaevidˆenciapara a nossa hip´otese, de resumos acadˆemicos(o polo menos subjetivo), fizemos uma compara¸c˜aoem termos de percen- at´emesmo superando as resenhas para alguns ti- tual de operadores por tipo de gˆenero,tomando pos de operadores. cada corpus como um ´unicoextrato do gˆeneroe como sendo uma popula¸c˜aohomogˆenea.Obtive- mos o resultado descrito na Tabela3. 5. Uma breve reflex˜aosobre a corre¸c˜ao das reda¸c˜oesdo ENEM Tipo de Gˆenero operador de vi´es Corre¸c˜ao Resenha Resumo Com a an´aliseapresentada aqui, vimos que os Argumentativo 0.080 0.055 0.041 textos de corre¸c˜aode reda¸c˜aose assemelham a Opini˜ao/valora¸c˜ao 0.020 0.032 0.008 resenhas. Isso evidenciou o car´atermais sub- Pressuposi¸c˜ao 0.010 0.015 0.002 jetivo, n˜aoesperado, para o gˆenero. Tal resul- Modalidade 0.009 0.006 0.002 tado coloca em d´uvidatamb´ema isen¸c˜aodo pro- cesso de corre¸c˜aodas reda¸c˜oesdo ENEM. Como Tabela 3: Percentual dos operadores por gˆenero as corre¸c˜oesde reda¸c˜aodo nosso corpus, reti- radas do banco do UOL, se assemelham muito Os dados da Tabela3 corroboram todas as `ascorre¸c˜oes das reda¸c˜oesdo ENEM, tanto nos an´alisesanteriores, feitas para a distribui¸c˜aodes- crit´eriosadotados, quanto no perfil dos correto- ses operadores por documentos de cada gˆenero. res, o resultado encontrado nesta pesquisa ´euma Primeiramente, pode-se notar que o percentual evidˆenciado poss´ıvel grau de vi´eslingu´ısticoexis- de ocorrˆenciasde operadores argumentativos, nos tente tamb´emna corre¸c˜aode reda¸c˜oesfeitas nesse trˆesgˆeneros,tamb´em´emaior do que dos outros exame. Entendemos que, para confirmarmos tal operadores. Entre os gˆeneros,as corre¸c˜oesapre- hip´otese,o ideal seria termos acesso aos textos sentam o maior n´umerodessas marcas, indicando das pr´opriascorre¸c˜oesde reda¸c˜oesdo ENEM. o maior grau de vi´es.Em rela¸c˜aoaos operadores Contudo, essa avalia¸c˜ao´efeita por uma grade de de opini˜aoe valora¸c˜ao,tamb´emtemos um maior cinco competˆencias,j´aestabelecidas pelos elabo- n´umerode ocorrˆenciaspara o gˆeneroresenha, radores da prova, em que o corretor deve apontar o esperado para um gˆeneroavaliativo e opina- uma nota espec´ıficade 0 a 200 para cada habili- tivo. O n´umerode ocorrˆenciaspara as corre¸c˜oes dade. Assim, o processo individual de como cada tamb´em´ealto e se aproxima muito mais das re- corretor chegou a uma determinada pontua¸c˜ao senhas, o que n˜ao´eesperado para um texto que fica oculto. Subjetividade em corre¸c˜aode reda¸c˜oes: detec¸c˜aoautom´atica Linguamatica´ – 77

Acrescentamos ao nosso resultado, ainda, trˆes 2014 2015 2016 outras evidˆenciasdo alto n´ıvel de subjetividade Reda¸c˜oescorrigidas 4.338.259 5.598.545 5.637.484 Submetidas a 3acorre¸c˜ao 2.823.128 2.160.115 2.162.044 das corre¸c˜oesde reda¸c˜aodo ENEM, j´aaponta- a das de forma detalhada em Mendes(2013). A Submetidas a 4 corre¸c˜ao 295.161 163.620 164.200 primeira evidˆenciadiz respeito ao processo, pro- Tabela 4: Reda¸c˜oesdo ENEM corrigidas em priamente, de corre¸c˜aodas reda¸c˜oes.As reda¸c˜oes 2014, 2015 e 2016 do ENEM s˜aosubmetidas a dois avaliadores dis- tintos, que n˜aose comunicam. Eles corrigem pelo computador em torno de 50 a 70 reda¸c˜oespor Uma ´ultimaevidˆenciavem do pr´opriotexto dia. O avaliador ´eremunerado por produtivi- dos crit´erios de corre¸c˜ao34. Esse texto, a dade; quanto mais reda¸c˜oescorrigir, maior ser´aa princ´ıpio, deveria apresentar uma sequˆenciati- remunera¸c˜ao.Um novo pacote de textos s´o´een- pol´ogica injuntiva (prescritiva), apresentando viado ao corretor quando ele j´ativer conclu´ıdoo instru¸c˜oesao alocut´arioem rela¸c˜aoa um proce- anterior. Nota-se nesse processo uma clara so- dimento. A linguagem utilizada nessa sequˆencia brecarga dos avaliadores. Nesse ponto, vale a ´emenos subjetiva e n˜aose espera a presen¸ca afirma¸c˜aofeita em Mendes(2013) (p. 450) a res- de operadores do tipo que utilizamos em nossa peito da interferˆenciado cansa¸cona atribui¸c˜ao an´alise.Entretanto, essa expectativa n˜aose cum- de notas na corre¸c˜ao:“Segundo Wolcott & Legg pre. H´av´ariasmarcas de subjetividade no texto (1998), em situa¸c˜aode cansa¸co,a aten¸c˜aodo ava- dos crit´eriosde corre¸c˜aode reda¸c˜aodo ENEM. liador come¸caa fugir, levando-o a sobrepontuar Mendes(2013) mostra que a defini¸c˜ao desses ou penalizar um texto. A tendˆencia,nesse caso, crit´eriosenvolve valores subjetivos, expressos por ´esacrificar a precis˜aopela rapidez.” modalizadores, vagueza conceitual e termos obs- Outro aspecto a se notar ´ea disparidade das curos. Aplicando a nossa lista de operadores de avalia¸c˜oes.Cada avaliador atribui uma nota en- vi´eslingu´ısticono texto, que ´ecomposto por 640 tre 0 e 200 pontos para cada uma das cinco com- palavras, observamos 51 ocorrˆenciasde operado- petˆencias,e a soma desses pontos comp˜oea nota res argumentativos, o que aponta aproximada- final de cada avaliador, que pode chegar a 1.000 mente para 8%, e 12 ocorrˆenciasde operadores de pontos. As notas atribu´ıdaspor esses avaliadores opini˜aoe valora¸c˜ao,o que representa aproxima- s˜aosomadas e ´efeita a m´ediaaritm´etica.Quando damente 2% do total de palavras do texto. N˜ao h´auma divergˆencia(mais de 100 pontos de dife- aparecem operadores de pressuposi¸c˜aoe de mo- ren¸caentre os dois corretores ou diferen¸casu- dalidade. Se os pr´oprioscrit´eriosque norteiam a perior a 80 pontos em qualquer uma das com- corre¸c˜aoapresentam alto grau de vi´eslingu´ıstico, petˆencias),essa reda¸c˜ao´esubmetida a uma ter- n˜aopodemos esperar que as corre¸c˜oessejam isen- ceira corre¸c˜aoindependente. A nota final ser´aa tas de vi´es. m´ediaaritm´eticadas duas notas totais que mais Os nossos resultados, acrescidos das trˆes se aproximarem. E, ainda havendo divergˆencia, evidˆenciasaqui apresentadas, nos levam a con- essa reda¸c˜ao´esubmetida a uma quarta corre¸c˜ao, cluir, em concordˆanciacom Mendes(2013), que feita por uma banca presencial composta por trˆes a reda¸c˜aon˜ao´eum bom instrumento avaliativo professores, que atribuir´aa nota final do candi- quando ´eimperiosa a isen¸c˜ao. dato32. Segundo dados do Inep33, o n´umerode divergˆenciaentre notas atribu´ıdas por diferentes corretores ´ebastante alto. Temos o seguinte qua- 6. Considera¸c˜oesfinais dro de corre¸c˜oesfeitas nos anos de 2014, 2015 e 2016, descrito pela Tabela4. Este artigo teve como principal objetivo demons- trar a subjetividade na corre¸c˜ao de reda¸c˜oes A partir desses dados, vemos que uma terceira atrav´es da detec¸c˜ao autom´atica de linguagem corre¸c˜ao´efeita em metade das reda¸c˜oese, ainda, enviesada. Fizemos uma an´alise quantitativa em torno de 200.000 reda¸c˜oess˜aosubmetidas a de operadores de vi´es lingu´ıstico em textos uma quarta corre¸c˜ao. Esses n´umeroscorrobo- de corre¸c˜ao de reda¸c˜ao, coletados no banco ram a nossa hip´otesede que tamb´emno ENEM a de reda¸c˜oesdo UOL. Assumimos, a partir da corre¸c˜ao´ealtamente subjetiva, j´aque n˜aoh´auni- Semˆantica Argumentativa, que h´a certas pa- formidade nas notas atribu´ıdasem muitos casos. lavras e express˜oes que explicitam pontos de 32Ver como se d´a esse processo em: http: vista e a distribui¸c˜aonum´ericadesses itens no //download.inep.gov.br/educacao_basica/enem/ texto pode indicar graus de subjetividade, o vi´es guia_participante/2017/manual_de_redacao_do_enem_ 2017.pdf. 34Dispon´ıveis em: http://download.inep.gov.br/ 33Fonte: Pedido de informa¸c˜ao SIC - Inep no educacao_basica/enem/guia_participante/2017/ 23480.004970/2017-81 manual_de_redacao_do_enem_2017.pdf. 78– Linguamatica´ M´arcia Can¸cado, Luana Amaral, Evelin Amorim, Adriano Veloso & Heliana Mello lingu´ıstico. A partir disso, elaboramos uma lista of the challenge of tagging a reference corpus desses operadores, baseados na classifica¸c˜aoen- for brazilian portuguese. Em 6th international contrada em Koch(2011, 2015). Essa lista foi, as- conference on Computational processing of the sim, aplicada ao corpus de corre¸c˜oesde reda¸c˜ao. Portuguese language (PROPOR), 110–117. Foram tamb´emanalisados esses operadores de vi´eslingu´ısticoem resumos acadˆemicose em rese- Alu´ısio,Sandra Maria & Gladis Maria de Barcel- nhas de produtos publicadas em sites de vendas los Almeida. 2006. O que ´ee como se constr´oi na internet. Esses resultados num´ericosforam um corpus? li¸c˜oesaprendidas na compila¸c˜ao comparados aos resultados encontrados para as de v´arios corpora para pesquisa lingu´ıstica. corre¸c˜oes,utilizando como ferramenta estat´ıstica Calidosc´opio 4(3). 156–178. o gr´afico boxplot. Para essa compara¸c˜ao,parti- Anscombre, Jean-Claude & Oswald Ducrot. mos do pressuposto de que resumos acadˆemicos 1976. L’argumentation dans la langue. Lan- s˜aomenos subjetivos e resenhas s˜aomais subjeti- gages 42. 5–27. vas. Nosso prop´ositoera, assim, verificar de qual polo de subjetividade as corre¸c˜oesmais se apro- Conrad, Alexander, Janyce Wiebe & Rebecca ximavam, maior subjetividade ou menor subjeti- Hwa. 2012. Recognizing arguing subjectivity vidade. and argument tags. Em Workshop on extra- propositional aspects of meaning in computati- Considerando a importˆanciada reda¸c˜aoem onal linguistics, 80–88. processos seletivos, espera-se que um texto como a corre¸c˜aode uma reda¸c˜aon˜aoapresente um Damasceno, Adriana Carla, Rafael Andrade, alto n´ıvel de vi´eslingu´ıstico,aproximando-se do Israel Almeida, Mayrlla Lopes & Silvana grau de subjetividade encontrado em resumos N´obrega.2016. Descrevendo o uso dos compu- acadˆemicos. Por´em,nossa an´aliseapontou para tadores nas escolas p´ublicasda para´ıba. Re- a dire¸c˜aooposta a essa expectativa. A an´alise vista Brasileira de Inform´atica na Educa¸c˜ao quantitativa revela que os textos de corre¸c˜aode 24(3). 10.5753/rbie.2016.24.3.47. reda¸c˜aoapresentam um n´umeroalto de opera- dores de vi´es, quando comparados aos demais Ducrot, Oswald. 1987. O dizer e o dito. Pontes gˆeneros,se aproximando do polo mais subjetivo Editores. e, at´emesmo, superando os textos desse polo, as Fiorin, Jos´eLuiz. 2007. A linguagem em uso. resenhas, para alguns operadores. Assim, apon- Em Ana Scher, Antonio V. Pietroforte, Di- tamos como conclus˜aoem nossa pesquisa que h´a ana P. Barros, Esmeralda V. Negr˜ao,Evani um alto grau de subjetividade na corre¸c˜aode Viotti, Luiz Tatit, Margarida Petter, Paulo reda¸c˜oes. Consideramos que tal resultado n˜ao Chagas, Raquel Santos & Ronald Beline (eds.), ´eo desejado para um gˆenerotextual que deve- Introdu¸c˜ao`aLingu´ıstica, 165–185. S˜aoPaulo: ria apresentar um baixo grau de subjetividade, Editora Contexto. devendo, a princ´ıpio,se voltar para os crit´erios de corre¸c˜ao,e n˜aopara a opini˜aodo corretor. Hartmann, Nathan, Lucas Avan¸co,Pedro Paulo Ainda, estando nossos resultados de acordo com Balage Filho, Magali Sanches Duran, Ma- o que j´aapontou Mendes(2013), conclu´ımosque ria Das Gra¸casVolpe Nunes, Thiago Alexan- os resultados obtidos atrav´esda an´alisedo nosso dre Salgueiro Pardo & Sandra M Alu´ısio.2014. corpus indicam a subjetividade do processo ava- A large corpus of product reviews in portu- liativo como um todo. guese: Tackling out-of-vocabulary word. Em International Conference on Language Resour- ces and Evaluation (LREC), 3865–3871. Agradecimentos Hooper, Joan B. 1974. On assertive predicates. Agradecemos ao Prof. Frederico R.B. Cruz Indiana University Linguistics Club. (DEST/UFMG) as ´uteisorienta¸c˜oesem rela¸c˜ao Japiass´u, Andr´e Miguel. 2013. Como ela- `a an´alise estat´ıstica. Os professores M´arcia borar e submeter resumos de trabalhos ci- Can¸cado,Adriano Veloso e Heliana Mello agra- ent´ıficos para congressos. Revista Bra- decem o apoio financeiro do CNPq. sileira de Terapia Intensiva 25(2). 77–80. 10.5935/0103-507X.20130016. Referˆencias Karttunen, Lauri. 1971. Implicative verbs. Lan- guage 47(2). 340–358. 10.2307/412084. Alu´ısio, Sandra, Jorge Pelizzoni, Ana Raquel Marchi, Luc´eliade Oliveira, Regiana Manenti Kiparsky, Paul & Carol Kiparsky. 1968. Fact. & Vanessa Marquiaf´avel. 2003. An account Linguistics Club, Indiana University. Subjetividade em corre¸c˜aode reda¸c˜oes: detec¸c˜aoautom´atica Linguamatica´ – 79

Koch, Ingedore Grunfeld Villa¸ca.2011. Argu- Rodrigues, Ricardo, Hugo Gon¸calo Oliveira & menta¸c˜aoe linguagem. Cortez Editora 13th Paulo Gomes. 2014. LemPORT: a high- edn. accuracy cross-platform lemmatizer for por- tuguese. Em 3rd Symposium on Langua- Koch, Ingedore Grunfeld Villa¸ca.2015. A in- ges, Applications and Technologies, 267–274. tera¸c˜aopela linguagem. Editora Contexto 11th 10.4230/OASIcs.SLATE.2014.267. edn. Sardinha, Tony Berber. 2002. Tamanho de cor- Lane, David M, David Scott, Mikki Hebl, Rudy pus. The Especialist 23(2). 103–122. Guerra, Dan Osherson & Heidi Zimmer. 2017. Introduction to statistics, online edition. Rice Somasundaran, Swapna & Janyce Wiebe. 2010. University, University of Houston Clear Lake, Recognizing stances in ideological on-line de- and Tufts University. bates. Em Workshop on Computational Appro- aches to Analysis and Generation of Emotion Levin, Beth & Malka Rappaport Hovav. 1995. in Text, 116–124. Unaccusativity: At the syntax-lexical seman- tics interface. MIT press. Turney, Peter D. 2002. Thumbs up or thumbs down?: semantic orientation ap- Lin, Chenghua, Yulan He & Richard Everson. plied to unsupervised classification of revi- 2011. Sentence subjectivity detection with ews. Em 40th Annual Meeting of the Associ- weakly-supervised learning. Em 5th Interna- ation for Computational Linguistics, 417–424. tional Joint Conference on Natural Language 10.3115/1073083.1073153. Processing, 1153–1161. Wiebe, Janyce, Theresa Wilson, Rebecca Lin, Wei-Hao, Theresa Wilson, Janyce Wiebe & Bruce, Matthew Bell & Melanie Mar- Alexander Hauptmann. 2006. Which side are tin. 2004. Learning subjective language. you on?: identifying perspectives at the do- Computational linguistics 30(3). 277–308. cument and sentence levels. Em 10th confe- 10.1162/0891201041850885. rence on computational natural language lear- ning, 109–116. Wolcott, Willa & Sue M Legg. 1998. An overview of writing assessment: Theory, research, and Liu, Bing, Minqing Hu & Junsheng Cheng. 2005. practice. ERIC. Opinion observer: analyzing and comparing opinions on the web. Em 14th internatio- Yano, Tae, Philip Resnik & Noah A Smith. 2010. nal conference on World Wide Web, 342–351. Shedding (a thousand points of) light on biased 10.1145/1060745.1060797. language. Em Workshop on Creating Speech and Language Data with Amazon’s Mechanical Marcuschi, Luiz Antˆonio.2002. Gˆenerostextuais: Turk, 152–158. defini¸c˜aoe funcionalidade. Em Angela Paiva Dionisio; Anna Rachel Machado; Maria Auxili- Yule, George. 1996. Pragmatics. Oxford Univer- adora Bezerra (ed.), Gˆeneros textuais e ensino, sity Press. 19–36. Lucerna. Mendes, Eliana Amarante de Mendon¸ca.2013. A avalia¸c˜aoda produ¸c˜aotextual nos vestibu- lares e outros concursos: a quest˜aoda sub- jetividade. Avalia¸c˜ao: Revista da Avalia¸c˜ao da Educa¸c˜aoSuperior (Campinas) 18(2). 435– 458. 10.1590/S1414-40772013000200011. Motta-Roth, D´esir´ee& Graciela Rabuske Hend- ges. 2010. Produ¸c˜aotextual na universidade. Par´abola Editorial. Pires de Oliveira, Roberta. 2001. Semˆantica for- mal: uma breve introdu¸c˜ao. Mercado de Le- tras. Recasens, Marta, Cristian Danescu-Niculescu- Mizil & Dan Jurafsky. 2013. Linguistic models for analyzing and detecting biased language. Em 51st Annual Meeting of the Association for Computational Linguistics, 1650–1659.

Proposta recebida em Janeiro 2020 e aceite para publica¸c˜aoem Maio 2020.

Periodiza¸c˜aoautom´atica: Estudos lingu´ıstico-estat´ısticosde literatura lus´ofona Automatic literary school assignment: Linguistic-statistical studies of lusophone literature

Diana Santos Emanoel Pires Linguateca & Universidade de Oslo Universidade Estadual do Maranh˜ao [email protected] [email protected] Cl´audiaFreitas Rebeca Schumacher Fu˜ao Linguateca & PUC-Rio Linguateca [email protected] [email protected] Jo˜aoMarques Lopes Linguateca [email protected]

Resumo Abstract

Neste artigo usamos um conjunto de carac- In this paper we use a set of syntactic and seman- ter´ısticas sint´atico-semˆanticas da l´ıngua portuguesa tic features of Portuguese to automatically classify li- para classificar em per´ıodos liter´ariosdois conjuntos terary works in literary periods and/or schools, and de obras. Em que medida tais caracter´ısticass˜aoca- address the issue of their appropriateness, for two dif- pazes de refletir distin¸c˜oesrelevantes no ˆambito dos ferent literary collections. estudos liter´arios´euma das quest˜oesque pretendemos The first task attempts to replicate the work by investigar. Barufaldi and colleagues, who applied compression O primeiro grupo de obras corresponde `a re- methods on 37 Brazilian works by 15 different authors plica¸c˜aodo trabalho relatado em 2009 por Barufaldi and classified the works in 4 different literary schools. et al., que usaram m´etodos de compress˜aode dados The second collection, of 192 novels published in sobre uma s´eriede obras brasileiras classificadas em Portugal and Brazil in the period 1840 to 1919, fea- quatro per´ıodos liter´arios: barroco, arcadismo, ro- tures many works who cannot be singly accomodated mantismo e realismo, desde o Padre Ant´onioVieira in one literary school only, and which have been (not at´eRaul Pomp´eia,contabilizando 15 autores diferen- mutually exclusively) classified as romantic, realist, tes e totalizando 37 obras. naturalist, symbolist, decadent and modernist. O segundo grupo inclui muito mais obras (192), We use classification techniques in R, such as dis- tanto portuguesas como brasileiras, mas apenas in- criminant analysis and support vector models for the tegra romances ou novelas publicadas no per´ıodo de first task, and correspondence analysis for the second 1840 a 1919. As escolas liter´ariasescolhidas foram o realismo, o romantismo, o simbolismo, o naturalismo, collection. We also apply topic modeling to (distinct o decadentismo e o modernismo, mas, ao contr´ario subsets of) the second collection in order to investi- da classifica¸c˜aoanterior, permitimos que uma mesma gate whether this technique can provide us with re- obra perten¸caa v´ariasescolas. current topics for different literary schools. Usamos t´ecnicasde classifica¸c˜aoem R para a pri- Keywords meira tarefa, e an´alisede correspondˆenciaspara a se- gunda. Tamb´emaplicamos t´ecnicasde modelos de distant reading, corpus linguistics, literary school, t´opicos`asegunda cole¸c˜aopara ver se ´eposs´ıvel obter Portuguese, Brazilian literature, Portuguese litera- t´opicosrepresentativos de escolas liter´ariasdiferen- ture, lusophone literature tes. 1. Introdu¸c˜ao Palavras chave O objetivo do presente artigo ´eavaliar se a in- leitura distante, lingu´ıstica com corpos, literatura forma¸c˜aolingu´ısticaque temos vindo a associar, lus´ofona,escola liter´aria,portuguˆes,literatura bra- em estudos lingu´ısticosda l´ınguaportuguesa, a sileira, literatura portuguesa v´ariasobras liter´ariaspode tamb´emser usada para responder a quest˜oesdo foro dos estudos liter´arios.

DOI: 10.21814/lm.12.1.314 Linguamatica´ — ISSN: 1647–0818 This work is Licensed under a Creative Commons Attribution 4.0 License Vol. 12 N´um. 1 2020 - P´ag. 81–95 82– Linguamatica´ Diana Santos, Emanoel Pires, Cl´audia Freitas, Rebeca S. Fu˜ao& Jo˜aoM. Lopes

Para tal, compil´amos uma lista de carac- A partir da anota¸c˜aomorfossint´aticado PA- ter´ısticas sint´aticas e semˆanticas a que temos LAVRAS, levamos especificamente em conta em acesso na Literateca (Santos, 2019b; Santos & nossa an´alise a presen¸ca de adjetivos (´ındices Sim˜oes, 2019) e us´amo-lasem dois problemas, de qualifica¸c˜ao)e nomes pr´oprios(instˆanciasde que passamos a descrever sucintamente: classes gen´ericascomo pessoas/personagens e lo- cais, entre outros); a presen¸cae a distribui¸c˜ao atribuir 37 obras de 15 autores brasileiros dife- de constru¸c˜oescomo voz passiva ou a forma pro- rentes a quatro per´ıodos liter´arios,replicando gressiva; ora¸c˜oesrelativas e completivas (´ındices um trabalho anterior feito com m´etodos de de complexidade estrutural); a presen¸cade coor- compress˜ao dena¸c˜oese conjun¸c˜oescoordenativas, bem como organizar 192 romances ou novelas de auto- de v´ırgulase outros sinais de pontua¸c˜ao(´ındices res portugueses e brasileiros publicadas entre de ritmo). As indica¸c˜oesde tempo, modo e as- 1840 e 1919, tentando apreciar semelhan¸cas peto verbal tamb´emforam consideradas potenci- entre autores e escolas liter´arias,seguindo a ais elementos caracterizadores (especificamente o proposta de Santos et al.(2018b) inspirada modo conjuntivo, o pret´eritoperfeito composto, por Moretti(2000) o pret´eritoimperfeito, o perfeito, o mais que per- feito e os aspetualizadores), bem como a pre- A nossa posi¸c˜ao´ea de explorar a informa¸c˜aoque sen¸cade verbos na primeira pessoa, e de palavras temos e n˜aoa de demonstrar que estes m´etodos no g´eneromorfol´ogicofeminino. Pontos de ex- resolvem os problemas liter´arios.Na medida em clama¸c˜ao,de interroga¸c˜aoe travess˜oes,e elemen- que for poss´ıvel encontrar formas de identificar tos de nega¸c˜aotamb´emforam utilizados como semelhan¸case grupos que concordem com a au- ´ındicespotencialmente caracterizadores de auto- toridade liter´aria,ou que levem a perguntas per- res, obras e/ou estilos. tinentes, estes m´etodos de leitura distante po- De um ponto de vista estil´ıstico,o n´umerode der˜aocontribuir para os estudos liter´arios. Se, palavras por frase ´eum elemento que costuma pelo contr´ario,indicarem outros agrupamentos, ser utilizado na diferencia¸c˜aode autores e obras tal n˜aodeve ser considerado como uma teoria al- —veja-se, por exemplo, a mat´eriade Almeida & ternativa, mas apenas como demonstrando que Mariani(2019), que utiliza este tra¸copara pro- as caracter´ısticasescolhidas n˜aoeram relevantes duzir gr´aficosrelativos a obras da literatura bra- para o problema em quest˜ao. sileira —, e por isso usamos o n´umerode frases Em rela¸c˜ao`asobras usadas como material por obra. para a nossa pesquisa, a lista exata encontra-se Al´emda anota¸c˜aomorfossint´atica,o material em apˆendice. Al´emde material compilado pela da Literateca conta tamb´emcom a anota¸c˜aode pr´opriaLinguateca, usamos textos gentilmente diversos campos semˆanticos1. Neste trabalho, le- cedidos pelos seguintes projetos irm˜aos Corpus vamos em conta os campos dos verbos de fala, Hist´orico do PortuguˆesTycho Brahe (Galves & da sa´ude/doen¸ca,cores, corpo humano, fam´ılia, Faria, 2010) e Colonia - Corpus of Historical roupas e emo¸c˜oes. Portuguese (Zampieri & Becker, 2013). Exceto Com rela¸c˜aoao campo do dizer Freitas et al. no caso dos textos provenientes do corpo PAN- (2016), partimos de um l´exico de verbos es- TERA (Santos, 2019c), trabalhamos com textos pec´ıficos e de regras que indicam se os verbos completos. est˜aosendo utilizados para introduzir a fala de algu´em(relato direto ou indireto) ou se apenas 2. Caracter´ısticasusadas se trata da men¸c˜aoa algum evento comunica- tivo (“. . . e n˜aofalou mais no assunto”). Como Na Literateca, al´emdo acesso ao texto em for- caracter´ısticas,usamos trˆes:verbos de relato di- mato eletrˆonico,temos a vantagem de ter (e dis- reto, verbos de relato indireto, e verbos de fala ponibilizar para consulta) todo o material ano- somente. tado gramatical e semanticamente. A anota¸c˜ao O campo semˆantico das emo¸c˜oesconta com morfossint´atica´e feita pelo analisador PALA- variadas palavras, de diferentes classes gramati- VRAS (Bick, 2000). cais, distribu´ıdas em 24 grandes grupos, como Para ambas as tarefas calcul´amosum conjunto amor, coragem, desejo, desespero, felicidade, extenso de caracter´ısticasde cada texto (128) que nos pareceram de interesse para uma poss´ıvel des- 1Por campo semˆantico denotamos uma ´areade conhe- cri¸c˜aodo estilo, que passamos a elencar. cimento refletida na l´ıngua,como a cor, ou a fam´ılia. In- felizmente este ´eum uso completamente distinto daquele que ´edefinido pelo Dicion´arioTerminol´ogico,conforme nos chamou a aten¸c˜ao Alvaro` Iriarte Sanroman. Periodiza¸c˜aoautom´atica: Estudos lingu´ıstico-estat´ısticos de literatura lus´ofona Linguamatica´ – 83 f´uria, admira¸c˜ao, inveja e medo, entre outros 3. Primeira tarefa: repetir o trabalho (veja-se o Emocion´ario2 para sua documenta¸c˜ao de Barufaldi et al. cabal). O n´umerode palavras em cada um destes grupos ´euma caracter´ıstica,assim como o total Barufaldi et al.(2010) usaram m´etodos de com- de palavras de emo¸c˜ao. press˜ao de dados sobre uma s´erie de obras No campo da sa´ude(Santos, 2019a), usamos brasileiras classificadas em quatro per´ıodos li- os seguintes indicadores: o n´umerode palavras ter´arios: barroco, arcadismo, romantismo e re- desse campo, a presen¸cado lema dor, e a pre- alismo, desde o Padre Ant´onioVieira at´eRaul sen¸cade palavras dos subcampos progress˜ao(da Pomp´eia,contabilizando 15 autores diferentes e doen¸ca),causa (da doen¸ca),palavras gen´ericas totalizando 37 obras. sobre sa´udeou doen¸ca,rem´edios,acess´orios(re- Tentando obter exatamente o mesmo material lacionados com sa´ude/doen¸ca), medicina e sa´ude utilizado por Barufaldi et al.(2010), optamos, psicol´ogica. sempre que poss´ıvel, por obras que est˜aodispo- No campo da cor (Silva & Santos, 2012), usa- nibilizadas em s´ıtioscomo o da Biblioteca Digi- mos o total de palavras de cor, o total de pa- tal de Literaturas de L´ıngua Portuguesa4 e do lavras de cor com sentido de cor, assim como o Dom´ınioP´ublico5. Ainda assim, como ´erestrita n´umerode palavras pertencente a cada grupo de a informa¸c˜aomencionada pelos autores no que cor (Laranja, Vermelho, Dourado, etc.) e o total diz respeito `asedi¸c˜oesutilizadas, ´eposs´ıvel que de palavras de cor com sentido n˜aocor, ou seja, haja mudan¸cas,ainda que m´ınimasem alguns ca- presentes em express˜oesfixas como buraco negro, sos, nos textos das obras escolhidas. Ademais, a luz verde, lista negra. publica¸c˜aoinicial em folhetim e posterior edi¸c˜ao Para o corpo humano (Freitas et al., 2015), em formato livro tamb´empode ser outro fator usamos o total de palavras de corpo, o total de que acarrete varia¸c˜oesnas edi¸c˜oesescolhidas. So- palavras de corpo com sentido literal, e o n´umero bre altera¸c˜oesnas edi¸c˜oesdas obras de Machado de palavras pertencentes a cada parte do corpo de Assis, por exemplo, conferir Campos(2018). (Cabe¸ca,Sexual, Pernas, etc). De todo modo, parece-nos que a poss´ıvel dis- Para a roupa (Santos et al., 2011), usamos o tin¸c˜aomais radical entre os arquivos das obras total de palavras de roupa, e o n´umerode pala- utilizadas possa estar em 14 de Julho na Ro¸ca, de vras pertencentes a cada grupo de roupa (Cal¸cas, Raul Pomp´eia.Como se trata de uma coletˆanea RoupaDormir, Cal¸cado,etc.). de contos nomeada de Contos na Biblioteca de Finalmente, para o campo da fam´ıliausamos o Literaturas de L´ınguaPortuguesa e de 14 de Ju- n´umerode palavras relacionadas com a fam´ılia, lho na Ro¸ca no s´ıtiodo Dom´ınioP´ublico,restou assim como o campo mais espec´ıfico de paren- a d´uvidase os autores utilizaram apenas o conto tesco. Veja-se o trabalho de Higuchi et al.(2019) inicial, intitulado de 14 de Julho na Ro¸ca, ou se a para uma motiva¸c˜aodeste campo. obra completa. Como estamos tratando de tex- tos escritos pelo mesmo autor e em um espa¸co A lista completa, por ordem alfab´etica, 3 de tempo muito pr´oximo,optamos por utilizar encontra-se no s´ıtio da Linguateca . Conv´em a obra completa, admitindo que todos os contos esclarecer que a marca¸c˜ao destes campos tˆemo mesmo estilo de ´epoca. semˆanticos ´efeita automaticamente atrav´esde regras, e tem alguma margem de erro. Quanto ao processo computacional, aplic´amos duas t´ecnicas(Baayen, 2008) usando o ambiente Uma primeira discuss˜aodestes indicadores no R(R Core Team, 2018), empregando as carac- contexto da literatura est´apresente em Santos ter´ısticasdescritas acima para o mesmo fim: (2019b). Mas desde esse trabalho, que data de 2017 embora apenas tenha sido publicado em an´alisede discriminantes com base em compo- 2019, adicion´amosv´ariascaracter´ısticase v´arias nentes principais (ver Figuras123) obras. m´aquinasde vetores de apoio (support vector machines) (ver Tabela1)

2https://www.linguateca.pt/Gramateca/ Emocionario.html 4https://www.literaturabrasileira.ufsc.br/ 3https://www.linguateca.pt/Gramateca/ 5http://www.dominiopublico.gov.br/pesquisa/ Literateca/lista_caracteristicas.txt PesquisaObraForm.jsp 84– Linguamatica´ Diana Santos, Emanoel Pires, Cl´audia Freitas, Rebeca S. Fu˜ao& Jo˜aoM. Lopes

Figura 1: An´alisede discriminantes, global

arcad. barr. real. romant. sificada erroneamente. As causas podem estar relacionadas ao conjunto de caracter´ısticasmar- arcadismo 3 2 0 0 cadas nas obras e utilizadas como parˆametronas barroco 0 7 0 0 an´alises como, tamb´em, `a falta de marca¸c˜oes realismo 0 0 10 3 que estejam mais relacionadas com elementos romantismo 0 1 0 11 que sinalizem de maneira mais efetiva o estilo na poesia, como os processos de acomoda¸c˜ao Tabela 1: Resultado da classifica¸c˜ao com sil´abica. Mittmann et al.(2016) utilizam uma fer- m´aquinasde vetores de apoio ramenta de escans˜aoautom´atica, o Aoidos6, que, em estudos futuros, poder´aajudar nos casos de Ainda n˜aonos est´asuficientemente claro os confus˜ao. motivos por detr´asda nossa classifica¸c˜aoequivo- Sobre , de Jos´ede Alencar, ter sido cada das obras O Uraguai, de Bas´ılioda Gama, classificado como pertencente ao Barroco, mesmo e Coletˆanea de obras, de Alvarenga Peixoto. sendo em prosa, a hip´oteseinicial com a qual tra- Em Barufaldi et al.(2010), a Coletˆanea de obras l´ıricas, de Greg´oriode Matos, tamb´emfoi clas- 6https://aoidos.ufsc.br/ Periodiza¸c˜aoautom´atica: Estudos lingu´ıstico-estat´ısticos de literatura lus´ofona Linguamatica´ – 85

4. Segunda tarefa: romances e novelas portugueses e brasileiros do per´ıodo 1840–1919

O segundo conjunto de obras pode ser mais com- plexo de classificar, visto que se refere a um per´ıodo de apenas 80 anos, e a duas formas muito semelhantes: o romance e a novela, am- bas correspondentes `a novel inglesa, da´ıa raz˜ao da am´algama7. Cont´emautores que, devido `a sua longevidade e/ou g´enio, produziram obras que s˜aotradicionalmente consideradas de escolas diferentes, e possui elementos que muitos estudi- osos consideram inqualific´aveis, por ´unicos.

Figura 2: An´alisede discriminantes, mostrando o primeiro e o segundo

Figura 4: Segundo conjunto de obras por data de publica¸c˜ao

N˜aocabendo fazer aqui a discuss˜aoporme- norizada do assunto, limitamo-nos a sinalizar Figura 3: An´alisede discriminantes, mostrando dois exemplos de complexidade e singularidade, o segundo e o terceiro remetendo o leitor para a lista de referˆencias consultadas8. O primeiro ´e O Ateneu, do bra- sileiro Raul Pompeia, que tem uma longa re- cep¸c˜aocr´ıtica em que uns o consideram natu- balhamos diz respeito ao tamanho m´ediodas fra- ralista ou realista, outros o tacham de impres- ses do romance de Alencar, que, por serem muito sionista, outros indicam o predom´ınio do sim- curtas, se diferenciam em muito do estilo empre- bolismo e h´aainda quem assinale o expressio- gado nos demais romances do per´ıodo romˆantico nismo ou o cruzamento de duas ou mais esco- que foram inclu´ıdos na an´alise. las no seu interior, conforme se pode consta- tar nos estudos de Ara´ujo(2011) e de Quin- Seja como for, os resultados indicam que es- tale Neto(2007). O segundo ´e Os Maias, do tas caracter´ısticasparecem ser apropriadas para distinguir entre os quatro per´ıodos ou escolas li- 7Convir´aa este prop´ositomencionar que o interesse ter´ariasselecionados pelos nossos antecessores, especial por este per´ıodo vem da a¸c˜ao COST Distant embora com uma leve tendˆenciaa privilegiar o Reading for European Literary History, https://www. barroco. Mas pensamos que a tarefa pode ter distant-reading.net/, em cujo ˆambito estamos a pro- sido demasiado simples, dado que os diferentes duzir duas cole¸c˜oesde obras em portuguˆes,uma cole¸c˜ao portuguesa Herrmann et al.(2020) e uma cole¸c˜aolus´ofona, per´ıodos tamb´emimplicam diferen¸cast˜aoabis- tamb´em com obras brasileiras do mesmo per´ıodo. sais como poesia vs. prosa e correspondem a 8Acess´ıvel de https://www.linguateca.pt/OBRAS/ ´epocas razoavelmente distintas. siglas_Literateca.pdf 86– Linguamatica´ Diana Santos, Emanoel Pires, Cl´audia Freitas, Rebeca S. Fu˜ao& Jo˜aoM. Lopes portuguˆesE¸cade Queir´os,em cuja classifica¸c˜ao Escola liter´aria Quantos Carlos Reis (Reis, 2012), reconhecidamente um decadentismo 1 dos maiores especialistas neste autor, oscila expressionismo 1 entre realismo, naturalismo e p´os-naturalismo. expressionismo-simbolismo 1 Na Literateca, e n˜ao querendo escolher en- ficcaocient 1 tre as v´ariasescolas, O Ateneu est´amarcado hist´orico 3 como impressionismo-naturalismo-realis- historico-romantismo 2 mo-simbolismo, e Os Maias como realis- impress.-natural.-realismo-simbol. 1 mo-naturalismo-p´os-naturalismo9. indianismo-romantismo 2 modernismo 2 Portanto, isso fez com que a tarefa de atribuir naturalismo 12 um r´otuloa cada obra n˜aofosse algo linear, indo naturalismo-realismo 2 de casos cuja taxinomia foi efetivamente un´ıvoca naturalismo-realismo-romantismo 1 (por exemplo, ningu´emduvida de que Eurico, o naturalismo-regionalismo 1 presb´ıtero, de Alexandre Herculano, ´eum marco picaresco-realismo 1 do romantismo portuguˆes)a casos mais compli- realismo 20 cados como os que acabamos de referir. realismo-naturalismo 8 realismo-pos-naturalismo 1 Devido `afacilidade em adicionar a informa¸c˜ao realismo-posnaturalismo 5 de que nos encontr´avamos em presen¸cade um realismo-regionalismo-romantismo 3 romance hist´orico,essa classifica¸c˜aofoi tamb´em realismo-romantismo 1 adicionada aquando da classifica¸c˜ao (e cobriu regionalismo 2 apenas obras classificadas como romantismo). romantismo 78 Vale ainda mencionar que algumas obras n˜ao romantismo-decadentismo 1 possuem uma classifica¸c˜ao,e muitas vezes nem romantismo-hist´orico 16 romantismo-indianismo 1 s˜aocitadas, em nenhuma obra de referˆenciaso- romantismo-indianismo-hist´orico 1 bre a hist´oriada literatura de Portugal ou Brasil. romantismo-realismo 15 Isso ocorre porque n˜aos˜aoobras canˆonicas. Nes- romantismo-realismo-naturalismo 5 ses casos, foi preciso desenvolver um m´etodo que romantismo-regionalismo 3 nos permitisse classificar essas obras de forma co- simbolismo 1 erente com o conjunto que possu´ımos. Primeiramente, realizamos um mapeamento Tabela 2: Escolas liter´ariasatribu´ıdas de caracter´ısticasque nos permitissem identificar a escola `aqual uma obra pertence, tais como: seguido de Machado de Assis com 13, Alu´ısiode tempo, narrador, espa¸co,personagens, temas, fi- Azevedo com 11, E¸cade Queir´oscom 11, Jos´e nais felizes ou infelizes, etc. Ap´osesse mapea- de Alencar com 9, J´ulio Dinis com 8, e Alexan- mento, partimos para a leitura de trechos ou da dre Herculano com 6. Os restantes autores tˆem obra completa para ent˜aodiscutir e determinar entre uma a quatro obras nesta cole¸c˜ao. (Cinco em que escola poder´ıamosenquadr´a-la. obras s˜aotraduzidas, duas por Machado de Assis, O resultado deste trabalho encontra-se suma- uma por E¸cade Queir´os,outra por Camilo Cas- riado na Tabela2. telo Branco, e uma adaptada por Pedro Supico Dito isso, a cole¸c˜aoque us´amos´ea seguinte: de Morais. Estas obras s˜ao´uteispara servirem todos os romances e novelas em portuguˆesem for- de teste.) mato eletr´onicoa que t´ınhamosacesso `adata de Na Figura4 pode ver-se a distribui¸c˜aoda data 25 de outubro de 2019 —est˜aoem curso diver- de publica¸c˜aodestas obras por per´ıodos de cinco sas iniciativas para aumentar este acervo, mas anos. estes s˜aoos que pudemos coligir nessa altura e Uma an´alisede correspondˆenciasmostra-nos que foram publicados no per´ıodo j´amencionado como as caracter´ısticasque selecion´amoscolocam (1840-1919). os diferentes autores, e as diferentes escolas, no Isso corresponde a 192 obras (listadas no plano definido por estas. anexo), das quais 123 portuguesas e 69 brasilei- Na Figura5 vˆe-secada obra com uma cor di- ras. O autor com mais obras ´eCamilo com 37, ferente por autor, al´emde apresentar as carac- ter´ısticasmais discriminadoras neste conjunto de 9De notar que a escolha das classes foi feita com base obras a vermelho, nomeadamente o n´umerode nos especialistas que sobre os autores e obras se pronun- completivas, de interrogativas, a men¸c˜aode hu- ciaram, o que resultou em que por exemplo apenas um autor, E¸cade Queir´os,tem (em algumas obras) a classi- mildade e a referˆenciaa medicina ou progress˜ao fica¸c˜ao p´os-naturalismo, e uma autora, Ana de Castro de uma doen¸ca. Os´orio, p´os-romantismo. Periodiza¸c˜aoautom´atica: Estudos lingu´ıstico-estat´ısticos de literatura lus´ofona Linguamatica´ – 87

Vemos que h´aautores, como Alu´ısiode Aze- Nova escola liter´aria Quantos vedo e J´ulioDinis, que s˜aobem fi´eisa si pr´oprios, definindo portanto ´areasbem claras no plano, en- expressionismo 1 quanto que outros, como Machado de Assis ou ficcaocient 1 E¸cade Queir´os,tˆemobras espalhadas por v´arios modernismo 2 quadrantes. naturalismo 12 realismo 42 Olhando apenas para as obras destes qua- romantismo 131 tro autores, ´einteressante reparar que, enquanto simbolismo 3 as obras mais extremas de Machado s˜ao as tradu¸c˜oes(uma em cada extremo da Figura6), Tabela 3: Escola liter´ariasimplificada no caso de E¸cade Queir´os(Figura7) a tradu¸c˜ao n˜aose demarca de forma alguma das suas ou- num. t´opico tras obras. N˜aocabe aqui a an´alisedo perfil des- tes autores como tradutores10, mas notamos que 13 porta rua janela parede luz esse ser´aum tema interessante para os estudos 16 homem arma inimigo soldado guerra de tradu¸c˜ao,assim como ´eum argumento para 52 padre santo igreja missa religi˜ao analisar a obra de escritores incluindo tamb´em 59 cavalo caminho estrada homem cavaleiro as tradu¸c˜oesque escreveram. 90 sala baile festa sal˜aosociedade 93 livro poeta romance verso obra Nas Figuras8e9, relativas a Alu´ısiode Aze- vedo e a J´ulioDinis, as obras encontram-se mais Tabela 4: T´opicosobtidos sobre as obras clas- perto no plano. sificadas como romˆanticas Repare-se que o canto superior esquerdo, na Figura5 ´equase s´oCamilo, que tamb´emtem obras no canto inferior esquerdo. Lembramos que 5. An´alisede t´opicos o nosso conjunto n˜ao´ebalanceado entre autores, nem entre escolas liter´arias, como o demonstra a Desviando-nos um pouco da an´aliselingu´ıstica, Figura 10. resolvemos tamb´em usar o m´etodo estat´ıstico mais comum dos estudos liter´arios:a an´alise de Conv´emexplicar que para esta figura “tradu- t´opicos(topic modelling), ver Jockers(2013), que zimos” a Tabela2 para uma classifica¸c˜aomuito apenas usa as palavras e calcula os t´opicossem mais simples, que mostramos na Tabela3. Basi- acesso a outras classifica¸c˜oes(exceto que as pa- camente, us´amosas seguintes regras para “tradu- lavras usadas s˜aoexclusivamente as das classes zir” a perten¸capara apenas uma escola: qualquer gramaticais substantivo, adjetivo e adv´erbio,ob- men¸c˜aoa romantismo, indianismo ou hist´orico tidas pela an´alisedo PALAVRAS). ganhava a classifica¸c˜aode romantismo. Depois, qualquer men¸c˜aoa realismo ou regionalismo fi- Usando blocos de 500 dessas palavras conse- cavam realismo puro. Em seguida, se natura- cutivas, e pedindo 100 t´opicos,o sistema mal- 11 lismo era mencionado, ficava naturalismo, en- let (McCallum, 2002) produziu uma lista de quanto simbolismo e decadentismo eram amalga- XXXX entradas para a cole¸c˜aocompleta. mados em simbolismo. Obviamente outras for- Apresentamos alguns t´opicosque nos parecem mas de reclassifiar seriam poss´ıveis, por exemplo esclarecedores, pela consistˆenciae facilidade de usando a primeira classifica¸c˜aoem vez de ordenar interpreta¸c˜ao,na Tabela4. a decis˜aoda forma que fizemos. Alguns destes apresentamos tamb´emem nu- Seja como for, temos claramente regi˜oesem vem de palavras, nas Figuras 12e 13. que as escolas se localizam, mesmo que n˜aohaja Outros h´a que n˜ao s˜ao facilmente inter- regi˜oessem sobreposi¸c˜ao.A Figura 11 mostra a pret´aveis, enquanto outros ainda s˜aomais es- situa¸c˜aosem simplifica¸c˜oes,ou seja, cada obra pec´ıficos,como 4 (romano lusitano povo ex´ercito aparece com o conjunto de escolas que lhe foram cidade) ou 80 (ga´ucho sertanejo vez animal atribu´ıdas(veja-se de novo a Tabela2). fazenda).

10Embora seja necess´ario mencionar que uma das 11https://www.linguateca.pt/Gramateca/ tradu¸c˜oesde Machado de Assis foi continuada por outro Literateca/artigoEscolas/topicos_todas_as_obras/ autor. topicosNA_todos_tam500.txt 88– Linguamatica´ Diana Santos, Emanoel Pires, Cl´audia Freitas, Rebeca S. Fu˜ao& Jo˜aoM. Lopes

Figura 5: An´alisede correspondˆencias

Selecionando apenas as obras marcadas (n˜ao num. t´opico necessariamente exclusivamente) com a classi- 25 m´edicodia doente febre sa´ude fica¸c˜aode romˆanticas (124 obras), por um lado, e 44 dinheiro conto neg´ocioreal carta realistas e/ou naturalistas, por outro (68 obras), 55 mulher amor paix˜aovida beijo obtemos duas novas listas (romantismo12 e rea- 60 estudante col´egioprofessor diretor livro lismo13). Na Tabela5 apresentamos t´opicosrea- 73 casa porta noite sala quarto listas/naturalistas, e na Tabela6 romˆanticos. Tabela 5: T´opicosobtidos sobre as obras clas- sificadas como realistas ou naturalistas

num. t´opico 1 mar vento praia onda tempestade 14 guerreiro chefe virgem cabana taba 19 cavaleiro homem rei batalha namorado 68 flor sombra sol doce jardim 89 navio homem marinheiro bordo capit˜ao 90 leito doente quarto corpo morte 12https://www.linguateca.pt/Gramateca/ Literateca/artigoEscolas/topicos_romantismo/ topicosNA_romantismo_tam500.txt Tabela 6: T´opicosobtidos sobre as obras clas- 13https://www.linguateca.pt/Gramateca/ sificadas como romˆanticas Literateca/artigoEscolas/topicos_realismo/ topicosNA_realismo_tam500.txt Periodiza¸c˜aoautom´atica: Estudos lingu´ıstico-estat´ısticos de literatura lus´ofona Linguamatica´ – 89

Figura 6: An´alisede correspondˆencias mos- Figura 8: An´alisede correspondˆencias mos- trando apenas as obras de Machado de Assis trando apenas as obras de Alu´ısiode Azevedo

Figura 7: An´alisede correspondˆencias mos- Figura 9: An´alisede correspondˆencias mos- trando apenas as obras de E¸cade Queir´os trando apenas as obras de J´ulioDinis

6. Coment´ariose Trabalho futuro pretendemos efetuar muito brevemente estudos de algumas em particular, como as emo¸c˜oese o Este trabalho marca o in´ıciode um programa de corpo. colabora¸c˜aoentre estudos liter´ariose lingu´ıstica Por outro lado, foi evidente que a no¸c˜aode computacional para mutuamente enriquecer am- escola liter´arian˜aoera uma quest˜aosimples, e bas as disciplinas. Dessa forma, em vez de muitos que muitas outras caracter´ısticase interroga¸c˜oes resultados, temos muitas interroga¸c˜oes,e vias de seriam poss´ıveis, desde o g´enerodo autor, data desenvolvimento futuro. de escrita, local de escrita (por exemplo Brasil Se por um lado pensamos ter mostrado que as ou Portugal) ao tipo de obra (romance hist´orico, caracter´ısticaslingu´ısticas(nas sec¸c˜oes3e4) e romance de costumes, etc.). o conte´udolexical (na Sec¸c˜ao5) s˜ao´uteispara Al´emdisso, o facto de termos um n´umerocon- a explora¸c˜aoe estudo da literatura, estamos ple- sider´avel de obras que ca´ıramno esquecimento, e namente conscientes de que muito mais trabalho que provavelmente nunca foram colocadas numa tem de ser feito em rela¸c˜ao`aidentifica¸c˜aoe cor- escola liter´ariapelos te´oricosda literatura, pode reta anota¸c˜aode muitas destas caracter´ısticas,e tamb´emlevantar a quest˜aode que as escolas do 90– Linguamatica´ Diana Santos, Emanoel Pires, Cl´audia Freitas, Rebeca S. Fu˜ao& Jo˜aoM. Lopes

Figura 10: An´alisede correspondˆenciasmostrando cada escola com uma cor diferente cˆanoneliter´ariopoder˜aon˜aoser as ´unicas,e que Muitas outras t´ecnicas estat´ısticas, assim outras fa¸c˜oesou movimentos podem ser sugeri- como tarefas, podiam ter sido realizadas com dos atrav´es do estudo de mais obras — uma das este material, que se encontra p´ublico15 para vantagens da leitura distante. que outros o possam experimentar e avan¸carno O peso de determinados autores assim como a estudo da literatura lus´ofona16. Mencionamos possibilidade de discordˆanciaem rela¸c˜ao`aescola como uma das mais evidentes a tentativa de clas- ou escolas atribu´ıdas mostra como muito do que sifica¸c˜aoda segunda cole¸c˜aoatrav´esdo m´etodo por exemplo encontr´amosno romantismo poderia das ´arvores de decis˜ao. mudar se segu´ıssemosa opini˜aode Jo˜aoGaspar Sim˜oes(Sim˜oes, 1967) e consider´assemosCamilo um autor por si s´o(e n˜aoromˆantico!)14 Ser´a pois relevante, de um ponto de vista liter´ario, experimentar fazer outras escolhas (mesmo entre as obras que temos) para criar no- vas (sub)cole¸c˜oes,para n˜aodeixar que um autor, 15Em https://www.linguateca.pt/Gramateca/ uma ´epoca ou um tipo de escrita pese demais no Literateca/artigoEscolas/ podem encontrar-se quer os grupo. dados como os comandos utilizados em R. 16V´ariosdos corpos de onde estas obras foram retira- 14Conv´emreferir que muitos autores, incluindo, ali´as, das est˜aoacess´ıveis da Linguateca, veja-se por exemplo o Camilo, tiveram obras classificadas em escolas diferen- OBras (Santos et al., 2018a), ou de outros projetos como tes. . . Cada obra recebeu uma classifica¸c˜aodistinta. o Tycho Brahe (Galves & Faria, 2010). Periodiza¸c˜aoautom´atica: Estudos lingu´ıstico-estat´ısticos de literatura lus´ofona Linguamatica´ – 91

Figura 11: An´alisede correspondˆenciasmostrando todas as classifica¸c˜oesde escola liter´aria

Figura 13: Palavras que constituem o t´opico90

Figura 12: Palavras que constituem o t´opico13 92– Linguamatica´ Diana Santos, Emanoel Pires, Cl´audia Freitas, Rebeca S. Fu˜ao& Jo˜aoM. Lopes

Concluindo, este trabalho ´eapenas um pri- Barufaldi, Bruno, Eduardo F. Santana, Jos´e meiro passo no uso de m´etodos estat´ısticos Rog´erioB. B. Filho, Jan Kees van der Poel, e lingu´ısticos para reconsiderar a literatura Milton Marques J´unior& Leonardo Vidal Ba- lus´ofona. Ao tornarmos p´ublicosos documen- tista. 2010. Classifica¸c˜aoAutom´aticade Tex- tos e as an´alises,assim como os primeiros re- tos por Per´ıodo Liter´ario Utilizando Com- sultados, esperamos que alguns nos sigam no press˜aode Dados Atrav´esdo PPM-C. Lin- destrin¸carde caracter´ısticas,influˆenciase seme- guam´atica 2(1). 35–44. lhan¸cas entre muitos autores que escreveram em Bick, Eckhard. 2000. The parsing system ”Pala- portuguˆes,assim como desejamos que este tipo vras”: Automatic grammatical analysis of Por- de explora¸c˜oesnos dˆemais conhecimento sobre o tuguese in a constraint grammar framework. estilo e a “alma” lingu´ısticada l´ınguaportuguesa. Aarhus, Denmark: Aarhus University. Tese de Doutoramento. Agradecimentos Campos, Alex Sander Luiz. 2018. Edi¸c˜oesde Ma- chado de Assis: por quˆe,para quˆe? Machadi- Estamos muito gratos a Alckmar Luiz dos San- ana Eletrˆonica 1(1). 131–150. tos pelas sugest˜oes e cr´ıticas feitas em Oslo, `a audiˆenciada APL em Braga pelas perguntas per- Freitas, Cl´audia, Bianca Freitas & Diana Santos. tinentes, e aos recensores Miguel Anxo Solla Por- 2016. QUEMDISSE?: Reported speech in Por- tela e Alvaro´ Iriarte Sanroman pela revis˜aoatu- tuguese. Em 10th International Conference on rada de uma primeira vers˜aodeste trabalho. Language Resources and Evaluation (LREC), Agradecemos `a FCCN pelo alojamento da 4410–4416. Linguateca nos seus servidores, ao grupo de Re- Freitas, Cl´audia, Diana Santos, Cristina Mota, search Computing da Universidade de Oslo pelo Bruno Carri¸co & Heidi Jansen. 2015. O apoio inform´atico,e `aUNINETT Sigma2 - the l´exico do corpo e anota¸c˜ao de sentidos em National Infrastructure for High Performance grandes corpora: o projeto esqueleto. Re- Computing and Data Storage in Norway pelos vista de Estudos da Linguagem 23(3). 641–680. recursos computacionais cedidos para o proces- 10.17851/2237-2083.23.3.641-680. samento dos corpos e a obten¸c˜aode resultados. Galves, Charlotte & Pablo Faria. 2010. Ty- Este artigo n˜aoexistiria se n˜aotivesse sido cho Brahe parsed corpus of historical Portu- desencadeado pela a¸c˜aoCOST “Distant reading guese. http://www.tycho.iel.unicamp.br/ for European literary history”, financiada pelo ~tycho/corpus/en/index.html. EU Framework Programme da Uni˜aoEuropeia, Horizon 2020. Herrmann, J. Berenike, Carolin Odebrecht, Di- Finalmente, Emanoel Pires agradece `aFA- ana Santos & Pieter Francois. 2020. Towards PEMA pelo apoio ao projeto “Estudos es- modeling the european novel. Introducing EL- tat´ıstico-liter´ariosem literatura lus´ofona:jun¸c˜ao TeC for multilingual and pluricultural distant de esfor¸cosentre a Linguateca e o Portal Ma- reading. Em Digital Humanities Conference, ranh˜ao”. Abstract Book. Higuchi, Suemi, Diana Santos, Cl´audiaFreitas & Referˆencias Alexandre Rademaker. 2019. Distant reading Brazilian history. Em 4th Conference of The Almeida, Rodolfo & Daniel Mariani. 2019. O Association Digital Humanities in the Nordic ritmo e o estilo de diferentes obras liter´arias Countries, 190–200. brasileiras. https://www.nexojornal. Jockers, Matthew L. 2013. Macroanalysis: Digi- com.br/grafico/2017/01/30/O-ritmo- tal methods and literary history. University of e-o-estilo-de-diferentes-obras- Illinois Press. liter%C3%A1rias-brasileiras. McCallum, Andrew Kachites. 2002. MALLET: a Ara´ujo,Francisco Magno da Silva de. 2011. O machine learning for language toolkit. http: Ateneu e a nostalgia da forma. Natal: Cen- //mallet.cs.umass.edu. tro de CiˆenciasHumanas, Letras e Artes da Mittmann, Adiel, Aldo von Wangenheim & Alck- Universidade Federal do Rio Grande do Norte. mar Luiz dos Santos. 2016. A system for the Tese de Mestrado. automatic scansion of poetry written in Por- Baayen, Harald. 2008. Analyzing linguistic data: tuguese. Em 17th International Conference on A practical introduction to statistics using R. Computational Linguistics and Intelligent Text Cambridge University Press. Processing (CICLing), 611–628. Periodiza¸c˜aoautom´atica: Estudos lingu´ıstico-estat´ısticos de literatura lus´ofona Linguamatica´ – 93

Moretti, Franco. 2000. Conjectures on world li- Santos, Diana & Alberto Sim˜oes.2019. Towards terature. New Left review 1. 54–68. a computational environment for studying li- terature in portuguese. Apresenta¸c˜aona con- Quintale Neto, Fl´avio.2007. Id´eiasest´eticas e ferˆenciaDigital Humanities. filos´oficas nos romances O Ateneu, de Raul Pomp´eia e Die Vervirrungen des Z¨oglings Silva, Ros´ario& Diana Santos. 2012. Arco-´ıris: T¨orless,de Robert Musil: Universidade de S˜ao notas sobre a anota¸c˜aodo campo semˆantico da Paulo. Tese de Doutoramento. cor em portuguˆes. Relat´oriot´ecnico. Lingua- teca. http://www.linguateca.pt/acesso/ R Core Team. 2018. R: A language and en- ArcoIris.pdf. vironment for statistical computing. Vienna, Sim˜oes,Jo˜aoGaspar. 1967. Hist´oriado Romance Austria: R Foundation for Statistical Com- Portuguˆes. Est´udiosCor. puting. Available online at https://www.R- project.org/. Zampieri, Marcos & Martin Becker. 2013. Co- lonia: Corpus of historical portuguese. ZSM Reis, Carlos. 2012. Trajeto liter´ario. https: Studien 5. 77–84. //queirosiana.wordpress.com/trajeto- literario/. Santos, Diana. 2019a. Distant reading health: Lista de textos A pilot study on health and disease in lu- sophone literature. Illness and disability in li- 1843 O Bobo, de Alexandre Herculano terary and cultural texts: an international se- 1844 A Moreninha, de Joaquim Manuel de Macedo minar. https://www.linguateca.pt/Diana/ 1844 Eurico o Presb´ıtero, de Alexandre Herculano download/DRHealth.pdf. 1845 O Arco de Santana, de J. B. da Silva L. de Almeida Garrett Santos, Diana. 2019b. Literature studies in lite- 1845 O mo¸colouro, de Joaquim Manuel de Macedo rateca: between digital humanities and corpus 1846 O Galego, de Alexandre Herculano linguistics. Em Martin Doerr, Øyvind Eide & 1846 Viagens na Minha Terra, de J. B. da Silva L. de Oddrun Grønvik ans Bjørghild Kjelsvik (eds.), Almeida Garrett Humanists and the digital toolbox: In honour 1848 O Monge de Cister I, de Alexandre Herculano of Christian-Emil Smith Ore, 89–109. Novus forlag. 1848 O Monge de Cister II, de Alexandre Herculano 1848 Os Dois Amores, de Joaquim Manuel de Macedo Santos, Diana. 2019c. PANTERA: a paral- 1851 An´atema, de Camilo Castelo Branco lel corpus to study translation between 1851 O P´aroco de Aldeia, de Alexandre Herculano Portuguese and Norwegian. Bergen 1852 Mem´oriasde um sargento de mil´ıcias, de Manuel Language and Linguistics Studies 10(1). de Almeida 10.15845/bells.v10i1.1372. 1853 Coisas que s´oeu sei, de Camilo Castelo Branco Santos, Diana, Cl´audiaFreitas & Eckhard Bick. 1854 A Filha do Arced´ıago, de Camilo Castelo Branco 2018a. OBras: a fully annotated and parti- 1854 Helena, de J. B. da Silva L. de Almeida Garrett ally human-revised corpus of brazilian literary 1854 Mist´eriosde Lisboa I, de Camilo Castelo Branco works in the public domain. Em Latin Ameri- 1854 Mist´eriosde Lisboa II, de Camilo Castelo Branco can and Iberian Languages Open Corpora Fo- 1854 Mist´eriosde Lisboa III, de Camilo Castelo Branco rum (OpenCor), s.p. 1855 Livro Negro de Padre Dinis I, de Camilo Castelo Branco Santos, Diana, Cl´audia Freitas & Jo˜ao Mar- 1855 Livro Negro de Padre Dinis II, de Camilo Castelo ques Lopes. 2018b. Ler e estudar a literatura Branco lus´ofonacomo parte da literatura mundial: re- 1855 O Cura de S˜aoLouren¸co, de M M S A e Vasconcelos cursos para leitura distante em portuguˆes.Em 1856 Carolina, de Casimiro de Abreu I Congresso Internacional em Humanidades 1856 Onde Esta a Felicidade, de Camilo Castelo Branco Digitais no Rio de Janeiro (HdRio), 375–383. 1856 Um Homem de Brios, de Camilo Castelo Branco Santos, Diana, Augusto Soares da Silva & Cris- 1857 A viuvinha, de Jos´ede Alencar tina Mota. 2011. Guarda-fatos: notas sobre 1857 O Guarani, de Jos´ede Alencar a anota¸c˜aodo campo semˆantico do vestu´ario 1857 O soldado de Aljubarrota, de Matilde Isabel de San- em portuguˆes. Relat´orio t´ecnico. Lingua- tana e Vasconcelos Moniz Bettencourt teca. http://www.linguateca.pt/acesso/ 1857 Os tripeiros: Cr´onica do s´eculo XIV, de Ant´onio GuardaFatos.pdf. Jos´eCoelho Lousada 94– Linguamatica´ Diana Santos, Emanoel Pires, Cl´audia Freitas, Rebeca S. Fu˜ao& Jo˜aoM. Lopes

1858 A Vingan¸ca, de Camilo Castelo Branco 1872 O Carrasco de Vitor Hugo, de Camilo Castelo 1858 O Que Fazem Mulheres, de Camilo Castelo Branco Branco 1859 Maria ou a menina roubada, de AntˆonioGon¸calves 1872 O seminarista, de Bernardo Guimaraes Teixeira e Souza 1872 Ressurrei¸c˜ao, de Machado de Assis 1859 Ursula´ , de Maria Firmina dos Reis 1873 A alma de L´azaro, de Jos´ede Alencar 1861 A chave do enigma, de Ant´onioFeliciano de Casti- 1873 A filha do Cabinda, de Alfredo Campos lho 1873 O Annel Mysterioso: Scenas da Guerra Peninsular, 1861 Romance dum Homem Rico, de Camilo Castelo de Alberto Pimentel Branco 1873 Um conto portuguez: epis´odioda guerra civil: a 1862 Amor de Perdi¸c˜ao, de Camilo Castelo Branco Maria da Fonte, de Miguel J T Mascarenhas 1862 Coisas Espantosas, de Camilo Castelo Branco 1874 A M˜aoe a Luva, de Machado de Assis 1862 Cora¸c˜aoCabe¸ca e Estˆomago, de Camilo Castelo 1874 Ubijarara, de Jos´ede Alencar Branco 1875 A Escrava Isaura, de Bernardo Guimaraes 1862 Infaustas Aventuras de Mestre Mar¸cal Estouro: 1875 A Filha do Regicida, de Camilo Castelo Branco V´ıtimaduma paix˜ao, de Jos´eda Silva Mendes Leal 1875 A Freira no Subterraneo, de Camilo Castelo Branco 1863 Adelina, de Ana Pl´acido 1875 A senhora viscondessa, de S de Magalh˜aesLima 1863 Aventuras de Bas´ılioFernandes Enxertado, de Ca- milo Castelo Branco 1875 Novelas do Minho I, de Camilo Castelo Branco 1863 O Bem e o Mal, de Camilo Castelo Branco 1875 O Crime do Padre Amaro, de Jos´eMaria E¸cade Queir´os 1864 A Filha do Doutor Negro, de Camilo Castelo Branco 1875 , de Jos´ede Alencar 1864 A p´alidaestrela, de Bulh˜aoPato 1875 Os selvagens, de Francisco Gomes de Amorim 1864 Amor de Salva¸c˜ao, de Camilo Castelo Branco 1875 Senhora, de Jos´ede Alencar 1864 No Bom Jesus do Monte, de Camilo Castelo Branco 1876 A Caveira da M´artir, de Camilo Castelo Branco 1864 Vinte Horas de Liteira, de Camilo Castelo Branco 1876 Helena, de Machado de Assis 1865 , lenda do Cear´a, de Jos´ede Alencar 1876 O Cabeleira, de Franklin T´avora 1866 A Queda dum Anjo, de Camilo Castelo Branco 1876 O Christ˜aonovo, de Diogo de Macedo 1866 A conquista de Lisboa, de Carlos Pinto de Almeida 1877 Alice, de Maria Am´aliaVaz de Carvalho 1866 Os trabalhadores do mar, de Machado de Assis 1877 Novelas do Minho II, de Camilo Castelo Branco 1867 A Doida do Candal, de Camilo Castelo Branco 1878 A Trag´ediada Rua das Flores, de Jos´eMaria E¸ca 1867 As Pupilas do Senhor Reitor, de J´ulioDinis de Queir´os 1867 Henriqueta, de Maria Peregrina de Sousa 1878 Iai´aGarcia, de Machado de Assis 1868 A Morgadinha dos Canaviais, de J´ulioDinis 1878 O Matuto, de Franklin T´avora 1868 O Retrato de Ricardina, de Camilo Castelo Branco 1878 O Primo Bas´ılio, de Jos´eMaria E¸cade Queir´os 1868 O ermit˜aodo Muqu´em, de Bernardo Guimaraes 1879 Eus´ebioMac´ario, de Camilo Castelo Branco 1868 Uma Fam´ıliaInglesa, de J´ulioDinis 1879 O Romance da Rainha Mercedes, de Alberto Pimen- 1869 A luneta m´agica, de Joaquim Manuel de Macedo tel 1869 Os Brilhantes do Brasileiro, de Camilo Castelo 1879 O Sacrif´ıcio, de Franklin T´avora Branco 1879 Uma l´agrimade mulher, de Aluisio Azevedo 1870 A Rosa do Adro, de Manuel Maria Rodrigues 1880 A Corja, de Camilo Castelo Branco 1870 A ermida de Castromino, de Antonio Augusto Tei- 1880 O Mandarim, de Jos´eMaria E¸cade Queir´os xeira de Vasconcellos 1881 Mem´oriasp´ostumas de Br´asCubas, de Machado de 1870 , de Jos´ede Alencar Assis 1870 As apreens˜oesde uma m˜ae, de J´ulioDinis 1881 O Mulato, de Aluisio Azevedo 1870 Justi¸cade Sua Majestade, de J´ulioDinis 1882 A Brasileira de Prazins, de Camilo Castelo Branco 1870 Mist´erioda Estrada de Sintra, de Jos´eMaria E¸ca 1882 A Condeca V´esper ou Mem´oriasde um Condenado, de Queir´os de Aluisio Azevedo 1870 O ga´ucho, de Jos´ede Alencar 1882 As j´oiasda Coroa, de Raul Pomp´eia 1870 Oliver Twist, de Machado de Assis 1882 Girandula de Amores ou Mist´erioda Tijuca, de 1870 Os novelos da tia Filomela, de J´ulioDinis Aluisio Azevedo 1870 Uma flor de entre o gelo, de J´ulioDinis 1882 O alienista, de Machado de Assis 1871 Heran¸cade l´agrimas, de Lopo de Sousa 1882 Uma trag´ediano Amazonas, de Raul Pomp´eia 1871 Os Fidalgos da Casa Mourisca, de J´ulioDinis 1884 Casa de Pensao, de Aluisio Azevedo 1872 A Infanta Capelista, de Camilo Castelo Branco 1884 Filomena Borges, de Aluisio Azevedo 1872 Inocˆencia, de Visconde de Taunay 1885 Casa velha, de Machado de Assis Periodiza¸c˜aoautom´atica: Estudos lingu´ıstico-estat´ısticos de literatura lus´ofona Linguamatica´ – 95

1886 O Brasileiro Soares, de Lu´ısMagalh˜aes 1904 Viriato, de Te´ofiloBraga 1886 Quincas Borba, de Machado de Assis 1905 A Ala dos Namorados, de Ant´onioCampos Junior 1886 Vulc˜oesde Lama, de Camilo Castelo Branco 1905 A Intrusa, de J´uliaLopes de Almeida 1887 A Rel´ıquia, de Jos´eMaria E¸cade Queir´os 1906 A Divorciada, de Jos´eAugusto Vieira 1887 O Homem, de Aluisio Azevedo 1906 A Lenda da Meia-Noite, de Manuel Joaquim Pi- 1888 A Carne, de J´ulioRibeiro nheiro Chagas 1888 Mais Uma, de Conde de Ficalho 1906 Os Bravos do Mindelo, de Faustino da Fonseca 1888 O Ateneu, de Raul Pomp´eia 1906 Os Pobres, de Ra´ulBrand˜ao 1888 Os Maias, de Jos´eMaria E¸cade Queir´os 1908 A Casa dos Fantasmas, de Lu´ısAugusto Rebelo da Silva 1888 Uma Elei¸c˜aoPerdida, de Conde de Ficalho 1908 A feiticeira, de Ana de Castro Os´orio 1889 No decl´ınio, de Visconde de Taunay 1908 A vinha, de Ana de Castro Os´orio 1889 O Coruja, de Aluisio Azevedo 1908 Di´ariode uma crian¸ca, de Ana de Castro Os´orio 1890 O Corti¸co, de Aluisio Azevedo 1908 Memorial de Aires, de Machado de Assis 1891 As Minas de Salom˜ao, de Jos´e Maria E¸ca de Queir´os 1908 Sacrificada, de Ana de Castro Os´orio 1891 Dona Guidinha do Po¸co, de Manuel de Oliveira 1909 O Sal´ustioNogueira, de Teixeira de Queir´os Paiva 1909 Recorda¸c˜oesdo escriv˜aoIsa´ıasCaminha, de Lima 1891 O Bar˜aode Lavos, de Abel Botelho Barreto 1891 O mission´ario, de Inglˆesde Sousa 1910 Maria Dus´a, de Lindolfo Rocha 1891 O ´ultimocartuxo da Scala Caeli de Evora:´ Romance 1911 Triste Fim de Policarpo Quaresma, de Lima Bar- hist´orico (1808-1865), de Ant´onioFrancisco Barata reto 1892 Noites de Cintra, de Alberto Pimentel 1913 A Confiss˜aode L´ucio, de M´ariode S´a-Carneiro 1892 O Dr. Luiz Sandoval, de Alice Moderno 1914 A Marquesa de Vale Negro, de Maria O’Neill 1893 A Normalista, de Adolfo Caminha 1914 Por bom caminho, de Maria O’Neill 1894 A Mortalha de Alzira, de Aluisio Azevedo 1915 A capital federal, de Coelho Neto 1895 A vi´uvaSim˜oes, de J´uliaLopes de Almeida 1915 A engomadeira: novela vulgar lisboeta, de Jos´eSo- bral de Almada Negreiros 1895 Miragem, de Coelho Neto 1916 A morte vence, de Jo˜aoJos´eGrave 1895 O Bom-Crioulo, de Adolfo Caminha 1916 Decameron, de Virg´ıniade Castro e Almeida 1895 O Livro de uma Sogra, de Aluisio Azevedo 1916 Innocente, de Virg´ıniade Castro e Almeida 1895 O mundo no ano 3000, de Pedro Jos´eSupico de Morais 1916 O Solar dos Pav˜oes, de Virg´ınia de Castro e Al- meida 1896 Tentacao, de Adolfo Caminha 1919 Amor crioulo, de Abel Botelho 1897 Pero da Covilhan: Epis´odioRomˆantico do S´eculo XV, de Zeferino Norberto Gon¸calves Brand˜ao 1919 H´umus, de Ra´ulBrand˜ao 1898 A descoberta e conquista da ´India pelos portugueses: romance historico, de Artur Lobo d’Avila 1899 A afilhada, de Manuel de Oliveira Paiva 1899 A conquista, de Coelho Neto 1899 Dom Casmurro, de Machado de Assis 1899 Elle, de Claudia de Campos 1899 Transviado, de Jayme de Magalh˜aesLima 1900 A Ilustre Casa de Ramires, de Jos´eMaria E¸cade Queir´os 1900 Fradique Mendes, de Jos´eMaria E¸cade Queir´os 1900 O exilado, de Maur´ıciaC de Figueiredo 1901 A Cidade e as Serras, de Jos´eMaria E¸cade Queir´os 1901 A falˆencia, de J´uliaLopes de Almeida 1901 Amanh˜a, de Abel Botelho 1903 A Farsa, de Ra´ulBrand˜ao 1904 Esa´ue Jac´o, de Machado de Assis 1904 Os filhos do padre Anselmo, de Ant´onioda Costa Couto S´ade Albergaria 1904 Turbilh˜ao, de Coelho Neto

Propuesta recibida en enero 2020 y aceptada para publicaci´onen junio 2020.

Una aplicaci´ontecnol´ogicaque ayuda a la ciudadan´ıaa escribir textos a la Administraci´onp´ublica A technological application that helps citizens write texts to the Public Administration

Iria da Cunha Universidad Nacional de Educaci´ona Distancia (UNED) [email protected]

Resumen 1. Introducci´on

En este trabajo se presenta una aplicaci´ontec- nol´ogicagratuita y en l´ıneaque ayuda a la ciudadan´ıa Escribir textos de ´ambitos especializados no a escribir textos dirigidos a la Administraci´onp´ublica. es f´acil,ya que han de poseer unas caracter´ısti- Concretamente, ayuda a redactar cinco g´enerostex- cas muy concretas que deben tenerse en cuen- tuales: alegaci´on,carta de presentaci´on,queja, recla- ta para que sean adecuados (Cabr´e, 1999; Gotti, maci´ony solicitud. La aplicaci´ontiene forma de editor 2008). Estas caracter´ısticasdepender´andel ´ambi- de textos e incluye tres m´odulospara: I) estructurar y to de los textos y del g´enerotextual que se quiera a˜nadircontenidos en el texto, II) corregirlo ortogr´afi- producir (Van Dijk, 1989; Bhatia, 1993; Parodi, camente y darle formato, y III) obtener sugerencias de 2010). Como indica Swales(1990), un g´enerotex- mejora sobre aspectos l´exicosy discursivos. Integra di- tual es una estructura convencionalizada a trav´es ferentes herramientas de Procesamiento del Lenguaje de la cual se organizan los intercambios comuni- Natural (PLN), como un analizador morfosint´actico cativos de una determinada comunidad discursi- y un segmentador discursivo. Las evaluaciones data- va. Por lo general, cuando se habla de g´eneros driven y user-driven realizadas ofrecen resultados po- textuales producidos en ´ambitos especializados, sitivos. suele partirse de la idea de que los autores ser´an especialistas de dichos ´ambitos (Cabr´e, 1999), co- Palabras clave mo por ejemplo un abogado en el ´ambito legal. administraci´onp´ublica,ciudadan´ıa, g´enerostextua- Sin embargo, hay determinados ´ambitos especia- les, asistente a la redacci´onen espa˜nol lizados en los que son los ciudadanos quienes de- ben enfrentarse a la tarea de la redacci´onde tex- tos. Un ejemplo muy evidente es el ´ambito de la Abstract Administraci´onp´ublica,a quien los ciudadanos deben dirigirse por escrito en muchas ocasiones, This article presents a free and online technological para presentar por ejemplo una reclamaci´on,una application that helps citizens write texts addressed alegaci´ono una queja. La ciudadan´ıano suele es- to the Public Administration. Specifically, it helps to tar familiarizada con este tipo de g´eneros textua- draft five textual genres: allegation, cover letter, let- les administrativos, y su redacci´onresulta dif´ıcil ter of complaint, claim and application. The techno- y frustrante, lo cual se agrava al tratarse de do- logical application is a text editor that includes th- cumentos que tienen una repercusi´ondirecta en ree modules: I) structure and contents of the text, II) su vida y en su bienestar. spelling and format correction, and III) suggestions En el contexto de la lengua espa˜nola, en on vocabulary and discourse. It integrates different los ´ultimos a˜nos ha habido algunos esfuerzos Natural Language Processing (NLP) tools, such as por listar los g´enerostextuales protot´ıpicos del a morphosyntactic tagger and a discourse segmenter. ´ambito administrativo y caracterizarlos ling¨u´ısti- The data-driven and user-driven evaluations perfor- camente (Ayala et al., 2000; Castell´on, 2001; med show positive results. S´anchez Alonso, 2014). A partir de estos traba- Keywords jos, en da Cunha & Montan´e(2019) se selec- cionaron los g´enerostextuales que tienen como public administration, citizenship, textual genres, emisores a los ciudadanos y, posteriormente, se Spanish writing assistant analizaron emp´ıricamente cu´alesde estos g´ene- ros deben redactar con m´asfrecuencia y cu´ales les generan una mayor dificultad de redacci´on. DOI: 10.21814/lm.12.1.316 Linguamatica´ — ISSN: 1647–0818 This work is Licensed under a Creative Commons Attribution 4.0 License Vol. 12 N´um. 1 2020 - P´ag. 97–115 98– Linguamatica´ Iria da Cunha

En las conclusiones de ese estudio se destacaron Si bien la Ley 30/1992, de 26 de noviem- cinco g´eneros:alegaci´on,carta de presentaci´on, bre, ya fue consciente del impacto de las queja, reclamaci´ony solicitud. Asimismo, en ese nuevas tecnolog´ıas en las relaciones admi- trabajo, se analizaron los problemas que plantean nistrativas, fue la Ley 11/2007, de 22 de ju- los ciudadanos a la hora de escribir textos desti- nio, de acceso electr´onico de los ciudadanos nados a la Administraci´on, y se concluy´oque son a los Servicios P´ublicos, la que les dio carta principalmente cuatro: 1) estructurar el texto, 2) de naturaleza legal, al establecer el derecho utilizar el vocabulario adecuado a la situaci´onco- de los ciudadanos a relacionarse electr´oni- municativa, 3) decidir el contenido del texto y camente con las Administraciones P´ublicas, 4) utilizar el grado de formalidad adecuado. Re- as´ıcomo la obligaci´onde ´estasde dotarse cientemente, en da Cunha & Montan´e(2020), se de los medios y sistemas necesarios para que realiz´oun an´alisis ling¨u´ıstico (textual, l´exico y ese derecho pudiera ejercerse. [...] Porque discursivo) basado en corpus de los cinco g´ene- una Administraci´onsin papel basada en un ros mencionados, para obtener una perspectiva funcionamiento ´ıntegramente electr´onico no global de las caracter´ısticasde cada uno de ellos. s´olosirve mejor a los principios de eficacia Tomando estos estudios como base, el objetivo y eficiencia, al ahorrar costes a ciudadanos del presente trabajo ha sido desarrollar una apli- y empresas, sino que tambi´enrefuerza las caci´ontecnol´ogicaque ayuda a la ciudadan´ıaa garant´ıasde los interesados. escribir textos dirigidos a la Administraci´on.Es- ta aplicaci´onse ha denominado sistema arText e Sin embargo, hasta ahora son pocos los es- integra diferentes herramientas de Procesamiento fuerzos que se han hecho para desarrollar herra- del Lenguaje Natural (PLN). mientas TIC que tengan como objetivo mejorar la comunicaci´onescrita entre la Administraci´on En el Apartado2 se presenta un estado de la y la ciudadan´ıa,a pesar de que ya en 2010 en cuesti´onsobre los recursos de ayuda a la redac- el Informe de la Comisi´onde modernizaci´ondel ci´onen el ´ambito de la e-Administraci´on.En el lenguaje jur´ıdico del Ministerio de Justicia2 se Apartado3 se detalla la metodolog´ıadel traba- especificaba que: jo, haciendo hincapi´een el marco te´orico,en las funcionalidades de arText y en su implementa- Las tecnolog´ıas de la informaci´onpueden ci´on.En el Apartado4 se exponen los resultados prestar soporte para el an´alisis de la clari- y la evaluaci´onrealizada, tanto data-driven co- dad de los textos, facilitando una redacci´on mo user-driven. En el Apartado5 se incluyen las m´ascomprensible, sin suponer por ello una conclusiones y las l´ıneasde trabajo futuro. ralentizaci´onen los tiempos de escritura. En este sentido, son de especial utilidad los analizadores gramaticales y estad´ısticos de 2. Estado de la cuesti´on textos (longitud de las frases, n´umero de oraciones, longitud media de las palabras, En Espa˜na,la comunicaci´onelectr´onicaentre etc.), as´ı como los programas de escritura el ciudadano y la Administraci´ones el procedi- semiautom´atica empleados por los profesio- miento habitual en la actualidad, ya que se est´a nales de la interpretaci´ony traducci´on.Es- tendiendo a la e-Administraci´on.El 2 de octu- tos ´ultimos,por ejemplo, almacenan reposi- bre del 2015 se public´oen el Bolet´ınOficial del torios de frases o p´arrafos predeterminados Estado (BOE) la Ley 39/2015, de 1 de octubre, que, una vez validados, se proponen a los re- del Procedimiento Administrativo Com´unde las dactores de los textos. Administraciones P´ublicas1. Esta Ley establece En definitiva, se recomienda a las institucio- una regulaci´oncompleta de las relaciones entre nes del sector promover el uso de este tipo las Administraciones y los administrados, en di- de programas entre los profesionales del de- versos aspectos. Uno de ellos est´arelacionado con recho e invertir en el desarrollo de nuevas las Tecnolog´ıasde la Informaci´ony la Comuni- aplicaciones. caci´on(TIC), cuyo desarrollo en los ´ultimosa˜nos ha repercutido en la forma y contenido de las Es cierto que desde hace a˜nosy hasta la actua- relaciones entre la Administraci´on,y los ciuda- lidad se han escrito diversas publicaciones intere- danos y las empresas. En la introducci´onde la santes que han tratado sobre las caracter´ısticas Ley 39/2015 se indica: del lenguaje jur´ıdico(Rodr´ıguez-Aguilera, 1969; Duarte & Mart´ınez, 1995; Alcaraz & Hughes,

1https://boe.es/boe/dias/2015/10/02/pdfs/BOE- 2https://lenguajeadministrativo.com/wp- A-2015-10565.pdf content/uploads/2013/05/cmlj-recomendaciones.pdf Una aplicaci´onque ayuda a la ciudadan´ıaa escribir textos a la Administraci´onp´ublica Linguamatica´ – 99

2002; Samaniego, 2005; Gonz´alezSalgado, 2009; No obstante, ninguno de estos sistemas se cen- Montol´ıoDur´an, 2012; Jim´enezYa˜nez, 2016, en- tra en textos del ´ambito de la Administraci´on tre otros). Sin embargo, los trabajos centrados y, adem´as,la mayor parte de ellos son sistemas en el lenguaje administrativo son m´asescasos, y comerciales. Es de destacar tambi´enque, en el principalmente han abordado el tema desde un ´ambito del PLN, normalmente se emplea infor- punto de vista descriptivo y, por lo general, te- maci´on ling¨u´ıstica de varios tipos, pero en el niendo en cuenta como potencial emisor de los campo de la redacci´onasistida es dif´ıcilencon- textos a los profesionales del ´ambito y no a la trar investigaciones basadas en conocimiento ex- ciudadan´ıa(Ayala et al., 2000; de Miguel Apari- tra´ıdodel an´alisisdel discurso especializado para cio, 2000; Castell´on, 2001; S´anchez Alonso, 2014, desarrollar herramientas inform´aticasrelaciona- entre otros). das con la lengua, aunque en los ´ultimosa˜nosha Tambi´enexisten algunos sistemas autom´ati- habido autores que han remarcado la necesidad cos en el ´ambito del PLN que pueden ser de uti- de usar informaci´ondiscursiva como entrada para lidad a la hora de escribir textos, ya que detectan dichas herramientas (Zhou et al., 2014). diferentes tipos errores, principalmente ortogr´afi- cos, gramaticales y de estilo, como por ejemplo:3 3. Metodolog´ıa Stilus,4 textos generales en espa˜nol; 5 En este apartado se detalla el marco te´orico LanguageTool, textos generales en espa˜nole del trabajo, junto con las funcionalidades de ar- ingl´es,entre otras lenguas; Text y los detalles de su implementaci´on. Estilector,6 textos acad´emicos universitarios en espa˜nol; 3.1. Marco te´orico Grammarly,7 textos generales y algunos g´ene- ros textuales en ingl´es; En este trabajo se emplean tres marcos te´ori- cos complementarios. En primer lugar, con res- ACROLINX,8 textos generales en ingl´es. pecto al nivel textual, se parte, por un lado, de GrammarChecker,9 textos generales en ingl´es. los trabajos de Van Dijk(1977, 1989), quien afir- SWANfootnote,10 textos cient´ıficosen ingl´es; ma que los g´enerostextuales siguen un patr´on claramente codificado y ampliamente aceptado. 11 CALeSE, textos cient´ıficosen ingl´es; Por ejemplo, un art´ıculo de investigaci´onsuele eWriting Pal,12 textos acad´emicosen ingl´es. incluir ciertos apartados protot´ıpicos:Introduc- ci´on,Estado de la cuesti´on,Metodolog´ıa,Resul- Otro caso interesante dentro de la Pen´ınsu- tados y Conclusiones. Este autor, adem´as,defi- la Ib´ericaes el de LinguaKit13, un corrector que ne la superestructura como la estructura orga- analiza el texto buscando errores ortogr´aficos, nizativa textual, que var´ıadependiendo del tipo l´exicos, gramaticales o de estilo. Actualmente de texto y que, en general, se muestra median- ´unicamente funciona para el gallego, pero, seg´un te distintos apartados, que suelen incluir t´ıtulos los autores, su arquitectura se podr´ıaadaptar a y diferentes contenidos. Por otro lado, se utiliza cualquier lengua, como el espa˜nol,en caso de te- tambi´enel concepto moves (“movidas ret´oricas” ner los recursos necesarios para ello, como dic- o “movimientos”) de Swales(1990) para caracte- cionarios y analizadores morfosint´acticos(Gama- rizar la superestructura de los cinco g´enerostex- llo Otero et al., 2015). tuales que se incluyen en este trabajo, en la l´ınea del an´alisisbasado en corpus propuesto por Biber 3Aunque este trabajo se centra en la lengua espa˜nola,se incluyen aqu´ıtambi´enreferencias de sistemas autom´aticos et al.(2007). Concretamente, en este marco, un para el ingl´espara dejar patente la escasa investigaci´on move representa un fragmento de texto que sirve previa en el ´ambito incluso en esta lengua, que es la lengua para una funci´oncomunicativa y sem´antica par- para la cual, por lo general y como es sabido, se suelen ticular (Upton & Cohen, 2009), y que suele inser- desarrollar m´asaplicaciones y herramientas inform´aticas. tarse en alguno de los apartados del documento. 4http://www.mystilus.com/ 5https://www.languagetool.org/ En segundo lugar, en cuanto al nivel l´exico, 6http://www.estilector.com/ se sigue la Teor´ıaComunicativa de la Termino- 7http://www.grammarly.com/ log´ıa(TCT) de Cabr´e(1999), que es una teor´ıade 8http://www.acrolinx.com/ 9 la terminolog´ıay del discurso especializado que https://www.e-uned.es/correctme/cm_english/ pone de relieve la dimensi´oncomunicativa de los 10https://cs.joensuu.fi/swan/ 11http://www.nilc.icmc.usp.br/calese/ textos de especialidad. Seg´unla TCT, los g´eneros 12http://www.ewritingpal.com/ textuales producidos en ´ambitos especializados 13https://linguakit.com/es/supercorrector presentan algunas caracter´ısticasglobales, como 100– Linguamatica´ Iria da Cunha la precisi´on,la concisi´on,la sistematicidad, la im- concesi´on,condici´on,prop´osito,reformulaci´ony personalidad y la objetividad. Estas caracter´ısti- resumen) y una relaci´onmultinuclear (contraste). cas se hacen evidentes en los textos por medio Esta selecci´onse realiz´oa trav´esde la b´usqueda que diferentes rasgos ling¨u´ısticos.Por ejemplo, la de relaciones discursivas que aparecen de manera concisi´onse puede lograr a trav´esdel uso de si- frecuente en el corpus de referencia anotado con glas y la objetividad se puede alcanzar evitando relaciones discursivas en espa˜nol,el RST Spanish marcadores de subjetividad, entre otras estrate- Treebank 14, y que a la vez se evidencian habi- gias (Cabr´eet al., 2010). tualmente por medio de conectores. En el marco En tercer lugar, en relaci´oncon el nivel dis- del presente trabajo, y de cara a integrarlos en cursivo, se emplea la Rhetorical Structure Theory arText, se hace una diferencia entre conectores (RST) de Mann & Thompson(1981), que es una discursivos intraoracionales (conectores que en- teor´ıade organizaci´ontextual que permite des- lazan segmentos dentro de una misma oraci´on)y cribir un documento caracterizando su estructura conectores interoracionales (conectores que enla- mediante las relaciones ret´oricasque mantienen zan diferentes oraciones). Por ejemplo, la oraci´on sus segmentos discursivos. Estas relaciones pue- mostrada en el ejemplo (1) incluye dos conecto- den ser n´ucleo-sat´eliteo multinucleares. En las res intraoracionales que encabezan los segmentos relaciones n´ucleo-sat´elitehay dos elementos: uno 2 y 3: “es decir”, que refleja una relaci´onde re- de ellos es m´asrelevante de cara a los prop´osi- formulaci´on,y “pero”, que marca una relaci´onde tos del emisor (el n´ucleo),mientras que el otro ant´ıtesis.Si esta oraci´onse dividiese en tres ora- (el sat´elite)aporta una informaci´onadicional so- ciones diferentes, m´asbreves, esos dos conectores bre el n´ucleo.En las relaciones multinucleares, en intraoracionales deber´ıan sustituirse por conec- cambio, puede haber m´asde dos elementos, to- tores interoracionales que expresasen la misma dos ellos n´ucleos,que se relacionan al mismo ni- relaci´ondiscursiva, como por ejemplo “en otras vel, es decir, todos tienen la misma importancia palabras” y “sin embargo”, respectivamente, tal de cara a los prop´ositosdel autor. Estos elemen- como se recoge en el ejemplo (2), donde ambos tos se llaman segmentos discursivos o elementary conectores se han marcado en cursiva: discourse units (EDUs), y pueden definirse como indican (Tofiloski et al., 2009, p.77): (2) [Ese d´ıael Ayuntamiento no tuvo en cuenta la seguridad ciudadana.]SEGMENTO1 [En Discourse segmentation is the process of de- otras palabras, no adopt´olas medidas nece- composing discourse into elementary dis- sarias que garantizasen un correcto funcio- course units (EDUs), which may be simple namiento de los servicios p´ublicosmunicipa- sentences or clauses in a complex senten- les.]SEGMENTO2 [Sin embargo, s´ıes cier- ce, and from which discourse trees are cons- to que supo reconocer su error p´ublicamen- tructed. te.]SEGMENTO3 Los criterios de segmentaci´ondiscursiva es- pec´ıficospara el espa˜nolutilizados en este trabajo Partiendo de estos tres marcos te´oricoscom- se extrajeron de da Cunha & Iruskieta(2010). En plementarios, uno de los resultados del trabajo el ejemplo (1) se incluye una oraci´on(que podr´ıa de da Cunha & Montan´e(2020) fue una estruc- ser parte de una alegaci´on)donde se han mar- tura modelo de cada uno de los cinco g´enerostex- cado los tres segmentos discursivos que contiene tuales analizados. La estructura modelo de cada (indicados entre corchetes, junto con el n´umero g´eneroincluye sus apartados protot´ıpicos,la in- de segmento): dicaci´onde si estos suelen incluir un t´ıtuloy cu´al es en caso de existir, y los moves (Swales, 1990) (1) [Ese d´ıael Ayuntamiento no tuvo en cuen- habituales en cada apartado. Adem´as,se ofrece ta la seguridad ciudadana,]SEGMENTO1 fraseolog´ıahabitual que puede utilizarse para ex- [es decir, no adopt´o las medidas nece- presar dichos moves. Por ejemplo, en una alega- sarias que garantizasen un correcto fun- ci´onlos apartados protot´ıpicosdetectados son los cionamiento de los servicios p´ublicos mu- siguientes: “Cabecera”, “Identificaci´ondel emi- nicipales,]SEGMENTO2 [pero s´ı es cierto sor”, “Exposici´onde hechos”, “Presentaci´onde que supo reconocer su error p´ublicamen- alegaciones”, “Petici´on”y “Cierre”. En cuanto te.]SEGMENTO3 a los moves, en el caso del apartado “Presenta- ci´onde alegaciones”, por ejemplo, se identifica- da Cunha & Montan´e(2020) seleccionaron ron cuatro habituales: “F´ormula de introducci´on ocho relaciones discursivas para el an´alisisjunto de alegaciones”, “T´ıtulointroductorio al listado con sus correspondientes conectores discursivos: siete relaciones n´ucleo-sat´elite(ant´ıtesis, causa, 14http://www.corpus.unam.mx/rst/index_es.html Una aplicaci´onque ayuda a la ciudadan´ıaa escribir textos a la Administraci´onp´ublica Linguamatica´ – 101

Figura 1: Captura de pantalla del editor de textos en l´ınea de arText, con indicaci´onde sus tres m´odulosen color rojo. de alegaciones”, “Listado de las alegaciones pre- El dise˜node arText, cuyo desarrollo es el ob- sentadas por el emisor” y “Menci´onde los do- jetivo del presente art´ıculo,parte, como se ver´a cumentos adjuntos”. En el caso del primero de en el apartado 3.2, por un lado, de las estructuras estos cuatro moves, en la estructura modelo se modelo mencionadas para cada uno de los cinco incluyen algunas unidades fraseol´ogicas(que en g´enerostextuales, y, por otro, de su caracteriza- este caso se corresponden con oraciones comple- ci´onling¨u´ıstica. tas, aunque no siempre es as´ı,ya que depende del g´enerotextual del que se trate) que pueden ayu- dar a expresarlo en un texto, como por ejemplo:15 3.2. M´odulosy funcionalidades de arText Que mediante este escrito, y sin perjuicio de lo que pueda manifestar en el tr´amitede au- El sistema arText es una aplicaci´ontecnol´ogi- diencia, formula las siguientes alegaciones. ca que tiene forma de editor de textos en l´ınea, y que puede utilizarse gratuitamente y sin ne- Que no estando conforme con los hechos de- 16 nunciados, interpone el presente escrito en cesidad de registro . Hay disponible un tuto- base a las siguientes alegaciones. rial en l´ıneasobre sus funcionalidades en Canal UNED17. Una vez el usuario entra en la p´agina Que dentro del plazo que le ha sido concedi- principal del sistema, debe seleccionar el bot´on do y al amparo de lo previsto en [documen- “EMPIEZA A USAR ARTEXT” y, a continua- taci´onlegal aplicable: art´ıculosde leyes, le- ci´on,indicar el g´enerotextual que desea redac- yes, reglamentos, etc.], formula alegaciones tar. El usuario puede elegir entre los cinco g´ene- y presenta los documentos y justificaciones ros textuales del ´ambito de la Administraci´on necesarios. mencionados en el apartado1: alegaci´on,carta Otro resultado de dicho trabajo fue una ca- de presentaci´on,queja, reclamaci´ony solicitud. racterizaci´onling¨u´ısticade cada g´enerotextual, Una vez seleccionado el g´enerotextual, el usua- que incluye tanto ciertos aspectos l´exicoscomo rio entrar´aautom´aticamente en el editor en l´ınea discursivos. En relaci´oncon los aspectos l´exicos, (v´easeFigura1, en donde se ha seleccionado el se incluye, por ejemplo, informaci´onsobre el uso g´eneroreclamaci´on).Desde este editor, puede co- de siglas, de unidades subjetivas, y de la primera menzar a redactar su escrito en la hoja de texto persona del singular y del plural. En cuanto a as- central, utilizando los tres m´odulosde ayuda con pectos discursivos, se aporta informaci´onsobre la los que cuenta el sistema, que se detallan a con- cantidad de oraciones, de segmentos discursivos tinuaci´on: y de conectores discursivos que suelen contener. 15Los corchetes indican informaci´onvariable en cada 16http://sistema-artext.com/ texto. 17https://canal.uned.es/mmobj/index/id/54433 102– Linguamatica´ Iria da Cunha

I. M´odulo de estructura y contenidos del texto El primer m´oduloayuda a estructurar el docu- mento y a comenzar a redactarlo, utilizando las estructuras modelo de cada g´enero.Este m´odulo se encuentra en la columna izquierda de la pan- talla y permite:

Insertar los apartados protot´ıpicosdel docu- mento. A˜nadircontenidos habitualmente presentes en cada apartado (los mencionados moves de Swales(1990)). Incorporar fraseolog´ıarelacionada con los con- tenidos.

Tal como muestra la Figura1, lo primero que visualiza el usuario en la columna izquierda es la lista de apartados sugeridos por arText para el g´enerotextual seleccionado, la reclamaci´on.Asi- mismo, como se aprecia tambi´enen la Figura1, el usuario ver´aestos mismos apartados en la hoja de texto, siempre precedidos por la siguiente in- dicaci´onen color gris: “Redacta aqu´ıel apartado Figura 2: Detalle de una captura de pantalla de de. . . ”. Una vez el usuario comience a escribir el arText donde se muestran los apartados y con- texto en el apartado correspondiente, cada una de tenidos incluidos en el m´odulo1 para el g´enero estas indicaciones se eliminar´aautom´aticamente. reclamaci´on. Al hacer clic en alguno de los apartados su- geridos en la columna izquierda, se despliega de- Elementos sin marca alguna: son fragmentos li- bajo una lista que incluye los contenidos que se terales que el usuario podr´ıaincorporar en su recomienda insertar en ´el,en el orden propuesto. texto directamente, como por ejemplo: “Me- El t´ıtulo del apartado, si procede incorporarlo, se diante el presente escrito presenta reclamaci´on muestra como el primer contenido de la lista. Al de responsabilidad patrimonial de la adminis- situar el cursor sobre un contenido, este se evi- traci´onen base a los siguientes hechos:”. dencia mediante un recuadro con fondo azul. En Elementos entre corchetes: se trata de compo- la Figura2 se ofrece un ejemplo, en que el apar- nentes variables que el usuario debe modificar tado “Exposici´onde hechos” incluye dos conteni- para adaptar a su texto. Por ejemplo, si ar- dos: “Explicaci´ondel hecho o hechos que motivan Text ofrece la siguiente secuencia “El d´ıa[d´ıa] la reclamaci´on”y “Menci´onde los documentos de [mes] de [a˜no][verbo en pasado]” el usuario adjuntos”. deber´ıatransformarla sustituyendo la informa- A su vez, al hacer clic sobre cada contenido, ci´onentre corchetes, como por ejemplo de la se muestra una lista de frases protot´ıpicas que siguiente manera: “El d´ıa 5 de enero de 2015 pueden utilizarse para expresarlo, que no apare- solicit´o”. cen en un orden determinado. El usuario debe elegir cu´alesde estas frases quiere incorporar en Elementos entre par´entesis: se trata de ins- su texto, teniendo en cuenta el objetivo del do- trucciones sobre la estructura textual sugeri- cumento que est´aredactando. Estas frases est´an das al usuario. Ej. “(cada hecho se incluye en escritas en color azul y, al poner el cursor encima un p´arrafo diferente)” quiere decir que cada de una de ellas, aparecer´asubrayada. Para incor- uno de los hechos redactados por el usuario porar las frases deseadas en el documento, basta debe ocupar un p´arrafodistinto en el texto. con hacer clic sobre cada una de ellas en la colum- na de la izquierda y autom´aticamente se cargar´an En la Figura2 se incluye la fraseolog´ıaasocia- en el texto, dentro del apartado correspondiente. da al contenido “Explicaci´ondel hecho o hechos Las frases propuestas por arText pueden incluir que motivan la reclamaci´on”,ubicado en el apar- varios componentes: tado “Exposici´onde hechos”. Una aplicaci´onque ayuda a la ciudadan´ıaa escribir textos a la Administraci´onp´ublica Linguamatica´ – 103

II. M´odulo de correcci´onortogr´afica y formato por la administraci´onque nos afecten, es de- cir, debe tenerse en cuenta la opini´onde la El segundo m´oduloincorpora una barra supe- comunidad de vecinos de la zona porque es rior que incluye diferentes opciones de formato su derecho poder decidir sobre estas cuestio- mediante las cuales el usuario tendr´aacceso a las nes. En otras comunidades, como la AVIT, funcionalidades m´ashabituales de los editores de hace tiempo que negocian sobre c´omoalcan- texto, como seleccionar el tama˜node letra y la zar un pacto para la regeneraci´onde ideas fuente, asignar estilos, insertar tablas, hacer lis- en relaci´oncon esta materia. Deber´ıamosfi- tas, copiar, pegar, buscar, etc. (v´easeFigura1). jarnos tambi´enen la CVBM para observar Asimismo, en esta barra de formato se ha inte- maneras distintas de gestionar nuestros pro- grado un corrector ortogr´afico. cesos de toma de decisiones, porque no es deseable caer en los errores de siempre. III. M´odulode sugerencias sobre l´exico y discurso Se adjunta la siguiente documentaci´onjusti- ficativa: El sistema arText cuenta con un tercer m´odu- lo de sugerencias que permite al usuario proce- Ley 30/1992, de 26 de noviembre, de R´egi- sar ling¨u´ısticamente su texto, y visualizar reco- men Jur´ıdicode las Administraciones P´ubli- mendaciones sobre cuestiones relacionadas con cas y del Procedimiento Administrativo aspectos ling¨u´ısticos(l´exicos y discursivos, prin- Com´un. cipalmente) que se podr´ıanmejorar. Estas reco- Real Decreto 429/1993, de 26 de marzo, por mendaciones est´anbasadas en la caracterizaci´on el que se aprueba el Reglamento de las Ad- ling¨u´ısticade los cinco g´enerostextuales analiza- ministraciones P´ublicasen materia de res- dos por da Cunha & Montan´e(2020). ponsabilidad patrimonial. Para visualizar las sugerencias, el usuario de- Solicita al Ayuntamiento que admita esta re- be tener escrito su texto en el editor. En el ejem- clamaci´onpatrimonial, junto con los docu- plo (3) se incluye un texto ficticio que se corres- mentos que se acompa˜nan. ponde con el g´enerotextual de la reclamaci´on (donde se ha eliminado la informaci´onsobre el Una vez escrito el texto, el usuario debe hacer emisor y el receptor): clic sobre el bot´on“Revisar el texto” de la colum- na derecha de la pantalla. Entonces, el sistema le (3) Mediante el presente escrito presenta recla- ofrecer´aen esa misma columna diferentes reco- maci´onde responsabilidad patrimonial de la mendaciones de mejora del texto, como se recoge administraci´onen base a los hechos que se en la Figura3. describen a continuaci´on. En funci´onde la recomendaci´onsobre la que El d´ıa 2 de mayo de 2019 el personal del el usuario haga clic, aparecer´anmarcadas en el Ayuntamiento instal´ocuatro pivotes de gran texto que ha escrito diferentes cuestiones, como tama˜noen el n´umero46 de la calle Gali- oraciones largas, siglas, palabras repetidas, etc. A leo. Creemos que esta decisi´onno se debi´o continuaci´onse detallan las recomendaciones de de tomar teniendo en cuenta las normas ur- mejora ofrecidas al usuario al procesar el texto, ban´ısticasdel Plan General de Ordenaci´on junto con un ejemplo representativo de cada una Urbana de Madrid (PGOUM). En este Plan de ellas: General de Ordenaci´onUrbana de Madrid se determinaron las situaciones en las cua- a) “Divisi´onde oraciones largas. Parece que las les es posible instalar este tipo de elementos oraciones marcadas podr´ıandividirse en otras urbanos, es decir, se definieron supuestos en m´ascortas. Te recomendamos que lo hagas. los que dicha instalaci´onse deber´ıaefectuar. Haz clic en cada oraci´on para ver d´onde Evidentemente, la instalaci´onde estos cua- podr´ıassegmentarla.” tro bolardos supone una negligencia, porque En este caso, el sistema marca en amarillo imposibilitan la salida de veh´ıculos por la en el texto las oraciones consideradas demasiado puerta del garaje de la vivienda que se en- largas para el g´enerotextual seleccionado (v´ease cuentra delante de los mismos, pero conside- Figura4) 18. ro que es posible solucionar la situaci´onme- diante una opci´onalternativa. Esta opci´on ser´ıaeliminar dos de los cuatro pivotes, es decir, mantener ´unicamente dos, separados 18Se toman como referencia los umbrales de palabras a una distancia de 3 metros. Creo que debe- para cada g´enerodetectados por da Cunha & Montan´e mos ser part´ıcipes de las decisiones tomadas (2020). 104– Linguamatica´ Iria da Cunha

Figura 3: Detalle de una captura de pantalla de arText que muestra las recomendaciones de mejora obtenidas al procesar un texto.

Adem´as,si el sistema logra dividir autom´ati- “pero” (que refleja una relaci´onde ant´ıtesis).Si camente la oraci´onen segmentos discursivos m´as el usuario hace clic en “pero”, ver´aen la columna breves, tambi´en ofrece esta informaci´onal usua- de la derecha las siguientes propuestas de conec- rio en la columna derecha. Veamos el ejemplo (4), tores interoracionales alternativos, que expresan que incluye una oraci´onextra´ıda del texto del la misma relaci´onde ant´ıtesis:“Con todo”, “De ejemplo (3): todas formas”, “De todas maneras”, “De todos modos”, “No obstante” y “Sin embargo” (v´ease (4) Evidentemente, la instalaci´onde estos cua- Figura4). De esta manera, el usuario obtendr´a tro bolardos supone una negligencia, porque informaci´on´utilque le ayudar´aa decidir si desea imposibilitan la salida de veh´ıculos por la conservar en su texto la oraci´onoriginal o si, por puerta del garaje de la vivienda que se en- el contrario, prefiere dividirla en otras oraciones cuentra delante de los mismos, pero consi- m´asbreves y mantener expl´ıcitala relaci´ondis- dero que es posible solucionar la situaci´on cursiva que existe entre ellas a trav´esde conecto- mediante una opci´onalternativa. res. Es el usuario quien decide en todo momento qu´erecomendaciones desea incorporar en su tex- En este caso, arText propone al usuario dividir to. Para hacerlo, simplemente debe realizar los esta oraci´onlarga en tres oraciones m´asbreves, cambios directamente en la hoja del editor de teniendo en cuenta los tres segmentos siguientes textos. (v´easeFigura4): b) “Introducci´onde siglas. Las unidades marca- i. Evidentemente, la instalaci´on de estos das parecen siglas. Si es as´ı,ten en cuenta que cuatro bolardos supone una negligencia, la primera vez que se utiliza una sigla en un texto suele ir acompa˜nada del t´erminodesple- ii. porque imposibilitan la salida de veh´ıculos gado.” por la puerta del garaje de la vivienda que se encuentra delante de los mismos, En este caso, el sistema marca en amarillo en el texto las siglas que no se acompa˜nande su co- iii. pero considero que es posible solucionar rrespondiente t´erminodesplegado la primera vez la situaci´onmediante una opci´onalter- que aparecen en el texto, lo cual no es recomenda- nativa. ble. El sistema solo detecta siglas propias (Giral- Asimismo, en caso de que los segmentos pro- do, 2008), es decir, aquellas que est´anformadas puestos comiencen por conectores discursivos in- ´unicamente por las unidades l´exicasincluidas en traoracionales, el sistema propone al usuario op- la estructura sintagm´aticadel t´erminodesplega- ciones de conectores interoracionales alternativos do, como por ejemplo “UNED”, que se corres- que expresen la misma relaci´ondiscursiva. Por ponde con “Universidad Nacional de Educaci´on ejemplo, siguiendo con la misma oraci´on,en el a Distancia”. En la Figura5 puede verse que el texto se marcar´ıan en naranja dos conectores: sistema ha detectado dos de estos casos, como “porque” (que refleja una relaci´onde causa) y son “AVIT” y “CVBM”. Una aplicaci´onque ayuda a la ciudadan´ıaa escribir textos a la Administraci´onp´ublica Linguamatica´ – 105

Figura 4: Detalle de una captura de pantalla de arText que refleja la recomendaci´on Divisi´onde oraciones largas.

Figura 5: Detalle de una captura de pantalla de arText que refleja la recomendaci´on Introducci´onde siglas. c) “Sistematicidad en el uso de siglas. Las uni- drid” est´amarcada dos veces. La primera vez dades marcadas parecen el t´erminodesplegado aparece en una oraci´onjunto con su sigla entre de siglas que utilizas en el texto. Si es as´ı,ten par´entesis, correctamente. Sin embargo, tambi´en en cuenta que, una vez se introduce una sigla aparece marcada en la siguiente oraci´on,ya que en un texto, se suele seguir utilizando la sigla se quiere hacer notar al usuario que en este caso y no el t´erminodesplegado.” ser´ıam´asconveniente sustituir esta unidad por su sigla. Esta recomendaci´ontambi´enest´arelaciona- da con las siglas. Sin embargo, en esta ocasi´on d) “Repetici´onde palabras. Las unidades de la lis- el sistema marca en el texto las ocurrencias de ta siguiente se repiten varias veces en el texto. t´erminosdesplegados que ya hab´ıansido intro- Ten en cuenta que en este tipo de textos pue- ducidos en el texto previamente junto con su co- des utilizar variantes como sin´onimos,explica- rrespondiente sigla, lo cual es desaconsejable. La ciones, par´afrasis,etc. Haz clic en cada unidad Figura6 muestra un ejemplo, en que la unidad para visualizar sus ocurrencias en el texto.” “Plan General de Ordenaci´onUrbana de Ma- 106– Linguamatica´ Iria da Cunha

Figura 6: Detalle de una captura de pantalla de arText que refleja la recomendaci´on Sistematicidad en el uso de siglas.

Esta recomendaci´onda al usuario una lista de tor de reformulaci´on“es decir” y en la columna las unidades l´exicasrepetidas en el texto, concre- derecha una lista con cuatro propuestas de co- tamente de cuatro categor´ıasgramaticales: nom- nectores alternativos, como son “dicho de otro bres, verbos, adjetivos y adverbios. Cuando el modo”, “en otras palabras”, “esto es” y “o sea”. usuario hace clic en alguna de estas unidades, en el texto se destacan en amarillo sus diferentes f) “Sistematicidad en el uso de verbos en 1o per- ocurrencias. El sistema lematiza todas las pala- sona. Las unidades marcadas en verde parecen bras del documento, por lo que se marcar´anen el verbos en 1o persona del singular y las mar- texto todas las formas detectadas de los nombres cadas en azul parecen verbos en 1a persona y de los adjetivos (singular, plural, masculino y del plural. Te recomendamos que optes por el femenino) y de los verbos (independientemente singular o el plural para que el texto sea sis- de su tiempo, modo, n´umeroy persona). Por tem´atico.” ejemplo, en la Figura7, se observa en la columna derecha un fragmento de la lista de palabras re- Esta recomendaci´ontiene que ver con la falta petidas, que incluye “administraci´on”,“deber”, de sistematicidad en el uso de la primera persona “decir”, “decisi´on”,“patrimonial” y “urbano”. del singular y del plural, especialmente en rela- En el caso del verbo “deber”, se marcan en el ci´oncon el autor del escrito. Hay ocasiones en que texto las formas “deber´ıa”,“debemos”, “debe” y en un texto es necesario utilizar ambas opciones, “deber´ıamos”.Es importante destacar que el he- pero, en los textos administrativos, es importante cho de que se marquen estas unidades en el tex- que el autor utilice el singular o el plural de ma- to no quiere decir que sean incorrectas. Lo que nera sistem´atica,en funci´onde qui´eno qui´enes se pretende con esta recomendaci´ones ofrecer al emitan la alegaci´on,queja, reclamaci´on,etc. Pa- usuario informaci´onpara decidir si desea eliminar ra ello, el sistema marca en el texto las formas o modificar alguna de ellas. verbales en singular en verde y las formas en plu- ral en azul, dando as´ıinformaci´onal autor para e) “Variaci´onde conectores. Los conectores de la tomar la decisi´onde hacer modificaciones en es- lista siguiente se repiten varias veces en el tex- te sentido. Por ejemplo, en la Figura9, se mar- to. Haz clic en cada conector para ver sugeren- can en verde las formas en singular “considero” cias de conectores alternativos.” y “creo”, mientras que se destacan en azul las formas “creemos”, “debemos” y “deber´ıamos”. En este caso, el sistema ofrece en la columna derecha un listado de los conectores discursivos g) “Uso de indicadores de subjetividad. Las uni- que se repiten en el texto tres o m´asveces. Si el dades marcadas podr´ıan ser indicadoras de usuario hace clic en alguno de ellos, ver´aen el tex- subjetividad. Ten en cuenta que este tipo de to marcadas sus ocurrencias y adem´asobtendr´a textos suelen ser objetivos. Te recomendamos en la columna derecha un listado de conectores que revises estas unidades para confirmar que alternativos (tanto intraoracionales como inter- son adecuadas en tu texto.” oracionales) que expresan la misma relaci´ondis- cursiva. Por ejemplo, en la Figura8 se observan Las recomendaciones anteriores se aplican a marcadas en el texto tres ocurrencias del conec- los cinco g´enerostextuales incluidos en arText. Una aplicaci´onque ayuda a la ciudadan´ıaa escribir textos a la Administraci´onp´ublica Linguamatica´ – 107

Figura 7: Detalle de una captura de pantalla de arText que refleja la recomendaci´on Repetici´onde palabras.

Figura 8: Detalle de una captura de pantalla de arText que refleja la recomendaci´on Variaci´onde conectores.

Sin embargo, en este caso, se trata de una reco- 3.3. Implementaci´ondel sistema mendaci´onespec´ıficapara el g´enerotextual so- licitud, ya que en da Cunha & Montan´e(2020) El sistema arText se desarroll´oen un entorno se observ´oque en este tipo de g´enerose tiende a Linux usando un servidor Apache. Se utilizaron evitar la subjetividad (en contraposici´oncon una tambi´endiferentes recursos tanto en el back-end queja o una carta de presentaci´on, por ejemplo). (Bash, Perl y PHP, con un entorno de trabajo As´ı,como puede observarse en la Figura 10, si se Laravel) como en el front-end (HTML, CSS, Ja- selecciona este g´enero,se marcan en el texto las vaScript, con AJAX y jQuery). Algunos de los re- unidades indicadoras de subjetividad, como “evi- cursos principales se detallan en este apartado. El dentemente”, para que el usuario decida si quiere sistema est´aoptimizado para su utilizaci´oncon eliminarlas de su escrito. el navegador Google Chrome. 108– Linguamatica´ Iria da Cunha

Figura 9: Detalle de una captura de pantalla de arText que refleja la recomendaci´on Sistematicidad en el uso de verbos en 1o persona.

Figura 10: Detalle de una captura de pantalla de arText que refleja la recomendaci´on Uso de indi- cadores de subjetividad en el g´enerotextual solicitud.

El principal recurso empleado para la imple- tructura (ya que se tiene prevista la creaci´onde mentaci´ondel M´oduloI fue una base de datos nuevos ´ambitos y g´eneros,con diferentes aparta- MySQL, donde se guarda la informaci´onrelativa dos, contenidos y fraseolog´ıa). a la estructura textual de cada uno de los cinco Por su parte, el M´oduloII, adem´asde la ba- g´enerosque incluye arText, es decir, los aparta- rra de formato, incorpora un corrector ortogr´afico dos, los contenidos (incluyendo aqu´ılos t´ıtulos) opensource (WebSpellChecker Ltd). El acceso a y la fraseolog´ıa.MySQL es un sistema de gesti´on WebSpellChecker se hace por medio de una API de bases de datos relacionales de c´odigoabierto desde la nube. Se trata de un plugin del editor con un modelo cliente-servidor que nos pareci´o de texto de c´odigoabierto CKEditor, utilizado adecuado por la facilidad en la gesti´onde los da- tambi´enen la implementaci´ondel sistema. tos y por los requerimientos del sistema, ya que se necesitaba flexibilidad para crear o editar la es- Una aplicaci´onque ayuda a la ciudadan´ıaa escribir textos a la Administraci´onp´ublica Linguamatica´ – 109

Finalmente, el M´oduloIII incluye dos herra- se encuentran en este fichero PHP. La clase prin- mientas de PLN existentes actualmente para el cipal es “app” y esta procesa varias clases, co- espa˜nolque permiten realizar un procesamiento mo oraciones siglas, oraciones, unidades subjeti- ling¨u´ısticodel texto escrito por el usuario. En pri- vas, conectores discursivos, etc. El motivo de esta mer lugar, incorpora el analizador morfosint´acti- elecci´ones que JavaScript es un lenguaje de pro- co de Freeling (Atserias et al., 2006), mediante el gramaci´onque permite realizar actividades com- cual se lematizan todas las unidades l´exicasdel plejas en una p´aginaweb, y PHP es un lengua- texto y se asigna una categor´ıagramatical a ca- je de c´odigoabierto muy popular especialmente da una de ellas. En segundo lugar, incorpora el adecuado para el desarrollo web y que puede ser segmentador discursivo DiSeg (da Cunha et al., incrustado en HTML. Por tanto, al ser arText un 2012), que permite dividir el texto en oraciones y, sistema para ser empleado en la web, nos pareci´o adem´as,en segmentos discursivos intraoraciona- una opci´onacertada. les, siguiendo, el concepto de segmento discursivo La arquitectura general del M´oduloIII de ar- de Tofiloski et al.(2009) y los criterios de segmen- Text puede verse en la Figura 11. taci´onpara el espa˜nolde da Cunha & Iruskieta En cuanto al formato de persistencia de los (2010), mencionados en el apartado 3.1. documentos de arText, se us´oHTML5, que es la Asimismo, se implementaron en el M´oduloIII ´ultimaversi´onde HTML, con nuevos elementos, diferentes algoritmos que toman como entrada atributos y comportamientos, y que contiene un el texto procesado ling¨u´ısticamente por las dos conjunto m´asamplio de tecnolog´ıasque permi- herramientas de PLN mencionadas. Estos algo- te a los sitios web y a las aplicaciones ser m´as ritmos permiten detectar en el texto escrito por diversas y de gran alcance. La elecci´onde este el usuario los elementos ling¨u´ısticos necesarios formato se debe a que su uso es requerido por el para poder ofrecer las recomendaciones corres- editor CKEditor. pondientes asociadas a cada uno de ellos. Estos En relaci´oncon la exportaci´one importaci´on elementos son: de documentos, por una cuesti´onde protecci´onde datos, se decidi´oque el sistema no guardase en su Oraciones largas, con un umbral diferente de servidor los textos escritos por los usuarios. Por palabras para cada g´enerotextual. tanto, si el usuario desea guardar un texto escri- Conectores discursivos interoracionales e inter- to en l´ıneaen arText, debe hacerlo en local. Para oracionales que evidencian las ocho relaciones ello, existen varias opciones de exportaci´onde do- discursivas utilizadas en la investigaci´on,ex- cumentos: .pdf, .txt, .html, y .arText. Para poder tra´ıdosdel trabajo de da Cunha & Montan´e importar un texto posteriormente en arText debe (2020). utilizare el formato creado espec´ıficamente para esta aplicaci´on,el formato .arText. Conectores discursivos que se repiten tres o El sistema permite incluir en el documento m´asveces en el texto, extra´ıdosdel trabajo de im´agenes,siempre que estas tengan asignada una da Cunha & Montan´e(2020). URL, es decir, una direcci´onweb. No se permite Unidades l´exicasque indican subjetividad, co- subir im´agenesdesde local porque, como actual- mo marcas de superlativos (ej. “-´ısimo”), y mente no es necesario registrarse para utilizar el ciertos adjetivos (ej. “bueno”), adverbios (ej. sistema, nuestro equipo no puede hacerse respon- “evidentemente”) y frases (ej. “sin ninguna sable de las im´agenessubidas por los usuarios duda”), extra´ıdasdel trabajo de Otaola Olano desde sus ordenadores personales. En la opci´on (1988). “C´omosubir im´agenesdesde Google Drive” (ubi- cada en la pesta˜nade Ayuda en la parte superior Siglas propias y sus correspondientes t´erminos izquierda del editor; v´easeFigura1) se explica desplegados. En este caso, para hacer la corre- c´omoasignar una URL a una imagen.19 Todas laci´onentre la sigla y su t´erminodesplegado, se estas cuestiones se explican con detalle en el ma- tiene en cuenta que la letra inicial de las unida- nual de uso del sistema.20 des l´exicasincluidas en el t´ermino(excepto las stopwords) se correspondan, en el mismo or- den, con las mismas letras que incluye la sigla.

En el M´oduloIII se gestiona el lado cliente por medio de clases/objetos JavaScript que se encuentran en un fichero PHP (Hypertext Pre- 19http://sistema-artext.com/doc/como_subir_ Processor). Los algoritmos implementados pro- imagenes_desde_Drive.pdf cesan los resultados de las clases ling¨u´ısticasque 20http://sistema-artext.com/doc/manual.pdf 110– Linguamatica´ Iria da Cunha

Figura 11: Arquitectura general del M´oduloIII de arText.

4. Resultados y evaluaci´on Rasgos anotados a) Divisi´onde oraciones largas. Se realizaron dos tipos de evaluaciones de a1) Detecci´onde oraciones largas. arText: data-driven (basada en datos) y user- a2) Segmentaci´ondiscursiva. driven (basada en usuarios). Por un lado, la eva- a3) Detecci´onde conectores discursivos luaci´on data-driven se llev´oa cabo principalmen- interoracionales e intraoracionales te para comprobar que los algoritmos desarrolla- que expresan la misma relaci´ondiscursiva. dos en el M´oduloIII funcionaban correctamente. b) Introducci´onde siglas. Para ello, en primer lugar, se compil´oun corpus c) Sistematicidad en el uso de siglas. espec´ıficopara la evaluaci´on,que incluy´oun to- e) Variaci´onde conectores. tal de 24 textos. De estos, 8 fueron del ´ambito f) Sistematicidad en el uso de verbos en administrativo (concretamente, solicitudes), pe- 1o persona. ro tambi´ense decidi´oa˜nadirtextos de diferen- f1) Sistematicidad en el uso de verbos en tes ´ambitos y g´enerostextuales, para confirmar 1a persona singular. que arText puede funcionar con otro tipo de tex- f2) Sistematicidad en el uso de verbos en tos. As´ı,se a˜nadieronal corpus de evaluaci´on8 1a persona singular. res´umenesde art´ıculosde investigaci´ondel ´ambi- to m´edicoy 8 art´ıculosde divulgaci´onde revis- Tabla 1: Rasgos anotados para la evaluaci´on tas especializadas en turismo. En segundo lugar, data-driven de arText. un anotador con formaci´onen ling¨u´ıstica y ex- periencia en anotaci´onde corpus anot´omanual- mente los diferentes rasgos ling¨u´ısticosque se pre- tados se muestran en la Tabla2. Como puede ob- tend´ıanevaluar, incluidos en la Tabla1. servarse, los resultados obtenidos son en general En tercer lugar, se revisaron los textos del cor- muy positivos para todos los rasgos ling¨u´ısticos pus autom´aticamente con arText. Finalmente, se analizados. compararon los resultados provenientes del an´ali- Destaca especialmente que el sistema detect´o sis manual y de la revisi´onautom´aticarealizada correctamente todas las oraciones largas del cor- con el sistema. Para ello se calcul´ola precisi´on pus, todos los conectores discursivos incluidos en y cobertura de los resultados de arText en con- la Base de datos 1 y todas las unidades subjetivas traposici´oncon la anotaci´onmanual. Los resul- incluidas en la Base de datos 2. Una aplicaci´onque ayuda a la ciudadan´ıaa escribir textos a la Administraci´onp´ublica Linguamatica´ – 111

Recomendaci´on Precisi´on Cobertura 1. Breve cabecera de contextualizaci´ondel pro- yecto. a1) 1 1 a2) 0,74 0,87 2. Pasos a seguir para la utilizaci´onde arText. a3) 1 1 3. Preguntas de respuesta cerrada sobre: b) 0,76 0,68 c) 0,75 0,94 Accesibilidad. e) 1 1 Estructuraci´ony contenidos del texto. f1) 0,87 0,97 f2) 1 0,97 Correcci´onortogr´aficay formato. Revisi´ondel texto. Tabla 2: Resultados de la evaluaci´on data-driven Valoraci´onfinal. de arText. En segundo lugar, se distribuy´oel cuestiona- En el caso de la recomendaci´ond) Repetici´on rio a 25 ciudadanos, con estudios universitarios, de palabras, la evaluaci´onfue ligeramente diferen- entre 30 y 50 a˜nos,y con manejo de internet. En te: no se anotaron manualmente en el corpus to- general, los participantes hicieron una valoraci´on das las palabras repetidas, sino que se comprob´o muy positiva de la aplicaci´on.La valoraci´onge- si las palabras listadas por arText estaban marca- neral indica que el 84 % de los usuarios considera das en el texto y eran realmente diferentes formas que arText es muy ´utily el 100 % lo recomendar´ıa del mismo lema. Los resultados indicaron que el a otras personas. Las opciones ofrecidas por el 93,2 % de las unidades detectadas s´ılo eran. Las editor resultaron muy claras o bastante claras al principales dificultades se observaron en la detec- 100 % de los usuarios. El aspecto mejor valorado ci´onde abreviaturas como “Ilmo.” o “Sr.”. fue el M´oduloI de arText, que incluye informa- Con respecto a las causas de los errores detec- ci´onsobre la estructura textual, ya que un 80 % tados, pueden dividirse en errores derivados de de los usuarios considera que le ha parecido de las dos herramientas de PLN integradas en ar- mucha utilidad. El segundo aspecto mejor valo- Text y errores de los algoritmos propios del siste- rado tiene que ver con las sugerencias de revisi´on ma. Con respecto a los primeros, los errores rela- ling¨u´ısticadel texto ofrecidas en el M´oduloIII, cionados con las recomendaciones sobre palabras puesto que al 76 % de los usuarios le han parecido repetidas y verbos en primera persona vienen de- muy ´utileso bastante ´utiles,y, adem´as,al 80 % rivados del analizador morfosint´actico,mientras le ha parecido que est´anredactadas de manera que los errores en relaci´oncon la recomendaci´on muy clara o bastante clara. La barra de forma- sobre segmentaci´ondiscursiva son generados por to del M´oduloII parece que tambi´enha sido de el segmentador discursivo. Al tratarse de herra- bastante utilidad a los usuarios para maquetar el mientas externas, en estos casos ser´adif´ıcilrea- documento. lizar mejoras en el sistema para evitar este tipo El manual de uso, la forma de exportar e de errores. En cambio, s´ıpodremos trabajar en el importar documentos, y la manera de insertar futuro en la b´usquedade soluciones a los errores im´agenestuvieron asimismo una valoraci´onposi- producidos por los algoritmos propios de arText. tiva, aunque hay un porcentaje de usuarios que Estos tienen que ver principalmente con la cober- reconoce que no us´oel manual (24 %), que no ex- tura en la detecci´onde siglas (como se ha mencio- port´oo import´oning´undocumento (12 % y 20 %, nado en el apartado 3.2, actualmente ´unicamente respectivamente), o que no insert´oninguna ima- se detectan siglas propias) y sus correspondientes gen (24 %). t´erminosdesplegados. Uno de los aspectos en donde hay menos con- Por otro lado, la evaluaci´on user-driven per- senso y que parece ser de los peor valorados es miti´oconocer la percepci´onde la utilidad de la el uso de las frases sugeridas en el M´oduloI, ya aplicaci´onpor parte de usuarios reales. Para ello, que, aunque un 36 % de los usuarios dice haber en primer lugar, se dise˜n´oun cuestionario de va- insertado muchas de las frases y un 28 % ha in- loraci´oncon la herramienta Google Forms en que sertado bastantes, un 16 % indica que no ha in- se ped´ıa a los usuarios que probasen arText y, sertado ninguna y un 20 % ha insertado pocas. a continuaci´on,se les preguntaba su opini´onso- Las repuestas sobre la utilidad del corrector or- bre diferentes aspectos. El cuestionario contiene togr´aficotambi´envan en esta l´ınea. 3 bloques, que incluyen distintas preguntas, de- En el Ap´endiceA se recogen los resultados del talladas en el Ap´endiceA: cuestionario de valoraci´onde arText. 112– Linguamatica´ Iria da Cunha

5. Conclusiones y trabajo futuro El aspecto en el que hubo menos consenso en la evaluaci´onfue el uso de las frases sugeridas en Como se ha visto, aunque la comunicaci´on el M´oduloI. Por tanto, la revisi´on, modificaci´on electr´onicaentre el ciudadano y la Administra- y ampliaci´onde estas unidades ser´auna de las ci´ones el procedimiento habitual en Espa˜naen l´ıneasprioritarias de trabajo futuro. Asimismo, el contexto de la e-Administraci´on,son escasas se refinar´anlas recomendaciones relacionadas con las iniciativas para desarrollar herramientas TIC las siglas en el M´oduloIII, sobre todo para que que tengan como objetivo mejorar la comunica- logren una mayor cobertura, es decir, para que se ci´onescrita entre ambos. Este trabajo busca con- detecten un mayor n´umerode casos. Tambi´en se tribuir en este sentido. As´ı, el objetivo de este investigar´asobre la posibilidad de incluir nuevas art´ıculo ha sido mostrar el dise˜noe implemen- recomendaciones no contempladas por el momen- taci´onde arText, una aplicaci´ontecnol´ogicaque to. En cuanto a la evaluaci´on,ser´ıainteresante ayuda a la ciudadan´ıaa escribir textos dirigidos ampliar los textos del corpus, realizar la anota- a la Administraci´onp´ublica,y que integra di- ci´onpor parte de diferentes anotadores y medir ferentes herramientas y recursos de PLN, como el acuerdo entre ellos (interannotator agreement). un analizador morfosint´acticoy un segmentador Asimismo, se podr´ıarealizar una evaluaci´on user- discursivo. driven adicional enfocada a otros colectivos, con La aplicaci´ontiene forma de editor de textos distintos perfiles (en cuanto a edad y formaci´on) en l´ınea e incluye tres m´odulos,que ayudan al y capacidades (en cuanto a manejo de internet). usuario a: I) estructurar y redactar el documento, Finalmente, se investigar´asobre la posibilidad de II) darle formato y corregirlo ortogr´aficamente, y adaptar arText a otros g´enerostextuales, ´ambitos III) revisar la adecuaci´ondel texto, mediante re- especializados y lenguas. Actualmente el sistema comendaciones ling¨u´ısticasrelacionadas con ora- ya est´adisponible para la redacci´onde g´eneros ciones largas, conectores discursivos, siglas, pa- textuales en espa˜nolde otros dos ´ambitos: medi- labras repetidas, verbos en primera persona del cina y turismo. En el caso de la medicina, permite singular y plural, y unidades l´exicassubjetivas. redactar un art´ıculode investigaci´on,un art´ıculo El M´oduloI es especialmente relevante porque de revisi´on,una historia cl´ınica,un resumen de no exist´ıahasta la fecha ninguna aplicaci´ontec- art´ıculode investigaci´ony un Trabajo de Fin de nol´ogicaque ayudase a la ciudadan´ıa a estruc- Grado (TFG). En el caso del turismo, permite turar g´enerostextuales del ´ambito administra- redactar un art´ıculode divulgaci´on, una entrada tivo, incorporando sus apartados protot´ıpicos,y de blog de viajero, un informe, una normativa y a˜nadiendoen cada uno de ellos los t´ıtulos,con- un plan de negocio. tenidos y fraseolog´ıa habituales. El M´oduloIII es ´utilprincipalmente para revisar la adecuaci´on del texto escrito por la ciudadan´ıa,atendiendo a Agradecimientos las caracter´ısticasglobales que debe cumplir este tipo de documentos, como son la adecuaci´ongra- Este trabajo se ha llevado a cabo en el marco matical y estil´ıstica,la precisi´on,la concisi´on,la de un contrato Ram´ony Cajal (RYC-2014-16935) objetividad y la sistematicidad. financiado por el Ministerio de Econom´ıa,Indus- Las evaluaciones data-driven y user-driven tria y Competitividad, vinculado al Departamen- realizadas a arText ofrecen resultados positivos. to de Filolog´ıasExtranjeras y sus Ling¨u´ısticasde La evaluaci´on data-driven se realiz´opara evaluar la Facultad de Filolog´ıa de la Universidad Na- el funcionamiento de los algoritmos utilizados en cional de Educaci´ona Distancia (UNED). Los el M´oduloIII. En este caso, se observa que los re- resultados se derivan de dos proyectos de investi- sultados obtenidos de precisi´ony cobertura son gaci´on.Por un lado, del proyecto “Un sistema en general buenos para todos los rasgos ling¨u´ısti- autom´aticode ayuda a la redacci´onde textos cos analizados. La evaluaci´on user-driven permi- especializados de ´ambitos relevantes en la socie- ti´oconocer la percepci´onde la utilidad del siste- dad espa˜nolaactual”, financiado en la Convoca- ma por parte de usuarios reales, quienes hicieron toria 2015 de Ayudas Fundaci´onBBVA a Inves- una valoraci´onmuy favorable, destacando la uti- tigadores y Creadores Culturales. Por otro lado, lidad y claridad de la aplicaci´on.El aspecto mejor del proyecto “Tecnolog´ıas de la Informaci´ony la valorado fue el M´oduloI, que incluye informa- Comunicaci´onpara la e-Administraci´on:hacia la ci´onsobre la estructura textual, y el segundo fue mejora de la comunicaci´onentre Administraci´on el M´oduloIII, que ofrece sugerencias de revisi´on y ciudadan´ıa a trav´esdel lenguaje claro (TIC- ling¨u´ısticadel texto. eADMIN)”, financiado por el Ministerio de Cien- cia, Innovaci´one Universidades en la convocato- ria 2018 de Proyectos I+D del Subprograma Es- Una aplicaci´onque ayuda a la ciudadan´ıaa escribir textos a la Administraci´onp´ublica Linguamatica´ – 113 tatal de Generaci´onde Conocimiento (PGC2018- 2012. DiSeg 1.0: The first system for Spa- 099694-A-I00). Ambos proyectos se han desarro- nish discourse segmentation. Expert Sys- llado en el marco del grupo de investigaci´onAC- tems with Applications 39(2). 1671–1678. TUALing de la UNED, en colaboraci´oncon el 10.1016/j.eswa.2011.06.058. grupo de investigaci´onIULATERM del Institut de Ling¨u´ısticaAplicada (IULA) de la Universitat da Cunha, Iria & Mikel Iruskieta. 2010. Com- Pompeu Fabra (UPF). Quiero agradecer su parti- paring rhetorical structures in different lan- cipaci´onen la investigaci´ona todos los miembros guages: The influence of translation stra- del equipo de trabajo de ambos proyectos, espe- tegies. Discourse Studies 12(5). 563–598. cialmente a M. Amor Montan´ey a Luis Hysa. 10.1177/1461445610371054. da Cunha, Iria & M. Amor Montan´e. 2019. Textual genres and writing difficulties Referencias in specialized domains. Revista Signos. Estudios de Ling¨u´ıstica 52(99). 4–30. Alcaraz, Enrique & Brian Hughes. 2002. El es- 10.4067/S0718-09342019000100004. pa˜noljur´ıdico Ariel Derecho. Grupo Planeta. da Cunha, Iria & M. Amor Montan´e. 2020. Atserias, Jordi, Bernardino Casas, Elisabet Co- A corpus-based analysis of textual genres in melles, Meritxell Gonz´alez, Llu´ıs Padr´o & the administration domain. Discourse Studies Muntsa Padr´o.2006. Freeling 1.3. syntactic 22(1). 3–31. 10.1177/1461445619887538. and semantic service in an open-source NLP library. En 5th International Conference on Duarte, Carles & Anna Mart´ınez.1995. El len- Language Resources and Evaluation (LREC), guaje jur´ıdico. AZ Editora. 48–55. Gamallo Otero, Pablo, Marcos Garc´ıa, Iria del Ayala, Pilar, Elena Dom´ınguezOrtega, Francisca R´ıo & Isaac Gonz´alezL´opez. 2015. Avalin- Martel Ruiz, Jacqueline Montelongo Sanch´ez, gua: Natural language processing for auto- Dolores Morales Sosa, Orlando J. Socorro Lo- matic error detection. En Learner Corpora renzo & Elena Su´arezManrique de Lara. 2000. in Language Testing and Assessment, 35–58. Manual de normalizaci´onde documentos ad- John Benjamins. 10.1075/scl.70.02gam. ministrativos. Informe t´ecnico.Universidad de Giraldo, John J. 2008. An´alisisy descripci´onde Las Palmas de Gran Canaria. las siglas en el discurso especializado de geno- Bhatia, Vijay Kumar. 1993. Analyzing gen- ma humano y medio ambiente: IULA, Univer- re:language use in professional settings. Long- sitat Pompeu Fabra. Tesis Doctoral. man. Gonz´alezSalgado, J. Antonio. 2009. El lenguaje Biber, Douglas, Ulla Connor & Thomas A. Up- jur´ıdicodel siglo XXI. THEMIS: Revista de ton. 2007. Discourse on the move: Using cor- Derecho 57. 235–245. pus analysis to describe discourse structure. Gotti, Maurizio. 2008. Investigating specialized John Benjamins. 10.1075/scl.28. discourse. Peter Lang. Cabr´e,M. Teresa, Carme Bach, Iria da Cunha, Jim´enezYa˜nez,Ricardo-Maria. 2016. Escribir Albert Morales & Jorge Vivaldi. 2010. Com- bien es de justicia. Pamplona, Navarra: Edito- paraci´onde algunas caracter´ısticasling¨u´ısticas rial Aranzadi. del discurso especializado frente al discurso ge- neral: el caso del discurso econ´omico. Modos y Mann, William & Sandra A. Thompson. formas de la comunicaci´onhumana, Ways and 1981. Rhetorical structure theory: To- Modes of Human Communication 453–460. ward a functional theory of text orga- nization. Text & Talk 8(3). 243–281. Cabr´e,Maria Teresa. 1999. La terminolog´ıa:Re- 10.1515/text.1.1988.8.3.243. presentaci´ony comunicaci´on.Elementos para una teor´ıade base comunicativa y otros art´ıcu- de Miguel Aparicio, Elena. 2000. El texto los. IULA, Universitat Pompeu Fabra. jur´ıdico-administrativo: An´alisisde una orden ministerial. C´ırculo de Ling¨u´ıstica Aplicada a Castell´on,Heraclia. 2001. El lenguaje adminis- la Comunicaci´on 4. trativo. Formas y uso. Editorial La Vela. Montol´ıoDur´an,Estrella. 2012. Hacia la moder- da Cunha, Eric SanJuan, Iria, Juan M. Torres- nizaci´ondel discurso jur´ıdico. Publicacions i Moreno, Marina Lloberes & Irene Castell´on. Edicions de la Universitat de Barcelona. 114– Linguamatica´ Iria da Cunha

Otaola Olano, Concepci´on.1988. La modalidad (con especial referencia a la lengua espa˜nola). Revista de Filolog´ıaEspa˜nola 68(1/2). 97–117. Parodi, Giovanni. 2010. Academic and professio- nal discourse genres in Spanish. John Benja- mins. 10.1075/scl.40. Rodr´ıguez-Aguilera,Ces´areo.1969. El lenguaje jur´ıdico. Barcelona Bosch. Samaniego, Eva. 2005. El lenguaje jur´ıdico:Pe- culiaridades del espa˜noljur´ıdico.En Lengua y Sociedad: Aportaciones recientes en ling¨u´ısti- ca cognitiva, lenguas de contacto, lenguajes de especialidad y ling¨u´ıstica del corpus, 273–310. Universidad de Valladolid, Centro Buendia. Swales, John M. 1990. Genre analysis: English in academic and research settings. Cambridge University Press. S´anchez Alonso, Fernando. 2014. Lenguaje y es- tilo administrativo. Redacci´onde documentos. Escuela de Formaci´one Innovaci´on.Adminis- traci´onP´ublica. Tofiloski, Milan, Julian Brooke & Maite Taboa- da. 2009. A syntactic and lexical-based dis- course segmenter. En 47th Annual Meeting of the Association for Computational Linguistics, 77–80. Upton, Thomas A. & Mary A. Cohen. 2009. An approach to corpus-based discourse analysis: The move analysis as exam- ple. Discourse Studies 11(5). 585–605. 10.1177/1461445609341006. Van Dijk, Teun A. 1977. Text and context: Ex- plorations in the semantics and pragmatics of discourse. Longman. Van Dijk, Teun A. 1989. La ciencia del texto: un enfoque interdisciplinario. Paid´osComunica- ci´on. Zhou, Lanjun, Li Binyang, Wei Zhongyu & Wong Kam-Fai. 2014. The CUHK Discourse Tree- bank for Chinese: Annotating Explicit Dis- course Connectives for the Chinese Treebank. International Conference on Language Resour- ces and Evaluation (LREC) 942–949. Una aplicaci´onque ayuda a la ciudadan´ıaa escribir textos a la Administraci´onp´ublica Linguamatica´ – 115

A. Resultados de las preguntas del cuestionario de valoraci´onde arText

Proposta recebida em Janeiro 2017 e aceite para publica¸c˜aoem Maio 2017.

Distˆanciadiacr´onicaautom´aticaentre variantes diat´opicasdo portuguˆese do espanhol Automatic diachronic distance between diatopic variants of Portuguese and Spanish

Jos´eRamom Pichel Pablo Gamallo imaxin software Universidade de Santiago de Compostela [email protected] [email protected] Marco Neves I˜nakiAlegria Universidade Nova de Lisboa Universidade do Pa´ısBasco (EHU/UPV) [email protected] [email protected]

Resumo noted that the method is not supervised and can be applied to other diatopic varieties of languages. O objetivo deste trabalho ´eaplicar uma metodo- logia baseada na perplexidade, para calcular automa- Keywords ticamente a distˆanciainterlingu´ısticaentre diferentes language distance, diachronic linguistics, perplexity per´ıodos hist´oricosde variantes diat´opicasde idiomas. Esta metodologia aplica-se a um corpus constru´ıdo adhoc em ortografia original, numa base equilibrada de fic¸c˜aoe n˜ao-fic¸c˜ao,que mede a distˆanciahist´orica 1. Introdu¸c˜ao entre o portuguˆeseuropeu e do Brasil, por um lado, e o espanhol europeu e o da Argentina, por outro. Os Os idiomas e as suas variedades diat´opicasmu- resultados mostram distˆanciasmuito pr´oximasem or- dam constantemente ao longo da hist´oria(Millar tografia original e transcrita automaticamente, entre & Trask, 2015), pelo que medir esta distˆanciade as variedades diat´opicasdo portuguˆese do espanhol, forma autom´atica´eum desafio. com ligeiras convergˆencias/divergˆenciasdesde meados Historicamente houve diferentes abordagens do s´eculoXX at´ehoje. E´ de salientar que o m´etodo para calcular esta distˆancia,nomeadamente com n˜ao´esupervisionado e pode ser aplicado a outras va- base nos estudos filogen´eticos no ˆambito da riedades diat´opicasde l´ınguas. Lingu´ısticaHist´orica(Petroni & Serva, 2010), da dialectologia (Nerbonne & Heeringa, 1997), do Palavras chave campo da aquisi¸c˜aode segunda l´ıngua(Chiswick distˆancialingu´ıstica,lingu´ısticadiacr´onica,perplexi- & Miller, 2004), ou da identifica¸c˜aoautom´atica dade da l´ıngua(Malmasi et al., 2016). Para Gamallo et al.(2016), o conceito de distˆancia lingu´ıstica est´a intimamente relacio- Abstract nado com o processo de identifica¸c˜aoautom´atica da l´ıngua. Na verdade, quanto mais dif´ıcil for The objective of this work is to apply a perplexity- a identifica¸c˜aodas diferen¸casentre duas l´ınguas based methodology to automatically calculate the ou variedades lingu´ısticas,menos distˆancia existe cross-lingual distance between different historical pe- entre elas. riods of diatopic language variants. This methodo- Com este fim, os melhores sistemas de iden- logy applies to an adhoc constructed corpus in original tifica¸c˜aoautom´aticade l´ınguas baseiam-se em spelling, on a balanced basis of fiction and non-fiction, modelos de n-gramas de caracteres extra´ıdosde which measures the historical distance between Eu- corpora textuais (Malmasi et al., 2016). Os ropean and Brazilian Portuguese on the one hand, n-gramas de caracteres n˜ao s´o codificam in- and European and Argentinian Spanish on the other. forma¸c˜aol´exicae morfol´ogica,mas tamb´emca- The results show very close distances, both in ori- racter´ısticas fonol´ogicas,uma vez que os siste- ginal spelling and automatically transcribed spelling, mas fonogr´aficosescritos est˜aorelacionados com between the diatopic varieties of Portuguese and Spa- a forma como as l´ınguaseram pronunciadas no nish, with slight convergences/divergences from the passado. middle of the 20th century until today. It should be

DOI: 10.21814/lm.12.1.319 Linguamatica´ — ISSN: 1647–0818 This work is Licensed under a Creative Commons Attribution 4.0 License Vol. 12 N´um. 1 2020 - P´ag. 117–126 118– Linguamatica´ Jos´eRamom Pichel, Pablo Gamallo, Marco Neves & I˜naki Alegria

Tendo isto em mente, o objectivo principal 2.1. Identifica¸c˜aoautom´aticade l´ınguas do presente artigo ´e aplicar uma metodologia A identifica¸c˜ao autom´atica de l´ınguas ´e um para medir a distˆanciadiacr´onicaentre duas va- campo da lingu´ıstica computacional ainda com riedades diat´opicasdo portuguˆese duas do es- desafios por resolver, tais como a diferencia¸c˜ao panhol. Para isso utilizaremos modelos de n- autom´atica de l´ınguas muito pr´oximas (por gramas de caracteres obtidos a partir de cor- exemplo, checo e eslovaco, croata e b´osnio)ou va- pus hist´oricoconstru´ıdo adhoc, e a m´etricacha- riedades diat´opicas na mesma l´ıngua (por exem- mada Perplexity Language Distance (PLD), ba- plo, espanhol argentino e espanhol europeu, por- seada na perplexidade e definida em Pichel et al. tuguˆesde Angola e portuguˆesde Portugal). (2019a). A distˆanciaautom´aticaentre variedades Para esta identifica¸c˜aode l´ınguas tˆem sido diacr´onicasde l´ınguasdiferentes ser´areferida de usadas diferentes abordagens: dicion´ariosbase- forma abreviada como CrossDiaDist. ados em listas de palavras e heur´ısticas (orto- A nossa metodologia orientada por corpus grafia, morfologia, caracter´ısticassint´acticas)ou n˜ao´esupervisionada e, portanto, s´onecessita- abordagens estat´ısticasbaseadas em modelos de mos de corpora hist´oricosem bruto. Os tex- l´ıngua (nomeadamente, n-gramas de caracteres tos sobre os quais realizamos as experiˆenciasde ou n-gramas de palavras) a partir de corpora. distˆancialingu´ısticapreservam a ortografia origi- Estes ´ultimos,especialmente os baseados em nal; tamb´emcalculamos essa distˆanciaentre esses n-gramas de caracteres, costumam ser os melho- mesmos textos transliterados para uma ortogra- res sistemas de identifica¸c˜aolingu´ıstica (Malmasi fia comum `asduas l´ınguas. Um trabalho simi- et al., 2016). A raz˜aoprov´avel ´eque os n-gramas lar de transcri¸c˜aofoi realizado em Sim˜oeset al. de caracteres n˜aos´ocodificam informa¸c˜oeslexi- (2012), com o objectivo de modernizar ortogra- cais e morfol´ogicas,mas tamb´emcaracter´ısticas ficamente vers˜oesantigas de palavras em por- fonol´ogicas,uma vez que os sistemas fonogr´aficos tuguˆesnum dicion´ario. escritos est˜aorelacionados com a forma como as De agora em diante, usaremos as siglas OS l´ınguaseram pronunciadas no passado. Se os n- para ortografia original e TS para ortografia gramas forem longos (por exemplo, 6–gramas), transcrita. tamb´emcodificam rela¸c˜oessint´acticas,pois≥ po- Em resumo, o nosso objetivo ´etentar verifi- dem representar o fim de uma palavra e o in´ıcio car se as duas variedades de l´ınguas tˆemuma da pr´oximanuma sequˆencia. Tamb´empodemos CrossDiaDist est´avel ou se, pelo contr´ario,tˆem destacar, no que toca `aidentifica¸c˜aoeficiente de per´ıodos convergentes e/ou divergentes. Al´em idiomas pr´oximos,o trabalho de Tiedemann & disso, tentamos tamb´emmedir at´eque ponto a Ljubeˇsi´c(2012) baseado em n-gramas de pala- ortografia desempenha um papel nesta CrossDi- vras utilizando blacklists. aDist entre variedades diat´opicasnos per´ıodos Entre os estudos mais relevantes e pioneiros hist´oricosestudados. devemos destacar os de Cavnar & Trenkle(1994) O artigo est´aorganizado da seguinte forma: e Dunning(1994), que s˜aoos primeiros a usar n- em primeiro lugar, descrevemos alguns estudos gramas para identifica¸c˜aoautom´aticade l´ınguas. sobre distˆanciaautom´aticaentre l´ınguascom di- Tamb´em existem trabalhos para classificar ferentes abordagens na Sec¸c˜ao2. Depois, descre- l´ınguaspr´oximasou variedades diat´opicas(Mal- vemos o corpus usado e o conceito de perplexi- masi et al., 2016; Zampieri et al., 2018; Kroon dade na Sec¸c˜ao3. Posteriormente, na Sec¸c˜ao4, et al., 2018), e tamb´empara a detec¸c˜aode l´ınguas apresentamos a metodologia, baseada na perple- em textos curtos e com muito ru´ıdocomo tweets xidade, a aplicar ao corpus diacr´onico.Por fim, (Gamallo et al., 2014; Zubiaga et al., 2016). na Sec¸c˜ao5, apresentamos e discutimos os re- Finalmente, existem abordagens relacionadas sultados, comentando as conclus˜oese o trabalho com a aprendizagem profunda (deep learning futuro na Sec¸c˜ao6. (Lopez-Moreno et al., 2014; Gonzalez-Dominguez et al., 2014). Na Evaluation Campaign mais re- 2. Trabalho relacionado cente organizada no Workshop on Natural Lan- guage Processing for Similar Languages, Vari- Para medir a proximidade ou distanciamento en- eties and Dialects (VarDial-2019), confirma-se tre l´ınguasou variedades diat´opicasde l´ınguas, que as abordagens mais sofisticadas baseadas em existem diferentes abordagens: identifica¸c˜aoau- aprendizagem profunda e vectores contextuais tom´atica de l´ınguas, filogen´etica e c´alculo da n˜aomelhoram os resultados das estrat´egiasmais distˆanciaautom´aticaentre l´ınguas. tradicionais com modelos de n-gramas de caracte- res e classificadores de tipo Naive Bayes ou Sup- port Vector Machine (Zampieri et al., 2019). Distˆancia diacr´onica autom´atica entre variantes diat´opicas do portuguˆes e do espanhol Linguamatica´ – 119

2.2. Filogen´etica 3. Materiais e ferramentas

Na filogen´etica,para calcular a distˆanciaou pro- 3.1. Corpora ximidade entre l´ınguas,a estrat´egiaconsiste em classificar as l´ınguas atrav´esda constru¸c˜aode Para a elabora¸c˜ao das nossas experiˆencias, uma ´arvore enraizada que descreve a hist´oriaevo- cri´amosum corpus diacr´onicoem OS para o por- lutiva de um conjunto de l´ınguasou variedades tuguˆeseuropeu, portuguˆesdo Brasil, espanhol relacionadas. europeu e espanhol da Argentina. Para isso existem diferentes metodologias, No que toca ao tamanho deste corpus, segui- como as baseadas em comparar cognatos lexicais, mos os crit´erios dos autores do Helsinki Corpus ou seja, palavras que tˆemuma origem hist´orica of Historical English (Rissanen et al., 1993), que comum (Nakhleh et al., 2005; Holman et al., indicam: “O primeiro problema a ser decidido 2008; Bakker et al., 2009; Petroni & Serva, 2010; na compila¸c˜aode um corpus ´eo seu tamanho” Barban¸conet al., 2013). Tamb´emexistem apro- e “O tamanho do corpus b´asico´ede cerca de xima¸c˜oeslexico-estat´ısticasbaseadas em listas de 1,5 milh˜oesde palavras”. palavras em v´arios idiomas, por exemplo, Swa- Em rela¸c˜aoaos per´ıodos, como s´oqueremos desh list (Swadesh, 1952) ou a base de dados estudar a distˆanciaentre as variantes diat´opicas ASJP (Brown et al., 2009), que medem automa- do portuguˆese do espanhol em per´ıodos recen- ticamente distˆanciasusando a percentagem de tes, vamos dividir o nosso corpus exclusivamente cognatos compartilhados. Tamb´ema distˆancia em dois per´ıodos hist´oricos:segunda metade do Levenshtein entre as palavras numa lista cross- s´eculoXX (XX-2) e s´eculoXXI at´eao presente lingual (Yujian & Bo, 2007) ´euma das m´etricas (XXI-1). Tamb´empara tornar este corpus re- mais comuns usadas neste campo (Petroni & presentativo de todas as variantes diat´opicasde Serva, 2010). Finalmente, tamb´emusando uma portuguˆese espanhol, tendo em conta a represen- distˆanciabaseada na perplexidade, Gamallo et al. tatividade definida por Biber(1993), inclu´ımos (2017a) constru´ıramuma rede que representa o 50% de fic¸c˜aoe 50% de n˜ao-fic¸c˜aopara cada mapa actual de semelhan¸case divergˆenciasentre per´ıodo. Al´emdisso, como queremos ver o papel as principais l´ınguas da Europa. que a ortografia desempenha na distˆanciaentre as variedades diat´opicas,inclu´ımossempre textos 2.3. Distˆanciaentre idiomas em OS. Tendo em conta todas estas caracter´ısticas, Inicialmente houve abordagens como as de Ner- alarg´amoso corpus hist´orico Carvalho em OS bonne & Heeringa(1997) e Kondrak(2005) a j´adesenvolvido em Pichel et al.(2019b) para o partir da compara¸c˜aoentre formas fon´eticasde portuguˆeseuropeu (Carvalho-PT-PT) e espanhol idiomas, “mas alguns pesquisadores tˆemargu- europeu (Carvalho-ES-ES), com o portuguˆesdo mentado contra a possibilidade de obter resul- Brasil (Carvalho-PT-BR) e o espanhol da Argen- tados significativos a partir da compara¸c˜aoentre tina (Carvalho-ES-AR). Temos portanto o por- formas fon´eticasde idiomas” (Singh & Surana, tuguˆeseuropeu, portuguˆesdo Brasil, espanhol 2007). europeu e espanhol da Argentina para os per´ıodos Em tempos recentes o c´alculoda distˆancias XX-2 e XXI-1. Al´emdisso, os textos inclu´ıdos entre l´ınguasbaseiam-se sobretudo em modelos neste corpus est˜aona ortografia mais pr´oxima de l´ıngua constru´ıdos a partir de corpora pa- poss´ıvel do original, uma vez que as experiˆencias ralelos. Estes modelos s˜aoconstru´ıdos a par- que iremos realizar ser˜aodesenvolvidas tanto em tir das co-ocorrˆencias de palavras e, portanto, OS como em TS autom´atico. Criado para es- a distˆanciaentre l´ınguas´eresultado da simila- tas experiˆencias,Carvalho1 ´eum corpus hist´orico ridade interlingu´ıstica entre estas co-ocorrˆencias em OS dispon´ıvel gratuitamente para inglˆes,por- (Liu & Cong, 2013; Gao et al., 2014; Asgari & tuguˆeseuropeu, portuguˆesdo Brasil, espanhol Mofrad, 2016). europeu e espanhol da Argentina. Tamb´em existem outras aproxima¸c˜oes ba- Finalmente, Carvalho-PT-PT, Carvalho-PT- seadas na entropia para investigar a mu- BR, Carvalho-ES-ES, Carvalho-ES-AR foram di- dan¸cadiacr´onicano inglˆescient´ıfico, como em vididos em dois subcorpora (treino e teste) para (Degaetano-Ortlieb et al., 2016)(Rama & Bo- calcular a distˆanciaentre variedades diat´opicas rin, 2015), utilizando a cross-entropy. Final- baseadas na perplexidade. A Tabela1 mostra o mente esta distˆanciatem sido calculada utili- tamanho dos corpora de treino e de teste nos dois zando a perplexidade em corpus sincr´onicos Ga- mallo et al.(2017a) e diacr´onicos Pichel et al. 1https://github.com/gamallo/Perplexity/tree/ (2018). master/resources/Carvalho 120– Linguamatica´ Jos´eRamom Pichel, Pablo Gamallo, Marco Neves & I˜naki Alegria

Carvalho Train-pt Test-pt Train-br Test-br Train-es Test-es Train-arg Test-arg XX-2 1.688M 363K 1.261M 342K 1.231M 250K 1.280M 256K XXI-1 1.389M 336K 1.222M 315K 1.270M 285K 1.202M 285K

Tabela 1: Tamanho dos corpora de treino e teste em dois per´ıodos hist´oricosde espanhol-Espanha (es), espanhol-Argentina (arg), portuguˆes-Portugal (pt) e portuguˆes-Brasil (br) per´ıodos de cada variante diat´opicade portuguˆes 3.1.2. Corpus do Espanhol Europeu e da Argen- e espanhol para os per´ıodos XX-2 e XXI-1. tina A pr´oximasec¸c˜aodescreve as caracter´ısticas No caso do espanhol, as mudan¸casrelevantes na do corpus diacr´onico de Carvalho para cada ortografia ocorreram especialmente desde o apa- uma das variedades diat´opicasdas l´ınguas. Va- recimento em 1713 da Real Academia Espanhola mos concentrar-nos nos diferentes reposit´oriosde e mais tarde em 1741, com um padr˜aoortogr´afico onde foram extra´ıdostodos os documentos e nas diferente do resto das l´ınguasromˆanicas. Esta caracter´ısticassignificativas de cada l´ıngua. norma foi consolidada ao longo do tempo com pequenas varia¸c˜oesna hist´oria,embora houvesse 3.1.1. Corpus do PortuguˆesEuropeu e do Brasil gram´aticasna Argentina com orienta¸c˜oesdiver- gentes em rela¸c˜aoao espanhol europeu, como Para a elabora¸c˜aodos corpora Carvalho-PT-PT em Bello(1984) e Bello et al.(1951). Durante e Carvalho-PT-BR, seleccion´amostextos com a o s´eculoXX, a ortografia em espanhol europeu ortografia o mais pr´oxima poss´ıvel do original e argentino mudou muito pouco (1952, 1959 e (OS). H´aque ter em conta que nessa OS est˜ao 1999), mas houve contribui¸c˜oespara a gram´atica inclu´ıdostextos com e sem o Acordo Ortogr´afico da Academia Argentina de las Letras fundada em de 1990 (AO’90). As diferentes vers˜oesdo por- 1931. tuguˆes(portuguˆes europeu, portuguˆesdo Brasil, portuguˆeseuropeu AO’90 e portuguˆesdo Brasil Na Tabela3, mostram-se trechos do espa- AO’90) podem ser vistas na Tabela2. nhol europeu e espanhol argentino. Para a rea- liza¸c˜aodos corpora Carvalho-ES-ES e Carvalho- O portuguˆeseuropeu e o portuguˆesdo Bra- ES-AR, obtivemos documentos de fic¸c˜aoe n˜ao- sil tˆemvariado especialmente no s´eculoXX do fic¸c˜aonos seguintes reposit´orios:OpenLibrary7, ponto de vista do padr˜aoe da ortografia. As- Wiki source8, Repositorio Institucional CONI- sim, desde o ano 1779 em Portugal, a Academia CET Digital 9 e TesesUniversidadBuenosAires10 das Ciˆenciasde Lisboa tem promovido diferen- tes padr˜oese normas ortogr´aficas(e.g.: 1885, 1911, 1945, 1973, 1990). Por sua vez, a Aca- 3.2. Perplexidade demia Brasileira de Letras tem convergido ou di- Para medir a qualidade dos modelos de lingua- vergido com estas propostas (e.g.: 1907, 1915, gem constru´ıdoscom n-gramas extra´ıdosa partir 1919, 1924, 1929, 1931, 1943, 1971, 1986) at´eao de corpora (Chen & Goodman, 1996; Sennrich, Acordo Ortogr´aficode 1990 (AO’90), que ainda 2012; Dieguez-Tirado et al., 2005) utilizamos a hoje ´eobjeto de grande controv´ersiaem ambos perplexidade: os pa´ısese n˜aoest´atotalmente espalhado.

Para criar os corpora de portuguˆesCarvalho- n 1 PT-PT e Carvalho-PT-BR nos subper´ıodos XX- PP (CH, LM) = n (1) 2 e XXI-1, identific´amose seleccion´amosdocu- v P (ch chi 1) u i i 1− mentos dos seguintes reposit´orios:Wiki source2, uY | 3 4 5 t OpenLibrary , Linguateca , Dom´ınioP´ublico e onde as probabilidades de n-grama P ( ) s˜aodefi- 6 TesesUSP nidas desta forma: ·

n 1 n 1 C(ch1− chn) P (chn ch1− ) = n 1 (2) | C(ch1− )

2https://en.wikisource.org/wiki/Category: Portuguese_authors 7https://openlibrary.org/ 3https://openlibrary.org/ 8https://en.wikisource.org/wiki/Category: 4https://www.linguateca.pt/ Spanish_authors 5http://www.dominiopublico.gov.br/ 9https://ri.conicet.gov.ar/ 6https://www.teses.usp.br 10http://repositoriouba.sisbi.uba.ar/ Distˆancia diacr´onica autom´atica entre variantes diat´opicas do portuguˆes e do espanhol Linguamatica´ – 121

Portugal (OS) Brasil(OS) PT(AO’90) (OS) BR(AO’90) (OS) o princ´ıpioda ac¸c˜ao ou, Ele existe — mas quase em primeiro lugar, por- S´oo mau fato de se to- tamb´em, a fun¸c˜ao es- s´o por interm´edio da que tais deuses de facto par com eles, dava solo- sencial da vida animal. a¸c˜ao das pessoas: de n˜aoexistem, (. . . ) turno sombrio. (. . . ) (. . . ) bons e maus. (. . . )

Tabela 2: Diferen¸cas entre variedades diat´opicasdo portuguˆeseuropeu (OS), portuguˆesdo Brasil (OS), e ambos com Acordo Ortogr´afico(AO’90). Este extratos pertencem a documentos dos corpora Carvalho-PT-PT e Carvalho-PT-BR

Espanhol europeu (OS) Espanhol da Argentina (OS) -¿Sabes lo que te digo? -¡Qu´e! -Que si t´u Pero es que vos ya lo sab´es, dec´ıala Maga, fueses el novio de mi hermana, te hubiera resentida. (. . . ) matado. (. . . )

Tabela 3: Diferen¸cas entre variedades diat´opicasdo espanhol europeu (OS) e o espanhol da Argentina (OS) em documentos do corpus Carvalho-ES-ES e Carvalho-ES-AR

Esta m´etricaest´aorientada para conferir se perplexidade do texto do teste em VL1.1, dado o um modelo de l´ıngua´ebom a prever uma amos- modelo da linguagem LM de VL1.2, s˜aoutiliza- tra de texto. Assim, se a perplexidade ´ebaixa, o das para definir CrossDiaDist baseada na perple- modelo de l´ıngua´ebom a prever a amostra. Pelo xidade, P LD, entre VL1.1 e VL1.2, da seguinte contr´ario,uma perplexidade alta mostra que o forma: modelo de linguagem n˜ao´ebom a prever a amos- PP (A) + PP (B) tra em quest˜ao. P LD(VL1.1,VL1.2) = (3) A perplexidade tem sido usada tamb´emem 2 tarefas muito espec´ıficas,tais como medir a di- ficuldade das tarefas de reconhecimento da fala PP (A) = PP (CHVL1.2, LMVL1.1) (4) (Jelinek et al., 1977), para classificar tweets for- PP (B) = PP (CHVL1.1, LMVL1.2) (5) mais e coloquiais (Gonz´alez, 2015), ou para iden- tificar automaticamente l´ınguasestreitamente re- No trabalho actual, o nosso objectivo ´eaplicar lacionadas e at´evariedades diat´opicasde l´ınguas a P LD para medir a CrossDiaDist entre varie- (Gamallo et al., 2016). dades diat´opicasde l´ınguasnos mesmos per´ıodos Tendo em conta isto, definimos recentemente hist´oricos. Com este fim, utiliz´amos mode- em Pichel et al.(2019b) uma distˆancia base- los de linguagem baseados em 7-gramas de ca- ada na perplexidade chamada Perplexity Lan- racteres, que incorporam uma t´ecnicade alisa- guage Distance (P LD), para medir a distˆancia mento baseada em interpola¸c˜aolinear. Os cor- diacr´onica intralingu´ıstica em l´ınguas como o pora de treino/teste contˆem aproximadamente inglˆes,portuguˆese espanhol. A P LD tamb´emfoi 1,25M/250K palavras, respectivamente, para que aplicada para medir a CrossDiaDist entre duas os nossos resultados possam ser comparados e co- l´ınguas(Pichel et al., 2019a). mentados mais tarde na Sec¸c˜ao5. No nosso caso a CrossDiaDist ser´aentre duas Finalmente, para que se possa medir a P LD variedades diat´opicasda mesma l´ıngua. Esta ´e entre per´ıodos de qualquer outro idioma, outros definida comparando os n-gramas de um texto pares de idiomas ou outros pares de varieda- numa variedade da l´ıngua (portuguˆeseuropeu) des diat´opicasde idiomas, desenvolvemos uma com o modelo de n-gramas treinado para a outra arquitetura de pipeline em Perl, dispon´ıvel em variedade de l´ıngua(portuguˆesdo Brasil). Esta GitHub11. compara¸c˜aodeve ser feita nas duas direc¸c˜oes, dado que PP ´euma divergˆenciacom valores as- sim´etricos. Al´emdisso esta compara¸c˜aoao ser 4. M´etodos e procedimento diacr´onica´epor cada per´ıodo hist´orico. O nosso m´etodo para calcular a CrossDiaDist en- Finalmente, para tornar a medida sim´etrica,a tre variantes diat´opicasde l´ınguasest´adividido perplexidade do texto do teste CH na variedade nas seguintes tarefas sequenciais: diat´opica VL1.2, dado o modelo da linguagem LM da variedade diat´opica VL1.1, bem como a 11https://github.com/gamallo/Perplexity 122– Linguamatica´ Jos´eRamom Pichel, Pablo Gamallo, Marco Neves & I˜naki Alegria

1. Definir per´ıodos hist´oricoscomuns para to- 6. Finalmente, avalia¸c˜aodos resultados finais da das as l´ınguas ou variedades diat´opicasdas CrossDiaDist em OS e TS. l´ınguas. No nosso caso teremos dois per´ıodos (XX-2 e XXI-1) para as seguintes l´ınguas:por- 5. Avalia¸c˜ao tuguˆeseuropeu, portuguˆesdo Brasil, espanhol europeu e espanhol do Brasil. Ap´osaplicar a metodologia para o c´alculoda 2. Obter textos suficientes para todas as vari- CrossDiaDist baseado em P LD em OS e TS, so- edades diat´opicasdos idiomas nos per´ıodos bre os corpora Carvalho-PT-PT (portuguˆeseu- hist´oricospreviamente definidos. Antes de in- ropeu), Carvalho-PT-BR (portuguˆesdo Brasil), corpor´a-losno corpus ´eimportante verificar se Carvalho-ES-ES (espanhol europeu) e Carvalho- est˜aoem OS. Para isso, temos de olhar para ES-AR (espanhol da Argentina), e sobre os dois a hist´oriadas mudan¸casortogr´aficasde cada per´ıodos hist´oricosXX-2 e XXI-1, obtemos os re- variedade diat´opica.Os excertos em qualquer sultados que ser˜aoexplicados a seguir. outra l´ınguas˜aoeliminados. 3. Dividir o corpus anterior em treino e teste para 5.1. Resultados cada um dos per´ıodos hist´oricos. A tipolo- A Tabela4 mostra os resultados da aplica¸c˜aoda gia dos textos deve estar equilibrada em 50% metodologia para os corpora de portuguˆeseuro- aproximadamente entre fic¸c˜aoe n˜ao-fic¸c˜ao.O peu e portuguˆesdo Brasil nos dois per´ıodos XX- treino cont´empelo menos 1,25M palavras por 2 e XXI-1 tanto em OS como em TS. Nela ve- per´ıodo, enquanto o teste tem pelo menos 20% mos que a distˆanciaaumenta ligeiramente desde do tamanho da parti¸c˜aodo treino, ou seja, en- o per´ıodo XX-2 at´ea actualidade, entre o por- tre 250K e 350K palavras. tuguˆeseuropeu e o portuguˆesdo Brasil, tanto 4. Realiza¸c˜aoda CrossDiaDist em OS, que ser´a em OS com em TS. Em OS aumenta de PLD: calculada entre cada variedade diat´opicade 4,12 para PLD: 4,36 e em TS aumenta de PLD: idioma (PLD(VL1.1, VL1.2), PLD(VL2.1, 3,65 para 3,83. VL2.2)), e para cada per´ıodo. A Tabela5 mostra os resultados para o espa- nhol espanhol europeu e o espanhol da Argentina 5. Realiza¸c˜aoda CrossDiaDist em TS. A TS ´e em OS e TS. Para as variedades diat´opicasdo o resultado da aplica¸c˜aode uma normaliza¸c˜ao espanhol, vemos que a distˆancia diminui ligeira- ortogr´aficanos textos com a finalidade de uni- mente entre espanhol de Espanha e espanhol da ficar ortograficamente os textos das variedades Argentina entre os per´ıodos XX-2 e XXI-1 em OS do portuguˆeseuropeu e do Brasil, e tamb´em e tamb´emem TS. Assim, em OS diminui a PLD: da variedade do espanhol europeu e do da Ar- 4,27 para PLD: 4,04 e em TS diminui de PLD: gentina. Uma vez unificados ortograficamente, 3,60 para 3,45. ´ecalculada a CrossDiaDist, mas em TS. Para isso, foi implementado um transcritor cujo al- Finalmente as Figuras1e2 retratam a infor- fabeto consiste em 34 s´ımbolos, representando ma¸c˜aoda distˆanciaentre as variedades diat´opicas 10 vogais (incluindo acentos) e 24 consoantes, do portuguˆeseuropeu e do portuguˆesdo Brasil, e destinados a cobrir a maioria dos sons mais do espanhol europeu e o espanhol da Argentina. comuns, incluindo v´ariaspalatiza¸c˜oes. A co- difica¸c˜ao´e,portanto, pr´oximada fonol´ogica 5.2. Discuss˜ao e, assim, permite simplificar e homogeneizar os casos em que sons semelhantes (geralmente Em primeiro lugar, observamos que a CrossDia- palataliza¸c˜oes)s˜aotranscritos de forma dife- Dist entre as variedades diat´opicas do portuguˆes rente em diferentes idiomas. Como as grafias e do espanhol s˜aomuito semelhantes em OS e TS do portuguˆeseuropeu e do portuguˆesdo Bra- sendo a PLD inferior a 5. Assim a distˆanciamais sil s˜aomuito pr´oximas,a normaliza¸c˜aoda TS pequena ´ede 3.45, entre espanhol de Espanha e s´oafecta especialmente a diferen¸casnas acen- tua¸c˜oesgr´aficas. Por exemplo, “acadˆemico” PLD(PT/BR) PLD (OS) PLD (TS) no portuguˆesdo Brasil e “acad´emico” no por- tuguˆeseuropeu, ou “assembl´eia”no portuguˆes XX-2 4.12 3.65 do Brasil e “assembleia” no portuguˆeseuropeu XXI-1 4.36 3.83 s˜aounificados em TS como “academico” e “as- sembleia”. O mesmo acontece com o espanhol Tabela 4: Distˆanciadiacr´onica(PLD) entre o europeu e espanhol da Argentina, embora sem portuguˆeseuropeu e o portuguˆesdo Brasil nos diferen¸casortogr´aficassalient´aveis. per´ıodos XX-2 e XXI-1 em OS e TS. Distˆancia diacr´onica autom´atica entre variantes diat´opicas do portuguˆes e do espanhol Linguamatica´ – 123

5.0 ES-ESARG-Ortografia Original PLD(ES/AR) PLD (OS) PLD (TS) ES-ESARG-Ortografia Transcrita

XX-2 4.27 3.60 4.5 XXI-1 4.04 3.45

4.0

Tabela 5: Distˆanciadiacr´onica(PLD) entre o perplexity espanhol europeu e o espanhol da Argentina nos per´ıodos XX-2 e XXI-1 em OS e TS. 3.5

5.0

PT-PTBR-Ortografia Original 3.0 PT-PTBR-Ortografia Transcrita XX-2 XXI-1 temporal axis

4.5 Figura 2: CrossDiaDist entre o espanhol euro- peu e o espanhol da Argentina atrav´esdo eixo 4.0 temporal em OS e TS. perplexity

3.5 Finalmente, observamos que a ortografia entre as duas variantes diat´opicasde portuguˆese espa-

3.0 XX-2 XXI-1 nhol n˜aodesempenha um papel importante nesta temporal axis distˆancia, pois quando calculamos a P LD em Figura 1: CrossDiaDist entre o portuguˆeseu- TS, ela diminui ligeiramente, mantendo a mesma ropeu e o portuguˆesda Brasil atrav´esdo eixo tendˆenciaque em OS. temporal em OS e TS. 6. Conclus˜oese trabalhos futuros espanhol da Argentina em TS, e a m´axima´ede 4.36 entre o portuguˆeseuropeu e portuguˆesdo Compilaremos agora as principais conclus˜oesdas Brasil em OS. Segundo os resultados reportados nossas experiˆenciasa partir da aplica¸c˜aoda me- em Gamallo et al.(2016), l´ınguasmuito pr´oximas todologia de c´alculo da distˆanciadiacr´onica Cros- como b´osnioe croata tˆemem TS uma distˆancia sDiaDist a variantes diat´opicasdo portuguˆese do muito superior, com PLD: 5,90. espanhol. Tamb´emdetalharemos na Sec¸c˜ao 6.2 Para o caso do portuguˆeseuropeu e do por- pr´oximasinvestiga¸c˜oesem rela¸c˜ao`adistˆanciaau- tuguˆesdo Brasil, observamos um ligeiro distanci- tom´aticaentre idiomas. amento no s´eculoXXI. Por um lado, talvez este 6.1. Conclus˜oes distanciamento se fique a dever a Portugal e o Brasil funcionarem como sistemas culturais dife- O c´alculoda distˆancia entre idiomas ou varian- renciados. O AO’90 foi apresentado como factor tes diat´opicasbaseado na perplexidade (P LD) de aproxima¸c˜aomas, no entanto, tem tido uma identifica automaticamente idiomas e variantes implementa¸c˜aolenta e com muitas resistˆencias, diat´opicasde idiomas (Gamallo et al., 2017b), o que talvez seja sintoma das barreiras culturais mede a distˆancias´ıncrona entre idiomas (Ga- entre os dois pa´ıses.De qualquer forma, os valo- mallo et al., 2017a), a distˆanciadiacr´onicain- res que apresentamos em TS mostram que a or- tralingu´ıstica em varias l´ınguas Pichel et al. tografia ´eum fator pouco relevante no que toca `a (2018), a CrossDiaDist entre l´ınguas (Pichel distˆanciaentre o portuguˆesde Portugal e o por- et al., 2019a) e agora a CrossDiaDist entre va- tuguˆesdo Brasil. Por outro lado, os valores rela- riantes diat´opicas. tivos ao espanhol mostram que ´eposs´ıvel regis- Observamos que esta distˆanciaentre as vari- tar uma aproxima¸c˜aoentre variantes nacionais edades diat´opicasde portuguˆese espanhol ´ein- da mesma l´ıngua. ferior `adistˆanciaentre l´ınguasmuito pr´oximas. Pelo contr´ario,no caso do espanhol europeu Al´emdisso, vemos que o portuguˆeseuropeu e o e do espanhol argentino, vemos que existe uma portuguˆesdo Brasil est˜aoa distanciar-se ligei- ligeira aproxima¸c˜aono mesmo per´ıodo (XXI-1), ramente no s´eculoXXI. Pelo contr´ario,o espa- talvez devido aos esfor¸cosde coordena¸c˜aoentre nhol europeu e o espanhol da Argentina est˜aoa as diferentes academias de l´ınguaespanhola e `a aproximar-se. existˆenciade mais troca de materiais entre os sis- Finalmente, a ortografia nestas variantes temas culturais de Espanha e Argentina. diat´opicasdo portuguˆese do espanhol n˜aode- sempenha um papel relevante, pois estas varian- tes s˜aoescritas com ortografias muito pr´oximas ou indistingu´ıveis. 124– Linguamatica´ Jos´eRamom Pichel, Pablo Gamallo, Marco Neves & I˜naki Alegria

6.2. Trabalhos futuros sification. Linguistic Typology 13(1). 169–181. 10.1515/LITY.2009.009. Queremos alargar esta metodologia ao c´alculode distˆanciaentre trˆesl´ınguas. Aplicaremos esta Barban¸con, Fran¸cois, Steven N. Evans, Luay metodologia a trˆesl´ınguasmuito pr´oximas,como Nakhleh, Don Ringe & Tandy Warnow. ´eo caso do galego em rela¸c˜aoao portuguˆese ao 2013. An experimental study compa- castelhano. ring linguistic phylogenetic reconstruction Outro objectivo ´e construir um corpus de methods. Diachronica 30(2). 143–170. redes sociais (p.e.: twitter) e coment´ariosem 10.1075/dia.30.2.01bar. plataformas digitais (p.e: Tripadvisor, AirBnB, Bello, Andr´es.1984. Gram´atica de la lengua cas- Booking, etc.), para variedades diat´opicas de tellana. EDAF. portuguˆes e espanhol, e observar a distˆancia lingu´ısticacom um corpus de textos mais afas- Bello, Andr´eset al. 1951. Gram´atica: gram´atica tados da gram´aticapadr˜aoe mais pr´oximodas de la lengua castellana destinada al uso de falas populares. los americanos. Caracas: Ministerio de Edu- Finalmente, gostar´ıamos de investigar a caci´on. rela¸c˜aoentre a distˆanciado idioma usando P LD Biber, Douglas. 1993. Representativeness in cor- e a estimativa da qualidade da tradu¸c˜ao au- pus design. Literary and linguistic Computing tom´atica(Specia et al., 2018; Han et al., 2013). 8(4). 243–257. 10.1093/llc/8.4.243. Brown, Cecil H., Eric W. Holman, Søren Wich- Agradecimentos mann & Viveka Velupilla. 2009. Automated classification of the world’s languages: a des- Estamos muito gratos aos professores Dr. Car- cription of the method and preliminary results. los Quiroga e Dr. Jos´e Ant´onioSouto Cabo Language Typology and Universals 61(4). 285– da Universidade de Santiago de Compostela, Dr. 308. 10.1524/stuf.2008.0026. Fernando Venˆancioda Universidade de Ames- terd˜aopelas suas observa¸c˜oessobre a hist´oria Cavnar, William B & John M Trenkle. 1994. N- do portuguˆes europeu e do Brasil, para al´em gram-based text categorization. Em 3rd annual da ajuda na escolha de textos de Portugal e symposium on document analysis and informa- do Brasil. Tamb´em`aprofessora Maria Isabel tion retrieval, 161–175. Fern´andez Dom´ınguezpelo seu conhecimento so- Chen, Stanley F. & Joshua Goodman. 1996. An bre a hist´oriado espanhol europeu e ao Dr. Er- empirical study of smoothing techniques for nesto V´azquezSouza no que toca `ahist´oriado language modeling. Em 34th Annual Meeting espanhol da Argentina. Tamb´ema ambos, pela on Association for Computational Linguistics, ajuda na escolha de textos de referˆenciade am- 310–318. 10.3115/981863.981904. bas as variedades diat´opicas. Finalmente, ao Dr. Marcos Garcia da Universidade da Corunha Chiswick, Barry R. & Paul W. Miller. 2004. Lin- pelos seus conselhos durante as experiˆencias. guistic distance: A quantitative measure of the distance between english and other languages. Bonn: IZA Discussion Papers. Referˆencias Degaetano-Ortlieb, Stefania, Hannah Ker- Asgari, Ehsaneddin & Mohammad R. K. Mo- mes, Ashraf Khamis & Elke Teich. 2016. frad. 2016. Comparing fifty natural lan- An information-theoretic approach to guages and twelve genetic languages using modeling diachronic change in scientific word embedding language divergence (WELD) english. Em From Data to Evidence in as a quantitative measure of language dis- English Language Research, 258–281. Brill. tance. Em Workshop on Multilingual 10.1163/9789004390652_012. and Cross-lingual Methods in NLP, 65–74. 10.18653/v1/W16-1208. Dieguez-Tirado, Javier, Carmen Garcia-Mateo, Laura Docio-Fernandez & Antonio Cardenal- Bakker, Dik, Andre Muller, Viveka Velupil- Lopez. 2005. Adaptation strategies for lai, Soren Wichmann, Cecil H. Brown, Pa- the acoustic and language models in bilin- mela Brown, Dmitry Egorov, Robert Mai- gual speech transcription. Em IEEE In- lhammer, Anthony Grant & Eric W. Hol- ternational Conference on Acoustics, Spe- man. 2009. Adding typology to lexicostatis- ech, and Signal Processing, I/833–I/836. tics: A combined approach to language clas- 10.1109/ICASSP.2005.1415243. Distˆancia diacr´onica autom´atica entre variantes diat´opicas do portuguˆes e do espanhol Linguamatica´ – 125

Dunning, Ted. 1994. Statistical identification of Jelinek, Fred, Robert L Mercer, Lalit R Bahl & language. Computing Research Laboratory, James K Baker. 1977. Perplexity: a measure of New Mexico State University. the difficulty of speech recognition tasks. The Gamallo, Pablo, Inaki Alegria, Jos´e Ramom Journal of the Acoustical Society of America Pichel & Manex Agirrezabal. 2016. Com- 62(S1). S63. 10.1121/1.2016299. paring two basic methods for discriminating Kondrak, Grzegorz. 2005. N-gram similarity and between similar languages and varieties. Em distance. Em International Symposium on rd 3 Workshop on NLP for Similar Languages, String Processing and Information Retrieval Varieties and Dialects (VarDial), 170–177. (SPIRE), 115–126. 10.1007/11575832_13. Gamallo, Pablo, Marcos Garcia, Susana Sotelo & Kroon, Martin, Masha Medvedeva & Barbara Jos´eRamom Pichel. 2014. Comparing ranking- Plank. 2018. When simple n-gram models out- based and naive bayes approaches to language perform syntactic approaches: Discriminating detection on tweets. Em Workshop TweetLID: between Dutch and Flemish. Em 5th Workshop Twitter Language Identification Workshop at on NLP for Similar Languages, Varieties and SEPLN 2014, 12–16. Dialects (VarDial), 244–253. Gamallo, Pablo, Jos´e Ramom Pichel & I˜naki Alegria. 2017a. From language identification Liu, HaiTao & Jin Cong. 2013. Language cluste- to language distance. Physica A: Statistical ring with word co-occurrence networks based Mechanics and its Applications 484. 152–162. on parallel texts. Chinese Science Bulletin 58. 10.1016/j.physa.2017.05.011. 1139–1144. 10.1007/s11434-013-5711-8. Gamallo, Pablo, Jose Ramom Pichel, Santiago Lopez-Moreno, Ignacio, Javier Gonzalez- de Compostela & Inaki Alegria. 2017b. A Dominguez, Oldrich Plchot, David Martinez, perplexity-based method for similar languages Joaquin Gonzalez-Rodriguez & Pedro Moreno. discrimination. 4th Workshop on NLP for Si- 2014. Automatic language identification milar Languages, Varieties and Dialects (Var- using deep neural networks. Em IEEE In- Dial) 109–114. 10.18653/v1/W17-1213. ternational Conference on Acoustics, Speech and Signal Processing (ICASSP), 5337–5341. Gao, Yuyang, Wei Liang, Yuming Shi & Qiu- 10.1109/ICASSP.2014.6854622. ling Huang. 2014. Comparison of direc- ted and weighted co-occurrence networks of Malmasi, Shervin, Marcos Zampieri, Nikola six languages. Physica A: Statistical Me- Ljubeˇsi´c,Preslav Nakov, Ahmed Ali & J¨org chanics and its Applications 393. 579–589. Tiedemann. 2016. Discriminating between si- 10.1016/j.physa.2013.08.075. milar languages and Arabic dialect identifica- Gonz´alez,Meritxell. 2015. An analysis of Twit- tion: A report on the third DSL Shared Task. rd ter corpora and the differences between formal Em 3 Workshop on Language Technology for and colloquial tweets. Em Tweet Translation Closely Related Languages, Varieties and Dia- Workshop 2015, 1–7. lects (VarDial), 1–14. Gonzalez-Dominguez, Javier, Ignacio Lopez- Millar, Robert McColl & Larry Trask. 2015. Moreno, Ha¸sim Sak, Joaquin Gonzalez- Trask’s historical linguistics. Abington, UK: Rodriguez & Pedro J Moreno. 2014. Automatic Routledge. language identification using long short-term Nakhleh, Luay, Donald A Ringe & Tandy War- memory recurrent neural networks. Em 15th now. 2005. Perfect phylogenetic networks: A Annual Conference of the International Speech new methodology for reconstructing the evolu- Communication Association,. tionary history of natural languages. Language Han, Aaron Li-Feng, Yi Lu, Derek F Wong, 81(2). 382–420. Lidia S Chao, Liangye He & Junwen Xing. 2013. Quality estimation for machine transla- Nerbonne, John & Wilbert Heeringa. 1997. Me- rd tion using the joint method of evaluation crite- asuring dialect distance phonetically. Em 3 ria and statistical modeling. Em 8th Workshop Meeting of the ACL Special Interest Group in on Statistical Machine Translation, 365–372. Computational Phonology (SIGPHON), 11–18. Holman, Eric W., Søren Wichmann, Cecil H. Petroni, Filippo & Maurizio Serva. 2010. Brown, Viveka Velupillai, Andr´eMuller & Dik Measures of lexical distance between lan- Bakker. 2008. Explorations in automated le- guages. Physica A: Statistical Mechanics xicostatistics. Folia Linguistica 42(3–4). 331– and its Applications 389(11). 2280–2283. 354. 10.1515/FLIN.2008.331. 10.1016/j.physa.2010.02.004. 126– Linguamatica´ Jos´eRamom Pichel, Pablo Gamallo, Marco Neves & I˜naki Alegria

Pichel, Jos´e Ramom, Pablo Gamallo & I˜naki Tiedemann, J¨org& Nikola Ljubeˇsi´c.2012. Effici- Alegria. 2018. Measuring language distance ent discrimination between closely related lan- among historical varieties using perplexity. ap- guages. Em International Conference on Com- plication to european portuguese. Em 5th putational Linguistics (COLING), 2619–2634. Workshop on NLP for Similar Languages, Va- Yujian, Li & Liu Bo. 2007. A normali- rieties and Dialects (VarDial), 145–155. zed levenshtein distance metric. IEEE Pichel, Jos´eRamom, Pablo Gamallo & I˜nakiAle- transactions on pattern analysis and gria. 2019a. Cross-lingual diachronic distance: machine intelligence 29(6). 1091–1095. Application to portuguese and spanish. Proce- 10.1109/TPAMI.2007.1078. samiento del Lenguaje Natural 63. 77–84. Zampieri, Marcos, Shervin Malmasi, Preslav Pichel, Jos´e Ramom, Pablo Gamallo & I˜naki Nakov, Ahmed Ali, Suwon Shon, James Alegria. 2019b. Measuring diachronic lan- Glass, Yves Scherrer, Tanja Samardˇzi´c,Nikola guage distance using perplexity: Appli- Ljubeˇsi´c,J¨orgTiedemann et al. 2018. Lan- cation to english, portuguese, and spa- guage identification and morphosyntactic tag- nish. Natural Language Engineering 1–22. ging: The second vardial evaluation campaign. th 10.1017/S1351324919000378. Em 5 Workshop on NLP for Similar Langua- ges, Varieties and Dialects (VarDial), 1–17. Rama, Taraka & Lars Borin. 2015. Comparative evaluation of string similarity measures for au- Zampieri, Marcos, Shervin Malmasi, Yves Scher- tomatic language classification. Em Sequences rer, Tanja Samardˇzi´c,Francis Tyers, Miikka in Language and Text, 171–200. De Gruyter Silfverberg, Natalia Klyueva, Tung-Le Pan, Mouton. 10.1515/9783110362879-012. Chu-Ren Huang, Radu Tudor Ionescu, An- drei M. Butnaru & Tommi Jauhiainen. 2019. Rissanen, Matti, Merja Kyt¨o& Minna Palander- A report on the third VarDial evaluation cam- Collin. 1993. Early english in the computer age: paign. Em 6th Workshop on NLP for Similar Explorations through the helsinki corpus. Ber- Languages, Varieties and Dialects (VarDial), lin: De Gruyter Mouton. 1–16. 10.18653/v1/W19-1401. Sennrich, Rico. 2012. Perplexity minimization for Zubiaga, Arkaitz, Inaki San Vicente, Pa- translation model domain adaptation in statis- blo Gamallo, Jos´e Ramom Pichel, Inaki tical machine translation. Em 13th Conference Alegria, Nora Aranberri, Aitzol Ezeiza & of the European Chapter of the Association for V´ıctor Fresno. 2016. TweetLID: a bench- Computational Linguistics (EACL), 539–549. mark for tweet language identification. Lan- ´ guage Resources and Evaluation 50. 729–766. Sim˜oes, Alberto, Alvaro Iriarte Sanrom´an & 10.1007/s10579-015-9317-4. Jos´eJo˜aoAlmeida. 2012. Dicion´ario-aberto: A source of resources for the portuguese lan- guage processing. Em International Con- ference on Computational Processing of the Portuguese Language (PROPOR), 121–127. 10.1007/978-3-642-28885-2_14. Singh, Anil Kumar & Harshit Surana. 2007. Can corpus based measures be used for compara- tive study of languages? Em 9th meeting of the ACL special interest group in computatio- nal morphology and phonology, 40–47. Specia, Lucia, Carolina Scarton & Gustavo Hen- rique Paetzold. 2018. Quality estimation for machine translation. Synthesis Lectures on Human Language Technologies 11(1). 1–162. 10.2200/S00854ED1V01Y201805HLT039. Swadesh, Morris. 1952. Lexico-statistic dating of prehistoric ethnic contacts: With special re- ference to north american indians and eski- mos. American Philosophical Society 96(4). 452–463. http://www.linguamatica.com/

Artigos de Investiga¸c˜ao Relaci´onentre calidad de escritura y rasgos lingu´ıstico-discursivos Fernando Lillo-Fuentes & Ren´eVenegas Generaci´onautom´atica de frases literarias Luis-Gil Moreno-Jim´enezet al. An´aliseda Lei de Menzerath no PortuguˆesBrasileiro Leonardo Araujo, Aline Benevides & Marcos Pereira Reescrita sentencial baseada em tra¸cosde personalidad Georges Basile Stavracas Neto & Ivandr´eParaboni Subjetividade em corre¸c˜aode reda¸c˜oes:detec¸c˜ao autom´atica M´arcia Can¸cado,Luana Amaral, Evelin Amorim, Adriano Veloso & Heliana Mello Periodiza¸c˜aoautom´atica: Estudos lingu´ıstico-estat´ısticos de literatura lus´ofona Diana Santos, Emanoel Pires, Cl´audiaFreitas, Rebeca S. Fu˜ao& Jo˜aoM. Lopes Una aplicaci´onque ayuda a la ciudadan´ıaa escribir textos a la Administraci´onp´ublica Iria da Cunha Distˆanciadiacr´onicaautom´aticaentre variantes diat´opicas do portuguˆese do espanhol Jos´eRamom Pichel, Pablo Gamallo, Marco Neves & I˜nakiAlegria lingua