View metadata, citation and similar papers at core.ac.uk brought to you by CORE

provided by Repositorio Institucional de la Universidad de Alicante

Procesamiento del Lenguaje Natural, Revista nº 57, septiembre de 2016, págs. 139-142 recibido 14-03-2016 revisado 13-04-2016 aceptado 28-04-2016

DBpedia del gallego: recursos y aplicaciones en procesamiento del lenguaje Galician DBpedia: resources and applications in language processing Miguel Anxo Solla Portela Xavier G´omezGuinovart Universidade de Vigo Universidade de Vigo Grupo TALG Grupo TALG [email protected] [email protected]

Resumen: En esta presentaci´on,describimos la metodolog´ıautilizada para la crea- ci´onde la DBpedia del gallego y algunas de sus aplicaciones para el procesamiento ling¨u´ısticoen los ´ambitos del reconocimiento de entidades y de la extracci´onl´exica. Palabras clave: DBpedia, , WordNet, datos enlazados abiertos, web sem´antica Abstract: In this presentation, we review the methodology used in the development of the Galician DBpedia and some of its applications for language processing in the fields of entity recognition and lexical extraction. Keywords: DBpedia, Wikipedia, WordNet, linked open data, semantic web

1 Introducci´on Data)4 establecidas por el W3C (World Wide Web Consortium) (Auer et al., 2007). En este art´ıculo1 se describe la metodolog´ıa seguida en la creaci´onde la DBpedia del ga- 2 Recursos llego y algunas de sus aplicaciones en el cam- po del procesamiento del lenguaje. La cons- La DBpedia del gallego, desarrollada y man- trucci´onde este recurso se realiz´ogracias a tenida por el Grupo TALG (Tecnolox´ıas e la financianci´onde la Red de Investigaci´on Aplicaci´onsda Lingua Galega) de la Univer- Tecnolox´ıase an´alise dos datos ling¨u´ısticos, sidade de Vigo, contiene 11 millones de tuplas orientada al desarrollo de recursos para el sem´anticas extra´ıdasa partir de toda la infor- 5 procesamiento ling¨u´ısticodel gallego, siendo maci´oncontenida en la Galipedia y est´aalo- uno de sus objetivos principales la puesta en jada en el subdominio oficial de .org 6 marcha de nuevas aplicaciones y herramien- correspondiente a la lengua gallega . tas con tecnolog´ıasde base sem´antica. La elaboraci´onde la DBpedia del galle- La DBpedia2 (Lehmann et al., 2015) es un go supuso la adaptaci´onde la aplicaci´onde proyecto internacional para crear una versi´on extracci´onde los datos procedentes de los fi- estructurada de los contenidos de la Wikipe- cheros dump de la Wikipedia, de Wikimedia 7 8 dia3 y publicarla libremente en Internet en- Commons y de para que funcio- trelazada con el conjunto de bases de conoci- nase satisfactoriamente con los datos proce- miento que constituyen la web sem´antica. dentes de la Galipedia. Las modificaciones realizadas en el c´odigode la aplicaci´onse La DBpedia permite realizar consultas 9 complejas a partir del conjunto de datos deri- pueden consultar en Github y han sido ya implementadas en la aplicaci´onprincipal de vados de la Wikipedia y permite enlazar estos 10 datos con otros conjuntos de datos que hay extracci´onde la DBpedia . en la web, siguiendo las especificaciones pa- 4https://www.w3.org/wiki/SweoIG/ ra los datos enlazados abiertos (Linked Open TaskForces/CommunityProjects/LinkingOpenData 5http://gl.wikipedia.org 1Esta investigaci´onse realiz´oen el marco de la 6http://gl.dbpedia.org Red de Investigaci´on Tecnolox´ıase an´alisedos datos 7https://commons.wikimedia.org ling¨u´ısticos financiada por la Conseller´ıade Cultura, 8https://www.wikidata.org Educaci´one Ordenaci´onUniversitaria de la Xunta de 9https://github.com/galician/ Galicia, ref. CN 2014/007. extraction-framework/ 2http://dbpedia.org 10https://github.com/dbpedia/ 3http://wikipedia.org extraction-framework/ Miguel Anxo Solla Portela, Xavier Gómez Guinovart

Igualmente, con el mismo objetivo de crea- para poder incorporar los enlaces con las cla- ci´ondel recurso, se elaboraron los ficheros de sificaciones sem´anticas y ontolog´ıaspresentes conversi´on(mappings) necesarios para obte- en el MCR y Galnet21 y mantener su natu- ner informaci´onestructurada a partir de las raleza pluriling¨uea trav´esde un ´ındiceinter- infoboxes y de las cajas de navegaci´onde la ling¨u´ıstico(ILI). Adem´as,con el fin de am- Galipedia11. Aunque esta tarea se halla to- pliar su cobertura a consultas externas, se ali- dav´ıa en curso de finalizaci´on,la cobertura ne´ocada synset con el correspondiente en la alcanzada con el trabajo ya realizado resul- versi´on3.1 de Princeton y con la versi´on3.0 ta bastante amplia, como se puede compro- en formato lemonUby22. El resultado de este bar en las estad´ısticasdisponibles de los map- alineamiento conlleva la compatibilidad del pings de la DBpedia12. El conjunto de datos ´ındice interling¨u´ıstico de WordNet presente se ha completado, adem´as,con la extracci´on en el MCR con innumerables fuentes de da- de los res´umenesde los art´ıculosde la Gali- tos enlazados que ya se encuentran disponi- pedia ligados a cada recurso. bles en la web sem´antica. Los ficheros RDF de la DBpedia del ga- llego generados a partir de la Galipedia, pue- 3 Aplicaciones den ser libremente descargados desde el si- 3.1 DBpedia Spotlight tio de la DBpedia13, y sus contenidos pue- den consultarse y visualizarse en la web del Una vez elaborados los recursos y habilitado grupo mediante las aplicaciones Lodview14 y el acceso abierto a los datos estructurados, LodLive15 (ambas localizadas en gallego co- se desarroll´ouna versi´onadaptada al gallego mo parte del proyecto), utilizando la interfaz de la aplicaci´onDBpedia Spotlight (Daiber adaptada de la propia DBpedia16 o a trav´es et al., 2013) para poder ofrecer una primera del punto de acceso Virtuoso SPARQL a los herramienta de explotaci´oninmediata de los datos estructurados17. datos de la DBpedia del gallego en el campo La publicaci´on del punto de acceso del procesamiento del lenguaje. SPARQL propici´otambi´enel modelado en DBpedia Spotlight es una utilidad para la formato de datos enlazados abiertos de Gal- anotaci´onde textos con referencias a los con- net18 (Solla Portela y G´omez Guinovart, ceptos de la DBpedia. La identificaci´onen 2015), el WordNet 3.0 del gallego desarro- contexto de las formas relativas a los concep- llado por el Grupo TALG que forma par- tos se realiza mediante un sistema adapta- te de la distribuci´ondel Multilingual Cen- ble que localiza y desambigua de forma au- tral Repository (MCR) (Gonz´alezAgirre, La- tom´aticalas menciones a recursos de la DB- parra, y Rigau, 2012). La consulta de la pedia presentes en el lenguaje natural. En es- versi´on RDF de Galnet se encuentra dis- te sentido, la identificaci´onde entidades lleva- ponible a trav´es del servidor SPARQL de da a cabo por DBpedia Spotlight posee un al- la DBpedia del gallego utilizando el grafo cance menos restringido que el reconocimien- http://sli.uvigo.gal/rdf_galnet. to de entidades nombradas, habitualmente li- El dise˜node la estructura de los datos mitado a ciertas categor´ıaspredefinidas como RDF se bas´oen la versi´on3.1 del WordNet personas, organizaciones y lugares. de Princeton19, siguiendo el modelo lemon20, La adaptaci´on al gallego de DBpedia con ligeras modificaciones respecto al original Spotlight realizada en el marco de este pro- yecto identifica y anota en los textos las re- ferencias a conceptos de la DBpedia del ga- 11http://mappings.dbpedia.org/index.php/ Mapping_gl llego, y puede utilizarse libremente desde su 23 24 12http://mappings.dbpedia.org/server/ interfaz de usuario o como servicio web . statistics/gl/ 13http://downloads.dbpedia.org/2015-10/ 21Concretamente, los WordNet Domains (Bentivo- core-i18n/gl/ gli et al., 2004), la ontolog´ıaAdimen-SUMO (Alvez,´ 14http://sli.uvigo.gal/dbpedia/lodview/ Lucio, y Rigau, 2012), la Top Ontology (Alvez´ et al., 15http://sli.uvigo.gal/dbpedia/lodlive/ 2008), los Basic Level Concepts (Izquierdo, Su´arez, 16https://github.com/dbpedia/ y Rigau, 2007) y los epin´onimos (Solla Portela y dbpedia-vad-i18n G´omezGuinovart, 2015) 17http://gl.dbpedia.org/sparql/ 22http://lemon-model.net/lexica/uby/wn/ 18http://sli.uvigo.gal/galnet/ 23http://sli.uvigo.gal/dbpedia/spotlight/ 19http://wordnet-rdf.princeton.edu 24https://github.com/dbpedia-spotlight/ 20http://lemon-model.net dbpedia-spotlight/wiki/Web-service 140 DBpedia del gallego: recursos y aplicaciones en procesamiento del lenguaje

BabelNet de WordNet 3.0 obtenidos y se proponen co- http://dbpedia.org/resource/Cairn mo candidatos a variante los recursos relacio- 107288507-n nados de la DBpedia del gallego. Con esta estrategia se consiguieron 910

Galnet RDF candidaturas con variantes nominales que 107288507-n apuntaban a synsets que todav´ıano ten´ıan ili-30-07273802-n ninguna variante en gallego. El ´ındice de precisi´onobtenido en el experimento de ex- tracci´on,tras su revisi´onhumana, alcanz´oel DBpedia 82,3 %, como se refleja en los resultados de http://dbpedia.org/resource/Cair la Tabla 1. Durante la revisi´onse observ´o http://gl.dbpedia.org/resource/Amilladoiro adem´asque, salvo en algunos casos aislados en los que la equivalencia entre idiomas en

Candidatura la DBpedia no es correcta, en la mayor parte amilladoiro de los casos en los que no se puede estable- ili-30-07273802-n cer la validez, el origen del error se encuentra en la inadecuaci´ondel alineamiento entre el Figura 1: Extracci´onde variantes (1). recurso de la DBpedia y el identificador de WordNet 3.1 en BabelNet. La Figura 1 ilus- 3.2 Extracci´onl´exica tra este proceso de extracci´onde variantes de Galnet a partir de los recursos LOD de la Para poder comprobar las posiblidades de DBpedia, BabelNet y Galnet con un ejemplo explotaci´onde estos recursos LOD en otras de candidatura aceptada27. tareas de procesamiento del lenguaje, di- se˜namosdos experimentos de extracci´onl´exi- Variantes evaluadas 910 ca basados en la DBpedia dirigidos a la am- Aceptadas 749 82,3 % pliaci´ondel WordNet del gallego. En el pri- Rechazadas 161 17,7 % mer experimento de extracci´on,a parte de Tabla 1: Evaluaci´onde las candidaturas (1). la DBpedia del gallego y de Galnet, usamos como fuente LOD remota la versi´onRDF de BabelNet25. El objetivo del experimento con- siste en aumentar la cobertura de Galnet me- En un segundo experimento, exploramos diante variantes gallegas procedentes de la la adquisici´onde variantes a partir de las DBpedia limit´andosea los synsets de Galnet equivalencias interling¨u´ısticasde la DBpedia que a´unnon tuvieran variantes gallegas. y de las variantes interling¨u´ısticas presentes en los synsets del MCR. Partiendo de los syn- En primer lugar, se obtuvieron de Babel- sets sin variante en gallego, se compararon las Net los identificadores de sentido de WordNet variantes existentes en catal´an,euskera, por- 3.1 ligados a recursos de la DBpedia en ingl´es. tugu´es,espa˜nole ingl´escon los recursos de la El n´umero de alineamientos identificador– DBpedia para cada una de estas lenguas, a fin recurso obtenidos mediante esta fuente ascen- de proponer candidaturas de nuevas variantes di´oa 7.796. Segundo, se obtuvieron de Galnet para el gallego (Figura 2). Con este m´etodo los ILIs de WordNet 3.0 correspondientes a se generaron 2.194 candidaturas a partir de los identificadores de sentido de WordNet 3.1 recursos con al menos una variante coinciden- procedentes de BabelNet. Simult´aneamente, te en alguna de las lenguas de los se obtuvieron de la DBpedia del gallego los del MCR, con un ´ındicede precisi´ontras la recursos gallegos correspondientes a los re- revisi´onhumana del 88,3 % (Tabla 2). cursos de la DBpedia del ingl´esprocedentes de BabelNet26. Por ´ultimo,se identifican los Variantes evaluadas 2.194 synsets de Galnet correspondientes a los ILIs Aceptadas 1.937 88,3 % 25http://babelnet.org/rdf/ Rechazadas 257 11,7 % 26 Es preciso tener en cuenta que las tuplas de equi- Tabla 2: Evaluaci´onde las candidaturas (2). valencias interling¨u´ısticasde la DBpedia se generan con el mismo c´odigode extracci´onde informaci´ones- tructurada que se utiliza para la Wikipedia, pero se toman como fuente los datos procedentes de Wikida- 27http://sli.uvigo.gal/galnet/galnet_var. ta. php?version=dev&ili=ili-30-07273802-n 141 Miguel Anxo Solla Portela, Xavier Gómez Guinovart

Galnet Bibliograf´ıa ili-30-00204814-n ´ glg: — Alvez, J., J. Atserias, J. Carrera, S. Climent, 4 coincidencias cat: apostasia A. Oliver, y G. Rigau. 2008. Consistent eng: apostasy annotation of EuroWordNet with the Top eus: apostasia Concept Ontology. En Proceedings of the por: — 4th Global WordNet Conference, Szeged. spa: apostas´ıa GWN. ´ DBpedia Alvez, J., P. Lucio, y G. Rigau. 2012. http://gl.dbpedia.org/resource/Apostas´ıa Adimen-SUMO: Reengineering an Onto- http://ca.dbpedia.org/resource/Apostasia logy for First-Order Reasoning. Interna- http://dbpedia.org/resource/Apostasy tional Journal on Semantic Web and In- http://eu.dbpedia.org/resource/Apostasia formation Systems, 8(4):80–116. http://pt.dbpedia.org/resource/Apostasia http://es.dbpedia.org/resource/Apostas´ıa Auer, S., C. Bizer, G. Kobilarov, J. Lehmann, y Z. Ives. 2007. Dbpedia: A nucleus for a web of open data. En In 6th Int’l Seman- tic Web Conference, Busan, Korea, p´ags. 11–15. Springer. Candidatura apostas´ıa Bentivogli, L., P. Forner, B. Magnini, y ili-30-00204814-n E. Pianta. 2004. Revising WordNet do- mains hierarchy: Semantics, coverage, and Figura 2: Extracci´onde variantes (2). balancing. En Proceedings of COLING Workshop on Multilingual Linguistic Re- sources, p´ags.101–108, Geneva. ACL. Las variantes aceptadas en estos dos ex- perimentos fueron incorporadas al WordNet Daiber, J., M. Jakob, C. Hokamp, y P. Men- del gallego y pueden ser consultadas a trav´es des. 2013. Improving efficiency and accu- de su interfaz seleccionando como experimen- racy in multilingual entity extraction. En to dbpedia28. Ambas estrategias de extrac- Proc. of the 9th International Conference ci´onl´exicapueden ser aplicadas, utilizando on Semantic Systems. los mismos recursos, para sugerir candidatu- Gonz´alezAgirre, A., E. Laparra, y G. Ri- ras de variantes en cualquiera de las lenguas gau. 2012. Multilingual Central Reposi- incluidas en los wordnets del MCR. tory version 3.0. En 6th Global WordNet Conference. 4 Conclusiones Izquierdo, R., A. Su´arez,y G. Rigau. 2007. Exploring the Automatic Selection of Ba- La publicaci´onde la DBpedia del gallego re- sic Level Concepts. En Proc. of the In- presenta un avance importante para la pre- ternational Conference on Recent Advan- sencia de informaci´onestructurada en lengua ces on Natural Language Processing, p´ags. gallega en la web sem´antica. El punto de ac- 298–302, Shoumen. ceso SPARQL garantiza su aprovechamiento p´ublicoen aplicaciones derivadas, adem´asde Lehmann, J., R. Isele, M. Jakob, A. Jentzsch, permitir su interacci´oncon los recursos dis- D. Kontokostas, P. Mendes, S. Hellmann, ponibles en otros servidores con tecnolog´ıas M. Morsey, P. van Kleef, S. Auer, y C. Bi- sem´anticas. La explotaci´onde la base de co- zer. 2015. DBpedia - a large-scale, multi- nocimientos de la DBpedia del gallego, en lingual knowledge base extracted from wi- combinaci´on con otros recursos en la web kipedia. Semantic Web Journal, 6(2):167– sem´antica, permitir´asin duda dinamizar pro- 195. yectos, dise˜nar investigaciones y generar apli- Solla Portela, M. A. y X. G´omezGuinovart. caciones de gran inter´es en el ´ambito del pro- 2015. Galnet: o WordNet do galego. Apli- cesamiento del lenguaje. caci´onslexicol´oxicase terminol´oxicas. Re- vista Galega de Filolox´ıa, 16:169–201. 28http://sli.uvigo.gal/galnet_rev/galnet. php?version=dev&experiment=dbpedia 142