Dbpedia Del Gallego: Recursos Y Aplicaciones En Procesamiento Del

View metadata, citation and similar papers at core.ac.uk brought to you by CORE provided by Repositorio Institucional de la Universidad de Alicante Procesamiento del Lenguaje Natural, Revista nº 57, septiembre de 2016, págs. 139-142 recibido 14-03-2016 revisado 13-04-2016 aceptado 28-04-2016 DBpedia del gallego: recursos y aplicaciones en procesamiento del lenguaje Galician DBpedia: resources and applications in language processing Miguel Anxo Solla Portela Xavier GómezGuinovart Universidade de Vigo Universidade de Vigo Grupo TALG Grupo TALG [email protected] [email protected] Resumen: En esta presentación,describimos la metodolog´ıautilizada para la crea- ciónde la DBpedia del gallego y algunas de sus aplicaciones para el procesamiento lingü´ısticoen los ámbitos del reconocimiento de entidades y de la extracciónléxica. Palabras clave: DBpedia, Wikipedia, WordNet, datos enlazados abiertos, web semántica Abstract: In this presentation, we review the methodology used in the development of the Galician DBpedia and some of its applications for language processing in the fields of entity recognition and lexical extraction. Keywords: DBpedia, Wikipedia, WordNet, linked open data, semantic web 1 Introducción Data)4 establecidas por el W3C (World Wide Web Consortium) (Auer et al., 2007). En este art´ıculo1 se describe la metodolog´ıa seguida en la creaciónde la DBpedia del ga- 2 Recursos llego y algunas de sus aplicaciones en el campo del procesamiento del lenguaje. La cons- La DBpedia del gallego, desarrollada y man- trucciónde este recurso se realizógracias a tenida por el Grupo TALG (Tecnolox´ıas e la financianciónde la Red de Investigación Aplicaciónsda Lingua Galega) de la Univer- Tecnolox´ıase análise dos datos lingü´ısticos, sidade de Vigo, contiene 11 millones de tuplas orientada al desarrollo de recursos para el semánticas extra´ıdasa partir de toda la infor- 5 procesamiento lingü´ısticodel gallego, siendo macióncontenida en la Galipedia y estáalo- uno de sus objetivos principales la puesta en jada en el subdominio oficial de dbpedia.org 6 marcha de nuevas aplicaciones y herramien- correspondiente a la lengua gallega . tas con tecnolog´ıasde base semántica. La elaboraciónde la DBpedia del galle- La DBpedia2 (Lehmann et al., 2015) es un go supuso la adaptaciónde la aplicaciónde proyecto internacional para crear una versión extracciónde los datos procedentes de los fi- estructurada de los contenidos de la Wikipe- cheros dump de la Wikipedia, de Wikimedia 7 8 dia3 y publicarla libremente en Internet en- Commons y de Wikidata para que funcio- trelazada con el conjunto de bases de conoci- nase satisfactoriamente con los datos proce- miento que constituyen la web semántica. dentes de la Galipedia. Las modificaciones realizadas en el códigode la aplicaciónse La DBpedia permite realizar consultas 9 complejas a partir del conjunto de datos deri- pueden consultar en Github y han sido ya implementadas en la aplicaciónprincipal de vados de la Wikipedia y permite enlazar estos 10 datos con otros conjuntos de datos que hay extracciónde la DBpedia . en la web, siguiendo las especificaciones pa- 4https://www.w3.org/wiki/SweoIG/ ra los datos enlazados abiertos (Linked Open TaskForces/CommunityProjects/LinkingOpenData 5http://gl.wikipedia.org 1Esta investigaciónse realizóen el marco de la 6http://gl.dbpedia.org Red de Investigación Tecnolox´ıase análisedos datos 7https://commons.wikimedia.org lingü´ısticos financiada por la Conseller´ıade Cultura, 8https://www.wikidata.org Educacióne OrdenaciónUniversitaria de la Xunta de 9https://github.com/galician/ Galicia, ref. CN 2014/007. extraction-framework/ 2http://dbpedia.org 10https://github.com/dbpedia/ 3http://wikipedia.org extraction-framework/ Miguel Anxo Solla Portela, Xavier Gómez Guinovart Igualmente, con el mismo objetivo de crea- para poder incorporar los enlaces con las cla- cióndel recurso, se elaboraron los ficheros de sificaciones semánticas y ontolog´ıaspresentes conversión(mappings) necesarios para obte- en el MCR y Galnet21 y mantener su natu- ner informaciónestructurada a partir de las raleza plurilingüea travésde un ´ındiceinter- infoboxes y de las cajas de navegaciónde la lingü´ıstico(ILI). Además,con el fin de am- Galipedia11. Aunque esta tarea se halla to- pliar su cobertura a consultas externas, se ali- dav´ıa en curso de finalización,la cobertura neócada synset con el correspondiente en la alcanzada con el trabajo ya realizado resul- versión3.1 de Princeton y con la versión3.0 ta bastante amplia, como se puede compro- en formato lemonUby22. El resultado de este bar en las estad´ısticasdisponibles de los map- alineamiento conlleva la compatibilidad del pings de la DBpedia12. El conjunto de datos ´ındice interlingü´ıstico de WordNet presente se ha completado, además,con la extracción en el MCR con innumerables fuentes de da- de los resúmenesde los art´ıculosde la Gali- tos enlazados que ya se encuentran disponi- pedia ligados a cada recurso. bles en la web semántica. Los ficheros RDF de la DBpedia del gallego generados a partir de la Galipedia, pue- 3 Aplicaciones den ser libremente descargados desde el si- 3.1 DBpedia Spotlight tio de la DBpedia13, y sus contenidos pueden consultarse y visualizarse en la web del Una vez elaborados los recursos y habilitado grupo mediante las aplicaciones Lodview14 y el acceso abierto a los datos estructurados, LodLive15 (ambas localizadas en gallego co- se desarrollóuna versiónadaptada al gallego mo parte del proyecto), utilizando la interfaz de la aplicaciónDBpedia Spotlight (Daiber adaptada de la propia DBpedia16 o a través et al., 2013) para poder ofrecer una primera del punto de acceso Virtuoso SPARQL a los herramienta de explotacióninmediata de los datos estructurados17. datos de la DBpedia del gallego en el campo La publicación del punto de acceso del procesamiento del lenguaje. SPARQL propiciótambiénel modelado en DBpedia Spotlight es una utilidad para la formato de datos enlazados abiertos de Gal- anotaciónde textos con referencias a los con- net18 (Solla Portela y Gómez Guinovart, ceptos de la DBpedia. La identificaciónen 2015), el WordNet 3.0 del gallego desarro- contexto de las formas relativas a los concep- llado por el Grupo TALG que forma par- tos se realiza mediante un sistema adapta- te de la distribucióndel Multilingual Cen- ble que localiza y desambigua de forma au- tral Repository (MCR) (GonzálezAgirre, La- tomáticalas menciones a recursos de la DB- parra, y Rigau, 2012). La consulta de la pedia presentes en el lenguaje natural. En es- versión RDF de Galnet se encuentra dis- te sentido, la identificaciónde entidades lleva- ponible a través del servidor SPARQL de da a cabo por DBpedia Spotlight posee un al- la DBpedia del gallego utilizando el grafo cance menos restringido que el reconocimien- http://sli.uvigo.gal/rdf_galnet. to de entidades nombradas, habitualmente li- El dise~node la estructura de los datos mitado a ciertas categor´ıaspredefinidas como RDF se basóen la versión3.1 del WordNet personas, organizaciones y lugares. de Princeton19, siguiendo el modelo lemon20, La adaptación al gallego de DBpedia con ligeras modificaciones respecto al original Spotlight realizada en el marco de este proyecto identifica y anota en los textos las referencias a conceptos de la DBpedia del ga- 11http://mappings.dbpedia.org/index.php/ Mapping_gl llego, y puede utilizarse libremente desde su 23 24 12http://mappings.dbpedia.org/server/ interfaz de usuario o como servicio web . statistics/gl/ 13http://downloads.dbpedia.org/2015-10/ 21Concretamente, los WordNet Domains (Bentivo- core-i18n/gl/ gli et al., 2004), la ontolog´ıaAdimen-SUMO (Alvez,´ 14http://sli.uvigo.gal/dbpedia/lodview/ Lucio, y Rigau, 2012), la Top Ontology (Alvez´ et al., 15http://sli.uvigo.gal/dbpedia/lodlive/ 2008), los Basic Level Concepts (Izquierdo, Suárez, 16https://github.com/dbpedia/ y Rigau, 2007) y los epinónimos (Solla Portela y dbpedia-vad-i18n GómezGuinovart, 2015) 17http://gl.dbpedia.org/sparql/ 22http://lemon-model.net/lexica/uby/wn/ 18http://sli.uvigo.gal/galnet/ 23http://sli.uvigo.gal/dbpedia/spotlight/ 19http://wordnet-rdf.princeton.edu 24https://github.com/dbpedia-spotlight/ 20http://lemon-model.net dbpedia-spotlight/wiki/Web-service 140 DBpedia del gallego: recursos y aplicaciones en procesamiento del lenguaje BabelNet de WordNet 3.0 obtenidos y se proponen co- http://dbpedia.org/resource/Cairn mo candidatos a variante los recursos relacio- 107288507-n nados de la DBpedia del gallego. Con esta estrategia se consiguieron 910 Galnet RDF candidaturas con variantes nominales que 107288507-n apuntaban a synsets que todav´ıano ten´ıan ili-30-07273802-n ninguna variante en gallego. El ´ındice de precisiónobtenido en el experimento de ex- tracción,tras su revisiónhumana, alcanzóel DBpedia 82,3 %, como se refleja en los resultados de http://dbpedia.org/resource/Cair la Tabla 1. Durante la revisiónse observó http://gl.dbpedia.org/resource/Amilladoiro ademásque, salvo en algunos casos aislados en los que la equivalencia entre idiomas en Candidatura la DBpedia no es correcta, en la mayor parte amilladoiro de los casos en los que no se puede estable- ili-30-07273802-n cer la validez, el origen del error se encuentra en la inadecuacióndel alineamiento entre el Figura 1: Extracciónde variantes (1). recurso de la DBpedia y el identificador de WordNet 3.1 en BabelNet. La Figura 1 ilus- 3.2 Extracciónléxica tra este proceso de extracciónde variantes de Galnet a partir de los recursos LOD de la Para poder comprobar las posiblidades de DBpedia, BabelNet y Galnet con un ejemplo explotaciónde estos recursos LOD en otras de candidatura aceptada27.

Load more