Dbpedia Del Gallego: Recursos Y Aplicaciones En Procesamiento Del
Total Page:16
File Type:pdf, Size:1020Kb
View metadata, citation and similar papers at core.ac.uk brought to you by CORE provided by Repositorio Institucional de la Universidad de Alicante Procesamiento del Lenguaje Natural, Revista nº 57, septiembre de 2016, págs. 139-142 recibido 14-03-2016 revisado 13-04-2016 aceptado 28-04-2016 DBpedia del gallego: recursos y aplicaciones en procesamiento del lenguaje Galician DBpedia: resources and applications in language processing Miguel Anxo Solla Portela Xavier G´omezGuinovart Universidade de Vigo Universidade de Vigo Grupo TALG Grupo TALG [email protected] [email protected] Resumen: En esta presentaci´on,describimos la metodolog´ıautilizada para la crea- ci´onde la DBpedia del gallego y algunas de sus aplicaciones para el procesamiento ling¨u´ısticoen los ´ambitos del reconocimiento de entidades y de la extracci´onl´exica. Palabras clave: DBpedia, Wikipedia, WordNet, datos enlazados abiertos, web sem´antica Abstract: In this presentation, we review the methodology used in the development of the Galician DBpedia and some of its applications for language processing in the fields of entity recognition and lexical extraction. Keywords: DBpedia, Wikipedia, WordNet, linked open data, semantic web 1 Introducci´on Data)4 establecidas por el W3C (World Wide Web Consortium) (Auer et al., 2007). En este art´ıculo1 se describe la metodolog´ıa seguida en la creaci´onde la DBpedia del ga- 2 Recursos llego y algunas de sus aplicaciones en el cam- po del procesamiento del lenguaje. La cons- La DBpedia del gallego, desarrollada y man- trucci´onde este recurso se realiz´ogracias a tenida por el Grupo TALG (Tecnolox´ıas e la financianci´onde la Red de Investigaci´on Aplicaci´onsda Lingua Galega) de la Univer- Tecnolox´ıase an´alise dos datos ling¨u´ısticos, sidade de Vigo, contiene 11 millones de tuplas orientada al desarrollo de recursos para el sem´anticas extra´ıdasa partir de toda la infor- 5 procesamiento ling¨u´ısticodel gallego, siendo maci´oncontenida en la Galipedia y est´aalo- uno de sus objetivos principales la puesta en jada en el subdominio oficial de dbpedia.org 6 marcha de nuevas aplicaciones y herramien- correspondiente a la lengua gallega . tas con tecnolog´ıasde base sem´antica. La elaboraci´onde la DBpedia del galle- La DBpedia2 (Lehmann et al., 2015) es un go supuso la adaptaci´onde la aplicaci´onde proyecto internacional para crear una versi´on extracci´onde los datos procedentes de los fi- estructurada de los contenidos de la Wikipe- cheros dump de la Wikipedia, de Wikimedia 7 8 dia3 y publicarla libremente en Internet en- Commons y de Wikidata para que funcio- trelazada con el conjunto de bases de conoci- nase satisfactoriamente con los datos proce- miento que constituyen la web sem´antica. dentes de la Galipedia. Las modificaciones realizadas en el c´odigode la aplicaci´onse La DBpedia permite realizar consultas 9 complejas a partir del conjunto de datos deri- pueden consultar en Github y han sido ya implementadas en la aplicaci´onprincipal de vados de la Wikipedia y permite enlazar estos 10 datos con otros conjuntos de datos que hay extracci´onde la DBpedia . en la web, siguiendo las especificaciones pa- 4https://www.w3.org/wiki/SweoIG/ ra los datos enlazados abiertos (Linked Open TaskForces/CommunityProjects/LinkingOpenData 5http://gl.wikipedia.org 1Esta investigaci´onse realiz´oen el marco de la 6http://gl.dbpedia.org Red de Investigaci´on Tecnolox´ıase an´alisedos datos 7https://commons.wikimedia.org ling¨u´ısticos financiada por la Conseller´ıade Cultura, 8https://www.wikidata.org Educaci´one Ordenaci´onUniversitaria de la Xunta de 9https://github.com/galician/ Galicia, ref. CN 2014/007. extraction-framework/ 2http://dbpedia.org 10https://github.com/dbpedia/ 3http://wikipedia.org extraction-framework/ Miguel Anxo Solla Portela, Xavier Gómez Guinovart Igualmente, con el mismo objetivo de crea- para poder incorporar los enlaces con las cla- ci´ondel recurso, se elaboraron los ficheros de sificaciones sem´anticas y ontolog´ıaspresentes conversi´on(mappings) necesarios para obte- en el MCR y Galnet21 y mantener su natu- ner informaci´onestructurada a partir de las raleza pluriling¨uea trav´esde un ´ındiceinter- infoboxes y de las cajas de navegaci´onde la ling¨u´ıstico(ILI). Adem´as,con el fin de am- Galipedia11. Aunque esta tarea se halla to- pliar su cobertura a consultas externas, se ali- dav´ıa en curso de finalizaci´on,la cobertura ne´ocada synset con el correspondiente en la alcanzada con el trabajo ya realizado resul- versi´on3.1 de Princeton y con la versi´on3.0 ta bastante amplia, como se puede compro- en formato lemonUby22. El resultado de este bar en las estad´ısticasdisponibles de los map- alineamiento conlleva la compatibilidad del pings de la DBpedia12. El conjunto de datos ´ındice interling¨u´ıstico de WordNet presente se ha completado, adem´as,con la extracci´on en el MCR con innumerables fuentes de da- de los res´umenesde los art´ıculosde la Gali- tos enlazados que ya se encuentran disponi- pedia ligados a cada recurso. bles en la web sem´antica. Los ficheros RDF de la DBpedia del ga- llego generados a partir de la Galipedia, pue- 3 Aplicaciones den ser libremente descargados desde el si- 3.1 DBpedia Spotlight tio de la DBpedia13, y sus contenidos pue- den consultarse y visualizarse en la web del Una vez elaborados los recursos y habilitado grupo mediante las aplicaciones Lodview14 y el acceso abierto a los datos estructurados, LodLive15 (ambas localizadas en gallego co- se desarroll´ouna versi´onadaptada al gallego mo parte del proyecto), utilizando la interfaz de la aplicaci´onDBpedia Spotlight (Daiber adaptada de la propia DBpedia16 o a trav´es et al., 2013) para poder ofrecer una primera del punto de acceso Virtuoso SPARQL a los herramienta de explotaci´oninmediata de los datos estructurados17. datos de la DBpedia del gallego en el campo La publicaci´on del punto de acceso del procesamiento del lenguaje. SPARQL propici´otambi´enel modelado en DBpedia Spotlight es una utilidad para la formato de datos enlazados abiertos de Gal- anotaci´onde textos con referencias a los con- net18 (Solla Portela y G´omez Guinovart, ceptos de la DBpedia. La identificaci´onen 2015), el WordNet 3.0 del gallego desarro- contexto de las formas relativas a los concep- llado por el Grupo TALG que forma par- tos se realiza mediante un sistema adapta- te de la distribuci´ondel Multilingual Cen- ble que localiza y desambigua de forma au- tral Repository (MCR) (Gonz´alezAgirre, La- tom´aticalas menciones a recursos de la DB- parra, y Rigau, 2012). La consulta de la pedia presentes en el lenguaje natural. En es- versi´on RDF de Galnet se encuentra dis- te sentido, la identificaci´onde entidades lleva- ponible a trav´es del servidor SPARQL de da a cabo por DBpedia Spotlight posee un al- la DBpedia del gallego utilizando el grafo cance menos restringido que el reconocimien- http://sli.uvigo.gal/rdf_galnet. to de entidades nombradas, habitualmente li- El dise~node la estructura de los datos mitado a ciertas categor´ıaspredefinidas como RDF se bas´oen la versi´on3.1 del WordNet personas, organizaciones y lugares. de Princeton19, siguiendo el modelo lemon20, La adaptaci´on al gallego de DBpedia con ligeras modificaciones respecto al original Spotlight realizada en el marco de este pro- yecto identifica y anota en los textos las re- ferencias a conceptos de la DBpedia del ga- 11http://mappings.dbpedia.org/index.php/ Mapping_gl llego, y puede utilizarse libremente desde su 23 24 12http://mappings.dbpedia.org/server/ interfaz de usuario o como servicio web . statistics/gl/ 13http://downloads.dbpedia.org/2015-10/ 21Concretamente, los WordNet Domains (Bentivo- core-i18n/gl/ gli et al., 2004), la ontolog´ıaAdimen-SUMO (Alvez,´ 14http://sli.uvigo.gal/dbpedia/lodview/ Lucio, y Rigau, 2012), la Top Ontology (Alvez´ et al., 15http://sli.uvigo.gal/dbpedia/lodlive/ 2008), los Basic Level Concepts (Izquierdo, Su´arez, 16https://github.com/dbpedia/ y Rigau, 2007) y los epin´onimos (Solla Portela y dbpedia-vad-i18n G´omezGuinovart, 2015) 17http://gl.dbpedia.org/sparql/ 22http://lemon-model.net/lexica/uby/wn/ 18http://sli.uvigo.gal/galnet/ 23http://sli.uvigo.gal/dbpedia/spotlight/ 19http://wordnet-rdf.princeton.edu 24https://github.com/dbpedia-spotlight/ 20http://lemon-model.net dbpedia-spotlight/wiki/Web-service 140 DBpedia del gallego: recursos y aplicaciones en procesamiento del lenguaje BabelNet de WordNet 3.0 obtenidos y se proponen co- http://dbpedia.org/resource/Cairn mo candidatos a variante los recursos relacio- 107288507-n nados de la DBpedia del gallego. Con esta estrategia se consiguieron 910 Galnet RDF candidaturas con variantes nominales que 107288507-n apuntaban a synsets que todav´ıano ten´ıan ili-30-07273802-n ninguna variante en gallego. El ´ındice de precisi´onobtenido en el experimento de ex- tracci´on,tras su revisi´onhumana, alcanz´oel DBpedia 82,3 %, como se refleja en los resultados de http://dbpedia.org/resource/Cair la Tabla 1. Durante la revisi´onse observ´o http://gl.dbpedia.org/resource/Amilladoiro adem´asque, salvo en algunos casos aislados en los que la equivalencia entre idiomas en Candidatura la DBpedia no es correcta, en la mayor parte amilladoiro de los casos en los que no se puede estable- ili-30-07273802-n cer la validez, el origen del error se encuentra en la inadecuaci´ondel alineamiento entre el Figura 1: Extracci´onde variantes (1). recurso de la DBpedia y el identificador de WordNet 3.1 en BabelNet. La Figura 1 ilus- 3.2 Extracci´onl´exica tra este proceso de extracci´onde variantes de Galnet a partir de los recursos LOD de la Para poder comprobar las posiblidades de DBpedia, BabelNet y Galnet con un ejemplo explotaci´onde estos recursos LOD en otras de candidatura aceptada27.