Toponym Disambiguation in Information Retrieval
Total Page:16
File Type:pdf, Size:1020Kb
Toponym Disambiguation in Information Retrieval Davide Buscaldi Dpto. Sistemas Inform´aticosy Computaci´on Universidad Polit´ecnicade Valencia A thesis submitted for the degree of PhilosophiæDoctor (PhD) Under the supervision of Dr. Paolo Rosso 2010 October ii Abstract In recent years, geography has acquired a great importance in the context of Information Retrieval (IR) and, in general, of the automated processing of information in text. Mobile devices that are able to surf the web and at the same time inform about their position are now a common reality, together with applications that can exploit these data to provide users with locally customised information, such as directions or advertisements. Therefore, it is important to deal properly with the geographic information that is included in electronic texts. The majority of such kind of information is contained as place names, or toponyms. Toponym ambiguity represents an important issue in Geographical Infor- mation Retrieval (GIR), due to the fact that queries are geographically con- strained. There has been a struggle to find specific geographical IR methods that actually outperform traditional IR techniques. Toponym ambiguity may constitute a relevant factor in the inability of current GIR systems to take advantage from geographical knowledge. Recently, some Ph.D. theses have dealt with Toponym Disambiguation (TD) from different perspectives, from the development of resources for the evaluation of Toponym Disam- biguation (Leidner (2007)) to the use of TD to improve geographical scope resolution (Andogah (2010)). The Ph.D. thesis presented here introduces a TD method based on WordNet and carries out a detailed study of the relationship of Toponym Disambiguation to some IR applications, such as GIR, Question Answering (QA) and Web retrieval. The work presented in this thesis starts with an introduction to the ap- plications in which TD may result useful, together with an analysis of the ambiguity of toponyms in news collections. It could not be possible to study the ambiguity of toponyms without studying the resources that are used as placename repositories; these resources are the equivalent to lan- guage dictionaries, which provide the different meanings of a given word. An important finding of this Ph.D. thesis is that the choice of a particular toponym repository is key and should be carried out depending on the task and the kind of application that it is going to be developed. We discov- ered, while attempting to adapt TD methods to work on a corpus of local Italian news, that a factor that is particularly important in this choice is represented by the \locality" of the text collection to be processed. The choice of a proper Toponym Disambiguation method is also key, since the set of features available to discriminate place references may change accord- ing to the granularity of the resource used or the available information for each toponym. In this work we developed two methods, a knowledge-based method and a map-based method, which compared over the same test set. We studied the effects of the choice of a particular toponym resource and method in GIR, showing that TD may result useful if query length is short and a detailed resource is used. We carried out some experiments on the CLEF GIR collection, finding that retrieval accuracy is not affected signifi- cantly, even when the errors represent 60% of the toponyms in the collection, at least in the case in which the resource used has a little coverage and detail. Ranking methods that sort the results on the basis of geographical criteria were observed to be more sensitive to the use of TD or not, especially in the case of a detailed resource. We observed also that the disambiguation of toponyms does not represent an issue in the case of Question Answering, because errors in TD are usually less important than other kind of errors in QA. In GIR, the geographical constraints contained in most queries are area constraints, such that the information need usually expressed by users can be resumed as \X in P", where P is a place name, and X represents the thematic part of the query. A common issue in GIR occurs when a place named by a user cannot be found in any resource because it is a fuzzy re- gion or a vernacular name. In order to overcome this issue, we developed Geooreka!, a prototype search engine with a map-based interface. A prelim- inary testing of this system is presented in this work. The work carried out on this search engine showed that Toponym Disambiguation can be partic- ularly useful on web documents, especially for applications like Geooreka! that need to estimate the occurrence probabilities for places. Abstract En los ´ultimosa~nos,la geograf´ıaha adquirido una importancia cada vez mayor en el contexto de la recuperaci´onde la informaci´on(Information Retrieval, IR) y, en general, del procesamiento de la informaci´onen textos. Cada vez son m´ascomunes dispositivos m´ovilesque permiten a los usuarios de navegar en la web y al mismo tiempo informar sobre su posici´on,as´ı como las aplicaciones que puedan explotar estos datos para proporcionar a los usuarios alg´untipo de informaci´onlocalizada, por ejemplo instrucciones para orientarse o anuncios publicitarios. Por tanto, es importante que los sistemas inform´aticossean capaces de extraer y procesar la informaci´on geogr´aficacontenida en textos electr´onicos. La mayor parte de este tipo de informaci´onest´aformado por nombres de lugares, llamados tambi´en top´onimos. La ambig¨uedadde los top´onimosconstituye un problema importante en la tarea de recuperaci´onde informaci´ongeogr´afica(Geographical Informa- tion Retrieval o GIR), dado que en esta tarea las peticiones de los usuarios est´anvinculadas geogr´aficamente. Ha habido un gran esfuerzo por parte de la comunidad de investigadores para encontrar m´etodos de IR espec´ıficos para GIR que sean capaces de obtener resultados mejores que las t´ecnicas tradicionales de IR. La ambig¨uedadde los top´onimos es probablemente un factor muy importante en la incapacidad de los sistemas GIR actuales por conseguir una ventaja a trav´esdel procesamiento de las informaciones geogr´aficas. Recientemente, algunas tesis han tratado el problema de res- oluci´onde ambig¨uedadde top´onimosdesde distintas perspectivas, como el desarrollo de recursos para la evaluaci´onde los m´etodos de desambiguaci´on de top´onimos(Leidner) y el uso de estos m´etodos para mejorar la res- oluci´onde lo \scope" geogr´aficoen documentos electr´onicos(Andogah). En esta tesis se ha introducido un nuevo m´etodo de desambiguaci´onbasado en WordNet y por primera vez se ha estudiado atentamente la ambig¨uedad de los top´onimosy los efectos de su resoluci´onen aplicaciones como GIR, la b´usquedade respuestas (Question Answering o QA), y la recuperaci´on de informaci´onen la web. Esta tesis empieza con una introducci´ona las aplicaciones en las cuales la desambiguaci´onde top´onimospuede producir resultados ´utiles,y con una an´alisisde la ambig¨uedadde los top´onimosen las colecciones de noticias. No ser´ıaposible estudiar la ambig¨uedadde los top´onimossin estudiar tambi´en los recursos que se usan como bases de datos de top´onimos;estos recursos son el equivalente de los diccionarios de idiomas, que se usan para encon- trar los significados diferentes de una palabra. Un resultado importante de esta tesis consiste en haber identificado la importancia de la elecci´onde un particular recurso, que tiene que tener en cuenta la tarea que se tiene que llevar a cabo y las caracter´ısticasespec´ıficasde la aplicaci´onque se est´a desarrollando. Se ha identificado un factor especialmente importante con- stituido por la \localidad" de la colecci´onde textos a procesar. La elecci´on de un algoritmo apropiado de desambiguaci´onde top´onimoses igualmente importante, dado que el conjunto de \features" disponible para discriminar las referencias a los lugares puede cambiar en funci´ondel recurso elegido y de la informaci´onque este puede proporcionar para cada top´onimo.En este trabajo se desarrollaron dos m´etodos para este fin: un m´etodo basado en la densidad conceptual y otro basado en la distancia media desde centroides en mapas. Ha sido presentado tambi´enun caso de estudio de aplicaci´onde m´etodos de desambiguaci´ona un corpus de noticias en italiano. Se han estudiado los efectos derivados de la elecci´onde un particular recurso como diccionario de top´onimossobre la tarea de GIR, encontrando que la desambiguaci´onpuede resultar ´utilsi el tama~node la query es peque~noy el recurso utilizado tiene un elevado nivel de detalle. Se ha descubierto que el nivel de error en la desambiguaci´onno es relevante, al menos hasta el 60% de errores, si el recurso tiene una cobertura peque~nay un nivel de detalle limitado. Se observ´oque los m´etodos de ordenaci´onde los resul- tados que utilizan criterios geogr´aficosson m´assensibles a la utilizaci´on de la desambiguaci´on,especialmente en el caso de recursos detallados. Fi- nalmente, se detect´oque la desambiguaci´onde top´onimosno tiene efectos relevantes sobre la tarea de QA, dado que los errores introducidos por este proceso constituyen una parte trascurable de los errores que se generan en el proceso de b´usquedade respuestas. En la tarea de recuperaci´onde informaci´ongeogr´afica,la mayor´ıade las peticiones de los usuarios son del tipo \XenP ", d´onde P representa un nombre de lugar y X la parte tem´aticade la query. Un problema frecuente derivado de este estilo de formulaci´onde la petici´onocurre cuando el nom- bre de lugar no se puede encontrar en ning´unrecurso, trat´andosede una regi´ondelimitada de manera difusa o porqu´ese trata de nombres vern´aculos.