Toponym Disambiguation in Information Retrieval

Toponym Disambiguation in Information Retrieval Davide Buscaldi Dpto. Sistemas Informáticosy Computación Universidad Politécnicade Valencia A thesis submitted for the degree of PhilosophiæDoctor (PhD) Under the supervision of Dr. Paolo Rosso 2010 October ii Abstract In recent years, geography has acquired a great importance in the context of Information Retrieval (IR) and, in general, of the automated processing of information in text. Mobile devices that are able to surf the web and at the same time inform about their position are now a common reality, together with applications that can exploit these data to provide users with locally customised information, such as directions or advertisements. Therefore, it is important to deal properly with the geographic information that is included in electronic texts. The majority of such kind of information is contained as place names, or toponyms. Toponym ambiguity represents an important issue in Geographical Infor- mation Retrieval (GIR), due to the fact that queries are geographically con- strained. There has been a struggle to find specific geographical IR methods that actually outperform traditional IR techniques. Toponym ambiguity may constitute a relevant factor in the inability of current GIR systems to take advantage from geographical knowledge. Recently, some Ph.D. theses have dealt with Toponym Disambiguation (TD) from different perspectives, from the development of resources for the evaluation of Toponym Disam- biguation (Leidner (2007)) to the use of TD to improve geographical scope resolution (Andogah (2010)). The Ph.D. thesis presented here introduces a TD method based on WordNet and carries out a detailed study of the relationship of Toponym Disambiguation to some IR applications, such as GIR, Question Answering (QA) and Web retrieval. The work presented in this thesis starts with an introduction to the applications in which TD may result useful, together with an analysis of the ambiguity of toponyms in news collections. It could not be possible to study the ambiguity of toponyms without studying the resources that are used as placename repositories; these resources are the equivalent to lan- guage dictionaries, which provide the different meanings of a given word. An important finding of this Ph.D. thesis is that the choice of a particular toponym repository is key and should be carried out depending on the task and the kind of application that it is going to be developed. We discov- ered, while attempting to adapt TD methods to work on a corpus of local Italian news, that a factor that is particularly important in this choice is represented by the \locality" of the text collection to be processed. The choice of a proper Toponym Disambiguation method is also key, since the set of features available to discriminate place references may change accord- ing to the granularity of the resource used or the available information for each toponym. In this work we developed two methods, a knowledge-based method and a map-based method, which compared over the same test set. We studied the effects of the choice of a particular toponym resource and method in GIR, showing that TD may result useful if query length is short and a detailed resource is used. We carried out some experiments on the CLEF GIR collection, finding that retrieval accuracy is not affected signifi- cantly, even when the errors represent 60% of the toponyms in the collection, at least in the case in which the resource used has a little coverage and detail. Ranking methods that sort the results on the basis of geographical criteria were observed to be more sensitive to the use of TD or not, especially in the case of a detailed resource. We observed also that the disambiguation of toponyms does not represent an issue in the case of Question Answering, because errors in TD are usually less important than other kind of errors in QA. In GIR, the geographical constraints contained in most queries are area constraints, such that the information need usually expressed by users can be resumed as \X in P", where P is a place name, and X represents the thematic part of the query. A common issue in GIR occurs when a place named by a user cannot be found in any resource because it is a fuzzy re- gion or a vernacular name. In order to overcome this issue, we developed Geooreka!, a prototype search engine with a map-based interface. A prelim- inary testing of this system is presented in this work. The work carried out on this search engine showed that Toponym Disambiguation can be particularly useful on web documents, especially for applications like Geooreka! that need to estimate the occurrence probabilities for places. Abstract En los últimosa~nos,la geograf´ıaha adquirido una importancia cada vez mayor en el contexto de la recuperaciónde la información(Information Retrieval, IR) y, en general, del procesamiento de la informaciónen textos. Cada vez son máscomunes dispositivos móvilesque permiten a los usuarios de navegar en la web y al mismo tiempo informar sobre su posición,as´ı como las aplicaciones que puedan explotar estos datos para proporcionar a los usuarios algúntipo de informaciónlocalizada, por ejemplo instrucciones para orientarse o anuncios publicitarios. Por tanto, es importante que los sistemas informáticossean capaces de extraer y procesar la información geográficacontenida en textos electrónicos. La mayor parte de este tipo de informaciónestáformado por nombres de lugares, llamados también topónimos. La ambigüedadde los topónimosconstituye un problema importante en la tarea de recuperaciónde informacióngeográfica(Geographical Informa- tion Retrieval o GIR), dado que en esta tarea las peticiones de los usuarios estánvinculadas geográficamente. Ha habido un gran esfuerzo por parte de la comunidad de investigadores para encontrar métodos de IR espec´ıficos para GIR que sean capaces de obtener resultados mejores que las técnicas tradicionales de IR. La ambigüedadde los topónimos es probablemente un factor muy importante en la incapacidad de los sistemas GIR actuales por conseguir una ventaja a travésdel procesamiento de las informaciones geográficas. Recientemente, algunas tesis han tratado el problema de res- oluciónde ambigüedadde topónimosdesde distintas perspectivas, como el desarrollo de recursos para la evaluaciónde los métodos de desambiguación de topónimos(Leidner) y el uso de estos métodos para mejorar la res- oluciónde lo \scope" geográficoen documentos electrónicos(Andogah). En esta tesis se ha introducido un nuevo método de desambiguaciónbasado en WordNet y por primera vez se ha estudiado atentamente la ambigüedad de los topónimosy los efectos de su resoluciónen aplicaciones como GIR, la búsquedade respuestas (Question Answering o QA), y la recuperación de informaciónen la web. Esta tesis empieza con una introduccióna las aplicaciones en las cuales la desambiguaciónde topónimospuede producir resultados útiles,y con una análisisde la ambigüedadde los topónimosen las colecciones de noticias. No ser´ıaposible estudiar la ambigüedadde los topónimossin estudiar también los recursos que se usan como bases de datos de topónimos;estos recursos son el equivalente de los diccionarios de idiomas, que se usan para encontrar los significados diferentes de una palabra. Un resultado importante de esta tesis consiste en haber identificado la importancia de la elecciónde un particular recurso, que tiene que tener en cuenta la tarea que se tiene que llevar a cabo y las caracter´ısticasespec´ıficasde la aplicaciónque se está desarrollando. Se ha identificado un factor especialmente importante con- stituido por la \localidad" de la colecciónde textos a procesar. La elección de un algoritmo apropiado de desambiguaciónde topónimoses igualmente importante, dado que el conjunto de \features" disponible para discriminar las referencias a los lugares puede cambiar en funcióndel recurso elegido y de la informaciónque este puede proporcionar para cada topónimo.En este trabajo se desarrollaron dos métodos para este fin: un método basado en la densidad conceptual y otro basado en la distancia media desde centroides en mapas. Ha sido presentado tambiénun caso de estudio de aplicaciónde métodos de desambiguacióna un corpus de noticias en italiano. Se han estudiado los efectos derivados de la elecciónde un particular recurso como diccionario de topónimossobre la tarea de GIR, encontrando que la desambiguaciónpuede resultar útilsi el tama~node la query es peque~noy el recurso utilizado tiene un elevado nivel de detalle. Se ha descubierto que el nivel de error en la desambiguaciónno es relevante, al menos hasta el 60% de errores, si el recurso tiene una cobertura peque~nay un nivel de detalle limitado. Se observóque los métodos de ordenaciónde los resultados que utilizan criterios geográficosson mássensibles a la utilización de la desambiguación,especialmente en el caso de recursos detallados. Fi- nalmente, se detectóque la desambiguaciónde topónimosno tiene efectos relevantes sobre la tarea de QA, dado que los errores introducidos por este proceso constituyen una parte trascurable de los errores que se generan en el proceso de búsquedade respuestas. En la tarea de recuperaciónde informacióngeográfica,la mayor´ıade las peticiones de los usuarios son del tipo \XenP ", dónde P representa un nombre de lugar y X la parte temáticade la query. Un problema frecuente derivado de este estilo de formulaciónde la peticiónocurre cuando el nombre de lugar no se puede encontrar en ningúnrecurso, tratándosede una regióndelimitada de manera difusa o porquése trata de nombres vernáculos.

Load more