Universidad Rey Juan Carlos Estudio Y Nuevas Estrategias En El Uso De Las Entidades Nombradas En El Clustering Bilingüe De Noti

Universidad Rey Juan Carlos Estudio y nuevas estrategias en el uso de las Entidades Nombradas en el Clustering Bilingüede noticias TESIS DOCTORAL Mar´ıadel Soto Montalvo Herranz 2012 Universidad Rey Juan Carlos Escuela TécnicaSuperior de Ingenier´ıaInformática Departamento de Ciencias de la Computación Estudio y nuevas estrategias en el uso de las Entidades Nombradas en el Clustering Bilingüede noticias Tesis Doctoral Directores: Dra. Da. Raquel Mart´ınezUnanue Dr. D. V´ıctorFresno Fernández Tutor: Dr. D. Antonio Sanz Montemayor Doctoranda: Da. Mar´ıadel Soto Montalvo Herranz 2012 La Dra. Da. Raquel Mart´ınezUnanue, Profesora Titular del Departamento de Lenguajes y Sistemas Informáticosde la Universidad Nacional de Educacióna Distancia y el Dr. D. V´ıctor Fresno Fernández,Profesor Contratado Doctor del Departamento de Lenguajes y Sistemas Informáticosde la Universidad Nacional de Educacióna Distancia, codirectores de la Tesis Doctoral \Estudio y nuevas estrategias en el uso de las Entidades Nombradas en el Clustering Bilingüede noticias" realizada por la doctoranda Da. Mar´ıadel Soto Montalvo Herranz, HACEN CONSTAR: que esta Tesis Doctoral reúnelos requisitos necesarios para su defensa y aprobación. En Móstoles,a 29 de octubre de 2012, Dra. Da. Raquel Mart´ınezUnanue Dr. D. V´ıctorFresno Fernández Dr. D. Antonio Sanz Montemayor (Tutor) Índice general Índice de figuras VII Índice de tablas XI Listado de acrónimos XIII Resumen XIX Abstract XXI 1. Introducción 1 1.1. Motivación ....................................... 1 1.1.1. Entidades Nombradas ............................. 2 1.1.2. Documentos de noticias: caracter´ısticas ................... 4 1.1.3. Descripcióndel problema ........................... 7 1.2. Hipótesisy Objetivos .................................. 10 1.2.1. Hipótesis .................................... 10 1.2.2. Objetivos .................................... 10 1.3. Estructura de la memoria ............................... 13 2. Estado del arte 15 2.1. Clustering de documentos ............................... 15 2.1.1. Representaciónde los documentos ...................... 16 2.1.2. Cálculode la similitud ............................. 28 2.1.3. Agrupamiento ................................. 31 2.1.4. Evaluación ................................... 34 2.2. Conclusiones ...................................... 35 3. Preliminares 41 3.1. Clustering temático .................................. 41 3.2. Corpus comparables de noticias ............................ 43 i Índice general 3.2.1. Corpus HE189 ................................. 44 3.2.2. Corpus CR231 ................................. 46 3.2.3. Corpus CL214 ................................. 48 3.2.4. Comparativa de los corpus ........................... 49 3.2.5. Corpus de pruebas ............................... 54 4. Entidades Nombradas en el clustering de noticias: estudio preliminar 55 4.1. Marco experimental del estudio ............................ 55 4.1.1. Representaciónde los documentos de noticias ................ 56 4.1.2. Cálculode la similitud ............................. 59 4.1.3. Algoritmo de clustering ............................ 59 4.1.4. Evaluación ................................... 61 4.1.5. Análisisde la significancia estad´ıstica .................... 64 4.2. Estudio preliminar. ................................... 65 4.2.1. Primera parte: clustering sin traducción ................... 66 4.2.2. Segunda parte: clustering con traducción .................. 72 4.3. Conclusiones ...................................... 92 5. Las Entidades Nombradas MultiWord en el clustering de noticias 95 5.1. Introducción ....................................... 96 5.2. Las Entidades Nombradas multipalabra ....................... 97 5.2.1. Estudio inicial ................................. 101 5.2.2. Impacto del uso de las categor´ıas ....................... 105 5.2.3. Combinaciónde los enfoques para encontrar equivalencias ......... 117 5.2.4. Selecciónde contenido por categor´ıagramatical ............... 121 5.3. Las diferentes formas de una misma entidad ..................... 124 5.4. Conclusiones ...................................... 129 6. Identificaciónde cognados 133 6.1. Introducción ....................................... 133 6.2. Estado de la cuestión .................................. 135 6.3. Lógicaborrosa (fuzzy logic) .............................. 139 6.3.1. Teor´ıade Conjuntos Borrosos ......................... 140 6.3.2. Mecanismo de inferencia borrosa ....................... 142 6.4. Dise~nodel sistema borroso para la identificaciónde cognados ........... 146 6.4.1. Medidas de similitud ortográficaseleccionadas ............... 147 6.4.2. CIFS: Cognate Identification Fuzzy System ................. 150 6.5. Evaluación ....................................... 154 Índice general 6.5.1. Medida de evaluación ............................. 154 6.5.2. Conjuntos de datos ............................... 155 6.5.3. Resultados ................................... 155 6.6. Impacto de los datos de entrenamiento ........................ 158 6.6.1. Influencia de la colecciónde entrenamiento ................. 158 6.6.2. Influencia del tama~node la colecciónde entrenamiento ........... 163 6.7. Sistema de identificaciónde cognados para identificar ENE ............ 165 6.7.1. Estudio para la mejora de la identificaciónde ENE ............. 168 6.7.2. Evaluación ................................... 169 6.8. Conclusiones ...................................... 178 7. Cálculode similitud basado en Entidades Nombradas 181 7.1. Introducción ....................................... 181 7.2. Estudio preliminar ................................... 183 7.2.1. Experimentación ................................ 189 7.2.2. Análisisde los resultados ........................... 189 7.3. Uso de la categor´ıade las EN en el cálculode la similitud ............. 192 7.3.1. Primera propuesta de una nueva medida de similitud: NESM ....... 196 7.3.2. Combinaciónde similitudes parciales por categor´ıa ............. 204 7.4. Conclusiones ...................................... 220 8. Algoritmo de clustering basado en Entidades Nombradas 223 8.1. Introducción ....................................... 223 8.2. Propuesta de algoritmo para clustering de noticias ................. 225 8.2.1. Preliminares .................................. 225 8.2.2. Análisisprevio ................................. 229 8.2.3. Algoritmo propuesto .............................. 232 8.2.4. Experimentación ................................ 241 8.3. Comparativa frente a otros algoritmos del estado del arte ............. 246 8.3.1. Algoritmo X-Means .............................. 247 8.3.2. Algoritmo EM ................................. 252 8.3.3. Algoritmo Affinity Propagation ........................ 255 8.3.4. Dise~node la experimentación ......................... 258 8.4. Comparativa de todos los algoritmos ......................... 269 8.5. Conclusiones ...................................... 272 9. Conclusiones, aportaciones y trabajo futuro 275 9.1. Introducción ....................................... 275 Índice general 9.2. Conclusiones y aportaciones principales ....................... 275 9.2.1. Conclusiones generales ............................. 279 9.2.2. Resumen de contribuciones .......................... 280 9.3. Trabajos futuros .................................... 283 9.4. Resumen de publicaciones ............................... 284 Apéndices 287 A. Cálculode los diferentes valores de medida-F BCubed 289 A.1. Cálculode medida-F BCubed global ......................... 291 A.2. Cálculode medida-F BCubed para el agrupamiento de documentos en la misma lengua .......................................... 291 A.3. Cálculode medida-F BCubed para el agrupamiento de documentos en diferente lengua .......................................... 293 B. Dise~node la experimentaciónpara el algoritmo de clustering X-Means 295 Índice de figuras 1.1. Ejemplo de anotaciónde Entidades Nombrabas con el esquema MUC. ...... 3 1.2. Contenido de noticias con las Entidades Nombradas resaltadas. .......... 5 2.1. Etapas de un proceso de clustering de documentos. ................. 16 3.1. Ejemplo de grupos de noticias que representan temas con diferente grado de generalidad. ....................................... 42 3.2. Distribuciónde los documentos en los clusters de las soluciones de referencia. .. 51 3.3. Clusters con el mismo númerode noticias y de eventos pero distribucióndiferente. 53 4.1. Etapa de representacióndentro del proceso de clustering de documentos. ..... 56 4.2. Ejemplo de noticias agrupadas en una particiónde referencia. ........... 63 4.3. Ejemplo de noticias agrupadas en una particióngenerada por un algoritmo de clustering. ........................................ 64 4.4. Regiones de aceptacióny rechazo en el contraste de la hipótesis. ......... 65 4.5. Resultados de clustering para el baseline. ...................... 68 4.6. Númerode clusters mono y bilingüesobtenidos con los experimentos del baseline. 69 4.7. Ejemplo de agrupaciónde noticias en espa~nolpara el corpus HE189 y selección con todo el contenido. ................................. 70 4.8. Ejemplo de agrupaciónde noticias en dos idiomas para el corpus HE189 y selección con solo EN. ...................................... 70 4.9. Ejemplo de agrupaciónde noticias en ingléspara el corpus HE189 y seleccióncon todo el contenido. .................................... 71 4.10. Agrupamiento de las

Load more