Universidad Rey Juan Carlos Estudio Y Nuevas Estrategias En El Uso De Las Entidades Nombradas En El Clustering Bilingüe De Noti
Total Page:16
File Type:pdf, Size:1020Kb
Universidad Rey Juan Carlos Estudio y nuevas estrategias en el uso de las Entidades Nombradas en el Clustering Biling¨uede noticias TESIS DOCTORAL Mar´ıadel Soto Montalvo Herranz 2012 Universidad Rey Juan Carlos Escuela T´ecnicaSuperior de Ingenier´ıaInform´atica Departamento de Ciencias de la Computaci´on Estudio y nuevas estrategias en el uso de las Entidades Nombradas en el Clustering Biling¨uede noticias Tesis Doctoral Directores: Dra. Da. Raquel Mart´ınezUnanue Dr. D. V´ıctorFresno Fern´andez Tutor: Dr. D. Antonio Sanz Montemayor Doctoranda: Da. Mar´ıadel Soto Montalvo Herranz 2012 La Dra. Da. Raquel Mart´ınezUnanue, Profesora Titular del Departamento de Lenguajes y Sistemas Inform´aticosde la Universidad Nacional de Educaci´ona Distancia y el Dr. D. V´ıctor Fresno Fern´andez,Profesor Contratado Doctor del Departamento de Lenguajes y Sistemas Inform´aticosde la Universidad Nacional de Educaci´ona Distancia, codirectores de la Tesis Doctoral \Estudio y nuevas estrategias en el uso de las Entidades Nombradas en el Clustering Biling¨uede noticias" realizada por la doctoranda Da. Mar´ıadel Soto Montalvo Herranz, HACEN CONSTAR: que esta Tesis Doctoral re´unelos requisitos necesarios para su defensa y aprobaci´on. En M´ostoles,a 29 de octubre de 2012, Dra. Da. Raquel Mart´ınezUnanue Dr. D. V´ıctorFresno Fern´andez Dr. D. Antonio Sanz Montemayor (Tutor) ´Indice general ´Indice de figuras VII ´Indice de tablas XI Listado de acr´onimos XIII Resumen XIX Abstract XXI 1. Introducci´on 1 1.1. Motivaci´on ....................................... 1 1.1.1. Entidades Nombradas ............................. 2 1.1.2. Documentos de noticias: caracter´ısticas ................... 4 1.1.3. Descripci´ondel problema ........................... 7 1.2. Hip´otesisy Objetivos .................................. 10 1.2.1. Hip´otesis .................................... 10 1.2.2. Objetivos .................................... 10 1.3. Estructura de la memoria ............................... 13 2. Estado del arte 15 2.1. Clustering de documentos ............................... 15 2.1.1. Representaci´onde los documentos ...................... 16 2.1.2. C´alculode la similitud ............................. 28 2.1.3. Agrupamiento ................................. 31 2.1.4. Evaluaci´on ................................... 34 2.2. Conclusiones ...................................... 35 3. Preliminares 41 3.1. Clustering tem´atico .................................. 41 3.2. Corpus comparables de noticias ............................ 43 i ´Indice general 3.2.1. Corpus HE189 ................................. 44 3.2.2. Corpus CR231 ................................. 46 3.2.3. Corpus CL214 ................................. 48 3.2.4. Comparativa de los corpus ........................... 49 3.2.5. Corpus de pruebas ............................... 54 4. Entidades Nombradas en el clustering de noticias: estudio preliminar 55 4.1. Marco experimental del estudio ............................ 55 4.1.1. Representaci´onde los documentos de noticias ................ 56 4.1.2. C´alculode la similitud ............................. 59 4.1.3. Algoritmo de clustering ............................ 59 4.1.4. Evaluaci´on ................................... 61 4.1.5. An´alisisde la significancia estad´ıstica .................... 64 4.2. Estudio preliminar. ................................... 65 4.2.1. Primera parte: clustering sin traducci´on ................... 66 4.2.2. Segunda parte: clustering con traducci´on .................. 72 4.3. Conclusiones ...................................... 92 5. Las Entidades Nombradas MultiWord en el clustering de noticias 95 5.1. Introducci´on ....................................... 96 5.2. Las Entidades Nombradas multipalabra ....................... 97 5.2.1. Estudio inicial ................................. 101 5.2.2. Impacto del uso de las categor´ıas ....................... 105 5.2.3. Combinaci´onde los enfoques para encontrar equivalencias ......... 117 5.2.4. Selecci´onde contenido por categor´ıagramatical ............... 121 5.3. Las diferentes formas de una misma entidad ..................... 124 5.4. Conclusiones ...................................... 129 6. Identificaci´onde cognados 133 6.1. Introducci´on ....................................... 133 6.2. Estado de la cuesti´on .................................. 135 6.3. L´ogicaborrosa (fuzzy logic) .............................. 139 6.3.1. Teor´ıade Conjuntos Borrosos ......................... 140 6.3.2. Mecanismo de inferencia borrosa ....................... 142 6.4. Dise~nodel sistema borroso para la identificaci´onde cognados ........... 146 6.4.1. Medidas de similitud ortogr´aficaseleccionadas ............... 147 6.4.2. CIFS: Cognate Identification Fuzzy System ................. 150 6.5. Evaluaci´on ....................................... 154 ´Indice general 6.5.1. Medida de evaluaci´on ............................. 154 6.5.2. Conjuntos de datos ............................... 155 6.5.3. Resultados ................................... 155 6.6. Impacto de los datos de entrenamiento ........................ 158 6.6.1. Influencia de la colecci´onde entrenamiento ................. 158 6.6.2. Influencia del tama~node la colecci´onde entrenamiento ........... 163 6.7. Sistema de identificaci´onde cognados para identificar ENE ............ 165 6.7.1. Estudio para la mejora de la identificaci´onde ENE ............. 168 6.7.2. Evaluaci´on ................................... 169 6.8. Conclusiones ...................................... 178 7. C´alculode similitud basado en Entidades Nombradas 181 7.1. Introducci´on ....................................... 181 7.2. Estudio preliminar ................................... 183 7.2.1. Experimentaci´on ................................ 189 7.2.2. An´alisisde los resultados ........................... 189 7.3. Uso de la categor´ıade las EN en el c´alculode la similitud ............. 192 7.3.1. Primera propuesta de una nueva medida de similitud: NESM ....... 196 7.3.2. Combinaci´onde similitudes parciales por categor´ıa ............. 204 7.4. Conclusiones ...................................... 220 8. Algoritmo de clustering basado en Entidades Nombradas 223 8.1. Introducci´on ....................................... 223 8.2. Propuesta de algoritmo para clustering de noticias ................. 225 8.2.1. Preliminares .................................. 225 8.2.2. An´alisisprevio ................................. 229 8.2.3. Algoritmo propuesto .............................. 232 8.2.4. Experimentaci´on ................................ 241 8.3. Comparativa frente a otros algoritmos del estado del arte ............. 246 8.3.1. Algoritmo X-Means .............................. 247 8.3.2. Algoritmo EM ................................. 252 8.3.3. Algoritmo Affinity Propagation ........................ 255 8.3.4. Dise~node la experimentaci´on ......................... 258 8.4. Comparativa de todos los algoritmos ......................... 269 8.5. Conclusiones ...................................... 272 9. Conclusiones, aportaciones y trabajo futuro 275 9.1. Introducci´on ....................................... 275 ´Indice general 9.2. Conclusiones y aportaciones principales ....................... 275 9.2.1. Conclusiones generales ............................. 279 9.2.2. Resumen de contribuciones .......................... 280 9.3. Trabajos futuros .................................... 283 9.4. Resumen de publicaciones ............................... 284 Ap´endices 287 A. C´alculode los diferentes valores de medida-F BCubed 289 A.1. C´alculode medida-F BCubed global ......................... 291 A.2. C´alculode medida-F BCubed para el agrupamiento de documentos en la misma lengua .......................................... 291 A.3. C´alculode medida-F BCubed para el agrupamiento de documentos en diferente lengua .......................................... 293 B. Dise~node la experimentaci´onpara el algoritmo de clustering X-Means 295 ´Indice de figuras 1.1. Ejemplo de anotaci´onde Entidades Nombrabas con el esquema MUC. ...... 3 1.2. Contenido de noticias con las Entidades Nombradas resaltadas. .......... 5 2.1. Etapas de un proceso de clustering de documentos. ................. 16 3.1. Ejemplo de grupos de noticias que representan temas con diferente grado de generalidad. ....................................... 42 3.2. Distribuci´onde los documentos en los clusters de las soluciones de referencia. .. 51 3.3. Clusters con el mismo n´umerode noticias y de eventos pero distribuci´ondiferente. 53 4.1. Etapa de representaci´ondentro del proceso de clustering de documentos. ..... 56 4.2. Ejemplo de noticias agrupadas en una partici´onde referencia. ........... 63 4.3. Ejemplo de noticias agrupadas en una partici´ongenerada por un algoritmo de clustering. ........................................ 64 4.4. Regiones de aceptaci´ony rechazo en el contraste de la hip´otesis. ......... 65 4.5. Resultados de clustering para el baseline. ...................... 68 4.6. N´umerode clusters mono y biling¨uesobtenidos con los experimentos del baseline. 69 4.7. Ejemplo de agrupaci´onde noticias en espa~nolpara el corpus HE189 y selecci´on con todo el contenido. ................................. 70 4.8. Ejemplo de agrupaci´onde noticias en dos idiomas para el corpus HE189 y selecci´on con solo EN. ...................................... 70 4.9. Ejemplo de agrupaci´onde noticias en ingl´espara el corpus HE189 y selecci´oncon todo el contenido. .................................... 71 4.10. Agrupamiento de las