Incidencia De Idiomas Populares En La Lengua Española Con Big
Total Page:16
File Type:pdf, Size:1020Kb
Incidencia de Idiomas Populares en la Lengua Española con Big Data: Análisis Masivo de Título: Datos Mediante Amazon Elastic MapReduce y Google N-grams Autores : Julián De Luca Director: Waldo Hasperué Codirector : Franco Chichizola Asesor profesional: Ismael Pablo Rodriguez Carrera: Licenciatura en Sistemas La presente tesina analiza, diseña e implementa una solución para el problema de la detección de neologismos y extranjerismos en la lengua Española. Para este fin, realizamos un análisis de investigaciones previas y problemáticas surgidas, y decidimos realizar un aporte mediante un sistema de cloud computing. Nuestra solución se centra en el uso de tecnologías de análisis masivo de datos para el tratamiento de corpus grandes de una manera eficiente. Realizamos un repaso general de las tecnologías existentes, sin especificar herramientas puntuales, para luego introducir herramientas concisas. Logramos alcanzar una solución sencilla pero eficaz y escalable mediante el uso de herramientas provistas por Amazon Web Services, utilizando el corpus público llamado Google Books Ngrams. Finalmente, abrimos la posibilidad de utilizar otras herramientas, y la misma metodología en otro tipo de estudios. Demostramos que logramos un aporte a la comunidad de lingüística computacional, y seguiremos trabajando en el tema en cuestión. Google Books Ngrams, Amazon Web Services, AWS, Se desarrolló un sistema de detección de neologismos Cloud Computing, Big Data, MapReduce, EMR, Hive, novedoso que permite apreciar el uso de cloud Neología, Extranjerismos. computing como herramienta potente para su procesamiento. Se otorga a futuros investigadores una herramienta de punto de partida para realizar sus estudios, con resultados claros y software extensible y modificable. Se desarrolló un software para el lanzamiento de Se propone: clústeres EMR en AWS, que mediante Hive permite Extensión para el procesamiento de tratar información de manera distribuida sencillamente. información en distintos clústeres, que permita paralelizar tareas independientes. Explicamos la instalación, funcionamiento, importancia Extensión para el filtrado de extranjerismos y relación del sistema, y se propuso una metodología sobre los neologismos detectados. novedosa para la detección de neologismos, impulsada Implementar la misma metodología en un por teorías de otros autores. corpus distinto, con unidades de tiempo menores a 1 año, posiblemente con información de internet como pueden ser foros. Marzo 2016 Universidad Nacional de La Plata Facultad de Informática Incidencia de Idiomas Populares en la Lengua Española con Big Data: Análisis Masivo de Datos Mediante Amazon Elastic MapReduce y Google N-grams Julián De Luca Directores: Asesor: Waldo Hasperué y Ismael Pablo Rodríguez Franco Chichizola Marzo 2016 Si para recobrar lo recobrado debí perder primero lo perdido, si para conseguir lo conseguido tuve que soportar lo soportado, si para estar ahora enamorado fue menester haber estado herido, tengo por bien sufrido lo sufrido, tengo por bien llorado lo llorado. Porque después de todo he comprobado que no se goza bien de lo gozado sino después de haberlo padecido. Porque después de todo he comprendido por lo que el árbol tiene de florido vive de lo que tiene sepultado. - Francisco Luis Bernárdez Índice 1 INTRODUCCIÓN ......................................................................................................................... 5 1.1 OBJETIVOS ................................................................................................................................................ 5 1.2 MOTIVACIÓN ............................................................................................................................................ 5 1.3 ESTRUCTURA DE LA TESIS ................................................................................................................... 6 2 CONCEPTOS DE ANÁLISIS MASIVO DE DATOS ........................................................... 7 2.1 BIG DATA .................................................................................................................................................. 7 Unidades de Medición de Datos ...................................................................................................................... 8 2.2 CLOUD COMPUTING ............................................................................................................................... 8 Clusters ...................................................................................................................................................................... 8 Grid Computing ...................................................................................................................................................... 9 Virtualización ......................................................................................................................................................... 9 Beneficios de Cloud Computing ...................................................................................................................... 9 Riesgos de Cloud Computing ......................................................................................................................... 10 2.3 MAPREDUCE ......................................................................................................................................... 11 3 PROBLEMÁTICA Y RECURSOS ................................................................................................ 14 3.1 INTRODUCCIÓN ....................................................................................................................................... 14 3.2 PROBLEMÁTICA ...................................................................................................................................... 15 Estudios relacionados ...................................................................................................................................... 15 Definiciones y tipos de neologismos ........................................................................................................... 16 Camino hacia una solución ............................................................................................................................ 17 3.3 GOOGLE N-GRAMS .................................................................................................................................. 19 3.4 AMAZON WEB SERVICES ....................................................................................................................... 20 Amazon Elastic Compute Cloud (EC2) ...................................................................................................... 21 Amazon Simple Storage Service (S3) ........................................................................................................ 24 Amazon Elastic MapReduce (EMR) ........................................................................................................... 25 Amazon Hive y Apache Hive .......................................................................................................................... 29 Amazon Identity and Access Management (IAM) ............................................................................... 30 3.5 SOLUCIÓN PROPUESTA .......................................................................................................................... 31 4 IMPLEMENTACIÓN Y RESULTADOS ..................................................................................... 34 4.1 CONFIGURACIÓN ..................................................................................................................................... 34 Command Line Interface (CLI) y Software Development Kit (SDK) ............................................ 34 Configuración de EMR ..................................................................................................................................... 36 Configuración de Hive ...................................................................................................................................... 36 4.2 IMPLEMENTACIÓN .................................................................................................................................. 36 SDK para AWS ..................................................................................................................................................... 37 Steps de Hive ........................................................................................................................................................ 38 4.3 RESULTADOS ........................................................................................................................................... 49 Tipos de instancia .............................................................................................................................................. 49 Tamaño del cluster ............................................................................................................................................ 50 Costo económico ................................................................................................................................................. 51 Diccionarios .......................................................................................................................................................... 51 Neologismos ........................................................................................................................................................