Aportaciones Del Entorno De Computación Estadística R Al Análisis De Redes Sociales

FACULTAD DE CIENCIAS TRABAJO FIN DE MÁSTER APORTACIONES DEL ENTORNO DE COMPUTACIÓN ESTADÍSTICA R AL ANÁLISIS DE REDES SOCIALES. Jénifer Sánchez Gallego Línea de investigación: Análisis Estadísticos con R. Construcción de libros en R. Máster en Estadística Aplicada Tutorizado por: Yolanda Román y Andrés González. 2 Índice General Introducción 1 1. Redes sociales 3 1.1. Componentes de las redes . .6 1.2. Distintas redes sociales . .9 1.2.1. Facebook . 10 1.2.2. Twitter . 12 1.2.3. LinkedIn . 15 1.3. La computación estadística en las redes. 16 2. Data Mining 19 2.1. Introducción . 19 2.2. Métodos supervisados . 20 2.2.1. Redes neuronales . 20 2.2.2. Árboles de decisión . 21 2.2.3. Regresión . 21 2.3. Métodos no supervisados . 22 2.3.1. Cluster . 22 2.3.2. Reglas de asociación . 22 2.3.3. Escalamiento . 23 3. Análisis de sentimientos 25 3.1. Introducción . 25 3.2. Clasificadores . 26 3.2.1. Clasificador Naïve Bayes . 26 3.2.2. Support Vector Machines . 27 4. Análisis de datos en la red Twitter 29 4.1. Introducción . 29 4.2. Lenguaje R . 30 4.3. Obtener datos de Twitter . 31 3 4 ÍNDICE GENERAL 4.4. Análisis de datos de Twitter . 33 4.5. Relaciones entre usuarios . 63 5. Conclusiones 85 ÍNDICE GENERAL 5 INTRODUCCIÓN Desde hace aproximadamente 30 años, gracias al desarrollo de la tec- nología informática, de la teoría de grafos y los avances en el campo de la topología y el álgebra, el Análisis de Redes Sociales ha constituido un modelo interdisciplinar, consolidado y expandido en las Ciencias Sociales. El estudio de modelos teóricos matemáticos y del análisis de datos, ha permitido acti- var el concepto de estructura social, el cual ya tenía significado propio en el campo de la Sociología y Antropología. Además, su aplicación práctica en algunos campos como mercados de trabajo, movimientos sociales, etc ha convertido el Análisis de Redes Sociales en una de las áreas de investigación más importantes en las Ciencias Socia- les, generando también importantes aportaciones conceptuales en distintas disciplinas de este campo. El Análisis de Redes Sociales (ARS) es una estrategia metodológica basada en el análisis matemático de la teoría de grafos y los aportes de la sociología. El ARS permite medir las estructuras que emergen de las redes sociales, sirviendo básicamente, según Sanz (2003), para el estudio formal de las relaciones entre actores (personas, grupos, organizaciones) y para anali- zar las estructuras sociales que surgen de la recurrencia de esas relaciones o de la ocurrencia de determinados eventos. El ARS analiza la morfología, los patrones de comportamiento y las relaciones de los individuos que componen las redes sociales. Este análisis es importante porque permite estudiar los comportamientos y estructuras de ciertos colectivos (personas, grupos, organizaciones) afecta- dos por distintas conductas, emociones y actitudes de otros. Para entender acertadamente una red social es necesario realizar una des- cripción completa y rigurosa de la estructura de sus relaciones como punto de partida para el análisis. De manera ideal, deberíamos conocer todas las re- 1 2 laciones entre cada par de actores en la población estudiada, pero en algunos estudios esto puede ser tedioso. A pesar de la importancia del entendimiento de relaciones, los vínculos entre personas normalmente son invisibles. La computación estadística permite no sólo recoger en tiempo real la información establecida a través de los contactos de las redes sociales sino que también facilita la utilización de técnicas matemáticas y grafos para la representación y descripción de una red de manera concisa y sistemática, proporcionando a su vez las reglas que permiten la aplicación eficiente de los procedimientos. Son muchas las situaciones en las que se pone de manifiesto la necesidad y eficacia del estudio de las redes sociales. A lo largo de esta memoria desa- rrollaremos algunas de ellas. Entre las más importantes, podemos citar: Visualización de relaciones dentro y fuera de organizaciones estructu- rales predeterminadas. Identificación del conocimiento individual sobre un tema y de las relaciones entre sujetos. Identificación de individuos o grupos aislados. Análisis del flujo del conocimiento. Propagación de la información en base a las características de las organizaciones. Mejora de la efectividad de los canales de información y/o comunica- ción. Análisis de redes sociales informales para la determinación de comportamientos y preferencias. Capítulo 1 Redes sociales El concepto de red social remonta a finales del siglo XVIII, de la mano de Émile Durkheim y Fernindand Tönnies. Según Tönnies las redes sociales son grupos que pueden existir como lazos sociales personales y directos que vinculan a los individuos con aquellos con quienes comparten valores y creencias, o como vínculos sociales formales e instrumentales. Pero Durkheim explicó que los fenómenos sociales surgen cuando los individuos que interac- túan constituyen una realidad que ya no puede explicarse en términos de los atributos individuales de los actores. [22] Aunque era conocido el término de red social, su aparición no data de hace demasiados años. La primera red social en Internet apareció en 1997. Randy Conrads fue el verdadero pionero del servicio, mediante la creación del sitio web que llevaba por nombre “Classmates”, y que consistía en una red social que brindaba la posibilidad de que las personas de todo el mundo pudieran recuperar o continuar manteniendo contacto con sus antiguos ami- gos. En España no es hasta mediados del año 2000 cuando las redes sociales comienzan a popularizarse. En términos teóricos, las redes configuran contextos de comunicación e intercambio entre actores, configuran pautas operativas, normas y valores que condicionan la conducta de los actores en ellas y las posiciones son la clave para entender el comportamiento de los actores en cada red y el desempeño de la red en su conjunto. Para la ciencia, el concepto de red social hace referencia a un conjunto finito de actores y relaciones (emociones, conductas, actitudes, etc) que los vinculan entre sí. Estas relaciones se pueden representar en forma de uno o varios grafos o mediante matrices, en las cuales las filas y columnas represen- 3 4 tan los actores y cada elemento de la matriz toma el valor 1 ó 0 dependiendo si existe relación entre el individuo de la fila i−ésima con el individuo de la columna j−ésima o no respectivamente. Al igual que la máquina de vapor inició la revolución industrial del siglo XX, Internet, acrónimo de INTERconected NETworks (redes interconec- tadas), ha sido la precursora de una nueva revolución conocida como la nueva era digital. Una red que conecta redes de ordenadores entre sí, utilizando un lenguaje común que garantiza la intercomunicación de todos los participan- tes; este lenguaje común o protocolo se conoce como TCP/IP. Los orígenes de internet datan de la década de los años 60 del siglo XX. La primera red interconectada de la historia, basada en el envío de bloques de información digitales (código binario) se creó entre la Universidad de Stan- ford y la Universidad de Ucla. A finales de los 60 y principios de los 70, fue el departamento de defensa de los Estados Unidos el que desarrolló la primera gran red mundial de in- tercomunicación entre ordenadores conocida como Arpanet. Arpanet fue el origen de Internet y funcionaba bajo los primeros protocolos de comunicación que fueron desarrollados específicamente y que constituyen la base del desarrollo de los protocolos modernos TCP/IP en los que se basa la Red actual. A finales de los 80 y principios de los 90, se desarrollaron las herramientas necesarias (hardware y software) para el desarrollo de esta red de redes. Entre ellas debemos destacar el importante papel del código HTML que se ha convertido en un lenguaje universal válido para cualquier plataforma (Windows, Macintosh, Unix, OS/2, etc.) y con cualquier navegador o browser (Netscape, Internet Explorer, Mozilla Firefox, etc.). Es notable también la creación de servidores para los sitios webs, el desarrollo de navegadores válidos para todos los sistemas y que han permitido a cualquier usuario el acceso a Internet con un simple clic de ratón. En esta etapa de proliferación surge lo que hoy en día conocemos como la World Wide Web (WWW o Web). La WWW es un conjunto de protocolos que permite, de forma sencilla, la consulta remota de archivos de hipertexto utilizando Internet como medio de transmisión. Actualmente, la red expe- rimenta cada día la integración de nuevas redes y usuarios, extendiendo su amplitud y dominio, al tiempo que surgen nuevos mercados, tecnologías, insti- tuciones y empresas que aprovechan este nuevo medio, cuyo potencial apenas comenzamos a descubrir. A lo largo de los últimos años se han fundando mi- Análisis Estadísticos con R. Construcción de libros en R. 5 les de nuevas empresas que han diseñado un nuevo modelo de negocio basado en la red, entre ellas podemos citar: google, facebook, yahoo, ebay, wikipedia, etc. Son precisamente estas empresas el objetivo de nuestro estudio. Simultáneamente con el desarrollo de estos nuevos entornos de trabajo y sistemas de comunicación, aparece la necesidad de estudiar y recoger la información que surge del establecimento de este nuevo tipo de relaciones y de los nuevos sistemas de transmisión y gestión del conocimento. La web y el desarrollo de las redes sociales constituyen una fuente inagotable de informa- ción en todos los campos de la ciencia y la investigación y han determinado la creación de nuevas ramas de investigación y análisis, así como el desarrollo de procedimientos que permitan no sólo la recogida de datos sino también su tratamiento. Internet en general y las redes sociales en particular, proporcionan una importante fuente de información y recursos que deben ser considerados en el estudio de evolución de situaciones y que vendrán marcados por el esta- blecimiento de relaciones y conexiones entre los usuarios del sistema.

Load more