Análise Bayesiana De Modelos De Redes Sociais Para Dados Do Twitter No Espaço Bidimensional
Total Page:16
File Type:pdf, Size:1020Kb
Análise Bayesiana de Modelos de Redes Sociais para Dados do Twitter no Espaço Bidimensional Marcos Sousa Goulart Universidade Federal do Rio de Janeiro Instituto de Matemática Departamento de Métodos Estatísticos 2019 Análise Bayesiana de Modelos de Redes Sociais para Dados do Twitter no Espaço Bidimensional Marcos Sousa Goulart Dissertação de Mestrado submetida ao Programa de Pós-Graduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Mestre em Estatística. Orientadores: Ralph dos Santos Silva Marina Silva Paez Rio de Janeiro, RJ - Brasil 2019 ii CIP - Catalogação na Publicação Goulart, Marcos Sousa G694a Análise Bayesiana de Modelos de Redes Sociais para Dados do Twitter no Espaço Bidimensional / Marcos Sousa Goulart. -- Rio de Janeiro, 2019. 91 f. Orientador: Ralph dos Santos Silva. Coorientadora: Marina Silva Paez. Dissertação (mestrado) - Universidade Federal do Rio de Janeiro, Instituto de Matemática, Programa de Pós-Graduação em Estatística, 2019. 1. modelos de espaços latentes. 2. relação unidirecional. 3. posições ideológicas. 4. política. I. Silva, Ralph dos Santos, orient. II. Paez, Marina Silva, coorient. III. Título. Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a) autor(a), sob a responsabilidade de Miguel Romeu Amorim Neto - CRB-7/6283. iv “Direi do Senhor: Ele é o meu Deus, o meu refúgio, a minha fortaleza, e nele confiarei.” (Salmos 91:2) v Agradecimentos Agradeço a Deus em nome do Senhor Jesus, pelos milagres realizados em minha vida, por me sustentar e me capacitar para enfrentar todos os obstáculos advindos deste difícil curso. Agradeço aos meus pais, por todo cuidado e amor que vocês têm para comigo e por sempre me ampararem nos momentos mais difíceis da minha vida, inclusive deste curso. Aos meus tios e primos, do Rio de Janeiro ou de outros estados, que perto ou longe, também me deram apoio nesta difícil jornada. Agradeço aos meus orientadores Ralph e Marina, por toda a atenção, calma e dedicação para comigo nesta dissertação, por retirar as minhas numerosas dúvidas e pelas correções que fizeram neste trabalho visando à sua melhoria. Agradeço à professora Mariane, por aceitar fazer parte da banca desta dissertação de mestrado e pelo curso de Inferência Estatística. Agradeço a estes e aos demais professores da pós-graduação em Estatística da UFRJ, que direta ou indiretamente me ajudaram e me proporcionaram uma base sólida e uma excelente formação. Agradeço ao professor Gustavo Ferreira, da ENCE, meu orientador de Iniciação Científica, cujo tema foi modelos de redes sociais, que me ajudou na maior parte da minha graduação, que me incentivou a prosseguir com os estudos e me ajudou muito a chegar até aqui. Agradeço também por fazer parte da banca desta dissertação de mestrado. Agradeço ao professor Luis Felipe Guedes da Graça, do Departamento de Sociologia e Política da UFSC, pelos comentários que contribuíram neste estudo. Agradeço a todos os meus colegas (quer sejam de Mestrado, quer sejam de Doutorado) que direta ou indiretamente me ajudaram, em especial, ao Márcio, que se formou comigo na ENCE e com quem tive oportunidade de reencontrar na Pós-Graduação em Estatística da UFRJ. Foi amigo de estudo neste meu período de Mestrado com o qual tive contato por boa parte do curso. Agradeço aos professores Lobão, meu orientador de graduação, e Luisa La Croix (ambos da ENCE), por ajudas e dicas que me auxiliaram muito neste curso de Mestrado. Certamente para a escolha de estágio em docência em Séries Temporais, eu me lembrei do curso que tive com o vi Lobão na ENCE. Ao professor Eduardo Campos, que participou da minha banca de trabalho de conclusão de curso da graduação, da ENCE e que também me incentivou a prosseguir com os estudos. Por fim, agradeço à CAPES, pelo apoio financeiro dos meus estudos. vii Resumo A análise de redes tem sido aplicada a diversas áreas do conhecimento, tal como no campo da política. As redes sociais têm apresentado impacto relevante nas campanhas eleitorais, e, assim, modelos de redes sociais têm sido desenvolvidos para estimar as posições ideológicas de políticos e partidos políticos, por exemplo. Barberá(2015), Souza et al.(2017) e Souza(2017) propuseram modelos com base em dados do Twitter e em relações unidirecionais em que o espaço latente é constituído de somente uma dimensão, definida como a ideologia e representado pelo antagonismo entre “esquerda” e “direita”. Trabalhos tais como o de Zucco(2009) definem uma segunda dimensão para representar a dicotomia entre “oposição” e “governo” a partir de modelos espaciais de votações nominais. O principal propósito desta dissertação é, por conseguinte, estender o modelo de Barberá(2015) para um espaço latente com duas dimensões. Será feito um estudo com dados artificiais a fim de se entender o processo de estimação e avaliar se há diferenças expressivas entre os modelos propostos. Em seguida, através de uma aplicação a um conjunto de dados reais, serão estimadas posições ideológicas em um espaço latente bidimensional no contexto brasileiro para deputados federais, senadores e atores políticos com conta no Twitter em julho de 2017. Palavras-chave: modelos de espaços latentes; relação unidirecional; posições ideológicas; política. viii Abstract Network analysis has been applied to several areas such as politics. Social networks have presented a relevant impact in election campaigns, and thus social network models have been developed to estimate the ideological positions of politics and political parties, for instance. Barberá(2015), Souza et al.(2017) and Souza(2017) proposed models on the basis of Twitter data and unidirectional relationships in which the latent space only consists of one dimension, defined as the ideology and represented by the antagonism between “left” and “right”. On other side, Zucco(2009) define a second dimension to represent the dichotomy between “opposition” and “government” based on spatial models of roll-call voting. Therefore, the main purpose of this work is to extend the model of Barberá(2015) to a two-dimensional latent space. A study with artificial data will be conducted in order to understand the estimation process and to assess if there are significant differences between the proposed models. Then, through a real data application, ideological positions will be estimated in a two-dimensional latent space in the Brazilian context for federal deputies, senators and political actors with account on Twitter in July 2017. Keywords: latent space models; unidirectional relationship; ideological positions; politics. ix Sumário 1 Introdução1 1.1 Objetivo......................................5 2 Revisão de Inferência Bayesiana7 2.1 Teorema de Bayes.................................7 2.2 Estimação.....................................8 2.3 Métodos de Monte Carlo via cadeias de Markov.................9 2.3.1 Metropolis-Hastings...........................9 2.3.2 Amostragem de Gibbs.......................... 11 3 Metodologia 13 3.1 Especificação do modelo............................. 13 3.2 Distribuição a posteriori............................. 14 4 Estudo com dados simulados 17 4.1 Dados gerados com uma constante de normalização............... 17 4.1.1 Estimação com uma constante de normalização............. 23 4.1.2 Estimação com duas constantes de normalização............ 29 4.2 Dados gerados com duas constantes de normalização.............. 34 4.2.1 Estimação com uma constante de normalização............. 37 4.2.2 Estimação com duas constantes de normalização............ 43 5 Aplicação a dados reais 49 5.1 Resultados para os atores políticos........................ 55 5.2 Resultados da primeira dimensão para os deputados federais e senadores.... 60 5.3 Resultados da segunda dimensão para os deputados federais e senadores.... 65 x 5.4 Resultados para os partidos............................ 71 6 Considerações finais 78 A Apêndice A 80 B Apêndice B 83 xi Lista de Tabelas 4.1 Média e variância amostrais referentes aos dados simulados das distâncias entre os elementos de Φ e Θ na 1ª e na 2ª dimensão e sua soma............ 20 4.2 Proporção de sucessos e fracassos em relação ao total para cada intervalo de distâncias...................................... 21 4.3 Valores verdadeiros, estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori............................. 26 4.4 Valores verdadeiros, estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori............................. 31 4.5 Proporção de sucessos e fracassos em relação ao total para cada intervalo de distâncias...................................... 35 4.6 Valores verdadeiros, estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori............................. 39 4.7 Valores verdadeiros, estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori............................. 45 5.1 Lista dos partidos cujos usuários e atores políticos do Twitter tiveram, em ambas as cadeias, pelo menos um de seus elementos de Φ ou de Θ com inicialização em -1 ou 1..................................... 51 5.2 Estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori...................................... 54 5.3 Lista dos atores políticos com suas médias e desvios a posteriori......... 56 5.4 Médias a posteriori e intervalos de credibilidade para os usuários (senadores e deputados federais)................................