Estimação Bayesiana De Pontos Ideais Via Dados Do Twitter
Total Page:16
File Type:pdf, Size:1020Kb
Estimação Bayesiana de Pontos Ideais Via Dados do Twitter Daniela Buarque de Macedo de Souza Universidade Federal do Rio de Janeiro Instituto de Matemática Departamento de Métodos Estatísticos 2017 Estimação Bayesiana de Pontos Ideais Via Dados do Twitter Daniela Buarque de Macedo de Souza Dissertação de Mestrado submetida ao Programa de Pós-Graduação em Estatística do Departamento de Métodos Estatísticos do Instituto de Matemática da Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Mestre em Estatística. Orientadores: Ralph dos Santos Silva Mariane Branco Alves Rio de Janeiro, RJ - Brasil 2017 ii CIP - Catalogação na Publicação Souza, Daniela Buarque de Macedo de S729e Estimação Bayesiana de Pontos Ideais Via Dados do Twitter / Daniela Buarque de Macedo de Souza. -- Rio de Janeiro, 2017. 107 f. Orientador: Ralph dos Santos Silva. Coorientadora: Mariane Branco Alves. Dissertação (mestrado) - Universidade Federal do Rio de Janeiro, Instituto de Matemática, Programa de Pós-Graduação em Estatística, 2017. 1. modelos de espaços latentes. 2. modelos espaciais de votação nominal. 3. modelos de teoria da resposta ao item. 4. pontos ideais. I. Silva, Ralph dos Santos, orient. II. Alves, Mariane Branco, coorient. III. Título. Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a) autor(a). À Deus, à minha família e aos meus amigos. iv “Na majestosa harmonia do Universo e na sua impenetrável grandiosidade, ressalta, eloquente, a presença do amor de Deus." (Divaldo Franco) v Agradecimentos Agradeço primeiramente à Deus, pelo dom da vida, pela minha saúde perfeita e por sempre me amparar em todos os momentos da minha vida. Graças a sua ajuda e seu amparo consegui concluir mais essa etapa da minha vida! Agradeço amorosamente à minha querida e amada família. Aos meus pais, Celia e Manoel, por todo amparo e carinho, por todos os momentos felizes que passamos juntos, pelo apoio incondicional e pelo incentivo aos estudos. À minha irmã Flávia por toda a paciência, cuidado e amor. Vocês são meu alicerce, minha base, meu porto seguro. Eu amo muito vocês e quero que saibam que vocês foram essenciais para a conclusão de mais esse ciclo. Agradeço aos meus queridos amigos, por estarem ao meu lado nos momentos difíceis, por me apoiarem e por me darem força para conseguir chegar até o final. Muito obrigada, amo muito vocês! Agradeço aos meus orientadores Ralph e Mariane, por toda ajuda e paciência e por terem contribuído significativamente para este trabalho. Por fim, agradeço à CAPES pelo apoio financeiro que possibilitou o prosseguimento dos meus estudos. vi Resumo A estimação de variáveis latentes tem sido tema de diversos trabalhos na área da estatística nas últimas décadas. Uma variável latente amplamente estudada pelos cientistas políticos é a posição ideológica. Modelos espaciais de votação nominal, modelos de teoria da resposta ao item e modelos de espaços latentes aplicados às redes sociais são muito utilizados para estimar tais posições ideológicas (pontos ideais). O avanço da tecnologia e o surgimento das redes sociais permitiu a elaboração de modelos mais complexos que permitiram a estimação dos pontos ideais de milhares de indivíduos que não eram necessariamente políticos, como o modelo de Barberá(2015). A presente dissertação teve por objetivo comparar diferentes modelos através de critérios de comparação e propor um novo modelo a partir do modelo de Barberá(2015). Foi conduzido um estudo de simulação baseado em dados artificiais gerados a partir dos modelos propostos, com o intuito de avaliar as estimativas bayesianas dos parâmetros e, em seguida, ajustou-se os três modelos a um conjunto de dados reais referente aos deputados federais e senadores brasileiros. Palavras-Chaves: modelos de espaços latentes; modelos espaciais de votação nominal; modelos de teoria da resposta ao item; pontos ideais. vii Abstract The estimation of latent variables has been the subject of several papers in the area of statistics in the last decades. A latent variable extensively studied by political scientists is political orientation. Spatial models of roll-call voting, item-response theory models, and latent spatial models applied to social networks are widely used to estimate such ideological orientation. The advancement of technology and the emergence of social networks has allowed the development of more complex models that enabled the estimation of the ideal of thousands of individuals who were not necessarily political, Barberá(2015). The present dissertation aims to compare different models through comparison criterion and to propose a new model based on that of Barberá(2015). A simulation study was conducted based on artificial data generated from the proposed models, in order to evaluate Bayesian estimates of parameters, and then the three models were adjusted to a set of real data referring to Brazilian federal deputies and senators. Keywords: latent spatial models; spatial models of roll-call voting; item-response theory models; ideal points. viii Sumário 1 Introdução1 1.1 Redes e era da informação............................2 1.2 Twitter.......................................3 1.3 Correntes ideológicas...............................4 1.4 Motivação.....................................6 1.5 Objetivo......................................6 2 Conceitos preliminares8 2.1 Modelos espaciais de votação nominal......................8 2.2 Grafos....................................... 12 2.3 Redes Sociais................................... 18 2.4 Modelos de espaços latentes........................... 22 3 Revisão de Inferência Bayesiana 24 3.1 Estimação Pontual................................. 25 3.1.1 Estimadores de Bayes.......................... 26 3.1.2 Estimação intervalar........................... 27 3.2 Métodos de Monte Carlo via cadeias de Markov................. 27 3.2.1 Algoritmo de Metropolis-Hastings.................... 28 3.2.2 Amostragem de Gibbs.......................... 29 3.3 Critérios de seleção de modelos......................... 31 3.3.1 Critério de informação do desvio..................... 31 3.3.2 Logaritmo da verossimilhança pseudo marginal............. 32 3.4 Diagnósticos de Convergência.......................... 33 3.4.1 Análise visual............................... 33 3.4.2 Critério de Raftery e Lewis........................ 33 ix 4 Metodologia 35 4.1 Modelos ajustados................................. 35 4.2 Distribuição a posteriori ............................. 38 4.3 Problemas de identificação............................ 38 5 Estudo de Simulação 41 5.1 Análise de sensibilidade............................. 41 5.2 Resultados do estudo............................... 46 5.2.1 Cenário 1................................. 48 5.2.2 Cenário 2................................. 57 5.2.3 Cenário 3................................. 65 5.2.4 Análise dos postos dos θ’s e φ’s..................... 73 5.2.5 Comparação dos modelos........................ 77 6 Aplicação à dados reais 79 6.1 Comparação dos modelos propostos....................... 82 6.2 Resultados das análises.............................. 82 7 Considerações finais 96 A Apêndice A 98 x Lista de Tabelas 5.1 Composição da matriz social para avaliar a influência de µβ........... 42 5.2 Proporção de 1’s em cada quadrante de um determinado conjunto de dados reorganizado com base nos valores verdadeiros dos θ’s e dos φ’s......... 43 5.3 Número máximo de 1’s em cada quadrante da matriz social para calcular as proporções..................................... 44 5.4 Sumário da distribuição a posteriori dos parâmetros γ, θ5, φ5, θ10 e φ10 sob o ajuste do modelo gerador para 5 réplicas de Monte Carlo de cada modelo e para cada valor de µβ.................................. 44 5.5 Número de θ’s e φ’s que obtiveram menor VRM para cada valor de µβ considerado. 45 5.6 Cenários utilizados na implementação do estudo de simulação.......... 46 5.7 Nomes, valores verdadeiros, postos e estatísticas de ordem referentes aos φ’s verdadeiros..................................... 74 6.1 Lista dos perfis que tiveram suas cadeias inicializadas em -1 ou 1........ 80 6.2 Resultados dos critérios de seleção de modelos DIC e LPML para os modelos ajustados...................................... 82 6.3 Estimativas das distribuições a posteriori provenientes do modelo logit com intervalos de credibilidade de 95% referentes aos partidos políticos....... 92 A.1 Lista dos deputados ordenados por partido.................... 99 A.2 Senadores ordenados por partido.......................... 102 A.3 Lista dos atores políticos.............................. 103 xi Lista de Figuras 1.1 Perfil do New York Times no Twitter.......................4 1.2 Escala ideológica latente.............................5 2.1 Funções de utilidade normal e quadrática.................... 11 2.2 Pontes de Königsberg............................... 13 2.3 Grafo G1...................................... 14 2.4 Grafos G2 e G3................................... 16 2.5 Grafos G4 e G5................................... 17 2.6 Rede social e exemplos de grafos possíveis para descrever a rede......... 19 2.7 Estrutura de uma rede social com 4 indivíduos.................. 20 2.8 Estrutura da rede social descrita no Exemplo 2.................. 21 2.9 Estrutura da rede social com 6 indivíduos descrita no Exemplo 2......... 22 4.1 Curvas do inverso das funções de ligações probit, logit e t-Student........ 37 5.1 Máximo, para cada conjunto dado e considerando todos os parâmetros, do número mínimo