Estimação Bayesiana de Pontos Ideais Via Dados do Twitter

Daniela Buarque de Macedo de Souza

Universidade Federal do Instituto de Matemática Departamento de Métodos Estatísticos 2017 Estimação Bayesiana de Pontos Ideais Via Dados do Twitter

Daniela Buarque de Macedo de Souza

Dissertação de Mestrado submetida ao Programa de Pós-Graduação em Estatística do Departamento de Métodos Estatísticos do Instituto de Matemática da Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Mestre em Estatística.

Orientadores: Ralph dos Santos Silva Mariane Branco Alves

Rio de Janeiro, RJ - Brasil 2017

ii

CIP - Catalogação na Publicação

Souza, Daniela Buarque de Macedo de S729e Estimação Bayesiana de Pontos Ideais Via Dados do Twitter / Daniela Buarque de Macedo de Souza. -- Rio de Janeiro, 2017. 107 f.

Orientador: Ralph dos Santos Silva. Coorientadora: Mariane Branco Alves. Dissertação (mestrado) - Universidade Federal do Rio de Janeiro, Instituto de Matemática, Programa de Pós-Graduação em Estatística, 2017.

1. modelos de espaços latentes. 2. modelos espaciais de votação nominal. 3. modelos de teoria da resposta ao item. 4. pontos ideais. I. Silva, Ralph dos Santos, orient. II. Alves, Mariane Branco, coorient. III. Título.

Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a) autor(a). À Deus, à minha família e aos meus amigos.

iv “Na majestosa harmonia do Universo e na sua impenetrável grandiosidade, ressalta, eloquente, a presença do amor de Deus."

(Divaldo Franco)

v Agradecimentos

Agradeço primeiramente à Deus, pelo dom da vida, pela minha saúde perfeita e por sempre me amparar em todos os momentos da minha vida. Graças a sua ajuda e seu amparo consegui concluir mais essa etapa da minha vida! Agradeço amorosamente à minha querida e amada família. Aos meus pais, Celia e Manoel, por todo amparo e carinho, por todos os momentos felizes que passamos juntos, pelo apoio incondicional e pelo incentivo aos estudos. À minha irmã Flávia por toda a paciência, cuidado e amor. Vocês são meu alicerce, minha base, meu porto seguro. Eu amo muito vocês e quero que saibam que vocês foram essenciais para a conclusão de mais esse ciclo. Agradeço aos meus queridos amigos, por estarem ao meu lado nos momentos difíceis, por me apoiarem e por me darem força para conseguir chegar até o final. Muito obrigada, amo muito vocês! Agradeço aos meus orientadores Ralph e Mariane, por toda ajuda e paciência e por terem contribuído significativamente para este trabalho. Por fim, agradeço à CAPES pelo apoio financeiro que possibilitou o prosseguimento dos meus estudos.

vi Resumo

A estimação de variáveis latentes tem sido tema de diversos trabalhos na área da estatística nas últimas décadas. Uma variável latente amplamente estudada pelos cientistas políticos é a posição ideológica. Modelos espaciais de votação nominal, modelos de teoria da resposta ao item e modelos de espaços latentes aplicados às redes sociais são muito utilizados para estimar tais posições ideológicas (pontos ideais). O avanço da tecnologia e o surgimento das redes sociais permitiu a elaboração de modelos mais complexos que permitiram a estimação dos pontos ideais de milhares de indivíduos que não eram necessariamente políticos, como o modelo de Barberá(2015). A presente dissertação teve por objetivo comparar diferentes modelos através de critérios de comparação e propor um novo modelo a partir do modelo de Barberá(2015). Foi conduzido um estudo de simulação baseado em dados artificiais gerados a partir dos modelos propostos, com o intuito de avaliar as estimativas bayesianas dos parâmetros e, em seguida, ajustou-se os três modelos a um conjunto de dados reais referente aos deputados federais e senadores brasileiros.

Palavras-Chaves: modelos de espaços latentes; modelos espaciais de votação nominal; modelos de teoria da resposta ao item; pontos ideais.

vii Abstract

The estimation of latent variables has been the subject of several papers in the area of statistics in the last decades. A latent variable extensively studied by political scientists is political orientation. Spatial models of roll-call voting, item-response theory models, and latent spatial models applied to social networks are widely used to estimate such ideological orientation. The advancement of technology and the emergence of social networks has allowed the development of more complex models that enabled the estimation of the ideal of thousands of individuals who were not necessarily political, Barberá(2015). The present dissertation aims to compare different models through comparison criterion and to propose a new model based on that of Barberá(2015). A simulation study was conducted based on artificial data generated from the proposed models, in order to evaluate Bayesian estimates of parameters, and then the three models were adjusted to a set of real data referring to Brazilian federal deputies and senators.

Keywords: latent spatial models; spatial models of roll-call voting; item-response theory models; ideal points.

viii Sumário

1 Introdução1 1.1 Redes e era da informação...... 2 1.2 Twitter...... 3 1.3 Correntes ideológicas...... 4 1.4 Motivação...... 6 1.5 Objetivo...... 6

2 Conceitos preliminares8 2.1 Modelos espaciais de votação nominal...... 8 2.2 Grafos...... 12 2.3 Redes Sociais...... 18 2.4 Modelos de espaços latentes...... 22

3 Revisão de Inferência Bayesiana 24 3.1 Estimação Pontual...... 25 3.1.1 Estimadores de Bayes...... 26 3.1.2 Estimação intervalar...... 27 3.2 Métodos de Monte Carlo via cadeias de Markov...... 27 3.2.1 Algoritmo de Metropolis-Hastings...... 28 3.2.2 Amostragem de Gibbs...... 29 3.3 Critérios de seleção de modelos...... 31 3.3.1 Critério de informação do desvio...... 31 3.3.2 Logaritmo da verossimilhança pseudo marginal...... 32 3.4 Diagnósticos de Convergência...... 33 3.4.1 Análise visual...... 33 3.4.2 Critério de Raftery e Lewis...... 33

ix 4 Metodologia 35 4.1 Modelos ajustados...... 35 4.2 Distribuição a posteriori ...... 38 4.3 Problemas de identificação...... 38

5 Estudo de Simulação 41 5.1 Análise de sensibilidade...... 41 5.2 Resultados do estudo...... 46 5.2.1 Cenário 1...... 48 5.2.2 Cenário 2...... 57 5.2.3 Cenário 3...... 65 5.2.4 Análise dos postos dos θ’s e φ’s...... 73 5.2.5 Comparação dos modelos...... 77

6 Aplicação à dados reais 79 6.1 Comparação dos modelos propostos...... 82 6.2 Resultados das análises...... 82

7 Considerações finais 96

A Apêndice A 98

x Lista de Tabelas

5.1 Composição da matriz social para avaliar a influência de µβ...... 42 5.2 Proporção de 1’s em cada quadrante de um determinado conjunto de dados reorganizado com base nos valores verdadeiros dos θ’s e dos φ’s...... 43 5.3 Número máximo de 1’s em cada quadrante da matriz social para calcular as proporções...... 44

5.4 Sumário da distribuição a posteriori dos parâmetros γ, θ5, φ5, θ10 e φ10 sob o ajuste do modelo gerador para 5 réplicas de Monte Carlo de cada modelo e para

cada valor de µβ...... 44

5.5 Número de θ’s e φ’s que obtiveram menor VRM para cada valor de µβ considerado. 45 5.6 Cenários utilizados na implementação do estudo de simulação...... 46 5.7 Nomes, valores verdadeiros, postos e estatísticas de ordem referentes aos φ’s verdadeiros...... 74

6.1 Lista dos perfis que tiveram suas cadeias inicializadas em -1 ou 1...... 80 6.2 Resultados dos critérios de seleção de modelos DIC e LPML para os modelos ajustados...... 82 6.3 Estimativas das distribuições a posteriori provenientes do modelo logit com intervalos de credibilidade de 95% referentes aos partidos políticos...... 92

A.1 Lista dos deputados ordenados por partido...... 99 A.2 Senadores ordenados por partido...... 102 A.3 Lista dos atores políticos...... 103

xi Lista de Figuras

1.1 Perfil do New York Times no Twitter...... 4 1.2 Escala ideológica latente...... 5

2.1 Funções de utilidade normal e quadrática...... 11 2.2 Pontes de Königsberg...... 13

2.3 Grafo G1...... 14

2.4 Grafos G2 e G3...... 16

2.5 Grafos G4 e G5...... 17 2.6 Rede social e exemplos de grafos possíveis para descrever a rede...... 19 2.7 Estrutura de uma rede social com 4 indivíduos...... 20 2.8 Estrutura da rede social descrita no Exemplo 2...... 21 2.9 Estrutura da rede social com 6 indivíduos descrita no Exemplo 2...... 22

4.1 Curvas do inverso das funções de ligações probit, logit e t-Student...... 37

5.1 Máximo, para cada conjunto dado e considerando todos os parâmetros, do número mínimo de iterações necessárias para atingir a convergência, para cada ajuste...... 47 5.2 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias. As linhas tracejadas em vermelho nos dois primeiros

paineis representam as médias de α e β, respectivamente, µα e µβ. Os modelos logit, probit e t-Student são comparados em cada painel...... 49 5.3 Valores verdadeiros versus valores estimados dos α’s...... 50 5.4 Erro quadrático médio (EQM) e taxa de cobertura dos α’s e dos β’s relativos às 100 réplicas simuladas do modelo logit...... 51

xii 5.5 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias. As linhas tracejadas em vermelho nos dois primeiros

paineis representam as médias de θ e φ, respectivamente, µθ e µφ. Os modelos logit, probit e t-Student são comparados em cada painel...... 52 5.6 Valores verdadeiros versus valores estimados dos θ’s...... 53 5.7 Erro quadrático médio (EQM) e taxa de cobertura dos θ’s e dos φ’s relativos às 100 réplicas simuladas do modelo logit...... 54 5.8 Média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias. A linha tracejada em vermelho representa o valor verdadeiro de γ, 0,8, utilizado para a simulação dos dados logit...... 55 5.9 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias. As linhas tracejadas em vermelho nos dois primeiros ∗ √ ∗ √ ∗ paineis representam as médias de θ = γθ e φ = γφ, respectivamente, µθ ∗ e µφ. Os modelos logit, probit e t-Student são comparados em cada painel.... 56 5.10 Probabilidades de seguimento verdadeiras e estimadas...... 57 5.11 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias. As linhas tracejadas em vermelho nos dois primeiros

paineis representam as médias de α e β, respectivamente, µα e µβ. Os modelos logit, probit e t-Student são comparados em cada painel...... 58 5.12 Valores verdadeiros versus valores estimados dos α’s...... 59 5.13 Erro quadrático médio (EQM) e taxa de cobertura dos α’s e dos β’s relativos às 100 réplicas simuladas do modelo probit...... 60 5.14 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias. As linhas tracejadas em vermelho nos dois primeiros

paineis representam as médias de θ e φ, respectivamente, µθ e µφ. Os modelos logit, probit e t-Student são comparados em cada painel...... 61 5.15 Valores verdadeiros versus valores estimados dos θ’s...... 62 5.16 Erro quadrático médio (EQM) e taxa de cobertura dos θ’s e dos φ’s relativos às 100 réplicas simuladas do modelo probit...... 62

xiii 5.17 Média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias. A linha tracejada em vermelho representa o valor verdadeiro de γ, 0,8, utilizado para a simulação dos dados probit...... 63 5.18 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias. As linhas tracejadas em vermelho nos dois primeiros ∗ √ ∗ √ ∗ paineis representam as médias de θ = γθ e φ = γφ, respectivamente, µθ ∗ e µφ. Os modelos logit, probit e t-Student são comparados em cada painel.... 64 5.19 Probabilidades de seguimento verdadeiras e estimadas...... 65 5.20 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias. As linhas tracejadas em vermelho nos dois primeiros

paineis representam as médias de α e β, respectivamente, µα e µβ. Os modelos logit, probit e t-Student são comparados em cada painel...... 66 5.21 Valores verdadeiros versus valores estimados dos α’s...... 67 5.22 Erro quadrático médio (EQM) e taxa de cobertura dos α’s e dos β’s relativos às 100 réplicas simuladas do modelo t-Student...... 68 5.23 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias. As linhas tracejadas em vermelho nos dois primeiros

paineis representam as médias de θ e φ, respectivamente, µθ e µφ. Os modelos logit, probit e t-Student são comparados em cada painel...... 69 5.24 Valores verdadeiros versus valores estimados dos θ’s...... 70 5.25 Erro quadrático médio (EQM) e taxa de cobertura dos θ’s e dos φ’s relativos às 100 réplicas simuladas do modelo t-Student...... 70 5.26 Média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias. A linha tracejada em vermelho representa o valor verdadeiro de γ, 0,8, utilizado para a simulação dos dados t-Student...... 71

xiv 5.27 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias. As linhas tracejadas em vermelho nos dois primeiros ∗ ∗ ∗ ∗ paineis representam as médias de θ e φ , respectivamente, µθ e µφ. Os modelos logit, probit e t-Student são comparados em cada painel...... 72 5.28 Probabilidades de seguimento verdadeiras e estimadas...... 73 5.29 Média dos postos das médias a posteriori (círculo) dos θ’s e φ’s e intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas dos postos das médias a posteriori produzidas através do ajuste dos dados logit aos três modelos.... 75 5.30 Média dos postos das médias a posteriori (círculo) dos θ’s e φ’s e intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas dos postos das médias a posteriori produzidas através do ajuste dos dados probit aos três modelos... 76 5.31 Média dos postos das médias a posteriori (círculo) dos θ’s e φ’s e intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas dos postos das médias a posteriori produzidas através do ajuste dos dados t-Student aos três modelos.. 76 5.32 Porcentagem de vezes que o modelo gerador dos dados foi identificado correta- mente com base nos critérios DIC e LPML, para 100 replicações do modelo logit, probit e t-Student. As abscissas correspondem aos conjuntos de dados e as legendas aos modelos que foram ajustados...... 77

6.1 Resultados do critério de Raftery e Lewis(1992) para cada modelo, obtidos com base no ajuste do conjunto de dados reais aos três modelos...... 81 6.2 Comparação entre as estimativas dos pontos ideais produzidas pelo algoritmo IDEAL, referentes à primeira dimensão, e as produzidas pelos modelos logit, probit e t-Student que utilizam os dados do Twitter...... 81 6.3 Pontos ideais estimados e intervalos de credibilidade de 95% para os deputados federais cujas estimativas são menores que -1...... 84 6.4 Pontos ideais estimados e intervalos de credibilidade de 95% para os deputados federais cujas estimativas entre -1 e 1 - Parte 1...... 85 6.5 Pontos ideais estimados e intervalos de credibilidade de 95% para os deputados federais cujas estimativas entre -1 e 1 - Parte 2...... 86 6.6 Pontos ideais estimados e intervalos de credibilidade de 95% para os deputados federais cujas estimativas entre -1 e 1 - Parte 3...... 87 6.7 Pontos ideais estimados e intervalos de credibilidade de 95% para os deputados federais cujas estimativas entre -1 e 1 - Parte 4...... 88

xv 6.8 Pontos ideais estimados e intervalos de credibilidade de 95% para os deputados federais cujas estimativas são maiores que 1...... 89 6.9 Pontos ideais estimados e intervalos de credibilidade de todos os senadores... 91 6.10 Pontos ideais estimados e intervalos de credibilidade de todos os partidos.... 93 6.11 Pontos ideais estimados e intervalos de credibilidade de todos os atores políticos. 95

xvi Capítulo 1

Introdução

A estimação de variáveis latentes tem sido tema de diversos trabalhos na área da estatística nas últimas décadas. São chamadas de variáveis latentes as variáveis que não podem ser observadas diretamente, mas que podem ser inferidas por meio de variáveis diretamente observáveis (Martin et al., 2014). As variáveis nível socioeconômico, inteligência e posição ideológica são exemplos de variáveis latentes. Por exemplo, para medir a variável nível socieconômico será preciso utilizar variáveis observáveis tais como o nível de escolaridade ou renda. Uma variável latente amplamente estudada pelos cientistas políticos é a posição ideológica. De acordo com Freeden(2013), a posição ideológica é um conjunto de ideias, crenças, opiniões e valores que definem a forma de pensamento político de um indivíduo ou de um determinado grupo de indivíduos. Já que não é possível medir diretamente essa variável, será preciso observar variáveis que permitam estimar essa quantidade. Nesse caso, um bom exemplo de variável é o voto, que informa em qual partido ou candidato o indivíduo votou nas últimas eleições. Os estudiosos da área de ciência política sempre buscaram métodos que os auxiliassem a melhor compreender a decisão de voto de um indivíduo e uma das teorias utilizadas nesse processo foi a teoria espacial do voto, proposta por Downs(1957). Essa teoria parte do pressuposto de que o eleitor se comporta, diante de uma urna, como um consumidor no mercado. Ou seja, os eleitores possuem uma visão racional, em termos de custo benefício, que os faz eleger a alternativa que maximize seu bem estar. Os eleitores possuem um número finito de alternativas entre as quais eleger, e de acordo com as suas preferências individuais, escolhem aquela que lhes proporciona maior grau de satisfação ou utilidade. Fazendo uma analogia com o mercado, pode-se pensar que os partidos oferecem diferentes “produtos” ou programas e os eleitores são os consumidores (Otero et al., 2012). Assim como no mercado os consumidores tendem a comprar os produtos que mais lhe agradam, na política os votantes tendem a eleger

1 partidos ou candidatos que possuam preferências políticas próximas às deles. Portanto, o modelo espacial proposto por Downs(1957) assume que cada indivíduo vota de acordo com a distância existente entre a sua posição ideológica e as posições ideológicas dos partidos ou candidatos. Modelos de espaços latentes para redes de conectividade (Hoff et al., 2002), e modelos similares aos de teoria da resposta ao item, como os modelos espaciais de votação nominal (Clinton et al., 2004), têm sido muito utilizados para estimar as posições ideológicas de usuários comuns e de atores políticos. Os atores políticos são indivíduos ou grupos de indivíduos que exercem forte influência sobre as preferências políticas dos usuários comuns. No mundo atual, os principais jornais e revistas influenciam de maneira considerável a opinião política do cidadão. Por isso, além dos partidos políticos e dos políticos, esses últimos também são considerados atores políticos, ou como o próprio nome diz, formadores de opinião. Os modelos de espaços latentes investigam a relação entre os elementos da rede de conectividade e os modelos espaciais de votação nominal analisam o comportamento dos parlamentares nas votações nominais. As votações nominais são votações em que os membros de uma instituição política (assembleias, congressos, câmara dos deputados, etc) podem votar contra ou a favor um determinado projeto de lei. Os votos sim e não representam as alternativas políticas dos votantes, pois em uma votação eles têm a opção de votar a favor ou contra ao que está sendo proposto. O principal problema em utilizar as votações nominais como fonte de informação é que só é possível estimar as posições ideológicas dos indivíduos que participam dessas votações, ou seja, de determinados políticos. Com o passar dos anos, os pesquisadores passaram a ter interesse em estimar também as posições ideológicas de usuários comuns, partidos políticos, jornais e revistas, então foi necessário buscar outras fontes de dados e modelos que permitissem essa estimação. O avanço da tecnologia e o surgimento das redes sociais permitiu a elaboração desses modelos, como por exemplo o modelo de Barberá(2015), que servirá como base para os modelos adotados nesta dissertação. Nesta dissertação, é crucial entender como funciona a rede social chamada Twitter, conhecer as principais correntes ideológicas e reconhecer a importância das redes nos tempos atuais. Por isso, nas próximas subseções esses conceitos serão apresentados a fim de facilitar a leitura do texto.

1.1 Redes e era da informação

Há muitos anos, fala-se em redes de informação, redes de transporte, redes biológicas e redes elétricas. Uma rede é definida como um conjunto de elementos interligados através de conexões.

2 Esses elementos podem ser objetos, indivíduos, animais, etc. Nunca se ouviu falar tanto em “rede” como nos dias atuais, devido às chamadas redes sociais. Vivemos na era da informação e a cada momento somos surpreendidos com novas notícias, tecnologias e informações. Como já se sabe, a rede mundial de computadores - chamada de internet - se tornou a principal fonte de informação da atualidade. Com seu avanço em meados dos anos 90, descobriu-se as vantagens de uma comunicação imediata e passou-se a buscar formas de se comunicar mais rapidamente. Dentro da internet existem diversos sítios que facilitam a comunicação entre as pessoas, que são as redes sociais. Uma rede social é definida como um conjunto de elementos - indivíduos, grupos de indivíduos e organizações - também chamados de atores, que estão conectados por um ou vários tipos de relações que podem ser relações de amizade, parentesco, crenças religiosas, etc (Ferreira, 2011). Segundo Kadushin(2013), um dos princípios fundamentais para compreender as redes sociais é a homofilia. De acordo com Lazarsfeld et al.(1954), a homofilia é tendência dos indivíduos em se relacionar com indivíduos semelhantes, seja com respeito a crenças, classe social, idade, educação, etc. Esse princípio supõe que se duas pessoas têm características semelhantes elas são mais prováveis de estarem conectadas do que duas pessoas que não apresentam semelhanças. A recíproca também é verdade, isto é, se duas pessoas estão conectadas então é provável que elas tenham características ou atributos comuns. O princípio da homofilia se aplica a grupos, organizações, países e outras unidades sociais. Em uma grande variedade de estudos sobre rede, pode-se encontrar o princípio da homofilia. As redes sociais influenciam a maneira como as pessoas se comunicam entre si, com os políticos ou com empresas. Elas têm tido um papel chave nas campanhas eleitorais, porque muitos políticos e partidos políticos as têm visto como um meio para promover a sua imagem, seja compartilhando informações, falando ou criando uma relação mais direta com os eleitores. Devido à importância das redes sociais na política, muitos pesquisadores as consideram, atualmente, como um ambiente repleto de informações relevantes. Um exemplo destas redes é o Twitter1 - uma rede social muito utilizada em vários países.

1.2 Twitter

Atualmente, o Twitter possui 320 milhões de usuários ativos, mensalmente, em todo mundo2. O Twitter é uma rede social e servidor de mensagens curtas que permite aos usuários ler e postar

1https://twitter.com/ 2Fonte: https://about.twitter.com/company

3 mensagens com no máximo 140 caracteres. Estas mensagens curtas são denominadas tweets. O princípio básico do Twitter é permitir que as pessoas saibam o que as outras estão pensando ou fazendo. É permitido postar imagens animadas (em formato GIF) e fotos, ambas de até 5MB, e vídeos de até 512MB. No Brasil, o Twitter tem sido muito utilizado por políticos, celebridades, empresas e por diversos usuários que almejam uma comunicação rápida. O Twitter não é uma rede social difícil de se utilizar. Os usuários se comunicam através dos tweets, retweets, mentions, replies, hastags e mensagens diretas. Nesta dissertação, não se define todos estes recursos pois alguns deles não são considerados na análise estatística. Para utilizar o Twitter, é necessário escolher um nome de usuário, que é precedido pelo símbolo “@”. A identificação (ou o perfil) do usuário do Twitter é dada por seu nome de usuário. Por exemplo, na Figura 1.1 temos o perfil do jornal norte-americano New York Times no Twitter, cujo nome de usuário é “@nytimes”.

Figura 1.1: Perfil do New York Times no Twitter.

Observe que na Figura 1.1 consta o número de tweets escritos (245K, i.e 245 mil), a quantidade de followings (972) e followers (29.6M, i.e 29,6 milhões) do jornal. Para esta dissertação, é essencial entender a diferença entre followers e followings. Suponha que Maria (@maria), Bruno (@bruno) e Carlos (@carlos), três pessoas fictícias, sejam usuários do Twitter. Se Maria escolhe seguir Bruno e Carlos no Twitter, diz-se que os followings (“amigos”) de Maria são Bruno e Carlos. Maria, que os segue, é denominada follower (“seguidora”) deles. Assim, o perfil do New York Times possui 972 amigos (followings) e aproximadamente 29,6 milhões de seguidores (followers).

1.3 Correntes ideológicas

Nos sistemas políticos democráticos, os termos “direita” e “esquerda” são muito utilizados para classificar ou definir as posições ideológicas de partidos políticos, de políticos e de indivíduos. Existe também o termo “centrista”, que é utilizado para classificar indivíduos ou

4 partidos políticos que apresentam características tanto de direita quanto de esquerda. Entender a diferença entre esses dois termos ajuda a compreender o comportamento de um indivíduo na hora da eleição ou a preferência por uma determinada proposta política. Os modelos espaciais de votação nominal, que serão descritos no Capítulo 2, assumem que as alternativas políticas (resultados das votações nominais) podem ser representadas como pontos em um espaço euclidiano - uma linha, plano ou hiperplano. Os legisladores, por sua vez, possuem preferências políticas definidas sobre essas alternativas. De acordo com McCarty (2011), as preferências políticas são de pico único (single-peakdness) e por isso, diante de todas as alternativas políticas possíveis, apenas uma é a preferida do legislador. Essa alternativa preferida é chamada de ponto ideal ou posição ideológica do legislador. Alguns autores assumem que a posição ideológica é uma variável bidimensional e outros, como Poole e Rosenthal(2000) consideram que ela é uma variável unidimensional. Por opção, assume-se nesta dissertação que a posição ideológica é uma variável unidimensional e que possui uma representação sobre uma reta real, que também é chamada de escala latente. O ponto ideal, já mencionado anteriormente, é a representação da posição ideológica sobre a reta real. A Figura 1.2 exibe um exemplo desta escala ideológica.

Extrema Extrema Esquerda Esquerda Centro Direita Direita

- - 0 + +

Figura 1.2: Escala ideológica latente.

Em geral, assume-se que a posição ideológica de direita é representada pelos valores positivos e a posição ideológica de esquerda pelos valores negativos. É possível definir o contrário, mas essa convenção é utilizada nesta dissertação. Note que existem os termos extrema direita e extrema esquerda na escala ideológica latente, além dos termos esquerda, direita e centro. Esses dois termos foram criados por cientistas políticos para se referir aos indivíduos que possuem posições ideológicas mais extremas. No contexto desta dissertação, isso significa dizer que existem indivíduos com pontos ideais bem maiores do que outros (ou bem menores do que outros) e por isso eles serão tratados como indivíduos mais extremos.

5 1.4 Motivação

A principal motivação para a construção desta dissertação foi o interesse em avaliar a eficiência do modelo proposto por Barberá(2015) utilizando dados referentes ao Brasil e propor possíveis modificações em seu modelo que possam contribuir para a literatura da área. Uma rede social como o Twitter, que engloba uma enorme quantidade de informações a respeito de pessoas comuns, permite a estimação das posições ideológicas de usuários que não são necessariamente políticos e é por isso que o modelo proposto por Barberá(2015) é tão interessante. Através dos dados do Twitter, será possível estimar, por exemplo, as posições ideológicas dos principais jornais e revistas do Brasil que possuam uma conta no Twitter. Usando as estimativas das posições ideológicas dos deputados e senadores brasileiros que fazem parte de um determinado partido, será possível estimar também a posição ideológica do partido. No cenário brasileiro, pesquisadores do Núcleo de Estudos sobre o Congresso (NECON) da Universidade Estadual do Rio de Janeiro utilizaram as votações nominais de 2011 a 2014 para estimar as posições ideológicas dos deputados federais e dos senadores brasileiros em um estudo realizado em 2014. Os resultados do NECON podem ser utilizados para fins de comparação com os resultados obtidos pela metodologia proposta por Barberá(2015) aplicado ao contexto brasileiro.

1.5 Objetivo

O principal objetivo desta dissertação é estudar o modelo proposto por Barberá(2015), que é baseado na função de ligação logit. Existe o interesse em estudar suas propriedades e duas possíveis modificações (função de ligação probit e t-Student). Além disso, deseja-se comparar as estimativas obtidas através de três modelos, que diferem apenas pela função de ligação, para verificar se existem diferenças significativas entre eles. Serão utilizados dois critérios de seleção de modelos: o critério de informação do desvio (DIC, “Deviance Information Criterion”) e o logaritmo da verossimilhança pseudo marginal (LMPM,“Logarithm of the Pseudo Marginal Likelihood”). Outro objetivo desta dissertação é estimar e analisar as posições ideológicas dos deputados federais, dos senadores e dos atores políticos do cenário brasileiro que possuem uma conta no Twitter. Além da Introdução, a presente dissertação é dividida em seis capítulos e um apêndice. No Capítulo 2, é apresentado um resumo sobre modelos espaciais de votação nominal, teoria de

6 grafos e modelos de espaço latentes aplicados às redes. No Capítulo 3, é apresentado um breve resumo sobre inferência bayesiana, método de Monte Carlo via Cadeias de Markov (MCMC), critérios de convergência e critérios de seleção de modelos. No Capítulo 4, é apresentado o modelo proposto por Barberá(2015), seus respectivos problemas de identificação e suas respectivas modificações. No Capítulo 5, são apresentados os resultados obtidos através de um estudo de simulação e, no Capítulo 6, são apresentados os resultados obtidos a partir da aplicação dos modelos a um conjunto de dados reais do Twitter. Finalmente, no Capítulo 7, são apresentadas as conclusões e as futuras investigações no contexto deste trabalho.

7 Capítulo 2

Conceitos preliminares

O modelo proposto por Barberá(2015) que será apresentado no Capítulo4 é similar aos modelos espaciais de votação nominal (Clinton et al., 2004), aos modelos de teoria da resposta ao item (Masters et al., 1997) e aos modelos de espaços latentes aplicados às redes sociais (Hoff et al., 2002). Então, alguns desses modelos serão apresentados neste capítulo com a finalidade de ajudar o leitor a compreender a composição do modelo de Barberá(2015). Também serão apresentados alguns conceitos referentes a grafos pois eles fazem parte do contexto desses modelos.

2.1 Modelos espaciais de votação nominal

Nesta seção, são apresentados alguns termos e conceitos relacionados aos modelos espaciais de votação nominal. Todas as informações referentes a essa seção foram baseadas em Poole (2005). Ao se utilizar votações nominais, dois modelos são amplamente conhecidos na estimação dos pontos ideais: o modelo NOMINATE, proposto por Poole e Rosenthal(2000) e o modelo IDEAL (Clinton et al., 2004). Estes se baseiam no modelo espacial do voto, proposto por Downs (1957), e assumem que cada legislador é representado por um ponto no espaço euclidiano e cada votação nominal é representada por dois pontos - um que corresponde à alternativa sim e outro que corresponde à alternativa não. Em ambos os modelos é suposto que os legisladores votam de maneira sincera, ou seja, assume-se que os legisladores votam na alternativa política mais próxima dos seus pontos ideais (Carroll et al., 2013). De acordo com os modelos NOMINATE e IDEAL, cada legislador é descrito por uma função de utilidade aleatória proposta por McFadden(1973). A utilidade de um legislador é

8 definida como o benefício obtido por ele, após tomar uma determinada decisão. A função de utilidade aleatória assume que a utilidade em escolher uma determinada alternativa política (sim ou não) é descrita por uma porção determinística, função da proximidade entre o ponto ideal do legislador e o ponto associado à alternativa política escolhida, além de uma componente que representa a porção aleatória da função utilidade. Suponha que existem p legisladores e q votações nominais, indexados por i = {1, ...p} e j = {1, ..., q}, e assuma que cada votação nominal só possui dois resultados possíveis, sim e não, indexados por k = {s, n}. A estrutura geral da função de utilidade é dada por:

Uijk = G(xi,Ojk) + ijk

= uijk + ijk,

sendo G uma função monótona decrescente da distância entre o ponto ideal do legislador e o

ponto associado à alternativa política. A parcela uijk = G(xi,Ojk) é a porção determinística e

ijk é a porção aleatória da função utilidade. Formalmente, seja xi o ponto ideal do legislador

i, Ojs o ponto no espaço associado à alternativa sim na votação nominal j e Ojn o ponto no espaço associado à alternativa não na votação nominal j. É importante notar que a função G é descrecente, pois o modelo parte do pressuposto que quanto maior a distância entre o ponto ideal do legislador e a alternativa política escolhida, menor é a função utilidade. As funções de utilidade do legislador i ao votar sim ou não são dadas por:

Uijs = uijs + ijs, e

Uijn = uijn + ijn.

sendo ijs e ijn as porções aleatórias das funções de utilidade ao votar sim ou não, respectiva- mente.

O legislador i vota sim, se e somente se, Uijs > Uijn, isto é, se a utilidade obtida votando sim for maior que a utilidade obtida votando não. De maneira equivalente, diz-se que o legislador i vota sim se Uijs − Uijn > 0. A diferença entre as funções de utilidade do legislador i ao votar sim e não é:

Uijs − Uijn = uijs − uijn + ijs − ijn.

Pela diferença entre as funções de utilidade é possível notar que o legislador i vota sim se a diferença entre as porções determinísticas é maior que a diferença entre as porções aleatórias, ou

9 seja, se uijs − uijn > ijn − ijs e vota não se a diferença entre componentes determinísticas é menor que a diferença entre as componentes aleatórias, ou seja, se uijs − uijn < ijn − ijs. Para calcular a probabilidade que o legislador vote sim ou não em determinada votação nominal é necessário assumir uma forma funcional para as porções aleatórias (erros). Assuma que Yij = 1 se o legislador i vota sim na votação nominal j e Yij = 0 caso contrário. As probabilidades são definidas por:

P (Legislador i vote sim na votação j) =P (Yij = 1)

=P (Uijs − Uijn > 0)

=P (ijn − ijs < uijs − uijn), e

P (Legislador i vote não na votação j) =P (Yij = 0)

=P (Uijs − Uijn < 0)

=P (ijn − ijs > uijs − uijn).

Os modelos NOMINATE e IDEAL apresentam uma diferença. Ela está na distribuição assumida para as porções aleatórias (erros) e na forma funcional assumida para a porção determinística da função utilidade. As duas formas funcionais mais utilizadas para a função de utilidade determinística são a Gaussiana e a quadrática. O método NOMINATE também é chamado de modelo de utilidade gaussiano pois assume uma função de utilidade determinística gaussiana. Já o método IDEAL é chamado de modelo de utilidade quadrático pois assume uma função de utilidade quadrática. A Figura 2.1 apresenta o gráfico das funções de utilidade determinísticas gaussiana e quadrática. Note que as funções são muito semelhantes na região em que ambas são côncavas, mas apresentam algumas diferenças nas caudas. Nas caudas, sob a utilidade gaussiana, a perda marginal na utilidade diminui até convergir para um valor fixo (geralmente zero) e sob a utilidade quadrática, a perda marginal na utilidade aumenta a uma taxa crescente. Pode-se afirmar, portanto, que sob a utilidade gaussiana os legisladores estão mais dispostos a apoiar uma alternativa política mais distante do ponto ideal, se comparado à utilidade quadrática.

10 1.0 0.8 0.6 Utilidade 0.4 0.2 0.0

−3 −2 −1 0 1 2 3

Posição Ideológica

Figura 2.1: Funções de utilidade normal e quadrática. As linhas apresentam as funções de utilidade determinística normal (linha sólida) e quadrática (linha tracejada) para um eleitor com ponto ideal 0.

O modelo IDEAL assume que a forma funcional da parte determinística é descrita por uma função quadrática e que a diferença entre os erros tem distribuição normal padrão, isto é,

ijn − ijs ∼ N(0, 1). As funções de utilidade do legislador i, ao votar sim ou não, são dadas por:

Quad 2 Uijs = −kxi − Ojsk + ijs, Quad 2 Uijn = −kxi − Ojnk + ijn.

2 2 Note que no caso univariado, kxi − Ojsk = (xi − Ojs) e a probabilidade que o legislador i vote sim na votação nominal j é:

11 P (Yij = 1) =P (Uijs − Uijn > 0)

=P (ijn − ijs < uijs − uijn) 2 2 =P (ijn − ijs < −(xi − Ojs) + (xi − Ojn) ) 2 2 2 2 =P (ijn − ijs < −(xi − 2xiOjs + Ojs) + (xi − 2xiOjn + Ojn) 2 2 =P (ijn − ijs < 2xi(Ojs − Ojn) − (Ojs − Ojn))

=Φ(βjxi − αj),

2 2 sendo βj = 2(Ojs − Ojn), αj = (Ojs − Ojn) e Φ(.) a função de distribuição normal padrão.

Esse modelo é equivalente ao modelo de Lord(1952), sendo βj o parâmetro de discriminação

do item e αj o parâmetro de dificuldade do item, mas no contexto das votações nominais o traço

latente (habilidade) xi representa o ponto ideal do i-ésimo legislador. O modelo NOMINATE assume que a forma funcional da parte determinística é descrita por uma função normal e que a diferença entre os erros tem distribuição logística, isto é,

ijn − ijs ∼ L(0, 1). As funções de utilidade do legislador i ao votar sim ou não são dadas por:

1 U Norm = β exp{− w2kx − O k2} +  ijs 2 i js ijs 1 U Norm = β exp{− w2kx − O k2} +  ijn 2 i jn ijn sendo β e w constantes. A probabilidade que o legislador i vote sim na votação nominal j é:

P (Yij = 1) =P (Uijs − Uijn > 0) = P (ijn − ijs < uijs − uijn) Z uijs−uijn e−z = −z 2 dz. −∞ (1 + e ) Esse modelo é equivalente ao modelo de Birnbaum(1968).

2.2 Grafos

Nesta seção, são apresentados alguns termos e conceitos relacionados à teoria de grafos, com base em Kolaczyk e Csárdi(2014). A teoria de grafos é uma área da matemática que estuda as relações entre os objetos de uma coleção. O início dessa teoria se deu em 1736, quando Leonhard Euler solucionou o

12 “problema das pontes de Königsberg", também conhecido como o “problema das setes pontes de Königsberg". Königsberg (atual Kaliningrado, Rússia) era uma cidade da Prússia Oriental. Por esta cidade passava o rio Pregel, que dividia a cidade em 4 áreas distintas, como pode ser visto na Figura 2.2.

Figura 2.2: Pontes de Königsberg.

Pela figura, é possível notar que as áreas da cidade eram unidas por sete pontes e por isso, para se deslocar de uma área para outra, pelo menos uma das pontes teria que ser utilizada. Muitos pesquisadores da época tinham interesse em descobrir se existia uma maneira de partir de um determinado ponto da cidade, passar pelas sete pontes uma única vez e depois retornar ao mesmo ponto de partida. O interesse deles consistia em descobrir se existia um caminho que obedecesse a tais condições. Leonhard Euler foi quem provou que tal caminho não existia. Para conseguir responder a essa questão, Euler substituiu cada área por um ponto e cada ponte por uma linha, criando um diagrama, denominado grafo. Um grafo se representa graficamente como um conjunto de pontos (chamados vértices ou nós) que são unidos por linhas (arestas). A teoria de grafos encontra aplicação em diversas áreas da ciência, como física, química, tecnologias de comunicação, computação, etc. Os grafos são muito utilizados na resolução de diversos problemas, pois eles têm um enorme poder de concisão e representação da realidade.

Um grafo G = (VG,EG) é uma estrutura matemática composta por dois conjuntos finitos, o

conjunto de vértices VG e o conjunto de arestas EG. Se o grafo G tem n vértices e m arestas,

tem-se que VG = {v1, v2, ..., vn} e EG = {e1, e2, ..., em}, sendo ek = {vi, vj}, com k = 1, ..., m

e i, j = 1, ..., n. Os vértices vi e vj são denominados extremos de ek.

Diz-se que os vértices vi e vj de G são adjacentes se existe uma aresta ek ∈ EG que relaciona

esses dois vértices. Se realmente existe essa aresta ek que relaciona esses dois vértices, diz-se

13 também que vi e vj são incidentes sobre a aresta ek. Os pares de vértices que não são adjacentes são denominados independentes. Duas arestas são ditas adjacentes se elas são incidentes sobre o mesmo vértice e são ditas paralelas se elas possuem o mesmo vértice inicial, o mesmo vértice final e a mesma orientação.

Diz-se que as arestas ek = {vi, vj} e fk = {vr, vs} são arestas independentes se não possuem nenhum vértice em comum, isto é, se {vi, vj} ∩ {vr, vs} = ∅. Uma aresta é denominada laço se ela começa e termina no mesmo vértice. A aresta do tipo {vi, vi} é denominada laço. Os conceitos de incidência e adjacência são importantes para estudar as relações entre os elementos do grafo.

Na Figura 2.3 apresenta-se o grafo G1 para exemplificar os conceitos abordados até aqui.

O grafo G1 possui quatro vértices, v1, v2, v3 e v4, e sete arestas e1 = {v1, v2}, e2 = {v1, v2}, e3 = {v2, v3}, e4 = {v3, v3}, e5 = {v3, v4}, e6 = {v4, v4} e e7 = {v4, v1}. Observando este grafo pode-se dizer que v1 e v2 são exemplos de vértices adjacentes e que ambos são incidentes sobre as arestas e1 e e2. Os vértices v1 e v3 são independentes pois não existe uma aresta em

EG1 que liga diretamente esses dois vértices. As arestas e5 e e7 são ditas adjacentes pois elas incidem sobre o mesmo vértice v4 e as arestas e3 e e7 são ditas independentes pois elas não incidem sobre os mesmos vértices, e consequentemente, não apresentam nenhum vértice em comum.. As arestas e1 e e2 são ditas paralelas pois elas possuem o mesmo vértice inicial e o mesmo vértice final. O grafo ainda apresenta dois laços, representados pelas arestas e4 e e5.

v2 v3 e3 e4

e2 e1 e5

e6 e7 v1 v4

Figura 2.3: Grafo G1.

A ordem de um grafo G é dada pelo número de vértices do conjunto VG, ou seja, |VG|, e o tamanho do grafo G é dado pelo número de arestas no conjunto EG, ou seja, |EG|. Pela Figura

2.3 pode-se observar que a ordem de G1 é quatro, pois o grafo tem quatro vértices e o tamanho de G1 é sete, pois ele tem sete arestas.

O grau de um vértice v em G, denotado por dG(v), é dado pelo número de arestas incidentes in nele. O grau de entrada do vértice v, denotado por dG (v), é igual ao número de arestas que out entram nele e o grau de saída, denotado por dG (v), é dado pelo número de arestas que saem

14 dele. Só tem sentido falar em grau de entrada e grau de saída quando o grafo é direcionado, conceito que será abordado mais tarde. Quando nenhuma aresta incide sobre um determinado vértice v, ou seja, quando o grau do vértice v é 0, ele é denominado de vértice isolado. Pela

Figura 2.3 é possível obter o grau de cada vértice de G1: dG1 (v1) = 3, dG1 (v2) = 3, dG1 (v3) = 4

e dG1 (v4) = 4. O grafo G1 não possui nenhum vértice isolado.

Tipos de grafos

Um grafo é denominado simples se não possui arestas paralelas nem laços e é denominado

multigrafo se possui uma dessas características. Um exemplo de grafo simples é o grafo G2

representado na Figura 2.4a. Como exemplo de multigrafo tem-se o grafo G1, apresentado na Figura 2.3. Um grafo dirigido G, também chamado de dígrafo, é um grafo no qual todas as arestas em

EG possuem uma direção definida, isto é, cada aresta ek está identificada por um par ordenado

(vi, vj) de vértices ao invés de um par não ordenado {vi, vj}. Em um grafo dirigido, o conjunto

de arestas é formado apenas de pares ordenados. Neste grafo, a aresta (vi, vj) é diferente da

aresta (vj, vi) para todo vi, vj ∈ V . O primeiro vértice do par é denominado vértice de origem e o

segundo vértice de chegada. Um exemplo de grafo dirigido é o grafo G2, representado na Figura

2.4a. Note que todas as arestas de G2 possuem uma direção. O grafo possui quatro vértices, v1,

v2, v3 e v4, e quatro arestas e1 = (v1, v2), e2 = (v2, v3), e3 = (v3, v4) e e4 = (v4, v1).

Um grafo não dirigido é um grafo no qual todas as arestas em EG não possuem uma direção

definida. Um exemplo de grafo não dirigido é o grafo G1, representado na Figura 2.3, pois todas

as arestas de G1 não possuem uma direção, ou seja, o conjunto EG1 é formado por pares não ordenados de vértices.

Um grafo H = (VH ,EH ) é um subgrafo de outro grafo G = (VG,EG) se todos os vértices e

todas as arestas de H pertencem a G, ou seja se VH ⊆ VG e EH ⊆ EG. Analisando as Figuras 2.3

e 2.4b tem-se que VG1 = {v1, v2, v3, v4}, EG1 = {e1, e2, e3, e4, e5, e6, e7}, VG3 = {v1, v2, v3} e

EG3 = {e1, e2}. Como VG3 ⊆ VG1 e EG1 ⊆ EG3 diz-se que G3, representado na Figura 2.4bé

um subgrafo de G1.

15 v2 v3 v2 v3 e2 e2

e1 e3 e1

e4 v1 v4 v1

(a) Grafo G2: Grafo simples e dirigido. (b) Grafo G3: Subgrafo não dirigido.

Figura 2.4: Grafos G2 e G3.

Um grafo é denominado regular quando todos os seus vértices têm o mesmo grau. Assim,

diz-se que um grafo é r-regular se dG(v) = r para todo vértice v em VG. O grafo G2 é um

exemplo de grafo regular. O grafo G2 é denominado 2-regular pois todos os seus vértices têm grau 2. Um grafo simples é denominado completo se cada vértice se liga a cada um dos outros vértices através de uma aresta. Em um grafo completo, qualquer vértice v de VG é adjacente

a todos os outros vértices de VG. Estes grafos são designados por K|VG|, onde |VG| é a ordem do grafo, que já foi definida anteriormente. De maneira resumida, um grafo completo é um

grafo simples que contém o número máximo de arestas. Note que um grafo completo Kn é n − 1-regular. Um exemplo de grafo completo está representado na Figura 2.5a.

Um grafo simples G = (VG,EG) é denominado bipartido se o conjunto de vértices VG puder 1 2 ser particionado em dois conjuntos disjuntos VG e VG , de tal maneira que toda aresta e ∈ EG 1 2 1 2 1 2 liga um vértice de VG a outro vértice de VG . Se cumpre que VG ∩ VG = ∅ e VG ∪ VG = V . Um exemplo de grafo bipartido está representado na Figura 2.5b. Um grafo bipartido no qual 1 2 cada elemento de VG está ligado a todos os elementos de VG é denominado de grafo bipartido completo. Então, para um grafo ser bipartido completo é necessário que cada vértice do primeiro conjunto esteja ligado a todos os vértices do segundo conjunto.

16 1 VG5 v2 v3 2 VG5 1 4 2 5 3 v1 v4

(a) Grafo G4: Grafo completo. (b) Grafo G5: Grafo bipartido.

Figura 2.5: Grafos G4 e G5.

Define-se um caminho de longitude l como uma sequência de vértices (v0, v1, ..., vl) tais

que, para todo i tal que 1 ≤ i ≤ l, (vi−1, vi) ∈ E (se é um dígrafo) ou {vi−1, vi} ∈ E (se é um grafo não dirigido). Um caminho é simples se todos os vértices do caminho são diferentes. Um ciclo é um caminho que começa e acaba no mesmo vértice. Pela Figura 2.5a, pode-se dizer que

um exemplo de caminho de longitude 4 que liga o vértice v1 ao vértice v4 é (v1, v2, v3, v4). Um

exemplo de ciclo é o caminho (v1, v3, v4, v1), que é um caminho que começa em v1 e termina

em v1.

Matriz de adjacência

Existem diversas estruturas de dados que podem ser utilizadas para representar um grafo, mas uma das mais comuns é a matriz de adjacência. Considere um grafo G cujo conjunto de vértices é VG = {v1, v2, ..., vn}. A matriz de adjacência Y associada a este grafo é uma matriz de dimensão n × n, sendo n o número de vértices, ou, n a ordem do grafo. Cada uma das

componentes da matriz representa uma possibilidade de conexão: a componente yij representa a possibilidade de conexão entre o elemento da linha i e o elemento da coluna j. Os elementos

das linhas e das colunas são os vértices do grafo. Com base no grafo G, a entrada yij da matriz

será igual a 1 se a aresta {vi, vj} ∈ EG e será igual a 0 caso contrário. É importante notar que se o grafo não possui laços, a diagonal principal da matriz de adjacência será composta de zeros. Já foi dito que um grafo dirigido é formado por pares ordenados de vértices e um grafo não dirigido por pares não ordenados. Em um grafo não dirigido não existe diferença entre os pares

de vértices (vi, vj) e (vj, vi), e portanto é fácil perceber que a matriz de adjacência de um grafo não dirigido é simétrica. No caso de um grafo dirigido, a matriz pode não ser simétrica, pois

pode existir uma ligação, por exemplo, do vértice vi para o vértice vj, mas não do vértice vj para

17 o vértice vi. Pode-se obter o grau, grau de entrada e o grau de saída de um vértice a partir da matriz de adjacência. Dada uma matriz de adjacência Y, o grau de entrada do vértice vi é igual à soma P da coluna i da matriz Y, ou seja, Y+i = j Yji, e o grau de saída é igual à soma da linha i da P matriz Y, ou seja, Yi+ = j Yij.

2.3 Redes Sociais

De acordo com Aguirre(2011), “Uma rede social é uma estrutura social composta por um conjunto finito de elementos e formada em torno de uma série de relações entre eles, que pode ser representada através de grafos". A análise de redes sociais (ARS), também chamada de análise estrutural, foca na estrutura das redes sociais para descobrir qual o efeito das relações sobre o comportamento dos indivíduos. O grafo que descreve uma rede social é composto por um conjunto de vértices ou nós, que representam os indivíduos ou atores da rede social, e um conjunto de arestas, que expressam as relações entre eles. Segundo Hoff et al.(2002), uma rede social consiste em um conjunto de n elementos e de uma variável aleatória Yij, medida para cada par ordenado (i, j) de elementos, sendo i, j = 1, ..., n. A variável Yij informa se o elemento i está ligado ao elemento j. Nos casos mais simples, Yij é uma variável dicotômica que indica a presença ou ausência de uma determinada relação de interesse, como por exemplo a amizade entre as pessoas, as alianças entre empresas, ou o comércio entre países. Aqui, definir Yij como sendo:  1, se o elemento i está ligado ao elemento j; Yij = (2.1) 0, caso contrário.

Note que da maneira como Yij foi definida, o importante é descobrir se existe uma relação entre o elemento i e o elemento j, e não a direção dessa relação, ou seja, se ela foi do elemento i para o elemento j ou vice-versa. Em alguns modelos, a direção da relação entre os elementos é importante. Dentro do contexto de rede social, a matriz de adjacência também pode ser chamada de matriz social. Na Figura 2.6a é apresentado um exemplo de rede social. Nessa rede existem três elementos: Daniela, Celia e Flávia. As linhas que unem os elementos da rede informam se elas são amigas no Facebook1. Ao invés de serem utilizados nomes para identificar os vértices do grafo, rotulam-se os vértices com letra e número. O indivíduo i é representado pelo vértice rotulado como vi. Assim, de acordo com a rede social em 2.6a, Daniela é representada pelo

1www.facebook.com

18 vértice v1, Celia pelo vértice v2 e Flávia pelo vértice v3. Nas Figuras 2.6be 2.6c são apresentados dois exemplos de grafos que podem descrever a rede social apresentada em 2.6a.

v v Daniela 1 1

v v v v Celia Flávia 2 3 2 3

(a) Rede social (b) G1: grafo direcionado (c) G2: grafo não-direcionado

Figura 2.6: Rede social e exemplos de grafos possíveis para descrever a rede.

Observe que linhas que unem os atores em 2.6a não possuem uma direção. Quando a direção das ligações entre os atores não é relevante, diz-se que a relação é bidirecional. Dado que a direção da ligação não é importante, um grafo não-direcionado é mais apropriado para descrever

essa rede social. Portanto, o grafo G2 em 2.6c é o que melhor descreve a rede em 2.6a. Em uma primeira classificação, as redes sociais são divididas em redes sociais direcionadas e não-direcionadas. O Facebook, por exemplo, é uma rede social não direcionada pois a relação de amizade nessa rede social é bidirecional, já que a relação de amizade ocorre de ambos os lados. Se, por exemplo, o indivíduo A adiciona o indivíduo B no Facebook e este último aceita, eles se tornarão amigos a partir do momento da aceitação da solicitação de amizade. Já o Twitter é uma rede social direcionada pois a relação de amizade pode ocorrer apenas de um lado. O indivíduo A pode seguir (uma espécie de adicionar no Twitter) o indivíduo B no Twitter, sem que o B tenha que fazer o mesmo. A uma rede social não-direcionada associamos um grafo não-direcionado e a uma rede social direcionada associamos o que chamamos de dígrafo ou grafo direcionado.

Se a rede social é não direcionada e definimos Yij como sendo 1 se existe uma ligação de

i para j e 0 caso contrário, as variáveis Yij e Yji são iguais e consequentemente assumem os

mesmos valores. Se a rede social é direcionada,Yij e Yji são variáveis diferentes que podem ou não assumir os mesmos valores. Serão apresentados a seguir dois exemplos com redes sociais distintas. O primeiro exemplo será baseado em uma rede social formada por um conjunto de indivíduos, com uma relação de amizade bidirecional cujo interesse é estudar a relação entre todos os indivíduos da rede. O segundo exemplo será baseado em uma rede social formada por dois grupos distintos de indivíduos, com uma relação de amizade unidirecional cujo interesse é estudar as relações

19 direcionais dos elementos do primeiro conjunto com os elementos do segundo conjunto.

Exemplo 1: Um conjunto de indivíduos, relação de amizade bidi- recional e interesse em estudar a relação entre todos os elementos da rede.

A rede social apresentada abaixo é formada por quatro indivíduos e a relação de amizade entre eles se dá de maneira bidirecional. Define-se Yij como sendo:  1, se existe uma relação de amizade entre o ator i e o ator j; Yij = (2.2) 0, caso contrário.

Como existem 4 indivíduos, então i, j = 1, ..., 4 e VG = v1, v2, v3, v4, que são os vértices do grafo. Suponha que a rede social em que estão inseridos esses quatro indivíduos seja dada pela Figura 2.7:

v1 v2 v3 v4 v1 v4   v1 0 1 1 1   v2  1 0 1 0    v  1 1 0 0  3   v2 v3 v4 1 0 0 0

(a) Grafo. (b) Matriz Social.

Figura 2.7: Estrutura de uma rede social com 4 indivíduos.

Como a rede é não-direcionada, os valores das variáveis Yij e Yji são iguais para i, j = 1, ..4.. Note que neste exemplo foi avaliada a relação de amizade de cada um dos indivíduos da rede com os outros indivíduos restantes. O modelo de Barberá(2015), que será apresentado no Capítulo4, trata do caso em que não é necessário avaliar todas as relações da amizade da rede social porque existem relações que geram pouca informação e por isso elas não serão analisadas.

Exemplo 2: Dois conjuntos de indivíduos e relação de amizade unidirecional

Os dados que serão utilizados nesta dissertação são provenientes do Twitter, uma rede social

20 direcionada. Por isso, entender como funciona uma relação de amizade dentro dessa rede é de extrema importância. A rede social apresentada abaixo é formada por dois conjuntos de indivíduos: usuários comuns e os atores políticos que eles seguem no Twitter. No caso em que existem dois conjuntos de indivíduos diferentes dentro de uma rede social, assuma que o índice i se refere ao primeiro conjunto e o índice j ao segundo. Se o primeiro conjunto é formado por n indivíduos e o segundo por m indivíduos, então i = 1, ..., n e j = 1, ..., m. Suponha que existem apenas dois usuários comuns denominados de cidadão A e cidadão B e quatro políticos denominados de João, Maria, Carlos e Bruna. Suponha também que não se tem interesse em avaliar a relação de amizade entre os políticos ou entre os usuários comuns. Tem-se interesse apenas em avaliar a relação de amizade dos usuários comuns para com os políticos. O cidadão A segue os políticos João, Maria e Carlos e o cidadão B segue os políticos Carlos e Bruna. Para representar esses dois conjuntos de indivíduos em uma matriz de adjacência será preciso utilizar uma matriz aumentada. A matriz final de interesse será uma parte dessa matriz aumentada. A estrutura da rede social apresentada pode ser vista na Figura 2.8.

Cidadão A Cidadão B

João Maria Carlos Bruna

Figura 2.8: Estrutura da rede social descrita no Exemplo 2.

Define-se Yij como sendo:

 1, se existe uma relação de amizade do elemento i para o elemento j; Yij = (2.3) 0, caso contrário.

O índice i se refere ao primeiro conjunto de dados, que de acordo com a rede social dada se refere aos dois usuários comuns A e B e o índice j se refere aos atores políticos que os usuários comuns seguem no Twitter. Assim, i = 1, 2 e j = 1, 2, 3, 4. O número de vértices do grafo é igual a 6. Para representar a rede social através de grafo será preciso rotular cada nó com os valores de 1 a 6. As representações dos nós são: (v1) Cidadão A,(v1) Cidadão B,(v3) João, (v4)

Maria, (v5) Carlos, (v6) Bruna. A rede social em que estão inseridos esses seis indivíduos está apresentada abaixo:

21 v1 v2

v3 v4 v5 v6

(a) Grafo referente à rede descrita no Exemplo 2.

Cidadao˜ A Cidadao˜ B Joao˜ Maria Carlos Bruna Cidadao˜ A  − − 1 1 1 0    Cidadao˜ B  − − 0 0 1 1            Joao˜  − − − − − −      Maria  − − − − − −      Carlos  − − − − − −  Bruna − − − − − −

(b) Matriz social aumentada

Figura 2.9: Estrutura da rede social com 6 indivíduos descrita no Exemplo 2.

A parte delimitada na matriz social aumentada será a parte considerada pelo modelo de Barberá(2015), que é a matriz social de interesse. As outras relações foram representadas com traços porque nesse contexto elas trazem pouca informação para o modelo.

2.4 Modelos de espaços latentes

Hoff et al.(2002) propuseram um modelo que assume que as relações observadas são determinadas pelas características latentes não observadas dos atores. As características latentes são as posições desconhecidas dos atores no espaço latente euclidiano. O modelo também assume que a probabilidade de ligação entre dois atores é descrita por uma função da distância das posições latentes e que dadas as posições latentes de dois atores, a ligação entre eles é independente das outras ligações da rede, isto é, o modelo assume independência condicional.

22 Considere uma rede formada por N atores (ou nós) e defina yij = 1, se existe uma ligação do elemento i para o elemento j ou yij = 0, caso contrário, para i, j = 1, ..., N. Denota-se por Y a matriz N × N formada pelos elementos yij, que é chamada de matriz de adjacência ou matriz social. Assume-se que o vetor xij = (xij1, xij2, ..., xijL) representa às L covariáveis avaliadas no par (i, j) e X é a matriz que engloba todos esses vetores. Denota-se por Z a matriz N × k cuja i-ésima linha é formada pelo vetor zi de tamanho k, denotando a posição do elemento i no espaço euclidiano de dimensão k. O modelo é definido como:

Y P (Y|Z, X, θ) = P (yi,j|zi, zj, xij, θ), (2.4) i6=j sendo xi,j as características observadas para cada par de atores, e θ e Z os parâmetros e as posições a serem estimados. Para a estimação desses parâmetros, Hoff et al.(2002) assumiram que P (yi,j|zi, zj, xij, θ) é descrito como um modelo logístico e que a probabilidade de ligação entre dois atores depende da distância euclidiana entre zi e zj,

  P (yij = 1|zi, zj, xij, α, β) ηij = log 1 − P (yij = 1|zi, zj, xij, α, β) 0 = α + β xij − |zi − zj|.

Note que de acordo com o modelo, quanto menor a distância entre as posições latentes de dois atores, maior é a probabilidade deles estarem conectados. Essa característica está inteiramente ligada ao conceito de homofilia apresentado na Seção 1.1. A homofilia, como já foi visto, é a tendência dos indivíduos semelhantes se relacionarem entre si. Para avaliar o quanto a distância entre as posições latentes influencia na probabilidade de relação entre os elementos, é possível incluir uma constante não negativa na modelagem, representada pela letra γ:

  P (yij = 1|zi, zj, xij, γ, α, β) ηij = log 1 − P (yij = 1|zi, zj, xij, γ, α, β) 0 = α + β xij − γ|zi − zj|.

No modelo de Barberá(2015), que será visto adiante, essa constante γ também está inclusa.

23 Capítulo 3

Revisão de Inferência Bayesiana

Em muitas áreas do conhecimento, o investigador tem interesse em analisar, descrever e interpretar os dados a fim de fazer inferências sobre eles. Em todo processo de inferência existe uma componente de incerteza envolvida e o objetivo do investigador é reduzir essa componente o máximo possível e também descrevê-la de maneira adequada. Existem duas principais abordagens de inferência na estatística: a inferência clássica (ou frequentista) e a inferência bayesiana. As principais diferenças entre essas abordagens e seus principais aspectos em comum serão abordados a seguir. Ambas as abordagens utilizam modelos com parâmetros desconhecidos para descrever o mundo real, isto é, observa-se a matriz social Y com densidade discreta ou contínua na família 0 k p(y|θ), com θ = (θ1, ..., θk) ∈ Θ ⊂ R , sendo Θ o espaço paramétrico de θ. O marco teórico sobre o qual a inferência bayesiana se desenvolve é similar ao da clássica: existem parâmetros populacionais sobre os quais se deseja realizar o processo de inferência, descritos pelos vetor 0 θ = (θ1, ..., θk) . A principal diferença entre a inferência clássica e a bayesiana é o tratamento dado aos parâmetros desconhecidos que se deseja estimar. Na inferência clássica, os parâmetros são quantidades fixas e desconhecidas pertencentes a um determinado espaço e na inferência bayesiana eles são tratados como variáveis aleatórias. O enfoque frequentista não supõe nenhum conhecimento prévio a respeito dos parâmetros, mas o enfoque bayesiano assume incerteza dos parâmetros que é representada pela priori. A distribuição a priori pode ser baseada em experiências prévias similares ou pode apenas expressar uma crença subjetiva do investigador. A metodologia bayesiana envolve três passos principais:

1º passo: escolher um modelo probabilístico para p(y|θ), a função de verossimilhança.

24 2º passo: escolher um modelo probabilístico para p(θ), a distribuição a priori.

3º passo: aplicar a regra de Bayes e calcular p(θ|y), a distribuição a posteriori.

Denota-se o espaço paramétrico por Θ e cada valor específico do parâmetro por θ.A informação amostral é representada por variáveis aleatórias com função de densidade ou função de distribuição de probabilidade denotada por p(y|θ). No enfoque bayesiano p(y|θ) é interpretada como a distribuição condicional da amostra y dado θ. Uma vez observada a amostra y, é possível calcular a distribuição condicional de θ dado y. Essa distribuição é conhecida como distribuição a posteriori e é denotada por π(θ|y). Para obter essa distribuição, é necessário assumir uma distribuição a priori p(θ) para o vetor de parâmetros θ, que representa o conhecimento ou ausência de conhecimento prévio que se tem sobre os parâmetros e estabelecer um modelo observacional p(y|θ) que representa a probabilidade de se observar uma determinada amostra dado θ. O modelo observacional, quando considerado uma função de θ, também é conhecido como função de verossimilhança. Para obter a distribuição a posteriori, utiliza-se o teorema de Bayes, que permite agregar o conhecimento prévio sobre θ e as informações provenientes da amostra. Dessa maneira tem-se que

p(y|θ)p(θ) π(θ|y) = , p(y) sendo

Z p(y) = p(y|θ)p(θ)dθ. Θ Observe que p(y) é uma constante de normalização que não depende de θ.

3.1 Estimação Pontual

O objetivo aqui é utilizar a distribuição a posteriori para obter um estimador pontual para Θ. Seja Θ o espaço paramétrico ou espaço de estados da natureza, A o conjunto de decisões possíveis, chamado de espaço de ações do tomador de decisão e a ∈ A uma ação. Associada com cada estimador a existe uma função perda L :Θ × A 7→ [0, +∞), L(θ, a), que é interpretada como a perda sofrida ao estimar θ por a. Define-se a perda esperada a posteriori como:

Z E[L(θ, a)|y] = L(θ, a)π(θ|y)dθ Θ

25 e o estimador pontual de θ é obtido através da minimização dessa perda esperada. Existem muitas funções perdas que podem ser utilizadas. A escolha particular de uma delas depende do contexto do problema. As mais comumente usadas são:

• Função de perda quadrática: L(θ, a) = (θ − a)2

• Função de perda absoluta: L(θ, a) = |θ − a|  1, se |θ − a| >  ; • Função de perda 0-1: L(θ, a) = 0, se |θ − a| ≤ , sendo  ≥ 0.

3.1.1 Estimadores de Bayes

O estimador de Bayes de θ é definido como aquele valor a = a(y) ∈ Θ que minimiza a perda esperada a posteriori, ou seja,

E[L(θ, a(y))|y] = min E[L(θ, a(y)]. a∈Θ Os estimadores para as três funções de perda dadas acima são:

• Função de perda quadrática: o estimador de Bayes é a média a posteriori

θ∗(y) = E(θ|y).

• Função de perda absoluta: o estimador de Bayes é a mediana a posteriori

θ∗(y) = mediana(θ|y).

• Função de perda 0-1: o estimador de Bayes é a moda a posteriori

θ∗(y) = moda(θ|y).

Nesta dissertação utiliza-se a média a posteriori como estimador pontual das quantidades desconhecidas dos modelos.

26 3.1.2 Estimação intervalar

Outra maneira de estimar um parâmetro consiste em buscar não apenas um valor para θ, mas sim um conjunto de valores, um intervalo, no qual se tem alta probabilidade de encontrar θ. Suponha que θ é uma quantidade desconhecida definida em Θ. Uma região C ∈ Θ é um intervalo de credibilidade ou um intervalo bayesiano 100(1 − α)% para θ se:

P (θ ∈ C|y) ≥ 1 − α

Neste caso 1 − α é chamado de nível de confiança ou credibilidade. No caso escalar, a região

C é dada pelo intervalo [c1, c2]. O intervalo de máxima densidade a posteriori (HPD) e 100(1 − α)% para θ, é o intervalo bayesiano dado por:

C = {θ ∈ Θ: P (θ|y) ≥ k}

onde k é o maior número tal que

Z P (θ|y)dθ = 1 − α θ:P (θ|y)≥k

3.2 Métodos de Monte Carlo via cadeias de Markov

Os métodos de Monte Carlo via Cadeias de Markov (MCMC, abreviação do inglês) são métodos de simulação que permitem obter amostras de distribuições de probabilidade que não são conhecidas ou que não possuem uma forma analítica fechada. No contexto bayesiano, os métodos MCMC são utilizados para gerar amostras da distribuição a posteriori π(θ|y) para conseguir estimar quantidades de interesse a posteriori, como por exemplo, a média a posteriori. A ideia fundamental dos métodos MCMC é a geração de uma cadeia de Markov cuja densidade estacionária coincide com a densidade que se deseja amostrar. Uma cadeia de Markov a tempo

discreto é uma sucessão de variáveis aleatórias Xn, n 6= 1 que tomam valores em um conjunto finito ou enumerável , conhecido como espaço de estados, e que satisfaz a seguinte propriedade

P (Xn+1 = j|X0 = i0, ..., Xn−1 = in−1,Xn = in) = P (Xn+1 = j|Xn = in) (3.1)

para todo n e para quaisquer estados i0, i1, ..., in, j em . A propriedade 3.1 é conhecida como a propriedade de Markov, que assume que o estado futuro depende apenas do estado presente e

27 independe dos estados passados. Suponha que existe o interesse em simular valores de uma distribuição a posteriori π(θ|y). (t) Os métodos MCMC consistem em simular uma cadeia de Markov (θ )t∈N cuja distribuição estacionária é a distribuição de interesse π(θ|y). Cada valor simulado, θ(t), depende apenas do seu antecessor, θ(t−1). Se o algoritmo for implementado de maneira correta, a convergência da cadeia está garantida, independentemente dos valores iniciais (Tierney, 1994). Nessa situação, (b) (b+1) (b+2) existe um valor b ∈ N suficientemente grande, tal que, θ , θ , θ , ... ∼ π(θ|y). Na notação dos métodos MCMC, b recebe o nome de burn-in ou período de aquecimento e indica o número de iterações necessárias para que a cadeia convirja para a distribuição estacionária. Os primeiros b valores da cadeia serão descartados e serão considerados apenas os valores restantes. As cadeias de Markov que são utilizadas nos métodos MCMC geralmente possuem um espaço de estados contínuo. Tierney(1994) mostra que os algoritmos convergem para uma dis- tribuição ergódica estacionária π(θ|y) sujeita a três condições de regularidade: irredutibilidade, aperiodicidade e invariância. Para evitar a autocorrelação entre os valores simulados, isto é, para obter uma amostra aproximadamente independente de π(θ|y), pode-se selecionar valores igualmente espaçados. Pode-se determinar um valor k, conhecido como thin, que informa a cada quantas iterações um valor da cadeia deve ser selecionado para compor a amostra. Ao final, a amostra será formada pelos valores gerados da cadeia a cada k-ésima iteração após o período de aquecimento, ou seja, θ(b+1), θ(b+k+1),θ(b+2k+1) e assim por diante. Dois métodos MCMC bastante populares são o algoritmo de Metropolis-Hastings e a amostragem de Gibbs.

3.2.1 Algoritmo de Metropolis-Hastings

O algoritmo de Metropolis foi originalmente proposto por Metropolis et al.(1953) e modificado por Hastings(1970). Este método geralmente é utilizado quando se deseja obter uma amostra de uma distribuição de probabilidade que não é conhecida. Assuma que p(θ) é uma função de probabilidade ou função densidade de probabilidade de interesse, da qual deseja-se obter uma amostra de valores. Como não é possível amostrar diretamente de p(θ), o algoritmo utiliza uma distribuição auxiliar para gerar uma amostra aproximada de p(θ). Essa distribuição auxiliar é denominada densidade proposta e é representada por q(θ). Como já foi abordado acima, os métodos MCMC trabalham com cadeias de Markov e portanto é necessário conhecer o valor atual da cadeia para começar a geração de valores. Suponha que o valor atual da cadeia de Markov é θ(t−1) e deseja-se atualizar esse valor para θ(t). Essa atualização será feita com base em q(.|θ(t−1)), que é a densidade proposta. O valor gerado a cada iteração é representado por θ∗. O algoritmo de Metropolis-Hastings pode ser resumido da seguinte maneira:

28 1. Defina um valor inicial θ(0) para a cadeia de Markov;

2. Inicialize o contador t = 1;

3. Gere um valor proposto θ∗ a partir da densidade proposta q(θ|θ(t−1)).

4. Calcule a probabilidade de aceitar o valor proposto ( ) p(θ∗)q(θ(t−1)|θ∗) α = mín 1, p(θ(t−1))q(θ∗|θ(t−1))

5. Gere um valor u da U(0, 1);

θ(t) 6. O novo valor será  θ∗, se u ≤ α; θ(t) = θ(t−1), se u > α.

7. Faça t = t + 1;

8. Repita os passos de 3 a 7 até que a convergência seja obtida e até obter o tamanho de amostra necessário para a inferência.

Em teoria se pode utilizar qualquer densidade proposta q(.|.). O mais importante é que seja fácil amostrar dessa densidade e que ela seja capaz de gerar valores que serão aceitos. Caso isso não aconteça, a cadeia pode passar largos períodos de tempo em um mesmo estado. Por isso, a desvantagem desse algoritmo é que dependendo da escolha da distribuição proposta, o número de valores rejeitados pode ser muito alto e isso fará com que a cadeia quase não se mova. Para maiores informações sobre algoritmo de Metropolis veja Gamerman e Lopes(2006).

3.2.2 Amostragem de Gibbs

A amostragem de Gibbs tem suas origens no artigo de Geman e Geman(1984), que trata do processamento de imagens. Neste artigo os autores utilizaram o algoritmo para simular valores de uma distribuição de Gibbs e por isso o algoritmo recebeu o nome de amostragem de Gibbs. Entretanto, o algoritmo só ganhou notoriedade na área da estatística a partir do trabalho de Gelfand e Smith(1990), que foram os primeiros autores a mostrar a generalização do algoritmo, isto é, que ele poderia ser utilizado para gerar valores de outras distribuições que não a distribuição de Gibbs. A amostragem de Gibbs é um caso particular do algoritmo de Metropolis em que as distribuições condicionais completas assumem o papel da distribuição proposta e onde

29 a probabilidade de aceitação de cada valor gerado é 1. A ideia do algoritmo é transformar um problema multivariado em uma sequência de problemas de menor dimensão e de fácil resolução. 0 Seja π(θ|y) a distribuição de interesse da qual deseja-se amostrar, θ = (θ1, ..., θk) . Seja θ−l o 0 vetor composto por todos os elementos de θ, exceto θl, isto é, θ−l = (θ1, θ2..., θl−1, θl+1, ..., θk) .

Sejam p(θl|y, θ−l) as distribuições condicionais completas que são assumidas serem conhecidas. Suponha que para todo l = 1, ..., k seja possível simular da distribuição condicional completa

p(θl|y, θ−l). A amostragem de Gibbs consiste em um esquema iterativo de amostragem baseado em sucessivas gerações das distribuições condicionais completas. Pode-se descrever o algoritmo da seguinte maneira:

1. Defina um vetor de valores iniciais para θ

(0) (0) (0) 0 θ = (θ1 , ..., θk )

2. Inicialize o contador em t = 1;

(t) (t) (t) 0 3. Obtenha θ = (θ1 , ..., θk ) através das sucessivas gerações das distribuições condicio- nais completas, ou seja,

(t) (t−1) (t−1) (t−1) θ1 ∼ π(θ1|y, θ2 , θ3 , ..., θk ) (t) (t) (t−1) (t−1) θ2 ∼ π(θ2|y, θ1 , θ3 , ..., θk ) . . (t) (t) (t) (t) θk ∼ π(θk|y, θ1 , θ2 , ..., θk−1)

4. Faça t = t + 1;

5. Repita os passos de 3 e 4 até que a convergência seja obtida e até obter o tamanho de amostra necessário para a inferência.

Após a convergência, todos os valores resultantes formam uma amostra de π(θ|y). Como na amostragem de Gibbs a probabilidade de aceitação de cada valor gerado é igual a 1, a cadeia sempre se moverá (Brown e Draper, 2000). A construção do algoritmo depende do conhecimento das distribuições condicionais completas, então se essas distribuições não são conhecidas, é possível utilizar amostragem de Gibbs com passos de Metropolis. Para maiores detalhes sobre os métodos MCMC veja Gamerman e Lopes(2006) e Robert e Casella(2009).

30 3.3 Critérios de seleção de modelos

Existem muitos métodos para comparação e seleção de modelos. Não existe uma opinião unânime sobre qual é o melhor critério para seleção de modelos, por isso aqui serão considerados critérios de informação e critérios preditivos. De acordo com García et al.(2014), os critérios de informação são funções do logaritmo da verossimilhança e possuem um termo de penalidade baseado no número de parâmetros do modelo. Eles medem o ajuste de um modelo maximizando o valor da função de verossimilhança com o uso de diferentes funções de penalidade. Os critérios preditivos utilizam os valores preditivos no cálculo. Nesta dissertação serão considerados critérios que possam ser obtidos via métodos MCMC, que são: o critério de informação do desvio (DIC), Spiegelhalter et al.(2002), e o logaritmo da verossimilhança pseudo marginal (LPML), Ibrahim et al.(2001).

3.3.1 Critério de informação do desvio

O critério de informação do desvio (DIC), proposto por Spiegelhalter et al.(2002), é um critério bayesiano baseado no desvio. É uma generalização do critério de informação de Akaike (AIC). O desvio é obtido a partir da seguinte equação:

D(θ) = −2logL(θ|y) + 2logf(y)

sendo L(θ|y) a verossimilhança e logf(y) um termo que depende unicamente dos dados. Como logf(y) não depende do vetor paramétrico θ, o termo 2logf(y) pode ser tratado como uma constante. O DIC é calculado através da soma de duas componentes. A primeira é uma medida de adequação do modelo, chamada de desvio médio a posteriori e representada por D¯.A segunda é uma medida de penalidade, chamada de número efetivo de parâmetros do modelo e

representada por pD. As duas componentes são dadas pelas seguintes expressões:

¯ D = Eθ|y[D(θ)] = Eθ|y[−2logL(θ|y) + 2logf(y)], e

pD =Eθ|y[D(θ)] − D(Eθ|y(θ)) ¯ =Eθ|y[−2logL(θ|y) + 2logf(y)] + 2logL(θ|y) =D¯ − D(θ¯).

¯ ¯ A componente D(θ) utilizada no cálculo do pD representa o desvio avaliado em θ, que é

31 a média a posteriori de θ. É possível estimar D¯ e D(θ¯) utilizando amostras da distribuição a posteriori. Seja (θ(1), θ(2), ..., θ(L)) amostra da distribuição a posteriori, sendo L o tamanho da amostra. Utilizando essa amostra, pode-se aproximar a medida D¯ e D(θ¯) por:

L X D¯ ≈ L−1 −2logL(θ(l)|y), l=1

L ! X D(θ¯) ≈ D L−1 θ(l) . l=1

Finalmente o critério de informação do desvio de um modelo é definido como:

¯ ¯ ¯ ¯ DIC = D + pD = 2D − D(θ) = D(θ) + 2pD

De acordo com este critério, o modelo com melhor ajuste será aquele com o menor valor de DIC.

3.3.2 Logaritmo da verossimilhança pseudo marginal

Para avaliar o desempenho dos modelos propostos também será utililizada a estatística logaritmo da verossimilhança pseudo marginal (LPML, abreviação do inglês). A estatística ordenada preditiva condicional (CPO, abreviação do inglês) é uma ferramenta muito útil para a seleção de modelos que tem sido largamente utilizada na área da estatística em muitos contextos e que é utilizada no cálculo do LPML. Uma descrição detalhada de como calcular o CPO pode ser encontrada em Gelfand et al.(1992) e em Chen et al.(2012). Suponha que os dados y são compostos pelas observações y1, y2, ..., yn, assuma que condicionalmente a θ essas observações são independentes e que y−i representa o conjunto de dados y sem a i-ésima observação yi. Desse modo, o CPO para a i-ésima observação é definido como:

     −1 f(yi, y−i) f(y) f(y−i) CPOi = f(yi|y−i) = = = f(y−i) f(y−i) f(y) −1 −1 Z f(y |θ)f(θ)  Z 1 f(y|θ)f(θ)  = −i dθ = dθ f(y) f(yi|θ) f(y) Z 1 −1   1 −1 = f(θ|y)dθ = Eθ|y f(yi|θ) f(yi|θ)

32 sendo f(yi|y−i) a distribuição preditiva de yi, dadas as outras observações da amostra. Um valor

alto de CPOi indica um bom ajuste do modelo. Chen et al.(2012) mostraram que o CPOi pode ser aproximado por:

" L #−1 1 X 1 CPO\ = i L (l) l=1 f(yi|θ ) em que θ(l), l = 1, ..., L é uma amostra da distribuição a posteriori de θ.

De acordo com Upadhyay et al.(2015), a informação fornecida pelo CPOi sobre o ajuste do modelo pode ser sumarizada usando a estatística LPML representada por:

n X LP ML = log(CPO\i) i=1 sendo n o tamanho da amostra observada. Um valor alto de LPML indica um melhor modelo (maior capacidade preditiva).

3.4 Diagnósticos de Convergência

Quando se executa um algoritmo MCMC, é importante verificar se os valores simulados convergem para a distribuição estacionária π(θ|y). Existem vários procedimentos na literatura para estudar a convergência de uma cadeia. A seguir será apresentado um breve resumo dos procedimentos utilizados nesta dissertação para avaliar a convergência das cadeias.

3.4.1 Análise visual

Uma inspeção visual dos traços (representação gráfica como uma série temporal, dos valores gerados a cada iteração) das cadeias é uma forma simples de monitorar a convergência. A observação das trajetórias de diferentes cadeias partindo de valores iniciais distintos permite verificar se existe uma mistura das cadeias à medida que aumenta o número de iterações, indicando convergência em distribuição. Quando o traço da cadeia tem uma aparência aleatória e estacionária, diz-se que existe indício de convergência.

3.4.2 Critério de Raftery e Lewis

Raftery e Lewis(1992) desenvolveram um método que determina o número de iterações necessárias para se obter a convergência, o número de iterações iniciais que devem ser descartadas (burn-in) e a distância mínima de uma iteração à outra para se obter uma amostra independente

33 (thin). Essa distância mínima é representada pela letra k e também pode ser chamada de fator de dependência. Esses valores são calculados garantindo que um quantil q seja estimado com uma precisão r pré especificada, com probabilidade s. Para obter esses valores é necessário:

1. Especificar o quantil de interesse q (por exemplo, o quantil 0,025).

2. Especificar a precisão r para o quantil de interesse (por exemplo, se r = 0, 005, então significa que deseja-se estimar o quantil 0,025 com precisão de ±0, 005).

3. Especificar a probabilidade s tal que qˆ ∈ [q − r, q + r].

4. Calcular o comprimento mínimo da cadeia: " #2 s + 1 pq(1 − q) n = φ−1 . min 2 r

sendo φ−1(.) a inversa da função de distribuição acumulada da normal padrão. Nesta dissertação será utilizado o programa JAGS1 (Just Another Gibbs Sampler, (Plummer, 2009)) e o pacote rjags (Plummer, 2013) do software estatístico livre R (Team, 2014) para realizar as análises.

1http://mcmc-jags.sourceforge.net/

34 Capítulo 4

Metodologia

4.1 Modelos ajustados

Barberá(2015) propôs um modelo que permite a estimação das posições ideológicas dos usuários comuns com base em quem eles seguem no Twitter. Assuma que cada usuário i ∈ {1, ..., n} do Twitter pode escolher entre seguir ou não seguir outro usuário j ∈ {1, ..., m}. Nesta dissertação o índice i se refere aos deputados federais e aos senadores que possuem conta no Twitter e o índice j aos atores políticos que possuem conta no Twitter. Para relembrar, os atores políticos são os formadores de opinião, isto é, partidos políticos, políticos, principais jornais e revistas, pessoas influentes, etc.

Seja Yij uma variável dicotômica que informa se usuário i segue o ator político j no Twitter. Note que essa variável analisa se o usuário j é um following (amigo) do usuário i. Assim, define-se Yij como sendo:  1, se o usuário i segue o ator político j no Twitter (i → j); Yij = (4.1) 0, caso contrário (i 6→ j).

O conjunto com todas as variáveis Yij’s formam a rede de conectividade ou a rede social. A hipótese chave do modelo de Barberá(2015) assume que o Twitter é uma rede social homofílica. No contexto desta dissertação, assumir homofilia é o mesmo que dizer que os usuários comuns do Twitter preferem seguir atores políticos que tenham posições ideológicas similares às deles.

Portanto, o valor da variável Yij é influenciado pelo grau de semelhança entre as posições ideológicas do usuário i e do ator político j. Quanto mais próximas forem as posições ideológicas desses dois indivíduos, mais provável será a relação de amizade entre eles.

Seja θi a posição ideológica (ou ponto ideal) do usuário i e φj, o ponto ideal do ator

35 político j. Assume-se também que θi, φj ∈ <, ou seja, que a posição ideológica é uma variável unidimensional (Poole e Rosenthal, 2000). Com base na hipótese de homofilia, a probabilidade de um usuário i seguir ou não um determinado ator político j será função da distância euclidiana das posições ideológicas desses 2 dois usuários comuns: d(θi, φj) = γkθi − φjk , sendo γ uma constante de normalização. A probabilidade do usuário i siga o ator político j também será função de duas outras quantidades: αi e βj. O parâmetro αi mede o nível de interesse político do usuário i e βj mede a popularidade do ator político j. O primeiro leva em conta que alguns usuários comuns são mais politicamente ativos do que outros, isto é, mais interessados em política. O segundo leva em consideração o fato de que alguns atores políticos são mais provavelmente seguidos que outros, devido à popularidade do usuário do Twitter. Para evidenciar isso, Barberá(2015) comenta que o presidente dos Estados Unidos, Barack Obama, é mais provável de ser seguido que um membro do congresso, pelo simples fato de que o presidente é mais popular nas redes sociais qualquer um dos membros do congresso. Nenhuma das quantidades descritas até aqui podem ser estimadas diretamente, pois são quantidades latentes. Portanto, existe o interesse em estimar, condicional aos dados observados, 0 0 0 0 os valores de α = (α1, ..., αn) , β = (β1, ..., βm) , θ = (θ1, ..., θn) , φ = (φ1, ..., φm) e γ.

Como Yij é uma variável binária que só pode assumir dois valores, sucesso (seguir) ou fracasso (não seguir), pode-se dizer que Yij segue uma distribuição Bernoulli com média igual a

πij, isto é: Yij|πij ∼ Bernoulli(πij) com E(Yij) = πij, i = 1, 2, ..., n e j = 1, 2, ..., m.

A probabilidade de que o usuário i siga o perfil do ator político j é formulada como:

P (yij = 1|αi, βj, γ, θi, φj) = πij =Ψ(αi + βj − γ×d(θi, φj)) 2 =Ψ(αi + βj − γkθi − φjk ) (4.2)

=Ψ(ηij),

2 sendo ηij = αi + βj − γkθi − φjk e Ψ uma função definida nos reais cuja imagem pertence ao intervalo [0, 1]. O inverso de Ψ, ou seja, Ψ−1 é chamado de função de ligação. Serão ajustados três modelos nesta dissertação, o modelo do Barberá (M1) que considera função de ligação logit, o modelo de Imai et al.(2016)( M2) que considera função de ligação probit e o modelo proposto (M3) nesta dissertação, que considera como função de ligação a inversa da função de distribuição acumulada t-Student. Então, os três modelos que serão ajustados são definidos por:

−1  πij  • M1 = Ψ (πij) = logit(πij) = log ; 1−πij

36 −1 −1 • M2 = Ψ (πij) = probit(πij) = Φ (πij), sendo Φ a função de distribuição acumulada da normal padrão; e

−1 −1 • M3 = Ψ (πij) = F1 (πij), sendo F1 a função de distribuição acumulada da t-Student com 1 grau de liberdade.

Na Figura 4.1 são apresentadas as curvas do inverso das três funções de ligações:

probit 1.0 logit t−Student 0.8 0.6 f(x) 0.4 0.2 0.0

−4 −2 0 2 4

x

Figura 4.1: Curvas do inverso das funções de ligações probit, logit e t-Student.

Pela Figura 4.1 é possível observar que as três curvas diferem nas caudas, isto é, nas probabilidades referentes aos valores extremos. De acordo com Stock e Watson(2004), a funções de ligação logit e probit são semelhantes, exceto pela função utilizada para o cálculo da probabilidade. Elas são ditas semelhantes pois a curva logit tem a cauda ligeiramente mais pesada que a probit, produzindo uma estimação mais robusta. Em relação aos modelos, pode-se afirmar que o modelo logit é mais robusto que o modelo probit. O modelo t-Student é considerado mais robusto do que os outros dois modelos, pois permite acomodar valores mais extremos. Espera-se que o modelo t-Student produza uma estimação robusta que permita uma maior separabilidade entre os indivíduos mais extremos na escala latente.

37 4.2 Distribuição a posteriori

Nos três modelos é assumida independência local, ou seja, dados os parâmetros, as decisões dos usuários comuns em seguir atores políticos distintos são estatisticamente independentes. Portanto, assumindo independência local, a função de verossimilhança é dada por:

n m Y Y yij 1−yij p(y|θ, φ, α, β, γ) = πij (1 − πij) , i=1 j=1 com y representando o vetor de dados observados yij para i ∈ {1, ..., n} e j ∈ {1, ..., m}.O enfoque bayesiano será utilizado para a inferência das quantidades desconhecidas do modelo. 2 Para completar o modelo, define-se a distribuições a priori como γ∼G(aγ, bγ), αi∼N (µα, σα), 2 2 2 θi∼N (µθ, σθ ) para i = 1, 2, ..., n, e βj∼N (µβ, σβ) e φj∼N (µφ, σφ) para j = 1, 2, ..., m. A distribuição a posteriori é, portanto, dada por

p(θ, φ, α, β, γ|y) ∝ p(y|θ, φ, α, β, γ)p(θ, φ, α, β, γ, µ, σ) n m Y Y yij 1−yij = πij (1 − πij) i=1 j=1 n Y  2 2  × N (αi|µα, σα)N (θi|µθ, σθ ) i=1 m Y  2 2  × N (βj|µβ, σβ)N (φj|µφ, σφ) G(γ|aγ, bγ), j=1 com N (x|µ, σ2) representando a função de densidade de probabilidade da variável X com distribuição normal com média µ e variância σ2, e G(x|a, b) a função de densidade de probabilidade da variável X com distribuição gama com média a/b e variância (a/b2). Como a distribuição a posteriori não possui uma forma analítica fechada, a inferência dos parâmetros será feita através da amostra desta distribuição a posteriori obtida por métodos de Monte Carlo via cadeias de Markov.

4.3 Problemas de identificação

Alguns modelos paramétricos são não-identificáveis. Um modelo paramétrico é dito ser não-identificável quando a expressão matemática do modelo permite que vários valores de parâmetros levem ao mesmo valor da verossimilhança. Neste caso não é possível identificar qual dos valores é o mais verossímil gerador dos dados da amostra. Se o modelo é não-identificável, pode ser possível identificá-lo reparametrizando-o ou impondo restrições sobre os parâmetros.

38 Os problemas de identificação existentes nos modelos tratados nesta dissertação são: additive alising, multiplicative alising e reflection invariance (Bafumi et al., 2005). Para resolver esses problemas de identificação, alguns hiperparâmetros terão seus valores fixados.

• Additive Alising em α e β: o modelo é invariante a soma de uma constante k aos parâmetros α’s e β’s.

2 P (yij = 1|αi, βj, γ, θi, φj) =Ψ(αi + βj − γkθi − φjk ) 2 =Ψ((αi + k) + (βj − k) −γkθi − φjk )

| {z∗ } | {z∗ } αi βj

∗ ∗ Observe que os vetores (αi, βj, γ, θi, φj) e (αi , βj , γ, θi, φj) levam ao mesmo valor da verossimilhança. Conforme apresentado em Barberá(2015), para resolver esse problema

de identificação, é possível fixar o valor de µα ou o valor de µβ. Também é possível

impor uma restrição linear nos α’s ou nos β’s, como por exemplo fixar α1 = 0 ou Pn β1 = 0 ou impor uma restrição sobre a soma, como por exemplo assumir i=1 αi = 0 ou Pm j=1 βj = 0. Optou-se em fixar o valor de µα em 0.

• Additive Alising em θ e φ: o modelo é invariante a soma de uma constante k aos θ’s e φ’s.

2 P (yij = 1|αi, βj, γ, θi, φj) =Ψ(αi + βj − γkθi − φjk ) 2 =Ψ(αi + βj − γk (θi + k) − (φj + k) k ) (4.3)

| {z∗ } | {z∗ } θi φj

∗ ∗ Observe que os vetores (αi, βj, γ, θi, φj) e (αi, βj, γ, θi , φj ) levam ao mesmo valor da verossimilhança. Para resolver esse problema de identificação é necessário fixar o valor de

µθ ou o valor de µφ. Também é possível resolver esse problema fixando θ1 = 1 ou φ1 = 1.

Optou-se em fixar o valor de µθ em 0 (Barberá, 2015).

• Multiplicative Alising: o modelo é invariante a multiplicação de constante k 6= 0.

2 P (yij = 1|αi, βj, γ, θi, φj) =Ψ(αi + βj − γkθi − φjk ) γ =Ψ(α + β − ( ) × ( θ k − φ k )2) (4.4) i j k2 i j |{z}∗ |{z} |{z} θ φ∗ γ∗ i j

39 ∗ ∗ Observe que os vetores (αi, βj, γ, θi, φj) e (αi, βj, γ, θi , φj ) levam ao mesmo valor da verossimilhança. Para resolver esse problema de identificação é necessário fixar o valor 2 2 de σθ ou o valor de σφ. Também é possível resolver esse problema fixando θ1 = −1 ou 2 φ1 = −1. Optou-se em fixar o valor de σθ em 1 (Barberá, 2015). No caso especial em que k = −1, é possível chamar esse problema de reflection invariance.

Aos outros hiperparâmetros restantes foram atribuídas distribuições a priori vagas. As distri- 2 buições a priori atribuídas a esses hiperparâmetros foram: µβ∼N (0; 1000), σα∼GI(0, 01; 0, 01), 2 2 σβ∼GI(0, 01; 0, 01), µφ∼N (0; 1000), σφ∼GI(0, 01; 0, 01) e γ∼G(0, 01; 0, 01).

40 Capítulo 5

Estudo de Simulação

Neste capítulo será apresentado um estudo simulação para avaliar a eficiência dos modelos logit, probit e t-Student, apresentados no Capítulo 4. O objetivo deste estudo é analisar o comportamento das estimativas bayesianas dos parâmetros, isto é, dos θ’s, α’s, β’s, φ’s e γ, com base no erro quadrático médio e na taxa de cobertura e comparar os três modelos através dos critérios DIC e LPML. Os dados para o estudo de Monte Carlo, também chamados de réplicas de Monte Carlo, foram gerados a partir dos três modelos, considerando o mesmo tamanho de n e m. Antes da realização do estudo de simulação, realizou-se uma análise de sensibilidade em

torno do hiperparâmetro µβ, para escolher um valor que fosse capaz de refletir a hipótese de homofilia assumida nos modelos.

5.1 Análise de sensibilidade

Nesta seção serão avaliadas as estruturas das matrizes sociais (dados simulados) em função

dos valores de µβ e o quanto essas estruturas influenciam na qualidade do ajuste. Foram geradas R = 5 réplicas de Monte Carlo a partir dos três modelos, com n = 200 ∗ e m = 20 e para quatro valores diferentes de µβ: µβ = (0, 1, 2, 3). Portanto, 20 réplicas de

Monte Carlo foram geradas a partir do modelo logit: cinco réplicas considerando µβ = 0, cinco

réplicas considerando µβ = 1, cinco réplicas considerando µβ = 2 e cinco réplicas considerando

µβ = 3. O mesmo vale para os dados probit e t-Student. Os dados foram gerados com a 2 2 seguinte configuração de hiperparâmetros e do parâmetro γ: µα = 0, σα = 0, 25, σβ = 0, 25, 2 2 µθ = 0, σθ = 1, µφ = 0, σφ = 3, 25 e γ = 0, 8. Considerou-se o ajuste dos conjuntos de dados logit ao modelo logit, dos conjuntos de dados probit ao modelo probit e dos conjuntos de

41 dados t-Student ao modelo t-Student. Para cada conjunto de dados , considerou-se 3 cadeias de Markov de tamanho 25.000, com um período de aquecimento (burn-in) de 5.000, e uma defasagem de 50, resultando em uma amostra final de tamanho 1.200. Para cada réplica foram obtidos a média e o desvio padrão a posteriori dos parâmetros e o viés relativo médio (VRM), R P ˆ(i) 2 ˆ(i) dado por VRM\ (θ) = (θ − θv) /(|θv|R), sendo θ o parâmetro de interesse, θ a média da i=1 distribuição a posteriori do parâmetro θ para a réplica i, θv o valor verdadeiro do parâmetro θ e R o número de réplicas de Monte Carlo.

Para analisar a influência de µβ sobre a composição de uma dada matriz social, assumiu-se que suas linhas e colunas foram reorganizadas, seguindo a mesma ordem dos parâmetros θ’s e φ’s verdadeiros. Ao final, cada matriz ficou dividida em quatro partes como apresentado na Tabela 5.1.

Tabela 5.1: Composição da matriz social para avaliar a influência de µβ.

φ’s verdadeiros z }| {  - +  θ’s verdadeiros - Esquerda-Esquerda Esquerda-Direita   + Direita-Esquerda Direita-Direita

Em cada matriz é esperado que a proporção de 1’s no primeiro (esquerda-esquerda) e no quarto (direita-direita) quadrantes sejam superior à proporção de 1’s no segundo (esquerda-direita) e terceiro (direita-esquerda) quadrantes, devido a hipótese de homofilia. A Tabela 5.2 apresenta a proporção de 1’s em cada quadrante de cada um dos conjuntos de

dados gerados para diferentes valores de µβ. Note que quanto maior o valor de µβ, maior é a proporção de 1’s em cada quadrante de cada um dos conjuntos de dados gerados. À medida que

µβ aumenta, a soma das colunas também aumenta, indicando que os atores políticos estão sendo

mais seguidos pelos usuários comuns. Avaliando a influência de µβ sobre a esparsidade da

matriz, pode-se afirmar que quanto maior o valor µβ, menor é a quantidade de zeros na matriz social e portanto menos esparsa é a matriz social. É importante acrescentar que toda essa análise

também poderia ter sido feita com µα. Para construir a Tabela 5.2 foi necessário primeiramente ordenar os valores verdadeiros dos θ’s e dos φ’s para descobrir o número máximo de ligações (1’s) em cada quadrante de cada matriz social. Dos θ’s verdadeiros, 103 são negativos e 97 são positivos e dos φ’s verdadeiros, 9 são negativos e 11 são positivos. A proporção de 1’s foi calculada com base na quantidade máxima de ligações em cada quadrante, que está descrita na Tabela 5.3.

42 Tabela 5.2: Proporção de 1’s em cada quadrante de um determinado conjunto de dados reorganizado com base nos valores verdadeiros dos θ’s e dos φ’s.

Dados logit Dados probit Dados t-Student Esquerda- Direita- Esquerda- Direita- Esquerda- Direita- Esquerda Direita Esquerda Direita Esquerda Direita Direita Esquerda Direita Esquerda Direita Esquerda Dado 1 38,4% 12,0% 11,0% 33,6% 35,2% 6,80% 8,25% 31,7% 38,6% 14,7% 13,7% 33,6% Dado 2 39,7% 11,1% 12,6% 34,5% 34,4% 6,53% 7,79% 29,5% 37,8% 14,4% 14,7% 35,8% µβ = 0 Dado 3 37,9% 10,4% 12,5% 36,4% 33,8% 6,88% 8,02% 31,3% 39,1% 15,7% 14,9% 35,0% Dado 4 39,1% 11,2% 12,9% 35,2% 35,7% 6,18% 9,05% 33,5% 38,9% 14,2% 14,9% 35,5% Dado 5 38,7% 12,1% 13,1% 36,8% 36,6% 6,88% 9,62% 32,3% 38,7% 13,8% 15,5% 37,3%

Dado 1 58,0% 22,8% 22,6% 55,9% 61,3% 18,5% 19,1% 58,9% 58,5% 25,2% 25,5% 56,8% Dado 2 57,4% 21,7% 21,6% 57,9% 62,2% 18,9% 19,2% 60,5% 58,4% 24,2% 23,5% 59,2% 43 µβ = 1 Dado 3 60,8% 22% 20,6% 54,5% 61,7% 18,0% 18,9% 57,1% 60,6% 25,6% 23,1% 54,8% Dado 4 58,5% 21,1% 23,5% 55,5% 62,5% 19,6% 20,6% 59,1% 59,3% 23,0% 24,9% 56,3% Dado 5 59,1% 21,3% 23,1% 56,3% 62,7% 19,7% 19,9% 58,9% 59,9% 24,4% 25,4% 57,1%

Dado 1 75,4% 36,5% 33,9% 72,6% 81,2% 34,9% 33,8% 80,3% 74,6% 38,3% 35,5% 71,2% Dado 2 75,9% 35,8% 36,1% 75,4% 81,7% 35,1% 35,5% 80,3% 73,7% 37,5% 37,9% 74,4% µβ = 2 Dado 3 75,5% 35,2% 35,1% 72,5% 82,4% 34,3% 34,2% 80,1% 75,3% 37,2% 36,7% 72,2% Dado 4 74,0% 34,0% 33,7% 70,9% 81,7% 34,2% 33,7% 81,1% 73,4% 35,4% 34,6% 70,6% Dado 5 76,7% 37,4% 36,1% 71,1% 83,3% 36,4% 36,5% 79,4% 76,2% 39,5% 37,6% 70,9%

Dado 1 87,1% 48,5% 47,9% 86,4% 92,0% 50,0% 49,7% 92,0% 83,2% 48,5% 47,4% 82,7% Dado 2 86,9% 47,6% 48,1% 84,5% 92,0% 49,9% 49,7% 91,5% 83,5% 48,2% 47,7% 82,4% µβ = 3 Dado 3 87,9% 48,8% 46,6% 86,2% 92,6% 50,3% 48,2% 92,4% 84,7% 48,2% 48,1% 82,8% Dado 4 86,1% 47,4% 45,6% 85,3% 92,2% 49,9% 48,1% 92,4% 81,8% 47,3% 45,7% 81,8% Dado 5 87,3% 49,0% 47,2% 86,6% 92,4% 50,2% 49,0% 92,9% 84,6% 49,4% 47,8% 82,3% Tabela 5.3: Número máximo de 1’s em cada quadrante da matriz social para calcular as proporções.

φ’s verdadeiros z }| {  - +  θ’s verdadeiros - 103 × 9 = 927 103 × 11 = 1133   + 97 × 9 = 873 97 × 11 = 1067

Com o objetivo de estudar as propriedades frequentistas da média a posteriori, como estimador dos parâmetros de interesse, construiu-se a Tabela 5.4, que apresenta a média das médias a posteriori, o desvio padrão das médias a posteriori e o viés relativo médio (VRM) das médias a posteriori calculados com base nas 5 réplicas de Monte Carlo geradas a partir dos três

modelos e para cada valor de µβ.

Tabela 5.4: Sumário da distribuição a posteriori dos parâmetros γ, θ5, φ5, θ10 e φ10 sob o ajuste

do modelo gerador para 5 réplicas de Monte Carlo de cada modelo e para cada valor de µβ.

logit-logit probit-probit Student-Student Valor Média (DP) VRM Média (DP) VRM Média (DP) VRM verdadeiro γ 0,80 0,816 (0,067) 0,005 0,775 (0,089) 0,009 0,781 (0,092) 0,009

θ5 -1,58 -1,197 (0,359) 0,160 -1,207 (0,189) 0,109 -1,056 (0,654) 0,393

µβ = 0 φ5 -2,58 -2,259 (0,138) 0,046 -2,279 (0,232) 0,052 -2,040 (0,311) 0,143

θ10 0,56 0,590 (0,366) 0,191 0,488 (0,202) 0,068 0,437 (0,550) 0,457

φ10 -1,53 -1,416 (0,242) 0,039 -1,570 (0,114) 0,008 -1,662 (0,177) 0,028 γ 0,80 0,817 (0,083) 0,007 0,798 (0,035) 0,001 0,754 (0,106) 0,014 θ5 -1,58 -1,658 (0,272) 0,041 -1,64 (0,391) 0,079 -1,676 (0,330) 0,060 µβ = 1 φ5 -2,58 -2,36 (0,145) 0,025 -2,408 (0,137) 0,017 -2,371 (0,262) 0,038

θ10 0,56 0,701 (0,206) 0,093 0,705 (0,157) 0,070 0,744 (0,26) 0,153

φ10 -1,53 -1,485 (0,152) 0,013 -1,417 (0,02) 0,008 -1,565 (0,222) 0,027 γ 0,80 0,820 (0,056) 0,004 0,850 (0,031) 0,004 0,825 (0,086) 0,008 θ5 -1,58 -1,759 (0,226) 0,045 -1,585 (0,168) 0,014 -1,684 (0,144) 0,017 µβ = 2 φ5 -2,58 -2,342 (0,09) 0,025 -2,321 (0,112) 0,030 -2,316 (0,182) 0,037 θ10 0,56 0,543 (0,200) 0,058 0,557 (0,073) 0,008 0,559 (0,157) 0,035 φ10 -1,53 -1,421 (0,171) 0,023 -1,420 (0,070) 0,010 -1,413 (0,118) 0,016 γ 0,80 0,841 (0,054) 0,005 0,812 (0,035) 0,001 0,866 (0,088) 0,013 θ5 -1,58 -1,729 (0,245) 0,043 -1,673 (0,112) 0,011 -1,707 (0,196) 0,029

µβ = 3 φ5 -2,58 -2,295 (0,042) 0,032 -2,321 (0,054) 0,027 -2,249 (0,107) 0,046

θ10 0,56 0,697 (0,110) 0,048 0,663 (0,125) 0,039 0,714 (0,129) 0,063

φ10 -1,53 -1,438 (0,169) 0,020 -1,435 (0,089) 0,010 -1,366 (0,115) 0,024

Pode-se observar na Tabela 5.4 que os parâmetros estão sendo satisfatoriamente estimados pois as médias das médias a posteriori estão bem próximas do verdadeiro valor do parâmetro,

44 com desvios padrões e vícios relativos médios pequenos. Os valores em negrito na Tabela 5.4

indicam para qual valor de µβ os parâmetros obtiveram o menor vício relativo médio. Então, por exemplo, considerando os dados logit sob o ajuste do modelo logit (primeira coluna da tabela),

note que o parâmetro γ obteve o menor vício relativo médio (0,004) para µβ = 2 e o parâmetro

θ5 obteve o menor vício relativo médio (0,041) para µβ = 1. Considerando os dados probit sob o ajuste do modelo probit (segunda coluna da tabela), note que o parâmetro γ obteve o menor vício relativo médio (0,001) para µβ = 3 e o parâmetro θ5 obteve o menor vício relativo médio

(0,011) para µβ = 3. Para resumir toda a informação proveniente do VRM de todos os parâmetros, calculou-se a

quantidade de θ’s e φ’s que obtiveram seu menor VRM sob um determinado valor de µβ. Essa informação está resumida na Tabela 5.5.

Tabela 5.5: Número de θ’s e φ’s que obtiveram menor VRM para cada valor de µβ considerado.

logit-logit probit-probit student-student

µβ = 0 31 16 18

µβ = 1 44 64 44

µβ = 2 55 68 65

µβ = 3 94 78 96

É possível verificar na Tabela 5.5 que, sob o ajuste do modelo logit, 31 θ’s e φ’s tiveram

menor VRM quando os dados logit foram gerados a partir de µβ = 0, 44 θ’s e φ’s tiveram menor

VRM quando os dados logit foram gerados a partir de µβ = 1, 55 θ’s e φ’s tiveram menor VRM

quando os dados foram gerados a partir de µβ = 2 e 94 θ’s e φ’s tiveram menor VRM quando os

dados foram gerados a partir de µβ = 3. Pode-se perceber que conforme aumenta o tamanho de

µβ, maior o número de θ’s e φ’s que são estimados com menor VRM. Isso vale também para os dados probit ajustados sob o modelo probit e para os dados t-Student ajustados sob o modelo t-Student.

Para a geração dos conjuntos de dados do estudo de simulação escolheu-se µβ = 1, pois

o objetivo desta análise de sensibilidade era determinar um valor de µβ que gerasse matrizes sociais informativas e representativas da realidade. Obviamente, matrizes sociais geradas a

partir de µβ = 2 ou µβ = 3 são muito informativas, mas, não são tão representativas da realidade devido à enorme quantidade de ligações existentes entre os elementos das linhas e das colunas.

Um fato importante é que não faz diferença fixar µβ = 1 ou µα = 1 para a geração dos conjuntos de dados. Fixando um ou outro as estimativas dos θ’s e φ’s serão as mesmas no final.

45 5.2 Resultados do estudo

Nesta seção serão apresentados os resultados do estudo de simulação. O estudo foi dividido em três cenários descritos na Tabela 5.6.

Tabela 5.6: Cenários utilizados na implementação do estudo de simulação.

Cenários Modelo Verdadeiro Modelo Ajustado Cenário 1 logit logit, probit, t-Student Cenário 2 probit logit, probit, t-Student Cenário 3 t-Student logit, probit, t-Student

Foram geradas R = 100 réplicas de Monte Carlo a partir dos três modelos, com n = 200 e m = 20. Dentro do contexto da estimação de posição ideológica política, isso equivale a 200 usuários comuns e 20 atores políticos. Os dados foram gerados com a seguinte configuração de 2 2 2 hiperparâmetros e do parâmetro γ: µα = 0, σα = 0, 25, µβ = 1 σβ = 0, 25, µθ = 0, σθ = 1, 2 µφ = 0, σφ = 3, 25 e γ = 0, 8. θ’s, α’s e β’s verdadeiros foram gerados a partir das distribuições N (0; 1), N (0; 0, 25) e N (1; 0, 25), respectivamente, e os φ’s verdadeiros a partir da mistura 0, 5N (−1, 5; 1)+0, 5N (1, 5; 1), conforme descrito em Barberá(2015). Com essas informações,

foi possível calcular ηij para cada i e cada j, e gerar yij do modelo Bernoulli com probabilidades −1 −1 de seguimento do elemento i para o elemento j dadas por logit (ηij), probit (ηij) e F1(ηij), como indicado em 4.2. Considerou-se o ajuste de cada conjunto de dados aos três modelos, que

diferem apenas na função de ligação. No processo de estimaçao, foi necessário fixar µα = 0, 2 µθ = 0 e σθ = 1 para resolver os problemas de identificação dos modelos. Para cada conjunto de dados , considerou-se 3 cadeias de Markov de tamanho 25.000, com um período de aquecimento (burn-in) de 5.000, e uma defasagem de 50, resultando em uma amostra final de tamanho 1.200. Após o ajuste, via MCMC, de cada um dos três modelos a cada uma das 100 réplicas de Monte Carlo e após a verificação da convergência dos parâmetros, foram calculados o EQM (erro quadrático médio) e a taxa de cobertura (proporção de vezes que o verdadeiro valor do parâmetro estava contido nos intervalos de credibilidade). O erro quadrático médio é definido como R P ˆ(i) 2 ˆ(i) EQM\ (θ) = (θ − θv) /R, sendo θ o parâmetro de interesse, θ a média da distribuição a i=1 posteriori do parâmetro θ para a réplica i, θv o valor verdadeiro do parâmetro θ e R o número de réplicas de Monte Carlo. Para avaliar a convergência das cadeias, utilizou-se a função raftery.diag do pacote coda, disponível no programa R, para calcular o critério de Raftery e Lewis(1992) e analisou-se os

46 traços das cadeias. Como cada réplica foi gerada com n = 200 e m = 20, 441 parâmetros 2 2 2 (200 α’s, 200 θ’s, 20 β’s, 20 φ’s e 1 γ) e 5 hiperparâmetros (µβ, µφ, σα, σβ e σφ) foram estimados. Considerando todas as 100 réplicas simuladas do modelo logit, probit e t-Student, foram analisados 133.800 gráficos com os traços das cadeias dos parâmetros. Como é inviável representar todos esses gráficos nesta dissertação, para fins da análise de convergência, serão apresentados apenas os resultados provenientes do critério de Raftery e Lewis(1992). Conforme descrito em 3.4.2, o critério fornece, para cada um dos parâmetros, o número mínimo de iterações necessárias para atingir a convergência. Para resumir a informação, para cada um dos

conjuntos de dados calculou-se o máximo dos nmin produzidos a fim de encontrar um número de iterações que fosse suficiente para garantir a convergência de todos os parâmetros. Porque, por exemplo, se um parâmetro precisa de no mínimo 10 iterações para atingir a convergência e um outro precisa de pelo menos 100, o ideal é considerar um período de aquecimento de 100 iterações para garantir que os dois parâmetros convirjam. A Figura 5.1 apresenta os máximos desses números mínimos para todos os dados logit, probit e t-Student.

Dados logit Dados probit Dados t−Student

1000 logit 1000 logit 1000 logit probit probit probit n n n í ● í ● í ●

m t−Student m t−Student m t−Student n n n 600 600 600

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Máximo de Máximo de ● Máximo de ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● 200 ● 200 ● ● ● ● 200 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ●●● ● ● ● ●●● ● ● ● ●●● ● ● ●● ● ● ● ●● ● ●● ● ● ●● ● ● ●● ● ● ● ●● ●●● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ● ●● ●● ●● ●● ● ●●●● ● ● ●●● ●● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● 0 0 0 1 25 50 75 100 1 25 50 75 100 1 25 50 75 100

Figura 5.1: Máximo, para cada conjunto dado e considerando todos os parâmetros, do número mínimo de iterações necessárias para atingir a convergência, para cada ajuste.

Pode-se observar na Figura 5.1, que para o ajuste de 99 dados logit aos três modelos, são necessárias no mínimo 400 iterações para garantir a convergência de todos os parâmetros. Para o ajuste de um dado logit ao modelo logit são necessárias no mínimo 800 iterações para garantir a convergência. Para o ajuste de todos os dados probit aos três modelos são necessárias no mínimo 200 iterações e para o ajuste de 98 dados t-Student aos três modelos são necessárias no mínimo 400 iterações. Para o ajuste de dois dados t-Student ao modelo t-Student são necessárias no mínimo 800 iterações. Conforme já informado, no estudo de simulação, para o ajuste de cada conjunto de dados aos três modelos foi considerado um período de aquecimento (burn-in) de 5.000. Como a Figura

47 5.1 mostra que era necessário descartar apenas as 1.000 primeiras iterações para garantir a convergência, pode-se afirmar que todos os parâmetros convergiram.

5.2.1 Cenário 1

Nesta seção serão descritos os resultados obtidos pelo ajuste dos dados logit aos três modelos apresentados nesta dissertação. A fim de estudar as propriedades frequentistas dos estimadores bayesianos, foram construídos gráficos com base nas médias a posteriori. A Figura 5.2 apresenta um resumo das estimativas pontuais e intervalares das médias a posteriori de uma parcela dos

α’s (mais especificamente α5, α6, α7, α8, α9, α10, α71, α72, α73, α74, α75, α136, α137, α138, α139,

α140, α196, α197, α198, α199 e α200), dos β’s e dos hiperparâmetros relativos à α e β, obtidas pelo ajuste das 100 réplicas simuladas do modelo logit aos modelos logit, probit e t-Student. O primeiro painel da Figura 5.2 se refere aos α’s, o segundo painel aos β’s e o terceiro aos hiperparâmetros. O primeiro painel mostra que as estimativas dos α’s estão próximas de zero em todas as estimações, conforme esperado. No contexto desta dissertação e baseados nessas estimativas, é possível afirmar que os 20 usuários comuns avaliados não possuem muito interesse político. Comparando as estimativas dos α’s produzidas pelos três modelos, note que o modelo t-Student produz estimativas mais acuradas e menos precisas e o modelo probit produz estimativas mais precisas e menos acuradas. A precisão aqui refere-se a largura do intervalo e a acurácia avalia se o intervalo contém o verdadeiro valor do parâmetro. Observe que a variabilidade dos α’s nos modelos logit e probit é menor que a variabilidade no modelo t-Student. Comparando o ajuste probit e logit, perceba que os α’s avaliados apresentam 2t−Student 2logit 2probit maior variabilidade sob o ajuste do modelo logit. Espera-se que σˆα > σˆα > σˆα , 2M 2 em que σˆα é a estimativa da média das médias a posteriori do parâmetro σα obtida via ajuste 2 do modelo M. O terceiro painel mostra que a média das médias a posteriori de σα é menor sob o ajuste do modelo probit e maior sobre o ajuste do modelo t-Student corroborando o que foi 2probit 2logit 2t−Student dito acima. Em termos de valores, σˆα = 0, 07, σˆα = 0, 20 e σˆα = 0, 28. O segundo painel mostra que as estimativas dos β’s estão próximas de um em todas as estimações. No contexto desta dissertação e baseados nessas estimativas, é possível afirmar que todos os atores políticos avaliados são razoavelmente populares. As estimativas dos β’s em termos de acurácia e precisão possuem as mesmas características das estimativas dos α’s. A variabilidade dos β’s nos modelos logit e probit é menor que a variabilidade no modelo t-Student.

48 slna rcjdse emlonsdi rmio ani ersna smda de médias as representam paineis primeiros dois nos vermelho em tracejadas linhas As u nlb oqatl25 oqatl9,%dsetmtvspnui aa ea médias. pelas respectivamente, dadas pontuais estimativas das 97,5% quantil ao 2,5% quantil do engloba que (“ verdadeiros Valores 5.2: Figura 0 1 2 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 α β ● ● 1 1 ● ● ● ● ● ● α β ● ● µ 5 ● 5 Modelo logit Modelo logit Modelo logit ● ● β ● ● ● ● α β ● ● 74 9 σ ● ● ● α 2 ● ● µ ● ● α α β ● ● 138 13 ● ● e σ ● ● ● µ β 2 ● ● β α β ● ● smdlslgt rbtetSuetsocmaao mcd painel. cada em comparados são t-Student e probit logit, modelos Os . 197 17 ● ● ● ● ● ●

0 1 2 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 × α β ● ● au) éi a médias das média "azul), 1 1 ● ● ● ● ● ● α β ● ● µ Modelo probit Modelo probit Modelo probit 5 ● 5 ● ● β ● ● ● ● 49 α β ● ● 74 9 σ ● ● ● α 2 ● ● ● ● α β ● ● 138 13 ● ● σ ● ● ● β 2 ● ● α β ● ● 197 17 ● ● ● ● ● ● posteriori a

0 1 2 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 α β ● ● 1 1 ● ● ● ● ● ● Modelo t−Student Modelo t−Student Modelo t−Student α β ● ● µ 5 ● 5 ● ● cruo intervalo e (círculo) β ● ● ● ● α β ● ● 74 9 σ ● ● ● α 2 ● ● ● ● α β ● ● 138 13 ● ● σ ● ● ● β 2 ● ● α β ● ● α 197 17 ● ● e ● ● ● ● β , Comparando o ajuste probit e logit, perceba que os β’s avaliados apresentam maior 2t−Student 2logit 2probit variabilidade sob o ajuste do modelo logit. Espera-se que σˆβ > σˆβ > σˆβ . Em 2probit 2logit 2t−Student termos de valores, σˆβ = 0, 11, σˆβ = 0, 30 e σˆβ = 0, 36. A maior parte das estimativas dos β’s estão próximas 1, mas alguns valores são maiores, evidenciando o fato de que alguns atores políticos são mais populares do que outros. Parece que sob o ajuste do modelo probit os β’s estão sendo consistentemente subestimados. Espera-se t−Student logit probit M que µˆβ > µˆβ > µˆβ , em que µˆβ é a estimativa da média das médias a posteriori probit do parâmetro µβ obtida via ajuste do modelo M. Em termos de valores, µˆβ = 0, 59, logit t−Student 2 2 µˆβ = 1, 01 e µˆβ = 1, 15. Comparando as estimativas dos hiperparâmetros µβ, σα e σβ produzidas pelos três modelos, note que o modelo t-Student produz estimativas mais acuradas e menos precisas e o modelo probit produz estimativas mais precisas e menos acuradas. De acordo as análises feitas, não é possível afirmar que os α’s e β’s diferem nas três estimações devido à sobreposição dos intervalos. No primeiro painel da Figura 5.2 só foram avaliados 20 α’s, então na Figura 5.3 são mostrados os gráficos dos valores verdadeiros versus os valores estimados (média a posteriori) de todos os α’s obtidos pelo ajuste dos dados logit aos três modelos. Os resultados confirmam que os α’s são satisfatoriamente estimados, independente do modelo utilizado e parece não haver diferenças significativas entre eles nas três estimações.

α Modelo logit α Modelo probit α Modelo t−Student 1.5 1.5 1.5 1 1 1

● ● ● ● ●● ● ● ● ● ●●● 0.5 ● 0.5 0.5 ●●● ● ●●● ●● ● ● ● ●●●● ●● ● ●●●●●● ● ● ●● ● ●●●●●●●● ● ●●●●●●●● ● ●●● ●● ●● ●●●●●●●●●●● ●● ●●●●●● ●● ●● ●●●●●●●●●●●●● ● ● ●●●●●●● ●●●●●●●●●●● ●● ●●●●●●●●●●●● ●●●●● ●●●●●● ● ●● ●●●●●●●●● ●●●●●●●●●●●●●●●● ● ●●●●●●●●● ● ●●●●●●●●●●●● ● ●●●●●●●●●●●● ● ●● ●●●●●●●●●● ●●●●●●●●● ● ●● ●●●●●●●●●●●●● ●● ●●●●●●●● ● ●● ● ●●●●●●●●●● ● ●●● ●●● ●●●●●●● ● ●●●●●● ●● ● ● ● ●●●●●●●●●● ● ●●● ●●● ● ●●●●● ● ●● ●● ●●● ● ●● ● ● ● −0.5 −0.5 −0.5

−1.5 −0.5 0.5 1 1.5 −1.5 −0.5 0.5 1 1.5 −1.5 −0.5 0.5 1 1.5 Média das médias a posteriori de Valor verdadeiro de α Média das médias a posteriori de Valor verdadeiro de α Média das médias a posteriori de Valor verdadeiro de α

Figura 5.3: Valores verdadeiros versus valores estimados dos α’s.

50 A Figura 5.4 apresenta os erros quadráticos médios e as taxas de cobertura de todos os parâmetros α’s e β’s obtidos através do ajuste dos dados logit aos três modelos. Neste Cenário 1, espera-se que o modelo logit produza menores erros quadráticos médios e maiores taxas de cobertura, por ser o modelo gerador dos dados. Os gráficos apresentados na Figura 5.4 mostram que essa suposição é válida pois os EQM’s de quase todos os α’s e para todos os β’s são menores sob o ajuste do modelo logit. O modelo probit tende a subestimar os valores dos parâmetros devido à forma da função de ligação. Por isso, sob o ajuste desse modelo os EQM’s tendem a ser maiores. Observando as taxas de cobertura, note que os modelos logit e t-Student produzem as maiores taxas de cobertura para os α’s e β’s.

EQM Taxa de cobertura 1.5 logit logit probit ● t−Student

probit ●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●● ●●●● ● ● ●●●● ● ● ● ● ● ● ●● ●●●● ● ●● ● ● ●●● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●

100% ● ● ● t−Student ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 80% 1 ● ● ● ● ● ● 60% ●

● ● ● ● ● ● 40% 0.5 ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 20% ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ●●● ●●●●● ● ● ●● ●● ●● ●● ● ● ● ●●● ●● ● ● ● ●● ● ●● ● ● ●● ●●● ●●●● ● ● ● ● ● ●●●● ●●● ●● ● ● ● ●●●●● ● ●● ● ●●● ●● ● ● ●● ●● ● ●● ● ● ● ●● ● ● ● ● ● 0 0% 1 50 100 150 200 1 50 100 150 200 α α

EQM Taxa de cobertura 1.5 logit logit probit ● t−Student

probit ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● t−Student 100% ● ● ● ● ● ● 80% 1 60%

● 40% 0.5

● ● 20%

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 0% 1 5 10 15 20 1 5 10 15 20 β β

Figura 5.4: Erro quadrático médio (EQM) e taxa de cobertura dos α’s e dos β’s relativos às 100 réplicas simuladas do modelo logit.

51 slna rcjdse emlonsdi rmio ani ersna smda de médias as representam paineis primeiros dois nos vermelho em tracejadas linhas As u nlb oqatl25 oqatl9,%dsetmtvspnui aa ea médias. pelas respectivamente, dadas pontuais estimativas das 97,5% quantil ao 2,5% quantil do engloba que (“ verdadeiros Valores 5.5: Figura 0 1 2 3 4 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 φ θ ● ● 1 1 ● ● ● ● ● ● φ θ ● ● µ 5 5 ● Modelo logit Modelo logit Modelo logit ● ● φ ● ● ● ● θ φ ● ● 74 9 ● ● ● ● µ ● ● θ θ φ ● ● 138 13 e ● ● σ ● ● ● µ φ 2 ● ● φ θ φ ● ● smdlslgt rbtetSuetsocmaao mcd painel. cada em comparados são t-Student e probit logit, modelos Os . 197 17 ● ● ● ● ● ●

0 1 2 3 4 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 × φ θ ● ● au) éi a médias das média "azul), 1 1 ● ● ● ● ● ● φ θ ● ● µ Modelo probit Modelo probit Modelo probit 5 5 ● ● ● φ ● ● ● ● 52 θ φ ● ● 74 9 ● ● ● ● ● ● θ φ ● ● 138 13 ● ● σ ● ● ● φ 2 ● ● θ φ ● ● 197 17 ● ● ● ● ● ● posteriori a

0 1 2 3 4 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 φ θ ● ● 1 1 ● ● ● ● ● ● Modelo t−Student Modelo t−Student Modelo t−Student φ θ ● ● µ 5 5 ● ● ● cruo intervalo e (círculo) φ ● ● ● ● θ φ ● ● 74 9 ● ● ● ● ● ● θ φ ● ● 138 13 ● ● σ ● ● ● φ 2 ● ● θ φ ● ● θ 197 17 ● ● e ● ● ● ● φ , A Figura 5.5 apresenta um resumo das estimativas pontuais e intervalares das médias a

posteriori de uma parcela dos θ’s (mais especificamente θ5, θ6, θ7, θ8, θ9, θ10, θ71, θ72, θ73,

θ74, θ75, θ136, θ137, θ138, θ139, θ140, θ196, θ197, θ198, θ199 e θ200), dos φ’s e dos hiperparâmetros relativos à φ, obtidas pelo ajuste das 100 réplicas simuladas do modelo logit aos modelos logit, probit e t-Student. Os dois primeiros paineis mostram que não existem diferenças nos θ’s e φ’s, nem em termos das estimativas pontuais (média das médias a posteriori), nem termos de tamanho do intervalo. Esperava-se essa diferença entre as estimativas obtidas pelos três modelos, mas como isso não ocorreu, cogitou-se que talvez o parâmetro γ possa estar fazendo uma espécie de compensação, como será visto mais adiante.

De acordo com o terceiro painel da Figura 5.5, percebe-se que o parâmetro µφ está sendo 2 bem estimado nos três modelos e o parâmetro σφ está sendo subestimado nos três modelos. Em probit logit t−Student termos de valores, µˆφ = 0, 06, µˆφ = 0, 06 e µˆφ = 0, 07 estão próximos do valor 2probit 2logit 2t−Student verdadeiro de µφ, que é 0. As estimativas σˆφ = 2, 19, σˆφ = 2, 17 e σˆφ = 2, 13 confirmam que o parâmetro está sendo subestimado nos três ajustes. Na Figura 5.6 são apresentados os valores verdadeiros versus os valores estimados (média a posteriori) de todos os θ’s obtidos pelo ajuste dos três modelos. Note que os θ’s são satisfatoriamente estimados, independente do modelo utilizado e parece não haver diferenças significativas entre eles nas três estimações.

θ Modelo logit θ Modelo probit θ Modelo t−Student 3 3 3

● ● ●● ●● ● 2 2 2 ● ●●● ●●● ●●● ●● ● ●● ● ●●●● ●●● ●●●● ●● ●● ● ●●●●●●● ●●●●●●● ●●●●●●● ●●● ●●● ●●● ●●● ●●● ●●● ●●● ●●● ●●● 1 1 1 ● ●●● ●● ●●● ●● ●●● ●● ●●●● ●●● ●●●● ●●●●● ●●●●● ●●●●● ●●●●● ●●●●● ●●●●● ●●● ●●● ●● ●●● ●●● ●●● ●●●● ●●●● ●●●● ●● ●● ●●● 0 ●●●● 0 ●●●● 0 ●●●●● ●●● ●●● ●●● ●●●●● ●●●●● ●●●●● ●●●● ●●●● ●●●● ●●●●● ●●●●● ●●●●● ●●●● ●●●● ●●● ●●● ●●● ●●●● ●● ●● ●● ●● ●●● ●●● ●●●● ●●●● ●●● ●●● ●●● ●●● −1 ●●● −1 ●●● −1 ●●● ●●●●● ●●●●● ●●●● ●●● ●● ●●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● −2 −2 −2 −3 −3 −3

Média das médias a posteriori de −3 −2 −1 0 1 2 3 Média das médias a posteriori de −3 −2 −1 0 1 2 3 Média das médias a posteriori de −3 −2 −1 0 1 2 3 Valor verdadeiro de θ Valor verdadeiro de θ Valor verdadeiro de θ

Figura 5.6: Valores verdadeiros versus valores estimados dos θ’s.

A Figura 5.7 apresenta os erros quadráticos médios e as taxas de cobertura de todos os parâmetros θ’s e φ’s obtidos através do ajuste dos dados logit aos três modelos. Assim como descrito para os α’s e β’s, espera-se que o modelo gerador dos dados, no caso logit, produza menores os erros quadráticos médios e as maiores taxas de cobertura para θ’s e φ’s. Os gráficos da Figura 5.7 corroboram essa suposição pois os EQM’s são menores sob o ajuste do modelo logit para todos os θ’s e φ’s. O modelo t-Student foi o que produziu maiores EQM’s para os

53 θ’s e φ’s. Analisando as taxas de cobertura, note que todos os três modelos produzem taxas relativamente altas.

EQM Taxa de cobertura 0.6 logit logit probit ● t−Student

probit ●● ● ● ●● ● ●● ● ●● ● ●● ● ● ● ●● ● ● ● ● ●●● ●●●●●●●● ●● ●●●●●● ●●● ● ●● ●●●●●● ● ●● ●● ●● ● ●●● ●●●●●●●●●●●●● ●●●● ●●●● ●● ●●●●●●●● ● ●● ●● ●● ● ● ● ●●● ●● ●●●●● ●●●●● ●●●● ● ● ● ●● ● ● ●●●● ● ●●● ● ● ●● ● ● ● ●●●● ●●●●●● ● ● ●● ●● ●●●● ● ●● ● ●●● ● ● ● ●●●

100% ●● ● ●● ● ● ● ● t−Student ● ●● ● ● ● ● ● ● ●

● ● ● ● ● 80% 0.4 ● ●

● 60% ● ●

● ● ● ●

● ● ● ● ● ● ● ●●●

● 40% 0.2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ●● ● ● ●● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ●● ●●● ● ● ● ●● ●●● ● ● ● ●●● ●●● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ●

● 20% ●● ●● ●● ●● ●●● ●●● ● ●● ●● ● ●● ● ● ● ● ● ● 0 0% 1 50 100 150 200 1 50 100 150 200 θ θ

EQM Taxa de cobertura 0.2 logit logit probit ● t−Student

probit ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● t−Student 100% ● ● 80% 60% 0.1

● ● 40% ● ●

● ● ● ● ● ●

● 20% ● ● ● ● ● ● ● 0 0% 1 5 10 15 20 1 5 10 15 20 φ φ

Figura 5.7: Erro quadrático médio (EQM) e taxa de cobertura dos θ’s e dos φ’s relativos às 100 réplicas simuladas do modelo logit.

Como foi dito acima, acredita-se que o parâmetro γ possa estar influenciando na estimação dos θ’s e φ’s, funcionando como um fator de acomodação. A Figura 5.8 apresenta um resumo das estimativas pontuais e intervalares das médias a posteriori do parâmetro γ, obtidas pelo ajuste das 100 réplicas simuladas do modelo logit aos três modelos. Pela Figura 5.8 é possível notar que a estimativa pontual e os intervalos de γ foram diferentes em cada modelo. Como era de se esperar, o modelo logit produz uma estimativa mais acurada, isto é, mais próxima do valor verdadeiro. γ γ Em termos de valores, tem-se que γˆlogit = 0, 79 e (q0,025, q0,975)logit = (0, 7; 0, 9), γˆprobit = 0, 46 γ γ γ γ e (q0,025, q0,975)probit = (0, 4; 0, 52) e γˆt−Student = 1 e (q0,025, q0,975)t−Student = (0, 86; 1, 16).

54 élcssmldsd oeolgtasmdlslgt rbtet-Student. e probit logit, modelos aos logit modelo do simuladas réplicas θ posteriori que: tem-se parâmetros valores os assim pelos raiz de sua influência de a multiplicação retirar da necessário através foi isso, avaliar Para caudas. nas peso diferentes. são eles que modelo afirmar do pode ajuste que se de via não nula obtido isso não ao probabilidade sobrepõe uma se existe logit isso modelo por do t-Student, ajuste o sob obtido intervalo do que de indícios há isso por probit, vermelho em tracejada linha de A verdadeiro valor médias. o pelas representa dadas pontuais estimativas das 97,5% quantil ao médias das Média 5.8: Figura 75 ∗ , arsnau euodsetmtvspnui nevlrsdsmédias das intervalares e pontuais estimativas das resumo um apresenta 5.9 Figura A que Acredita-se modelo o sob obtido ao sobrepõe se não logit modelo do ajuste o sob obtido intervalo O θ 136 ∗ , θ euapreados parcela uma de 137 ∗ P , θ ( 138 ∗ y ij , 1 = γ θ θ 139 ∗ sáfninnocm ao eaooaã oncnomiro menor ou maior fornecendo acomodação de fator como funcionando está ∗ se ’s | α , θ i β , 140 ∗ φ ∗ j , Cptl 4, Capítulo no apresentado modelo do escopo o Relembrando ’s. θ ,θ γ, , θ ∗ posteriori a s(asespecificamente (mais ’s 196 ∗ γ

γ 0.3 0.8 1.2 ,,uiiaopr iuaã o ao logit. dados dos simulação a para utilizado 0,8, , i , logit φ , θ 197 ∗ j = ) e , γ γ l θ o ● g probit Dados logit 198 ∗ π i t cruo nevl u nlb oqatl2,5% quantil do engloba que intervalo e (círculo) ij , 55 γ =Ψ( =Ψ( =Ψ( θ p r ea infiaiaet ieets m parte Uma diferentes. significativamente sejam ● 199 ∗ o b i t γ posteriori a α α α e t − i i i S θ t ● u + + + 200 ∗ d e n θ β β β t e ) 5 ∗ j j j , k − − k − θ φ 6 ∗ γ γ ∗ , logit s bia eoaut a 100 das ajuste pelo obtidas ’s, θ √ k θ dos i ∗ 7 θ ∗ γθ , i − θ − e i 8 θ ∗ φ , γ − sedos e ’s φ j ∗ θ probit k j 9 ∗ γ √ k 2 , 2 ) or os sobre γφ θ . ) 10 ∗ ea gasepor e iguais sejam j , k φ θ 2 71 ∗ s Criaram-se ’s. ) , θ θ 72 ∗ seos e ’s , θ 73 ∗ , φ θ 74 ∗ ’s, a , ehra oiõsielgcsd oo sidvdo oetd uuro ouseatores e comuns (usuários estudo do indivíduos os todos de estimar consegue ideológicas porque posições que robusto as mais afirmar é melhor possível t-Student É modelo o acuradas. transformada, menos escala e e na precisas precisas baseando-se menos mais e estimativas acuradas produz mais probit estimativas modelo produz o t-Student modelo o que note dos estimativas modelos, termos as em Comparando estimações intervalos. as dos entre tamanhos maior dos diferença nos uma diferença existir leve parece uma mas haver pontuais, parece estimativas 5.9, da painel segundo o para Olhando tamanhos de dos uma termos em Assumiu-se diferença leve intervalos. uma dos existir parece mas pontuais, estimativas das termos painel. cada de médias as As representam paineis médias. φ primeiros pelas dois dadas nos pontuais vermelho estimativas em das tracejadas 97,5% linhas quantil ao 2,5% quantil do engloba que (“ verdadeiros Valores 5.9: Figura

∗ −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 √ = aeenoeitrtna ieeçsnos diferenças tantas existir não parece 5.9, da painel primeiro o com acordo De φ θ ● ● 1 * 1 * ● ● γ √ ● ● eo valores pelos ● ● γφ φ θ ● ● 5 * 5 * Modelo Logit Modelo Logit ● ● respectivamente, , ● ● ● ● θ φ ● ● 74 * 9 * ● ● ● ● ● ● θ φ ● ● 138 * 13 * ● ● posteriori a ● ● ● ● θ φ ● ● 197 * 17 * ● ● ● ● ● ● µ θ ∗

e −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 dos µ priori × φ ∗ φ θ ● ● au) éi a médias das média "azul), smdlslgt rbtetSuetsocmaao em comparados são t-Student e probit logit, modelos Os . 1 * 1 * ● ● θ ● ● ss creaádfrnan mltd o intervalos. dos amplitude na diferença acarretará só ’s ● ● φ θ o éi aaos para 0 média com ● ● Modelo Probit Modelo Probit 5 * 5 * ● ● ● ● ● ● 56 θ φ ● ● 74 * 9 * ● ● ● ● ● ● θ φ ● ● 138 * 13 * ● ● ● ● ● ● θ φ ● ● 197 * 17 * ● ● ● ● ● ● posteriori a θ ∗ θ se ’s s o soamultiplicação a isso por e ’s, −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 φ θ ● ● φ 1 * 1 * ● ● ∗ ● ● spouia eo três pelos produzidas ’s ● ● Modelo t−Student Modelo t−Student φ θ ● ● 5 * 5 * ● ● cruo intervalo e (círculo) ● ● φ ● ● se emsdas termos em ’s θ φ ● ● 74 * 9 * ● ● ● ● ● ● θ θ φ ● ● ∗ 138 * 13 * ● ● = ● ● ● ● θ √ θ φ ● ● sem ’s 197 * 17 * ● ● γθ ● ● ● ● e políticos). A Figura 5.10 apresenta as probabilidades de seguimento verdadeiras e estimadas. É possível notar que as probabilidades estão sendo bem estimadas pelos modelos logit e t-Student.

Modelo logit Modelo probit Modelo t−Student

1000 Probabilidade 1000 Probabilidade 1000 Probabilidade verdadeira verdadeira verdadeira Probabilidade Probabilidade Probabilidade estimada estimada estimada 600 600 600 Frequência Frequência Frequência 200 200 200 0 0 0 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1

Figura 5.10: Probabilidades de seguimento verdadeiras e estimadas.

Considerando os dados logit, observou-se que o modelo t-Student produziu as estimativas mais acuradas para os parâmetros e hiperparâmetros avaliados, mas menos precisas. O objetivo principal sempre foi produzir estimativas acuradas, buscando, sempre que possível, aumentar a precisão das estimativas. O ideal, então, seria buscar um modelo que produzisse ao mesmo tempo estimativas acuradas e precisas. O modelo logit foi o que melhor cumpriu esse papel para os dados logit.

5.2.2 Cenário 2

Nesta seção serão descritos os resultados obtidos pelo ajuste dos dados probit aos três modelos apresentados nesta dissertação. O primeiro painel da Figura 5.11 mostra que as estimativas dos α’s estão próximas de zero em todas as estimações. Comparando as estimativas dos α’s produzidas pelos três modelos, note que o modelo probit é o que produz estimativas mais acuradas e precisas. Observe que a variabilidade dos α’s nos modelos logit e probit é menor que a variabilidade no modelo t-Student. Comparando o ajuste probit e logit, perceba que os α’s avaliados apresentam 2t−Student 2logit 2probit maior variabilidade sob o ajuste do modelo logit. Espera-se que σˆα > σˆα > σˆα . 2 O terceiro painel mostra que a média das médias a posteriori de σα é menor sob o ajuste do modelo probit e maior sobre o ajuste do modelo t-Student corroborando o que foi dito acima. 2probit 2logit 2t−Student Em termos de valores, σˆα = 0, 21, σˆα = 0, 63 e σˆα = 1, 23.

57 slna rcjdse emlonsdi rmio ani ersna smda de médias as representam paineis primeiros dois nos vermelho em tracejadas linhas As o jsed oeopoi,póia edi,sboaut omdl oi rxmsd três que de esperar próximas se e valores, de logit de É modelo do t-Student. ajuste modelo o do sob ajuste dois, o de sob próximas probit, modelo do ajuste o sob médias. pelas respectivamente, dadas pontuais estimativas das 97,5% quantil ao 2,5% quantil do engloba que (“ verdadeiros Valores 5.11: Figura 0 1 2 3 −1 0 1 2 3 4 5 6 −3 −2 −1 0 1 2 3 msr u setmtvsdos estimativas as que mostra 5.11 Figura da painel segundo O α β ● ● 1 1 ● ● ● ● ● ● α β ● ● µ 5 ● 5 Modelo logit Modelo logit Modelo logit ● ● β µ ● ● ˆ ● ● β probit α β ● ● 74 9 σ ● ● ● α 2 ● ● µ ● ● 1 = α α β ● ● 138 13 ● ● e σ ● ● ● , µ β 2 ● ● 01 β α β ● ● smdlslgt rbtetSuetsocmaao mcd painel. cada em comparados são t-Student e probit logit, modelos Os . 197 17 ● ● , ● ● µ ˆ ● ● β logit

1 = 0 1 2 3 −1 0 1 2 3 4 5 6 −3 −2 −1 0 1 2 3 × α β ● ● , 1 1 au) éi a médias das média "azul), ● ● 74 ● ● ● ● e α β ● ● µ Modelo probit Modelo probit Modelo probit 5 ● 5 ● ● β µ ˆ ● ● β t − ● ● 58 α Student β ● ● 74 9 σ ● ● ● α 2 ● ● ● ● α β ● ● 138 13 ● ● 2 = σ ● ● µ ● ˆ β 2 ● ● β t α β − ● ● , 197 17 Student ● ● 37 ● ● ● ● . posteriori a

> 0 1 2 3 −1 0 1 2 3 4 5 6 −3 −2 −1 0 1 2 3 µ ˆ α β β ● ● β logit 1 1 ● ● setopóia eum, de próximas estão ’s ● ● ● ● Modelo t−Student Modelo t−Student Modelo t−Student α β > ● ● µ 5 ● 5 ● ● β cruo intervalo e (círculo) ● ● µ ˆ ● ● β probit α β ● ● 74 9 σ ● ● ● α 2 ● ● mtermos Em . ● ● α β ● ● 138 13 ● ● σ ● ● ● β 2 ● ● α β ● ● α 197 17 ● ● e ● ● ● ● β , As estimativas dos β’s em termos de acurácia e precisão possuem as mesmas características das estimativas dos α’s. A variabilidade dos β’s nos modelos logit e probit é menor que a variabilidade no modelo t-Student. Comparando o ajuste probit e logit, perceba que os β’s avaliados apresentam maior variabilidade sob o ajuste do modelo logit. Espera-se que 2t−Student 2logit 2probit 2probit 2logit σˆβ > σˆβ > σˆβ . Em termos de valores, σˆβ = 0, 31, σˆβ = 0, 92 e 2t−Student 2 2 σˆβ = 1, 74. Comparando as estimativas dos hiperparâmetros µβ, σα e σβ produzidas pelos três modelos, note que o modelo probit é o que produz estimativas mais acuradas e precisas. De acordo as análises feitas, não é possível afirmar que os α’s e β’s diferem nas três estimações devido à sobreposição dos intervalos. Na Figura 5.12 são mostrados os gráficos dos valores verdadeiros versus os valores estimados (média a posteriori) dos α’s. Os resultados confirmam que os α’s são satisfatoriamente estimados, independente do modelo utilizado e parece não haver diferenças significativas entre eles nas três estimações. A Figura 5.13 apresenta os erros quadráticos médios e as taxas de cobertura dos α’s e β’s. Neste Cenário 2, espera-se que o modelo probit produza menores erros quadráticos médios e maiores taxas de cobertura, por ser o modelo gerador dos dados. Os gráficos apresentados na Figura 5.13 corroboram essa suposição pois os EQM’s são menores sob o ajuste do modelo probit para todos os α’s e β’s. Observando as taxas de cobertura, note que os modelos logit e t-Student produzem as maiores taxas de cobertura para os α’s, e modelo probit produz as maiores taxas para os β’s.

α Modelo logit α Modelo probit α Modelo t−Student 2 2 2

● ● ●● ● ●● ● ●● ●● ● 1 ● 1 1 ● ●● ●● ●●● ●● ● ●● ●● ● ●●● ●● ●● ●●●● ●●●● ● ●●●●●● ●●●● ● ●● ●●●●● ●●●●●● ●● ●●● ●●●● ●●●● ●● ●●● ● ●●●●● ●●●●● ● ●●●● ● ●●●●● ●● ●●●●●●●●● ●●●●● ●●●●●● ●●●●● ●● ●●●●● ●●●● ●●●●●●●● ●●●● ●●●●●●● ● ●●●●●●●●● ● ●●●●● ● 0 ●●●●● 0 ●●●●●● ● 0 ●●●● ●●●●●● ● ●●●●●●●● ● ●●●●● ●●● ●●●●●●●●● ●●●●● ● ●●●●●●● ● ●●●●●●●● ●● ●●● ●●●●●● ●●●● ● ●●●●●● ● ●●●●●● ● ●●●● ●● ●●● ●●●●● ● ● ● ●● ●●● ●●●●●● ● ● ● ●●● ●●● ● ●●●●● ●● ● ● ● ●●●● ●●●● ● ●● ● ● ● ● ●●● ● ●● ● ●● −1 ● −1 −1 ● ● ● ●

−2 −2 −1 0 1 2 −2 −2 −1 0 1 2 −2 −2 −1 0 1 2 Média das médias a posteriori de Valor verdadeiro de α Média das médias a posteriori de Valor verdadeiro de α Média das médias a posteriori de Valor verdadeiro de α

Figura 5.12: Valores verdadeiros versus valores estimados dos α’s.

59 EQM Taxa de cobertura 1.5 logit logit probit ● t−Student

probit ●●●●●●●●●●●●●●●●●●●●●●●● ●● ●●●● ●● ●●●●●●●● ●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●● ●●●●●●●●●●●●●●●●●●●● ●●●●● ●●● ● ● ● ● ●● ●●●● ●●●●●●● ●●●●● ●● ●● ●● ● ● ● ● ●●● ●●●● ●● ●●●●●● ● ●● ●● ● ●● ● ● ● ●●● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● t−Student 100% ● 80% 1 60% 40% 0.5

● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●● ● ● 20% ● ●● ●●●●● ● ●● ● ● ●●● ● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●● ●● ●●● ● ●●●● ●●●●●● ● ● ●● ● ●● ● ●● ●●● ●●● ●●●● ●● ●●●●●●● ● ● ●● ●● ● ● ● ●●●●●● ●●● ● ●● ●● ●● ● ● ● ●● ●●● ●● ● ● ● ● ● ●●●● ● ●● ● ●●●● ● ●● ●●● ●●●●●●● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 0% 1 50 100 150 200 1 50 100 150 200 α α

EQM Taxa de cobertura 8 logit logit probit ● t−Student

probit ● ● ● t−Student 100% ●

● 6

80% ●

● ● 4 60%

● ●

● ● 40% ● 2

● ● ● ● ● 20% ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 0% 1 5 10 15 20 1 5 10 15 20 β β

Figura 5.13: Erro quadrático médio (EQM) e taxa de cobertura dos α’s e dos β’s relativos às 100 réplicas simuladas do modelo probit.

A Figura 5.14 apresenta um resumo das estimativas pontuais e intervalares das médias a posteriori de uma parcela dos θ’s, dos φ’s e dos hiperparâmetros relativos à φ, obtidas pelo ajuste das 100 réplicas simuladas do modelo probit aos modelos logit, probit e t-Student. Os dois primeiros painéis da Figura 5.14 mostram que não existem diferenças entre os θ’s e φ’s, nem em termos das estimativas pontuais (média das médias a posteriori), nem termos de tamanho do intervalo, mas essa diferença era esperada.

De acordo com o terceiro painel da Figura 5.14, percebe-se que o parâmetro µφ está sendo 2 bem estimado nos três modelos e o parâmetro σφ está sendo subestimado nos três modelos. Em probit logit t−Student termos de valores, µˆφ = 0, 07, µˆφ = 0, 07, µˆφ = 0, 08 estão próximos do valor 2probit 2logit 2t−Student verdadeiro de µφ, que é 0. As estimativas σˆφ = 2, 19, σˆφ = 2, 20 e σˆφ = 2, 23 confirmam que o parâmetro está sendo subestimado nos três ajustes.

60 slna rcjdse emlonsdi rmio ani ersna smda de médias as representam paineis primeiros dois nos vermelho em tracejadas linhas As u nlb oqatl25 oqatl9,%dsetmtvspnui aa ea médias. pelas respectivamente, dadas pontuais estimativas das 97,5% quantil ao 2,5% quantil do engloba que (“ verdadeiros Valores 5.14: Figura 0 1 2 3 4 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 φ θ ● ● 1 1 ● ● ● ● ● ● φ θ ● ● µ 5 5 ● Modelo logit Modelo logit Modelo logit ● ● φ ● ● ● ● θ φ ● ● 74 9 ● ● ● ● µ ● ● θ θ φ ● ● 138 13 e ● ● σ ● ● ● µ φ 2 ● ● φ θ φ ● ● smdlslgt rbtetSuetsocmaao mcd painel. cada em comparados são t-Student e probit logit, modelos Os . 197 17 ● ● ● ● ● ●

0 1 2 3 4 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 × φ θ ● ● 1 1 au) éi a médias das média "azul), ● ● ● ● ● ● φ θ ● ● µ Modelo probit Modelo probit Modelo probit 5 5 ● ● ● φ ● ● ● ● 61 θ φ ● ● 74 9 ● ● ● ● ● ● θ φ ● ● 138 13 ● ● σ ● ● ● φ 2 ● ● θ φ ● ● 197 17 ● ● ● ● ● ● posteriori a

0 1 2 3 4 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 φ θ ● ● 1 1 ● ● ● ● ● ● Modelo t−Student Modelo t−Student Modelo t−Student φ θ ● ● µ 5 5 ● ● ● φ cruo intervalo e (círculo) ● ● ● ● θ φ ● ● 74 9 ● ● ● ● ● ● θ φ ● ● 138 13 ● ● σ ● ● ● φ 2 ● ● θ φ ● ● θ 197 17 ● ● e ● ● ● ● φ , θ Modelo logit θ Modelo probit θ Modelo t−Student 3 3 3

● ● ● ● ● ●

2 ● 2 ● 2 ●● ●● ●●● ●●●● ●●●● ● ● ● ●●●● ●●● ●●● ●● ●●● ● ●●● ● ●●●●● ●● ●● ●● ●●●● ●●●● ●●● ● ● ●●● 1 ● 1 ● 1 ●●● ●●● ●●● ●● ●● ●● ●● ●●● ●●● ●●● ●●● ●●● ●●● ●●●● ●●●● ●●●● ●●●● ●●●● ●●●● ●●●● ●●●● ●●●● ●●● ●●● ●●● 0 ●● 0 ●● 0 ● ●●●● ●●● ●●●●● ●●●● ●●●●● ●●●● ●●●● ●●●● ●●●●● ●●● ●●● ●●●● ●●●● ●●●● ●●●● ●● ●● ● ●●● ●●●● ●●●● ●●● ●●● ●●● ●●● ●●● ●● ●●● ●●● ●● ●●●● ●●●● ●●●● −1 ● −1 ● −1 ●● ●●●● ●●●● ●●●● ●●●●● ●●●●● ●●●● ●● ●● ●●● ● ● ● ● ● ● ● ● ● ● ●●

−2 ● −2 ● −2 −3 −3 −3

Média das médias a posteriori de −3 −2 −1 0 1 2 3 Média das médias a posteriori de −3 −2 −1 0 1 2 3 Média das médias a posteriori de −3 −2 −1 0 1 2 3 Valor verdadeiro de θ Valor verdadeiro de θ Valor verdadeiro de θ

Figura 5.15: Valores verdadeiros versus valores estimados dos θ’s.

EQM Taxa de cobertura 0.4 logit logit probit ● t−Student

probit ● ●● ● ● ●● ● ● ● ●●●● ● ● ●●● ●● ● ● ● ●●● ● ●●●●● ●●● ●●●● ● ●●●● ●●● ●●●● ● ●● ●● ●● ●●●● ● ● ●● ●●●● ●●●●●●● ●● ● ●● ● ● ●●● ●●●●● ●●● ●●● ● ● ●●● ●● ● ●● ● ● ●● ●●● ●●● ● ●●● ●● ● ●●● ●● ● ● ●●●●●● ● ● ● ●● ● ●●●●● ●●● ● ●● ● ●●●●●● ●● ● ● ●● ●● ●●●●● ●● ● ● ● t−Student 100% ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● 0.3 ● ●

● 80%

● ●

● 60%

0.2 ●

● ● ● ● ● ● ● ●● ● ● ● ●

● ● 40% ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●

0.1 ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●●● ● ● ●●● ●● ● ● ● ●● ● ●● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ●●●● ● ●● ●●● ● ● ● ● ● ● ● 20% ● ● ● ●● ● ● ● ● ● ●● ● ● ●● ● ● ●● ● ● ● ● ●● ●● ●● ●● ●●● ● ● ●● ● ● ●● ● ● ● ● ●● ●●● ● ●● ● ● ● ● ● ● 0 0% 1 50 100 150 200 1 50 100 150 200 θ θ

EQM Taxa de cobertura 0.1 logit logit probit ● t−Student

probit ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

100% ● t−Student ● ● 80%

● 60% 0.05

● ● 40%

● ● ● ● ● ● ● ● ● ● ● ● ● ● 20% ● ● 0 0% 1 5 10 15 20 1 5 10 15 20 φ φ

Figura 5.16: Erro quadrático médio (EQM) e taxa de cobertura dos θ’s e dos φ’s relativos às 100 réplicas simuladas do modelo probit.

62 Na Figura 5.15 são apresentados os valores verdadeiros versus os valores estimados (média a posteriori) de todos os θ’s. Note que os θ’s são satisfatoriamente estimados, independente do modelo utilizado e parece não haver diferenças significativas entre eles nas três estimações. A Figura 5.16 apresenta os erros quadráticos médios e as taxas de cobertura dos θ’s e φ’s. Assim como descrito para os α’s e β’s, espera-se que o modelo gerador dos dados, no caso probit, produza menores os erros quadráticos médios e as maiores taxas de cobertura para θ’s e φ’s. Os gráficos da Figura 5.16 corroboram essa suposição pois os EQM’s são menores sob o ajuste do modelo probit para todos os θ’s e φ’s. O modelo t-Student foi o que produziu maiores EQM’s para os θ’s e φ’s. Analisando as taxas de cobertura, note que todos os três modelos produzem taxas relativamente altas. Acredita-se que o parâmetro γ possa estar influenciando na estimação dos θ’s e φ’s, funcionando como um fator de acomodação. A Figura 5.17 apresenta um resumo das estimativas pontuais e intervalares das médias a posteriori do parâmetro γ, obtidas pelo ajuste das 100 réplicas simuladas do modelo probit aos três modelos.

Dados probit 2.5

2 ●

1.5 ● 1

0.5 γ γ logit probit γt−Student

Figura 5.17: Média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias. A linha tracejada em vermelho representa o valor verdadeiro de γ, 0,8, utilizado para a simulação dos dados probit.

Pela Figura 5.17 é possível notar que a estimativa pontual e os intervalos de γ foram diferentes em cada modelo. Como era de se esperar, o modelo probit produz uma estimativa mais

acurada, isto é, mais próxima do valor verdadeiro. Em termos de valores, tem-se que γˆlogit = γ γ γ γ 1, 38 e (q0,025, q0,975)logit = (1, 21; 1, 52), γˆprobit = 0, 79 e (q0,025, q0,975)probit = (0, 7; 0, 87) e γ γ γˆt−Student = 1, 94 e (q0,025, q0,975)t−Student = (1, 7; 2, 2). Os intervalos obtidos sob o ajuste

dos três modelos não se sobrepõem, então pode-se afirmar que γlogit, γprobit e γt−Student são significativamente diferentes.

63 oetd uuro ouseaoe oíio) osdrnoo ao rbt bevus que observou-se probit, dados os Considerando indivíduos políticos). os atores todos e de comuns ideológicas (usuários posições estudo as do probit melhor modelo estimar o consegue transformada, porque escala robusto na mais baseando-se é que afirmar possível É precisas. e acuradas dos estimativas as Comparando intervalos. e dos tamanhos dos termos em estimações leve as uma entre haver parece , 5.18 da painel segundo nos o diferença para Olhando intervalos. dos diferenças tamanhos tantas dos existir não parece 5.18, da painel primeiro nos o com acordo De probit. modelo φ painel. cada de médias as As representam paineis médias. φ primeiros pelas dois dadas nos pontuais vermelho estimativas em das tracejadas 97,5% linhas quantil ao 2,5% quantil do engloba que (“ verdadeiros Valores 5.18: Figura ∗ ∗

φ −4 −2 0 2 4 −3 −2 −1 0 1 2 3 setmdssboaut o oeo oi,poi -tdn aa10rpia iuaa do simuladas réplicas 100 para t-Student e probit logit, modelos dos ajuste o sob estimados ’s = ∗ arsnau euod distribuição da resumo um apresenta 5.18 Figura A φ θ ● ● θ spouia eo rsmdls oeqeomdl rbtéoqepou siaia mais estimativas produz que o é probit modelo o que note modelos, três pelos produzidas ’s 1 * 1 * ● ● s mtro a siaia otas a aeeeitrualv ieeç mtermos em diferença leve uma existir parece mas pontuais, estimativas das termos em ’s, √ ● ● ● ● γφ φ θ ● ● 5 * 5 * Modelo Logit Modelo Logit ● ● respectivamente, , ● ● ● ● θ φ ● ● φ 74 * 9 * ● ● se emsdsetmtvspnui,msprc xsi m ieeç maior diferença uma existir parece mas pontuais, estimativas das termos em ’s ● ● ● ● θ φ ● ● 138 * 13 * ● ● ● ● ● ● θ φ ● ● 197 * 17 * ● ● ● ● ● ● µ θ ∗

e −4 −2 0 2 4 −3 −2 −1 0 1 2 3 µ × φ ∗ φ θ ● ● smdlslgt rbtetSuetsocmaao em comparados são t-Student e probit logit, modelos Os . 1 * 1 * au) éi a médias das média "azul), ● ● ● ● ● ● φ θ ● ● Modelo Probit Modelo Probit 5 * 5 * ● ● ● ● ● ● 64 θ φ ● ● 74 * 9 * ● ● ● ● ● ● θ φ ● ● 138 * 13 * ● ● ● ● ● ● θ φ ● ● posteriori a 197 * 17 * ● ● ● ● ● ● posteriori a

−4 −2 0 2 4 −3 −2 −1 0 1 2 3 φ θ ● ● 1 * 1 * ealguns de ● ● ● ● ● ● Modelo t−Student Modelo t−Student φ θ ● ● 5 * 5 * ● ● cruo intervalo e (círculo) ● ● ● ● θ φ ● ● 74 * 9 * ● ● θ ● ● ∗ setdsos todos e ’s ● ● θ θ φ ● ● ∗ 138 * 13 * ● ● = ● ● ● ● √ θ φ ● ● 197 * 17 * ● ● γθ θ ● ● ∗ ● ● ’s e o modelo probit produziu as estimativas mais acuradas e mais precisas para os parâmetros e hiperparâmetros avaliados. A Figura 5.19 apresenta as probabilidades de seguimento verdadeiras e estimadas. É possível notar que as probabilidades estão sendo bem estimadas pelos modelos logit e t-Student.

Modelo logit Modelo probit Modelo t−Student

1000 Probabilidade 1000 Probabilidade 1000 Probabilidade verdadeira verdadeira verdadeira Probabilidade Probabilidade Probabilidade estimada estimada estimada 600 600 600 Frequência Frequência Frequência 200 200 200 0 0 0 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1

Figura 5.19: Probabilidades de seguimento verdadeiras e estimadas.

5.2.3 Cenário 3

Nesta seção serão descritos os resultados obtidos pelo ajuste dos dados t-Student aos três modelos apresentados nesta dissertação. O primeiro painel da Figura 5.20 mostra que as estimativas dos α’s estão próximas de zero em todas as estimações, como esperado. Comparando as estimativas dos α’s produzidas pelos três modelos, note que o modelo t-Student produz estimativas mais acuradas e menos precisas e o modelo probit produz estimativas mais precisas e menos acuradas. Observe que a variabilidade dos α’s nos modelos logit e probit é menor que a variabilidade no modelo t-Student. Comparando o ajuste probit e logit, perceba que os α’s avaliados apresentam 2t−Student 2logit 2probit maior variabilidade sob o ajuste do modelo logit. Espera-se que σˆα > σˆα > σˆα . 2 O terceiro painel mostra que a média das médias a posteriori de σα é menor sob o ajuste do modelo probit e maior sobre o ajuste do modelo t-Student corroborando o que foi dito acima. 2probit 2logit 2t−Student Em termos de valores, σˆα = 0, 05, σˆα = 0, 14 e σˆα = 0, 20. O segundo painel da Figura 5.20 mostra que as estimativas dos β’s estão próximas de um em todas as estimações. Parece que sob o ajuste do modelo probit os β’s estão sendo t−Student logit probit consistentemente subestimados. É de se esperar que µˆβ > µˆβ > µˆβ . Em termos probit logit t−Student de valores, µˆβ = 0, 5, µˆβ = 0, 85 e µˆβ = 1, 01.

65 slna rcjdse emlonsdi rmio ani ersna smda de médias as representam paineis primeiros dois nos vermelho em tracejadas linhas As u nlb oqatl25 oqatl9,%dsetmtvspnui aa ea médias. pelas respectivamente, dadas pontuais estimativas das 97,5% quantil ao 2,5% quantil do engloba que (“ verdadeiros Valores 5.20: Figura 0 1 2 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 α β ● ● 1 1 ● ● ● ● ● ● α β ● ● µ 5 ● 5 Modelo logit Modelo logit Modelo logit ● ● β ● ● ● ● α β ● ● 74 9 σ ● ● ● α 2 ● ● µ ● ● α α β ● ● 138 13 ● ● e σ ● ● ● µ β 2 ● ● β α β ● ● smdlslgt rbtetSuetsocmaao mcd painel. cada em comparados são t-Student e probit logit, modelos Os . 197 17 ● ● ● ● ● ●

0 1 2 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 × α β ● ● 1 1 au) éi a médias das média "azul), ● ● ● ● ● ● α β ● ● µ Modelo probit Modelo probit Modelo probit 5 ● 5 ● ● β ● ● ● ● 66 α β ● ● 74 9 σ ● ● ● α 2 ● ● ● ● α β ● ● 138 13 ● ● σ ● ● ● β 2 ● ● α β ● ● 197 17 ● ● ● ● ● ● posteriori a

0 1 2 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 α β ● ● 1 1 ● ● ● ● ● ● Modelo t−Student Modelo t−Student Modelo t−Student α β ● ● µ 5 ● 5 ● ● β cruo intervalo e (círculo) ● ● ● ● α β ● ● 74 9 σ ● ● ● α 2 ● ● ● ● α β ● ● 138 13 ● ● σ ● ● ● β 2 ● ● α β ● ● α 197 17 ● ● e ● ● ● ● β , As estimativas dos β’s em termos de acurácia e precisão possuem as mesmas características das estimativas dos α’s. A variabilidade dos β’s nos modelos logit e probit é menor que a variabilidade no modelo t-Student. Comparando o ajuste probit e logit, perceba que os β’s avaliados apresentam maior variabilidade sob o ajuste do modelo logit. Espera-se que 2t−Student 2logit 2probit 2probit 2logit σˆβ > σˆβ > σˆβ . Em termos de valores, σˆβ = 0, 13, σˆβ = 0, 32 e 2t−Student 2 2 σˆβ = 0, 29. Comparando as estimativas dos hiperparâmetros µβ, σα e σβ produzidas pelos três modelos, note que o modelo t-Student produz estimativas mais acuradas e menos precisas e o modelo probit produz estimativas mais precisas e menos acuradas.

α Modelo logit α Modelo probit α Modelo t−Student 1.5 1.5 1.5 1 1 1

● ● ● ●● 0.5 ●● ● 0.5 0.5 ●● ●● ●● ● ● ●●● ● ● ● ● ●●●●●● ●● ● ●●●●●●●●● ●● ● ●● ●● ●●●●●●●●● ● ●●●●●●●●●●● ● ●●●●●●●● ●●●●● ●●●●●●●●●● ●● ●●●●●●●●●●●● ●●● ●●●●●●●●●●●●●●●●●●● ● ●●●●●●●●●●●● ●● ●●●●●●●●●●●● ●● ●●●●●●●●●●●●●●●●●● ●● ●●●●●●●●●● ●●●●●●●● ●●● ● ●●●●●●●●●●●●●● ●●● ● ● ●●●●●●●●●●● ● ●●●●●●●●●● ● ● ● ●●●●●●●●●●● ● ● ●●●●●●●● ● ●● ●●●●●●●● ● ● ●● ● ● ●● ●● ●● ● ●●●●●●●● ●●●●●● ● ●● ● ● ●●●●●● ●● ●● ● ● ●● ●●● ● ● ●● ● ● ● −0.5 −0.5 −0.5

−1.5 −0.5 0.5 1 1.5 −1.5 −0.5 0.5 1 1.5 −1.5 −0.5 0.5 1 1.5 Média das médias a posteriori de Valor verdadeiro de α Média das médias a posteriori de Valor verdadeiro de α Média das médias a posteriori de Valor verdadeiro de α

Figura 5.21: Valores verdadeiros versus valores estimados dos α’s.

Na Figura 5.21 são mostrados os gráficos dos valores verdadeiros versus os valores estimados (média a posteriori) dos α’s. Os resultados confirmam que os α’s são satisfatoriamente estimados, independente do modelo utilizado e parece não haver diferenças significativas entre eles nas três estimações. A Figura 5.22 apresenta os erros quadráticos médios e as taxas de cobertura dos α’s e β’s. Neste Cenário 3, espera-se que o modelo t-Student produza menores erros quadráticos médios e maiores taxas de cobertura, por ser o modelo gerador dos dados. Os gráficos apresentados na Figura 5.22 corroboram essa suposição pois os EQM’s são menores sob o ajuste do modelo probit para todos os α’s e β’s. Observando as taxas de cobertura, note que o modelo probit é o que produz as menores taxas para os α’s e β’s e o modelo t-Student é o que produz as maiores taxas.

67 EQM Taxa de cobertura 1.5 logit logit probit ● t−Student

probit ●●●●●●●●●●●●● ●●●● ●●●●●● ●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●● ● ●● ●● ● ●● ●●● ● ●● ● ● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● t−Student 100% ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 80% 1 ● ● ● ● ● ● ●

● ● ● ● 60% ● ●● ● ● ● ● ● ● ● ● ●

● ● 40% 0.5 ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 20% ● ● ● ● ● ● ● ● ●●●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ●● ● ● ●● ●●●●● ● ● ● ● ● ● ●● ● ● ●●● ● ● ●● ●● ● ●● ●● ● ●● ●●● ●●● ● ● ●●●● ●● ●● ●●● ● ● ● ●●●● ● ●● ●● ●● ● ●●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● 0 0% 1 50 100 150 200 1 50 100 150 200 α α

EQM Taxa de cobertura 3 logit logit probit ● t−Student

probit ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● t−Student 100% ● ● 80% 2

● ● 60% 1 40% ●

● 20% ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 0% 1 5 10 15 20 1 5 10 15 20 β β

Figura 5.22: Erro quadrático médio (EQM) e taxa de cobertura dos α’s e dos β’s relativos às 100 réplicas simuladas do modelo t-Student.

A Figura 5.23 apresenta um resumo das estimativas pontuais e intervalares das médias a posteriori de uma parcela dos θ’s, dos φ’s e dos hiperparâmetros relativos à φ, obtidas pelo ajuste das 100 réplicas simuladas do modelo probit aos modelos logit, probit e t-Student. Os dois primeiros painéis da Figura 5.23 mostram que não existem diferenças entre os θ’s e φ’s, nem em termos das estimativas pontuais (média das médias a posteriori), nem termos de tamanho do intervalo, mas essa diferença era esperada.

De acordo com o terceiro painel da Figura 5.23, percebe-se que o parâmetro µφ está 2 sendo bem estimado nos três modelos e o parâmetro σφ está sendo bem estimado pelos modelos logit e probit, pois eles estão produzindo estimativas acuradas. Em termos de valores, probit logit t−Student µˆφ = 0, 07, µˆφ = 0, 06, µˆφ = 0, 07 estão próximos do valor verdadeiro de µφ, que 2probit 2logit 2t−Student é 0 e σˆφ = 2, 66, σˆφ = 2, 55 e σˆφ = 2, 20.

68 slna rcjdse emlonsdi rmio ani ersna smda de médias as representam paineis primeiros dois nos vermelho em tracejadas linhas As u nlb oqatl25 oqatl9,%dsetmtvspnui aa ea médias. pelas respectivamente, dadas pontuais estimativas das 97,5% quantil ao 2,5% quantil do engloba que (“ verdadeiros Valores 5.23: Figura 0 1 2 3 4 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 φ θ ● ● 1 1 ● ● ● ● ● ● φ θ ● ● µ 5 5 ● Modelo logit Modelo logit Modelo logit ● ● φ ● ● ● ● θ φ ● ● 74 9 ● ● ● ● µ ● ● θ θ φ ● ● 138 13 e ● ● σ ● ● ● µ φ 2 ● ● φ θ φ ● ● smdlslgt rbtetSuetsocmaao mcd painel. cada em comparados são t-Student e probit logit, modelos Os . 197 17 ● ● ● ● ● ●

0 1 2 3 4 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 × φ θ ● ● 1 1 au) éi a médias das média "azul), ● ● ● ● ● ● φ θ ● ● µ Modelo probit Modelo probit Modelo probit 5 5 ● ● ● φ ● ● ● ● 69 θ φ ● ● 74 9 ● ● ● ● ● ● θ φ ● ● 138 13 ● ● σ ● ● ● φ 2 ● ● θ φ ● ● 197 17 ● ● ● ● ● ● posteriori a

0 1 2 3 4 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 φ θ ● ● 1 1 ● ● ● ● ● ● Modelo t−Student Modelo t−Student Modelo t−Student φ θ ● ● µ 5 5 ● ● ● φ cruo intervalo e (círculo) ● ● ● ● θ φ ● ● 74 9 ● ● ● ● ● ● θ φ ● ● 138 13 ● ● σ ● ● ● φ 2 ● ● θ φ ● ● θ 197 17 ● ● e ● ● ● ● φ , θ Modelo logit θ Modelo probit θ Modelo t−Student 3 3 3

2 2 2 ● ● ● ●● ● ●● ● ●● ●● ● ● ●● ●● ● ● ●●●● ●●● ●● ●●●●● ●●●●● ●●●●● ●●●● ●●●● ●●● ●●●● ● ●●● ● ●●●● ●● ●● ● 1 ● 1 ●● 1 ● ●●● ●●● ●●● ●● ●● ● ●●● ●●● ●●●● ●●●●●● ●●●●● ●●●●●● ●●●●● ●●●●● ●●●● ●●● ●●● ●●●● ●●●● ●●●● ●●●● ●●●●● ●●●●● ●●●●● ●●● ●●● ●●● 0 ●●●●● 0 ●●●●● 0 ●●●●●● ●●● ●●● ●●●● ●●●●● ●●●●● ●●●●●●● ●●●●● ●●●●● ●●●●● ●●●●● ●●●●● ●●●●●● ●● ●● ●● ●●●●● ●●●●● ●●●● ●●● ●●● ●●● ●●● ●●● ●●● ●●●●● ●●●●●● ●●●●● ●●●●●● ●●●●● ●●●●●● −1 ●●● −1 ●●●●●● −1 ●●●● ●●●●● ● ● ●●●●● ● ●● ● ● ● ● ●● −2 −2 −2 −3 −3 −3

Média das médias a posteriori de −3 −2 −1 0 1 2 3 Média das médias a posteriori de −3 −2 −1 0 1 2 3 Média das médias a posteriori de −3 −2 −1 0 1 2 3 Valor verdadeiro de θ Valor verdadeiro de θ Valor verdadeiro de θ

Figura 5.24: Valores verdadeiros versus valores estimados dos θ’s.

EQM Taxa de cobertura 1.5 logit logit probit ● t−Student

probit ●● ● ● ● ●● ●● ● ●●● ●● ● ● ● ●● ●●●●●● ● ●● ●●●●●●● ●●●● ●●●● ● ●● ●● ●●●● ●●● ●●●● ● ● ● ●●● ● ●● ● ●●●●●●● ● ● ●●● ●●●●●● ●●●●●●●● ●● ●●●●●●● ●●●●●●●● ● ●●● ●●● ● ●●● ● ● ● ●●● ●●●● ●●●● ●● ●● ●●●●● ●● ● ●●●● ●● ● ● ● ● ● ●●● ● ● ● ● ●●●●● ● ● ● ● ● ● ● ● t−Student 100% ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●

● ● 80% 1

● 60%

● ● ● ● ● 40% 0.5 ●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● 20% ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ●● ●● ● ● ● ● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●●● ● ● ● ● ● ●● ● ● ●● ●● ●●●●●●●● ●● ● ● ● ● ● ●● ●●● ● ●●●● ●● ● ● ● ● ● ●● ●●● ● ● ● ● ●●●● ● ● ● ●● ● ●●●●● ●●● ●● ● ●● ● ● ● ●● ● ● ● ● ●●●●●● ● 0 0% 1 50 100 150 200 1 50 100 150 200 θ θ

EQM Taxa de cobertura 0.3 logit logit probit ● t−Student ● probit ● ● ● ● ● ● ● ● ● ● ● ● ● ● t−Student 100% ● ● ● ● ● ● 80% 0.2

● 60%

● 40% 0.1

● ●

● ● ● ● ● 20% ● ● ● ● ● ● ● ● ● ● 0 0% 1 5 10 15 20 1 5 10 15 20 φ φ

Figura 5.25: Erro quadrático médio (EQM) e taxa de cobertura dos θ’s e dos φ’s relativos às 100 réplicas simuladas do modelo t-Student.

70 Na Figura 5.24 são apresentados os valores verdadeiros versus os valores estimados (média a posteriori) de todos os θ’s. Note que os θ’s são satisfatoriamente estimados, independente do modelo utilizado e parece não haver diferenças significativas entre eles nas três estimações. A Figura 5.25 apresenta os erros quadráticos médios e as taxas de cobertura dos θ’s e φ’s. Assim como descrito para os α’s e β’s, espera-se que o modelo gerador dos dados, no caso t-Student, produza menores os erros quadráticos médios e as maiores taxas de cobertura para θ’s e φ’s. Os gráficos da Figura 5.25 corroboram essa suposição pois os EQM’s são menores sob o ajuste do modelo t-Student para todos os θ’s e φ’s. O modelo probit foi o que produziu maiores EQM’s para os θ’s e φ’s. Analisando as taxas de cobertura, note que todos os três modelos produzem taxas relativamente altas. A Figura 5.26 apresenta um resumo das estimativas pontuais e intervalares das médias a posteriori do parâmetro γ, obtidas pelo ajuste das 100 réplicas simuladas do modelo probit aos três modelos.

Dados t−student 1.2

● 0.8

● 0.3 γ γ logit probit γt−Student

Figura 5.26: Média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias. A linha tracejada em vermelho representa o valor verdadeiro de γ, 0,8, utilizado para a simulação dos dados t-Student.

Pela Figura 5.26 é possível notar que a estimativa pontual e os intervalos de γ foram diferentes em cada modelo. Como era de se esperar, o modelo probit produz uma estimativa mais

acurada, isto é, mais próxima do valor verdadeiro. Em termos de valores, tem-se que γˆlogit = γ γ γ γ 0, 54 e (q0,025, q0,975)logit = (0, 42; 0, 63), γˆprobit = 0, 3 e (q0,025, q0,975)probit = (0, 23; 0, 38) e γ γ γˆt−Student = 0, 79 e (q0,025, q0,975)t−Student = (0, 65; 0, 92). Os intervalos obtidos sob o ajuste

dos três modelos não se sobrepõem, então pode-se afirmar que γlogit, γprobit e γt−Student são significativamente diferentes. A Figura 5.27 apresenta um resumo da distribuição a posteriori de alguns θ∗’s e todos os φ∗’s estimados sob o ajuste dos modelos logit, probit e t-Student para 100 réplicas simuladas do

71 modelo t-Student. De acordo com o primeiro painel da 5.27, parece não existir tantas diferenças nos θ’s, em termos das estimativas pontuais, mas parece existir uma leve diferença em termos dos tamanhos dos intervalos. Olhando para o segundo painel da 5.27, parece haver uma leve diferença nos φ’s em termos das estimativas pontuais, mas parece existir uma diferença maior entre as estimações em termos dos tamanhos dos intervalos. Comparando as estimativas dos θ∗’s e φ∗’s produzidas pelos três modelos, note que o modelo t-Student é o que produz estimativas mais acuradas e precisas.

Modelo Logit Modelo Probit Modelo t−Student 3 3 3 2 2 2

● ● ● 1 1 1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 0 0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

−1 −1 ● −1 ● ● ● ● ● ● ● ● −2 −2 −2 −3 −3 −3 θ* θ* θ* θ* θ* θ* θ* θ* θ* θ* θ* θ* θ* θ* θ* 1 5 74 138 197 1 5 74 138 197 1 5 74 138 197

Modelo Logit Modelo Probit Modelo t−Student 3 3 3

● ● ● ● ● ● ● ● ● 2 ● 2 ● 2 ● ● ● ● ● ● ● ● ● ● ● ● ● 1 ● 1 1 ● ● ● ● ● ● ● ● 0 0 0

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −1 −1 −1 ● ● ● ● ● ● ● ● ● ● ● −2 −2 −2 ● −3 −3 −3 φ* φ* φ* φ* φ* φ* φ* φ* φ* φ* φ* φ* φ* φ* φ* 1 5 9 13 17 1 5 9 13 17 1 5 9 13 17

Figura 5.27: Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias. As linhas tracejadas em vermelho nos dois primeiros paineis representam as médias de θ∗ e φ∗, ∗ ∗ respectivamente, µθ e µφ. Os modelos logit, probit e t-Student são comparados em cada painel.

72 A Figura 5.28 apresenta as probabilidades de seguimento verdadeiras e estimadas. É possível notar que as probabilidades estão sendo bem estimadas pelos modelos logit e t-Student.

Modelo logit Modelo probit Modelo t−Student

1000 Probabilidade 1000 Probabilidade 1000 Probabilidade verdadeira verdadeira verdadeira Probabilidade Probabilidade Probabilidade estimada estimada estimada 600 600 600 Frequência Frequência Frequência 200 200 200 0 0 0 0 0.2 0.4 0.6 0.8 0 0.2 0.4 0.6 0.8 0 0.2 0.4 0.6 0.8

Figura 5.28: Probabilidades de seguimento verdadeiras e estimadas.

Considerando os dados t-Student, observou-se que o modelo t-Student produziu as estimativas mais acuradas para os parâmetros e hiperparâmetros avaliados, mas menos precisas. O objetivo principal sempre foi produzir estimativas acuradas, buscando, sempre que possível, aumentar a precisão das estimativas. O ideal, então, seria buscar um modelo que produzisse ao mesmo tempo estimativas acuradas e precisas. Olhando para as estimativas dos parâmetros e hiperparâmetros produzidas pelos modelo logit, é possível observar que elas possuem as mesmas precisões que as produzidas pelo modelo t-Student. Então o modelo t-Student parece ser o que produziu melhor ajuste.

5.2.4 Análise dos postos dos θ’s e φ’s

Como os valores verdadeiros dos θ’s e φ’s são conhecidos, foi possível ordená-los a fim de descobrir seus postos verdadeiros. Nesta seção, o interesse é avaliar se, ordenando as médias a posteriori dos parâmetros e calculando seus postos, serão obtidos postos semelhantes aos postos verdadeiros.

73 Tabela 5.7: Nomes, valores verdadeiros, postos e estatísticas de ordem referentes aos φ’s verdadeiros.

Parâmetro Valor verdadeiro Posto Est. ordem φ’s em ordem crescente

φ1 -1,00 6 φ(1) φ5

φ2 1,00 15 φ(2) φ4

φ3 -0,62 9 φ(3) φ6

φ4 -1,84 2 φ(4) φ10

φ5 -2,58 1 φ(5) φ11

φ6 -1,56 3 φ(6) φ1

φ7 -0,79 7 φ(7) φ7

φ8 0,04 10 φ(8) φ9

φ9 -0,77 8 φ(9) φ3

φ10 -1,53 4 φ(10) φ8

φ11 -1,01 5 φ(11) φ17

φ12 1,76 19 φ(12) φ16

φ13 1,75 18 φ(13) φ18

φ14 1,67 17 φ(14) φ19

φ15 1,06 16 φ(15) φ2

φ16 0,67 12 φ(16) φ15

φ17 0,44 11 φ(17) φ14

φ18 0,79 13 φ(18) φ13

φ19 1,00 14 φ(19) φ12

φ20 2,40 20 φ(20) φ20

É possível observar pela Tabela 5.7, que o menor valor dos φ’s é o φ5 e o maior é φ20.

Portanto, o posto verdadeiro de φ5 é 1 e o posto verdadeiro de φ20 é 20. Espera-se que, ordenando

as médias a posteriori dos φ’s após cada ajuste, o φ5 continue tendo posto 1 e o φ20 continue tendo posto 20. Para facilitar a representação e vizualização dos postos, serão plotados os postos

das estatísticas de ordem dos φ’s, isto é, de φ(1), ..., φ(20), pois se sabe que o φ(1) tem posto 1, o

φ(2) tem posto e e assim por diante. As Figuras 5.29, 5.30e 5.31 mostram que o ajuste dos dados logit, probit e t-Student aos três modelos produzem estimativas das médias a posteriori dos θ’s e φ’s, cujos postos são muito semelhantes aos postos verdadeiros. Portanto, pode-se afirmar que as estimativas das médias produzidas neste estudo de simulação não interferem na ordenação final dos usuários comuns e atores políticos. Se o objetivo de um pesquisador é apenas ordenar os indivíduos de acordo com suas posições ideológicas, qualquer um dos três modelos avaliados podem ser utilizados por cumprirem bem esse papel.

74 rdzdsarvsd jsedsddslgtastê modelos. três aos logit médias dados das dos postos ajuste dos do estimativas através das produzidas 97,5% quantil ao 2,5% quantil do médias engloba das postos dos Média 5.29: Figura Posto Posto Posto 1 50 100 150 200 1 5 10 15 20 1 50 100 150 200 θ φ θ ● ● ● ● ● ● ● ● ● ● ● ● ● ( ( ( ● ● ● ● ● ● ● ● 1 1 1 ● ● ● ● ● ● ● ● ● ● ● ● ● ) ) ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● φ ● ● ● ● ● ● ● ● ● ● ● ● ● θ θ ● ● Modelo logit Modelo logit Modelo logit ● ● ● ● ( ● ● ● ● ● ● ● ● 5 ● ● ● ● ● ( ( ● ● ● ● ● ● ● ● 50 50 ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ) ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● φ ● ● ● ● ● ● θ θ ● ● ● ● ● ● ● ● ● ● ● ( ● ● ● ● ● ● ( ( ● ● 10 ● ● ● ● ● ● ● ● ● 100 100 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ) ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● φ ● ● θ θ ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ( ● ● ( ( ● ● ● ● ● ● ● ● 15 ● ● 150 150 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ) ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● θ θ ● ● φ ● ● ● ● ● ● ● ● ● ● ● ( ( ( 200 200 20 ) ) )

Posto Posto Posto 1 50 100 150 200 1 5 10 15 20 1 50 100 150 200 θ φ θ ● ● ● ● ● ● ● ● ● ● ● ● ● ( ( ( ● ● ● ● ● ● ● ● 1 1 1 ● ● ● ● ● ● ● ● ● ● ● ● ● ) ) ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● φ ● ● ● ● Modelo probit Modelo probit Modelo probit ● ● ● ● ● ● ● ● ● θ θ ● ● ● ● ● ● ( ● ● ● ● ● ● ● ● 5 ● ● ● ● ● ( ( ● ● posteriori a ● ● ● ● ● ● 50 50 ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ) ) ● ● ● ● ● ● ● ● ● ● ● 75 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● φ ● ● ● ● ● ● θ θ ● ● ● ● ● ● ● ● ● ● ● ( ● ● ● ● ● ● ( ( ● ● 10 ● ● ● ● ● ● ● ● ● 100 100 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ) ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● φ ● ● θ θ ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ( ● ● ( ( ● ● ● ● ● ● ● ● 15 ● ● 150 150 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ) ● ● ● ● ● ● ● ● ● ● ● ● ● cruo dos (círculo) ● ● ) ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● θ θ ● ● φ ● ● ● ● ● ● ● ● ● ● ● ( ( ( 200 200 20 ) ) )

Posto Posto Posto 1 50 100 150 200 1 5 10 15 20 1 50 100 150 200 θ φ θ θ ● ● ● ● ● ● ● ● ● ● ● ● ● ( ( ( ● ● ● ● ● ● ● ● 1 1 1 ● ● ● se ’s ● ● ● ● ● ● ● ● ● ● ) ) ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Modelo t−Student Modelo t−Student Modelo t−Student ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● φ ● ● ● ● ● ● ● ● ● ● ● ● ● θ θ ● ● ● ● ● ● ( ● ● ● ● φ ● ● ● ● 5 ● ● ● ● ● ( ( ● ● ● ● ● ● ● ● 50 50 ) ● ● ● ● ● ● ● ● ● ● ● ● ● seitraoque intervalo e ’s ● ● ● ● ● ● ● ● ● ● ● ● ) ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● φ ● ● ● ● ● ● θ θ ● ● ● ● ● ● ● ● ● ● ● ( ● ● ● ● ● ● ( ( ● ● 10 ● ● ● ● ● ● ● ● ● 100 100 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ) ● ● ● ● ● posteriori a ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ) ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● φ ● ● θ θ ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ( ● ● ( ( ● ● ● ● ● ● ● ● 15 ● ● 150 150 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ) ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● θ θ ● ● φ ● ● ● ● ● ● ● ● ● ● ● ( ( ( 200 200 20 ) ) ) rdzdsarvsd jsedsddstSuetastê modelos. três aos t-Student médias dados das dos postos ajuste dos do estimativas através das produzidas 97,5% quantil ao 2,5% quantil do médias engloba das postos dos Média 5.31: Figura modelos. três aos probit médias dados das dos postos ajuste dos do estimativas através das produzidas 97,5% quantil ao 2,5% quantil do médias engloba das postos dos Média 5.30: Figura Posto Posto Posto 1 5 10 15 20 1 50 100 150 200 1 5 10 15 20 φ θ φ ● ● ● ● ● ● ● ● ( ( ( ● ● ● ● 1 1 1 ● ● ● ● ● ● ● ● ) ) ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● φ φ ● ● ● ● ● ● ● ● θ ● Modelo logit Modelo logit Modelo logit ● ● ( ( ● ● ● ● 5 5 ● ● ● ● ( ● ● ● ● 50 ) ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● φ φ ● ● ● θ ● ● ● ● ● ● ● ( ( ● ● ● ( ● 10 10 ● ● ● ● ● ● 100 ● ● ● ● ● ● ● ● ) ) ● ● ● ● ● ● ● ● ● ● ● ● ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● φ φ ● θ ● ● ● ● ● ● ● ● ● ( ( ● ( ● ● ● ● 15 15 ● 150 ● ● ● ● ● ● ● ● ● ● ● ● ● ) ) ● ● ● ● ● ● ● ● ● ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● θ ● φ φ ● ● ● ● ● ● ● ( ( ( 200 20 20 ) ) )

Posto Posto Posto 1 5 10 15 20 1 50 100 150 200 1 5 10 15 20 φ θ φ ● ● ● ● ● ● ● ● ( ( ( ● ● ● ● 1 1 1 ● ● ● ● ● ● ● ● ) ) ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● φ φ ● ● Modelo probit Modelo probit Modelo probit ● ● ● ● ● ● θ ● ● ● ( ( ● ● ● ● 5 5 ● ● ● ● ( ● posteriori a posteriori a ● ● ● 50 ) ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ) ● ● ● ● ● ● ● 76 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● φ φ ● ● ● θ ● ● ● ● ● ● ● ( ( ● ● ● ( ● 10 10 ● ● ● ● ● ● 100 ● ● ● ● ● ● ● ● ) ) ● ● ● ● ● ● ● ● ● ● ● ● ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● φ φ ● θ ● ● ● ● ● ● ● ● ● ( ( ● ( ● ● ● ● 15 15 ● 150 ● ● ● ● ● ● ● ● ● ● ● ● ● ) ) ● ● ● ● ● ● ● ● cruo dos (círculo) cruo dos (círculo) ● ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● θ ● φ φ ● ● ● ● ● ● ● ( ( ( 200 20 20 ) ) )

Posto Posto Posto 1 5 10 15 20 1 50 100 150 200 1 5 10 15 20 φ θ φ θ θ ● ● ● ● ● ● ● ● ( ( ( ● ● ● ● 1 1 1 ● ● ● se ’s se ’s ● ● ● ● ● ) ) ) ● ● ● ● ● ● ● ● ● ● ● ● ● Modelo t−Student Modelo t−Student Modelo t−Student ● ● ● ● ● ● ● ● ● ● ● ● ● ● φ φ ● ● ● ● ● ● ● ● θ ● ● ● ( ( ● ● φ φ ● ● 5 5 ● ● ● ● ( ● ● ● ● 50 ) ) ● ● ● ● ● ● ● ● seitraoque intervalo e ’s seitraoque intervalo e ’s ● ● ● ● ● ● ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● φ φ ● ● ● θ ● ● ● ● ● ● ● ( ( ● ● ● ( ● 10 10 ● ● ● ● ● ● 100 ● ● ● ● ● ● ● ● ) ) ● ● ● ● posteriori a posteriori a ● ● ● ● ● ● ● ● ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● φ φ ● θ ● ● ● ● ● ● ● ● ● ( ( ● ( ● ● ● ● 15 15 ● 150 ● ● ● ● ● ● ● ● ● ● ● ● ● ) ) ● ● ● ● ● ● ● ● ● ) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● θ ● φ φ ● ● ● ● ● ● ● ( ( ( 200 20 20 ) ) ) 5.2.5 Comparação dos modelos

Para cada amostra foram calculados a média e o desvio padrão a posteriori dos parâmetros e os critérios de seleção de modelos DIC e LPML. O LPML é um critério que mede a qualidade preditiva do modelo e o DIC é um critério que avalia o ajuste do modelo a um determinado conjunto de dados. Para a construção dos gráficos da Figura 5.32, considerou-se que o melhor modelo foi aquele com menor valor de DIC e maior valor de LPML.

DIC LPML 100 100

75 75

Modelo Ajustado 50 50 logit probit t−Student Porcentagem Porcentagem

25 25

0 0 logit probit t−Student logit probit t−Student

Figura 5.32: Porcentagem de vezes que o modelo gerador dos dados foi identificado corretamente com base nos critérios DIC e LPML, para 100 replicações do modelo logit, probit e t-Student. As abscissas correspondem aos conjuntos de dados e as legendas aos modelos que foram ajustados.

É possível observar na Figura 5.32, de acordo com o critério DIC, que para os dados probit o modelo probit foi o melhor modelo em 100% dos dados. Para os dados t-Student, o modelo t-Student foi o que melhor se ajustou em 97% dos dados. Por outro lado, para os dados logit o modelo probit foi o melhor modelo em 98% dos dados. Acredita-se que os modelos logit e probit sejam de alguma forma semelhantes e isso pode estar sendo a causa do confundimento entre esses modelos para os dados gerados do modelo com função de ligação logit. Vale ressaltar que os conjuntos de dados gerados são valores 0 e 1. Verificou-se por análises feitas durante essa dissertação, mas que não são apresentadas aqui, que a maior parte das probabilidades geradas ou estimadas estão na cauda inferior das funções de ligação, isto é, a maior parte das probabilidades são próximas de 0. Conjectura-se que os dados logit estão gerando probabilidades bem próximas de 0 e que isso está fazendo com que o modelo probit seja preferível na maioria das vezes, dado

77 que este último modelo decai mais rápido para 0. De acordo com o critério LPML, para os dados probit, o modelo probit foi o que melhor se ajustou em 87% dos dados e para os dados t-Student o modelo t-Student foi o que melhor se ajustou em 98% dos dados. É possível notar que existe uma diferença bem grande entre os resultados dos dois critérios quando os dados logit são avaliados. De acordo com o LPML, o modelo verdadeiro (logit) consegue ser identificado em 41% dos dados, e nos outros 59% o modelo probit é identificado como o melhor modelo. Apesar do DIC e do LPML apresentarem essa diferença com relação aos dados logit, os dois critérios mostram que quando os dados são probit ou t-Student, os modelos geradores são mais fáceis de serem identificados corretamente.

78 Capítulo 6

Aplicação à dados reais

Neste capítulo, será realizada uma aplicação dos modelos logit, probit e t-Student a um conjunto de dados reais referente aos deputados federais e senadores que estavam em exercício no início de Julho de 2017. Todas as informações referentes a esses políticos foram obtidas pelos sites da câmara dos deputados e do senado federal. Após obtidas as listas com os deputados e senadores em exercício, verificou-se quais deles tinham uma conta ativa no Twitter. Assumiu-se como ativa uma conta cujo o usuário enviou pelo menos uma mensagem (Tweet) ao longo do ano de 2017. Após essa verificação, foram selecionados todos os amigos dos deputados e senadores através do API REST do Twitter, uma aplicação que permite a qualquer usuário acesso aos dados do Twitter, como por exemplo Tweets, Search, Direct Messages, Users, Followings, Followers e Trends de outros usuários. Esses amigos foram selecionados para ajudar na escolha dos atores políticos. Barberá(2015) em seu artigo, escolheu a lista dos atores políticos de cada país com base em seu conhecimento político e considerou como usuários comuns os seguidores(followers) desses atores que obedeciam a certas restrições. Nesta dissertação serão considerados como usuários comuns, os deputados e senadores. Devido à falta de conhecimento político suficiente para determinar os atores políticos no contexto brasileiro, utilizou-se um critério que define se um perfil pode ser considerado ou não um ator político. De acordo com o critério assumido, um perfil é considerado um ator político se é seguido por pelo menos w usuários comuns. Por exemplo, suponha que em um particular cenário político existem dois deputados e três senadores em exercício: Deputado 1, Deputado 2, Senador 1, Senador 2 e Senador 3. Assuma que o Deputado 1 tem 80 amigos, o Deputado 2 tem 100 amigos, o Senador 1 tem 100 amigos, o Senador 2 tem 120 amigos e o Senador 3 tem 50 amigos. Um amigo será considerado um ator político se for seguido por pelo menos 100 deputados ou senadores. Suponha que dos

79 450 amigos, 40 deles são seguidos por pelos menos 100 deputados ou atores. Então, para esse exemplo em particular, vão existir 40 atores políticos e 5 usuários comuns. Nesta dissertação assumiu-se como ator político o perfil que era seguido por ao menos 100 deputados ou senadores. Dos milhares de amigos existentes, apenas 107 obedeciam a essa restrição. Ao final a matriz social (conjunto de dados reais) ficou composta por 330 deputados, 71 senadores e 107 atores políticos. Como os deputados e senadores serão considerados conjuntamente usuários comuns, tem-se que n = 401 e m = 107. A lista dos 330 deputados, 71 senadores e 107 atores políticos com seus respectivos partidos estão representadas nas Tabelas A.1, A.2e A.3, respectivamente, no Apêndice A. Para a execução do MCMC, foram geradas 3 cadeias de tamanho 25.000, com um período de aquecimento de 5.000 e uma defasagem de 50, resultando em uma amostra final de tamanho

1.200 para cada parâmetro. No processo de estimação, foi necessário fixar µα = 0, µθ = 0 2 e σθ = 1 para resolver os problemas de identificação dos modelos. As distribuições a priori 2 2 usadas foram as seguintes: µβ∼N (0; 1000), σα∼GI(0, 01; 0, 01), σβ∼GI(0, 01; 0, 01), 2 µφ∼N (0; 1000), σφ∼GI(0, 01; 0, 01) e γ∼G(0, 01; 0, 01). De acordo com Barberá(2015),

é aconselhável inicializar as cadeias de alguns φj’s com os valores -1 e 1, para evitar o problema de reflexão da escala, que se dá quando k = −1 no problema de Multiplicative alising descrito na Seção 4.3. Baseado no artigo de Souza et al.(2017), optou-se em inicializar as cadeias dos parâmetros referentes aos perfis listados na Tabela 6.1.

Tabela 6.1: Lista dos perfis que tiveram suas cadeias inicializadas em -1 ou 1.

Valor Nomes Twitter Sobre o perfil inicial Dilma Rousseff dilmabr Ex-presidente Dilma Rousseff -1 padilhando Ex-ministro Alexandre Padilha -1 Geraldo Alckmin geraldoalckmin_ Governador de São Paulo Geraldo Alckmin 1 Blog Dilma BR blogdilmabr Perfil de apoio à ex-presidente Dilma Rousseff -1 esuplicy Vereador Eduardo Suplicy -1 PT Brasil ptbrasil Partido dos Trabalhadores -1

Para avaliar a convergência das cadeias, utilizou-se o critério de Raftery e Lewis(1992) e analisou-se os traços das cadeias. Como n = 401 e m = 107, 1022 parâmetros (401 α’s, 2 2 2 401 θ’s, 107 β’s, 107 φ’s e 1 γ) e 5 hiperparâmetros (µβ, µφ, σα, σβ e σφ) foram estimados. Considerando todos os três ajustes, foram analisados 3066 gráficos com os traços das cadeias dos parâmetros. Como é inviável representar todos esses gráficos nesta dissertação, para fins da

80 análise de convergência, serão apresentados apenas os resultados provenientes do critério de Raftery e Lewis(1992). A Figura 6.1 apresenta os resultados do critério para ajuste dos modelos logit, probit e t-Student.

Dados Reais

1000 logit probit ● t−Student n í 600 m n

200 ● ● ● ●● ● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ●●●●●●●●●●● ●●●●●●●●●●●●● ●●●● ●●●●●● ● ● ● ●●●● ●● ● ●●●● ● ●● ●●● ●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●●●● ●● ●●●●●●●●●●●●●●● ●●●●●●●●●●● ● ●● ●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●● ●●●● ●●●●●●●●●●●●●●●●●●●●●●● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● 0 1 250 500 750 1022

Figura 6.1: Resultados do critério de Raftery e Lewis(1992) para cada modelo, obtidos com base no ajuste do conjunto de dados reais aos três modelos.

Pode-se observar na Figura 6.1, que foram necessárias menos de 400 iterações para que todos os parâmetros convergissem, nos diferentes modelos. Portanto, não há suspeita de não convergência dos parâmetros nos diferentes modelos dado que foi considerado um período de aquecimento de 5.000. Conforme apresentado no Capítulo 1, as estimativas produzidas pelo NECON serão utilizadas para avaliar as estimativas obtidas pelo ajuste dos três modelos aos dados reais.

Modelo logit Modelo probit Modelo student 3 3 3

● ● ●

2 ● ●● 2 ● ●● 2 ● ● ● ● ● ●● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

1 ● 1 ● 1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ●●● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ●● ● ●● ●● ● ● ●● ●●●● ●● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ●●● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ●● ● ● ● ●● ● ● ● ●●●●● ●●● ● ● ● ●●●●● ●● ● ● ● ● ● ●●● ●● ● ● 0 ● ●● ● 0 ● ●● ● 0 ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ●● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● −1 ● ● ● −1 ● ● ● −1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ●●● ●● ● ● ● ● ● ● ●● ● ● ●●● ●

−2 ● −2 ● −2 ● ● ● ● Pontos ideais estimados (IDEAL) Pontos ● ideais estimados (IDEAL) Pontos ● ideais estimados (IDEAL) Pontos ● ● ● ●● ● ● ●● ●● ●● −3 −3 −3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 Pontos ideais estimados (Twitter) Pontos ideais estimados (Twitter) Pontos ideais estimados (Twitter)

Figura 6.2: Comparação entre as estimativas dos pontos ideais produzidas pelo algoritmo IDEAL, referentes à primeira dimensão, e as produzidas pelos modelos logit, probit e t-Student que utilizam os dados do Twitter.

Os pesquisadores do NECON utilizaram o modelo IDEAL para produzir as estimativas com

81 base nas votações nominais de 2011 a 2014. É importante lembrar que o mandato dos senadores é de oito anos e dos deputados é de quatro anos. Como se está em 2017, é provável que muitos dos deputados que foram considerados no estudo do NECON já não estejam mais em exercício. Portanto, para avaliar a qualidade das estimativas, serão utilizadas as estimativas dos deputados federais e senadores que pertencem às duas bases de dados. É possível notar na Figura 6.2 que existe uma correlação positiva entre as estimativas do NECON e as estimativas obtidas pelos três modelos. De uma certa maneira, isso mostra que os três modelos estão gerando estimativas confiáveis para determinados deputados federais e senadores.

6.1 Comparação dos modelos propostos

Nesta seção avalia-se os critérios de comparação de modelos para verificar a adequabilidade dos modelos propostos aos dados reais. Entre os critérios de comparação já descritos, escolhe-se o modelo que tenha de preferência o menor DIC e o maior LPML. A Tabela 6.2 apresenta um resumo dos critérios de comparação de modelos.

Tabela 6.2: Resultados dos critérios de seleção de modelos DIC e LPML para os modelos ajustados.

Modelo DIC LPML logit 39970,981 -0,466 probit 40021,197 -0,467 t-Student 40071,231 -0,469

Note que ambos os critérios indicam que o modelo logit parece ser o mais apropriado para modelar os dados reais. As análises que serão apresentadas na próxima seção, serão baseadas no modelo que resultou no melhor ajuste, isto é, no modelo logit. Mas, para facilitar a comparação com os outros dois modelos caso o leitor esteja interessado em avaliar, serão apresentadas conjuntamente as estimativas produzidas pelos outros dois modelos, mas sem as interpretações correspondentes.

6.2 Resultados das análises

As análises consideradas nesta dissertação não se focam na parte política e nem nas implicações políticas pertinentes aos resultados. Para mais detalhes referentes às interpretações

82 políticas das estimativas dos pontos ideais veja Souza et al.(2017), que avaliam as estimativas dos deputados federais e certos atores políticos, considerando-se o cenário político brasileiro. Nesta seção, o foco será analisar as estimativas dos pontos ideais e seus respectivos intervalos de credibilidade produzidos pelo melhor modelo, modelo logit, com o objetivo de classificar os indivíduos em “esquerda”, “direita” e “centro”. Existe uma vasta discussão na literatura avaliando se é mais apropriado falar em “esquerda” e “direita” ou “governo” e “oposição”. Classificar os indivíduos em “governo” e “oposição” exige um vasto conhecimento, que não se tem no momento, a respeito do cenário político brasileiro. Portanto, serão utilizados aqui os termos “esquerda” e “direita”. O critério utilizado para classificar os indivíduos foi o seguinte: usuários com pontos ideais estimados menores que -1 e cujos intervalos de credibilidade estão completamente à esquerda do zero são classificados como indivíduos de “esquerda”; usuários com pontos ideais estimados entre -1 e 1 ou com intervalos de credibilidade que contém o zero são classificados como indivíduos de “centro” e usuários com pontos ideais estimados maiores que 1 e cujos intervalos de credibilidade estão completamente à direita do zero são classificados como indivíduos de “direita”. Para a construção dos gráficos que serão apresentados logo a seguir foi utilizado um outro critério. Nesses gráficos a cor vermelha se refere apenas aos usuários com pontos ideais menores que -1, a cor verde se refere aos usuários com pontos ideais estimados entre - 1 e 1 e a cor azul se refere aos usuários com pontos ideais estimados maiores que 1, todos feitos sem levar em conta o intervalo de credibilidade. Então não é possível afirmar diretamente que os usuários representados em vermelho são de “esquerda”, os de verde são de "centro"e os de azul são de "direita"porque é necessário também avaliar os intervalos de credibilidade.

Resultados para os deputados

A Figura 6.3 apresenta as estimativas dos pontos ideais dos deputados federais cujos pontos ideais estimados são menores que -1. Como exemplo, pode-se notar que os deputados Valmir Assunção, Valmir Prascidelli e Luiz Sérgio do PT estão localizados à esquerda da escala ideológica de acordo com o modelo logit. Seus pontos ideais estimados são: -2,9; -2,68 e -2,87, respectivamente. Seus desvios padrões a posteriori são: 0,37; 0,41 e 0,45, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (-3,67;-2,19), (-3,54;-1,9) e (-3,77;-2,02). A estimativa do ponto ideal, desvio padrão e intervalo de credibilidade do deputado José Guimarães do PT, que foi estimado à esquerda da escala ideológica no artigo de Souza et al.(2017), são dados por: -1,45; 0,28 e (-2,02;-0,93). Os quatro deputados apresentados são classificados como de “esquerda” de acordo com o critério assumido para a classificação.

83 Modelo logit Modelo probit Modelo t−Student

joao daniel ● ze carlos ● givaldo vieira ●

● ● paulo teixeira givaldo vieira carlos gomes ●

● ● givaldo vieira alice portugal vicentinho ● angelim ● paulo teixeira ● maria do rosario ● luciana santos ● maria do rosario ● benedita da silva ● nilto tatto ● pedro uczai ● paulao ● benedita da silva ● benedita da silva ● wadih damous ● maria do rosario ● angelim ● zeca dirceu ● fabio mitidieri ● luciana santos ●

● pedro uczai ● nilto tatto ● marcon

bohn gass ● helder salomao ● padre joao ●

wadih damous ● wadih damous ● uldurico junior ●

● ● leo de brito leo de brito vicente candido ● helder salomao ● bohn gass ● afonso florence ● zeca dirceu ● waldenor pereira ● reginaldo lopes ● marco maia ● marco maia ● jo moraes ● waldenor pereira ● janete capiberibe ● pepe vargas ● marcon ● jhonatan de jesus ● paulo pimenta ● vicentinho ● marcon ●

● janete capiberibe ● zeca dirceu ● marco maia

jhonatan de jesus ● jo moraes ● jose airton cirilo ●

padre joao ● vicentinho ● ana perugini ●

● ● jo moraes padre joao margarida salomao ●

vicente candido ● vicente candido ● janete capiberibe ● jose airton cirilo ● jose airton cirilo ● jose guimaraes ● paulo pimenta ● jose guimaraes ● jhonatan de jesus ● jose guimaraes ● ana perugini ● decio lima ● reginaldo lopes ● uldurico junior ● Deputados luizianne lins ● uldurico junior ● paulo pimenta ●

● ana perugini ● pepe vargas ● fabio mitidieri

● pepe vargas ● reginaldo lopes ● waldenor pereira

afonso florence ● afonso florence ● enio verri ●

● ● enio verri enio verri jose mentor ●

● ● decio lima rubens otoni saguas moraes ● rubens otoni ● decio lima ● adelmo carneiro leao ● luizianne lins ● luiz couto ● luiz couto ● luiz couto ● jose mentor ● helder salomao ● jose mentor ● luizianne lins ● rubens otoni ● margarida salomao ● beto faro ●

● beto faro ● margarida salomao ● josias gomes

● adelmo carneiro leao ● josias gomes ● pedro uczai

josias gomes ● adelmo carneiro leao ● vander loubet ●

saguas moraes ● assis carvalho ● zeca do pt ●

● ● assis carvalho saguas moraes assis carvalho ● zeca do pt ● vander loubet ● leonardo monteiro ● vander loubet ● zeca do pt ● ● patrus ananias ● patrus ananias ● beto faro ● nelson pellegrino ● nelson pellegrino ● nelson pellegrino ● leonardo monteiro ● leonardo monteiro ● valmir assuncao ● valmir prascidelli ● valmir prascidelli ●

● luiz sergio ● luiz sergio ● valmir prascidelli

valmir assuncao ● valmir assuncao ● luiz sergio ● −3 −2 −1 0 −4 −3 −2 −1 0 −2 0 2 Orientação política Orientação política Orientação política

Figura 6.3: Pontos ideais estimados e intervalos de credibilidade de 95% para os deputados federais cujas estimativas são menores que -1.

As Figuras 6.4, 6.5, 6.6e 6.7 apresentam as estimativas dos pontos ideais dos deputados federais cujos pontos ideais estimados estão entre -1 e 1. A partir dessas figuras pode-se notar, como exemplo, que os intervalos de credibilidade dos pontos ideais dos deputados Lucas vergilio, do partido SD, e Júnior marreca, do partido PEN, incluem o zero. Seus pontos ideais estimados são: -0,8 e -0,73, respectivamente. Seus desvios padrões a posteriori são: 0,63 e 0,1, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (-2,02;0,41) e

84 (-1,52;0,07). A estimativa do ponto ideal, desvio padrão e intervalo de credibilidade da deputada Jandira Feghali, do PCdoB, que foi estimada à esquerda da escala ideológica no artigo de Souza et al.(2017), são dados por: -0,80; 0,25 e (-1,31;-0.31). Os três deputados apresentados são classificados como de “centro” de acordo com o critério assumido para a classificação.

Modelo logit Modelo probit Modelo t−Student

simone morgado ● moses rodrigues ● paulo foletto ●

moses rodrigues ● tereza cristina ● wladimir costa ●

tereza cristina ● hugo leal ● simone morgado ●

elizeu dionizio ● tenente lucio ● jorginho mello ●

hugo leal ● jefferson campos ● expedito netto ●

valadares filho ● elizeu dionizio ● arlindo chinaglia ●

jefferson campos ● josue bengtson ● beto salame ●

expedito netto ● alexandre valle ● paulo feijo ●

josue bengtson ● expedito netto ● cabucu borges ●

nelson marquezelli ● sergio souza ● chico alencar ●

sergio souza ● nelson marquezelli ● jaime martins ●

chico alencar ● ronaldo carletto ● sergio souza ●

cabucu borges ● chico alencar ● iracema portella ●

aelton freitas ● iracema portella ● moises diniz ●

iracema portella ● moises diniz ● leonardo quintao ●

moises diniz ● aelton freitas ● aelton freitas ●

alexandre serfiotis ● elcione barbalho ● jorge solla ●

giovani cherini ● giovani cherini ● giovani cherini ●

elcione barbalho ● cabucu borges ● lucas vergilio ●

wolney queiroz ● alexandre serfiotis ● goulart ●

jorge solla ● wolney queiroz ● cajar nardes ●

arlindo chinaglia ● jorge solla ● wolney queiroz ●

paulo magalhaes ● arlindo chinaglia ● elcione barbalho ●

ronaldo carletto ● paulo magalhaes ● andre figueiredo ●

beto salame ● ivan valente ● ivan valente ●

ivan valente ● beto salame ● herculano passos ●

goulart ● cajar nardes ● alessandro molon ●

cajar nardes ● goulart ● ronaldo carletto ●

herculano passos ● herculano passos ● weverton rocha ●

leonardo quintao ● joao arruda ● orlando silva ●

joao arruda ● leonardo quintao ● junior marreca ●

andre figueiredo ● andre figueiredo ● jean wyllys ● Deputados alessandro molon ● ze silva ● edmilson rodrigues ●

orlando silva ● alessandro molon ● joao arruda ●

ze silva ● orlando silva ● domingos neto ●

jean wyllys ● carlos gomes ● severino ninho ●

severino ninho ● severino ninho ● weliton prado ●

domingos neto ● junior marreca ● carlos zarattini ●

junior marreca ● domingos neto ● jandira feghali ●

edmilson rodrigues ● jean wyllys ● daniel almeida ●

weverton rocha ● geraldo resende ● assis melo ●

geraldo resende ● edmilson rodrigues ● luiza erundina ●

carlos gomes ● weverton rocha ● henrique fontana ●

lucas vergilio ● lucas vergilio ● ze silva ●

jandira feghali ● paulao ● hildo rocha ●

assis melo ● jandira feghali ● paulo teixeira ●

daniel almeida ● erika kokay ● erika kokay ●

erika kokay ● assis melo ● geraldo resende ●

hildo rocha ● daniel almeida ● chico dangelo ●

paulao ● hildo rocha ● ze carlos ●

weliton prado ● chico dangelo ● nilto tatto ●

chico dangelo ● odorico monteiro ● odorico monteiro ●

carlos zarattini ● weliton prado ● luciana santos ●

odorico monteiro ● jose stedile ● alice portugal ●

henrique fontana ● henrique fontana ● jose stedile ●

luiza erundina ● carlos zarattini ● angelim ●

jose stedile ● luiza erundina ● joao daniel ●

alice portugal ● joao daniel ● leo de brito ●

ze carlos ● fabio mitidieri ● bohn gass ● −2 −1 0 1 −1 0 −2 0 2 Orientação política Orientação política Orientação política

Figura 6.4: Pontos ideais estimados e intervalos de credibilidade de 95% para os deputados federais cujas estimativas entre -1 e 1 - Parte 1.

85 Modelo logit Modelo probit Modelo t−Student

rubens pereira junior ● andre moura ● celso russomanno ●

arnaldo faria de sa ● valdir colatto ● alex canziani ●

celso pansera ● celso pansera ● delegado eder mauro ●

vicentinho junior ● waldir maranhao ● jony marcos ●

waldir maranhao ● atila lira ● lelo coimbra ●

valdir colatto ● arnaldo faria de sa ● marinaldo rosendo ●

walter alves ● arolde de oliveira ● julio cesar ●

hissa abrahão ● paulo freire ● augusto carvalho ●

arolde de oliveira ● glauber braga ● luiz lauro filho ●

● jovair arantes ● conceicao sampaio ●

eduardo barbosa ● izalci lucas ● eliziane gama ●

joao paulo kleinübing ● genecias noronha ● valdir colatto ●

arnaldo jordy ● celso jacob ● leônidas cristino ●

jovair arantes ● joao paulo kleinübing ● waldir maranhao ●

paulo freire ● arnaldo jordy ● jovair arantes ●

marinaldo rosendo ● marinaldo rosendo ● vicentinho junior ●

leônidas cristino ● felipe bornier ● eduardo barbosa ●

josi nunes ● leônidas cristino ● nelson padovani ●

felipe bornier ● josi nunes ● aliel machado ●

genecias noronha ● evandro gussi ● joao carlos bacelar filho ●

elmar nascimento ● carlos eduardo cadoca ● izalci lucas ●

carlos henrique gaguim ● abel mesquita jr ● pompeo de mattos ●

abel mesquita jr ● hissa abrahão ● walter alves ●

joao marcelo souza ● joao rodrigues ● evandro gussi ●

evandro gussi ● romulo gouveia ● genecias noronha ●

carlos eduardo cadoca ● carlos henrique gaguim ●

keiko ota ● elmar nascimento ● roberto goes ●

augusto carvalho ● nelson padovani ● joao rodrigues ●

joao rodrigues ● augusto carvalho ● beto rosado ●

nelson padovani ● heitor schuch ● felipe bornier ●

andre amaral ● keiko ota ● luiz fernando faria ●

laercio oliveira ● dulce miranda ● arolde de oliveira ● Deputados romulo gouveia ● bruna furlan ● bruna furlan ●

roberto goes ● rogerio peninha mendonca ● carlos henrique gaguim ●

heitor schuch ● roberto goes ● dulce miranda ●

beto rosado ● laercio oliveira ● paulo magalhaes ●

leonardo picciani ● beto rosado ● rafael motta ●

dr. jorge silva ● andre amaral ● afonso hamm ●

dulce miranda ● dr. jorge silva ● carlos eduardo cadoca ●

bruna furlan ● leonardo picciani ● dr. jorge silva ●

rodrigo pacheco ● professora dorinha seabra rezende ● josue bengtson ●

rogerio peninha mendonca ● diego garcia ● professora dorinha seabra rezende ●

rafael motta ● joao marcelo souza ● maria helena ●

professora dorinha seabra rezende ● carlos andrade ● iraja abreu ●

maria helena ● paulo feijo ● carlos andrade ●

carlos andrade ● jaime martins ● jefferson campos ●

ze augusto nalin ● rafael motta ● paulo freire ●

diego garcia ● marcus vicente ● ze augusto nalin ●

wladimir costa ● iraja abreu ● nelson marquezelli ●

marcus vicente ● maria helena ● heitor schuch ●

luiz fernando faria ● afonso hamm ● alexandre serfiotis ●

iraja abreu ● wladimir costa ● marcus vicente ●

alexandre valle ● rodrigo pacheco ● elizeu dionizio ●

afonso hamm ● ze augusto nalin ● moses rodrigues ●

paulo feijo ● luiz fernando faria ● diego garcia ●

tenente lucio ● valadares filho ● rogerio peninha mendonca ●

jaime martins ● paulo foletto ● romulo gouveia ●

paulo foletto ● simone morgado ● tereza cristina ●

jorginho mello ● jorginho mello ● hugo leal ● −1 0 1 −1.0−0.50.00.51.0 −2 −1 0 1 2 Orientação política Orientação política Orientação política

Figura 6.5: Pontos ideais estimados e intervalos de credibilidade de 95% para os deputados federais cujas estimativas entre -1 e 1 - Parte 2.

86 Modelo logit Modelo probit Modelo t−Student

sergio zveiter ● marcus pestana ● heraclito fortes ●

damina pereira ● paulo azi ● bebeto ●

wilson filho ● sergio zveiter ● elmar nascimento ●

paulo azi ● lelo coimbra ● fabio faria ●

marcus pestana ● jeronimo goergen ● raimundo gomes de matos ●

newton cardoso jr ● marcos reategui ● alex manente ●

renzo braz ● mariana carvalho ● giuseppe vecci ●

marcos reategui ● wilson filho ● danilo forte ●

marcelo alvaro antonio ● alex manente ● rogerio rosso ●

bebeto ● tiririca ● givaldo carimbao ●

antonio imbassahy ● roberto de lucena ● evandro roman ●

alex manente ● flavinho ● rodrigo pacheco ●

jeronimo goergen ● antonio jacome ● marcelo aguiar ●

● antonio imbassahy ● antonio imbassahy ●

flavinho ● renzo braz ● evair vieira de melo ●

antonio jacome ● bebeto ● paulo maluf ●

mariana carvalho ● marcelo castro ● andre fufuca ●

lelo coimbra ● christiane de souza yared ● fabio reis ●

pollyana gama ● guilherme mussi ● jose priante ●

edmar arruda ● adilton sachetti ● maia filho ●

guilherme mussi ● marcelo alvaro antonio ● luciano ducci ●

veneziano vital do rego ● carlos bezerra ● andre amaral ●

roberto de lucena ● edmar arruda ● roberto balestra ●

adilton sachetti ● andre fufuca ●

marco tebaldi ● remidio monai ● carlos bezerra ●

carlos bezerra ● pollyana gama ● celso pansera ●

christiane de souza yared ● aliel machado ● marcos reategui ●

andre fufuca ● alex canziani ● antonio jacome ●

luciano ducci ● marco tebaldi ● damina pereira ●

atila lira ● eliziane gama ● pedro paulo ●

toninho wandscheer ● thiago peixoto ● flavinho ●

altineu cortes ● celso russomanno ● marcus pestana ● Deputados roberto balestra ● veneziano vital do rego ● augusto coutinho ●

marcelo aguiar ● luciano ducci ● arthur oliveira maia ●

alex canziani ● pedro paulo ● stefano aguiar ●

aliel machado ● jhc ● paulo azi ●

eliziane gama ● evair vieira de melo ● joao paulo kleinübing ●

● luis carlos heinze ● mariana carvalho ●

thiago peixoto ● altineu cortes ● laercio oliveira ●

evair vieira de melo ● conceicao sampaio ●

jhc ● roberto balestra ● jhc ●

celso russomanno ● marcelo aguiar ● newton cardoso jr ●

pedro paulo ● jony marcos ● guilherme mussi ●

conceicao sampaio ● alexandre leite ● luis carlos heinze ●

alexandre leite ● delegado eder mauro ● josi nunes ●

jony marcos ● toninho wandscheer ● alexandre leite ●

celso jacob ● joao carlos bacelar filho ● arnaldo faria de sa ●

laudivio carvalho ● pompeo de mattos ● thiago peixoto ●

givaldo carimbao ● luiz lauro filho ● marcos rogerio ●

delegado eder mauro ● eduardo barbosa ● roberto de lucena ●

luiz lauro filho ● stefano aguiar ● valadares filho ●

stefano aguiar ● vicentinho junior ● abel mesquita jr ●

renato andrade ● julio cesar ● tenente lucio ●

joao carlos bacelar filho ● renato andrade ● adilton sachetti ●

fabio reis ● givaldo carimbao ● rubens pereira junior ●

pompeo de mattos ● fabio reis ● jeronimo goergen ●

andre moura ● laudivio carvalho ● arnaldo jordy ●

julio cesar ● walter alves ● andre moura ●

glauber braga ● rubens pereira junior ● christiane de souza yared ● −1 0 1 2 −1 0 1 −3 −2 −1 0 1 2 3 Orientação política Orientação política Orientação política

Figura 6.6: Pontos ideais estimados e intervalos de credibilidade de 95% para os deputados federais cujas estimativas entre -1 e 1 - Parte 3.

87 Modelo logit Modelo probit Modelo t−Student

● bonifacio de andrada ● bonifacio de andrada ● betinho gomes otavio leite ● rodrigo martins ● ● sandro alex lucio vieira lima ● soraya santos ● delegado francischini ● danilo cabral ●

● ● rodrigo maia pr. marco feliciano ● delegado edson moreira rubens bueno ● ● pr. marco feliciano ● sostenes cavalcante marcelo alvaro antonio ● ● mauro mariani mauro mariani ● hiran goncalves ● ● felipe maia ● sandro alex hugo motta ● ● ● pr. marco feliciano afonso motta ● marcos abrao efraim filho ● ● laura carneiro ● covatti filho ● altineu cortes sostenes cavalcante ● ● delegado waldir ● ● covatti filho ● benito gama ● paulo pereira da silva daniel coelho ● ● delegado francischini ● daniel vilela ● antonio carlos mendes thame paulo pereira da silva ● alfredo kaefer ● ● ● vitor lippi ● joao paulo papa ● vitor lippi rodrigo de castro ● delegado waldir ● ● heraclito fortes ● beto mansur ● hugo motta cristiane brasil ● geovania de sa ● delegado edson moreira ● luzia ferreira ● osmar bertoldi ● rodrigo martins ● marcos abrao ● ● luzia ferreira ● francisco chapadinha ● geovania de sa marcelo castro ● afonso motta ● daniel vilela ● laerte bessa ● delegado edson moreira ● ● reinhold stephanes ● rodrigo maia ● ● celso jacob luzia ferreira ● alberto fraga vanderlei macris ● ● ● caio narcio mara gabrilli pedro chaves ●

● ● cesar halum ● paulo abi−ackel darcisio perondi ● ● antonio bulhões caio narcio ● cesar halum marcelo aro ● ● ● heraclito fortes rogerio rosso joao marcelo souza ●

● ● paulo abi−ackel ● jose priante alexandre valle ● ● soraya santos alberto fraga ● juscelino filho mauro mariani ● ● ● marcelo aro ricardo izar pollyana gama ● ricardo izar ● joao fernando coutinho ● eros biondini ●

● ● renato andrade juscelino filho giuseppe vecci ● pedro fernandes ● ● ● joao fernando coutinho ● Deputados laura carneiro veneziano vital do rego

● rogerio rosso marcelo aro ● covatti filho ●

● ● caio narcio giuseppe vecci paulo maluf ● vitor lippi ● ● jose priante ● pedro fernandes sandro alex ● ● ● pedro fernandes antonio bulhões ● wilson filho ● ● sostenes cavalcante remidio monai alceu moreira ● ● ● geovania de sa eduardo bolsonaro ● luiz carlos ramos toninho wandscheer ● ● antonio bulhões ● maia filho ● joao fernando coutinho alceu moreira ● paulo pereira da silva ● eduardo bolsonaro ● alberto fraga ● lobbe neto ● lobbe neto ● paulo abi−ackel ● ● tiririca ● evandro roman ● julio lopes evandro roman ● sergio zveiter ● ● marcos rogerio ● paulo maluf ● joao derly reinhold stephanes ● marco tebaldi ● ● luiz carlos ramos ● arthur oliveira maia ● caca leao maia filho ● ricardo izar ● ● ronaldo nogueira ● fabio faria ● laudivio carvalho joao derly ● marcos abrao ● francisco chapadinha ● ● caca leao ● daniel vilela ● caca leao juscelino filho ● ● augusto coutinho ● eros biondini ● glauber braga francisco chapadinha ● lobbe neto ● marcos rogerio ● ● ● hugo motta ● fabio faria joao derly hissa abrahão ● ● raimundo gomes de matos ● ronaldo fonseca delegado waldir ●

● ● arthur oliveira maia ● raimundo gomes de matos renzo braz ● ● delegado francischini danilo forte ● eros biondini keiko ota ● ● julio lopes ● damina pereira mara gabrilli ●

● ronaldo fonseca ● danilo forte ● alceu moreira luiz carlos ramos ● ronaldo nogueira ● newton cardoso jr ● edmar arruda ● ● ● augusto coutinho julio lopes eduardo bolsonaro ● −1 0 1 2 0 1 2 −2 0 2 Orientação política Orientação política Orientação política

Figura 6.7: Pontos ideais estimados e intervalos de credibilidade de 95% para os deputados federais cujas estimativas entre -1 e 1 - Parte 4.

88 A Figura 6.8 apresenta as estimativas dos pontos ideais dos deputados federais cujos pontos ideais estimados são maiores que 1. Como exemplo, pode-se notar que os deputados Eduardo Cury, do PSDB, Roberto Freire, do PPS e Jair Bolsonaro, do PSC, estão localizados à direita da escala ideológica de acordo com o modelo logit.

Modelo logit Modelo probit Modelo t−Student

eduardo cury ● eduardo cury ● eduardo cury ●

● roberto freire ● pauderney avelino

● ● jair bolsonaro jair bolsonaro ● roberto freire

● ● yeda crusius pauderney avelino luiz nishimori ●

jair bolsonaro ● yeda crusius ●

● sheridan ● ezequiel teixeira sheridan ●

luiz nishimori ● carlos melles ● osmar bertoldi ● carlos sampaio ● luiz nishimori ● ● carlos melles ● remidio monai carlos sampaio ● nilson leitao ● ● pedro cunha lima ● roberto freire pedro cunha lima ● ezequiel teixeira ● ● marcos montes ● reinhold stephanes marcos montes ● fabio sousa ● carlos melles ● nilson leitao ● rodrigo de castro ●

● fabio sousa ● baleia rossi ● joao campos joao campos ● hiran goncalves ● pedro cunha lima ● ● daniel coelho ●

● hiran goncalves ● alexandre baldy ● marcos montes

● rogerio marinho danilo cabral ● laura carneiro ● ● betinho gomes betinho gomes ●

baleia rossi ● rubens bueno ● afonso motta ●

rodrigo de castro ● felipe maia ● yeda crusius ● daniel coelho ● rogerio marinho ●

● ● ezequiel teixeira ● pauderney avelino Deputados rubens bueno

● danilo cabral ● joao paulo papa nilson leitao ● ● onyx lorenzoni ● onyx lorenzoni

giacobo ● ● felipe maia ● bonifacio de andrada

joao campos ● milton monti ● milton monti ● beto mansur ● joao paulo papa ●

benito gama ● tiririca ● giacobo ● laerte bessa ● ● otavio leite atila lira ● otavio leite ● benito gama ●

● pedro chaves alexandre baldy ● beto mansur ● vanderlei macris ● laerte bessa ● rogerio marinho ● lucio vieira lima ● lucio vieira lima ● ● milton monti sheridan ● vanderlei macris ● darcisio perondi ● osmar bertoldi ● carlos sampaio ● alfredo kaefer ●

● pedro chaves ● efraim filho cesar halum ● efraim filho ● soraya santos ●

● ● onyx lorenzoni alfredo kaefer cristiane brasil ●

● darcisio perondi ● antonio carlos mendes thame giacobo ●

● cristiane brasil rodrigo maia ● fabio sousa ● antonio carlos mendes thame ● rodrigo martins ● 0 1 2 3 0 1 2 3 −2 0 2 4 Orientação política Orientação política Orientação política

Figura 6.8: Pontos ideais estimados e intervalos de credibilidade de 95% para os deputados federais cujas estimativas são maiores que 1.

89 Seus pontos ideais estimados são: 2,66; 1,83 e 1.83 respectivamente. Seus desvios padrões a posteriori são: 0,47; 0,38 e 0.55, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (1,72;3,57), (1,16;2,59) e (0.79;2.88). A estimativa do ponto ideal, desvio padrão e intervalo de credibilidade do deputado Carlos Sampaio do PSDB, que foi estimado à direita da escala ideológica no artigo de Souza et al.(2017), são dados por: 1,50; 0,32 e (0,87;2,19). Os quatro deputados apresentados são classificados como de “direita” de acordo com o critério assumido para a classificação. Ao final das análises referentes aos deputados, concluiu-se que 52 deputados são classificados como de “esquerda”, 238 deputados como de “centro” e 40 deputados como de “direita” de acordo com o critério assumido nesta dissertação.

Resultados para os senadores

A Figura 6.9 apresenta as estimativas dos pontos ideais de todos os senadores. Como exemplo, pode-se notar que os senadores , do PT, e Ângela Portela, do PDT, estão localizados à esquerda da escala ideológica de acordo com o modelo logit. Seus pontos ideais estimados são: -2,15 e -2,71, respectivamente. Seus desvios padrões a posteriori são: 0,32 e 0,45, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (-2,79;-1,54) e (-3,61;-1,87). Os dois senadores apresentados são classificados como de “esquerda” de acordo com o critério assumido para a classificação. Note também que os senadores Romário, do PODE, e , do PMDB, estão localizados ao centro da escala ideológica de acordo com o modelo logit. Seus pontos ideais estimados são: -0,06 e -0,10, respectivamente. Seus desvios padrões a posteriori são: 0,40 e 0,79, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (-0,79;0,76) e (-1,49;1,59). Os dois senadores apresentados são classificados como de “centro” de acordo com o critério assumido para a classificação. Para terminar, perceba que os senadores Antônio Anastasia e Aécio Neves, ambos do PSDB, estão localizados à direita da escala ideológica de acordo com o modelo logit. Seus pontos ideais estimados são: 2,17 e 1,99, respectivamente. Seus desvios padrões a posteriori são: 0,56 e 0,76, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (1,08;3,31) e (0,52;3,36). Os dois senadores apresentados são classificados como de “direita” de acordo com o critério assumido para a classificação. O senador Aécio Neves foi estimado à direita da escala ideológica no artigo de Souza et al.(2017). Ao final das análises referentes aos senadores, concluiu-se que 8 senadores são classificados como de “esquerda”, 49 senadores como de “centro” e 14 senadores como de “direita” de acordo

90 com o critério assumido nesta dissertação.

Modelo logit Modelo probit Modelo t−Student

antonio anastasia ● antonio anastasia ● aécio neves ● aécio neves ● aécio neves ● antonio anastasia ● ● magno malta ● magno malta ● josé agripino ● josé agripino ● ● ricardo ferraço ● ricardo ferraço ● josé agripino ● ● alvaro dias ● ● rose de freitas ● ● kátia abreu ● tasso jereissati ● ● josé serra ● josé serra ● ● roberto rocha ● rose de freitas ● josé serra ● wilder morais ● wilder morais ● ricardo ferraço ● airton sandoval ● ronaldo caiado ● alvaro dias ● ronaldo caiado ● airton sandoval ● tasso jereissati ● ● lasier martins ● lasier martins ● kátia abreu ● pedro chaves ● roberto rocha ● pedro chaves ● kátia abreu ● ronaldo caiado ● ● garibaldi alves filho ● paulo bauer ● garibaldi alves filho ● cássio cunha lima ● ● gladson cameli ● eunício oliveira ● gladson cameli ● flexa ribeiro ● simone tebet ● ● marta suplicy ● pedro chaves ● eunício oliveira ● reguffe ● gladson cameli ● renan calheiros ● josé medeiros ● ana amélia ● reguffe ● eunício oliveira ● marta suplicy ● cássio cunha lima ● cássio cunha lima ● flexa ribeiro ● josé medeiros ● renan calheiros ● paulo bauer ● ciro nogueira ● ciro nogueira ● reguffe ● ● valdir raupp ● ciro nogueira ● dário berger ● dário berger ● valdir raupp ● telmário mota ● telmário mota ● josé medeiros ● ana amélia ● ana amélia ● dário berger ● ● eduardo amorim ● romário ● josé maranhão ● josé maranhão ● telmário mota ● ● wellington fagundes ● wellington fagundes ● ● josé maranhão ● randolfe rodrigues ● vicentinho alves ● eduardo amorim ● ● cristovam buarque ● vicentinho alves ● eduardo lopes ● ● eduardo lopes ● Senadores antonio carlos valadares ● eduardo lopes ● randolfe rodrigues ● davi alcolumbre ● antonio carlos valadares ● cristovam buarque ● romário ● joão capiberibe ● antonio carlos valadares ● simone tebet ● romário ● romero jucá ● joão capiberibe ● sérgio petecão ● ● hélio josé ● hélio josé ● hélio josé ● lúcia vânia ● simone tebet ● lúcia vânia ● romero jucá ● armando monteiro ● davi alcolumbre ● sérgio petecão ● lúcia vânia ● armando monteiro ● cidinho santos ● cidinho santos ● joão capiberibe ● armando monteiro ● ● sérgio petecão ● jader barbalho ● romero jucá ● jader barbalho ● ● vanessa grazziotin ● vanessa grazziotin ● jorge viana ● ● eduardo braga ● eduardo braga ● ataídes oliveira ● ataídes oliveira ● ataídes oliveira ● jorge viana ● ● acir gurgacz ● ● fernando collor ● fernando collor ● fernando collor ● otto alencar ● otto alencar ● lídice da mata ● regina sousa ● regina sousa ● acir gurgacz ● lídice da mata ● lídice da mata ● regina sousa ● zeze perrella ● zeze perrella ● ● elmano férrer ● elmano férrer ● lindbergh farias ● raimundo lira ● raimundo lira ● zeze perrella ● lindbergh farias ● lindbergh farias ● elmano férrer ● josé pimentel ● josé pimentel ● ● paulo paim ● paulo paim ● josé pimentel ● fátima bezerra ● roberto requião ● fátima bezerra ● roberto requião ● fátima bezerra ● ● gleisi hoffmann ● gleisi hoffmann ● paulo rocha ● paulo rocha ● paulo rocha ● roberto requião ● humberto costa ● humberto costa ● humberto costa ● ângela portela ● ângela portela ● ângela portela ● −2 0 2 −2 0 2 −2 0 2 Orientação política Orientação política Orientação política

Figura 6.9: Pontos ideais estimados e intervalos de credibilidade de todos os senadores.

91 Resultados para os partidos

A Tabela 6.3 apresenta as estimativas dos pontos ideais de todos os partidos políticos provenientes da estimação do modelo logit e a Figura 6.10 apresenta as estimativas provenientes a partir dos três modelos. Como exemplo, pode-se notar que, pelo critério assumido, apenas o PT é classificado como um partido “esquerda” e o PSDB como um partido de“direita”. Os demais partidos são classificados como de “centro”. Para a construção da Tabela 6.3 e da Figura 6.10 utilizou-se os valores a posteriori dos parâmetros e tomou-se a média.

Tabela 6.3: Estimativas das distribuições a posteriori provenientes do modelo logit com intervalos de credibilidade de 95% referentes aos partidos políticos.

Partido Média DP IC de 95% PT -1,48 0,07 (-1,63;-1,34) PMB -0,89 0,33 (-1,55;-0,26) PEN -0,73 0,41 (-1,52;0,07) PCdoB -0,71 0,10 (-0,91;-0,52) PTC -0,54 0,25 (-1,04;-0,05) PSOL -0,53 0,13 (-0,78;-0,29) PDT -0,37 0,11 (-0,58;-0,16) PV 0,01 0,19 (-0,35;0,37) PSB 0,04 0,08 (-0,11;0,19) REDE 0,05 0,14 (-0,23;0,33) SD 0,06 0,12 (-0,18;0,3) PHS 0,09 0,15 (-0,2;0,39) PSD 0,10 0,08 (-0,06;0,25) PMDB 0,18 0,07 (0,05;0,3) PRB 0,24 0,15 (-0,04;0,53) PP 0,29 0,09 (0,12;0,46) PTB 0,30 0,10 (0,09;0,51) PROS 0,31 0,19 (-0,05;0,68) PR 0,38 0,10 (0,19;0,59) PSC 0,60 0,16 (0,3;0,93) PPS 0,62 0,11 (0,4;0,83) PODE 0,69 0,14 (0,43;0,96) DEM 0,75 0,09 (0,58;0,93) PSL 0,75 0,20 (0,38;1,17) PSDB 0,87 0,08 (0,73;1,01)

92 Modelo logit Modelo probit Modelo t−Student

PSDB ● PSDB ● PSDB ●

PSL ● PSL ● PODE ●

DEM ● DEM ● DEM ●

PODE ● PODE ● PSL ●

PPS ● PPS ● PSC ●

PSC ● PSC ● PPS ●

PR ● PR ● PR ●

PROS ● PTB ● PROS ●

PTB ● PP ● PP ●

PP ● PROS ● PTB ●

PRB ● PRB ● PMDB ●

PMDB ● PMDB ● PRB ●

PSD ● PSD ● PHS ●

PHS ● PHS ● PSD ●

SD ● SD ● SD ●

REDE ● REDE ● PSB ●

PSB ● PV ● PV ●

PV ● PSB ● REDE ●

PDT ● PDT ● PDT ●

PSOL ● PSOL ● PSOL ●

PTC ● PTC ● PTC ●

PCdoB ● PCdoB ● PCdoB ●

PEN ● PEN ● PEN ●

PMB ● PMB ● PMB ●

PT ● PT ● PT ● −1 0 1 −1 0 1 −1 0 1 Orientação política Orientação política Orientação política

Figura 6.10: Pontos ideais estimados e intervalos de credibilidade de todos os partidos.

Resultados para os atores

A Figura 6.11 apresenta as estimativas dos pontos ideais de todos os atores políticos. Como exemplo, pode-se notar que os atores Blog Dilma Brasil e a revista Carta capital estão localizados à esquerda da escala ideológica de acordo com o modelo logit. Seus pontos ideais estimados são: -2,43 e -1,17, respectivamente. Seus desvios padrões a posteriori são: 0,28 e 0,20, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (-3,04;-1,91) e (-1,58;-0,80). A estimativa do ponto ideal, desvio padrão e intervalo de credibilidade da ex-presidente Dilma Rousseff, do PT, que foi estimada à esquerda da escala ideológica no artigo de Souza et al.(2017), são dados por: -1,67; 0,24 e (-2,17;-1,24). Os três atores apresentados são classificados como de “esquerda” de acordo com o critério assumido para a classificação. Note também que a Câmara dos deputados, o Senado federal, a revista Superinteressante e a política brasileira Marina Silva, do partido REDE, estão localizados ao centro da escala

93 ideológica de acordo com o modelo logit. Seus pontos ideais estimados são: -0,53, -0,34, -0,06 e 0,23, respectivamente. Seus desvios padrões a posteriori são: 0,20, 0,19, 0,21 e 0,19 , respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (-0,92;-0,13), (-0,71;0,03), (-0,46;0,34) e (-0,13,0,63). A estimativa do ponto ideal, desvio padrão e intervalo de credibilidade do atual presidente , filiado ao PMDB, que foi estimado ao centro da escala ideológica no artigo de Souza et al.(2017), são dados por: 0,41; 0,20 e (0,05;0,82). Os cinco atores apresentados são classificados como de “centro” de acordo com o critério assumido para a classificação. Para terminar, perceba que os atores Geraldo Alckmin, filiado ao PSDB, e a revista Veja estão localizados à direita da escala ideológica de acordo com o modelo logit. Seus pontos ideais estimados são: 1,67 e 1,40, respectivamente. Seus desvios padrões a posteriori são: 0,27 e 0,26, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (1,17;2,23) e (0,94;1,92). Os dois atores apresentados são classificados como de “direita” de acordo com o critério assumido para a classificação. Ao final das análises referentes aos senadores, concluiu-se que 19 atores políticos são classificados como sendo de “esquerda”, 74 atores como sendo de “centro” e 14 atores como sendo de “direita”, de acordo com o critério assumido nesta dissertação.

94 Modelo logit Modelo probit Modelo t−Student

o antagonista ● o antagonista ● o antagonista ● reinaldo azevedo ● reinaldo azevedo ● psdb ● psdb ● psdb ● reinaldo azevedo ● geraldo alckmin ● geraldo alckmin ● geraldo alckmin ● ● aloysio nunes ● lauro jardim ● veja ● veja ● aloysio nunes ● lauro jardim ● lauro jardim ● veja ● andréia sadi ● eliane cantanhêde ● andréia sadi ● eliane cantanhêde ● andréia sadi ● deputadoeduardocunha ● vera magalhães ● vera magalhães ● eliane cantanhêde ● monica waldvogel ● gerson camarotti ● acm neto ● míriam leitao.com ● monica waldvogel ● vera magalhães ● gerson camarotti ● míriam leitao.com ● míriam leitao.com ● deputadoeduardocunha ● radar on−line ● gerson camarotti ● radar on−line ● deputadoeduardocunha ● jornal nacional ● acm neto ● jornal nacional ● monica waldvogel ● jornal nacional ● renata lo prete ● estadão ● renata lo prete ● cristiana lôbo ● radar on−line ● cristiana lôbo ● acm neto ● william bonner ● estadão ● globonews ● joaquim barbosa ● globonews ● estadão ● globonews ● joaquim barbosa ● joaquim barbosa ● cristiana lôbo ● william bonner ● blog do noblat ● blog do noblat ● blog do noblat ● exame ● época ● exame ● william bonner ● exame ● o globo brasil ● o globo brasil ● g1 ● denise rothenburg ● época ● renata lo prete ● época ● dora kramer ● globo ● g1 ● denise rothenburg ● denise rothenburg ● dora kramer ● revista istoé ● revista istoé ● globo ● g1 ● o globo brasil ● revista istoé ● globo ● dora kramer ● rádio bandnews fm ● rádio bandnews fm ● jornal o globo ● jornal o globo ● jornal o globo ● folha de s.paulo ● fantástico ● folha de s.paulo ● rádio bandnews fm ● folha de s.paulo ● fantástico ● michel temer ● uol ● uol ● fantástico ● josias de souza ● josias de souza ● henrique e alves ● jornal hoje ● uol notícias ● uol ● uol notícias ● jornal hoje ● jornal hoje ● fernando rodrigues ● ancelmo.com ● fernando rodrigues ● ancelmo.com ● fernando rodrigues ● uol notícias ● michel temer ● michel temer ● josias de souza ● polícia federal ● política estadão ● ancelmo.com ● política estadão ● mônica bergamo ● marcelo tas ● mônica bergamo ● polícia federal ● polícia federal ● valor econômico ● valor econômico ● valor econômico ● jornal da cbn ● folha poder ● marina silva ● folha poder ● jornal da cbn ● g1 − política ● record tv ● record tv ● folha poder ● marina silva ● g1 − política ● jornal da cbn ● marcelo tas ● correio braziliense ● política estadão ● g1 − política ● marina silva ● terra brasil ● henrique e alves ● terra brasil ● mônica bergamo ● correio braziliense ● henrique e alves ● record tv ● terra brasil ● marcelo tas ● revista voto ● revista voto ● revista voto ● correio braziliense ● kennedy alencar ● kennedy alencar ● barack obama ● portal r7.com ● portal r7.com ● kennedy alencar ● ● ● ● Atores políticos barack obama barack obama instagram revista piauí ● revista piauí ● portal r7.com ● superinteressante ● superinteressante ● superinteressante ● mp federal ● congresso em foco ● congresso em foco ● congresso em foco ● mp federal ● revista piauí ● reuters brasil ● reuters brasil ● papa francisco ● instagram ● josé simão ● reuters brasil ● josé simão ● ig último segundo ● mp federal ● ig último segundo ● instagram ● jornal do brasil ● papa francisco ● papa francisco ● josé simão ● jornal do brasil ● jornal do brasil ● stf ● stf ● stf ● ig último segundo ● senado federal ● senado federal ● tse ● tse ● tse ● cnj ● cnj ● cnj ● bbc brasil ● bbc brasil ● bbc brasil ● rádio senado ● rádio senado ● rádio senado ● stj ● stj ● stj ● senado federal ● câmara dos deputados ● câmara dos deputados ● câmara dos deputados ● rádio câmara ● câmara notícias ● ministério justiça ● câmara notícias ● rádio câmara ● rádio câmara ● ministério justiça ● ministério justiça ● câmara notícias ● agora no planalto ● agora no planalto ● ipea ● tv câmara ● tv câmara ● agora no planalto ● ipea ● ipea ● tv câmara ● a voz do brasil ● a voz do brasil ● planejamento.gov.br ● planejamento.gov.br ● twibbon ● agência brasil ● agência brasil ● planejamento.gov.br ● a voz do brasil ● twibbon ● agência brasil ● tv brasil ● tv brasil ● tv brasil ● observatórioimprensa ● observatórioimprensa ● observatórioimprensa ● cartacapital ● cartacapital ● cartacapital ● ministério da saúde ● ministério da saúde ● ministério da saúde ● tv nbr ● tv nbr ● tv nbr ● brasil 247 ● brasil 247 ● brasil 247 ● portal brasil ● portal brasil ● manuela ● twibbon ● manuela ● portal brasil ● ● luis nassif ● luis nassif ● luis nassif ● dilma rousseff ● cândido vaccarezza ● manuela ● cândido vaccarezza ● dilma rousseff ● cândido vaccarezza ● suplicy ● suplicy ● suplicy ● rui falcão ● rui falcão ● alexandre padilha ● alexandre padilha ● conversa afiada ● rui falcão ● conversa afiada ● alexandre padilha ● conversa afiada ● ● ricardo berzoini ● carta maior ● carta maior ● carta maior ● blog dilma br ● blog dilma br ● blog dilma br ● ricardo berzoini ● pt brasil ● pt brasil ● pt brasil ● −2 0 2 −4 −2 0 2 −2 −1 0 1 2 Orientação política Orientação política Orientação política

Figura 6.11: Pontos ideais estimados e intervalos de credibilidade de todos os atores políticos.

95 Capítulo 7

Considerações finais

A presente dissertação teve como objetivo comparar os dois modelos existentes na literatura com o modelo proposto aqui através de critérios de comparação. O modelo proposto foi construído a partir do modelo de Barberá(2015), que permite a estimação dos pontos ideais dos usuários comuns com base em quem eles seguem no Twitter. A hipótese chave desse modelo assume que o Twitter é uma rede social homofílica. No contexto desta dissertação, assumir homofilia equivale a dizer que os usuários comuns do Twitter preferem seguir atores políticos que tenham posições ideológicas similares às deles. Foram ajustados três modelos nesta dissertação: o modelo de Barberá(2015) que assume função de ligação logit; o modelo de Imai et al.(2016) que assume função de ligação probit e o modelo que foi proposto nesta dissertação, que assume função de ligação inversa da função de distribuição acumulada t-Student com 1 grau de liberdade. No Capítulo 2 foram discutidas as similaridades existentes entre o modelo de Barberá(2015) e os modelos espaciais de votação nominal, modelos de teoria da resposta ao item e os modelos de espaços latentes aplicados às redes sociais. No Capítulo 3 foi feita uma breve revisão de inferência Bayesiana, dos métodos de Monte Carlo via cadeias de Markov e dos critérios de seleção de modelos e no Capítulo 4 foi descrita a metodologia utilizada nesta dissertação. No Capítulo 5 foi conduzido um estudo de simulação baseado em dados artificiais gerados a partir dos modelos propostos, com o intuito de avaliar as estimativas bayesianas dos parâmetros, com base no erro quadrático médio e na taxa de cobertura. Verificou-se que para os dados logit, o modelo t-Student foi o que produziu estimativas mais acuradas e menos precisas, para os dados probit o modelo probit foi o que produziu estimativas mais acuradas e menos precisas e para os dados t-Student o modelo t-Student foi o que obteve melhor ajuste. Concluiu-se que o parâmetro γ funciona como um fator de acomodação, que fornece maior ou menor peso

96 nas caudas influenciando as estimativas dos θ’s e dos φ’s e por isso é necessário avaliar os parâmetros transformados θ∗’s e φ∗ a fim de observar diferenças entre os parâmetros. Avaliou-se também que qualquer um dos três modelos preserva o ranking das posições ideológicas θ’s e dos φ’s. Os critérios DIC e LPML mostraram que quando os dados são probit ou t-Student, os modelos geradores são mais fáceis de serem identificados corretamente. Todas essas análises apenas se baseiam nas R = 100 réplicas geradas a partir de cada um dos modelos, considerando n = 200 e m = 20. A convergência das cadeias foi verificada através do critério de Raftery e pela avaliação dos traços das cadeias. No Capítulo 6 realizou-se uma aplicação dos três modelos a um conjunto de dados reais dos deputados federais e senadores provenientes do Twitter. Constatou-se que o modelo logit forneceu o melhor ajuste de acordo com os critérios DIC e LPML. Os pontos ideais estimados dos deputados, senadores e dos atores políticos ficaram de acordo com trabalhos existentes na literatura. Como trabalhos futuros propõe-se utilizar outras funções de ligação, como a normal assimétrica e a t-Student assimétrica, devido ao fato de que essas funções podem representar de maneira mais adequada a realidade política atual, onde a quantidade de indivíduos de “direita” é diferente da quantidade de indivíduos de “esquerda”. Propõe-se também considerar diferentes tamanhos de amostra para avaliar a consistência dos estimadores e dos critérios de seleção e utilizar o máximo a posteriori via algoritmo EM para melhorar o tempo computacional.

97 98 Apêndice A

Apêndice A

Tabela A.1: Lista dos deputados ordenados por partido.

Deputado Partido Deputado Partido OSMAR BERTOLDI DEM NEWTON CARDOSO JR PMDB ABEL MESQUITA JR DEM PEDRO PAULO PMDB ALEXANDRE LEITE DEM ANDRE AMARAL PMDB JUSCELINO FILHO DEM LEONARDO QUINTAO PMDB RODRIGO MAIA DEM RODRIGO PACHECO PMDB PROFESSORA DORINHA SEABRA REZENDE DEM PEDRO CHAVES PMDB FELIPE MAIA DEM DULCE MIRANDA PMDB MARCELO AGUIAR DEM ALCEU MOREIRA PMDB MARCOS ROGERIO DEM HILDO ROCHA PMDB ELMAR NASCIMENTO DEM SERGIO SOUZA PMDB SOSTENES CAVALCANTE DEM BALEIA ROSSI PMDB PAULO AZI DEM ELCIONE BARBALHO PMDB CARLOS MELLES DEM JOSI NUNES PMDB PAUDERNEY AVELINO DEM LEONARDO PICCIANI PMDB ONYX LORENZONI DEM MARCELO CASTRO PMDB ALBERTO FRAGA DEM VALDIR COLATTO PMDB EFRAIM FILHO DEM DANIEL VILELA PMDB RUBENS PEREIRA JUNIOR PCdoB ZE AUGUSTO NALIN PMDB ORLANDO SILVA PCdoB HUGO MOTTA PMDB JANDIRA FEGHALI PCdoB SIMONE MORGADO PMDB LUCIANA SANTOS PCdoB MOSES RODRIGUES PMDB ASSIS MELO PCdoB FABIO REIS PMDB JO MORAES PCdoB ROGERIO PENINHA MENDONCA PMDB DANIEL ALMEIDA PCdoB WALTER ALVES PMDB MOISES DINIZ PCdoB LUCIO VIEIRA LIMA PMDB ALICE PORTUGAL PCdoB MAURO MARIANI PMDB LEÔNIDAS CRISTINO PDT LAURA CARNEIRO PMDB ROBERTO GOES PDT VENEZIANO VITAL DO REGO PMDB ANDRE FIGUEIREDO PDT DARCISIO PERONDI PMDB CARLOS EDUARDO CADOCA PDT JOAO ARRUDA PMDB WOLNEY QUEIROZ PDT LELO COIMBRA PMDB POMPEO DE MATTOS PDT CELSO JACOB PMDB AFONSO MOTTA PDT CARLOS BEZERRA PMDB WEVERTON ROCHA PDT FRANCISCO CHAPADINHA PODE HISSA ABRAHÃO PDT ALEXANDRE BALDY PODE JUNIOR MARRECA PEN EZEQUIEL TEIXEIRA PODE DR. JORGE SILVA PHS CARLOS HENRIQUE GAGUIM PODE MARCELO ARO PHS ANTONIO JACOME PODE DIEGO GARCIA PHS LUIZ CARLOS RAMOS PODE CARLOS ANDRADE PHS RONALDO CARLETTO PP GIVALDO CARIMBAO PHS BETO SALAME PP WELITON PRADO PMB ANDRE FUFUCA PP ALEXANDRE SERFIOTIS PMDB MARCUS VICENTE PP SORAYA SANTOS PMDB HIRAN GONCALVES PP JOAO MARCELO SOUZA PMDB WALDIR MARANHAO PP JOSE PRIANTE PMDB CONCEICAO SAMPAIO PP ALTINEU CORTES PMDB GUILHERME MUSSI PP SERGIO ZVEITER PMDB JULIO LOPES PP CELSO PANSERA PMDB 99 LUIZ FERNANDO FARIA PP CABUCU BORGES PMDB RENATO ANDRADE PP Deputado Partido Deputado Partido RICARDO IZAR PP EROS BIONDINI PROS RENZO BRAZ PP FELIPE BORNIER PROS CACA LEAO PP ATILA LIRA PSB MAIA FILHO PP ADILTON SACHETTI PSB COVATTI FILHO PP MARIA HELENA PSB LUIS CARLOS HEINZE PP MARINALDO ROSENDO PSB AFONSO HAMM PP BEBETO PSB ROBERTO BALESTRA PP KEIKO OTA PSB BETO ROSADO PP FLAVINHO PSB PAULO MALUF PP DANILO CABRAL PSB IRACEMA PORTELLA PP HERACLITO FORTES PSB JERONIMO GOERGEN PP HEITOR SCHUCH PSB ALEX MANENTE PPS JANETE CAPIBERIBE PSB LUZIA FERREIRA PPS LUIZ LAURO FILHO PSB POLLYANA GAMA PPS LUCIANO DUCCI PSB ELIZIANE GAMA PPS RODRIGO MARTINS PSB ARTHUR OLIVEIRA MAIA PPS DANILO FORTE PSB MARCOS ABRAO PPS HUGO LEAL PSB ARNALDO JORDY PPS JOAO FERNANDO COUTINHO PSB ROBERTO FREIRE PPS TENENTE LUCIO PSB RUBENS BUENO PPS RAFAEL MOTTA PSB REMIDIO MONAI PR JHC PSB PAULO FREIRE PR SEVERINO NINHO PSB AELTON FREITAS PR TEREZA CRISTINA PSB LUIZ NISHIMORI PR PAULO FOLETTO PSB DELEGADO WALDIR PR JOSE STEDILE PSB ALEXANDRE VALLE PR ODORICO MONTEIRO PSB PAULO FEIJO PR PR. MARCO FELICIANO PSC MILTON MONTI PR JAIR BOLSONARO PSC DELEGADO EDSON MOREIRA PR EDUARDO BOLSONARO PSC CHRISTIANE DE SOUZA YARED PR AROLDE DE OLIVEIRA PSC GIACOBO PR VALADARES FILHO PSC CAJAR NARDES PR ANDRE MOURA PSC VICENTINHO JUNIOR PR HERCULANO PASSOS PSD TIRIRICA PR MARCOS MONTES PSD LAERTE BESSA PR EXPEDITO NETTO PSD JOAO CARLOS BACELAR FILHO PR JOAO PAULO KLEINÜBING PSD GIOVANI CHERINI PR JEFFERSON CAMPOS PSD MARCELO ALVARO ANTONIO PR DELEGADO EDER MAURO PSD JORGINHO MELLO PR MARCOS REATEGUI PSD ANTONIO BULHÕES PRB FABIO MITIDIERI PSD CELSO RUSSOMANNO PRB PAULO MAGALHAES PSD JONY MARCOS PRB EVANDRO ROMAN PSD JHONATAN DE JESUS PRB REINHOLD STEPHANES PSD JOAO CAMPOS PRB STEFANO AGUIAR PSD BETO MANSUR PRB JOAO RODRIGUES PSD CARLOS GOMES PRB JULIO CESAR PSD CESAR HALUM PRB IRAJA ABREU PSD RONALDO FONSECA PROS EDMAR ARRUDA PSD TONINHO WANDSCHEER PROS DOMINGOS NETO PSD

100 Deputado Partido Deputado Partido ROGERIO ROSSO PSD PATRUS ANANIAS PT FABIO FARIA PSD ARLINDO CHINAGLIA PT GOULART PSD MARCO MAIA PT SANDRO ALEX PSD JOSE AIRTON CIRILO PT JAIME MARTINS PSD ENIO VERRI PT ROMULO GOUVEIA PSD WALDENOR PEREIRA PT THIAGO PEIXOTO PSD JOSE GUIMARAES PT BONIFACIO DE ANDRADA PSDB WADIH DAMOUS PT EDUARDO CURY PSDB ERIKA KOKAY PT VITOR LIPPI PSDB VICENTE CANDIDO PT RAIMUNDO GOMES DE MATOS PSDB JORGE SOLLA PT EDUARDO BARBOSA PSDB ZECA DIRCEU PT IZALCI LUCAS PSDB ASSIS CARVALHO PT YEDA CRUSIUS PSDB PEPE VARGAS PT SHERIDAN PSDB LUIZIANNE LINS PT ELIZEU DIONIZIO PSDB ZE CARLOS PT VANDERLEI MACRIS PSDB JOAO DANIEL PT MARIANA CARVALHO PSDB PADRE JOAO PT JOAO PAULO PAPA PSDB JOSE MENTOR PT PEDRO CUNHA LIMA PSDB VALMIR ASSUNCAO PT OTAVIO LEITE PSDB BENEDITA DA SILVA PT ANTONIO IMBASSAHY PSDB PEDRO UCZAI PT FABIO SOUSA PSDB MARGARIDA SALOMAO PT CAIO NARCIO PSDB ANGELIM PT MARCO TEBALDI PSDB LEONARDO MONTEIRO PT LOBBE NETO PSDB CARLOS ZARATTINI PT GEOVANIA DE SA PSDB ANA PERUGINI PT GIUSEPPE VECCI PSDB RUBENS OTONI PT CARLOS SAMPAIO PSDB MARIA DO ROSARIO PT PAULO ABI-ACKEL PSDB HELDER SALOMAO PT NILSON LEITAO PSDB AFONSO FLORENCE PT BRUNA FURLAN PSDB BETO FARO PT RODRIGO DE CASTRO PSDB LEO DE BRITO PT DANIEL COELHO PSDB NILTO TATTO PT GERALDO RESENDE PSDB VANDER LOUBET PT BETINHO GOMES PSDB NELSON PELLEGRINO PT ROGERIO MARINHO PSDB ZECA DO PT PT MARA GABRILLI PSDB SAGUAS MORAES PT NELSON PADOVANI PSDB JOSIAS GOMES PT MARCUS PESTANA PSDB PAULAO PT DAMINA PEREIRA PSL HENRIQUE FONTANA PT ALFREDO KAEFER PSL MARCON PT CHICO ALENCAR PSOL LUIZ COUTO PT LUIZA ERUNDINA PSOL DECIO LIMA PT JEAN WYLLYS PSOL CHICO DANGELO PT GLAUBER BRAGA PSOL PAULO PIMENTA PT IVAN VALENTE PSOL GIVALDO VIEIRA PT EDMILSON RODRIGUES PSOL BOHN GASS PT LUIZ SERGIO PT ADELMO CARNEIRO LEAO PT VALMIR PRASCIDELLI PT PAULO TEIXEIRA PT

101 Tabela A.2: Senadores ordenados por partido.

Senador Partido José Agripino DEM Davi Alcolumbre DEM Ronaldo Caiado DEM Vanessa Grazziotin PCdoB Ângela Portela PDT Acir Gurgacz PDT Airton Sandoval PMDB Elmano Férrer PMDB Rose de Freitas PMDB Raimundo Lira PMDB Simone Tebet PMDB Renan Calheiros PMDB Dário Berger PMDB Deputado Partido Valdir Raupp PMDB VICENTINHO PT Marta Suplicy PMDB Kátia Abreu PMDB REGINALDO LOPES PT Jader Barbalho PMDB JOSUE BENGTSON PTB José Maranhão PMDB Hélio José PMDB ARNALDO FARIA DE SA PTB Garibaldi Alves Filho PMDB RONALDO NOGUEIRA PTB Roberto Requião PMDB PEDRO FERNANDES PTB Romero Jucá PMDB Zeze Perrella PMDB CRISTIANE BRASIL PTB Eunício Oliveira PMDB NELSON MARQUEZELLI PTB Eduardo Braga PMDB JOVAIR ARANTES PTB Romário PODE Alvaro Dias PODE BENITO GAMA PTB Ciro Nogueira PP ALEX CANZIANI PTB Wilder Morais PP WILSON FILHO PTB Ana Amélia PP Gladson Cameli PP EVANDRO GUSSI PV Cristovam Buarque PPS EVAIR VIEIRA DE MELO PV Cidinho Santos PR ANTONIO CARLOS MENDES THAME PV Vicentinho Alves PR Magno Malta PR ROBERTO DE LUCENA PV Wellington Fagundes PR ULDURICO JUNIOR PV Eduardo Lopes PRB Roberto Rocha PSB ALESSANDRO MOLON REDE João Capiberibe PSB JOAO DERLY REDE Antonio Carlos Valadares PSB ALIEL MACHADO REDE Lídice da Mata PSB Lúcia Vânia PSB WLADIMIR COSTA SD Pedro Chaves PSC LUCAS VERGILIO SD Sérgio Petecão PSD LAUDIVIO CARVALHO SD Lasier Martins PSD Otto Alencar PSD PAULO PEREIRA DA SILVA SD José Medeiros PSD ZE SILVA SD Aécio Neves PSDB GENECIAS NORONHA SD Antonio Anastasia PSDB Tasso Jereissati PSDB AUGUSTO COUTINHO SD Eduardo Amorim PSDB AUGUSTO CARVALHO SD Ricardo Ferraço PSDB LAERCIO OLIVEIRA SD Paulo Bauer PSDB Flexa Ribeiro PSDB DELEGADO FRANCISCHINI SD José Serra PSDB Ataídes Oliveira PSDB Cássio Cunha Lima PSDB Paulo Rocha PT Lindbergh Farias PT Gleisi Hoffmann PT Jorge Viana PT Fátima Bezerra PT Regina Sousa PT Humberto Costa PT Paulo Paim PT José Pimentel PT Telmário Mota PTB Armando Monteiro PTB Fernando Collor PTC Randolfe Rodrigues REDE 102 Reguffe S/Partido Tabela A.3: Lista dos atores políticos.

Ator Político Partido Ator Político Partido Época VEJA Ancelmo.Com Instagram Blog do Noblat Ministério Justiça Fantástico Senado Federal Globo Rádio Câmara UOL Notícias Câmara Notícias Monica Waldvogel Câmara dos Deputados Míriam Leitao.com TV Câmara Renata Lo Prete Estadão Eliane Cantanhêde G1 Gerson Camarotti Dilma Rousseff PT Andréia Sadi Valor Econômico MP Federal Revista ISTOÉ STJ Folha de S.Paulo CNJ CartaCapital Jornal da CBN Marina Silva REDE BBC Brasil Joaquim Barbosa Política Estadão Jornal Nacional Henrique E Alves PMDB Michel Temer PMDB TV Brasil DeputadoEduardoCunha PMDB William Bonner Exame UOL ACM Neto DEM Portal R7.com Rádio BandNews FM Conversa Afiada TSE Fernando Rodrigues STF Brasil 247 Radar On-line Luis Nassif Congresso em Foco José Simão Reuters Brasil Portal Brasil Jornal O Globo Carta Maior Reinaldo Azevedo Blog Dilma BR josias de souza Vera Magalhães iG Último Segundo O Antagonista Jornal do Brasil Rui Falcão PT Correio Braziliense G1 - Política revista piauí Jornal Hoje Alexandre Padilha PT Papa Francisco A Voz do Brasil Ministério da Saúde Barack Obama Twibbon O Globo Brasil Polícia Federal Folha Poder Rádio Senado Cristiana Lôbo Superinteressante Agora No Planalto TV NBR GloboNews Record TV Terra Brasil Planejamento.gov.br Aloysio Nunes PSDB Ipea Agência Brasil Kennedy Alencar Geraldo Alckmin PSDB ObservatórioImprensa Marcelo Tas Suplicy PT PSDB Cândido Vaccarezza PT Mônica Bergamo PT Brasil Dora Kramer 103 Ricardo Berzoini PT Lauro Jardim Manuela PCdoB Denise Rothenburg Revista VOTO Referências Bibliográficas

Aguirre, J.-L. (2011). Introducción al análisis de redes sociales. Documentos de Trabajo del Centro Interdisciplinario para el Estudio de Políticas Públicas, 82:1–59.

Bafumi, J., Gelman, A., Park, D. K., e Kaplan, N. (2005). Practical issues in implementing and understanding Bayesian ideal point estimation. Political Analysis, 13(2):171–187.

Barberá, P. (2015). Birds of the same feather tweet together: Bayesian ideal point estimation using Twitter data. Political Analysis, 23(1):76–91.

Birnbaum, A. (1968). Some latent train models and their use in inferring an examinee’s ability. Statistical Theories of Mental Test Scores, pages 395–479.

Brown, W. e Draper, D. (2000). A comparison of Bayesian and likelihood methods for fitting multilevel models. London: Mathematical Sciences Group, Institute of Education, University of London.

Carroll, R., Lewis, J. B., Lo, J., Poole, K. T., e Rosenthal, H. (2013). The structure of utility in spatial models of voting. American Journal of Political Science, 57(4):1008–1028.

Chen, M.-H., Shao, Q.-M., e Ibrahim, J. G. (2012). Monte Carlo Methods in Bayesian Computation. Springer Science & Business Media.

Clinton, J., Jackman, S., e Rivers, D. (2004). The statistical analysis of roll call data. American Political Science Review, 98(2):355–370.

Downs, A. (1957). An economic theory of political action in a democracy. Journal of Political Economy, 65(2):135–150.

Ferreira, G. (2011). Redes sociais de informação: uma história e um estudo de caso. Perspectivas em Ciência da Informação, 16(3):208–231.

104 Freeden, M. (2013). Ideología: Una Breve Introducción, volume 6. Ed. Universidad de Cantabria.

Gamerman, D. e Lopes, H. F. (2006). Markov Chain Monte Carlo: Stochastic Simulation for Bayesian Inference. CRC Press.

García, M., Castellana, N., Rapelli, C., Koegel, L., e Catalano, M. (2014). Criterios de información y predictivos para la selección de un modelo lineal mixto. SaberEs, (6).

Gelfand, A. E., Dey, D. K., e Chang, H. (1992). Model determination using predictive distributions with implementation via sampling-based methods. Technical report, STANFORD UNIV CA DEPT OF STATISTICS.

Gelfand, A. E. e Smith, A. F. (1990). Sampling-based approaches to calculating marginal densities. Journal of the American Statistical Association, 85(410):398–409.

Geman, S. e Geman, D. (1984). Stochastic relaxation, Gibbs distributions, and the Bayesian restoration of images. IEEE Transactions on Pattern Analysis and Machine Intelligence, (6):721–741.

Hastings, W. K. (1970). Monte Carlo sampling methods using Markov chains and their applications. Biometrika, 57(1):97–109.

Hoff, P. D., Raftery, A. E., e Handcock, M. S. (2002). Latent space approaches to social network analysis. Journal of the american Statistical association, 97(460):1090–1098.

Ibrahim, J. G., Chen, M.-H., e Sinha, D. (2001). Criterion-based methods for Bayesian model assessment. Statistica Sinica, 11(2):419–443.

Imai, K., Lo, J., e Olmsted, J. (2016). Fast estimation of ideal points with massive data. American Political Science Review, 110(4):631–656.

Kadushin, C. (2013). Comprender las Redes Sociales: Teorías, Conceptos y hallazgos, volume 11. CIS-Centro de Investigaciones Sociológicas.

Kolaczyk, E. D. e Csárdi, G. (2014). Statistical Analysis of Network Data with R. Springer.

Lazarsfeld, P. F., Merton, R. K., et al. (1954). Friendship as a social process: a substantive and methodological analysis. Freedom and Control in Modern Society, 18(1):18–66.

Lord, F. (1952). A Theory of Test Scores. Psychometric Monographs.

105 Martin, S., Saalfeld, T., e Strøm, K. (2014). The Oxford Handbook of Legislative Studies. OUP Oxford.

Masters, G. N., Wright, B. D., van der Linden, W. J., e Hambleton, R. K. (1997). Handbook of Modern Item Response Theory. The partial credit model. Springer, New York.

McCarty, N. (2011). Measuring legislative preferences. In The Oxford Handbook of the American Congress, pages 66–94.

McFadden, D. (1973). Conditional logit analysis of qualitative choice behavior.

Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N., Teller, A. H., e Teller, E. (1953). Equation of state calculations by fast computing machines. The Journal of Chemical Physics, 21(6):1087–1092.

Otero, I. D., González, M. L., e Vázquez, A. N. (2012). Ciencia Política Contemporánea, volume 210. Editorial UOC.

Plummer, M. (2009). Jags version 1.0. 3 manual. URL: http://www-ice. iarc. fr/˜ martyn/software/jags/jags_user_manual. pdf.

Plummer, M. (2013). rjags: Bayesian graphical models using mcmc. R package version, 3.

Poole, K. T. (2005). Spatial Models of Parliamentary Voting. Cambridge University Press.

Poole, K. T. e Rosenthal, H. (2000). Congress: A Political-Economic History of Roll Call Voting. Oxford University Press on Demand.

Raftery, A. E. e Lewis, S. M. (1992). One long run with diagnostics: implementation strategies for Markov chain Monte Carlo. Statistical science, 7(4):493–497.

Robert, C. e Casella, G. (2009). Introducing Monte Carlo Methods with R. Springer Science & Business Media.

Souza, R. M., Graça, L. F. G., e Silva, R. S. (2017). Politics on the web: Using twitter to estimate the ideological positions of brazilian representatives. Brazilian Political Science Review.

Spiegelhalter, D. J., Best, N. G., Carlin, B. P., e Van Der Linde, A. (2002). Bayesian measures of model complexity and fit. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 64(4):583–639.

106 Stock, J. H. e Watson, M. W. (2004). Combination forecasts of output growth in a seven-country data set. Journal of Forecasting, 23(6):405–430.

Team, R. C. (2014). R: A language and environment for statistical computing. vienna, austria: R foundation for statistical computing; 2014.

Tierney, L. (1994). Markov chains for exploring posterior distributions. the Annals of Statistics, pages 1701–1728.

Upadhyay, S. K., Singh, U., Dey, D. K., e Loganathan, A. (2015). Current Trends in Bayesian Methodology with Applications. Chapman and Hall/CRC.

107