Análise Bayesiana de Modelos de Redes Sociais para Dados do Twitter no Espaço Bidimensional

Marcos Sousa Goulart

Universidade Federal do Instituto de Matemática Departamento de Métodos Estatísticos 2019 Análise Bayesiana de Modelos de Redes Sociais para Dados do Twitter no Espaço Bidimensional

Marcos Sousa Goulart

Dissertação de Mestrado submetida ao Programa de Pós-Graduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Mestre em Estatística.

Orientadores: Ralph dos Santos Silva Marina Silva Paez

Rio de Janeiro, RJ - Brasil 2019

ii

CIP - Catalogação na Publicação

Goulart, Marcos Sousa G694a Análise Bayesiana de Modelos de Redes Sociais para Dados do Twitter no Espaço Bidimensional / Marcos Sousa Goulart. -- Rio de Janeiro, 2019. 91 f.

Orientador: Ralph dos Santos Silva. Coorientadora: Marina Silva Paez. Dissertação (mestrado) - Universidade Federal do Rio de Janeiro, Instituto de Matemática, Programa de Pós-Graduação em Estatística, 2019.

1. modelos de espaços latentes. 2. relação unidirecional. 3. posições ideológicas. 4. política. I. Silva, Ralph dos Santos, orient. II. Paez, Marina Silva, coorient. III. Título.

Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a) autor(a), sob a responsabilidade de Miguel Romeu Amorim Neto - CRB-7/6283.

iv “Direi do Senhor: Ele é o meu Deus, o meu refúgio, a minha fortaleza, e nele confiarei.”

(Salmos 91:2)

v Agradecimentos

Agradeço a Deus em nome do Senhor Jesus, pelos milagres realizados em minha vida, por me sustentar e me capacitar para enfrentar todos os obstáculos advindos deste difícil curso. Agradeço aos meus pais, por todo cuidado e amor que vocês têm para comigo e por sempre me ampararem nos momentos mais difíceis da minha vida, inclusive deste curso. Aos meus tios e primos, do Rio de Janeiro ou de outros estados, que perto ou longe, também me deram apoio nesta difícil jornada. Agradeço aos meus orientadores Ralph e Marina, por toda a atenção, calma e dedicação para comigo nesta dissertação, por retirar as minhas numerosas dúvidas e pelas correções que fizeram neste trabalho visando à sua melhoria. Agradeço à professora Mariane, por aceitar fazer parte da banca desta dissertação de mestrado e pelo curso de Inferência Estatística. Agradeço a estes e aos demais professores da pós-graduação em Estatística da UFRJ, que direta ou indiretamente me ajudaram e me proporcionaram uma base sólida e uma excelente formação. Agradeço ao professor Gustavo Ferreira, da ENCE, meu orientador de Iniciação Científica, cujo tema foi modelos de redes sociais, que me ajudou na maior parte da minha graduação, que me incentivou a prosseguir com os estudos e me ajudou muito a chegar até aqui. Agradeço também por fazer parte da banca desta dissertação de mestrado. Agradeço ao professor Luis Felipe Guedes da Graça, do Departamento de Sociologia e Política da UFSC, pelos comentários que contribuíram neste estudo. Agradeço a todos os meus colegas (quer sejam de Mestrado, quer sejam de Doutorado) que direta ou indiretamente me ajudaram, em especial, ao Márcio, que se formou comigo na ENCE e com quem tive oportunidade de reencontrar na Pós-Graduação em Estatística da UFRJ. Foi amigo de estudo neste meu período de Mestrado com o qual tive contato por boa parte do curso. Agradeço aos professores Lobão, meu orientador de graduação, e Luisa La Croix (ambos da ENCE), por ajudas e dicas que me auxiliaram muito neste curso de Mestrado. Certamente para a escolha de estágio em docência em Séries Temporais, eu me lembrei do curso que tive com o

vi Lobão na ENCE. Ao professor Eduardo Campos, que participou da minha banca de trabalho de conclusão de curso da graduação, da ENCE e que também me incentivou a prosseguir com os estudos. Por fim, agradeço à CAPES, pelo apoio financeiro dos meus estudos.

vii Resumo

A análise de redes tem sido aplicada a diversas áreas do conhecimento, tal como no campo da política. As redes sociais têm apresentado impacto relevante nas campanhas eleitorais, e, assim, modelos de redes sociais têm sido desenvolvidos para estimar as posições ideológicas de políticos e partidos políticos, por exemplo. Barberá(2015), Souza et al.(2017) e Souza(2017) propuseram modelos com base em dados do Twitter e em relações unidirecionais em que o espaço latente é constituído de somente uma dimensão, definida como a ideologia e representado pelo antagonismo entre “esquerda” e “direita”. Trabalhos tais como o de Zucco(2009) definem uma segunda dimensão para representar a dicotomia entre “oposição” e “governo” a partir de modelos espaciais de votações nominais. O principal propósito desta dissertação é, por conseguinte, estender o modelo de Barberá(2015) para um espaço latente com duas dimensões. Será feito um estudo com dados artificiais a fim de se entender o processo de estimação e avaliar se há diferenças expressivas entre os modelos propostos. Em seguida, através de uma aplicação a um conjunto de dados reais, serão estimadas posições ideológicas em um espaço latente bidimensional no contexto brasileiro para deputados federais, senadores e atores políticos com conta no Twitter em julho de 2017.

Palavras-chave: modelos de espaços latentes; relação unidirecional; posições ideológicas; política.

viii Abstract

Network analysis has been applied to several areas such as politics. Social networks have presented a relevant impact in election campaigns, and thus social network models have been developed to estimate the ideological positions of politics and political parties, for instance. Barberá(2015), Souza et al.(2017) and Souza(2017) proposed models on the basis of Twitter data and unidirectional relationships in which the latent space only consists of one dimension, defined as the ideology and represented by the antagonism between “left” and “right”. On other side, Zucco(2009) define a second dimension to represent the dichotomy between “opposition” and “government” based on spatial models of roll-call voting. Therefore, the main purpose of this work is to extend the model of Barberá(2015) to a two-dimensional latent space. A study with artificial data will be conducted in order to understand the estimation process and to assess if there are significant differences between the proposed models. Then, through a real data application, ideological positions will be estimated in a two-dimensional latent space in the Brazilian context for federal deputies, senators and political actors with account on Twitter in July 2017.

Keywords: latent space models; unidirectional relationship; ideological positions; politics.

ix Sumário

1 Introdução1 1.1 Objetivo...... 5

2 Revisão de Inferência Bayesiana7 2.1 Teorema de Bayes...... 7 2.2 Estimação...... 8 2.3 Métodos de Monte Carlo via cadeias de Markov...... 9 2.3.1 Metropolis-Hastings...... 9 2.3.2 Amostragem de Gibbs...... 11

3 Metodologia 13 3.1 Especificação do modelo...... 13 3.2 Distribuição a posteriori...... 14

4 Estudo com dados simulados 17 4.1 Dados gerados com uma constante de normalização...... 17 4.1.1 Estimação com uma constante de normalização...... 23 4.1.2 Estimação com duas constantes de normalização...... 29 4.2 Dados gerados com duas constantes de normalização...... 34 4.2.1 Estimação com uma constante de normalização...... 37 4.2.2 Estimação com duas constantes de normalização...... 43

5 Aplicação a dados reais 49 5.1 Resultados para os atores políticos...... 55 5.2 Resultados da primeira dimensão para os deputados federais e senadores.... 60 5.3 Resultados da segunda dimensão para os deputados federais e senadores.... 65

x 5.4 Resultados para os partidos...... 71

6 Considerações finais 78

A Apêndice A 80

B Apêndice B 83

xi Lista de Tabelas

4.1 Média e variância amostrais referentes aos dados simulados das distâncias entre os elementos de Φ e Θ na 1ª e na 2ª dimensão e sua soma...... 20 4.2 Proporção de sucessos e fracassos em relação ao total para cada intervalo de distâncias...... 21 4.3 Valores verdadeiros, estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori...... 26 4.4 Valores verdadeiros, estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori...... 31 4.5 Proporção de sucessos e fracassos em relação ao total para cada intervalo de distâncias...... 35 4.6 Valores verdadeiros, estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori...... 39 4.7 Valores verdadeiros, estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori...... 45

5.1 Lista dos partidos cujos usuários e atores políticos do Twitter tiveram, em ambas as cadeias, pelo menos um de seus elementos de Φ ou de Θ com inicialização em -1 ou 1...... 51 5.2 Estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori...... 54 5.3 Lista dos atores políticos com suas médias e desvios a posteriori...... 56 5.4 Médias a posteriori e intervalos de credibilidade para os usuários (senadores e deputados federais)...... 72 5.5 Médias a posteriori e intervalos de credibilidade para os deputados federais... 74 5.6 Médias a posteriori e intervalos de credibilidade para os senadores...... 76

xii B.1 Lista dos deputados ordenados por partido...... 83 B.2 Senadores ordenados por partido...... 86 B.3 Número de usuários que são deputados federais, senadores e o total por partido. 87

xiii Lista de Figuras

4.1 Gráficos de dispersão de φ1 contra φ2 e de θ1 contra θ2...... 18

4.2 Histogramas referentes aos dados simulados de φ1, φ2, θ1 e θ2...... 19 4.3 Histogramas referentes aos dados simulados das distâncias entre Φ e Θ na 1ª e na 2ª dimensão e sua soma...... 19 4.4 Histograma das probabilidades verdadeiras...... 20 4.5 Frequências de sucessos e fracassos para cada intervalo de distâncias...... 21

4.6 Boxplot de θ1 versus φ1, que foi construído a partir da ordenação de φ1 pelos

seus postos verdadeiros. Para cada elemento do vetor paramétrico φ1 deste

boxplot, consideraram-se apenas aqueles elementos do vetor paramétrico θ1 que o seguem no Twitter...... 22

4.7 Boxplot de θ2 versus φ2, que foi construído a partir da ordenação de φ2 pelos

seus postos verdadeiros. Para cada elemento do vetor paramétrico φ2 deste

boxplot, consideraram-se apenas aqueles elementos do vetor paramétrico θ2 que o seguem no Twitter...... 22 4.8 Gráfico da amostra da distribuição a posteriori de γ para as duas cadeias..... 25

4.9 Gráficos da amostra da distribuição a posteriori de φ3,1 e de φ9,1 para as duas cadeias...... 25

4.10 Gráficos da amostra da distribuição a posteriori de φ9,2 e de φ16,2 para as duas cadeias...... 26

4.11 Gráficos de dispersão de α, β, φ1, φ2, θ1 e θ2...... 27

4.12 Gráficos de dispersão dos postos de φ1 e φ2...... 27

4.13 Gráficos de dispersão dos postos de θ1 e θ2...... 28 4.14 Gráficos de dispersão das probabilidades e dos preditores não lineares...... 28

4.15 Gráficos de γ1 e de γ2 após período de aquecimento e após a retirada das defasagens...... 30

xiv 4.16 Gráficos da amostra da distribuição a posteriori de φ3,1 e de φ9,1 para as duas cadeias...... 30

4.17 Gráficos da amostra da distribuição a posteriori de φ9,2 e de φ16,2 para as duas cadeias...... 31

4.18 Gráficos de dispersão de α, β, φ1, φ2, θ1 e θ2...... 32

4.19 Gráficos de dispersão dos postos de φ1 e φ2...... 32

4.20 Gráficos de dispersão dos postos de θ1 e θ2...... 33 4.21 Gráficos de dispersão das probabilidades e dos preditores não lineares...... 33 4.22 Histograma das probabilidades verdadeiras...... 35 4.23 Frequências de sucessos e fracassos para cada intervalo de distâncias...... 36

4.24 Boxplot de θ1 versus φ1, que foi construído a partir da ordenação de φ1 pelos

seus postos verdadeiros. Para cada elemento do vetor paramétrico φ1 deste

boxplot, consideraram-se apenas aqueles elementos do vetor paramétrico θ1 que o seguem no Twitter...... 36

4.25 Boxplot de θ2 versus φ2, que foi construído a partir da ordenação de φ2 pelos

seus postos verdadeiros. Para cada elemento do vetor paramétrico φ2 deste

boxplot, consideraram-se apenas aqueles elementos do vetor paramétrico θ2 que o seguem no Twitter...... 37 4.26 Gráfico da amostra da distribuição a posteriori de γ para as duas cadeias..... 38

4.27 Gráficos da amostra da distribuição a posteriori de φ3,1 e de φ9,1 para as duas cadeias...... 38

4.28 Gráficos da amostra da distribuição a posteriori de φ9,2 e de φ16,2 para as duas cadeias...... 39

4.29 Gráficos de dispersão de α, β, φ1, φ2, θ1 e θ2...... 40

4.30 Gráficos de dispersão dos postos de φ1 e φ2...... 41

4.31 Gráficos de dispersão dos postos de θ1 e θ2...... 41 4.32 Gráficos de dispersão das probabilidades e dos preditores não lineares...... 42

4.33 Gráficos da amostra da distribuição a posteriori de γ1 e de γ2 para as duas cadeias. 43

4.34 Gráficos da amostra da distribuição a posteriori de φ3,1 e de φ9,1 para as duas cadeias...... 44

4.35 Gráficos da amostra da distribuição a posteriori de φ9,2 e de φ16,2 para as duas cadeias...... 44

4.36 Gráficos de dispersão de α, β, φ1, φ2, θ1 e θ2...... 45

4.37 Gráficos de dispersão dos postos de φ1 e φ2...... 46

xv 4.38 Gráficos de dispersão dos postos de θ1 e θ2...... 47 4.39 Gráficos de dispersão das probabilidades e dos preditores não lineares...... 47

5.1 Gráficos da amostra da distribuição a posteriori de γ1 e γ2 para as duas cadeias. 52

5.2 Gráficos da amostra da distribuição a posteriori de φ36,1 e φ47,1 para as duas cadeias...... 53

5.3 Gráficos da amostra da distribuição a posteriori de φ106,1 para as duas cadeias.. 53

5.4 Gráficos da amostra da distribuição a posteriori de φ36,2 e φ106,2 para as duas cadeias...... 54 5.5 Médias a posteriori e intervalos de credibilidade de 95% para os deputados federais para a primeira dimensão (continua)...... 61 5.6 Médias a posteriori e intervalos de credibilidade de 95% para os deputados federais para a primeira dimensão (continuação)...... 62 5.7 Médias a posteriori e intervalos de credibilidade de 95% para os deputados federais para a primeira dimensão (conclusão)...... 63 5.8 Médias a posteriori e intervalos de credibilidade de 95% para os senadores para a primeira dimensão...... 64 5.9 Médias a posteriori e intervalos de credibilidade de 95% para os deputados federais para a segunda dimensão (continua)...... 66 5.10 Médias a posteriori e intervalos de credibilidade de 95% para os deputados federais para a segunda dimensão (continuação)...... 67 5.11 Médias a posteriori e intervalos de credibilidade de 95% para os deputados federais para a segunda dimensão (conclusão)...... 68 5.12 Médias a posteriori e intervalos de credibilidade de 95% para os senadores para a segunda dimensão...... 69 5.13 Gráfico das médias a posteriori dos usuários (senadores e deputados federais).. 71 5.14 Gráfico das médias a posteriori dos deputados federais...... 73 5.15 Gráfico das médias a posteriori dos senadores...... 75

xvi Capítulo 1

Introdução

Segundo Wasserman e Faust(1994) e Hoff et al.(2002), a análise de redes tem sido observada em diversas áreas do conhecimento, tais como ciências sociais e comportamentais, economia, marketing e engenharia industrial. Para Lazer(2011), a importância do estudo de redes se baseia na seguinte premissa: estar em uma “boa” posição dentro da rede aumenta as chances de “sucesso” (entende-se por “sucesso” um rótulo para o evento em que se tem interesse). Por exemplo, uma pessoa que esteja em contato com vários indivíduos com gripe tem maiores chances de contrair a doença — que, nesse caso, seria o “sucesso” — do que alguém que tenha contato com poucos. Ainda de acordo com Knoke e Kuklinski(1982), a estrutura de relações entre atores e a localização de atores individuais na rede trazem importantes consequências comportamentais tanto para as unidades individuais quanto para o sistema como um todo. Nesta dissertação, propõe-se o uso de redes para a estimação da posição ideológica de usuários de uma rede social (a saber, o Twitter1), com base em suas interações com atores políticos. Segundo Valente e da Silva(2010), as redes sociais têm apresentado impacto relevante nas campanhas eleitorais, pois têm servido para muitos políticos e partidos políticos promoverem a sua própria imagem, de forma a propiciar uma relação mais direta com os eleitores. De acordo com Valente e da Silva(2010), a rede social Twitter teve como momento decisivo de propagação a sua utilização na campanha do então candidato à presidência dos Estados Unidos, Barack Obama, nas eleições de 2008. Segundo Amaral e de Pinho(2018), desde que o Twitter foi utilizado nessa campanha eleitoral, muitos políticos voltaram suas atenções ao uso das novas tecnologias, principalmente das mídias sociais. No cenário atual, o presidente da República do Brasil, Jair Bolsonaro, foi eleito em 2018 contando com o uso eficiente das redes sociais. Conforme Volpatti e Lima(2018), Jair Bolsonaro

1https://twitter.com/

1 empregou a estratégia conhecida, pelos teóricos americanos, como going public (“indo a público”, em tradução livre), o qual se caracteriza pela utilização de uma comunicação direta com a sua rede de contatos pelas redes sociais. A relação direta com os eleitores foi estabelecida, por exemplo, por meio de mensagens exclusivas enviadas pelo próprio político e transmissões ao vivo (lives) no Facebook2 e Instagram3. Ainda segundo Volpatti e Lima(2018), o que se notou nas eleições de 2018 para presidência da República do Brasil foi a força da interatividade como mecanismo de ganho de confiança dos apoiadores e eleitores, havendo uma transformação na maneira como os políticos se relacionam e convencem as pessoas. O presidente eleito teve pouco tempo para sua propaganda eleitoral na televisão. Mas, mesmo assim, ele conseguiu conquistar um enorme número de seguidores, se tornando o candidato mais popular nas eleições de 2018. De acordo com Brant(2018), como o atual presidente da República Jair Bolsonaro, eleito em 2018, teve poucas agendas públicas na reta final da campanha, ele usou o Twitter como principal meio de comunicação e para divulgar propostas de governo, tendo ao todo 2,27 milhões de seguidores. Ainda conforme Brant(2018), outro político influente nesta rede social é o atual presidente dos Estados Unidos, Donald Trump, que se manifesta sobre diversos assuntos políticos, como imigração e eleições legislativas e é seguido por 55,6 milhões de pessoas. Conforme Kadushin(2013) e Souza(2017), um conceito bastante relevante para o entendi- mento de redes é o de homofilia. Esse princípio se caracteriza pela tendência que os indivíduos com características comuns (como traços sociodemográficos e comportamentais) têm de se associar entre si. Isto é, supõe-se que pessoas com atributos similares têm maior chance de estarem conectadas do que duas pessoas com atributos dissimilares. Vários estudiosos como Wu et al.(2011), Conover et al.(2012) e Barberá(2015) têm observado padrões de segregação homofílica consistentes com modelos em redes de interações entre usuários do Twitter, que será de fundamental importância no âmbito desta dissertação, pois dados dessa rede social serão utilizados aqui. Para uma rede social de r elementos, Fienberg et al.(1985), Hoff et al.(2002) e Souza(2017) definem uma matriz social Y como uma matriz de dimensão r × r em que cada elemento é

referente à variável aleatória Yi,j, com i, j = 1, ..., r. Nos casos mais simples, essa variável é binária e indica a presença ou ausência de uma determinada relação de interesse (amizade, por

exemplo) entre os elementos i e j. Para esse caso em que Yi,j é dicotômico, a matriz social Y possui, em sua formulação mais geral, a seguinte especificação:

2https://www.facebook.com/ 3https://www.instagram.com/

2  1, se há a presença da relação direcional do elemento i para o elemento j; Yi,j = (1.1) 0, caso contrário.

Um caso particular ocorre quando a direção da relação entre os elementos i e j não é

importante. Nesse caso, a matriz social Y é simétrica, ou seja, Yi,j = Yj,i, ∀ i, j. Para essa situação, diz-se que a relação é não direcionada. Outro caso particular ocorre quando há o interesse em se estudar uma relação direcional entre elementos de dois subconjuntos distintos e cuja direção dessa relação seja dada do primeiro para o segundo. Para este contexto, há dois subconjuntos de indivíduos diferentes dentro de uma mesma rede social, assumindo-se que o índice i se refere ao primeiro subconjunto e o índice j, ao segundo, com i = 1, ..., n e j = 1, ..., m, em que r = n + m. Nesse caso, diz-se que a relação é unidirecional. Um modelo de redes sociais bastante utilizado que leva em conta o caso em que a relação é não direcionada e que tem sido base para muitas extensões é o modelo de distâncias latentes (Hoff et al., 2002), no qual se usa regressão logística para modelar a probabilidade de relação entre os

indivíduos da rede. Sejam zi e zj os vetores de tamanho k que representam, respectivamente,

as posições dos elementos i e j em um espaço euclidiano latente de dimensão k e |zi − zj|, a distância euclidiana entre esses dois elementos da rede. Então, quanto menor for essa distância, maior será a probabilidade de conexão entre eles. Há, assim, o emprego do princípio da homofilia, que, conforme explicado anteriormente, é a tendência de indivíduos semelhantes se relacionarem entre si. Ainda segundo Hoff et al.(2002) e Souza(2017), é possível incluir covariáveis ao modelo, podendo-se defini-lo da seguinte forma:

  πi,j 0 logit(πi,j) = log = α + β xi,j − |zi − zj|, (1.2) 1 − πi,j

em que πi,j = P (Yi,j = 1|zi, zj, xi,j, α, β), Yi,j é referente à especificação dada na Equação 1.1, 0 xi,j = (xi,j,1, xi,j,2, ..., xi,j,L) representa as L covariáveis avaliadas no par (i, j). Além disso, α (escalar), β (vetor) e z são os parâmetros e as posições a serem estimados. Barberá(2015) propõe um modelo similar ao modelo de distâncias latentes de Hoff et al. (2002), permitindo estimar as posições latentes de indivíduos com base em dados do Twitter. Para compreender a estrutura dos dados, é importante entender como é feita a interação entre usuários do Twitter. Cada usuário pode escolher “seguir” outro usuário, que não necessariamente

precisa segui-lo de volta. No modelo proposto por Barberá(2015), o elemento Yi,j da matriz Y

3 informa se o usuário i segue ou não o ator político j no Twitter (Souza, 2017). Sendo assim, essa variável binária é definida, no presente trabalho, da seguinte forma:

 1, se o usuário i segue o ator político j no T witter (i → j); Yi,j = (1.3) 0, caso contrário (i 6→ j),

em que os usuários são os deputados federais e senadores que possuem conta no Twitter. Com relação aos atores políticos, estes se referem, por exemplo, a partidos políticos, políticos e principais jornais e revistas que possuem conta no Twitter. Esse modelo é um bom exemplo de uso de relação unidirecional, em que um indivíduo com conta no Twitter e do primeiro subconjunto (chamado de “usuário”) pode “seguir” ou não um indivíduo com conta no Twitter e do segundo subconjunto (chamado de “ator político”). Segundo Barberá(2015), o Twitter é uma rede social válida para o estudo da interação entre usuário e ator político. Este é uma das redes sociais mais utilizadas pelos internautas no momento presente, possuindo na atualidade 326 milhões de usuários ativos mensalmente no mundo. A utilização massiva dessa rede social se deve em grande parte ao fato de ela restringir o tamanho de cada mensagem a 280 caracteres, chamada de tweet, facilitando, assim, por exemplo — no contexto político —, a comunicação dos chefes de Estado com seus eleitores. Uma das vantagens do Twitter é o fato de ele ser dinâmico, isto é, permitir, por exemplo, um usuário “seguir” um ator político em uma certa época e depois de um certo tempo mudar de ideia em resposta a eventos de campanha. No modelo de Barberá(2015), há a suposição de que o Twitter seja uma rede homofílica, havendo a tendência de usuários do Twitter preferirem seguir atores políticos com ideais similares

aos deles. Nessa abordagem, θi e φj são as posições do usuário i e do ator político j em

uma escala latente unidimensional e fazem alusão, respectivamente, aos vetores zi e zj da Equação 1.2. Utiliza-se nesse caso o espaço euclidiano latente unidimensional — representado

pelo antagonismo entre “esquerda” e “direita” em Souza(2017) — , isto é, θi, φj ∈ R. Analogamente ao modelo de distâncias latentes, a probabilidade de um “usuário” i “seguir” ou não um determinado “ator político” j também será função da distância euclidiana das posições 2 ideológicas desses dois usuários comuns: d(θi, φj) = γ(θi − φj) , em que γ é uma constante não negativa de normalização e que avalia o quanto a distância entre as posições latentes influencia na probabilidade de relação entre os elementos da rede. Sendo assim, quanto menor for a distância entre suas posições no espaço latente, maior será a propensão da relação de amizade unidirecional entre eles. Portanto, há a seguinte especificação para o modelo:

4 [Yi,j|πi,j] ∼ Ber(πi,j)   πi,j 2 log = αi + βj − γ(θi − φj) , 1 − πi,j

em que Yi,j é referente à especificação dada na Equação 1.3. Segundo Barberá(2015), Souza

et al.(2017) e Souza(2017), o parâmetro αi mede o nível de interesse político do usuário i e βj, a popularidade do ator político j. É importante ressaltar a natureza latente (não-observável) de

todas as componentes do preditor (αi, βj, θi e φj).

1.1 Objetivo

Nos trabalhos de Barberá(2015), Souza(2017) e em outros da literatura, o espaço latente é constituído de apenas uma dimensão, definida como a ideologia e representada pelo antagonismo entre “esquerda” e “direita”. Em Zucco(2009) e Zucco e Lauderdale(2011), uma segunda dimensão foi definida para representar a dicotomia entre “oposição” e “governo” a partir de votações nominais, nas quais os membros de uma instituição política podem ser favoráveis ou não a determinado projeto de lei e têm maior probabilidade de votar na alternativa política que esteja mais próxima de sua posição ideológica. De acordo com Souza et al.(2017), calcular posições apenas em um espaço latente poderia permitir que dimensões tais como “oposição-governo” e “esquerda-direita” fossem embaralhadas na representação dessa única dimensão. O principal propósito desta dissertação é, por conseguinte, estender o modelo de Barberá(2015) para um espaço latente com duas dimensões, seguindo a ideia de Zucco(2009) e Zucco e Lauderdale (2011), mas aplicando-o aos dados do Twitter. Far-se-á um estudo com dados artificiais e uma aplicação a dados reais do cenário político brasileiro, utilizando, em ambos os casos, o plano euclidiano bidimensional. No primeiro caso, serão propostos modelos a fim de se entender o processo de estimação e para avaliar se há diferenças expressivas entre eles. Neste último, o intuito é o de estimar posições ideológicas em um espaço latente no contexto brasileiro para deputados federais, senadores e atores políticos que possuíam conta no Twitter em julho de 2017. Além da Introdução, esta dissertação de mestrado é dividida em cinco capítulos e um apêndice. No Capítulo2, é exposto um resumo sobre alguns conceitos de Inferência Bayesiana. No Capítulo3, apresenta-se a formulação matemática referente à variação na caracterização do modelo de Barberá(2015), considerando-se o espaço latente como o plano euclidiano bidimensional. No Capítulo4, compara-se o desempenho de alguns modelos no estudo com

5 dados artificiais. No Capítulo5, é realizada a análise referente à aplicação a dados reais do Twitter. No Capítulo6, relatam-se as conclusões, as futuras investigações e variações que podem ser exploradas a partir desta dissertação de mestrado. No ApêndiceA, apontam-se os problemas de identificabilidade inerentes ao modelo proposto no Capítulo3 e suas possíveis soluções. Por fim, no ApêndiceB, reporta-se a lista dos deputados federais e senadores que são considerados na aplicação a dados reais do Twitter e o partido político ao qual cada um deles pertence. É importante fazer a ressalva de que, como essa lista é referente a julho de 2017, as siglas de alguns partidos políticos não existem mais e alguns políticos podem ter mudado de partido e/ou podem não ser mais deputados federais ou senadores.

6 Capítulo 2

Revisão de Inferência Bayesiana

Aqui serão apresentados alguns conceitos referentes à Inferência Bayesiana. Todo o conteúdo referente a este capítulo foi baseado em Migon et al.(2014).

2.1 Teorema de Bayes

O problema de inferência estatística pode ser descrito a partir de uma quantidade de interesse 0 desconhecida (não observável) θ = (θ1, ..., θd) com seus valores possíveis em um conjunto Θ ⊂ Rd. Sob a abordagem bayesiana, essa quantidade pode ser sumarizada probabilisticamente por meio de sua distribuição a priori p(θ). Para auxílio da descrição da incerteza a respeito dessa quantidade não observável, considera- se o vetor de quantidades aleatórias Y, o qual é relacionado a θ. Uma vez observados os dados, p(y|θ) é uma função de θ, à qual se chama de função de verossimilhança. Após observar Y = y, há um incremento na informação a respeito de θ, sendo esta sumarizada agora por p(θ|y), chamada de distribuição a posteriori. Tal distribuição é obtida por meio do teorema de Bayes, que fornece a regra de atualização de probabilidades sobre θ partindo de p(θ) e chegando a p(θ|y). Tem-se, então, a seguinte formulação matemática:

p(y|θ)p(θ) p(θ|y) = , p(y) em que

Z p(y) = p(y|θ)p(θ)dθ. Θ Nos casos em que a distribuição a posteriori não possuir uma forma fechada com padrão

7 conhecido, pode ser mais interessante usar uma formulação matemática alternativa. Como p(y) não depende de θ, essa função no denominador é apenas uma constante no que diz respeito a p(θ|y). Sendo assim, a forma alternativa do teorema de Bayes é dada por:

p(θ|y) ∝ p(y|θ)p(θ), em que ∝ refere-se ao símbolo de proporcionalidade.

2.2 Estimação

A distribuição a posteriori apresenta toda a informação necessária para inferência sobre o parâmetro de interesse θ, o qual se considera ser, nesta subseção, um escalar. No entanto, pode ser necessário resumir essa informação em poucos números. E o caso mais simples é o de estimação pontual, em que se deseja determinar um único valor de θ que sumarize a distribuição como um todo. Esse valor será expresso por θˆ e chamado estimador pontual de θ. Então, a estimação pontual pode ser entendida como um problema de decisão. A cada regra de decisão δ(y) e a cada possível valor do parâmetro θ fica associada uma perda, que pode ser entendida como uma penalização ao se tomar a decisão δ quando o verdadeiro valor do parâmetro é θ. Essa função de perda é denotada por L(δ, θ) e assume valores em R+. Sendo assim, define-se o risco (ou perda esperada) como R(δ) = Eθ|y[L(δ, θ)] e, ao minimizá-lo, obtém-se θˆ. As principais funções de perda utilizadas são:

• Função de perda absoluta: L1(θ, δ) = |θ − δ|;

2 • Função de perda quadrática: L2(θ, δ) = (θ − δ) ; e  1, se |θ − δ| >  ; • Função de perda 0-1: L∞(θ, δ) = 0, se |θ − δ| ≤ , sendo  ≥ 0.

Os estimadores pontuais vinculados a essas perdas são, respectivamente: a mediana a posteriori, a média a posteriori e a moda a posteriori de θ. Generalizações para o caso multivariado podem ser encontradas em Berger(1985), DeGroot(2004) e Ferguson(1967). Outra forma de resumir uma informação sobre um parâmetro é através da estimação intervalar. No caso bayesiano, pode-se expressar probabilisticamente a pertinência ou não de θ a um intervalo, que é chamado de intervalo de credibilidade. Quanto menor for o tamanho desse intervalo, mais concentrada é a distribuição de θ, havendo, assim, uma informação a respeito da

8 dispersão desse parâmetro. Por definição, C é um intervalo de credibilidade de 100(1 − α)% para θ se:

P (θ ∈ C|y) ≥ 1 − α, em que (1 − α) é o nível de credibilidade. Então, no caso em que θ é escalar, o intervalo é usualmente da forma [c1, c2]. Nem sempre a distribuição a posteriori possui uma forma fechada com padrão conhecido. Para contornar esse percalço, em geral, recorre-se a métodos numéricos, como os de Monte Carlo via cadeias de Markov (MCMC, abreviação em inglês de Markov chain Monte Carlo), que, no contexto bayesiano, utilizam simulação estocástica para gerar amostras da distribuição a posteriori e, posteriomente, para concluir o processo inferencial.

2.3 Métodos de Monte Carlo via cadeias de Markov

Os métodos MCMC têm como ideia central construir uma cadeia de Markov da qual seja fácil de simular e cuja distribuição de equilíbrio seja igual à distribuição de interesse. Essas técnicas são muito poderosas, pois elas podem ser aplicadas com sucesso a problemas de alta dimensionalidade. 1 Considere, então, que θ1, ..., θd possuem distribuição conjunta p(θ) = p(θ1, ..., θd) e que q(θ,θ∗) define a distribuição condicional das transições do estado θ. Sendo assim, é possível construir uma cadeia com probabilidades de transição invariantes no tempo, em que cada estado pode ser obtido a partir de qualquer outro estado com um número finito de iterações, possibilitando-se alcançar distribuição de equilíbrio para um número suficientemente grande de iterações. Portanto, ao construir uma cadeia de Markov adequada, é possível realizar uma simulação de Monte Carlo de valores de p. Por isso, o método é chamado de MCMC. Dois métodos se destacam nesse campo de estudo: o algoritmo de Metropolis-Hastings e a amostragem de Gibbs.

2.3.1 Metropolis-Hastings

Um método bastante empregado na construção de uma cadeia de Markov é o algoritmo de Metropolis-Hastings, que foi inicialmente proposto por Metropolis et al.(1953) e depois

1p(θ) é uma distribuição genérica qualquer.

9 estendido por Hastings(1970). Este é baseado na ideia de usar uma distribuição auxiliar e em esquemas de aceitação-rejeição. Considere q(θ,.) como núcleo arbitrário de transição, θ(0) como vetor de valores iniciais e que, na iteração j, a cadeia está no estado θ(j). Então, a posição da cadeia na iteração (j + 1), denotada por θ(j+1), é obtida da seguinte forma:

1. proponha um movimento da cadeia para o estado θ∗ a partir de q(θ(j),.); e

2. aceite o movimento proposto com probabilidade

( ) p(θ∗)/q(θ(j), θ∗) α(θ(j), θ∗) = mín 1, p(θ(j))/q(θ∗, θ(j))

e, então, faça θ(j+1) = θ∗. Caso contrário, rejeite o movimento com probabilidade 1 − α(θ(j), θ∗) e faça θ(j+1) = θ(j).

Esse movimento da cadeia pode ser feito em blocos para os parâmetros do modelo. Na prática, é bastante difícil encontrar núcleos apropriados q(θ,.) para modelos de alta dimensionalidade e, ao mesmo tempo, garantir probabilidades de aceitação suficientemente grandes. Sendo assim, a cadeia pode passar longos períodos de tempo em um mesmo estado. A desvantagem deste algoritmo é, portanto, que, dependendo da escolha da distribuição proposta, o número de valores rejeitados pode ser muito alto, fazendo com que a cadeia se mova pouco. Sob certas condições de regularidade (Tierney, 1994), a distribuição limite de θ(j) tende a p(θ) após um período chamado de aquecimento (e denominado período de burn-in ou warm-up,

em inglês) no qual as N0 iterações iniciais devem ser descartadas. Sendo assim, os passos 1 e 2 do algoritmo de Metropolis-Hastings devem ser realizados até alcançar a convergência e até obter o tamanho da amostra da distribuição a posteriori necessário para a inferência do modelo.

A amostra resultante é, então, composta por M = N − N0 iterações, em que N é o número total de iterações realizadas. Uma das formas de monitorar a convergência em distribuição das cadeias é por meio de inspeção gráfica, na qual se observam as trajetórias de cadeias diferentes partindo de valores iniciais distintos. Quando o gráfico da cadeia tem uma aparência aleatória e estacionária, há indício de convergência. Depois de obter a amostra, os valores consecutivos θ(j), j = t, t + 1, t + 2, ..., para algum t positivo, podem ser correlacionados. Apesar disso, uma amostra aleatória de tamanho s de θ pode ser formada retendo s valores sucessivos após a verificação da convergência. Para se

10 ter observações aproximadamente independentes, podem-se manter s valores defasados por ` unidades. Este número de defasagens deve ser suficientemente grande para assegurar que a amostra final seja aproximadamente independente, podendo essa escolha ser baseada em um gráfico contendo a função de autocorrelação da cadeia.

Após a obtenção da amostra final, a inferência sobre cada θi pode ser feita a partir do método de Monte Carlo. Por exemplo, a média a posteriori da i-ésima componente de θ é estimada Ps por (1/s) k=1 θi,k, em que θi,k é referente ao k-ésimo valor da amostra final do parâmetro θi.

Além disso, a média a posteriori de uma função g da i-ésima componente de θi é estimada por Ps (1/s) k=1 g(θi,k). Por outro lado, o intervalo de credibilidade de 100(1 − α)% para a i-ésima componente de θ, α dado por [c1, c2], pode ser estimado por definir c1 como o quantil amostral de {θi,k, k = 1, ..., s} 2 α e c2 como o quantil amostral 1− . 2

2.3.2 Amostragem de Gibbs

Uma outra forma também muito utilizada na construção de uma cadeia de Markov é através do emprego da amostragem de Gibbs. Tal método foi proposto por Geman e Geman(1984) e popularizado por Gelfand e Smith(1990). Convém mencionar também que a amostragem de Gibbs é um caso particular do algoritmo de Metropolis-Hastings em que a probabilidade de aceitação do valor gerado é igual a 1 e as distribuições condicionais completas assumem o papel da distribuição proposta.

Seja pi(θi|θ−i) a função de densidade condicional de θi dados os valores de todos os outros componentes do vetor θ e considere que seja possível gerar dessa distribuição para cada i = 1, 2, ..., d. Com base nessa formulação, o algoritmo se inicia a partir de valores iniciais (0) (0) (0) 0 escolhidos arbitrariamente θ = (θ1 , ..., θd ) para todas as quantidades desconhecidas do modelo. Além disso, na j-ésima iteração, a cadeia se encontra no estado θ(j). Então, a posição da cadeia na iteração seguinte (j + 1) é obtida da seguinte forma:

(j+1) (j) (j) 1. gere θ1 de p1(θ1|θ2 , ..., θd );

(j+1) (j+1) (j) (j) 2. gere θ2 de p2(θ2|θ1 , θ3 , ..., θd ); e

(j+1) 3. repetir sucessivamente o procedimento para i = 3, 4, ..., d, em que, no último passo, θd (j+1) (j+1) (j+1) (j+1) (j+1) 0 é gerado de pd(θd|θ1 , ..., θd−1 ), obtendo-se o vetor θ = (θ1 , ..., θd ) .

Sob certas condições de regularidade (Tierney, 1994), a distribuição limite de θ(j) tende a p(θ). Os passos 1, 2 e 3 do algoritmo de Gibbs devem ser executados até alcançar a convergência

11 e até obter o tamanho da amostra da distribuição a posteriori necessário para a inferência do modelo. Os procedimentos de análise de convergência das cadeias e de estimação via amostragem de Gibbs podem ser realizados similarmente ao método de Metropolis-Hastings, descrito na Seção 2.3.1.

12 Capítulo 3

Metodologia

Neste capítulo, será empregada uma variação na caracterização do modelo de Barberá(2015), considerando-se o espaço latente como o plano euclidiano bidimensional, sendo explicitada sua especificação na Seção 3.1 e sua distribuição a posteriori na Seção 3.2. Convém frisar ainda que o ApêndiceA complementa este capítulo, havendo a exposição dos problemas de identificabilidade deste modelo no espaço latente bidimensional.

3.1 Especificação do modelo

Similarmente a Barberá(2015), propõe-se um modelo em que cada elemento Yi,j da matriz Y é uma variável binária que informa se o usuário i segue ou não o ator político j no Twitter, sendo definida com a seguinte configuração:

 1, se o usuário i segue o ator político j no T witter (i → j); Yi,j = (3.1) 0, caso contrário (i 6→ j),

em que os usuários são os deputados federais e senadores que possuem conta no Twitter. Com relação aos atores políticos, estes se referem, por exemplo, a partidos políticos, políticos e principais jornais e revistas que possuem conta no Twitter. Conforme mencionado anteriormente, propõe-se, nesta dissertação, estender o modelo de Barberá(2015) para o espaço euclidiano latente bidimensional. Sendo assim, há uma abordagem diferente para a configuração das posições do usuário i e do ator político j no espaço latente: 2 0 0 θi, φj ∈ R , em que θi = (θi,1, θi,2) e φj = (φj,1, φj,2) . Nessa caracterização, θi,1 e φj,1 referem-se, respectivamente, às posições do usuário i e do ator político j na primeira dimensão

13 do espaço latente. Ademais, θi,2 e φj,2 referem-se, respectivamente, às posições do usuário i e do ator político j na segunda dimensão do espaço latente. Além disso, outra contribuição

desta dissertação é a inclusão de duas constantes de normalização não negativas: γ1, relativa à

primeira dimensão e γ2, referente à segunda dimensão. Portanto, o modelo proposto é definido da seguinte forma:

[Yi,j|πi,j] ∼ Ber(πi,j) (3.2)   πi,j 2 2 ηi,j = logit(πi,j) = log = αi + βj − γ1(φj,1 − θi,1) − γ2(φj,2 − θi,2) (3.3) 1 − πi,j

exp (ηi,j) πi,j = , (3.4) 1 + exp (ηi,j)

em que Yi,j é referente à especificação dada na Equação 3.1. Ademais, ηi,j = logit(πi,j) representa a função de ligação do modelo, sendo definido como preditor não linear. É interessante notar que, nessa formulação proposta, as distâncias entre as posições latentes nas duas dimensões, 2 2 dadas por (φj,1 − θi,1) e (φj,2 − θi,2) , podem ter, em princípio, uma contribuição diferente na probabilidade de relação entre os elementos da rede. Isso ocorre devido à inclusão das duas

constantes de normalização γ1 e γ2 no modelo.

3.2 Distribuição a posteriori

Assumindo-se independência entre usuários e atores políticos, condicionalmente aos parâ- metros, tem-se a seguinte função de verossimilhança:

n m Y Y yi,j 1−yi,j p(y|α, β, γ1, γ2, Θ, Φ) = πi,j (1 − πi,j) , (3.5) i=1 j=1

0 0 em que y representa a matriz de dados observados, α = (α1, ..., αn) , β = (β1, ..., βm) , 0 0 0 0 0 Θ = (θ1, θ2) , Φ = (φ1, φ2) , θ1 = (θ1,1, ..., θn,1) , θ2 = (θ1,2, ..., θn,2) , φ1 = (φ1,1, ..., φm,1) 0 e φ2 = (φ1,2, ..., φm,2) . Por se utilizar uma abordagem bayesiana para inferência do modelo proposto, precisa-se especificar a distribuição a priori e obter a distribuição a posteriori, que é dada, a menos de uma constante normalizadora multiplicativa, pelo produto da função de verossimilhança pela distribuição a priori.

A distribuição a priori atribuída aos parâmetros γ1 e γ2 é dada pela distribuição normal truncada no intervalo [0, ∞) com parâmetro de localização zero e escala σ2. Esta proposta

14 é uma alternativa a priori utilizada em Barberá(2015), Souza et al.(2017) e Souza(2017), que possui uma probabilidade acumulada considerável em pontos vizinhos de zero e pode, por conseguinte, resultar em problemas de convergência. Para os elementos de α, Θ, β e Φ, propõem-se distribuições a priori normais. Sendo assim, 2 as distribuições a priori escolhidas para as quantidades desconhecidas foram: γ1∼N+(0, σγ1 ), γ ∼N (0, σ2 ) α ∼N (µ , σ2 ) θ ∼N (µ , σ2 ) β ∼N (µ , σ2) φ ∼N (µ , σ2 ), 2 + γ2 , i α α , i,k θk θk , j β β e j,k φk φk para i = 1, 2, ..., n, j = 1, 2, ..., m e k = 1, 2. Portanto, a distribuição a posteriori é dada por:

p(α, β, γ1, γ2, Θ, Φ|y) ∝ p(y|α, β, γ1, γ2, Θ, Φ)p(α, β, γ1, γ2, Θ, Φ, µ, σ) n m Y Y yij 1−yij = πij (1 − πij) i=1 j=1 n Y  2 2 2  × N (αi|µα, σα)N (θi,1|µθ1 , σθ1 )N (θi,2|µθ2 , σθ2 ) i=1 m Y  2 2 2  × N (βj|µβ, σβ)N (φj,1|µφ1 , σφ1 )N (φj,2|µφ2 , σφ2 ) j=1 2 2 × N+(γ1|0, σγ1 )N+(γ2|0, σγ2 ), (3.6)

µ = (µ , µ , µ , µ )0 σ = (σ2 , σ2 , σ2 , σ2 , σ2 , σ2 )0 N (x|µ, σ2) em que θ1 θ2 φ1 φ2 e θ1 θ2 φ1 φ2 γ1 γ2 . Além disso, representa a função de densidade de probabilidade da distribuição normal com média µ e variância 2 2 σ avaliada em x. Por fim, N+(w|0, τ ) refere-se à função de densidade de probabilidade da distribuição normal truncada que assume apenas valores não negativos com parâmetros zero e 2 2 2 τ avaliada em w. Por fim, vale ressaltar que σγ1 e σγ2 são hiperparâmetros fixos. Devido aos problemas de identificabilidade (apresentados no ApêndiceA), foram conside- µ = 0 µ = 0 µ = 0 σ2 = 1 σ2 = 1 radas algumas restrições no modelo: α , θ1 , θ2 , θ1 e θ2 . Outras combinações de restrições foram testadas, mas, no estudo com dados artificiais do Capítulo4, serão apresentados os resultados obtidos com apenas essas. Por exemplo, em uma das abordagens que não serão apresentadas no contexto desta dissertação de mestrado, fixaram-se os valores das constantes de normalização γ1 e γ2 e utilizaram-se distribuições a priori GI(ν1, λ1) e GI(ν2, λ2) σ2 σ2 para os hiperparâmetros θ1 e θ2 , respectivamente, isto é, distribuições gama inversa em que

ν1 e ν2 são os parâmetros de forma e λ1 e λ2, os parâmetros de escala. Averiguou-se que os resultados desta abordagem foram similares aos que serão apresentados no Capítulo4. Segundo Barberá(2015), fixar hiperparâmetros das distribuições a priori alcança a iden- µ = 0 σ2 = 1 µ = 0 σ2 = 1 tificação local, mas não a global. Isto é, ao fixar θ1 , θ1 , θ2 e θ2 , todas as posições latentes inerentes à primeira dimensão podem, por exemplo, ser multiplicadas por

15 -1 sem alterar a verossimilhança (ou seja, a escala pode ser invertida). Isso implica, em tal caso, que a verossimilhança e a distribuição a posteriori são bimodais e que cada cadeia da posição latente da primeira dimensão pode convergir para uma moda diferente. Esse problema pode ser resolvido ao multiplicar os valores amostrados para a primeira dimensão de Θ e de Φ por -1 em uma das cadeias para que todas as cadeias produzam resultados similares. Uma solução alternativa é escolher valores iniciais para um conjunto de posições latentes que sejam consistentes com o sentido esperado.

É importante mencionar ainda que, para o caso particular em que γ = γ1 = γ2, não é σ2 = 1 necessário impor a restrição θ2 . Então, pode-se utilizar, nesse caso, uma distribuição a GI(ν, λ) σ2 ν priori para o hiperparâmetro θ2 , isto é, a distribuição gama inversa em que é o parâmetro de forma e λ, o parâmetro de escala. Vale também destacar que, no caso específico

de γ2 ser igual a zero, há equivalência com o modelo de Barberá(2015), o qual, segundo Zucco e Lauderdale(2011), é caracterizado pelo colapso de duas dimensões em apenas uma no posicionamento dos indivíduos no espaço latente. De acordo com Zucco e Lauderdale(2011), a dificuldade de distinção entre as duas dimensões pode ocorrer devido à existência de uma coalizão governamental ideologicamente coerente. Serão utilizadas distribuições a priori truncadas para alguns parâmetros de cada dimensão de Φ para facilitar a identificação do modelo. Segundo Bakker e Poole(2013), definir o sinal de um parâmetro é uma restrição mais suave. Por outro lado, fixar dois pontos, por exemplo, é uma restrição mais rígida por fixar uma das distâncias. De fato, foram fixados alguns elementos de ambas as dimensões da matriz de parâmetros Φ e averiguou-se que os seus resultados foram similares aos obtidos pelo modelo com distribuições a priori truncadas para alguns parâmetros de cada dimensão de Φ. Então, preferiu-se utilizar o modelo mais flexível. Pelo fato de a distribuição a posteriori não possuir uma forma fechada com padrão conhe- cido, os métodos MCMC serão utilizados para obter amostras dessa distribuição a posteriori, permitindo a inferência sobre as quantidades desconhecidas do modelo.

16 Capítulo 4

Estudo com dados simulados

Neste capítulo, são apresentados os principais resultados referentes ao estudo com dados artificiais, que têm por principal finalidade avaliar a estimação das posições latentes no espaço bidimensional. Outro objetivo deste estudo é representar uma situação real e similar à da aplicação que será analisada mais à frente no Capítulo5. Para isso, os dados artificiais foram gerados a partir de dois modelos: no primeiro caso, considerou-se uma constante de normalização, com γ = γ1 = γ2 (Seção 4.1), e, no segundo caso, foram utilizadas duas constantes de normalização, γ1 conjuntamente com γ2 (Seção 4.2). Primeiramente realizou-se uma análise exploratória dos dados gerados e um estudo dos parâmetros. Posteriormente foram comparados os modelos propostos através de uma análise associada à estimação dos parâmetros e ao ajuste de dados artificiais, por meio da obtenção de suas probabilidades preditas.

4.1 Dados gerados com uma constante de normalização

Nesta seção, gerou-se um conjunto de dados segundo o modelo proposto nas Equações 3.2,

3.3e 3.4 e supôs-se que γ1 = γ2, ou seja, considerou-se apenas uma constante de normalização, com γ = γ1 = γ2 = 0, 3. Os demais parâmetros foram gerados das seguintes distribuições:

αi ∼ N(0; 0, 2); βj ∼ N(1; 0, 2); θi,k ∼ N(0; 1); φj,k ∼ 0, 5N(−1, 5; 1) + 0, 5N(1, 5; 1), para i = 1, ..., 200; j = 1, ..., 20 e k = 1, 2. Esta última distribuição — mistura bimodal de normais — permite que seus pontos sejam aleatoriamente gerados de forma a possuir duas modas diferentes em cada eixo, possibilitando, assim, uma distinção entre dois grupos em cada eixo do espaço latente. A escolha de seus valores foi feita de modo a evitar a obtenção de uma matriz social esparsa, isto é, uma matriz com uma quantidade elevada de zeros. Note também

17 que n = 200 e m = 20, o que é equivalente a 200 usuários comuns e 20 atores políticos. Similarmente a Barberá(2015) e Souza(2017), foram impostas duas restrições a essa matriz: suas linhas não poderiam somar zero e suas colunas não poderiam ter soma menor do que 10. Sendo assim, cada usuário deveria seguir ao menos um ator político, que, por sua vez, deveria ser seguido por pelo menos 10 usuários, evitando-se, assim, a utilização de uma matriz social que tenham usuários com ínfimo interesse político e atores políticos com popularidade muito baixa. A partir dos valores verdadeiros dos parâmetros obtidos nesta simulação, realizou-se, então, uma análise exploratória dos vetores paramétricos φ1, φ2, θ1 e θ2 por meio de gráficos de dispersão e histogramas, os quais seguem nas Figuras 4.1e 4.2. 3 3 2 2 1 1 2 2 0 0 φ θ −1 −1 −2 −2 −3 −3

−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 φ 1 θ1

Figura 4.1: Gráficos de dispersão de φ1 contra φ2 (à esquerda) e de θ1 contra θ2 (à direita).

Pela Figura 4.1, observa-se que relativamente há um certo equilíbrio entre valores positivos e negativos para cada dimensão de Φ e Θ. Além disso, nota-se que pares de pontos associados às matrizes de parâmetros Φ e Θ foram gerados em cada quadrante do plano cartesiano, o que é desejável para a estimação do modelo. A Figura 4.2 apresenta os histogramas dos resultados simulados dos elementos dos vetores paramétricos φ1, φ2, θ1 e θ2. Primeiramente, nota-se um maior espalhamento dos valores gerados para a segunda dimensão da matriz de parâmetros Φ do que para a primeira dimensão. Isso é um indicativo de que possivelmente haverá maior dificuldade de estimar os parâmetros da primeira dimensão de Φ. Além disso, observa-se, aparentemente, que as distribuições amostrais associadas a θ1 e θ2 são semelhantes. A Figura 4.3 apresenta o histograma das distâncias obtidas entre os elementos de Φ e Θ 2 2 na primeira dimensão, (θ1 − φ1) , na segunda dimensão, (θ2 − φ2) , e da soma entre as duas,

18 2 2 (θ1 − φ1) + (θ2 − φ2) . A Tabela 4.1 apresenta a média e a variância dessas distâncias. Nota-se, 0.30 0.20 0.20 0.10 Densidade Densidade 0.10 0.00 0.00 −3 −2 −1 0 1 2 3 4 −3 −2 −1 0 1 2 3

φ1 φ2 0.4 0.4 0.3 0.3 0.2 0.2 Densidade Densidade 0.1 0.1 0.0 0.0 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3

θ1 θ2

Figura 4.2: Histogramas referentes aos dados simulados de φ1, φ2, θ1 e θ2. 0.10 0.15 0.20 0.08 0.15 0.06 0.10 0.10 0.04 Densidade Densidade Densidade 0.05 0.05 0.02 0.00 0.00 0.00 0 10 20 30 40 0 5 10 15 20 25 30 0 10 20 30 40 2 2 2 2 (θ1 − φ1) (θ2 − φ2) (θ1 − φ1) + (θ2 − φ2)

Figura 4.3: Histogramas referentes aos dados simulados das distâncias entre Φ e Θ na 2 2 primeira dimensão, (θ1 − φ1) , na segunda dimensão, (θ2 − φ2) , e a soma entre as duas, 2 2 (θ1 − φ1) + (θ2 − φ2) .

19 Tabela 4.1: Média e variância amostrais referentes aos dados simulados das distâncias entre os elementos de Φ e Θ na primeira e na segunda dimensão e sua soma.

Variável Média Variância Distância na primeira dimensão 2,77 13,75 Distância na segunda dimensão 3,76 17,66 Soma das distâncias 6,52 29,34

neste caso específico, que a média e a variabilidade das distâncias é maior para a segunda dimensão. A Figura 4.4 apresenta o histograma referente às probabilidades verdadeiras de se obter

sucesso, πi,j, propostas na Equação 3.4. No contexto desta dissertação, o sucesso ocorre quando o usuário i segue o ator político j no Twitter. Observa-se a presença de muitas probabilidades próximas de zero. Segundo Souza(2017), com efeito, a maior parte das probabilidades geradas pela função de ligação logit estão em sua cauda inferior. 2.0 1.5 1.0 Densidade 0.5 0.0 0.0 0.2 0.4 0.6 0.8 1.0 Probabilidades verdadeiras

Figura 4.4: Histograma das probabilidades verdadeiras.

A Tabela 4.2 apresenta a proporção de sucessos e fracassos em relação ao total para cada 2 2 intervalo de distâncias, que, neste caso, é referente à expressão (θ1 − φ1) + (θ2 − φ2) . Por fim, a Figura 4.5 mostra a frequência de sucessos e fracassos para cada intervalo dessas distâncias. Percebe-se que há um predomínio de sucessos para distâncias pequenas, mas quanto mais se aumenta o valor da distância, maior é a supremacia dos fracassos sobre os sucessos. Esse resultado é o esperado, de acordo com a formulação do modelo, que segue o princípio da homofilia, ou seja, indivíduos mais próximos no espaço latente tendem a se associar com maior probabilidade.

20 Resultado semelhante também pode ser observado pelas Figuras 4.6e 4.7. A Figura 4.6

mostra o boxplot de θ1 versus φ1, que foi construído a partir da ordenação de φ1 pelos seus

postos verdadeiros. Para cada elemento do vetor paramétrico φ1 do boxplot associado à Figura

4.6, consideraram-se apenas aqueles elementos do vetor paramétrico θ1 que o seguem no Twitter.

A Figura 4.7 mostra o boxplot de θ2 versus φ2, o qual foi construído analogamente às condições da Figura 4.6. Observa-se, pela Figura 4.6, para os casos em que há sucesso, uma certa ascendência dos valores associados à primeira dimensão de Θ conforme se aumenta o valor associado à primeira dimensão de Φ. Pela Figura 4.7, verifica-se que isso também é satisfeito para a segunda dimensão de Θ e Φ.

Tabela 4.2: Proporção de sucessos e fracassos em relação ao total para cada intervalo de distâncias.

Intervalo Fracasso Sucesso 0 a 5 0,21075 0,27500 5 a 10 0,21225 0,08750 10 a 15 0,12225 0,01175 15 a 20 0,05325 0,00125 20 a 25 0,01750 0,00050 25 a 30 0,00625 0 30 ou mais 0,00175 0

Sucesso Fracasso 1500 1000 Frequência 500 0 0 a 5 5 a 10 10 a 15 15 a 20 20 a 25 25 a 30 30 ou mais Intervalo

Figura 4.5: Frequências de sucessos e fracassos para cada intervalo de distâncias.

21 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 2 1

● 0

1 ● θ

● ● −1

● ● −2

● ● ● ● ●

−3 ● ● ● ●

φ(1), 1 φ(5), 1 φ(10), 1 φ(15), 1 φ(20), 1

Figura 4.6: Boxplot de θ1 versus φ1, que foi construído a partir da ordenação de φ1 pelos seus postos verdadeiros. Para cada elemento do vetor paramétrico φ1 deste boxplot, consideraram-se apenas aqueles elementos do vetor paramétrico θ1 que o seguem no Twitter.

3 ● ● ● ● ● ●

● ● ● 2 1 2 0 θ

−1 ● ● ● ● ● −2

● ● −3 φ(1), 2 φ(5), 2 φ(10), 2 φ(15), 2 φ(20), 2

Figura 4.7: Boxplot de θ2 versus φ2, que foi construído a partir da ordenação de φ2 pelos seus postos verdadeiros. Para cada elemento do vetor paramétrico φ2 deste boxplot, consideraram-se apenas aqueles elementos do vetor paramétrico θ2 que o seguem no Twitter.

Para a estimação do modelo explicitado no Capítulo3, truncaram-se as distribuições a priori para dois parâmetros de cada dimensão de Φ. Então, foram considerados dois casos em separado: no primeiro, utilizou-se o modelo supondo uma constante de normalização, ou seja,

22 γ = γ1 = γ2 (Seção 4.1.1), e, no segundo, foram estimadas duas constantes de normalização (Seção 4.1.2). Em ambos os casos, utilizaram-se duas cadeias diferentes via MCMC e o monitoramento de convergência delas foi realizado por meio de inspeção gráfica, na qual se observaram suas trajetórias partindo de valores iniciais distintos. Também foram analisados gráficos de dispersão e os valores das correlações entre os valores verdadeiros e os valores estimados dos parâmetros, além da obtenção de intervalos de credibilidade para alguns parâmetros e da taxa de cobertura para os elementos das matrizes de parâmetros Θ e Φ. O intuito foi o de averiguar se os parâmetros eram bem estimados e se havia acurácia em suas estimações, isto é, se o verdadeiro valor do parâmetro estava dentro de seu intervalo de credibilidade. Também foram construídos gráficos de dispersão entre valores verdadeiros e valores ajustados pela média a posteriori para as probabilidades de o usuário i seguir o ator político j no Twitter e para os preditores não lineares com o objetivo de avaliar o ajuste do modelo.

4.1.1 Estimação com uma constante de normalização

Neste caso, considerou-se o modelo com apenas uma constante de normalização, assumindo-

se que γ = γ1 = γ2. Além disso, empregaram-se as seguintes distribuições a priori truncadas para

os parâmetros em ambas as dimensões de Φ: φ3,1 ∼ N+(0; 9), φ9,1 ∼ N−(0; 9), φ9,2 ∼ N−(0; 9)

e φ16,2 ∼ N+(0; 9). Vale ressaltar que as distribuições a priori destes elementos da matriz de parâmetros Φ foram truncadas porque estes são os valores extremos das duas dimensões. Para dados reais, é necessária a elicitação de prioris de acordo com o ponto de vista do especialista. É importante mencionar também que, ao considerar, por exemplo, distribuições a priori

truncadas para alguns elementos do vetor paramétrico φ1, podem ocorrer problemas de convergência. Por esse motivo, recomenda-se a utilização de distribuições a priori para alguns

elementos de ambos os vetores paramétricos φ1 e φ2. Isso ocorre porque quando se restringe o domínio das distribuições a priori de alguns elementos de ambas as dimensões da matriz de parâmetros Φ, há uma maior contribuição para se evitar a ocorrência de problemas de rotação e reflexão do que quando se restringe o domínio das distribuições a priori de alguns elementos de apenas uma de suas dimensões. As distribuições a priori atribuídas ao parâmetro γ e aos hiperparâmetros foram:

γ ∼ N+(0; 1000), µβ∼N (0; 1000), µφ1 ∼N (0; 1000), µφ2 ∼N (0; 1000), σ2 ∼GI(0, 01; 0, 01) σ2∼GI(0, 01; 0, 01) σ2 ∼GI(0, 01; 0, 01) σ2 ∼GI(0, 01; 0, 01) α , β , φ1 , φ2 σ2 ∼GI(0, 01; 0, 01) e θ2 . As outras prioris dos parâmetros foram mencionadas no Capítulo3.É interessante notar que os seus hiperparâmetros foram escolhidos de tal forma que as distribuições

23 a priori sejam pouco informativas. No que diz respeito aos valores iniciais, segundo Barberá(2015) e Souza(2017), recomenda-

se inicializar as cadeias de alguns elementos dos vetores paramétricos φ1 e φ2 com os valores

-1 e 1 a fim de tentar evitar o percalço inerente à reflexão de escala, que se dá quando c3 = −1, apresentado no ApêndiceA ao se mencionar o problema de invariância à reflexão. Então, com relação à matriz de parâmetros Φ, utilizou-se o seguinte critério: quando o valor verdadeiro era maior ou igual a 1,5, inicializou-se com 1; quando o valor verdadeiro era menor ou igual a -1,5, inicializou-se com -1; e quando o valor verdadeiro estava entre -1,5 e 1,5, inicializou-se com zero. Vale ressaltar aqui que, no caso de dados reais, para explicitar estes valores iniciais, é necessária a ajuda do especialista.

Para ambas as cadeias, foram feitas as seguintes inicializações para o vetor paramétrico φ1: (0) (0) (0) (0) (0) (0) φ2,1 = −1, φ3,1 = 1, φ9,1 = −1, φ11,1 = 1, φ13,1 = 1 e φ20,1 = −1. E, para ambas as cadeias (0) (0) do vetor paramétrico φ2, foram adotados os seguintes valores iniciais: φ1,2 = −1, φ2,2 = −1, (0) (0) (0) (0) (0) (0) (0) (0) φ4,2 = 1, φ6,2 = −1, φ8,2 = 1, φ9,2 = −1, φ10,2 = −1, φ12,2 = 1, φ14,2 = −1, φ15,2 = 1, (0) (0) φ16,2 = 1 e φ17,2 = −1. Os valores iniciais para os outros parâmetros na primeira cadeia foram: γ(0) = 0, 29, (0) 1 (0) 1 (0) (0) 1 µ(0) = 0, 1, µ(0) = 0, 3, µ(0) = 0, 2, σ2 = , σ2 = , σ2 = σ2 = e β φ1 φ2 α 4, 75 β 5, 75 φ1 φ2 1, 2 (0) 1 σ2 = . Utilizaram-se os seguintes valores iniciais para estes parâmetros na segunda θ2 0, 9 (0) 1 (0) 1 cadeia: γ(0) = 0, 31, µ(0) = −0, 2, µ(0) = µ(0) = −0, 2, σ2 = , σ2 = , β φ1 φ2 α 5, 75 β 4, 75 (0) (0) 1 (0) 1 σ2 = σ2 = e σ2 = . φ1 φ2 0, 8 θ2 1, 1 Foram geradas duas cadeias de tamanho 300.000 por MCMC, sendo descartadas as primeiras 20.000 iterações, que serviram como amostra de aquecimento. Além disso, utilizou-se uma defasagem igual a 800, obtendo-se ao todo uma amostra final de tamanho 700 para cada parâmetro (sendo 350 para cada cadeia). Para sua implementação, foi utilizado o programa JAGS (Just Another Gibbs Sampler,(Plummer, 2017)) e o pacote rjags (Plummer, 2016) do programa estatístico livre R (R Development Core Team, 2014), em que se emprega a amostragem de Gibbs. As Figuras 4.8, 4.9e 4.10 mostram os gráficos da amostra da distribuição a posteriori para

as duas cadeias dos parâmetros γ, φ3,1, φ9,1, φ9,2 e φ16,2, após período de aquecimento e após a retirada das defasagens. Percebe-se que há convergência das cadeias desses parâmetros. De fato, não se encontraram percalços quanto à convergência das cadeias dos outros parâmetros do modelo nem foi identificado problema de autocorrelação serial ao utilizar uma defasagem igual a 800. Observa-se também que, em todos os casos, não foram gerados valores próximos de zero para esses parâmetros via MCMC, o que indica que as distribuições a priori truncadas

24 funcionaram de forma adequada. A Tabela 4.3 mostra estatísticas descritivas da distribuição a posteriori e estimativas

Figura 4.8: Gráfico da amostra da distribuição a posteriori de γ para as duas cadeias, após período de aquecimento e após a retirada das defasagens. A reta em preto representa o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori.

Figura 4.9: Gráficos da amostra da distribuição a posteriori de φ3,1 (à esquerda) e de φ9,1 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As retas em preto representam o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori.

25 Figura 4.10: Gráficos da amostra da distribuição a posteriori de φ9,2 (à esquerda) e de φ16,2 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As retas em preto representam o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori.

Tabela 4.3: Valores verdadeiros, estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori.

Parâmetro Valor verdadeiro Média Desvio padrão Mediana Lim. inf. Lim. sup. γ 0,30 0,34 0,08 0,34 0,21 0,51

µβ 1,00 0,99 0,13 0,99 0,75 1,29

µφ1 0 -0,23 0,28 -0,23 -0,81 0,31

µφ2 0 -0,30 0,37 -0,29 -1,02 0,40 2 σα 0,20 0,18 0,07 0,17 0,04 0,33 2 σβ 0,20 0,16 0,11 0,13 0,03 0,47 σ2 φ1 3,25 0,99 0,58 0,84 0,31 2,40 σ2 φ2 3,25 2,20 1,16 1,91 0,84 5,32 σ2 θ2 1,00 1,22 0,35 1,17 0,67 2,07 intervalares do parâmetro γ e dos hiperparâmetros do modelo. Observa-se que, dentre os σ2 parâmetros dessa tabela, apenas o valor verdadeiro do hiperparâmetro φ1 está fora do intervalo de credibilidade de 95%. A Figura 4.11 mostra os gráficos de dispersão entre os valores verdadeiros dos vetores paramétricos do modelo e seus valores estimados (pela média a posteriori), com a correlação

26 entre parênteses. Pode-se verificar que os parâmetros foram bem estimados, com exceção do vetor paramétrico α, para o qual se observa um leve problema de escala. Nota-se através dessa figura que a segunda dimensão de Φ e Θ é melhor estimada do que a primeira dimensão destas matrizes de parâmetros. 1 β α φ 2 4 2.0 1 2 1.5 0 0 1.0 −1 −2 0.5 −2 −4 0.0 −2 −1 0 1 2 0.0 0.5 1.0 1.5 2.0 −4 −2 0 2 4 Médias a posteriori de Médias a posteriori de Valores verdadeiros de α Valores verdadeiros de β Médias a posteriori de Valores verdadeiros de φ1 (corr = 0,62) (corr = 0,64) (corr = 0,95) 2 1 2 φ θ θ 4 4 4 2 2 2 0 0 0 −2 −2 −2 −4 −4 −4 −4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4

Médias a posteriori de φ Médias a posteriori de Médias a posteriori de Valores verdadeiros de 2 Valores verdadeiros de θ1 Valores verdadeiros de θ2 (corr = 0,97) (corr = 0,70) (corr = 0,85)

Figura 4.11: Gráficos de dispersão de α, β, φ1, φ2, θ1 e θ2. 1 2 20 20 φ φ 15 15 10 10 5 5 1 1 Médias a posteriori dos postos de Médias a posteriori dos postos de

1 5 10 15 20 1 5 10 15 20 Valores verdadeiros dos postos de φ1 Valores verdadeiros dos postos de φ2

Figura 4.12: Gráficos de dispersão dos postos de φ1 e φ2.

27 A Figura 4.12 mostra os gráficos de dispersão entre os valores verdadeiros dos postos dos vetores paramétricos φ1 e φ2 e seus valores estimados pela média a posteriori (quadrado), com as retas representando os seus intervalos de credibilidade de 95%. Percebe-se uma distinguibilidade

maior dos postos dos elementos do vetor paramétrico φ2 do que os postos dos elementos do vetor paramétrico φ1. Nota-se também que todos os postos verdadeiros dos elementos desses vetores paramétricos estão dentro de seu intervalo de credibilidade de 95%. 1 2 200 200 θ θ 150 150 100 100 50 50 Médias a posteriori dos postos de Médias a posteriori dos postos de 1 1

1 50 100 150 200 1 50 100 150 200 Valores verdadeiros dos postos de θ1 Valores verdadeiros dos postos de θ2

Figura 4.13: Gráficos de dispersão dos postos de θ1 e θ2. 2 1.0 0 0.8 −2 0.6 −4 0.4 −6 0.2 −8 Médias a posteriori das probabilidades 0.0 −10 0.0 0.2 0.4 0.6 0.8 1.0 −10 −8 −6 −4 −2 0 2 Médias a posteriori dos preditores não lineares Valores verdadeiros das probabilidades Valores verdadeiros dos preditores não lineares

Figura 4.14: Gráficos de dispersão das probabilidades (em azul) e dos preditores não lineares (em verde).

28 A Figura 4.13 mostra os gráficos de dispersão entre os valores verdadeiros dos postos dos vetores paramétricos θ1 e θ2 e seus valores estimados pela média a posteriori (quadrado), com as retas representando os seus intervalos de credibilidade de 95%. Observa-se que os

postos dos elementos do vetor paramétrico θ2 possuem uma menor variabilidade e uma maior

distinguibilidade do que os postos dos elementos do vetor paramétrico θ1, ao considerar os valores extremos desses vetores paramétricos. De fato, foram obtidas as porcentagens de elementos cujos postos verdadeiros estão dentro do intervalo de credibilidade de 95% e os seus valores foram de 95,5% e 95% para os vetores paramétricos θ1 e θ2, respectivamente. Obteve-se também a taxa de cobertura para as matrizes de parâmetros Θ e Φ, isto é, a porcentagem de vezes que o verdadeiro valor do parâmetro ou hiperparâmetro está dentro de seu intervalo de credibilidade. O valor obtido dessa taxa foi de 96,14%. A Figura 4.14 mostra os gráficos de dispersão entre os valores verdadeiros das probabilidades e dos preditores não lineares e seus valores estimados (pela média a posteriori). Percebe-se que, apesar de um leve problema de escala, em geral, as probabilidades tiveram uma boa predição. De modo geral, o ajuste dos preditores não lineares observados também foi satisfatório, havendo maior dificuldade de predição para valores pequenos, que, por sua vez, possuem menor separabilidade.

4.1.2 Estimação com duas constantes de normalização

Neste caso, consideraram-se duas constantes de normalização distintas no modelo. Além disso, foram utilizadas as seguintes distribuições a priori truncadas para os parâmetros em ambas

as dimensões de Φ: φ3,1 ∼ N+(0; 9), φ9,1 ∼ N−(0; 9), φ9,2 ∼ N−(0; 9) e φ16,2 ∼ N+(0; 9). σ2 = 1 γ Fixou-se θ2 e foram utilizadas as seguintes distribuições a priori para os parâmetros 1 e

γ2: γ1 ∼ N+(0; 1000) e γ2 ∼ N+(0; 1000). (0) (0) Quanto aos valores iniciais de γ1 e γ2, considerou-se γ1 = γ2 = 0, 29 (para a primeira (0) (0) cadeia) e γ1 = γ2 = 0, 31 (para a segunda cadeia). Os valores iniciais e distribuições a priori especificados aos outros parâmetros foram idênticos aos do modelo utilizado na Seção 4.1.1. Por fim, em ambos os modelos, tanto o procedimento de inferência quanto o número de iterações do MCMC, o período de aquecimento e a seleção da amostra foram feitos exatamente da mesma forma que na Seção 4.1.1. As Figuras 4.15, 4.16e 4.17 mostram os gráficos da

amostra da distribuição a posteriori para as duas cadeias dos parâmetros γ1, γ2, φ3,1, φ9,1,

φ9,2 e φ16,2, após período de aquecimento e após a retirada das defasagens. Percebe-se que há convergência das cadeias desses parâmetros. De fato, similarmente à Seção 4.1.1, não se encontraram percalços quanto à convergência das cadeias dos outros parâmetros do modelo

29 nem foi identificado problema de autocorrelação serial ao utilizar uma defasagem igual a 800. Nota-se também que não foram gerados valores próximos de zero via MCMC, mostrando que o

Figura 4.15: Gráficos de γ1 (à esquerda) e de γ2 (à direita) após período de aquecimento e da retirada das defasagens. As retas em preto representam o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori.

Figura 4.16: Gráficos da amostra da distribuição a posteriori de φ3,1 (à esquerda) e de φ9,1 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As retas em preto representam o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori.

30 Figura 4.17: Gráficos da amostra da distribuição a posteriori de φ9,2 (à esquerda) e de φ16,2 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As retas em preto representam o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori.

Tabela 4.4: Valores verdadeiros, estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori.

Parâmetro Valor verdadeiro Média Desvio padrão Mediana Lim. inf. Lim. sup.

γ1 0,30 0,35 0,07 0,35 0,22 0,51

γ2 0,30 0,41 0,08 0,40 0,28 0,58

µβ 1,00 1,00 0,13 0,99 0,75 1,28

µφ1 0 -0,23 0,28 -0,23 -0,77 0,33

µφ2 0 -0,24 0,36 -0,23 -0,93 0,41 2 σα 0,20 0,18 0,07 0,18 0,05 0,33 2 σβ 0,20 0,16 0,10 0,13 0,03 0,40 σ2 φ1 3,25 0,95 0,57 0,79 0,30 2,48 σ2 φ2 3,25 1,79 0,86 1,63 0,67 4,04 emprego das distribuições a priori truncadas para esses parâmetros foi adequado. A Tabela 4.4 mostra estatísticas descritivas da distribuição a posteriori e estimativas intervalares dos parâmetros γ1 e γ2 e dos hiperparâmetros do modelo. Semelhamente à Seção 4.1.1, observa-se que, dentre os parâmetros dessa tabela, apenas o valor verdadeiro do σ2 hiperparâmetro φ1 está fora do intervalo de credibilidade de 95%.

31 A Figura 4.18 mostra os gráficos de dispersão entre os valores verdadeiros dos vetores paramétricos do modelo e seus valores estimados (pela média a posteriori), com a correlação entre parênteses. Similarmente aos resultados da Seção 4.1.1, pode-se verificar, por essa figura, que os parâmetros foram bem estimados, com exceção do vetor paramétrico α, para o qual se observa um leve problema de escala. Nota-se ainda que a segunda dimensão de Φ e Θ 1 β α φ 2 4 2.0 1 2 1.5 0 0 1.0 −1 −2 0.5 −2 −4 0.0 −2 −1 0 1 2 0.0 0.5 1.0 1.5 2.0 −4 −2 0 2 4 Médias a posteriori de Médias a posteriori de Valores verdadeiros de α Valores verdadeiros de β Médias a posteriori de Valores verdadeiros de φ1 (corr = 0,61) (corr = 0,65) (corr = 0,95) 2 1 2 φ θ θ 4 4 4 2 2 2 0 0 0 −2 −2 −2 −4 −4 −4 −4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4

Médias a posteriori de φ Médias a posteriori de Médias a posteriori de Valores verdadeiros de 2 Valores verdadeiros de θ1 Valores verdadeiros de θ2 (corr = 0,97) (corr = 0,71) (corr = 0,85)

Figura 4.18: Gráficos de dispersão de α, β, φ1, φ2, θ1 e θ2. 1 2 20 20 φ φ 15 15 10 10 5 5 Médias a posteriori dos postos de Médias a posteriori dos postos de 1 1

1 5 10 15 20 1 5 10 15 20 Valores verdadeiros dos postos de φ1 Valores verdadeiros dos postos de φ2

Figura 4.19: Gráficos de dispersão dos postos de φ1 e φ2.

32 continua sendo melhor estimada do que a primeira. A Figura 4.19 mostra os gráficos de dispersão entre os valores verdadeiros dos postos dos vetores paramétricos φ1 e φ2 e seus valores estimados pela média a posteriori (quadrado), com as retas representando os seus intervalos de credibilidade de 95%. Observa-se uma

distinguibilidade maior dos postos dos elementos do vetor paramétrico φ2 do que os postos

dos elementos do vetor paramétrico φ1. Nota-se também que todos os postos verdadeiros dos elementos desses vetores paramétricos estão dentro de seu intervalo de credibilidade de 95%. 1 2 200 200 θ θ 150 150 100 100 50 50 Médias a posteriori dos postos de Médias a posteriori dos postos de 1 1

1 50 100 150 200 1 50 100 150 200 Valores verdadeiros dos postos de θ1 Valores verdadeiros dos postos de θ2

Figura 4.20: Gráficos de dispersão dos postos de θ1 e θ2. 2 1.0 0 0.8 −2 0.6 −4 0.4 −6 0.2 −8 Médias a posteriori das probabilidades 0.0 −10 0.0 0.2 0.4 0.6 0.8 1.0 −10 −8 −6 −4 −2 0 2 Médias a posteriori dos preditores não lineares Valores verdadeiros das probabilidades Valores verdadeiros dos preditores não lineares

Figura 4.21: Gráficos de dispersão das probabilidades (em azul) e dos preditores não lineares (em verde).

33 A Figura 4.20 mostra os gráficos de dispersão entre os valores verdadeiros dos postos dos vetores paramétricos θ1 e θ2 e seus valores estimados pela média a posteriori (quadrado), com as retas representando os seus intervalos de credibilidade de 95%. Analogamente à

Seção 4.1.1, verifica-se que os postos dos elementos do vetor paramétrico θ2 possuem uma menor variabilidade e uma maior distinguibilidade do que os postos dos elementos do vetor

paramétrico θ1, ao considerar os valores extremos desses vetores paramétricos. No entanto, foram obtidas as porcentagens de elementos cujos postos verdadeiros estão dentro do intervalo

de credibilidade de 95% e os seus valores foram de 95% e 96% para os vetores paramétricos θ1

e θ2, respectivamente. Obteve-se também a taxa de cobertura para as matrizes de parâmetros Θ e Φ, isto é, a porcentagem de vezes que o verdadeiro valor do parâmetro ou hiperparâmetro está dentro de seu intervalo de credibilidade. O valor obtido dessa taxa foi de 95,07%. A Figura 4.21 mostra os gráficos de dispersão entre os valores verdadeiros das probabilidades e dos preditores não lineares e seus valores estimados (pela média a posteriori). Similarmente à Seção 4.1.1, percebe-se que, apesar de um leve problema de escala, em geral, as probabilidades tiveram uma boa predição. De modo geral, o ajuste dos preditores não lineares também foi satisfatório, havendo maior dificuldade de predição para valores pequenos, que, por sua vez, possuem menor separabilidade. Ao realizar uma análise comparativa com a Seção 4.1.1, conclui-se que, para este caso específico, não houve diferenças significativas entre as estimativas pontuais e intervalares para os parâmetros dos dois modelos. O mesmo ocorre para o ajuste das probabilidades e dos preditores não lineares. Esse resultado é coerente com o esperado, já que os dados foram simulados com apenas uma constante de normalização.

4.2 Dados gerados com duas constantes de normalização

Nesta seção, gerou-se um conjunto de dados segundo o modelo proposto nas Equações

3.2, 3.3e 3.4 e supôs-se γ1 = 0, 2 e γ2 = 0, 4, ou seja, foram consideradas duas constantes de

normalização, com γ1 6= γ2. Os demais parâmetros foram gerados das seguintes distribuições:

αi ∼ N(0; 0, 2); βj ∼ N(1; 0, 2); θi,k ∼ N(0; 1); φj,k ∼ 0, 5N(−1, 5; 1) + 0, 5N(1, 5; 1), para i = 1, ..., 200, j = 1, ..., 20 e k = 1, 2. A escolha de seus valores foi feita de modo a evitar a obtenção de uma matriz social esparsa, isto é, uma matriz com uma quantidade elevada de zeros. Similarmente à Seção 4.1, foram impostas duas restrições: cada usuário deveria seguir ao menos um ator político, que, por sua vez, deveria ser seguido por pelo menos 10 usuários.

34 Evita-se, assim, a possibilidade de haver usuários com ínfimo interesse político e atores políticos com popularidade muito baixa. A Figura 4.22 apresenta o histograma referente às probabilidades verdadeiras de se obter

sucesso, πi,j, propostas na Equação 3.4. Similarmente à Seção 4.1, observa-se, pela Figura 4.22, a presença de muitas probabilidades iguais ou próximas de zero. A Tabela 4.5 apresenta a proporção de sucessos e fracassos em relação ao total para cada 2 2 intervalo de distâncias, que, neste caso, é referente à expressão (θ1 − φ1) + (θ2 − φ2) . Por fim, a Figura 4.23 mostra a frequência de sucessos e fracassos para cada intervalo de distâncias. Analogamente à Seção 4.1, percebe-se que há um predomínio de sucessos para distâncias pequenas, mas quanto mais se aumenta o valor da distância, maior é a supremacia dos fracassos sobre os sucessos. Conforme mencionado anteriormente na Seção 4.1, esse resultado coincide com o esperado, pois indivíduos mais próximos no espaço latente tendem a se associar com 2.5 2.0 1.5 1.0 Densidade 0.5 0.0 0.0 0.2 0.4 0.6 0.8 1.0 Probabilidades verdadeiras

Figura 4.22: Histograma das probabilidades verdadeiras.

Tabela 4.5: Proporção de sucessos e fracassos em relação ao total para cada intervalo de distâncias.

Intervalo Fracasso Sucesso 0 a 5 0,21450 0,27125 5 a 10 0,22275 0,07700 10 a 15 0,12325 0,01075 15 a 20 0,05175 0,00275 20 a 25 0,01750 0,00050 25 a 30 0,00625 0 30 ou mais 0,00175 0

35 maior probabilidade. Resultado similar também pode ser verificado pelas Figuras 4.24e 4.25. A Figura 4.24 mostra o boxplot de θ1 versus φ1, que foi construído a partir da ordenação de φ1 pelos seus postos verdadeiros. Para cada elemento do vetor paramétrico φ1 deste boxplot, consideraram-se apenas aqueles elementos do vetor paramétrico θ1 que o seguem no Twitter. A Figura 4.25 apresenta o boxplot de θ2 versus φ2, o qual foi construído analogamente às condições da Figura

Sucesso Fracasso 1500 1000 Frequência 500 0 0 a 5 5 a 10 10 a 15 15 a 20 20 a 25 25 a 30 30 ou mais Intervalo

Figura 4.23: Frequências de sucessos e fracassos para cada intervalo de distâncias.

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 2

● 1 0 1 θ

● −1 ●

● ● −2

● ● ● ● ● ●

−3 ● ● ● ● ● ● ●

φ(1), 1 φ(5), 1 φ(10), 1 φ(15), 1 φ(20), 1

Figura 4.24: Boxplot de θ1 versus φ1, que foi construído a partir da ordenação de φ1 pelos seus postos verdadeiros. Para cada elemento do vetor paramétrico φ1 deste boxplot, consideraram-se apenas aqueles elementos do vetor paramétrico θ1 que o seguem no Twitter.

36 3 ● ● ● ●

● ● ● ● ● 2 1 2 0 θ

● −1 ● ● ● ● ● ● ● ● −2

● −3 φ(1), 2 φ(5), 2 φ(10), 2 φ(15), 2 φ(20), 2

Figura 4.25: Boxplot de θ2 versus φ2, que foi construído a partir da ordenação de φ2 pelos seus

postos verdadeiros. Para cada elemento do vetor paramétrico φ2 deste boxplot, consideraram-se

apenas aqueles elementos do vetor paramétrico θ2 que o seguem no Twitter.

4.24. Percebe-se, pela Figura 4.24, para os casos em que há sucesso, uma certa ascendência dos valores associados à primeira dimensão de Θ conforme se aumenta o valor associado à primeira dimensão de Φ. Pela Figura 4.25, verifica-se que isso também é satisfeito para a segunda dimensão de Θ e Φ. Analogamente à Seção 4.1, para a estimação do modelo explicitado no Capítulo3, truncaram- se as distribuições a priori para dois parâmetros de cada dimensão de Φ. Então, foram considerados dois casos em separado: no primeiro, utilizou-se o modelo supondo uma constante

de normalização, ou seja, γ = γ1 = γ2 (Seção 4.2.1), e no segundo, foram estimadas duas constantes de normalização (Seção 4.2.2). Também foram utilizadas duas cadeias em ambos os modelos. Por fim, tanto o procedimento de inferência quanto o número de iterações do MCMC, o período de aquecimento e a seleção da amostra foram feitos exatamente da mesma forma que na Seção 4.1.

4.2.1 Estimação com uma constante de normalização

Neste caso, considerou-se o modelo com apenas uma constante de normalização, assumindo- γ = γ = γ γ σ2 se que 1 2. Utilizaram-se as seguintes distribuições a priori para os parâmetros e θ2 , γ ∼ N (0; 1000) σ2 ∼GI(0, 01; 0, 01) respectivamente: + e θ2 . Com relação aos valores iniciais de

37 (0) 1 γ e σ2 , considerou-se γ(0) = 0, 29 e σ2 = (para a primeira cadeia) e γ(0) = 0, 31 θ2 θ2 0, 9

Figura 4.26: Gráfico da amostra da distribuição a posteriori de γ para as duas cadeias, após período de aquecimento e após a retirada das defasagens. A reta em preto representa o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori.

Figura 4.27: Gráficos da amostra da distribuição a posteriori de φ3,1 (à esquerda) e de φ9,1 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As retas em preto representam o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori.

38 Figura 4.28: Gráficos da amostra da distribuição a posteriori de φ9,2 (à esquerda) e de φ16,2 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As retas em preto representam o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori.

Tabela 4.6: Valores verdadeiros, estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori.

Parâmetro Valor verdadeiro Média Desvio padrão Mediana Lim. inf. Lim. sup. γ - 0,23 0,07 0,22 0,11 0,37

µβ 1,00 1,00 0,14 0,99 0,73 1,28

µφ1 0 0,02 0,39 0,03 -0,76 0,70

µφ2 0 -0,33 0,53 -0,30 -1,46 0,71 2 σα 0,20 0,21 0,07 0,21 0,08 0,36 2 σβ 0,20 0,08 0,08 0,05 0,01 0,28 σ2 φ1 3,25 1,24 0,94 1,00 0,22 3,40 σ2 φ2 3,25 4,79 2,64 4,09 1,74 11,37 σ2 θ2 1,00 2,34 0,95 2,14 1,17 4,80

(0) 1 e σ2 = (para a segunda cadeia). Os outros valores iniciais especificados aos parâmetros θ2 1, 1 foram os mesmos mencionados na Seção 4.1. Além disso, foram empregadas as seguintes distribuições a priori truncadas para os parâmetros em ambas as dimensões de Φ:

φ3,1 ∼ N+(0; 9), φ9,1 ∼ N−(0; 9), φ9,2 ∼ N−(0; 9) e φ16,2 ∼ N+(0; 9). Similarmente às Seções 4.1.1e 4.1.2, as distribuições a priori destes elementos da matriz de parâmetros Φ foram

39 truncadas porque estes são os valores extremos das duas dimensões. Para os outros parâmetros, usaram-se distribuições a priori idênticas às da Seção 4.1. As Figuras 4.26, 4.27e 4.28 mostram os gráficos da amostra da distribuição a posteriori para as duas cadeias dos parâmetros γ, φ3,1, φ9,1, φ9,2 e φ16,2, após período de aquecimento e após a retirada das defasagens. Percebe-se que há convergência das cadeias desses parâmetros. De fato, similarmente à Seção 4.1.2, não se encontraram percalços quanto à convergência das cadeias dos outros parâmetros do modelo nem foi identificado problema de autocorrelação serial ao utilizar uma defasagem igual a 800. Observa-se também que não foram gerados valores próximos de zero para esses parâmetros via MCMC, indicando que as distribuições a priori truncadas funcionaram de forma adequada. A Tabela 4.6 mostra estatísticas descritivas da distribuição a posteriori e estimativas intervalares do parâmetro γ e dos hiperparâmetros do modelo. Observa-se que, σ2 dentre os parâmetros dessa tabela, apenas o valor verdadeiro do hiperparâmetro θ2 está fora de seu intervalo de credibilidade de 95%. Além disso, é interessante notar que o valor estimado pela média a posteriori para o parâmetro γ é de aproximadamente 0, 227 para o conjunto de dados que, na verdade, têm duas constantes de normalização. 1 β α φ 2 4 2.0 1 2 1.5 0 0 1.0 −1 −2 0.5 −2 −4 0.0 −2 −1 0 1 2 0.0 0.5 1.0 1.5 2.0 −4 −2 0 2 4 Médias a posteriori de Médias a posteriori de Valores verdadeiros de α Valores verdadeiros de β Médias a posteriori de Valores verdadeiros de φ1 (corr = 0,60) (corr = 0,62) (corr = 0,90) 2 1 2 φ θ θ 4 4 4 2 2 2 0 0 0 −2 −2 −2 −4 −4 −4 −4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4

Médias a posteriori de φ Médias a posteriori de Médias a posteriori de Valores verdadeiros de 2 Valores verdadeiros de θ1 Valores verdadeiros de θ2 (corr = 0,98) (corr = 0,55) (corr = 0,89)

Figura 4.29: Gráficos de dispersão de α, β, φ1, φ2, θ1 e θ2.

A Figura 4.29 mostra os gráficos de dispersão entre os valores verdadeiros dos vetores paramétricos do modelo e seus valores estimados (pela média a posteriori), com a correlação

40 entre parênteses. Realizando uma análise comparativa com a Seção 4.1.2, pode-se verificar, por

essa figura, que houve pequena piora para os vetores paramétricos β e θ1, os quais possuem um leve problema de escala. Todavia, há maior importância em verificar se a ordenação dos vetores paramétricos estimados pela média a posteriori é semelhante à obtida pelos valores verdadeiros dos parâmetros e, de fato, constatou-se que isso é satisfeito neste modelo. 1 2 20 20 φ φ 15 15 10 10 5 5 Médias a posteriori dos postos de Médias a posteriori dos postos de 1 1

1 5 10 15 20 1 5 10 15 20 Valores verdadeiros dos postos de φ1 Valores verdadeiros dos postos de φ2

Figura 4.30: Gráficos de dispersão dos postos de φ1 e φ2. 1 2 200 200 θ θ 150 150 100 100 50 50 Médias a posteriori dos postos de Médias a posteriori dos postos de 1 1

1 50 100 150 200 1 50 100 150 200 Valores verdadeiros dos postos de θ1 Valores verdadeiros dos postos de θ2

Figura 4.31: Gráficos de dispersão dos postos de θ1 e θ2.

A Figura 4.30 mostra os gráficos de dispersão entre os valores verdadeiros dos postos dos vetores paramétricos φ1 e φ2 e seus valores estimados pela média a posteriori (quadrado), com as

41 retas representando os seus intervalos de credibilidade de 95%. Percebe-se uma distinguibilidade maior dos postos dos elementos da segunda dimensão de Φ do que os postos dos elementos da primeira dimensão. Nota-se, porém, que todos os postos verdadeiros dos elementos do vetor

paramétrico φ1 estão dentro de seus intervalos de credibilidade de 95%. Ademais, o percentual de elementos cujos postos verdadeiros estão dentro do intervalo de credibilidade de 95% para o vetor paramétrico φ2 é de 85%. A Figura 4.31 mostra os gráficos de dispersão entre os valores verdadeiros dos postos dos vetores paramétricos θ1 e θ2 e seus valores estimados pela média a posteriori (quadrado), com as retas representando os seus intervalos de credibilidade de 95%. Nota-se que os postos dos

elementos do vetor paramétrico θ2 possuem menor variabilidade e maior distinguibilidade do

que os postos dos elementos do vetor paramétrico θ1, ao considerar os valores extremos desses vetores paramétricos. No entanto, foram obtidas as porcentagens de elementos cujos postos verdadeiros estão dentro do intervalo de credibilidade de 95% e os seus valores foram de 93,5%

e 93% para os vetores paramétricos θ1 e θ2, respectivamente. Obteve-se também a taxa de cobertura para as matrizes de parâmetros Θ e Φ, isto é, a porcentagem de vezes que o verdadeiro valor do parâmetro ou hiperparâmetro está dentro de seu intervalo de credibilidade. O valor obtido dessa taxa foi de 95,45%. 2 1.0 0 0.8 −2 0.6 −4 0.4 −6 0.2 −8 Médias a posteriori das probabilidades 0.0 −10 0.0 0.2 0.4 0.6 0.8 1.0 −10 −8 −6 −4 −2 0 2 Médias a posteriori dos preditores não lineares Valores verdadeiros das probabilidades Valores verdadeiros dos preditores não lineares

Figura 4.32: Gráficos de dispersão das probabilidades (em azul) e dos preditores não lineares (em verde).

A Figura 4.32 mostra os gráficos de dispersão entre os valores verdadeiros das probabilidades e dos preditores não lineares e seus valores estimados (pela média a posteriori). Percebe-se que, apesar de um leve problema de escala, em geral, as probabilidades tiveram uma boa

42 predição. De modo geral, o ajuste dos preditores não lineares observados também foi satisfatório, havendo maior dificuldade de predição para valores pequenos, que, por sua vez, possuem menor separabilidade.

4.2.2 Estimação com duas constantes de normalização

Neste caso, consideraram-se duas constantes de normalização distintas no modelo. Além disso, foram utilizadas as seguintes distribuições a priori truncadas para os parâmetros em ambas

as dimensões de Φ: φ3,1 ∼ N+(0; 9), φ9,1 ∼ N−(0; 9), φ9,2 ∼ N−(0; 9) e φ16,2 ∼ N+(0; 9). σ2 = 1 Além das restrições mencionadas no Capítulo3, fixou-se θ2 e empregaram-se as seguintes

distribuições a priori para os parâmetros γ1 e γ2: γ1 ∼ N+(0; 1000) e γ2 ∼ N+(0; 1000). Para os outros parâmetros, usaram-se distribuições a priori idênticas às da Seção 4.1. Quanto aos (0) (0) (0) valores iniciais, considerou-se γ1 = 0, 15 e γ2 = 0, 25 (para a primeira cadeia) e γ1 = 0, 3 e (0) γ2 = 0, 5 (para a segunda cadeia). Para os outros parâmetros, os valores iniciais especificados foram os mesmos mencionados na Seção 4.1.

Figura 4.33: Gráficos da amostra da distribuição a posteriori de γ1 (à esquerda) e de γ2 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As retas em preto representam o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori.

As Figuras 4.33, 4.34e 4.35 mostram os gráficos da amostra da distribuição a posteriori para as duas cadeias dos parâmetros γ1, γ2, φ3,1, φ9,1, φ9,2 e φ16,2, após período de aquecimento e após a retirada das defasagens. Verifica-se que há convergência das cadeias desses parâmetros.

43 De fato, similarmente à Seção 4.2.1, não se encontraram percalços quanto à convergência das cadeias dos outros parâmetros do modelo nem foi identificado problema de autocorrelação

Figura 4.34: Gráficos da amostra da distribuição a posteriori de φ3,1 (à esquerda) e de φ9,1 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As retas em preto representam o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori.

Figura 4.35: Gráficos da amostra da distribuição a posteriori de φ9,2 (à esquerda) e de φ16,2 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As retas em preto representam o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori.

44 serial ao utilizar uma defasagem igual a 800. Observa-se ainda que não foram gerados valores próximos de zero via MCMC e que todos os valores verdadeiros dos parâmetros das Figuras 4.33, 4.34e 4.35 estão dentro do intervalo de credibilidade de 95%, mostrando que o emprego das distribuições a priori truncadas para esses parâmetros foi adequado.

Tabela 4.7: Valores verdadeiros, estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori.

Parâmetro Valor verdadeiro Média Desvio padrão Mediana Lim. inf. Lim. sup.

γ1 0,20 0,22 0,08 0,21 0,06 0,37

γ2 0,40 0,49 0,07 0,49 0,35 0,63

µβ 1,00 0,99 0,15 0,99 0,66 1,29

µφ1 0 0,02 0,61 0,04 -0,79 0,78

µφ2 0 -0,22 0,34 -0,21 -0,88 0,43 2 σα 0,20 0,21 0,07 0,21 0,08 0,35 2 σβ 0,20 0,08 0,07 0,06 0,01 0,28 σ2 φ1 3,25 1,30 1,29 1,00 0,21 4,44 σ2 φ2 3,25 2,01 0,89 1,84 0,89 4,23 1 β α φ 2 4 2.0 1 2 1.5 0 0 1.0 −1 −2 0.5 −2 −4 0.0 −2 −1 0 1 2 0.0 0.5 1.0 1.5 2.0 −4 −2 0 2 4 Médias a posteriori de Médias a posteriori de Valores verdadeiros de α Valores verdadeiros de β Médias a posteriori de Valores verdadeiros de φ1 (corr = 0,60) (corr = 0,61) (corr = 0,90) 2 1 2 φ θ θ 4 4 4 2 2 2 0 0 0 −2 −2 −2 −4 −4 −4 −4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4

Médias a posteriori de φ Médias a posteriori de Médias a posteriori de Valores verdadeiros de 2 Valores verdadeiros de θ1 Valores verdadeiros de θ2 (corr = 0,98) (corr = 0,56) (corr = 0,89)

Figura 4.36: Gráficos de dispersão de α, β, φ1, φ2, θ1 e θ2.

45 A Tabela 4.7 mostra estatísticas descritivas da distribuição a posteriori e estimativas

intervalares dos parâmetros γ1 e γ2 e dos hiperparâmetros do modelo. Observa-se que os valores verdadeiros dos parâmetros dessa tabela estão dentro do intervalo de credibilidade de 95%, evidenciando acurácia em suas estimações. Além disso, observa-se que a probabilidade de

γ1 e γ2 serem distintos é alta, indicando maior plausibilidade deste segundo modelo frente ao primeiro. A Figura 4.36 mostra os gráficos de dispersão entre os valores verdadeiros dos vetores paramétricos do modelo e seus valores estimados (pela média a posteriori), com a correlação entre parênteses. Similarmente aos resultados da Seção 4.2.1, pode-se verificar, por essa figura,

que existe um leve problema de escala em α, β e θ1. No entanto, há maior relevância em averiguar se a ordenação dos vetores paramétricos estimados pela média a posteriori é semelhante à obtida pelos valores verdadeiros dos parâmetros e constatou-se que, de fato, isso é satisfeito para este modelo. Percebe-se também que a segunda dimensão de Φ e Θ continua sendo melhor estimada do que a primeira dimensão destas matrizes de parâmetros. 1 2 20 20 φ φ 15 15 10 10 5 5 Médias a posteriori dos postos de Médias a posteriori dos postos de 1 1

1 5 10 15 20 1 5 10 15 20 Valores verdadeiros dos postos de φ1 Valores verdadeiros dos postos de φ2

Figura 4.37: Gráficos de dispersão dos postos de φ1 e φ2.

A Figura 4.37 mostra os gráficos de dispersão entre os valores verdadeiros dos postos dos vetores paramétricos φ1 e φ2 e seus valores estimados pela média a posteriori (quadrado), com as retas representando os seus intervalos de credibilidade de 95%. Semelhantemente aos resultados da Seção 4.2.1, percebe-se uma distinguibilidade maior dos postos dos elementos

do vetor paramétrico φ2 do que os postos dos elementos do vetor paramétrico φ1. Nota-se,

no entanto, que todos os postos verdadeiros dos elementos do vetor paramétrico φ1 estão dentro de seus intervalos de credibilidade de 95%. Além disso, foi obtida a porcentagem de

46 elementos cujos postos verdadeiros estão dentro do intervalo de credibilidade de 95% para o vetor paramétrico φ2 e o valor foi de 85%. 1 2 200 200 θ θ 150 150 100 100 50 50 Médias a posteriori dos postos de Médias a posteriori dos postos de 1 1

1 50 100 150 200 1 50 100 150 200 Valores verdadeiros dos postos de θ1 Valores verdadeiros dos postos de θ2

Figura 4.38: Gráficos de dispersão dos postos de θ1 e θ2. 2 1.0 0 0.8 −2 0.6 −4 0.4 −6 0.2 −8 Médias a posteriori das probabilidades 0.0 −10 0.0 0.2 0.4 0.6 0.8 1.0 −10 −8 −6 −4 −2 0 2 Médias a posteriori dos preditores não lineares Valores verdadeiros das probabilidades Valores verdadeiros dos preditores não lineares

Figura 4.39: Gráficos de dispersão das probabilidades (em azul) e dos preditores não lineares (em verde).

A Figura 4.38 mostra os gráficos de dispersão entre os valores verdadeiros dos postos dos vetores paramétricos θ1 e θ2 e seus valores estimados pela média a posteriori (quadrado), com as retas representando os seus intervalos de credibilidade de 95%. Analogamente aos resultados

da Seção 4.2.1, pode-se verificar que os postos dos elementos do vetor paramétrico θ2 possuem

47 uma menor variabilidade e uma maior distinguibilidade do que os postos dos elementos do vetor paramétrico θ1, ao considerar os valores extremos desses vetores paramétricos. No entanto, foram obtidas as porcentagens de elementos cujos postos verdadeiros estão dentro do intervalo de credibilidade de 95% e os seus valores foram de 94,5% e 93% para o vetor paramétrico θ1 e para o vetor paramétrico θ2, respectivamente. Obteve-se também a taxa de cobertura para as matrizes de parâmetros Θ e Φ, isto é, a porcentagem de vezes que o verdadeiro valor do parâmetro ou hiperparâmetro está dentro de seu intervalo de credibilidade. O valor obtido dessa taxa foi de 93,18%. A Figura 4.39 mostra os gráficos de dispersão entre os valores verdadeiros das probabilidades e dos preditores não lineares e seus valores estimados (pela média a posteriori). Similarmente à Seção 4.2.1, percebe-se que, apesar de um leve problema de escala, em geral, as probabilidades tiveram uma boa predição. De modo geral, o ajuste dos preditores não lineares também foi satisfatório, havendo maior dificuldade de predição para valores pequenos, que, por sua vez, possuem menor separabilidade. Ao realizar uma análise comparativa com a Seção 4.2.1, conclui-se que, para este caso específico, os parâmetros foram bem estimados, em ambos os modelos, havendo um leve problema de escala em α, β e θ1. Não se constatam, portanto, diferenças muito significativas para as estimativas dos parâmetros e para o ajuste das probabilidades e dos preditores não lineares dos modelos, com exceção da segunda dimensão das matrizes de parâmetros Θ e Φ, para a qual se observa maior variabilidade no modelo da Seção 4.2.1. Isso se deve ao fato de, neste caso, o modelo incluir apenas uma constante de normalização, impondo, assim, mesmo peso para as distâncias entre as posições latentes nas duas dimensões no cálculo da probabilidade. Por esse motivo, o primeiro modelo tem uma recuperação da estrutura de probabilidade dos dados inferior à do segundo modelo, o que influi diretamente na variabilidade das estimativas. Neste capítulo, foi considerado um conjunto limitado de dados artificiais, devido ao elevado tempo computacional associado a este caso bidimensional. Além disso, vários outros estudos simulados foram feitos para melhor entendimento do modelo e da estimação, mas que não serão apresentados nesse texto. Outrossim, avaliou-se como satisfatório o resultado do modelo com duas constantes de normalização, que permite uma ponderação diferente para as distâncias entre as posições latentes nas duas dimensões. No próximo capítulo, este modelo será aplicado a dados reais do Twitter. Espera-se, pois, que tal modelo tenha uma boa estimação, uma vez que, de acordo com a análise comparativa deste capítulo, ele mostrou ser mais flexível do que o modelo que contempla apenas uma constante de normalização.

48 Capítulo 5

Aplicação a dados reais

O conjunto de dados utilizados neste capítulo foi empregado no trabalho de Souza(2017) 1 e se refere aos deputados federais e senadores que estavam em exercício no início de julho de 2017 com conta ativa no Twitter nessa época. Nesse contexto, usuário ativo é o indivíduo que por meio de sua conta no Twitter enviou pelo menos uma mensagem (tweet) ao longo do ano de 2017. Cada ator político tinha de ser seguido por pelo menos 100 usuários comuns (deputados ou senadores — conforme definição do Capítulo3). Sobraram ao final 330 deputados, 71 senadores e 107 atores políticos, isto é, n = 401 e m = 107. Serão estimadas posições ideológicas para deputados federais, senadores e atores políticos em um espaço latente bidimensional, consistindo, portanto, em uma tentativa de interpretar e separar a estrutura latente dos dados do Twitter em duas dimensões. Imagina-se que as posições ideológicas estejam relacionadas com o antagonismo entre “esquerda” e “direita” e com a dicotomia entre “oposição” e “governo”. A priori definir-se-á o modelo imaginando a primeira dimensão como sendo o eixo “esquerda-direita” e a segunda dimensão como sendo o eixo “oposição-governo”. Vale ressaltar que se impõe, no contexto desta dissertação, independência entre os eixos, o que não necessariamente retrata a realidade. Sendo assim, os resultados obtidos na estimação devem ser interpretados com cautela. Para a estimação do modelo no espaço bidimensional, considerar-se-ão duas constantes de

normalização γ1 e γ2 e as mesmas restrições do Capítulo4, isto é, µα = 0, µθ1 = µθ2 = 0 e σ2 = σ2 = 1 θ1 θ2 . Além disso, para alguns elementos da rede, será empregada a distribuição a

priori N−(0; 9) para indivíduos que se supõem a favor da “esquerda”, levando em conta o eixo das abscissas. Outrossim, para alguns outros componentes da rede, usar-se-á a distribuição a

priori N+(0; 9) para indivíduos que se supõem a favor da “direita”, levando em conta o eixo das

1Agradecimentos a Souza(2017) por disponilizar os dados

49 abscissas, e para indivíduos pró-governo, considerando o eixo das ordenadas. Para alguns elementos da rede, a escolha das distribuições a priori será baseada em resultados históricos. De acordo com análises dispostas em Power e Zucco(2011), o PT costuma se distinguir significativamente de outros grandes partidos como DEM, PSDB e PMDB (atual MDB), se posicionando à esquerda no eixo “esquerda-direita”. Vale ressaltar que a ex-presidente da República do Brasil, Dilma Roussef, do PT, teve seu afastamento em 17 de abril de 2016 e seu processo de impeachment terminou em 31 de agosto de 2016. Portanto, , do PMDB (atual MDB) já estava na presidência, cuja posse foi em 31 de agosto de 2016. Porém, como Michel Temer tinha pouco tempo no cargo de presidente da República do Brasil, o polo “governo” será referenciado à Dilma Roussef, pois o PT ficou por longo tempo no poder. As demais escolhas das distribuições a priori referentes ao eixo “oposição-governo” serão baseadas no trabalho de Zucco e Lauderdale(2011). O PSDB ora é considerado um partido de “centro”, ora é considerado um partido de “direita”, mas se percebe que, em geral, este partido tem migrado, ao longo dos anos, para a direita da escala. Sendo assim, muitos cientistas políticos têm adotado, nos últimos anos, uma classificação mais específica para este partido: “centro-direita” (veja, por exemplo, Moraes(2018)). Além disso, de acordo com os resultados expostos em Zucco e Lauderdale(2011) (baseados em modelos de votações nominais de 1989 a 2010), no primeiro eixo, o PCdoB fica à esquerda da escala e costuma se posicionar próximo do PT no segundo eixo (“oposição-governo”). Sendo assim, serão usadas as seguintes distribuições a priori truncadas para os elementos

da primeira dimensão de Φ: φ36,1 ∼ N−(0; 9) (parâmetro associado a , do

PT, truncando-o a favor da “esquerda”), φ47,1 ∼ N−(0; 9) (parâmetro associado a Geraldo

Alckmin, do PSDB, truncando-o a favor da “direita”) e φ106,1 ∼ N−(0; 9) (parâmetro associado a Manuela D’Ávila, do PCdoB, truncando-o a favor da “esquerda”). Para a segunda dimensão,

atribuir-se-ão as distribuições a priori φ36,2 ∼ N+(0; 9) (parâmetro associado a Alexandre

Padilha, do PT, truncando-o a favor do “governo”) e φ106,2 ∼ N+(0; 9) (parâmetro associado a Manuela D’Ávila, do PCdoB, truncando-o a favor do “governo”). Para os outros parâmetros, empregar-se-ão distribuições a priori idênticas às do Capítulo4. Além disso, utilizar-se-ão duas cadeias diferentes via MCMC. No que diz respeito aos valores iniciais, segundo Barberá(2015) e Souza(2017), recomenda-

se inicializar as cadeias de alguns elementos dos vetores paramétricos φ1 e φ2 com os valores

-1 e 1 a fim de tentar evitar o percalço inerente à reflexão de escala, que se dá quando c3 = −1, apresentado no ApêndiceA ao se mencionar o problema de invariância à reflexão. Serão adicionados também valores iniciais iguais a -1 e 1 para alguns elementos de Θ para facilitar a

50 convergência das cadeias e auxiliar na identificação do modelo. A Tabela 5.1 apresenta a lista dos partidos cujos usuários e atores políticos do Twitter têm, em ambas as cadeias, pelo menos um de seus elementos de Φ ou de Θ com inicialização em -1 ou 1. Para os outros elementos de Φ e Θ, inicializou-se em zero. A maioria destes valores iniciais foi escolhida tomando por base os trabalhos de Zucco(2009) e Zucco e Lauderdale (2011).

Tabela 5.1: Lista dos partidos cujos usuários e atores políticos do Twitter tiveram, em ambas as cadeias, pelo menos um de seus elementos de Φ ou de Θ com inicialização em -1 ou 1.

Partidos Primeira dimensão Segunda dimensão DEM 1 0 PCdoB -1 1 PDT -1 1 PMDB 1 0 PP 1 -1 PPS 0 1 PR 1 0 PSDB 1 0 PSOL -1 1 PT -1 1 PTB 1 -1

Com relação aos outros parâmetros, consideraram-se os seguintes valores iniciais para os (0) (0) (0) (0) parâmetros γ1 e γ2: γ1 = γ2 = 0, 2 (para a primeira cadeia) e γ1 = γ2 = 0, 4 (para a µ(0) = µ(0) = µ(0) = 0 segunda cadeia). Os outros valores iniciais, para ambas as cadeias, foram: β φ1 φ2 , (0) (0) 1 (0) (0) 1 σ2 = σ2 = e σ2 = σ2 = . α β 5 φ1 φ2 0, 3 Geraram-se duas cadeias de tamanho 32.000 via MCMC. Posteriormente, realizou-se o monitoramento de convergência das cadeias por meio de inspeção gráfica, na qual se observaram as trajetórias de duas cadeias diferentes partindo de valores iniciais distintos. Descartaram-se as primeiras 6.000 iterações, que serviram como amostra de aquecimento. Ademais, utilizou-se uma defasagem igual a 80 e obteve-se, assim, uma amostra final de tamanho 650 para cada parâmetro (sendo 325 para cada cadeia)23.

2Os cálculos foram realizados em um notebook Intel Core i3, 2.4GHz, 4 GB RAM, 64 bits, Windows 10, R 3.3.1 (64-bit), JAGS 4.3.0, rjags 4-6, e o tempo de execução estimado foi de 13 horas. 3Visando reduzir o tempo computacional, foi empregado o pacote snowfall (Knaus, 2015) do programa estatístico livre R (R Development Core Team, 2014), que usa computação paralela, na qual o problema pode ser

51 Nesta dissertação, adotou-se como critério de seleção de modelos o critério de informação do desvio (DIC, abreviação em inglês de Deviance Information Criterion), proposto por Spiegelhalter et al.(2002). De acordo com ele, o modelo com melhor ajuste será aquele que apresentar o menor valor do DIC. O valor desse critério obtido para este modelo bidimensional foi de 38.673, 33. Com o mesmo tamanho de amostra de aquecimento, número de defasagens e tamanho de amostra final, obteve-se, via MCMC, o DIC para o modelo unidimensional (cujos resultados não serão apresentados por serem bem similares ao de Souza(2017)) e o valor foi de 39.976, 85, superior ao valor alcançado no modelo com duas dimensões. O modelo bidimensional, utilizado nesta dissertação, apresentou, portanto, o melhor ajuste segundo o critério DIC. Isso indica que a segunda dimensão (interpretada nesta dissertação como “oposição- governo”) tem uma influência relevante na probabilidade de um usuário qualquer “seguir” um certo ator político no Twitter.

Figura 5.1: Gráficos da amostra da distribuição a posteriori de γ1 (à esquerda) e de γ2 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As linhas tracejadas em azul representam o intervalo de credibilidade de 95%.

As Figuras 5.1, 5.2, 5.3e 5.4 mostram os gráficos da amostra da distribuição a posteriori para as duas cadeias dos parâmetros γ1, γ2, φ36,1, φ106,1, φ36,2 e φ106,2, após período de aquecimento e após a retirada das defasagens. Percebe-se que há convergência das cadeias desses parâmetros embora as cadeias apresentem autocorrelações significativas para defasagens grandes. De fato, não se encontraram percalços quanto à convergência das cadeias dos outros parâmetros do dividido em partes menores que podem ser executadas ao mesmo tempo. Para mais detalhes da importância do uso deste pacote conjuntamente com o JAGS, veja, por exemplo, Gregory(2017).

52 modelo. Observa-se também que, em todos os casos, não foram gerados valores próximos de zero para esses parâmetros via MCMC, mostrando que o emprego das distribuições a priori truncadas para esses parâmetros foi adequado.

Figura 5.2: Gráficos da amostra da distribuição a posteriori de φ36,1 (à esquerda) e de φ47,1 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori.

Figura 5.3: Gráficos da amostra da distribuição a posteriori de φ106,1 para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori.

53 Figura 5.4: Gráficos da amostra da distribuição a posteriori de φ36,2 (à esquerda) e de φ106,2 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori.

Tabela 5.2: Estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori.

Parâmetro Média Desvio padrão Mediana Lim. inf. Lim. sup.

γ1 0,44 0,06 0,43 0,34 0,55

γ2 0,29 0,07 0,28 0,19 0,44

µβ 0,73 0,12 0,73 0,48 0,97

µφ1 -0,02 0,14 -0,01 -0,31 0,25

µφ2 0,05 0,20 0,06 -0,36 0,42

φ36,1 -2,18 0,29 -2,15 -2,78 -1,62

φ47,1 1,77 0,31 1,74 1,24 2,45

φ106,1 -1,48 0,28 -1,48 -2,03 -0,95

φ36,2 1,38 0,48 1,35 0,43 2,39

φ106,2 1,61 0,46 1,57 0,76 2,64 2 σα 2,67 0,22 2,66 2,27 3,15 2 σβ 0,82 0,13 0,81 0,60 1,12 σ2 φ1 1,12 0,29 1,08 0,64 1,86 σ2 φ2 1,06 0,46 0,97 0,42 2,12

54 A Tabela 5.2 mostra estatísticas descritivas da distribuição a posteriori e estimativas

intervalares dos parâmetros γ1 e γ2, φ36,1, φ47,1, φ106,1, φ36,2, φ106,2 e dos hiperparâmetros do

modelo. Observa-se que as estimativas dos parâmetros γ1 e γ2 pela média a posteriori são de 0, 44 e 0, 29, respectivamente. Isto implica afirmar que, para este conjunto de dados, a primeira dimensão tem maior peso que a segunda dimensão no cálculo da probabilidade de um usuário qualquer “seguir” um certo ator político. As estimativas pela média a posteriori

e os seus intervalos de credibilidade para os parâmetros φ36,1 e φ36,2 (associados a Alexandre Padilha) foram, respectivamente, iguais a: −2, 18 e 1, 38 e (−2, 78; −1, 62) e (0, 43; 2, 39).A

estimativa pela média a posteriori e o seu intervalo de credibilidade para o parâmetro φ47,1 (associado a Geraldo Alckmin) foram, respectivamente, iguais a: 1, 77 e (1, 24; 2, 45). As estimativas pela média a posteriori e os seus intervalos de credibilidade para os parâmetros

φ106,1 e φ106,2 (associados a Manuela D’Ávila) foram, respectivamente, iguais a: −1, 48 e 1, 61 e (−2, 03; −0, 95) e (0, 76; 2, 64). Em suma, os limites inferiores e superiores de todos os parâmetros truncados ficaram relativamente distantes de zero, corroborando a escolha das distribuições a priori baseadas em informações históricas. A seguir, serão analisados os resultados referentes aos atores políticos (Seção 5.1), aos senadores e deputados (Seções 5.2e 5.3 para a primeira e segunda dimensões, respectivamente) e aos partidos (Seção 5.4).

5.1 Resultados para os atores políticos

Nesta seção, é apresentado o resultado obtido para os atores políticos. Para a classificação ideológica dos atores políticos, será adotado o mesmo critério utilizado no modelo unidimensional descrito em Souza(2017), mantendo-se os termos “esquerda”, “centro” e “direita” para definir suas posições na primeira dimensão. Para a segunda dimensão, a regra será idêntica. No entanto, agora, serão adotadas as seguintes expressões: “oposição” (para aqueles que são contra o governo), “governo” (também pode ser utilizado o termo “situação” para aqueles que são a favor do governo) e “independente” (também chamado de “neutro”, se refere àqueles que não se classificam nem como de “oposição” nem como de “governo”). Sendo assim, atores com estimativas pontuais inferiores a −1 e cujos intervalos de credibili- dade não incluem o valor zero são classificados como de “esquerda” (na primeira dimensão) e de “oposição” (na segunda dimensão). Atores políticos com estimativas superiores a 1 e cujos intervalos de credibilidade não incluem o valor zero são classificados como de “direita” (na primeira dimensão) e de “governo” (na segunda dimensão). Por fim, atores políticos que

55 Tabela 5.3: Lista dos atores políticos com suas médias e desvios a posteriori.

Ator político Partido 1ª dimensão 2ª dimensão VEJA 1,45 (0,28) -0,65 (0,39) Instagram -0,20 (0,23) -0,92 (0,42) Ministério da Justiça -0,72 (0,25) -1,59 (0,57) Senado Federal -0,38 (0,19) 0,05 (0,31) Rádio Câmara -0,67 (0,21) -0,95 (0,45) Câmara Notícias -0,66 (0,21) -1,06 (0,44) Câmara dos Deputados -0,56 (0,22) -0,88 (0,42) TV Câmara -0,78 (0,21) -0,75 (0,40) Estadão 0,85 (0,23) -0,38 (0,37) G1 0,71 (0,24) -0,92 (0,40) Dilma Rousseff PT -1,71 (0,25) 0,37 (0,40) Valor Econômico 0,34 (0,20) -0,04 (0,34) Revista ISTOÉ 0,68 (0,24) -0,70 (0,42) Folha de São Paulo 0,56 (0,22) -0,60 (0,38) Carta Capital -1,15 (0,21) 0,14 (0,37) Marina Silva REDE 0,24 (0,20) -0,07 (0,31) Joaquim Barbosa 0,83 (0,25) 0,00 (0,36) Jornal Nacional 0,98 (0,26) -1,19 (0,45) Michel Temer PMDB 0,41 (0,21) 0,15 (0,31) Deputado PMDB 1,03 (0,26) -0,01 (0,36) Exame 0,82 (0,26) -1,30 (0,48) ACM Neto DEM 0,94 (0,27) 0,53 (0,40) Rádio BandNews FM 0,58 (0,24) 0,00 (0,39) TSE -0,39 (0,21) -0,85 (0,44) STF -0,33 (0,19) -0,38 (0,35) Radar On-line 0,97 (0,26) 1,05 (0,38) Congresso em Foco -0,15 (0,20) 0,42 (0,31) Reuters Brasil -0,16 (0,19) 0,25 (0,38) Jornal O Globo 0,57 (0,22) -0,41 (0,35) Reinaldo Azevedo 2,01 (0,32) 0,09 (0,42) Josias de Souza 0,47 (0,29) 1,89 (0,44) IG Último Segundo -0,26 (0,19) 0,07 (0,34) Jornal do Brasil -0,30 (0,19) -0,50 (0,41) Correio Braziliense 0,16 (0,21) 0,21 (0,35) Revista Piauí -0,04 (0,23) 0,58 (0,38)

56 Ator político Partido 1ª dimensão 2ª dimensão Alexandre Padilha PT -2,18 (0,29) 1,38 (0,48) A Voz do Brasil -0,97 (0,25) -1,35 (0,55) Barack Obama 0,02 (0,19) -0,07 (0,32) O Globo Brasil 0,70 (0,23) 0,13 (0,35) Folha Poder 0,28 (0,21) 0,65 (0,33) Cristiana Lôbo 0,90 (0,26) 1,34 (0,39) Agora no Planalto -0,75 (0,19) -0,32 (0,37) Globo News 0,85 (0,23) -0,77 (0,42) Terra Brasil 0,18 (0,22) -1,20 (0,46) PSDB 1,52 (0,29) 0,48 (0,43) Agência Brasil -0,96 (0,22) -0,82 (0,49) Geraldo Alckmin PSDB 1,77 (0,31) 0,02 (0,41) Marcelo Tas 0,23 (0,22) 0,74 (0,39) PSDB 1,80 (0,33) 0,59 (0,47) Mônica Bergamo 0,32 (0,28) 1,87 (0,45) Dora Kramer 0,67 (0,25) 1,26 (0,39) Lauro Jardim 1,29 (0,33) 1,55 (0,49) Denise Rothenburg 0,66 (0,31) 1,91 (0,51) Época 0,74 (0,23) -0,87 (0,43) Ancelmo.Com 0,43 (0,21) 0,72 (0,35) Blog do Noblat 0,77 (0,24) 0,72 (0,35) Fantástico 0,59 (0,25) -1,19 (0,45) Globo 0,72 (0,26) -1,17 (0,45) UOL Notícias 0,47 (0,22) -0,82 (0,41) Monica Waldvogel 1,02 (0,29) 1,28 (0,43) Míriam Leitao.com 1,07 (0,25) 0,04 (0,34) Renata Lo Prete 0,85 (0,31) 1,89 (0,49) Eliane Cantanhêde 1,25 (0,31) 1,19 (0,44) Gerson Camarotti 1,07 (0,28) 1,16 (0,42) Andréia Sadi 1,22 (0,30) 1,20 (0,45) MP Federal -0,18 (0,22) -0,92 (0,43) STJ -0,52 (0,23) -1,04 (0,44) CNJ -0,37 (0,21) -0,91 (0,42) Jornal da CBN 0,31 (0,22) 0,26 (0,34) BBC Brasil -0,39 (0,19) -0,41 (0,40) Política Estadão 0,33 (0,21) 0,45 (0,32)

57 Ator político Partido 1ª dimensão 2ª dimensão Henrique E Alves PMDB 0,19 (0,23) 0,67 (0,37) TV Brasil -1,07 (0,21) -0,13 (0,43) William Bonner 0,82 (0,25) -0,68 (0,37) UOL 0,51 (0,24) -0,83 (0,43) Portal R7.com 0,05 (0,24) -1,35 (0,47) Conversa Afiada -2,09 (0,30) 1,30 (0,51) Fernando Rodrigues 0,45 (0,29) 1,84 (0,48) Brasil 247 -1,30 (0,24) 1,03 (0,41) Luis Nassif -1,60 (0,24) 1,07 (0,43) José Simão -0,24 (0,22) 1,11 (0,37) Portal Brasil -1,52 (0,26) -1,09 (0,55) Carta Maior -2,35 (0,31) 0,87 (0,52) Blog Dilma BR -2,40 (0,30) 0,55 (0,52) Vera Magalhães 1,09 (0,30) 1,65 (0,48) O Antagonista 2,32 (0,36) 0,86 (0,54) Rui Falcão PT -1,97 (0,29) 0,76 (0,48) G1 - Política 0,22 (0,21) 0,01 (0,32) Jornal Hoje 0,52 (0,25) -1,28 (0,46) Papa Francisco -0,26 (0,19) 0,43 (0,35) Ministério da Saúde -1,33 (0,27) -1,50 (0,56) Twibbon -1,00 (0,23) 0,81 (0,43) Polícia Federal 0,35 (0,24) -1,30 (0,48) Rádio Senado -0,49 (0,20) -0,42 (0,40) Superinteressante -0,06 (0,23) -1,19 (0,51) TV NBR -1,33 (0,24) -0,82 (0,51) Record TV 0,26 (0,25) -1,20 (0,48) Planejamento.gov.br -1,00 (0,26) -1,40 (0,54) Ipea -0,75 (0,20) -0,07 (0,41) Kennedy Alencar 0,03 (0,23) 1,33 (0,40) Observatório Imprensa -1,10 (0,20) 0,06 (0,39) Suplicy PT -1,93 (0,28) 1,16 (0,48) Cândido Vaccarezza PT -1,65 (0,26) 1,20 (0,45) PT Brasil -2,79 (0,33) 0,83 (0,59) PT -2,32 (0,30) 0,99 (0,47) Manuela D’Ávila PCdoB -1,48 (0,28) 1,61 (0,46) Revista VOTO 0,07 (0,22) 0,57 (0,37)

58 possuem estimativas entre −1 e 1 ou cujos intervalos de credibilidade contêm o valor zero são classificados como de “centro” (na primeira dimensão) e de “independente” (na segunda dimensão). Para a análise do resultado referente aos atores políticos, foi construída a Tabela 5.3, que apresenta a lista dos atores políticos com suas médias e desvios a posteriori. Observa-se que o desvio é maior para a segunda dimensão, indicando que há maior incerteza associada às

estimativas pontuais para os elementos do vetor paramétrico φ2. Além de Manuela D’Ávila, do PCdoB e Alexandre Padilha, do PT (que já foram comentados anteriormente), outro “ator político” classificado como de “esquerda” e de “governo” que se destaca é o blog Conversa Afiada. As suas estimativas pontuais para a primeira e segunda dimensões foram, respectivamente, iguais a: −2, 09 e 1, 30. Ademais, os seus respectivos intervalos de credibilidade foram iguais a (−2, 76; −1, 55) e (0, 35; 2, 33). É interessante notar também que todos os atores políticos filiados ao PT também tiveram suas posições ideológicas estimadas no segundo quadrante. Um resultado não esperado foi o do valor estimado para a segunda dimensão da posição ideológica da ex-presidente da República Dilma Roussef, do PT, com média a posteriori igual a 0, 37 e desvio padrão a posteriori de 0, 40 (ou seja, não significativamente diferente de zero). Uma possível explicação para isso é a de que a escala “oposição-governo” esteja deslocada, de forma que o valor assumido como zero aqui esteja mais próximo do “governo”. O ator político que parece ter um posicionamento de “direita” e de “governo” é Lauro Jardim. Obtiveram-se as seguintes médias a posteriori para a primeira e segunda dimensões: 1, 29 e 1, 55, respectivamente. Além disso, os seus intervalos de credibilidade foram, respectivamente, iguais a (0, 72; 1, 99) e (0, 63; 2, 53). Por outro lado, o Ministério da Saúde aparenta ser de “esquerda” e de “oposição” (embora esta classificação de “oposição” não condiza com o que é esperado). As suas estimativas pontuais para a primeira e segunda dimensões foram, respectivamente, iguais a −1, 33 e −1, 50. Outrossim, os seus respectivos intervalos de credibilidade foram iguais a (−1, 88; −0, 81) e (−2, 63; −0, 53). Por fim, o Jornal Nacional é o “ator político” classificado como de “oposição” que possui a maior média a posteriori no eixo “esquerda-direita”, sendo, portanto, um dos maiores destaques do quarto quadrante. Os valores de suas médias a posteriori para a primeira e segunda dimensões foram, respectivamente, iguais a 0, 98 e −1, 19. Ademais, os seus respectivos intervalos de credibilidade foram iguais a (0, 53; 1, 53) e (−2, 21; −0, 41).

59 5.2 Resultados da primeira dimensão para os deputados fe- derais e senadores

Nesta seção, são apresentados os resultados relativos às estimativas pontuais e intervalares da primeira dimensão para os usuários comuns, que, no contexto desta dissertação, se referem aos deputados federais e senadores. A lista dos partidos políticos a que eles pertencem se encontra, respectivamente, nas Tabelas B.1e B.2 no ApêndiceB. Para a classificação ideológica dos usuários na primeira dimensão, empregou-se o mesmo critério da Seção 5.1. No entanto, para a elaboração dos gráficos que serão mostrados a seguir, empregou-se uma regra diferente. Nesses gráficos são ilustradas as estimativas pela média a posteriori e os intervalos de credibilidade de 95% para os usuários para a primeira dimensão, os quais podem ser observados nas Figuras 5.5, 5.6e 5.7 (referentes aos deputados federais) e na Figura 5.8 (relativa aos senadores). A cor vermelha é referente aos usuários com estimativa pontual inferior a -1; a cor verde, aos usuários com estimativa pontual entre -1 e 1; e a cor azul, aos usuários com estimativa pontual superior a 1. Note que esta representação (meramente ilustrativa) dada a cada usuário não leva em consideração o intervalo de credibilidade, não permitindo identificar, portanto, o posicionamento político de um usuário (“esquerda”, “centro” ou “direita”) apenas pela cor que lhe foi atribuída no gráfico. Dos deputados federais classificados como de “esquerda”, os que possuem as três menores estimativas pontuais são Valmir Assunção, Luiz Sérgio e Valmir Prascidelli, ambos do PT. As suas estimativas pela média a posteriori foram, respectivamente, iguais a: −2, 95, −2, 76 e −2, 64. Os seus intervalos de credibilidade foram, respectivamente, iguais a: (−3, 76; −2, 27), (−3, 71; −1, 91) e (−3, 48; −1, 83). Dentre os deputados federais classificados como de “centro”, aqueles cuja estimativa pontual é aproximadamente igual a zero (com a precisão de duas casas decimais) são Felipe Bornier, do PROS, Keiko Ota, do PSB e Elmar Nascimento, do DEM. Os seus intervalos de credibilidade foram, respectivamente, iguais a: (−0, 84; 0, 84), (−0, 75; 0, 79) e (−0, 71; 0, 83). Dos deputados federais classificados como de “direita”, os que possuem as três maiores estimativas pontuais são Eduardo Cury, do PSDB, Jair Bolsonaro, do PSC (ele está atualmente no PSL e é o presidente da República do Brasil) e Pauderney Avelino, do DEM. As suas estimativas pela média a posteriori foram, respectivamente, iguais a: 2, 57, 1, 74 e 1, 70. Os seus intervalos de credibilidade foram, respectivamente, iguais a: (1, 70; 3, 50), (0, 65; 2, 84) e (1, 06; 2, 35). Dos senadores classificados como de “esquerda”, os que possuem as três menores estimativas pontuais são Ângela Portela, do PDT, e Paulo Rocha, ambos do PT. As suas

60 ● Angelim ● Valadares Filho Jefferson Campos ● Benedita da Silva ● Elizeu Dionizio ● Luciana Santos ● Tereza Cristina ● Pedro Uczai ● Hugo Leal ●

● Nilto Tatto Chico Alencar ●

Paulo Teixeira ● Nelson Marquezelli ●

● Helder Salomao ● Sergio Souza Josue Bengtson ● Fabio Mitidieri ● Expedito Netto ● Wadih Damous ● Moises Diniz ● Maria do Rosario ● Giovani Cherini ●

● Bohn Gass Iracema Portella ●

Leo de Brito ● Elcione Barbalho ●

● Marcon ● Aelton Freitas Alexandre Serfiotis ● Waldenor Pereira ● Wolney Queiroz ● Jhonatan de Jesus ● Cabucu Borges ●

● Vicentinho Paulo Magalhaes ●

Jo Moraes ● Jorge Solla ●

● Padre Joao ● Arlindo Chinaglia Ronaldo Carletto ● Marco Maia ● Beto Salame ● Zeca Dirceu ● Goulart ● Janete Capiberibe ● Ivan Valente ●

● Vicente Candido Cajar Nardes ●

Jose Guimaraes ● Joao Arruda ●

● Pepe Vargas ● Leonardo Quintao Orlando Silva ● Ana Perugini ● Andre Figueiredo ● Afonso Florence ● Alessandro Molon ●

● Enio Verri ●

Deputados Severino Ninho

Uldurico Junior ● Ze Silva ●

● Jose Airton Cirilo ● Herculano Passos Domingos Neto ● Paulo Pimenta ● Weverton Rocha ● Reginaldo Lopes ● Jean Wyllys ● Rubens Otoni ● Edmilson Rodrigues ●

● Decio Lima Jandira Feghali ●

Beto Faro ● Daniel Almeida ●

● Luiz Couto ● Assis Melo Paulao ● Luizianne Lins ● Carlos Gomes ● Margarida Salomao ● Hildo Rocha ●

● Jose Mentor Geraldo Resende ●

Josias Gomes ● Erika Kokay ●

● Adelmo Carneiro Leao ● Junior Marreca Odorico Monteiro ● Assis Carvalho ● Jose Stedile ● Saguas Moraes ● Lucas Vergilio ● Zeca do PT ● Carlos Zarattini ●

● Vander Loubet Chico Dangelo ●

Nelson Pellegrino ● Luiza Erundina ●

● Alice Portugal Joao Daniel ● Leonardo Monteiro ● Givaldo Vieira ● Valmir Prascidelli ● Ze Carlos ● Luiz Sergio ● Henrique Fontana ●

● Valmir Assuncao Weliton Prado ● −3 −2 −1 0 −2 −1 0 1 Orientação política Orientação política

Figura 5.5: Médias a posteriori e intervalos de credibilidade de 95% para os deputados federais para a primeira dimensão (continua).

61 Celso Pansera ● Roberto de Lucena ●

Valdir Colatto ● Fabio Faria ●

Arnaldo Jordy ● Danilo Forte ●

Walter Alves ● Edmar Arruda ●

Waldir Maranhao ● Jeronimo Goergen ●

Marinaldo Rosendo ●

● Julio Cesar ● Julio Lopes

● Pollyana Gama

● Josi Nunes ● Augusto Coutinho

● Eduardo Barbosa ● Marcos Reategui

● Hissa Abrahão ● Paulo Azi

● Paulo Freire ● Adilton Sachetti

● Rubens Pereira Junior ● Delegado Eder Mauro

● Jovair Arantes ● Arthur Oliveira Maia

● Arolde de Oliveira ● Wilson Filho

● Leônidas Cristino ● Bebeto

● Genecias Noronha ● Flavinho Conceicao Sampaio ● Joao Marcelo Souza ● Toninho Wandscheer ● Elmar Nascimento ● Christiane de Souza Yared ● Felipe Bornier ● ● Keiko Ota ● Lelo Coimbra ● Abel Mesquita Jr ● Antonio Imbassahy ● Carlos Eduardo Cadoca ● Marco Tebaldi ● Carlos Henrique Gaguim ● Carlos Bezerra ● Nelson Padovani ● Antonio Jacome ● Augusto Carvalho ● Veneziano Vital do Rego ● Evandro Gussi ● Alex Manente ● Romulo Gouveia ● Atila Lira ● Laercio Oliveira ● Marcelo Alvaro Antonio ● Joao Rodrigues ● Guilherme Mussi ● Andre Amaral ● Jony Marcos ● ●

Deputados Heitor Schuch ● Roberto Goes ● Alexandre Leite ● Beto Rosado ● Altineu Cortes ● Bruna Furlan ● Roberto Balestra ● ● Marcelo Aguiar ● Dulce Miranda ● Alex Canziani ● Carlos Andrade ● Luciano Ducci ● Dr. Jorge Silva ● Laudivio Carvalho ● Professora Dorinha Seabra Rezende ● Eliziane Gama ● Rogerio Peninha Mendonca ● Celso Russomanno ● Ze Augusto Nalin ● Jhc ●

● Rafael Motta Renato Andrade ●

● Rodrigo Pacheco Arnaldo Faria de Sa ●

● Iraja Abreu Pedro Paulo ●

● Luiz Fernando Faria Joao Paulo Kleinübing ●

● Diego Garcia Givaldo Carimbao ●

● Afonso Hamm Glauber Braga ●

● Maria Helena Evair Vieira de Melo ●

● Wladimir Costa Celso Jacob ●

● Paulo Feijo Thiago Peixoto ●

● Alexandre Valle Aliel Machado ●

● Marcus Vicente Stefano Aguiar ●

Jorginho Mello ● Pompeo de Mattos ●

Jaime Martins ● Luiz Lauro Filho ●

Paulo Foletto ● Joao Carlos Bacelar Filho ●

Simone Morgado ● Fabio Reis ●

Tenente Lucio ● Andre Moura ●

Moses Rodrigues ● Vicentinho Junior ● −1 0 1 −1 0 1 2 Orientação política Orientação política

Figura 5.6: Médias a posteriori e intervalos de credibilidade de 95% para os deputados federais para a primeira dimensão (continuação).

62 ● Rodrigo Martins Eduardo Cury ● Lucio Vieira Lima ● Jair Bolsonaro ● Soraya Santos ●

● Antonio Carlos Mendes Thame Pauderney Avelino ● Delegado Francischini ● Roberto Freire ● Rodrigo Maia ●

Delegado Waldir ● Sheridan ●

Afonso Motta ● Yeda Crusius ● Vitor Lippi ●

● Reinhold Stephanes ● Luiz Nishimori

● Bonifacio de Andrada Carlos Sampaio ● Sandro Alex ● Pedro Cunha Lima ● Mauro Mariani ●

Sostenes Cavalcante ● Carlos Melles ● Covatti Filho ● Fabio Sousa ● Daniel Vilela ●

Hugo Motta ● Ezequiel Teixeira ●

Paulo Abi−Ackel ● Marcos Montes ● Marcos Abrao ●

● Joao Campos

● Geovania de Sa Alexandre Baldy ● Jose Priante ● Daniel Coelho ● Laura Carneiro ●

Heraclito Fortes ● Nilson Leitao ● Caio Narcio ● Rodrigo de Castro ● Luzia Ferreira ●

Paulo Pereira da Silva ● Rubens Bueno ●

Alberto Fraga ● Baleia Rossi ● Pedro Fernandes ●

● Joao Fernando Coutinho ● Hiran Goncalves

● Juscelino Filho Onyx Lorenzoni ● Ricardo Izar ● ●

Deputados Betinho Gomes Evandro Roman ●

Eduardo Bolsonaro ● Joao Paulo Papa ● Cesar Halum ● Danilo Cabral ● Lobbe Neto ●

Damina Pereira ● Rogerio Marinho ●

Francisco Chapadinha ● Vanderlei Macris ● Alceu Moreira ●

● Rogerio Rosso ● Felipe Maia

● Raimundo Gomes de Matos Laerte Bessa ● Marcelo Aro ● Darcisio Perondi ● Giuseppe Vecci ●

Remidio Monai ● Benito Gama ● Paulo Maluf ● Osmar Bertoldi ● Renzo Braz ●

Marcos Rogerio ● Beto Mansur ●

Joao Derly ● Pedro Chaves ● Maia Filho ●

● Luiz Carlos Ramos ● Cristiane Brasil

Alfredo Kaefer ● Marcus Pestana ● Milton Monti ● Eros Biondini ●

Andre Fufuca ● Pr. Marco Feliciano ●

Antonio Bulhões ● Giacobo ● Mariana Carvalho ●

● Sergio Zveiter ● Efraim Filho

Caca Leao ● Delegado Edson Moreira ● Tiririca ●

● Newton Cardoso Jr ● Otavio Leite −1 0 1 2 0 1 2 3 Orientação política Orientação política

Figura 5.7: Médias a posteriori e intervalos de credibilidade de 95% para os deputados federais para a primeira dimensão (conclusão).

63 Antonio Anastasia ● Aécio Neves ● Magno Malta ● José Agripino ● Ricardo Ferraço ● ● Tasso Jereissati ● ● José Serra ● Ronaldo Caiado ● Airton Sandoval ● Pedro Chaves ● Wilder Morais ● ● Kátia Abreu ● Paulo Bauer ● Garibaldi Alves Filho ● Flexa Ribeiro ● Gladson Cameli ● ● José Medeiros ● Eunício Oliveira ● Reguffe ● Dário Berger ● Valdir Raupp ● ● Cássio Cunha Lima ● Ciro Nogueira ● José Maranhão ● Telmário Mota ● Ana Amélia ● Eduardo Amorim ● ● Vicentinho Alves ● Cristovam Buarque ● Antonio Carlos Valadares ● Senadores ● Eduardo Lopes ● Romário ● Hélio José ● João Capiberibe ● ● Lúcia Vânia ● Romero Jucá ● Sérgio Petecão ● Armando Monteiro ● Cidinho Santos ● ● Vanessa Grazziotin ● ● Jorge Viana ● Ataídes Oliveira ● ● Fernando Collor ● ● Regina Sousa ● Lídice da Mata ● Zeze Perrella ● Elmano Férrer ● Lindbergh Farias ● Raimundo Lira ● José Pimentel ● ● Roberto Requião ● Fátima Bezerra ● ● Paulo Rocha ● Humberto Costa ● Ângela Portela ● −2 0 2 Orientação política

Figura 5.8: Médias a posteriori e intervalos de credibilidade de 95% para os senadores para a primeira dimensão.

64 estimativas pela média a posteriori foram, respectivamente, iguais a: −2, 54, −2, 14 e −1, 85. Os seus intervalos de credibilidade foram, respectivamente, iguais a: (−3, 43; −1, 69), (−2, 78; −1, 51) e (−2, 50; −1, 30). Dentre os senadores classificados como de “centro”, os três cuja estimativa pontual é mais próxima de zero são Antônio Carlos Valadares, do PSB, Davi Alcolumbre, do DEM e Eduardo Lopes, do PRB. As suas estimativas pela média a posteriori foram, respectivamente, iguais a: −0, 02, −0, 03 e −0, 04. Os seus intervalos de credibilidade foram, respectivamente, iguais a: (−0, 44; 0, 52), (−0, 56; 0, 50) e (−0, 63; 0, 55). Dos senadores classificados como de “direita”, os que possuem as três maiores estimativas pontuais são Antonio Anastasia e Aécio Neves, ambos do PSDB, e Magno Malta, do PR. As suas estimativas pela média a posteriori foram, respectivamente, iguais a: 1, 95, 1, 92 e 1, 64. Os seus intervalos de credibilidade foram, respectivamente, iguais a: (0, 84; 3, 14), (0, 35; 3, 26) e (0, 70; 2, 59). Observa-se também que senadores como Aécio Neves, do PSDB, Wilder Morais, do PP e Simone Tebet, do PMDB possuem largos intervalos de credibilidade. Isso ocorre porque eles seguem no Twitter poucos atores políticos da lista da Tabela 5.3. Em geral, os resultados relativos à primeira dimensão são próximos aos obtidos com uma única dimensão (Souza, 2017). Entretanto, houve algumas modificações significativas obtidas com a inclusão da segunda dimensão. Por exemplo, a posição ideológica da deputada federal Damina Pereira, do PSL, teve sua média a posteriori igual a 0, 42 no trabalho de Souza(2017) e nesta dissertação de mestrado, a estimativa obtida na primeira dimensão da sua posição ideológica foi igual a 0, 63. Além disso, será visto mais à frente que o PSL tem uma posição mais destacante na primeira dimensão em relação ao trabalho de Souza(2017), ficando mais à direita da escala referente à primeira dimensão e mais próximo do PSDB nesta dimensão.

5.3 Resultados da segunda dimensão para os deputados fede- rais e senadores

Nesta seção, são apresentados os resultados relativos às estimativas pontuais e intervalares da segunda dimensão. Nesses gráficos, são ilustradas as estimativas pela média a posteriori e os intervalos de credibilidade de 95% para os usuários para a segunda dimensão, os quais podem ser observados nas Figuras 5.9, 5.10e 5.11 (referentes aos deputados federais) e na Figura 5.12 (relativa aos senadores). A cor azul é referente aos usuários com estimativa pontual inferior a -1; a cor verde, aos usuários com estimativa pontual entre -1 e 1; e a cor vermelha, aos usuários com

65 Joao Daniel ● Herculano Passos ● Arolde de Oliveira ●

Raimundo Gomes de Matos ● Aelton Freitas ● Evandro Gussi ●

● Rodrigo Pacheco Alexandre Valle ● Josi Nunes ● Christiane de Souza Yared ● Jaime Martins ●

Hildo Rocha ● Vicente Candido ● Vanderlei Macris ● ● Newton Cardoso Jr Vitor Lippi ● Bebeto ● Edmar Arruda ● Jose Stedile ●

Roberto Balestra ● Ronaldo Fonseca ● Flavinho ● ● Dr. Jorge Silva Beto Rosado ● Wladimir Costa ● Moses Rodrigues ● Carlos Henrique Gaguim ●

Marcos Rogerio ● Geovania de Sa ● Izalci Lucas ● Goulart ● Keiko Ota ● Reinhold Stephanes ● Jose Airton Cirilo ● Joao Paulo Papa ● Jony Marcos ● Marco Tebaldi ● Geraldo Resende ● Alexandre Serfiotis ● Marcos Reategui ● Stefano Aguiar ● Atila Lira ● Joao Marcelo Souza ● Simone Morgado ● Marcus Vicente ● Joao Derly ● Maria Helena ● Paulo Freire ● Delegado Waldir ● Delegado Edson Moreira ● Pedro Fernandes ● Evandro Roman ● Arlindo Chinaglia ● Paulo Abi−Ackel ● Luiz Fernando Faria ● Luiz Lauro Filho ● Deputados Lucas Vergilio ● Lobbe Neto ● Heitor Schuch ● Jose Priante ● Renato Andrade ● Betinho Gomes ● Junior Marreca ● Abel Mesquita Jr ● Professora Dorinha Seabra Rezende ● Diego Garcia ● Altineu Cortes ● Roberto de Lucena ● Joao Rodrigues ● Roberto Goes ● Cabucu Borges ● Paulo Feijo ● Pollyana Gama ● Carlos Andrade ● Pr. Marco Feliciano ● Mariana Carvalho ● Eduardo Bolsonaro ● Laudivio Carvalho ● Damina Pereira ● Francisco Chapadinha ●

● Renzo Braz ● Celso Jacob Givaldo Carimbao ● Conceicao Sampaio ● Weliton Prado ● Adilton Sachetti ● Arnaldo Faria de Sa ● Marinaldo Rosendo ●

● Andre Fufuca ● Romulo Gouveia Luis Carlos Heinze ● Expedito Netto ● Remidio Monai ● Eduardo Barbosa ● Ze Augusto Nalin ● Glauber Braga ●

● Elizeu Dionizio ● Alexandre Leite Vander Loubet ● Joao Paulo Kleinübing ● Carlos Gomes ● Afonso Hamm ● Delegado Eder Mauro ● Toninho Wandscheer ● −3 −2 −1 0 −3 −2 −1 0 1 Orientação política Orientação política

Figura 5.9: Médias a posteriori e intervalos de credibilidade de 95% para os deputados federais para a segunda dimensão (continua).

66 Bohn Gass ● Ricardo Izar ● Benito Gama ● Rogerio Marinho ● Cajar Nardes ● Luiz Carlos Ramos ● Rubens Bueno ● Marcelo Aro ● Ana Perugini ● Hugo Leal ● Leonardo Quintao ● Ronaldo Carletto ● Joao Arruda ● Marcelo Castro ● Alfredo Kaefer ● Elmar Nascimento ● Ezequiel Teixeira ● Antonio Carlos Mendes Thame ● Julio Lopes ● Alex Manente ● Afonso Motta ● Alice Portugal ● Tenente Lucio ● Maria do Rosario ● Sergio Souza ● Rubens Otoni ● Valdir Colatto ● Alex Canziani ● Edmilson Rodrigues ● Luiza Erundina ● Waldir Maranhao ● Lelo Coimbra ● Leonardo Monteiro ● Patrus Ananias ● Angelim ● Tereza Cristina ● Marcos Abrao ● Luciano Ducci ● Luiz Nishimori ● Efraim Filho ● Maia Filho ● Pedro Paulo ● Felipe Bornier ● Valadares Filho ● Assis Melo ● Hugo Motta ● Sostenes Cavalcante ● Leo de Brito ● Nelson Padovani ● Jefferson Campos ● Padre Joao ● Alberto Fraga ● Sheridan ● Paulo Magalhaes ● Paulo Foletto ● Wilson Filho ● Ronaldo Nogueira ● Andre Amaral ● Genecias Noronha ● Assis Carvalho ● Afonso Florence ● Paulo Maluf ● Moises Diniz ● Alexandre Baldy ● Josue Bengtson ● Jair Bolsonaro ● Onyx Lorenzoni ● Saguas Moraes ● Joao Campos ● Evair Vieira de Melo ● Deputados Pedro Cunha Lima ● Mara Gabrilli ● Rodrigo de Castro ● Margarida Salomao ● Laercio Oliveira ● Marcos Montes ● Heraclito Fortes ● Fabio Mitidieri ● Dulce Miranda ● Ze Silva ● Eliziane Gama ● Iracema Portella ● Ze Carlos ● Eros Biondini ● Givaldo Vieira ● Adelmo Carneiro Leao ● Jean Wyllys ● Jorginho Mello ● Janete Capiberibe ● Carlos Melles ● Paulo Azi ● Orlando Silva ● Luiz Couto ● Antonio Bulhões ● Jhc ● Carlos Eduardo Cadoca ● Marcon ● Pedro Chaves ● Laerte Bessa ● Danilo Forte ● Augusto Carvalho ● Osmar Bertoldi ● Odorico Monteiro ● Cristiane Brasil ● Alceu Moreira ● Veneziano Vital do Rego ● Carlos Sampaio ● Rogerio Peninha Mendonca ● Arnaldo Jordy ● Nelson Marquezelli ● Paulao ● Weverton Rocha ● Celso Russomanno ● Caca Leao ● Uldurico Junior ● Julio Cesar ● Andre Figueiredo ● Josias Gomes ● Nilto Tatto ● Bruna Furlan ● Sergio Zveiter ● Hiran Goncalves ● Valmir Assuncao ● Marcelo Aguiar ● Fabio Faria ● Beto Salame ● Daniel Almeida ● Soraya Santos ● Juscelino Filho ● Marcelo Alvaro Antonio ● −2 −1 0 1 2 −1 0 1 2 Orientação política Orientação política

Figura 5.10: Médias a posteriori e intervalos de credibilidade de 95% para os deputados federais para a segunda dimensão (continuação).

67 Jose Mentor ● ● Beto Faro ● Milton Monti Delegado Francischini ● Antonio Imbassahy ● Rubens Pereira Junior ● Darcisio Perondi ●

Helder Salomao ● Alessandro Molon ● Bonifacio de Andrada ●

● Wolney Queiroz Roberto Freire ● Joao Carlos Bacelar Filho ● Caio Narcio ● Giacobo ● Tiririca ● Hissa Abrahão ● Marcus Pestana ● Reginaldo Lopes ● Jandira Feghali ●

● Carlos Zarattini ● Wadih Damous Sandro Alex ●

Rodrigo Maia ● Laura Carneiro ● Danilo Cabral ●

● Luciana Santos Paulo Pimenta ● Jo Moraes ● Zeca do PT ● Jovair Arantes ● Leônidas Cristino ● Thiago Peixoto ● Paulo Pereira da Silva ● Vicentinho Junior ● Joao Fernando Coutinho ●

● Nelson Pellegrino ● Marco Maia Fabio Reis ● Enio Verri ● Guilherme Mussi ● Nilson Leitao ●

● Chico Dangelo Aliel Machado ● Augusto Coutinho ● Henrique Fontana ● Lucio Vieira Lima ● Luiz Sergio ● Celso Pansera ● Giuseppe Vecci ● Pepe Vargas ●

● Deputados Baleia Rossi

● Antonio Jacome ● Eduardo Cury Vicentinho ● Leonardo Picciani ● Otavio Leite ● Luizianne Lins ●

● Walter Alves Arthur Oliveira Maia ● Fabio Sousa ● Giovani Cherini ● Cesar Halum ● Erika Kokay ● Felipe Maia ● Chico Alencar ● Waldenor Pereira ● Jhonatan de Jesus ●

● Severino Ninho ● Benedita da Silva Rogerio Rosso ● Mauro Mariani ● Jeronimo Goergen ● Yeda Crusius ●

● Valmir Prascidelli Luzia Ferreira ● Ivan Valente ● Rafael Motta ● Daniel Coelho ● Iraja Abreu ● Covatti Filho ● Pedro Uczai ● Andre Moura ● Domingos Neto ● ● Decio Lima ● Pompeo de Mattos Elcione Barbalho ● Jorge Solla ● Carlos Bezerra ● Jose Guimaraes ●

Paulo Teixeira ● Zeca Dirceu ● Rodrigo Martins ●

● Beto Mansur Daniel Vilela ● Pauderney Avelino ● −1 0 1 2 0 1 2 3 Orientação política Orientação política

Figura 5.11: Médias a posteriori e intervalos de credibilidade de 95% para os deputados federais para a segunda dimensão (conclusão).

68 Roberto Requião ● Cristovam Buarque ● Ciro Nogueira ● Renan Calheiros ● Antonio Anastasia ● Randolfe Rodrigues ● Wilder Morais ● Vanessa Grazziotin ● Jorge Viana ● Reguffe ● Ronaldo Caiado ● Ângela Portela ● Ataídes Oliveira ● José Agripino ● Cássio Cunha Lima ● Marta Suplicy ● Fátima Bezerra ● Lindbergh Farias ● Vicentinho Alves ● Lasier Martins ● Kátia Abreu ● Lúcia Vânia ● Romero Jucá ● Romário ● Acir Gurgacz ● João Capiberibe ● José Pimentel ● José Serra ● Jader Barbalho ● Ana Amélia ● Eunício Oliveira ● Wellington Fagundes ● Roberto Rocha ● Magno Malta ● Paulo Paim ● Lídice da Mata ● Fernando Collor ● Cidinho Santos ● Senadores Aécio Neves ● Simone Tebet ● Telmário Mota ● Airton Sandoval ● Antonio Carlos Valadares ● Flexa Ribeiro ● Humberto Costa ● Ricardo Ferraço ● Alvaro Dias ● Gladson Cameli ● Rose de Freitas ● Eduardo Braga ● Regina Sousa ● Sérgio Petecão ● Tasso Jereissati ● Hélio José ● Eduardo Amorim ● Gleisi Hoffmann ● José Medeiros ● Elmano Férrer ● Eduardo Lopes ● Valdir Raupp ● Paulo Bauer ● Paulo Rocha ● Otto Alencar ● Zeze Perrella ● Armando Monteiro ● Garibaldi Alves Filho ● Pedro Chaves ● Raimundo Lira ● Davi Alcolumbre ● Dário Berger ● José Maranhão ● −2 0 2 Orientação política

Figura 5.12: Médias a posteriori e intervalos de credibilidade de 95% para os senadores para a segunda dimensão.

69 estimativa pontual superior a 1. Similarmente à Seção 5.2, é relevante fazer a ressalva de que esta representação dada a cada usuário não leva em consideração o intervalo de credibilidade. Não se pode determinar, portanto, o posicionamento político de um usuário (“oposição”, “independente” ou “governo”) apenas pela cor que lhe foi atribuída no gráfico. Dos deputados federais classificados como de “oposição”, os que possuem as três menores estimativas pontuais são Delegado Éder Mauro, do PSD, João Paulo Kleinübing, do DEM e Elizeu Dionizio, do PSDB (ele está atualmente no PSB). As suas estimativas pela média a posteriori foram, respectivamente, iguais a: −2, 71, −2, 65 e −2, 45. Os seus intervalos de credibilidade foram, respectivamente, iguais a: (−3, 76; −1, 73), (−3, 69; −1, 66) e (−3, 38; −1, 63). Dentre os deputados federais classificados como “independente”, aqueles cuja estimativa pontual é aproximadamente igual a zero (com a precisão de duas casas decimais) são Marcelo Álvaro Antônio, do PR (ele atualmente está no PSL) e Bohn Gass, do PT. Os seus intervalos de credibilidade foram, respectivamente, iguais a: (−1, 40; 1, 23) e (−0, 96; 0, 89). Dos deputados federais classificados como pró-governo, os que possuem as três maiores estimativas pontuais são Milton Monti, do PR, Rubens Pereira Júnior, do PCdoB e Alessandro Molon, da REDE. As suas estimativas pela média a posteriori foram, respectivamente, iguais a: 2, 62, 2, 00 e 1, 91. Os seus intervalos de credibilidade foram, respectivamente, iguais a: (1, 62; 3, 56), (0, 96; 3, 07) e (1, 09; 2, 81). Dos senadores classificados como de “oposição”, os que possuem as três menores estimativas pontuais são José Maranhão e Dário Berger, ambos do PMDB (atualmente este partido se chama MDB) e Davi Alcolumbre, do DEM. As suas estimativas pela média a posteriori foram, respectivamente, iguais a: −1, 58, −1, 37 e −1, 31. Os seus intervalos de credibilidade foram, respectivamente, iguais a: (−2, 47; −0, 73), (−2, 16; −0, 59) e (−2, 09; −0, 52). Dentre os senadores classificados como “independente”, aqueles cuja estimativa pontual é aproximadamente igual a zero (com a precisão de duas casas decimais) são Álvaro Dias, do PODE e Gladson Cameli, do PP. Os seus intervalos de credibilidade foram, respectivamente, iguais a: (−0, 95; 0, 86) e (−0, 86; 0, 93). Dos senadores classificados como pró-governo, os que possuem as três maiores estimativas pontuais são Roberto Requião, do PMDB (atualmente este partido se chama MDB), Cristovam Buarque, do PPS e Ciro Nogueira, do PP. As suas estimativas pela média a posteriori foram, respectivamente, iguais a: 2, 40, 2, 07 e 1, 96. Os seus intervalos de credibilidade foram, respectivamente, iguais a: (1, 39; 3, 45), (1, 31; 2, 88) e (1, 02; 2, 85).

70 5.4 Resultados para os partidos

Nesta seção, são apresentados os resultados relativos às estimativas pontuais e intervalares para os partidos. Construiu-se, então, um gráfico com as médias a posteriori4 dos usuários (senadores e deputados federais) por partido, o qual pode ser observado na Figura 5.13, e uma tabela com os valores das estimativas pela média a posteriori e seus intervalos de credibilidade de 95% (Tabela 5.4). Partidos como no caso de PEN (atualmente este partido se chama Patriota), PMB e PTC, que possuem apenas um usuário (conforme Tabela B.3), podem sofrer distorções no gráfico, pois os pontos de seus usuários podem ter peso desproporcional. No ApêndiceB, se 1.5

REDE 1.0

PCdoB PPS 0.5 PDT PT PTC PSOL PR PODE SD PSDB

0.0 DEM PSBPMDB PRBPPPTB

PSC PV PROS

Oposição−Governo PSD −0.5

PMB PHS PSL −1.0

Partido com apenas 1 usuário PEN Partido com mais de 1 usuário −1.5

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

Esquerda−Direita

Figura 5.13: Gráfico das médias a posteriori dos usuários (senadores e deputados federais), associados aos elementos da matriz de parâmetros Θ.

4Seria possível também utilizar a mediana a posteriori ou a moda a posteriori.

71 encontra a Tabela B.3, que apresenta o número de usuários que são deputados federais, senadores e o total por partido.

Tabela 5.4: Médias a posteriori e intervalos de credibilidade para os usuários (senadores e deputados federais), associados aos elementos da matriz de parâmetros Θ.

1ª dimensão 2ª dimensão Partido Média IC de 95% Média IC de 95% DEM 0,74 (0,57;0,92) -0,05 (-0,33;0,22) PCdoB -0,70 (-0,94;-0,46) 0,56 (0,24;0,87) PDT -0,35 (-0,54;-0,11) 0,38 (0,10;0,69) PEN -0,88 (-1,74;0,05) -1,43 (-2,80;-0,06) PHS 0,07 (-0,30;0,45) -0,95 (-1,40;-0,52) PMB -1,00 (-1,76;-0,25) -0,93 (-2,08;0,10) PMDB 0,17 (0,03;0,31) -0,07 (-0,23;0,09) PODE 0,69 (0,42;0,96) 0,05 (-0,41;0,51) PP 0,30 (0,14;0,47) -0,17 (-0,37;0,06) PPS 0,61 (0,36;0,84) 0,49 (0,15;0,80) PR 0,37 (0,15;0,57) 0,09 (-0,24;0,37) PRB 0,22 (-0,06;0,51) -0,13 (-0,57;0,27) PROS 0,35 (-0,01;0,70) -0,38 (-0,93;0,12) PSB 0,04 (-0,12;0,19) -0,11 (-0,31;0,09) PSC 0,63 (0,30;0,96) -0,34 (-0,80;0,07) PSD 0,10 (-0,09;0,30) -0,48 (-0,68;-0,27) PSDB 0,86 (0,71;1,01) 0,00 (-0,27;0,29) PSL 0,84 (0,36;1,32) -0,97 (-1,57;-0,36) PSOL -0,52 (-0,78;-0,26) 0,11 (-0,29;0,51) PT -1,48 (-1,65;-1,32) 0,31 (-0,10;0,74) PTB 0,31 (0,10;0,51) -0,13 (-0,46;0,17) PTC -0,54 (-1,02;-0,04) 0,19 (-0,61;1,02) PV 0,02 (-0,40;0,40) -0,38 (-0,95;0,15) REDE 0,04 (-0,34;0,38) 1,01 (0,57;1,45) SD 0,05 (-0,20;0,28) 0,02 (-0,35;0,37)

Para a classificação ideológica dos partidos, será adotado um critério mais brando do que foi feito para os usuários (senadores e deputados federais), por se tratar de um valor agregado de seus componentes, reduzindo assim a variabilidade entre os partidos. Partidos com estimativas

72 pontuais superiores a 0, 80 e cujos intervalos de credibilidade não incluem o valor zero são classificados como de “direita” (na primeira dimensão) e de “governo” (na segunda dimensão). Partidos com estimativas inferiores a −0, 80 e cujos intervalos de credibilidade não incluem o valor zero são classificados como de “esquerda” (na primeira dimensão) e de “oposição” (na segunda dimensão). Por fim, partidos que possuem estimativas entre −0, 80 e 0, 80 ou cujos intervalos de credibilidade contêm o valor zero são classificados como de “centro” (na primeira dimensão) e de “independente” (na segunda dimensão). Quanto à primeira dimensão, observa-se, portanto, pela Figura 5.13 e pela Tabela 5.4, que o PT e o PMB podem ser classificados como partido de “esquerda” (como mencionado anteriormente, pode haver, neste último caso, uma certa distorção no gráfico pelo fato de este partido ter apenas um usuário). PSDB e PSL podem ser classificados como de “direita”. Dos partidos de “centro”, destaca-se o PV, que se posiciona no meio da escala referente ao eixo das 1.5 1.0 REDE

PCdoB 0.5 PT PDT PPS PSOL SD PR

0.0 PODE PMDBPRBPTB DEMPSDB PSB PSC

PV PP PROS Oposição−Governo PSD −0.5

PMB PHS PSL −1.0

Partido com apenas 1 usuário PEN Partido com mais de 1 usuário −1.5

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

Esquerda−Direita

Figura 5.14: Gráfico das médias a posteriori dos deputados federais.

73 abscissas. No que diz respeito à segunda dimensão, a REDE pode ser considerada um partido pró-governo (embora este partido não tenha apoiado o governo de Dilma Rousseff nem o governo de Michel Temer) e o PHS, o PSL e o PEN (atualmente este partido se chama Patriota), como partidos de “oposição” (como mencionado anteriormente, pode haver, neste último caso, uma certa distorção no gráfico pelo fato de este partido ter apenas um usuário). Construíram-se também gráficos com as médias a posteriori por partido para deputados federais (Figura 5.14) e para senadores (Figura 5.15) e tabelas com os valores das estimativas pela média a posteriori e

Tabela 5.5: Médias a posteriori e intervalos de credibilidade para os deputados federais.

1ª dimensão 2ª dimensão Partido Média IC de 95% Média IC de 95% DEM 0,73 (0,54;0,92) -0,10 (-0,39;0,18) PCdoB -0,75 (-0,99;-0,52) 0,47 (0,11;0,80) PDT -0,09 (-0,29;0,15) 0,27 (-0,02;0,58) PEN -0,88 (-1,74;0,05) -1,43 (-2,80;-0,06) PHS 0,07 (-0,30;0,45) -0,95 (-1,40;-0,52) PMB -1,00 (-1,76;-0,25) -0,93 (-2,08;0,10) PMDB 0,21 (0,05;0,35) -0,10 (-0,29;0,09) PODE 0,69 (0,38;1,02) -0,04 (-0,55;0,47) PP 0,25 (0,09;0,45) -0,37 (-0,59;-0,15) PPS 0,66 (0,41;0,90) 0,31 (-0,04;0,65) PR 0,36 (0,12;0,59) 0,02 (-0,33;0,34) PRB 0,25 (-0,07;0,58) -0,07 (-0,55;0,37) PROS 0,35 (-0,01;0,70) -0,38 (-0,93;0,12) PSB 0,04 (-0,14;0,22) -0,21 (-0,42;0,02) PSC 0,56 (0,21;0,92) -0,21 (-0,70;0,27) PSD 0,09 (-0,13;0,30) -0,53 (-0,76;-0,29) PSDB 0,83 (0,67;0,99) -0,09 (-0,36;0,20) PSL 0,84 (0,36;1,32) -0,97 (-1,57;-0,36) PSOL -0,52 (-0,78;-0,26) 0,11 (-0,29;0,51) PT -1,51 (-1,68;-1,34) 0,32 (-0,07;0,75) PTB 0,36 (0,14;0,59) -0,09 (-0,42;0,25) PV 0,02 (-0,40;0,40) -0,38 (-0,95;0,15) REDE 0,01 (-0,36;0,39) 0,84 (0,29;1,35) SD 0,05 (-0,20;0,28) 0,02 (-0,35;0,37)

74 seus intervalos de credibilidade de 95% (Tabelas 5.5e 5.6). Verifica-se, pela Figura 5.14 e pela Tabela 5.5, que todos os posicionamentos políticos dos partidos (identificados anteriormente) são mantidos quando se analisa conjuntamente apenas os deputados federais. Realizando-se uma análise conjunta dos senadores, observa-se que, em média, os integrantes do partido PDT no Senado têm um posicionamento de “esquerda” e de apoio ao governo. O PSC é classificado como de “direita” e de “oposição” (como mencionado anteriormente, pode haver neste último caso uma certa distorção no gráfico pelo fato de este partido ter apenas um usuário). O DEM parece se aproximar mais do PSDB e se distanciar dos partidos de “centro”,

PPS 2.0

REDE 1.5 PCdoB

PP 1.0 PDT

0.5 PR PSB PODE PT PSDB PTC DEM PMDB 0.0 PSD PTB Oposição−Governo

−0.5 PRB

−1.0 PSC −1.5 Partido com apenas 1 usuário Partido com mais de 1 usuário −2.0

−2.0 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 2.0

Esquerda−Direita

Figura 5.15: Gráfico das médias a posteriori dos senadores.

sendo classificado como de “direita”. O PT e o PSDB se mantêm como sendo de “esquerda” e de “direita”, respectivamente. Partidos como PCdoB é classificado como de “governo” e PPS e REDE também são classificados como de “governo” (embora nenhum destes partidos

75 tenha apoiado o governo de Dilma Rousseff). Por fim, o PP, que apesar de ter uma “oposição” moderada ao governo ao considerar os deputados federais, é posicionado como de “governo” no Senado. Além disso, verifica-se que, em geral, as estimativas pontuais associadas aos partidos somente levando em conta os senadores possuem intervalos de credibilidade mais largos e, por conseguinte, maior incerteza. Isso ocorre porque a maioria dos partidos têm mais deputados federais do que senadores (vide Tabela B.3). Por fim, é interessante notar que, com os pontos de corte utilizados — de −0, 80 e 0, 80 —, citados anteriormente, partidos considerados como de “esquerda”, “direita”, “oposição” e “governo” na análise geral mantiveram sua classificação na análise desagregada (seja considerando apenas os senadores, seja levando em conta somente os deputados federais).

Tabela 5.6: Médias a posteriori e intervalos de credibilidade para os senadores.

1ª dimensão 2ª dimensão Partido Média IC de 95% Média IC de 95% DEM 0,85 (0,52;1,22) 0,23 (-0,31;0,75) PCdoB -0,24 (-0,87;0,32) 1,32 (0,53;2,17) PDT -1,52 (-2,05;-0,99) 0,84 (0,04;1,64) PMDB 0,09 (-0,12;0,29) -0,01 (-0,29;0,26) PODE 0,68 (0,17;1,18) 0,34 (-0,45;1,11) PP 0,55 (0,02;1,14) 0,98 (0,37;1,57) PPS 0,12 (-0,57;0,80) 2,07 (1,31;2,88) PR 0,43 (0,07;0,78) 0,40 (-0,10;0,90) PRB -0,04 (-0,63;0,55) -0,60 (-1,40;0,24) PSB 0,03 (-0,23;0,30) 0,39 (0,02;0,73) PSC 1,02 (0,39;1,71) -1,10 (-1,97;-0,26) PSD 0,17 (-0,15;0,50) -0,19 (-0,62;0,26) PSDB 0,95 (0,66;1,25) 0,28 (-0,13;0,70) PT -1,27 (-1,53;-1,03) 0,26 (-0,22;0,76) PTB 0,05 (-0,32;0,39) -0,38 (-1,00;0,19) PTC -0,54 (-1,02;-0,04) 0,19 (-0,61;1,02) REDE 0,13 (-0,46;0,72) 1,50 (0,73;2,32)

Alguns resultados encontrados, entretanto, não condizem com o que é esperado. É importante frisar que, como mencionado anteriormente, a interpretação da primeira dimensão do espaço latente como “esquerda-direita” e da segunda dimensão como “oposição-governo” não é

76 necessariamente precisa. Os indícios de que interpretar os eixos desta forma não seria apropriado são os seguintes: a classificação de “oposição” para o Ministério da Saúde. O mesmo é observado para o “ator político” A Voz do Brasil. Além disso, o Brasil 247 e O Antagonista não estão sendo diferenciados na segunda dimensão, em que seus intervalos de credibilidade se sobrepõem. De fato, a segunda dimensão é mais difícil de ser estimada. O deputado federal Onyx Lorenzoni, do DEM, não aparece claramente como de “oposição” e tem uma posição próxima à do deputado federal Jean Wyllys, do PSOL e à do Carlos Sampaio, que era líder do PSDB na Câmara dos Deputados. Com relação aos senadores, Gleisi Hoffman, do PT, teve uma pontuação negativa no eixo “oposição-governo”, Ronaldo Caiado, do DEM, é posicionado como de “governo”. Além disso, Lindberg Farias, do PT se posicionou próximo de Lasier Martins, do PSD (atualmente no PODE). Possivelmente, esses percalços referentes à segunda dimensão ocorrem porque um certo usuário que deveria ser de “oposição” pode seguir um ator político de “governo” e vice-versa. Por fim, no eixo “esquerda-direita”, os deputados federais Alessandro Molon, da REDE, Chico Alencar, do PSOL, Jandira Feghali, do PCdoB e Jean Wyllys, do PSOL, deveriam estar no extremo da escala e deveriam se posicionar mais à esquerda do que as suas próprias estimativas pontuais pela média a posteriori. Contudo, constatou-se, no banco de dados, que, à época de julho de 2017, estes usuários não seguiam certos atores políticos no Twitter que foram classificados como de “esquerda”, o que provavelmente influenciou em suas estimativas.

77 Capítulo 6

Considerações finais

No estudo desta dissertação, analisou-se a variação do modelo de Barberá(2015) para um espaço latente com duas dimensões, que segue a ideia de Zucco(2009) e Zucco e Lauderdale (2011). Ele consiste em uma tentativa de interpretar e separar a estrutura latente dos dados do Twitter em duas dimensões. No Capítulo3, apresentou-se a formulação matemática do modelo utilizado nesta dissertação, que é uma variação na caracterização do modelo de Barberá(2015), considerando-se o espaço latente como o plano euclidiano bidimensional. No Capítulo4, comparou-se o desempenho de dois modelos em duas dimensões: o primeiro, com uma constante de normalização e o segundo, com duas constantes de normalização e verificou-se que o modelo que mostrou ser mais flexível é o modelo com duas constantes de normalização. O último modelo pondera de forma diferente as distâncias entre as posições latentes nas duas dimensões, tendo uma recuperação da estrutura de probabilidade dos dados superior à do primeiro modelo. No Capítulo5, realizou-se a análise referente à aplicação a dados reais do Twitter no espaço bidimensional e comparou-se com os resultados obtidos pelo modelo unidimensional de Souza (2017) e, pelo critério DIC, constatou-se que o modelo com duas dimensões forneceu melhor ajuste. Apesar de a segunda dimensão ter um peso menor do que a primeira dimensão, ela tem uma influência relevante na probabilidade de um usuário qualquer “seguir” um certo ator político no Twitter. Observou-se que as estimativas da primeira dimensão foram próximas às obtidas em Souza(2017), em que se utilizou o espaço latente unidimensional. Entretanto, também foi possível distinguir senadores, deputados federais e seus partidos na segunda dimensão do espaço latente, embora, conforme mencionado anteriormente, a variabilidade nesse eixo tenha sido menor do que na primeira dimensão. Em resumo, os resultados obtidos mostram que o modelo foi capaz de representar as posições ideológicas em duas dimensões, mostrando

78 diferenças significativas entre as posições estimadas de diferentes atores políticos, e senadores e deputados federais. É importante ressaltar que, embora, a priori, estejam associadas com os antagonismos “esquerda-direita” e “oposição-governo”, as posições estimadas precisam ser analisadas cuidadosamente para que possam ser interpretadas de forma correta. No que tange aos trabalhos futuros, assim como foi discutido em Souza(2017), propõe-se verificar se há mudanças nas estimativas das posições ideológicas no espaço bidimensional ao se utilizar outras funções de ligação como a probit e a t-Student. Também se podem incluir termos de interação entre os eixos do espaço latente bidimensional no modelo. Por outro lado, é possível considerar uma abordagem diferente, utilizando-se uma distribuição a priori mista para

a constante de normalização referente à segunda dimensão, γ2, com massa de probabilidade em zero, para avaliar a probabilidade a posteriori de colapso de duas dimensões em uma só. Também podem ser utilizadas outras métricas de similaridade ou dissimilaridade entre os elementos das matrizes de parâmetros Θ e Φ. Outra possibilidade é considerar outros critérios de seleção de modelos para avaliar os ajustes. Além disso, podem-se incluir possíveis rotações ortogonais ou oblíquas para melhorar a visualização e interpretação dos resultados do modelo bidimensional. É possível também considerar uma base de dados mais atual. Podem-se ainda desenvolver métodos computacionais, utilizando o algoritmo EM, por exemplo.

79 Apêndice A

Apêndice A

Em Bafumi et al.(2005), Barberá(2015) e Souza(2017), foram expostos os problemas de identificabilidade e possíveis soluções ao considerar o espaço latente como o plano euclidiano unidimensional. Neste apêndice, será feita uma adaptação para o modelo no espaço euclidiano latente bidimensional. Seja, então, Ψ uma função definida nos reais cuja imagem pertence ao intervalo [0, 1] (no qual seu inverso é chamado de função de ligação, como a logit, utilizada nesta dissertação), têm-se os seguintes problemas de identificabilidade:

• Invariância à translação em α e β:

P (Yi,j = 1|αi, βj, γ1, γ2, θi,1, θi,2, φj,1, φj,2) 2 2 = Ψ(αi + βj − γ1(θi,1 − φj,1) − γ2(θi,2 − φj,2) ) 2 2 = Ψ((αi + c1) + (βj − c1) −γ1(θi,1 − φj,1) − γ2(θi,2 − φj,2) ),

| {z∗ } | {z∗ } αi βj

em que c1 ∈ <. É interessante notar que os vetores (αi, βj, γ1, γ2, θi,1, φj,1, θi,2, φj,2) e ∗ ∗ (αi , βj , γ1, γ2, θi,1, φj,1, θi,2, φj,2) resultam no mesmo valor da verossimilhança. Neste

caso, pode-se fixar o valor de µα ou de µβ, que são, respectivamente, as médias a priori de cada um dos elementos dos vetores paramétricos α e β. Uma outra solução é impor uma

restrição linear sobre algum dos vetores paramétricos α ou β, tal como fixar αi = 0 para

algum i ∈ {1, ..., n} ou fixar βj = 0 para algum j ∈ {1, ..., m}. É possível ainda impor Pn uma restrição sobre a soma de algum destes vetores paramétricos, como i=1 αi = 0 ou Pm j=1 βj = 0.

80 • Invariância à translação em θ1 e φ1:

P (Yi,j = 1|αi, βj, γ1, γ2, θi,1, θi,2, φj,1, φj,2) 2 2 = Ψ(αi + βj − γ1(θi,1 − φj,1) − γ2(θi,2 − φj,2) ) 2 2 = Ψ(αi + βj − γ1[(θi,1 + c2) − (φj,1 + c2)] − γ2(θi,2 − φj,2) ),

| {z∗ } | {z∗ } θi,1 φj,1

em que c2 ∈ <. Percebe-se, portanto, que os vetores (αi, βj, γ1, γ2, θi,1, φj,1, θi,2, φj,2) ∗ ∗ e (αi, βj, γ1, γ2, θi,1, φj,1, θi,2, φj,2) resultam no mesmo valor da verossimilhança. Neste

caso, pode-se fixar o valor de µθ1 ou de µφ1 , que correspondem, respectivamente, às

médias a priori de cada um dos elementos dos vetores paramétricos θ1 e φ1. Uma outra

solução é impor uma restrição linear sobre algum dos vetores paramétricos θ1 ou φ1, tal

como fixar θi,1 = −1 ou θi,1 = 1 para algum i ∈ {1, ..., n} ou fixar φj,1 = −1 ou φj,1 = 1 para algum j ∈ {1, ..., m}.

• Invariância à contração ou dilatação em θ1 e φ1:

P (Yi,j = 1|αi, βj, γ1, γ2, θi,1, θi,2, φj,1, φj,2) 2 2 = Ψ(αi + βj − γ1(θi,1 − φj,1) − γ2(θi,2 − φj,2) )

γ1 2 2 = Ψ(αi + βj − ( 2 ) × (θi,1c3 − φj,1c3) − γ2(θi,2 − φj,2) ), c3 | {z } | {z } θ∗ φ∗ |{z}∗ i,1 j,1 γ1

em que c3 ∈ < e c3 6= 0. Observa-se que os vetores (αi, βj, γ1, γ2, θi,1, φj,1, θi,2, φj,2) ∗ ∗ ∗ e (αi, βj, γ1 , γ2, θi,1, φj,1, θi,2, φj,2) resultam no mesmo valor da verossimilhança. Neste σ2 σ2 γ σ2 σ2 caso, pode-se fixar o valor de θ1 ou de φ1 ou de 1, em que θ1 e φ1 se referem, respectivamente, às variâncias a priori de cada um dos elementos dos vetores paramétricos

θ1 e φ1. Outra alternativa é, por exemplo, fixar θi,1 = −1 ou θi,1 = 1 para algum

i ∈ {1, ..., n} ou fixar φj,1 = −1 ou φj,1 = 1 para algum j ∈ {1, ..., m}. Quando

c3 = −1, há invariância à reflexão na primeira dimensão de Θ e de Φ.

81 • Invariância à translação, contração ou dilatação em θ2 e φ2: Similarmente à primeira dimensão, os problemas de invariância à translação, contração ou dilatação em Θ e Φ também ocorrem para a segunda dimensão e as soluções são análogas às dadas para a primeira dimensão.

• Invariância à rotação: Como supõe-se, no modelo, não existir correlação a priori entre os elementos da primeira dimensão e da segunda dimensão das matrizes de parâmetros de Θ e Φ, pode ocorrer rotação de 90°, 180° ou 270° no sentido anti-horário no espaço latente bidimensional. O primeiro destes casos é equivalente a se inverter os eixos referentes à primeira dimensão e à segunda dimensão. No segundo, há uma reflexão em torno do eixo referente à primeira dimensão. Por fim, no terceiro caso, há rotação de 90° no sentido anti-horário em conjunto com uma reflexão em torno do eixo inerente à segunda dimensão. Então, realizando a transformação linear pertinente à rotação de 90° no sentido anti-horário no espaço latente bidimensional, tem-se:

P (Yi,j = 1|αi, βj, γ1, γ2, θi,1, θi,2, φj,1, φj,2) 2 2 = Ψ(αi + βj − γ1(θi,1 − φj,1) − γ2(θi,2 − φj,2) ) 2 2 = Ψ(αi + βj − γ2 ×( θi,2 − φj,2 ) − γ1 ×( θi,1 − φj,1 ) ). |{z} |{z} γ∗ |{z}∗ |{z}∗ γ∗ |{z}∗ |{z}∗ 1 θi,1 φj,1 2 θi,2 φj,2

∗ ∗ ∗ ∗ ∗ ∗ Nota-se que os vetores (αi, βj, γ1, γ2, θi,1, φj,1, θi,2, φj,2) e (αi, βj, γ1 , γ2 , θi,1, φj,1, θi,2, φj,2) resultam no mesmo valor da verossimilhança. Uma possível solução é truncar as dis- tribuições a priori, por exemplo, dos elementos de ambas as dimensões da matriz de parâmetros Φ. Pode-se empregar, por exemplo, a distribuição a priori de valores negativos para indivíduos a favor da “esquerda” e uma distribuição a priori de valores positivos para indivíduos a favor da “direita”, levando em conta uma das dimensões; e uma distribuição a priori de valores positivos para indivíduos pró-governo, considerando a outra dimensão.

82 Apêndice B

Apêndice B

Tabela B.1: Lista dos deputados ordenados por partido1.

Deputado Partido Deputado Partido OSMAR BERTOLDI DEM ALEXANDRE SERFIOTIS PMDB ABEL MESQUITA JR DEM SORAYA SANTOS PMDB ALEXANDRE LEITE DEM JOAO MARCELO SOUZA PMDB JUSCELINO FILHO DEM JOSE PRIANTE PMDB RODRIGO MAIA DEM ALTINEU CORTES PMDB PROFESSORA DORINHA SEABRA REZENDE DEM SERGIO ZVEITER PMDB FELIPE MAIA DEM CELSO PANSERA PMDB MARCELO AGUIAR DEM CABUCU BORGES PMDB MARCOS ROGERIO DEM NEWTON CARDOSO JR PMDB ELMAR NASCIMENTO DEM PEDRO PAULO PMDB SOSTENES CAVALCANTE DEM ANDRE AMARAL PMDB PAULO AZI DEM LEONARDO QUINTAO PMDB CARLOS MELLES DEM RODRIGO PACHECO PMDB PAUDERNEY AVELINO DEM PEDRO CHAVES PMDB ONYX LORENZONI DEM DULCE MIRANDA PMDB ALBERTO FRAGA DEM ALCEU MOREIRA PMDB EFRAIM FILHO DEM HILDO ROCHA PMDB RUBENS PEREIRA JUNIOR PCdoB SERGIO SOUZA PMDB ORLANDO SILVA PCdoB BALEIA ROSSI PMDB JANDIRA FEGHALI PCdoB ELCIONE BARBALHO PMDB LUCIANA SANTOS PCdoB JOSI NUNES PMDB ASSIS MELO PCdoB LEONARDO PICCIANI PMDB JO MORAES PCdoB MARCELO CASTRO PMDB DANIEL ALMEIDA PCdoB VALDIR COLATTO PMDB MOISES DINIZ PCdoB DANIEL VILELA PMDB ALICE PORTUGAL PCdoB ZE AUGUSTO NALIN PMDB LEÔNIDAS CRISTINO PDT HUGO MOTTA PMDB ROBERTO GOES PDT SIMONE MORGADO PMDB ANDRE FIGUEIREDO PDT MOSES RODRIGUES PMDB CARLOS EDUARDO CADOCA PDT FABIO REIS PMDB WOLNEY QUEIROZ PDT ROGERIO PENINHA MENDONCA PMDB POMPEO DE MATTOS PDT WALTER ALVES PMDB AFONSO MOTTA PDT LUCIO VIEIRA LIMA PMDB WEVERTON ROCHA PDT MAURO MARIANI PMDB HISSA ABRAHÃO PDT LAURA CARNEIRO PMDB JUNIOR MARRECA PEN VENEZIANO VITAL DO REGO PMDB DR. JORGE SILVA PHS DARCISIO PERONDI PMDB MARCELO ARO PHS JOAO ARRUDA PMDB DIEGO GARCIA PHS LELO COIMBRA PMDB CARLOS ANDRADE PHS CELSO JACOB PMDB GIVALDO CARIMBAO PHS CARLOS BEZERRA PMDB WELITON PRADO PMB FRANCISCO CHAPADINHA PODE

83 Deputado Partido Deputado Partido ALEXANDRE BALDY PODE TIRIRICA PR EZEQUIEL TEIXEIRA PODE LAERTE BESSA PR CARLOS HENRIQUE GAGUIM PODE JOAO CARLOS BACELAR FILHO PR ANTONIO JACOME PODE GIOVANI CHERINI PR LUIZ CARLOS RAMOS PODE MARCELO ALVARO ANTONIO PR RONALDO CARLETTO PP JORGINHO MELLO PR BETO SALAME PP ANTONIO BULHÕES PRB ANDRE FUFUCA PP CELSO RUSSOMANNO PRB MARCUS VICENTE PP JONY MARCOS PRB HIRAN GONCALVES PP JHONATAN DE JESUS PRB WALDIR MARANHAO PP JOAO CAMPOS PRB CONCEICAO SAMPAIO PP BETO MANSUR PRB GUILHERME MUSSI PP CARLOS GOMES PRB JULIO LOPES PP CESAR HALUM PRB LUIZ FERNANDO FARIA PP RONALDO FONSECA PROS RENATO ANDRADE PP TONINHO WANDSCHEER PROS RICARDO IZAR PP EROS BIONDINI PROS RENZO BRAZ PP FELIPE BORNIER PROS CACA LEAO PP ATILA LIRA PSB MAIA FILHO PP ADILTON SACHETTI PSB COVATTI FILHO PP MARIA HELENA PSB LUIS CARLOS HEINZE PP MARINALDO ROSENDO PSB AFONSO HAMM PP BEBETO PSB ROBERTO BALESTRA PP KEIKO OTA PSB BETO ROSADO PP FLAVINHO PSB PAULO MALUF PP DANILO CABRAL PSB IRACEMA PORTELLA PP HERACLITO FORTES PSB JERONIMO GOERGEN PP HEITOR SCHUCH PSB ALEX MANENTE PPS JANETE CAPIBERIBE PSB LUZIA FERREIRA PPS LUIZ LAURO FILHO PSB POLLYANA GAMA PPS LUCIANO DUCCI PSB ELIZIANE GAMA PPS RODRIGO MARTINS PSB ARTHUR OLIVEIRA MAIA PPS DANILO FORTE PSB MARCOS ABRAO PPS HUGO LEAL PSB ARNALDO JORDY PPS JOAO FERNANDO COUTINHO PSB ROBERTO FREIRE PPS TENENTE LUCIO PSB RUBENS BUENO PPS RAFAEL MOTTA PSB REMIDIO MONAI PR JHC PSB PAULO FREIRE PR SEVERINO NINHO PSB AELTON FREITAS PR TEREZA CRISTINA PSB LUIZ NISHIMORI PR PAULO FOLETTO PSB DELEGADO WALDIR PR JOSE STEDILE PSB ALEXANDRE VALLE PR ODORICO MONTEIRO PSB PAULO FEIJO PR PR. MARCO FELICIANO PSC MILTON MONTI PR JAIR BOLSONARO PSC DELEGADO EDSON MOREIRA PR EDUARDO BOLSONARO PSC CHRISTIANE DE SOUZA YARED PR AROLDE DE OLIVEIRA PSC GIACOBO PR VALADARES FILHO PSC CAJAR NARDES PR ANDRE MOURA PSC VICENTINHO JUNIOR PR HERCULANO PASSOS PSD

84 Deputado Partido Deputado Partido MARCOS MONTES PSD GERALDO RESENDE PSDB EXPEDITO NETTO PSD BETINHO GOMES PSDB JOAO PAULO KLEINÜBING PSD ROGERIO MARINHO PSDB JEFFERSON CAMPOS PSD MARA GABRILLI PSDB DELEGADO EDER MAURO PSD NELSON PADOVANI PSDB MARCOS REATEGUI PSD MARCUS PESTANA PSDB FABIO MITIDIERI PSD DAMINA PEREIRA PSL PAULO MAGALHAES PSD ALFREDO KAEFER PSL EVANDRO ROMAN PSD CHICO ALENCAR PSOL REINHOLD STEPHANES PSD LUIZA ERUNDINA PSOL STEFANO AGUIAR PSD JEAN WYLLYS PSOL JOAO RODRIGUES PSD GLAUBER BRAGA PSOL JULIO CESAR PSD IVAN VALENTE PSOL IRAJA ABREU PSD EDMILSON RODRIGUES PSOL EDMAR ARRUDA PSD LUIZ SERGIO PT DOMINGOS NETO PSD VALMIR PRASCIDELLI PT ROGERIO ROSSO PSD PATRUS ANANIAS PT FABIO FARIA PSD ARLINDO CHINAGLIA PT GOULART PSD MARCO MAIA PT SANDRO ALEX PSD JOSE AIRTON CIRILO PT JAIME MARTINS PSD ENIO VERRI PT ROMULO GOUVEIA PSD WALDENOR PEREIRA PT THIAGO PEIXOTO PSD JOSE GUIMARAES PT BONIFACIO DE ANDRADA PSDB WADIH DAMOUS PT EDUARDO CURY PSDB ERIKA KOKAY PT VITOR LIPPI PSDB VICENTE CANDIDO PT RAIMUNDO GOMES DE MATOS PSDB JORGE SOLLA PT EDUARDO BARBOSA PSDB ZECA DIRCEU PT IZALCI LUCAS PSDB ASSIS CARVALHO PT YEDA CRUSIUS PSDB PEPE VARGAS PT SHERIDAN PSDB LUIZIANNE LINS PT ELIZEU DIONIZIO PSDB ZE CARLOS PT VANDERLEI MACRIS PSDB JOAO DANIEL PT MARIANA CARVALHO PSDB PADRE JOAO PT JOAO PAULO PAPA PSDB JOSE MENTOR PT PEDRO CUNHA LIMA PSDB VALMIR ASSUNCAO PT OTAVIO LEITE PSDB BENEDITA DA SILVA PT ANTONIO IMBASSAHY PSDB PEDRO UCZAI PT FABIO SOUSA PSDB MARGARIDA SALOMAO PT CAIO NARCIO PSDB ANGELIM PT MARCO TEBALDI PSDB LEONARDO MONTEIRO PT LOBBE NETO PSDB CARLOS ZARATTINI PT GEOVANIA DE SA PSDB ANA PERUGINI PT GIUSEPPE VECCI PSDB RUBENS OTONI PT CARLOS SAMPAIO PSDB MARIA DO ROSARIO PT PAULO ABI-ACKEL PSDB HELDER SALOMAO PT NILSON LEITAO PSDB AFONSO FLORENCE PT BRUNA FURLAN PSDB BETO FARO PT RODRIGO DE CASTRO PSDB LEO DE BRITO PT DANIEL COELHO PSDB NILTO TATTO PT

85 Tabela B.2: Senadores ordenados por partido1.

Senador Partido Deputado Partido José Agripino DEM Davi Alcolumbre DEM VANDER LOUBET PT Ronaldo Caiado DEM NELSON PELLEGRINO PT Vanessa Grazziotin PCdoB Ângela Portela PDT ZECA DO PT PT Acir Gurgacz PDT SAGUAS MORAES PT Airton Sandoval PMDB JOSIAS GOMES PT Elmano Férrer PMDB Rose de Freitas PMDB PAULAO PT Raimundo Lira PMDB HENRIQUE FONTANA PT Simone Tebet PMDB MARCON PT Renan Calheiros PMDB Dário Berger PMDB LUIZ COUTO PT Valdir Raupp PMDB DECIO LIMA PT Marta Suplicy PMDB CHICO DANGELO PT Kátia Abreu PMDB Jader Barbalho PMDB PAULO PIMENTA PT José Maranhão PMDB GIVALDO VIEIRA PT Hélio José PMDB BOHN GASS PT Garibaldi Alves Filho PMDB Roberto Requião PMDB ADELMO CARNEIRO LEAO PT Romero Jucá PMDB PAULO TEIXEIRA PT Zeze Perrella PMDB Eunício Oliveira PMDB VICENTINHO PT Eduardo Braga PMDB REGINALDO LOPES PT Romário PODE JOSUE BENGTSON PTB Alvaro Dias PODE Ciro Nogueira PP ARNALDO FARIA DE SA PTB Wilder Morais PP RONALDO NOGUEIRA PTB Ana Amélia PP PEDRO FERNANDES PTB Gladson Cameli PP 1 Cristovam Buarque PPS CRISTIANE BRASIL PTB Cidinho Santos PR NELSON MARQUEZELLI PTB Vicentinho Alves PR JOVAIR ARANTES PTB Magno Malta PR Wellington Fagundes PR BENITO GAMA PTB Eduardo Lopes PRB ALEX CANZIANI PTB Roberto Rocha PSB WILSON FILHO PTB João Capiberibe PSB Antonio Carlos Valadares PSB EVANDRO GUSSI PV Lídice da Mata PSB EVAIR VIEIRA DE MELO PV Lúcia Vânia PSB Pedro Chaves PSC ANTONIO CARLOS MENDES THAME PV Sérgio Petecão PSD ROBERTO DE LUCENA PV Lasier Martins PSD ULDURICO JUNIOR PV Otto Alencar PSD José Medeiros PSD ALESSANDRO MOLON REDE Aécio Neves PSDB JOAO DERLY REDE Antonio Anastasia PSDB ALIEL MACHADO REDE Tasso Jereissati PSDB Eduardo Amorim PSDB WLADIMIR COSTA SD Ricardo Ferraço PSDB LUCAS VERGILIO SD Paulo Bauer PSDB LAUDIVIO CARVALHO SD Flexa Ribeiro PSDB José Serra PSDB PAULO PEREIRA DA SILVA SD Ataídes Oliveira PSDB ZE SILVA SD Cássio Cunha Lima PSDB GENECIAS NORONHA SD Paulo Rocha PT Lindbergh Farias PT AUGUSTO COUTINHO SD Gleisi Hoffmann PT AUGUSTO CARVALHO SD Jorge Viana PT Fátima Bezerra PT LAERCIO OLIVEIRA SD Regina Sousa PT DELEGADO FRANCISCHINI SD Humberto Costa PT Paulo Paim PT 1Tabelas B.1e B.2, reproduzidas de Souza(2017). José Pimentel PT Telmário Mota PTB Armando Monteiro PTB Fernando Collor PTC Randolfe Rodrigues REDE 86 Reguffe Sem Partido Tabela B.3: Número de usuários que são deputados federais, senadores e o total por partido.

Partidos Deputados federais Senadores Total DEM 17 3 20 PCdoB 9 1 10 PDT 9 2 11 PEN 1 0 1 PHS 5 0 5 PMB 1 0 1 PMDB 41 19 60 PODE 6 2 8 PP 23 4 27 PPS 9 1 10 PR 19 4 23 PRB 8 1 9 PROS 4 0 4 PSB 25 5 30 PSC 6 1 7 PSD 24 4 28 PSDB 33 10 43 PSL 2 0 2 PSOL 6 0 6 PT 54 9 63 PTB 10 2 12 PTC 0 1 1 PV 5 0 5 REDE 3 1 4 SD 10 0 10

87 Referências Bibliográficas

Amaral, M. S. e de Pinho, J. A. G. (2018). Eleições parlamentares no Brasil: o uso do Twitter na busca por votos. Revista de Administração Contemporânea, 22(4):466–486.

Bafumi, J., Gelman, A., Park, D. K., e Kaplan, N. (2005). Practical issues in implementing and understanding Bayesian ideal point estimation. Political Analysis, 13(2):171–187.

Bakker, R. e Poole, K. T. (2013). Bayesian metric multidimensional scaling. Political Analysis, 21(1):125–140.

Barberá, P. (2015). Birds of the same feather tweet together: Bayesian ideal point estimation using Twitter data. Political Analysis, 23(1):76–91.

Berger, J. O. (1985). Statistical Decision Theory and Bayesian Analysis. Springer Science & Business Media.

Brant, D. (2018). Bolsonaro segue passos de Trump e adota rede social para discursar. Folha de São Paulo. 3 de novembro de 2018. https://www1.folha.uol.com.br/poder/2018/11/bolsonaro- segue-passos-de-trump-e-adota-rede-social-para-discursar.shtml.

Conover, M. D., Gonçalves, B., Flammini, A., e Menczer, F. (2012). Partisan asymmetries in online political activity. EPJ Data Science, 1(1):6.

DeGroot, M. H. (2004). Optimal Statistical Decisions. New Jersey: John Wiley & Sons.

Ferguson, T. S. (1967). Mathematical Statistics: A Decision Theoretic Approach. New York: Academic Press.

Fienberg, S. E., Meyer, M. M., e Wasserman, S. S. (1985). Statistical analysis of multiple sociometric relations. Journal of the American Statistical Association, 80(389):51–67.

88 Gelfand, A. E. e Smith, A. F. (1990). Sampling-based approaches to calculating marginal densities. Journal of the American Statistical Association, 85(410):398–409.

Geman, S. e Geman, D. (1984). Stochastic relaxation, Gibbs distributions, and the Bayesian restoration of images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 6(6):721–741.

Gregory, S. D. (2017). Running JAGS in parallel. [Mensagem de blog]. 16 de abril. https://stephendavidgregory.github.io/statistics/Jags-in-parallel.

Hastings, W. K. (1970). Monte Carlo sampling methods using Markov chains and their applications. Biometrika, 57(1):97–109.

Hoff, P. D., Raftery, A. E., e Handcock, M. S. (2002). Latent space approaches to social network analysis. Journal of the American Statistical Association, 97(460):1090–1098.

Kadushin, C. (2013). Comprender las Redes Sociales: Teorías, Conceptos y hallazgos. Centro de Investigaciones Sociológicas.

Knaus, J. (2015). snowfall: Easier cluster computing (based on snow). R package version 1.84-6.1. https://CRAN.R-project.org/package=snowfall.

Knoke, D. e Kuklinski, J. (1982). Network Analysis. Beverly Hills: Sage.

Lazer, D. (2011). Networks in political science: Back to the future. PS: Political Science & Politics, 44(1):61–68.

Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N., Teller, A. H., e Teller, E. (1953). Equation of state calculations by fast computing machines. The Journal of Chemical Physics, 21(6):1087–1092.

Migon, H. S., Gamerman, D., e Louzada, F. (2014). Statistical Inference: An Integrated Approach. CRC Press.

Moraes, I. (2018). O que significa esquerda, direita e centro na política? O Estado de São Paulo. 18 de maio de 2018. URL: https://politica.estadao.com.br/noticias/eleicoes,o-que-significam- direita-esquerda-e-centro-na-politica,70002314116.

Plummer, M. (2016). rjags: Bayesian Graphical Models using MCMC. R package version 4-6. https://CRAN.R-project.org/package=rjags.

89 Plummer, M. (2017). JAGS version 4.3.0 user manual. https://web.sgh.waw.pl/˜atoroj/ekonometria_bayesowska/jags_user_manual.pdf.

Power, T. J. e Zucco, C., J. (2011). O Congresso por Ele Mesmo: Autopercepções da Classe Política Brasileira. Belo Horizonte: Editora UFMG.

R Development Core Team (2014). R: A language and environment for statistical compu- ting. Vienna, Austria: R Foundation for Statistical Computing. ISBN: 3-900051-07-0, https://www.R-project.org.

Souza, D. B. M. (2017). Estimação Bayesiana de Pontos Ideais Via Dados do Twitter. Dissertação de Mestrado, Universidade Federal do Rio de Janeiro.

Souza, R. M., Graça, L. F. G., e Silva, R. S. (2017). Politics on the web: Using Twitter to estimate the ideological positions of Brazilian representatives. Brazilian Political Science Review.

Spiegelhalter, D. J., Best, N. G., Carlin, B. P., e Van Der Linde, A. (2002). Bayesian measures of model complexity and fit. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 64(4):583–639.

Tierney, L. (1994). Markov chains for exploring posterior distributions. The Annals of Statistics, 22(4):1701–1728.

Valente, M. R. M. e da Silva, M. L. H. (2010). A utilização do Twitter na campanha política e sua aplicação no : estudo de caso do perfil do candidato a Governador eleito Siqueira Campos. In Congresso Panamericano de Comunicação 2010, Brasília, DF, Brasil.

Volpatti, L. e Lima, F. M. (2018). Um presidente eleito pelas redes sociais. Congresso em Foco. 4 de novembro de 2018. https://congressoemfoco.uol.com.br/opiniao/forum/um-presidente- eleito-pelas-redes-sociais/.

Wasserman, S. e Faust, K. (1994). Social Network Analysis: Methods and Applications. Cambridge University Press.

Wu, S., Hofman, J. M., Mason, W. A., e Watts, D. J. (2011). Who says what to whom on Twitter. In Proceedings of the 20th International Conference on World Wide Web. ACM.

Zucco, C., J. (2009). Esquerda, direita e governo: a ideologia dos partidos políticos brasileiros. Seminário Legislator Views of Brazilian Governance. Oxford: Universidade de Oxford.

90 Zucco, C., J. e Lauderdale, B. E. (2011). Distinguishing between influences on Brazilian legislative behavior. Legislative Studies Quarterly, 36(3):363–396.

91