PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

PUC-SP

PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM COMUNICAÇÃO E SEMIÓTICA - COS

Renê Eduardo Arruda

Orientadora: Profa. Dra. Lucia Isaltina Clemente Leão

O DISPOSITIVO DA WEB – UM ESTUDO SOBRE A LÓGICA DO FILTRO DE BUSCA DO

MESTRADO EM COMUNICAÇÃO E SEMIÓTICA

SÃO PAULO

2019

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

PUC-SP

Renê Eduardo Arruda

O DISPOSITIVO DA WEB – UM ESTUDO SOBRE A LÓGICA DO FILTRO DE BUSCA DO GOOGLE

MESTRADO EM COMUNICAÇÃO E SEMIÓTICA

Dissertação apresentada à Banca Examinadora da Pontifícia Universidade Católica de São Paulo, como exigência parcial para obtenção do título de MESTRE em Comunicação e Semiótica, na área de Processo de Criação nas Mídias, sob orientação da Profa. Dra. Lucia Isaltina Clemente Leão (PEPGCOS/PUC-SP).

SÃO PAULO

2019

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

PUC-SP

Renê Eduardo Arruda

O DISPOSITIVO DA WEB – UM ESTUDO SOBRE A LÓGICA DO FILTRO DE BUSCA DO GOOGLE

Banca Examinadora

______

______

______

Agradecimento à agência de fomento à pesquisa

A presente pesquisa foi realizada com apoio da CAPES, Coordenação de Aperfeiçoamento de Pessoal de Nível Superior, Brasil. Este suporte foi importante por permitir maior tempo de dedicação à pesquisa, o que resultou em mais oportunidades de aprendizado e mais qualidade na produção científica.

Agradecimentos

Agradeço à minha esposa, Roberta Krem, pelo inestimável apoio à realização deste Mestrado, sempre com uma palavra amiga e carinhosa, me incentivando a continuar, progredir e jamais me dar por vencido, acreditando no meu melhor.

Agradeço à Profª. Lucia Leão, minha mentora na academia, cuja gentileza, prestatividade e inteligência contribuíram para meu desenvolvimento tanto enquanto pesquisador quanto como ser humano.

Agradeço ao meu amigo Leandro Furlan da Silva, pelas inúmeras discussões acerca do assunto pesquisado, fomentando idéias e tirando dúvidas, além de ter codificado o utilizado no capítulo 3 desta pesquisa.

Agradeço à meus amigos Orian, Thiago e Caio, pelas excelentes conversas acerca do assunto pesquisado, sempre dispostos a discutirem as relações entre tecnologia e sociedade.

Agradeço aos membros do grupo de pesquisa CCM (Comunicação e Criação nas Mídias), cujas discussões, palestras e questionamentos me levaram à descoberta de novos autores, ideias e conceitos que puderam ser aproveitados nesta pesquisa.

Agradeço aos meus pais, Vânia e Flávio, por terem se esforçado para me proporcionar uma educação de qualidade, e por fomentarem em mim a idéia que estudo e pesquisa podem ser caminhos para crescimento pessoal e profissional.

Resumo

O DISPOSITIVO DA WEB: UM ESTUDO SOBRE A LÓGICA DO FILTRO DE BUSCA DO GOOGLE No contexto das pesquisas em processos de criação na comunicação e na cultura, especificamente no universo da cultura das redes informacionais, a presente pesquisa visa estudar as complexidades que permeiam o fenômeno comunicacional das interações entre usuários do ciberespaço e os resultados de pesquisas através do uso de motores de busca. Mecanismos de busca indexam o conteúdo da web, organizando-o segundo uma lógica própria para compor páginas de resultados de pesquisa. Estes sistemas são desenvolvidos para considerar uma série de critérios quando um usuário realiza uma busca, como palavras-chave, histórico de pesquisa, localização geográfica, entre outros. Assim, a lista de resultados de busca é, em certa medida, diferente para cada usuário. Desde 2009 o Google é a ferramenta de busca mais acessada do mundo, processando um vasto número de informações. A presente dissertação pretende compreender a lógica do filtro de resultados de busca do Google, mapeando como os resultados de pesquisa são personalizados para cada usuário. Devido à vastidão de conteúdo na web, buscadores como o Google tornaram-se ferramentas estruturantes da interação dos usuários neste espaço informacional, determinando o que é exibido como resultado. Seguindo a lógica definida por seus filtros, o Google estabelece relações de poder, agindo como dispositivo, à medida em que modula os resultados de busca de acordo com o perfil de cada usuário, e também de acordo com o contexto social no qual está inserido. O método de pesquisa consiste, primeiramente, em análise do filtro de busca do Google a partir das perspectivas teóricas de Foucault, Deleuze e Guattari, Lazzarato e Halavais. Em paralelo, foi realizado um experimento para verificação empírica do modo de funcionamento do filtro de buscas. O experimento consiste em uma análise qualitativa dos resultados de busca de 5 perfis de usuários elaborados pelo pesquisador, a fim de identificar divergências nos resultados de pesquisa para os mesmos termos de busca. A pesquisa resultou na conceituação da lógica do filtro de busca do Google, verificação da hipótese de divergência de resultados de busca de acordo com características de cada usuário e revelou indícios da subjetivação operada pelo dispositivo.

Palavras-chave: comunicação, cultura e mídias digitais; ferramentas de busca; ; algoritmos; modulação.

Abstract

APPARATUS OF THE WEB: A STUDY ABOUT GOOGLE’S FILTER LOGIC

In the context of research in communication and culture creation processes, specifically in the information network culture universe, the present work aims to study the complexities that permeate the communicational phenomenon of the interactions between users of cyberspace and search results from search engines. Search engines index content from the web, organizing it according to its own logic to compose search results pages. These systems were developed to consider a series of criteria when a user inserts a query, such as keywords, user’s search history, geographic location, among others. Thus, the search results page is, to some extent, different for each user. Since 2009 Google is the most accessed search engine in the world, processing a vast amount of information. The present dissertation intends to understand the logic of the results filter, mapping how the search results are personalized for each user. Due to the vastness of the web, search engines like Google have become structuring tools for user interaction in the digital informational space, determining what is displayed as a search result. Following the logic defined by its filters, Google establishes power relations, acting as an apparatus, as it modulates the search results according to the profile of each user, and also according to the social context in which it is inserted. The research method consists, first of all, in the analysis of the Google search filter from the theoretical perspectives of Foucault, Deleuze and Guattari, Lazzarato and Halavais. In parallel, an experiment was carried out to empirically verify the operation of the search filter. The experiment consists of a qualitative analysis of the search results of 5 user profiles created by the author, in order to identify differences in search results for the same search queries. The research resulted in the conceptualization of the Google search filter logic, verification of the hypothesis of divergence of search results according to each user's characteristics, and revealed evidence of the subjectivation operated by the device. Keywords: communication, culture and digital media; search engines; pagerank; algorithms; modulation.

Sumário

INTRODUÇÃO...... 11 1. SISTEMAS DE BUSCA NA WWW E O GOOGLE ...... 17

1.1. O QUE É UM SISTEMA DE BUSCA NA WEB? ...... 17 1.2. TIPOLOGIA DE SISTEMAS DE BUSCA ...... 18 Indexação e ordenação de resultados ...... 20 Diretórios ou catálogos ...... 20 Programas ou robôs de busca ...... 22 Híbridos, metabuscadores e segmentados ...... 31 1.3. GOOGLE ...... 33 1.4. BUSCA PREDITIVA E FILTRO-BOLHA...... 51 2. CONTROLE E LÓGICA OPERATIVA DOS ALGORITMOS DE SERVIÇOS DA WEB ...... 58

2.1. ALGORITMOS E A ESTRUTURAÇÃO DO MODO DE USO DA INTERNET ...... 58 Uso social de buscadores ...... 59 Anexo preferencial ...... 60 Atenção, recurso finito ...... 62 2.2. RELAÇÕES ENTRE DATA MINING E MODULAÇÃO DE RESULTADOS COMO LÓGICA TÉCNICA QUE PERMITE O CONTROLE ...... 64 Modulação de resultados de busca e exercício de poder ...... 67 2.3. DISPOSITIVO DA SOCIEDADE DE CONTROLE ...... 72 Subjetivação e semiótica a-significante ...... 74 Memória, desejo e identidade ...... 77 3. ESTUDO DE CASO – GOOGLEBOT ...... 83

3.1. PESQUISAS ANTERIORES SOBRE PERSONALIZAÇÃO DE RESULTADOS DE BUSCA NA WEB...... 83 Mensurando personalização em pesquisas na web...... 84 Impacto da geolocalização na personalização de busca na web ...... 89 Auditoria da personalização de páginas de resultados de mecanismos de pesquisa relacionadas a política ...... 91 Expansão da mensuração de personalização em pesquisas na web ...... 92 3.2. METODOLOGIA DO ESTUDO DE CASO ...... 93 Controle de fontes de ruído ...... 95 Criação de histórico de pesquisa ...... 97 Execução das consultas - Googlebot ...... 100 3.3. APRESENTAÇÃO GERAL DOS RESULTADOS COLETADOS ...... 101 Experimento 1 – “pregnancy mental disorder” ...... 102 Experimento 2 – “Answering the call of god” ...... 103 Experimento 3 – Efeito de transferência resultando em “determined to see jesus” ...... 106 Experimento 4 – “Tricked her partner” ...... 107 Experimento 5 – Efeito de transferência resultando em “tricked boyfriend into becoming a father” ...... 109 Experimentos 6 e 7 – “rape instructor” e efeito de transferência resultando em “become a certified rape prevention instructor” ...... 111 Experimento 8 – “flat earth” ...... 112 Experimento 9 – efeito de transferência resultando em “proves earth is flat” ...... 113 3.4. CONCLUSÕES DOS RESULTADOS EXPERIMENTAIS ...... 115 4. CONSIDERAÇÕES FINAIS ...... 118

5. REFERÊNCIAS BIBLIOGRÁFICAS ...... 122 ANEXOS ...... 130

CONFIGURAÇÃO DE DADOS PESSOAIS DAS CONTAS GOOGLE UTILIZADAS NOS EXPERIMENTOS DETALHADOS NO CAPÍTULO 3 ...... 130 Usuário 1 ...... 130 Usuário 2 ...... 130 Usuário 3 ...... 130 Usuário 4 ...... 131 Usuário 5 ...... 131 TERMOS DE PESQUISA PARA COMPOSIÇÃO DE HISTÓRIO DAS CONTAS GOOGLE UTILIZADAS NOS EXPERIMENTOS DETALHADOS NO CAPÍTULO 3 ...... 132 Usuário 1 ...... 132 Usuário 2 ...... 137 Usuário 3 ...... 138 Usuário 4 ...... 139 Usuário 5 ...... 141

Lista de Diagramas:

Diagrama 1 – Tipologia dos mecanismos de busca, segundo Monteiro (2009) ...... 19

Lista de Figuras:

Figura 1 - Página principal do buscador via diretório Yahoo!, em 1996 ...... 21 Figura 2 - Reprodução traduzida da organização conceitual de um motor de buscas via rastreador ...... 30 Figura 3 - Página de resultados de busca do Glassdoor ...... 32 Figura 4 - Esquema ilustrativo de cálculo de reputação do Pagerank ...... 34 Figura 5 - Universal Search do Google em 2007 ...... 38 Figura 6 - Esquema ilustrativo do MapReduce ...... 39 Figura 7 – Knowledge Graph do Google em 2018 ...... 42 Figura 8 - Reprodução de uma busca semântica ...... 45 Figura 9 - Autocomplete do Google em 2004 ...... 52 Figura 10 - ...... 54 Figura 11 - Cards do ...... 55 Figura 12 - Imagem publicada por Kaber Alli...... 71 Figura 13 - Reprodução da tela de resultados de busca da consulta “is Earth flat” ..... 115

Lista de Quadros:

Quadro 1 - Processos de sistemas de busca x atualizações do algoritmo do Google .. 51 Quadro 2 - Resultados do experimento realizado pelo grupo da Northeastern University ...... 86 Quadro 3 - Análise do experimento 1 ...... 102 Quadro 4 - Análise do experimento 2 ...... 104 Quadro 5 - Análise do experimento 3 ...... 106 Quadro 6 - Análise do experimento 4 ...... 108 Quadro 7 - Análise do experimento 5 ...... 110 Quadro 8 - Análise do experimento 6 ...... 111 Quadro 9 - Análise do experimento 7 ...... 112 Quadro 10 - Análise do experimento 8 ...... 113 Quadro 11 - Análise do experimento 9 ...... 114

INTRODUÇÃO A abertura da internet para fins comerciais no início da década de 1990, deixando os restritos círculos militares onde teve origem e o subsequente uso em universidades para finalmente tornar-se disponível à população geral, trazia uma série de promessas de democratização do acesso à informação. A possibilidade de publicar praticamente qualquer conteúdo, sem intermediários, a partir de qualquer lugar com uma conexão, e acessível a quase qualquer pessoa, nunca antes havia sido possível.

Sob uma perspectiva utópica, a internet, enquanto tecnologia, poderia tornar-se um meio emancipador das massas. Ela possibilita a construção e divulgação colaborativa de narrativas, divulgação imediata de acontecimentos em qualquer lugar do mundo, e a vastidão do espaço virtual não conhece limites de tamanho, quantidade de fontes e formatos de informação. Mais do que isso, a internet guarda a possibilidade, enquanto tecnologia, de proporcionar também o acesso a conhecimentos, narrativas e discursos diversos daqueles propagados pela mídia hegemônica e tradicional.

Os estudos acerca dos usos e práticas sociais dos meios de comunicação, tanto no início da popularização da internet quanto hoje, provam que prever quais potencialidades das tecnologias comunicacionais irão se realizar, mesmo que considerando o contexto socioeconômico, político e cultural no qual estas estão inseridas, pode mostrar-se bastante difícil. Ao longo do século XX, os meios de comunicação de massa deixaram de ser considerados instituições culturais, no sentido de instituições que, em nome do interesse público, representam a sociedade inteira para o público em geral. Uma forte orientação de mercado levou os veículos de comunicação de massa a preocuparem-se mais em atender seus próprios interesses do que em cumprir uma função social pública. Ao menos parte da web seguiu o mesmo percurso que os veículos de comunicação de massa do século passado.

Em sua maioria os estudos da cibercultura descrevem a internet como uma massa de dados imprevisível, rizomática e sem um centro único organizador (a exemplo de Manuel Castells e Pierre Levy). Esse posicionamento afirma que as novas tecnologias comunicacionais são baseadas em eliminação de comando 11

centralizado e hierárquico. Neste contexto, a internet seria uma enorme biblioteca, com serviços como aqueles prestados por buscadores (Google, Bing, Yahoo!, etc.) fornecendo um mapa universal, um tipo de catálogo de conteúdo. No entanto, essa perspectiva não abrange todos os aspectos do fenômeno e suas complexidades.

A internet permitiu uma mudança radical na forma como nós interagimos com conteúdo – passamos de espectadores a agentes ativos, construindo caminhos por entre páginas, estabelecendo ligações em um espaço informacional praticamente infinito. Dentro desta perspectiva, Lucia Leão, em seu livro “O Labirinto da Hipermídia”, afirma que o sujeito passa a ser um construtor de labirintos: “O viajante, ao percorrer o sistema, faz existir um espaço que se desdobra. No momento em que este atualiza escolhas, o desenho de um labirinto é criado. Labirinto, como sempre, pessoal e único” (2005, p.46).

Penetrar na internet pode ser uma experiência nômade pois, ao percorrer este labirinto, o viajante vivencia a perda de orientação, posto que não conhece a ordem global da rede. O sujeito teria diante de si milhões de opções de portas de entrada, e é humanamente impossível passar por todas elas. Neste contexto, o grande desafio, ainda segundo Leão, seria reconhecer passagens, reencontrar pontos familiares, que irão definir o contorno da área do viajante, de seu território (2005, p.133). Território, aqui, no sentido dado por Deleuze e Guattari – como algo móvel, em constante gênese, semelhante talvez à relação que os muçulmanos tem, por exemplo, com seus tapetes. Ao serem desdobrados no momento da prece, representam uma terra sagrada e dão aos fiéis o contato com a espiritualidade. Foi neste contexto que emergiram ferramentas de localização, busca, pesquisa e direcionamento – espaços estriados, sistemas desenvolvidos com a promessa de auxiliar viajantes em suas respectivas jornadas.

Plataformas cujos proprietários são mega-corporações oferecem a estes viajantes uma gama impressionante de serviços das mais diversas naturezas – e-mail, redes sociais, motores de busca, aplicativos online e muito mais. É perfeitamente possível que um usuário da internet passe todo o seu tempo online em uma dessas plataformas ou navegando apenas dentro do ecossistema de

12

serviços da mesma companhia, lá realizando todas as suas atividades e conduzindo todos os seus negócios.

Dentre estes serviços, destacam-se os buscadores, que fornecem aos usuários da web um meio de procurar por sites e conteúdo disponível com base em termos de busca. Estes sistemas foram desenvolvidos para varrer o espaço informacional da web segundo critérios próprios, coletando dados sobre sites para popular um banco de dados. Quando um usuário faz uma busca, o sistema recupera dados deste banco – os dados que o sistema “entende” como compatíveis e relevantes com o que o usuário está buscando. Portanto, estas ferramentas são especialmente importantes para o uso efetivo da web por conta de sua centralidade no uso do meio digital – agem como guia, direcionam fluxos e apontam os destinos possíveis aos viajantes. Sem eles, a web pode se parecer com um labirinto indecifrável.

Google, Bing e Yahoo! são sistemas de busca que indexam, categorizam, ordenam e agregam conteúdo, filtram os resultados de busca colocando em evidência somente aqueles links que eles “entendem” como de interesse do usuário. Ou seja, estes sites filtram as informações a serem exibidas e mostram somente os que tem maior chance de serem clicados pelo usuário.

O Portal de Periódicos da CAPES/MEC indica que há mais de 25 mil artigos com a palavra Google no assunto. Entretanto, a imensa maioria destes artigos tem como objeto aspectos técnicos do Google ou de tecnologias da informação contemporâneas. Há apenas 36 artigos que incluem as palavras-chave Google e “filter bubble” (filtro bolha). Quando consultada sobre artigos com as palavras- chave Google e personalização, centrais nesta pesquisa, houve retorno de apenas 288 artigos. Parece haver necessidade de mais estudos acerca do Google sob uma perspectiva humanística.

O Google é o buscador mais acessado da web, e processa aproximadamente 40.000 pesquisas personalizadas por segundo. Desde 2009 esse buscador aplica um mecanismo de filtragem de resultados chamado de "57 sinais". Trata-se de um conjunto de características que envolve desde o local de onde o usuário está se conectando, identificação da placa de rede, tipo de navegador utilizado e até memória das pesquisas anteriores, no intuito de 13

personalizar os resultados de busca para cada usuário. Nesse sentido, podemos afirmar que não existe um Google padrão. É perfeitamente possível que, quando dois usuários fizerem buscas idênticas no Google, tenham páginas de resultados de busca significativamente diferentes.

Esta diferença no retorno de resultados levanta uma série de questões relevantes: qual a lógica destes algoritmos para filtrar conteúdo, definindo o que deve ou não ser exibido a cada usuário? O que não é mostrado ao usuário, quem define o que fica de fora, e o quão transparente é este processo? Quais as consequências desta diferença nos resultados de busca de um mesmo assunto para cada pessoa? Quais os impactos que os buscadores podem ter na percepção de mundo de um sujeito? De um ponto de vista macro social, onde populações inteiras fazem uso de ferramentas como esta, quais seriam as implicações políticas de um sistema de recuperação de informação que personaliza os resultados de busca?

À medida que os meios de comunicação se tornam cada vez mais presentes na vida cotidiana dos indivíduos, os textos, imagens e discursos propagados pela mídia podem tornar-se parte da construção da identidade individual, e, portanto, podem influenciar como cada pessoa entende e interage com o mundo à sua volta. Menos óbvio, no entanto, é que as próprias tecnologias, enquanto aparatos técnicos que permitem acesso e interação com conteúdo de determinada maneira, podem ser considerados agentes de mudança, influenciando comportamentos e determinando modos de pensar e ver. É neste contexto que a personalização de resultados de busca do Google torna-se um problema de pesquisa. Considerando o que foi exposto até o momento, os objetivos desta pesquisa são:

• Compreender a lógica do filtro de resultados de busca do Google, mapeando de que forma e em qual medida o algoritmo personaliza resultados de pesquisa para cada usuário;

• Verificar os processos de modulação de resultados a partir da noção de sociedade de controle (Foucault/ Deleuze);

14

• Identificar se os processos de filtragem utilizados pelo sistema de busca do Google favorecem ou desfavorecem discursos ou narrativas específicas, e caso positivo, quais seriam estas.

Para responder estes questionamentos, a dissertação organiza-se em três partes. No capítulo 1, começo por definir os buscadores enquanto sistemas de recuperação de informação, delineando quais são suas características e quais processos realizam durante o seu funcionamento. No mesmo capítulo, detalho o objeto do estudo, o motor de buscas do Google, contextualizando o seu desenvolvimento técnico com o crescimento do Google como corporação de tecnologia. Por fim, explico a direção que o sistema está tomando, quais os próximos desenvolvimentos e possíveis problemas a serem considerados futuramente, como busca preditiva e inteligência artificial.

O capítulo seguinte dedica-se a explicar como os motores de busca estruturam os modos de uso da web e quais as relações entre a captura de dados dos conteúdos da web e também de seus usuários com técnicas de controle. Para tanto, busco contribuições dos filósofos Gilles Deleuze, Félix Guattari, Michel Foucault, Maurizio Lazzato e Giorgio Agamben, que auxiliam a compreensão dos processos de modulação de resultados de busca a partir da noção de sociedade de controle. É também através do uso de conceitos e teorias destes autores que se torna possível delinear as relações de poder que os motores de buscas estabelecem e como estes sistemas atuam na construção da identidade e da subjetividade.

Como o buscador Google é um sistema opaco, que não pode ser examinado em detalhes porque seu código é um segredo comercial da corporação, o terceiro e último capítulo é um experimento empírico para verificação das hipóteses levantadas nos capítulos 1 e 2. O objeto selecionado para tratamento empírico são os resultados de busca no Google obtidos por perfis criados especificamente para esta pesquisa. Os perfis são populados fazendo uso de um software que realiza buscas no Google automaticamente, inserindo no campo de busca palavras pré-definidas pelo pesquisador e clicando em links da página de resultados de busca.

15

Os dados coletados foram submetidos à análise, permitindo assim identificar se os processos de filtragem utilizados pelo sistema de busca do Google favorecem ou desfavorecem discursos ou narrativas específicas.

As tecnologias de informação ocupam um lugar de destaque em praticamente todos os ambientes e relações da sociedade contemporânea. A midiatização é um processo macro-social visível na sociedade como um todo, à semelhança de outros processos sociológicos importantes como a globalização e a individuação. Dentre os meios de comunicação, a internet parece cada vez mais assumir uma dimensão de domínio de experiências compartilhadas ao convergir conteúdo de diversas instituições, midiáticas ou não, ao mesmo tempo em que permite a interação e compartilhamento de informações entre usuários. Estas tecnologias, como toda tecnologia, não são meramente técnicas, mas políticas, proporcionando novas formas de interação, inscrevendo outras relações de poder e, algumas vezes, impondo formas de controle. Em vista da gravidade e importância dos fenômenos possibilitados pela tecnologia da informação na contemporaneidade, o estudo visa contribuir para a compreensão do mundo em que vivemos atualmente, e em especial, desta dimensão política das tecnologias da informação.

16

1. SISTEMAS DE BUSCA NA WWW E O GOOGLE

1.1. O QUE É UM SISTEMA DE BUSCA NA WEB? Em 2017 a internet ultrapassou a marca de 4 bilhões de usuário ativos no mundo (INTERNET WORLD STATS, 2017). No Brasil, aproximadamente 64,7% da população com idade acima dos 10 anos possui acesso à internet, de acordo com pesquisa realizada pelo IBGE em 2016. A web, aquela acessada pela imensa maioria dos usuários de internet, tem hoje mais de 1,9 bilhão de websites (INTERNET LIVE STATS, 2018), que hospedam videos e imagens na ordem de grandeza das dezenas de bilhões. Os usuários frequentemente fazem uso de ferramentas de busca para encontrar o que procuram nesta vasta rede de conteúdo.

De acordo com o Pew Research Center 1 , sites de busca são os mais populares da web ao menos desde 2002, quando o instituto começou as pesquisas de números de acesso. A principal diferença entre 2002 e 2011, segundo eles, é que o uso de ferramentas de busca na web tornou-se ainda mais frequente. Em 2011, 92% dos usuários de Internet dos EUA faziam uso de ferramentas de busca, dos quais 59% realizavam buscas regularmente (ao menos uma vez por dia) (SEARCH ENGINE WATCH, 2011).

Uma ferramenta de buscas é basicamente um sistema de recuperação de informações que permite buscas por “palavra-chave” (HALAVAIS, 2017. P. 7). É um sistema de software projetado para pesquisar informações em um banco de dados. No entanto, se perguntarmos a algum usuário de internet o que é uma ferramenta de buscas, provavelmente não teremos como resposta uma definição como esta, mas seremos indicados a alguns sites de busca populares da web, como Google ou Bing.

1 O Pew Research Center é um centro de pesquisas estadunidense sediado em Washington, DC, especializado em fornecer informações sobre questões sociais, opinião pública e tendências demográficas de impacto nos Estados Unidos e no mundo. Realiza pesquisas de opinião pública, pesquisas demográficas, análises de conteúdo midiático e outras pesquisas científicas empíricas. O Pew Research Center é uma subsidiária do The Pew Charitable Trusts, ONG criada em 1948 por herdeiros da Sun Oil Company. 17

Google, Yahoo!, Bing e Baidu, dentre outros, são empresas privadas proprietárias de sites que oferecem um serviço gratuito e livremente acessível aos usuários: sistemas desenvolvidos para buscar conteúdo (sites, imagens, videos, etc.) na web com base em palavras-chave definidas pelo usuário.

A interação do usuário com ferramentas de busca geralmente aparenta ser bastante simples: o usuário insere os termos de busca e clica em “Pesquisar” (ou em outro termo equivalente, como “Buscar”), e o site retorna uma lista de sites, imagens, videos ou outros conteúdos que tenham relação com o termo de busca. De forma genérica (e bastante simplificada, como veremos a seguir), é possível descrever o processo realizado pelos sites de busca como uma consulta ao “universo de conteúdo disponível”, seguido por uma filtragem baseada nos termos de busca, para retornar ao usuário uma página de conteúdo relevante. Este “universo de conteúdo disponível” varia conforme os parâmetros definidos pelo sistema de busca, bem como o que é considerado relevante.

1.2. TIPOLOGIA DE SISTEMAS DE BUSCA Existe uma grande variedade de sistemas de busca, cada um com suas peculiaridades, metodologias de coleta e organização de conteúdo, o que dificulta a tipificação simples. Silvana Drumond Monteiro, Professora do Departamento de Ciência da Informação da Universidade Estadual de Londrina, propõe uma tipificação dos sistemas de busca de acordo com a multiplicidade de sistemas e suas respectivas características, bem como da dinamicidade que o desenvolvimento tecnológico impõe a estes sistemas. Segundo Monteiro, os sistemas de busca podem variar bastante, mas devem apresentar: a) processos de coleta e indexação; b) geração de índices; c) processos de busca. Os sistemas de busca podem ter sua anatomia classificada da seguinte maneira (MONTEIRO, 2009, p.73):

• Crawling (varrer): formas de captação e abastecimento do banco de dados;

• Indexing (indexar ou gerar o índice a partir da base de dados): formas de organizar as informações contidas do banco de dados;

18

• Searching (buscar através da interface de busca): formas de ordenação e apresentação dos resultados de busca.

Diagrama 1 – Tipologia dos mecanismos de busca, segundo Monteiro (2009)

Fonte: MONTEIRO, 2009, p. 72.

19

Seguindo o modelo aristotélico de definição de gênero e espécie, Monteiro tipifica os sistemas de busca de acordo com forma geral de organização ou indexação, ordenação de resultados, apresentação dos resultados e paradigma semiótico.

Apesar de, sob uma perspectiva classificatória, a anatomia dos sistemas de busca se enquadrar na anatomia de Monteiro, a forma que cada uma das partes desta anatomia opera apresenta bastante variação entre sistemas. Os eixos definidos por Monteiro (coluna vermelha do Diagrama 1) agregam os processos realizados por variados sistemas de busca. Alguns dos eixos abrangem mais de uma classificação anatômica, o que se deve, segundo Monteiro, ao fato das duas classificações estarem em pressuposição recíproca (MONTEIRO, 2009, p.10).

Esta pressuposição recíproca faz referência, segundo a pesquisadora, ao conceito de “dobra” que, segundo a leitura que Deleuze elabora sobre o pensamento de Leibniz, “[...] é a continuidade do avesso e do direito, a arte de instaurar essa continuidade, de tal maneira que o sentido na superfície se distribui dos dois lados ao mesmo tempo” (DELEUZE, 1998, p. 130). Ou seja, há um sentido de continuidade entre o avesso e o direito de certos processos realizados por classificações da anatomia dos sistemas de busca (MONTEIRO, 2009, p.10). A forma geral de organização ou indexação está simultaneamente nas classificações crawling e indexing – o primeiro processo é realizado na web, e o segundo processo dentro do banco de dados do Google. A ordenação dos resultados está ao mesmo tempo nas classificações indexing e searching – sendo o primeiro processo realizado apenas no banco de dados do Google e o segundo na web, aberto ao usuário.

INDEXAÇÃO E ORDENAÇÃO DE RESULTADOS Os mecanismos que realizam as buscas podem ser: diretórios ou catálogos, programas ou robôs de busca, sistemas híbridos e meta-buscadores.

DIRETÓRIOS OU CATÁLOGOS Os sistemas de busca via diretórios ou catálogos preenchem suas bases de dados através do esforço humano. Funcionam da seguinte forma: o proprietário

20

do site ou conteúdo a ser incluído na base de dados envia uma breve descrição daquilo que deseja incluir junto com a categoria a ser listada. A equipe do site de buscas via diretório revisa manualmente o conteúdo enviado e aprova ou rejeita a inclusão na base de dados. Como cada conteúdo é revisado quanto à relevância antes de ser incluído, teoricamente bases de dados de sites de busca via diretório teriam maior qualidade do que bases de dados construídas de forma automatizada.

Figura 1 - Página principal do buscador via diretório Yahoo!, em 1996

Fonte: Search Engine Journal, Yahoo! Visual Timeline 1996-2006 - acesso em 16/02/2019.

A indexação do conteúdo enviado é baseada na descrição submetida pelo proprietário do conteúdo, bem como nos critérios para aprovação próprios de cada site de busca via diretório.

O cálculo de relevância para selecionar e ordenar os resultados de pesquisa variam, mas normalmente correspondem os termos de busca com a descrição de conteúdo informada durante a indexação. Isso significa que as alterações feitas no conteúdo de uma página da Web não são levadas em consideração,

21

pois a busca é baseada na descrição do conteúdo, ao invés de basear-se no conteúdo em si.

Sistemas de busca via diretório tem bases de dados relativamente pequenas, pois a indexação de conteúdo é, em alguma medida, manual (não automatizada, como nos sistemas de busca que fazem uso de crawlers). A consequência é que buscas muito específicas ou obscuras podem não apresentar muitos resultados. Além disso, a base de dados fica desatualizada com relativa facilidade, já que o conteúdo indexado não será revisitado a não ser que exista uma solicitação explícita para tanto. Por fim, o critério de qualidade que define se uma página será incluída ou rejeitada no sistema de busca via diretório nem sempre é claro o suficiente. Yahoo! Directories, Open Directory Project e Internet Public Library são exemplos de sistemas de busca via diretório. Este tipo de buscador foi bastante popular no início da internet, quando a rede ainda era relativamente pequena, composta por algumas dezenas de milhares de websites. O crescimento exponencial do conteúdo disponível na web, junto à dificuldade de manter o diretório atualizado, fez com que este modelo entrasse em crise. Quando os primeiros motores de busca automatizados, como o Google, surgiram no final da década de 1990, sistemas de busca via diretório entraram em franco declínio.

Atualmente, sistemas de busca via diretório ainda são utilizados em alguns segmentos, como no meio acadêmico (Scopus e Web of Science). Nestes sistemas, a maioria da indexação é realizada manualmente e o conteúdo é sujeito à avaliação. Nestes casos, o cálculo de relevância leva em conta variáveis específicas do segmento, como o índice-h do autor. Como nenhum dos mais acessados sites de busca da atualidade é do tipo diretório, não trataremos mais deles nesta dissertação.

PROGRAMAS OU ROBÔS DE BUSCA Sistemas de busca via programas ou robôs de busca fazem uso de ferramentas automatizadas para pesquisar conteúdo na web. O espaço de pesquisa destes rastreadores é a web de superfície, e não a internet e nem mesmo o ciberespaço como um todo. A Internet é uma rede global distribuída de

22

computadores, cujas raízes estão nos meios acadêmico e militar americanos das décadas de 1950 e 1960. É uma rede de redes de computadores, composta por atores privados, públicos, acadêmicos, comerciais e governamentais de escopo local e global, mantida conectada por diversas tecnologias (cabos, redes sem fio, fibra óptica, etc.). Essa rede de redes de computadores é baseada no protocolo TCP/IP2 (Transmission Control Protocol/Internet Protocol), que regula como as máquinas comunicam-se umas com as outras, possibilitando uma rede na qual cada um dos atores pode enviar e receber informações de qualquer outro ator (GALLOWAY, 2004. p. 4).

Se a internet é a infraestrutura técnica da rede, o ciberespaço pode ser considerado como a rede mundial de signos e pessoas (MONTEIRO, 2008, p.100). De acordo com Monteiro, o ciberespaço é:

“Uma grande máquina abstrata, porque semiótica, mas também social, onde se realizam não somente trocas simbólicas, mas transações econômicas, comerciais, novas práticas comunicacionais, relações sociais, afetivas e, sobretudo, novos agenciamentos cognitivos. [...] Um espaço semântico/semiótico, onde o signo se dá em várias semióticas, desterritorializado, nômade, em escrita espacializada e com a memória em constante modificação (2007, p.1-12)”. Neste contexto, o ciberespaço é o território abstrato, semiótico e social possibilitado pela infraestrutura técnica que é a internet.

2 TCP/IP é uma abreviação da Internet Protocol Suite (Conjunto de protocolos da Internet), que é o modelo conceitual e o conjunto de protocolos de comunicação usados na Internet e em redes de computadores semelhantes. É comumente conhecido como TCP/IP porque os protocolos fundamentais no conjunto são o TCP (Transmission Control Protocol, ou Protocolo de Controle de Transmissão) e o IP (Internet Protocol). Estes protocolos foram resultado de pesquisa e desenvolvimento conduzidos pela DARPA (Defense Advanced Research Projects Agency, Agência de Projetos de Pesquisa Avançada de Defesa dos EUA) no final da década de 1960. Depois de iniciar a pioneira ARPANET, em 1969, a DARPA começou a trabalhar em várias outras tecnologias de transmissão de dados. Em 1973, Robert E. Kahn e Vinton Cerf elaboraram uma reformulação do protocolo ARPANET no qual as diferenças entre protocolos de redes locais eram ocultas usando um protocolo comum de internetwork e, em vez de a rede ser responsável pela confiabilidade, como na ARPANET, função foi delegada aos hosts. O protocolo TCP foi publicado pela primeira vez em 1974. Inicialmente, o TCP gerenciava tanto as transmissões como o roteamento de datagramas, mas à medida que o protocolo cresceu, outros pesquisadores recomendaram uma divisão de funcionalidade nas camadas de protocolo. Um design monolítico seria inflexível e levaria a problemas de escalabilidade. Assim, o Transmission Control Program foi dividido em dois protocolos distintos, o TCP e o Internet Protocol. 23

A web, por sua vez, é um espaço informacional na internet governado pelo World Wide Web Consortium3 (W3C). Esse consórcio internacional foi criado em 1994 para desenvolver protocolos de conteúdo comuns para serem usados na rede, como o HTML (Hypertext Markup Language) e CSS (Cascading Style Sheets) (GALLOWAY, 2004. p. 6). É no espaço informacional da web, uma rede dentro da internet, uma parte do ciberespaço, que estão todos os sites com endereços iniciados em “www”, URLs (Uniform Resource Locators) e documentos acessíveis através de navegadores como Chrome, Internet Explorer, Safari e Mozilla Firefox.

Assim, é preciso reforçar que, apesar dos termos Internet, ciberespaço e web serem frequentemente usados sem muita distinção, referem-se a objetos diferentes. Entretanto, é preciso lembrar que apesar de diferentes, ciberespaço, internet e web frequentemente se sobrepõe – um usuário que acessa um site qualquer da web está, simultaneamente, nos três. Enquanto a internet é o sistema global de redes de computadores, a infraestrutura que conecta máquinas em rede e permite a comunicação entre elas, o ciberespaço é o território virtual, semiótico e social. A web é uma parte do ciberespaço, um território informacional onde recursos são vinculados por hiperlinks e URLs. Funcionalmente, pode-se definir que a web é a parte “pública” da internet, acessível livremente por qualquer pessoa usando um navegador comum. É nela que estão todos os sites comerciais, acadêmicos, redes sociais, noticiosos e demais conteúdos.

No entanto, em contraste à web livremente acessível, também conhecida como “web de superfície”, está a web profunda (deep web), composta por redes fechadas (redes corporativas, bancárias, encriptadas, etc.), servidores privados e domínios não registrados. A web profunda é acessível diretamente por aqueles

3 A web, abreviação de World Wide Web (WWW), foi criada por Tim Berners-Lee em 1989 através da publicação do HTTP (Hypertext Transfer Protocol, Protocolo de Transferência de HiperTexto). Até então o ciberespaço não era facilmente navegável, pois não havia padrões quanto às linguagens e uso de protocolos na criação e localização de sites. O protocolo criado por Berners-Lee é um padrão para divulgação e leitura de documentos e outros recursos. Além disso, cada recurso é identificado por URLs (Uniform Resource Locators), interligados por links de hipertexto e acessíveis pela Internet. Posteriormente, Berners-Lee viria a fundar o W3C.

24

que detém chaves de acesso às redes fechadas (um usuário de internet banking, por exemplo) ou por ferramentas especializadas, como o navegador Tor (“The Onion Router”). O Tor não permite que um usuário acesse redes fechadas, ultrapassando a necessidade de chave de acesso, mas permite acessar redes privadas abertas e domínios não registrados, localizáveis apenas pelo IP (ou seja, a ferramenta permite ao usuário a navegação pela “parte aberta” da deep web).

Sistemas de busca via rastreadores não poderiam usar a internet como fonte de dados, pois ela é a infraestrutura comunicacional que conecta redes de computadores. Redes fechadas, privadas, que não permitem acesso público, também não podem, por definição, serem rastreadas. Assim, a fonte de dados de todos os sites de busca que fazem uso de rastreadores é a web de superfície.

Conforme explicado anteriormente, o processo realizado por sites de busca para construir um banco de dados e retornar resultados de pesquisa possui três etapas distintas: crawling, indexing, searching. Sistemas de busca via programas ou robôs de busca realizam todas estas etapas de forma automatizada.

Os robôs rastreadores (crawlers) são softwares que examinam individualmente páginas da web de forma automatizada, verificando se a página corresponde aos parâmetros de busca, isto é, se pode ser indexada ou não. Esta análise de cada página ocorre de acordo com critérios definidos pela Política de Rastreio (crawl policy). É esta política que determina o que o rastreador deve procurar em uma página da web, quais os parâmetros aceitáveis para enviar a página para indexação e como capturar informações suficientes para que o processo de indexação seja realizado com sucesso. O crawler pode, por exemplo, verificar o nome de arquivo padrão robots.txt, endereçado a ele, antes de enviar determinadas informações para serem indexadas, dependendo de vários fatores, como títulos, conteúdo da página, JavaScript4, CSS, cabeçalhos,

4 JavaScript, CSS e HTML são as tecnologias centrais da WWW. JavaScript permite a atualização dinâmica de páginas da web, ou seja, que a página responda a interações e inputs do usuário. CSS (Cascading Style Sheets) permite a separação entre apresentação e conteúdo, incluindo layout, cores e fontes. Essa separação tem o propósito de melhorar a acessibilidade de conteúdo, fornecer mais flexibilidade e controle na especificação de características de apresentação, permitir que várias 25

marcação HTML, metadados, etc. A Política de Rastreio assegura que o crawler vai levar em conta apenas os conteúdos considerados relevantes, e desconsiderar páginas vazias, spam ou websites sem links.

Ao enfrentar acusações de falta de transparência nos critérios de rastreamento e indexação, o Google publicou em 2009 as linhas gerais de suas políticas de rastreio (GOOGLE, 2018). Segundo o documento, proprietários de websites devem evitar: conteúdo gerado automaticamente, esquemas para inflar a quantidade de links de um site, páginas com pouco ou nenhum conteúdo original, cloacking (configurar dados do site para que o link capturado pelo rastreador seja diferente daquele acessado pelo usuário na web), redirecionamentos, links e textos ocultos na página, conteúdo copiado de outras páginas, palavras-chave irrelevantes em relação ao conteúdo da página, dentre outros. Todos os fatores descritos acima impedem que rastreadores recomendem a página para indexação, ou farão com que a página tenha um cálculo de relevância mais baixo.

Se a Política de Rastreio é uma forma de aprovar ou reprovar conteúdo para indexação, sempre haverá uma parte da web de superfície que o rastreador não irá considerar (a rigor, o Google considera tudo, elenca segundo seus critérios e exclui o que não é relevante ou que não está de acordo com suas políticas internas). Portanto, quando um usuário faz uma busca em uma ferramenta de pesquisa, estará buscando conteúdo dentro da parte da web indexada pelo crawler daquele site, e não da web de superfície como um todo. Assim, a Política de Rastreio é tanto um critério de inclusão do que deve ser indexado quanto de exclusão.

Apesar do Google possuir um índice imenso de páginas e conteúdos da web, fontes diversas no meio técnico e na imprensa assumem que o Google está considerando em sua indexação menos de 4% (SEEKER, 2015; TENNESSEAN,

páginas da Web compartilhem formatação especificando o CSS relevante em um arquivo .css separado e reduzir a complexidade e a repetição no conteúdo estrutural. HTML (HyperText Markup Language) descreve a estrutura de uma página da web semanticamente e incluiu instruções para a aparência do documento (distribuição de texto e imagens, fonte de imagens, dentre muitos outros aspectos que definem o layout das páginas da web).

26

2014) do total da web, com o restante pertencente à deep web, inacessível por meio de suas ferramentas de busca.

Quando um rastreador encontra uma página ou conteúdo da web que está de acordo com a Política de Rastreio, faz uma cópia do conteúdo e adiciona seu URL a um índice. Feito isso, o rastreador da web segue todos os links da página, repetindo o processo de copiar, procurar por informações relevantes para o processo de indexação e seguir links.

Rastreadores web refazem os processo de verificação de conteúdo periodicamente para atualizar automaticamente a base de dados e apresentar resultados de pesquisa válidos. Entre visitas do rastreador, a versão em cache da página (parte ou todo o conteúdo necessário para renderizá-la) armazenada na memória de trabalho do mecanismo de pesquisa é enviada quando um termo de pesquisa solicita sua exibição na página de resultados. Nesse caso, a página pode diferir dos termos de pesquisa indexados. A frequência de rastreio depende do site de pesquisa, mas é comum que uma página que foi atualizada apareça por dias sem atualização nos resultados de pesquisa.

Realizado o rastreamento, o conteúdo é indexado – ou seja, organizado através da associação de palavras-chave, tags, nomes de domínio e campos baseados em HTML. O crawler, ao visitar a página ou recomendar um conteúdo para indexação, já coleta uma série de dados relevantes que serão usados na organização e classificação. Em seguida associações são feitas em um banco de dados, disponibilizado para consultas de pesquisa na web. Uma consulta de um usuário pode ser uma única palavra. A indexação ajuda a encontrar informações relacionadas à consulta o mais rápido possível. Algumas das técnicas de indexação e armazenamento em cache são segredos comerciais, enquanto o rastreamento da web é um processo direto de visitar todos os sites de maneira sistemática.

Quando um usuário realiza uma pesquisa em um buscador que faz uso de programas ou robôs de busca, o sistema recorre ao conteúdo indexado no banco de dados. Em geral, é provável que uma quantidade enorme de conteúdo indexado corresponda aos termos inseridos pelo usuário no campo de busca. No entanto, o sistema utiliza parâmetros que definem as páginas que são 27

apresentadas e sua ordem. Para isso, o sistema realiza cálculos de relevância dos conteúdos indexados. Esse procedimento se justifica pela ideia de que a utilidade de um sistema de busca depende da relevância do conjunto de resultados que ele retorna.

Relevância é um conceito que foi explorado pela primeira vez em profundidade pelas Ciências da Informação em 1958 (MONTEIRO, FERNANDES, DICARLO, TREVISAN, 2017, p.166), durante a “International Conference for Scientific Information” (ICSI), em que a comunidade científica concordou com os seguintes aspectos:

a) relevância não é, exclusivamente, uma propriedade do documento;

b) relevância não é uma propriedade dicotômica [isto é, entre documentos satisfatórios e insatisfatórios ao pedido do usuário];

c) existe uma ‘relevância para o usuário’ que deve ser julgada [configurando- se, portanto, em um julgamento da relevância].

Ao longo dos anos, os sistemas de busca evoluíram significativamente e eles conseguem trazer à vista do usuário o que é relevante ao usuário segundo seus critérios. Entretanto, resta aos criadores de sistemas de busca o desafio de definir exatamente o que significa “conteúdo relevante ao usuário”.

“Basicamente, o problema reside em informar à máquina o que é relevante para um ser humano, pois até mesmo entre as pessoas há divergências em determinar com unanimidade o que é relevante para elas, talvez por se tratar de uma questão subjetiva, pessoal, intrínseca e imparcial” (MONTEIRO, FERNANDES, DICARLO, TREVISAN, 2017, p.168). A maioria dos mecanismos de pesquisa emprega métodos para classificar os resultados para fornecer os "resultados mais relevantes” primeiro. Como um mecanismo de pesquisa decide quais páginas são as melhores correspondências e em que ordem os resultados devem ser exibidos, varia muito de um mecanismo para outro. Existem várias formas de calcular a relevância, e cada um deles tem pesos relativos diferentes para fatores comuns, como densidade de palavras-chave, links ou metatags, localização e frequência de termos, e análise de links. O cálculo de relevância é normalmente realizado por

28

um ou mais algoritmos executados no banco de dados do sistema de busca. Em ciências da computação, um algoritmo é uma sequência finita de ações executáveis que visam obter uma solução para um determinado tipo de problema. É uma sequência de passos computacionais que serão executados pela máquina. Algoritmos diferentes são uma das principais razões pelas quais diferentes sistemas de busca que fazem uso de rastreadores fornecem páginas de resultados de pesquisa diferentes para os mesmos termos de pesquisa.

O Google deve seu sucesso, ao menos no início de sua trajetória enquanto empresa de tecnologia e sistema de busca, por uma inovação neste ponto do processo – o algoritmo PageRank. A maioria dos sistemas de busca automatizada do final da década de 1990 calculavam relevância de páginas da web com base na frequência com que o termo de busca sendo pesquisado ocorria nos sites (ou seja, páginas com mais ocorrências de determinado termo de busca sendo pesquisado eram consideradas mais relevantes do que outras com menos ocorrências daquele termo). O algoritmo PageRank, em vez disso, supõe que páginas da web com hiperlinks para outras páginas são mais importantes. Durante o processo de indexação, o algoritmo analisa os links de cada uma das páginas e atribui uma pontuação. Essa pontuação tem como base a soma ponderada das outras páginas que se ligam a ela. Assim, o PageRank realiza um cálculo de relevância com base na importância que cada página tem na rede, ao invés de analisá-la isoladamente. Veremos detalhadamente como o PageRank funciona mais adiante.

A última etapa na operação dos mecanismos de pesquisa é recuperar os resultados com base nos termos de pesquisa inseridos pelo usuário. O mecanismo de reconhecimento de termos de pesquisa também varia a cada sistema de buscas – enquanto sistemas mais primitivos levarão em conta todos os termos inseridos pelo usuário, exatamente como o usuário digitou, buscadores mais recentes podem usar abordagens relacionais, baseadas em inteligência artificial ou reconhecimento de padrões de escrita. Ao reconhecer preposições, sistemas de busca como o Yahoo! podem excluí-las da lógica de busca porque são comuns demais. Ou ainda, em sistemas como o Google, preposições são reconhecidas e propiciam resultados de busca mais acurados,

29

porque o sistema foi programado para “compreender” as relações que elas estabelecem entre palavras.

Figura 2 - Reprodução traduzida da organização conceitual de um motor de buscas via rastreador

Fonte: HALAVAIS, Alexander. Search Engine Society, p. 20.

Há sistemas de busca (como o Google e Bing, dentre outros) que relacionam a busca realizada por um usuário com buscas anteriores de outros usuários, a fim de identificar erros de digitação e retornar uma página de resultados adequada mesmo que o termo de pesquisa inserido contenha erros.

Sistemas de busca que fazem uso de crawlers dominaram o segmento de buscadores porque conseguem indexar uma quantidade imensa de sites e mante-la relativamente atualizada com baixo nível de esforço. No entanto, há desvantagens relevantes: rastreadores são robôs relativamente fáceis de manipular, e páginas podem ser configuradas para inflar artificialmente sua relevância perante outras. Além disso, o processo de indexação está diretamente ligado ao algoritmo de indexação, e páginas podem ser erroneamente indexadas, sendo exibidas em páginas de resultados de busca onde não deveriam estar.

30

O Google, Yahoo! e Bing são exemplos de mecanismos de pesquisa via robôs de busca. Nesta dissertação, sites que fazem uso de crawlers serão referidos, a partir de agora, indistintamente como buscadores, motores de busca, ferramentas de busca, mecanismos de busca e serviços da web (esta última uma categoria mais abrangente, que inclui outros serviços como redes sociais, agregadores de conteúdo, armazenamento na nuvem, e-mail, etc.).

HÍBRIDOS, METABUSCADORES E SEGMENTADOS Existem sistemas de busca híbridos, uma mistura de rastreadores e diretórios. Estes mecanismos híbridos usam tanto a indexação manual quanto a baseada em rastreadores para listar os sites nos resultados da pesquisa. A maioria dos mecanismos de pesquisa baseados em rastreadores, como o Google, permite em alguma medida a indexação manual e poderia ser considerado híbrido. Um exemplo possível seria o Google capturar a descrição de uma página da web de diretórios e mostrar nos resultados da pesquisa. Técnicas de SEO5 (Search Engine Optimization), desenvolvidas para melhorar o ranking de um website nos resultados de busca, frequentemente recorrem a descrições manuais criadas pelo proprietário do conteúdo com objetivo de facilitar o rastreamento e indexação. Estas descrições são disponibilizadas no arquivo padrão robots.txt da página, e de certa forma replicam a lógica operacional dos sistemas de busca via diretório – o proprietário do conteúdo submetido à indexação apresenta uma descrição, que poderá afetar como o site será indexado. A principal diferença, no entanto, é que a descrição é apenas um dos inúmeros fatores levados em consideração durante o rastreamento e indexação, e pode inclusive ser desconsiderada.

Há também metamecanismos de busca, que pesquisam vários outros sistemas de pesquisa de uma só vez e combinam os resultados em uma única

5 SEO significa "search engine optimization" (otimização do mecanismo de busca). É o processo de otimização de páginas da web para obtenção de mais tráfego a partir de resultados de pesquisa de sistemas de busca. Esta otimização busca compreender como um sistema de busca realiza rastreamento, quais são suas políticas de rastreio, e como calcula relevância da página de resultados para que uma ou mais páginas da web sejam melhor posicionadas na página de resultados de pesquisa.

31

lista. Embora eles normalmente apresentem uma quantidade maior de resultados para qualquer termo de busca, a relevância e a qualidade dos resultados podem ser prejudicadas. Dogpile e Clusty são exemplos de motores de busca do tipo meta.

Figura 3 - Página de resultados de busca do Glassdoor

Fonte: Glassdoor.com - acesso em 16/02/2019

Por fim, há mecanismos de busca direcionados ou segmentados, aqueles que se especializam em buscar conteúdo restrito a um local, atividade, tipo. São buscadores de emprego, acadêmicos6, de preços ou qualquer outro assunto. Seus processos de rastreamento, indexação e cálculo de relevância são direcionados para o tipo de conteúdo no qual são especializados. Exemplos não faltam – Indeed e Glassdoor são buscadores de empregos, Yummly é um buscador de receitas, FindMyPast é um buscador de genealogia, e o globalSpec é um buscador de produtos industriais e de engenharia. Gigantes como Google e Bing desenvolveram alguns sistemas de busca direcionados para competirem

6 Exemplos: SciELO — Scientific Electronic Library Online (www.scielo.org); Google Acadêmico (https://scholar.google.com.br); CiteSeerX (http://citeseer.ist.psu.edu); ResearchGate (https://www.researchgate.net); Mendeley (https://www.mendeley.com/); Portal de Periódicos CAPES (www.periodicos.capes.gov.br); Plataforma Sucupira: (https://sucupira.capes.gov.br); Lista de Periódico e Conferências: http://qualis.ic.ufmt.br. 32

na oferta de conteúdos específicos, como , Bing News, , Yahoo! Video, etc.

Dentre os buscadores direcionados ou segmentados há aqueles, como o DuckDuckGo, que se especializam em buscar conteúdo de uma determinada maneira (ao invés de restringir os resultados de busca por local, tema ou atividade). Este buscador foi elaborado com preocupações específica acerca da privacidade dos usuários, e oferece buscas sem fazer uso de nenhum dado do usuário. Essa característica também apela àqueles que preferem realizar buscas na internet sem qualquer tipo de personalização de resultados (veremos mais sobre personalização de resultados de busca adiante).

1.3. GOOGLE O Google foi criado em 1996 como projeto de pesquisa de doutorado de e na Universidade de Stanford, na Califórnia. Enquanto os mecanismos de busca da época classificavam os resultados contando quantas vezes os termos da pesquisa apareciam nas páginas indexadas, os dois teorizaram sobre um sistema que analisava as relações entre os sites, estabelecendo um cálculo relacional de relevância. Este sistema determinaria o ranking de um site dentro de um sistema de busca pelo número e importância de páginas conectadas a ele, como se fosse um sistema de reputação. Eles chamaram essa nova metodologia de cálculo de relevância de PageRank (“classificador de página”, mas também pode ser entendido como uma brincadeira com o sobrenome de seu inventor, Larry Page).

O PageRank é um algoritmo de análise de links que associa valores às páginas da web, com o objetivo de "medir" sua importância relativa dentro do conjunto. Ou seja, o algoritmo calcula relevância de uma página relacionalmente, determinando qual o peso de cada website de acordo com a rede de conexões que ele tem com outras páginas. Outros fatores, além da relação entre websites, como o Rank do Autor de determinado conteúdo, podem contribuir para o cálculo de relevância. O valor da classificação indica a importância de uma determinada página. Um hiperlink para uma página conta como um voto de apoio. O PageRank de uma página é definido de forma recursiva e depende do número e

33

da métrica de PageRank de todas as páginas vinculadas a ele ("links de entrada"). Uma página que está ligada a vários sites relativamente importantes (aqueles com alto PageRank) tem pontuação alta, enquanto um site que não tem links de entrada (links que levam a ele a partir de outras páginas) é considerado sem importância.

Para compreender o cálculo realizado pelo PageRank de forma simplificada, imaginemos um universo com apenas quatro websites (A, B, C, D).

• A tem 1 link de saída (para D)

• B tem 2 links de saída (D e A)

• C tem 1 link de saída (para D)

O PageRank de D é igual à soma dos PageRanks dos sites que tem links direcionados a ele dividido pela quantidade de links até D de cada um deles.

푃푅(퐴) 푃푅(퐵) 푃푅(퐶) 푃푅(퐷) = + + 1 2 1

Figura 4 - Esquema ilustrativo de cálculo de reputação do Pagerank

Fonte: Elaborado pelo autor.

34

A partir desse exemplo é possível verificar que links de páginas com alto PageRank e com poucos links de saída valem mais do que muitos links de páginas de baixa pontuação no PageRank. E quanto mais links de saída, menor a nota atribuída.

Há também distorções que precisam ser ponderadas. Alguns sites têm muitos links de entrada, mas não se vinculam a outras páginas. Para equilibrar esse fenômeno, o PageRank de sites sem links de saída é distribuído igualmente entre todos os outros sites que levam a ele.

O nome original da ferramenta de busca que fazia uso do Pagerank era Backrub, uma referência ao algoritmo subjacente que conta os backlinks (hyperlink de um website a outro). Depois de aproximadamente um ano de desenvolvimento, em 1997, o nome Backrub foi alterado para Google Search Engine. O nome Google supostamente surgiu quando Larry e Sergey procuravam por formas de definir número grandes. Procuraram na internet por “googol”, que é um número 1 seguido por 100 zeros, mas teriam grafado o termo de busca incorretamente, digitando “google”. A corruptela de “googol” era mais fácil de escrever e pronunciar, e teria sido adotada rapidamente. De acordo com o próprio Google, “não existe um googol de nada no universo. Nem de estrelas, partículas ou átomos.” O nome, portanto, refletiria a missão do motor de buscas de organizar a virtualmente ilimitada quantidade de informação da web (STANFORD DAILY, 2003). No entanto, Google se parece tanto com “googol” quanto com “”, que em inglês significa “óculos”, uma referência talvez até mais apropriada ao serviço realizado pelo buscador.

Com o sucesso inicial do motor de buscas, Larry e Sergey buscaram investidores para fazer a companhia crescer. Em 1998 o Google recebeu US$ 100 mil de Andy Bechtolsheim, co-fundador da Sun Microsystems, e de outros três investidores - , fundador da .com; , professor de ciência da computação da Universidade de Stanford e do empresário Ram Shriram. Em março de 1999, a empresa mudou seus escritórios para Palo Alto, na Califórnia, que abriga várias start-ups de tecnologia do Vale do Silício. No mesmo ano foi realizada uma nova rodada de investimentos na

35

companhia, somando US$ 25 milhões e incluindo empresas de capital de risco como Kleiner Perkins Caufield & Byers e Sequoia Capital.

No ano seguinte (2000), o Google começou a vender anúncios associados a palavras-chave de busca. Este modelo de venda de publicidade relacionado a palavra-chave foi inspirado no modelo criado e implementado pela Goto.com, uma start-up de tecnologia desenvolvida em uma incubadora de empresas chamada Idealab. A Goto.com, entretanto, fazia uso da associação entre anúncios pagos e palavras-chave de termos de busca para ordenar a página de resultados de busca. Ou seja, sites que pagavam a Goto.com tinham melhor classificação na página de resultados. No Google, anunciantes não poderiam influenciar o cálculo de relevância dos resultados de busca. Tinham apenas a possibilidade de pagar para que anúncios relacionados às palavras-chave fossem exibidos no topo e lateral da página de resultados, em um modelo de pagamento para cada mil exibições (CPM, ou Cost per mille).

O primeiro uso do "Google" como verbo na cultura pop aconteceu na série de TV Buffy the Vampire Slayer, em 2002. Neste ano, o Google mudou sua principal forma de ganhar financiamento ao permitir pagamento de anúncio por clique, conhecido como CPC (Cost per Click) ou PPC (Pay per Click). O novo modelo de negócios funciona da seguinte maneira: anunciantes cadastram seus anúncios, determinam o limite em dólares de quanto gostariam de pagar por clique e associam palavras-chave. Quando um usuário realiza uma busca, o Google verifica quais anúncios podem ter relação com os resultados de busca. Se há mais de um anunciante relevante para o conjunto de palavras-chave sendo pesquisadas, um leilão automático é realizado.

O leilão automático é definido por dois fatores: limite determinado pelo anunciante de quanto pagaria por clique e pontuação de qualidade determinada pelo Google. A pontuação de qualidade é definida pela relevância da página sendo anunciada (calculada pelo PageRank) e CTR (Click Through Rate, ou Taxa de Cliques), que é o número de acessos da página sendo anunciada dividido pelo número de visualizações de anúncio. Ou seja, um anúncio terá pontuação de qualidade mais alta quando seu link tiver classificação alta no PageRank e for clicado com frequência. Quanto maior for a pontuação de

36

qualidade e o valor limite determinado pelo anunciante para cada clique, mais competitivo será o anúncio e maiores as chances dele ser exibido.

O Google continua a oferecer a anunciantes um modelo de pagamento para cada mil exibições (CPM), mas sempre que houver anúncios concorrentes um leilão automático ocorre como no modelo de custo por clique (CPC ou PPC).

Em 2004, o verbo “to google” foi adicionado ao Merriam-Webster Collegiate Dictionary e ao Oxford English Dictionary, descrito como “usar o mecanismo de pesquisa do Google para obter informações na internet”. O Google tornou-se uma empresa de capital aberto no mesmo ano, quando realizou uma IPO (Initial Public Offering) de 19,605,052 ações por US$ 85 cada (BUSINESSWEEK, 2004). A venda totalizou US$ 1,6 bilhões, e seu sucesso na bolsa de valores americana fez com que a companhia atingisse um valor de mercado de US$ 23 bilhões. O Google deixou o status de start-up e tornou-se oficialmente uma gigante global de tecnologia. Não por acaso, no ano seguinte o Washington Post publicou uma reportagem sobre um aumento de 700% no lucro do terceiro trimestre daquele ano para o Google, em grande parte graças a grandes empresas que mudaram suas estratégias de publicidade de jornais, revistas e televisão para a Internet (WASHINGTON POST, 2005).

Neste contexto, quando a Goto.com mudou de nome para Overture Services, em 2007, processou o Google por violações de patentes na metodologia de pagamento por clique e leilão automatizado entre anunciantes. A forma de rentabilizar anúncios no Google era baseada na tecnologia da Goto.com, apesar do modelo de negócio ser diferente (Goto.com cobrava para classificar anunciantes nos resultados de pesquisa). Durante a disputa legal, a Overture Services foi comprada pelo Yahoo! e renomeada como Yahoo! Search Marketing. O caso foi resolvido fora do tribunal, quando o Google concordou em emitir ações ordinárias para o Yahoo! em troca de uma licença perpétua (CNET, 2004).

Até então, qualquer usuário que realizasse uma busca no Google teria uma página de resultados apenas com links para websites. Marissa Mayer, então Vice-Presidente de Produtos de Pesquisa e Experiência do Usuário, explicou que a empresa “tentava derrubar as barreiras que tradicionalmente separam 37

nossas várias propriedades de pesquisa e integrar as vastas quantidades de informações disponíveis em um conjunto simples de resultados da pesquisa." (GOOGLE OFFICIAL BLOG, 2007). Estava sendo lançada em 16 de maio de 2007 um aprimoramento significativo no mecanismo de busca, denominado “Universal Search” (pesquisa universal). A pesquisa universal incorpora na página de resultados de pesquisa uma ampla variedade de fontes, incluindo sites, notícias, fotos, mapas, blogs e vídeos. Esta era nada menos que uma revolução no formato de resultados de pesquisa em sistemas de busca. Mas uma mudança ainda maior no sistema de busca do Google ainda estaria por vir.

Figura 5 - Universal Search do Google em 2007

Fonte: Search Engine Land, Google Universal Search, 2007

O Google convidou desenvolvedores da Web para testar uma nova arquitetura de pesquisa, que recebeu o codinome "Caffeine" (Cafeína), e dar seu feedback em agosto de 2009. A nova arquitetura não forneceu diferenças visuais na interface do usuário, mas adicionou melhorias significativas de velocidade e uma nova infra-estrutura de indexação no back-end da ferramenta.

Com o Caffeine, o Google mudou seu sistema de indexação de back-end do MapReduce para . O MapReduce é um modelo de programação 38

composto de um procedimento de mapeamento de dados que realiza filtragem e ordenação, seguido de um método “reduce”, que executa uma operação de resumo, ou consolidação de dados. Se o universo informacional fosse a flora de uma determinada região, o mapeamento de dados consistiria na organização das plantas de acordo com a classificação científica (ordem, família, gênero, espécie). A operação “reduce”, por outro lado, contaria quantas plantas há em casa fase de classificação científica e quantas são essas fases. O "MapReduce" também pode ser considerada uma "infraestrutura" ou "framework" 7 , pois orquestra o processamento organizando os servidores distribuídos em rede, executando as várias tarefas em paralelo, gerenciando todas as comunicações e transferências de dados entre as várias partes do sistema, e fornecendo redundância e tolerância a falhas.

Figura 6 - Esquema ilustrativo do MapReduce

Fonte: Elaborado pelo autor.

O Bigtable tem o mesmo propósito básico que o MapReduce – armazenar informação de forma organizada e classificada. A novidade não está, portanto, no que o Bigtable faz, mas como faz. É um framework de banco de dados distribuídos em rede baseado em tabelas cujos nomes e formato das colunas podem variar de linha para linha na mesma tabela, produzindo um mapa

7 Framework é uma ferramenta ou metodologia é uma estrutura base, uma plataforma de desenvolvimento, como uma espécie de arcabouço, que contém ferramentas, guias, sistemas e componentes que agilizem o processo de desenvolvimento de soluções. O MapReduce é um framework porque é uma estrutura genérica e adaptável, que pode ser usada tanto para organizar e distribuir dados coletados durante o rastreamento da web quanto para organizar e distribuir processamento entre servidores.

39

ordenado e multidimensional. O Google anunciou a conclusão do projeto "Caffeine" em 8 de junho de 2010, alegando melhoria de 50% na oferta de resultados mais “frescos” devido à atualização contínua de seu índice (provavelmente resultante de web crawling mais intenso e frequente).

Durante o período de final do desenvolvimento da atualização “Caffeine”, em 4 de dezembro de 2009, o Google lançou oficialmente o “Personalized Search” (Busca Personalizada), que foi prontamente aplicada a todos os usuários da pesquisa do Google, incluindo aqueles que não estavam conectados a uma conta do Google.

A partir daquela manhã, o Google passaria a utilizar 57 “sinalizadores” – todo tipo de coisa, como o lugar de onde o usuário estava conectado, que navegador estava usando e os termos que já havia pesquisado – para tentar adivinhar quem era aquela pessoa e de que tipos de site gostaria. Mesmo que o usuário não estivesse usando sua conta do Google, o site padronizaria os resultados, mostrando as páginas em que o usuário teria mais probabilidade de clicar segundo a previsão do mecanismo (PARISER, 2012. p.7). Todas as pesquisas no motor de buscas do Google seriam associadas a um registro (cookie8) do navegador. Em seguida, quando um usuário realizasse uma pesquisa, os resultados da pesquisa não se baseariam apenas na relevância de cada página da Web para o termo de pesquisa, mas também em quais sites o usuário (ou outra pessoa usando o mesmo navegador) visitou anteriormente. Isso proporcionaria uma experiência personalizada que poderia aumentar a relevância dos resultados de pesquisa para cada usuário específico (GOOGLE OFFICIAL BLOG, 2009).

De acordo com Silvana Monteiro, a personalização se faz a partir da intenção de busca, que é inferida por meio das trilhas sígnicas semânticas deixadas pelo

8 Um cookie é um pequeno volume de dados enviado de um site e armazenado no computador do usuário pelo navegador da web enquanto o usuário está navegando. Os cookies foram projetados para serem um mecanismo confiável para os sites lembrarem informações (como itens adicionados no carrinho de compras em uma loja online) ou para registrar a atividade de navegação do usuário (incluindo clicar em determinados botões, fazer login ou registrar quais páginas foram visitadas no passado).

40

sujeito navegador. Isso é possível através do processamento das informações que o buscador coletou sobre o usuário.

“Hoje, é difícil fazer uma ‘busca pura’, isto é, sem algum tipo de personalização. O fato de estar ‘logado’, a cidade em que o usuário se localiza, a plataforma utilizada, o sistema operacional, a navegação, enfim, tudo é capturado por sistemas de busca” (MONTEIRO, FERNANDES, DICARLO, TREVISAN, 2017, p.171). Além do PageRank, o Google, ao longo dos anos, adicionou muitos outros critérios para determinar a classificação das páginas nas listas de resultados. Em 2010, a companhia revelou que usava mais de 200 sinais para indexar, classificar relevância e gerar a página de resultados de busca, cujas especificidades são mantidas em segredo (WIRED, 2010).

Em fevereiro de 2011 o Google publicou uma nova mudança no algoritmo de classificação de resultados de pesquisa, chamado Panda. O Panda (cujo nome deriva do engenheiro Navneet Panda, principal responsável pela inovação técnica que permitiu sua implementação) teve como principal objetivo reduzir a classificação de “sites de baixa qualidade”, sites “pouco relevantes” e “content farms”9.

O site CNET (2011) realizou testes e relatou um aumento no ranking de sites de notícias e sites de redes sociais após esta atualização, e uma queda nos rankings de sites que contêm grandes quantidades de publicidade. Essa mudança teria afetado o posicionamento nos resultados de pesquisa de aproximadamente 12% de todos os resultados do Google. O Panda recebeu atualizações após o lançamento original em fevereiro de 2011 e seu efeito tornou-se global em abril de 2011. Na mesma época, o Google forneceu uma lista de 23 tópicos no seu blog, respondendo à pergunta "O que é um site de alta qualidade para o Google?" que supostamente ajuda os webmasters a "entrar na mentalidade do Google" (GOOGLE BLOG, 2011). Neste mesmo ano, o número

9 Uma content farm (fazenda de conteúdo ou fábrica de conteúdo) é uma empresa que emprega um grande número de escritores freelancers para gerar grandes quantidades de conteúdo textual especificamente projetado para satisfazer algoritmos para recuperação máxima por mecanismos de busca automatizados. Seu objetivo principal é gerar receita de publicidade através da atração de visualizações de páginas de leitores. 41

de visitantes únicos mensais do Google ultrapassou um bilhão pela primeira vez, um aumento de 8,4% em relação a maio de 2010 (931 milhões).

Figura 7 – Knowledge Graph do Google em 2018

Fonte: Google Support - acesso em 21/09/2018

No ano seguinte, 2012, o Google passou a apresentar informações geradas automaticamente a partir dos resultados de pesquisa em uma caixa chamada “Knowledge Graph” (Grafo de Conhecimento) (GOOGLE, 2018). As informações cobertas pelo Knowledge Graph cresceram significativamente após o lançamento, triplicando seu tamanho original em sete meses, e sendo capazes de responder "cerca de um terço" das 100 bilhões de pesquisas mensais processadas pelo Google em maio de 2016 (WASHINGTON POST, 2016). São as informações contidas no Knowledge Graph que costumam ser usadas como

42

resposta falada em outros serviços do Google, como o Google Assistant10 e o Google Home11.

Aprimorando ainda mais seu algoritmo para diminuir a classificação de sites que o Google “entende” como indesejáveis ou pouco relevantes, foi lançada em abril de 2012 a atualização Penguin. Esta alteração teve como objetivo principal reduzir a classificação de sites que não estão de acordo com as diretrizes para Webmasters do Google nos resultados de pesquisa. Sites que fazem uso de técnicas para manipular a quantidade de links apontando para a página (e portanto afetando a classificação do PageRank do site) sofreram uma redução significativa na sua relevância para o algoritmo de classificação de resultados. De acordo com estimativas do próprio Google, o Penguin afeta aproximadamente 3,1% das consultas de pesquisa em inglês, cerca de 3% das consultas em idiomas como alemão, chinês e árabe, e uma porcentagem ainda maior delas em idiomas "que facilitam spam" - por exemplo, 5% das consultas em polonês foram afetadas (GOOGLE BLOG, 2012).

Diversas atualizações do Penguin foram lançadas ao longo dos anos, até que em setembro de 2016 o Google anunciou que o Penguin faria parte permanente do algoritmo central, o que significa que seria atualizado em tempo real. Portanto, não haveriam mais anúncios do Google relacionados

10 Google Assistant é um assistente virtual desenvolvido com inteligência artificial para uso específico em smartphones e tablets. Os usuários interagem com o Google Assistant principalmente por meio de voz, embora ele também seja compatível com teclado. Quando inicialmente lançado (2016), o assistente virtual podia pesquisar na Internet, agendar eventos e alarmes, ajustar configurações de hardware no dispositivo do usuário e mostrar informações da Conta do Google do usuário. O Google também anunciou que o Assistente pode identificar objetos e coletar informações visuais por meio da câmera do dispositivo, além de oferecer suporte a compra de produtos e envio de dinheiro, e também identificar músicas. 11 Google Home é um alto-falante lançado no fim de 2016 e desenvolvido com inteligência artificial, que permite a utilização de comandos de voz para interagir com o assistente virtual do Google, o Google Assistant. O aparelho integra uma grande quantidade de serviços, permitindo que os usuários escutem músicas, controlem a reprodução de vídeos ou fotos ou recebam atualizações de notícias inteiramente por voz. Os dispositivos do Google Home também têm suporte integrado para automação residencial, permitindo que os usuários controlem eletrodomésticos inteligentes por voz. Uma atualização em 2017 trouxe o suporte a vários usuários, permitindo que o dispositivo diferencie até seis pessoas por voz. No mesmo ano, o Google anunciou várias atualizações para o Google Home, incluindo: chamadas gratuitas por telefone no Reino Unido e no Canadá; atualizações proativas antes de eventos agendados; respostas visuais em dispositivos móveis ou televisores compatíveis com ; Streaming de áudio Bluetooth; e a capacidade de adicionar lembretes e compromissos do calendário. 43

especificamente a atualizações sobre ele. Tempo real também significa que os sites são avaliados em tempo real e os rankings são impactados em tempo real.

A receita consolidada da corporação para o terceiro trimestre de 2013 foi divulgada em meados de outubro de 2013 como US$ 14,89 bilhões, um aumento de 12% em relação ao trimestre anterior. O negócio de anúncios na Internet do Google foi responsável por US$ 10,8 bilhões desse total, com um aumento no número de cliques dos usuários em anúncios (GUARDIAN, 2013). De acordo com o relatório anual da Best Global Brands da Interbrand, o Google foi a segunda marca mais valiosa do mundo (atrás da Apple Inc.) em 2013, 2014, 2015 e 2016, com uma avaliação de aproximadamente US$ 133 bilhões (INTERBRAND, 2016).

Foi também em 2013, em meio a resultados financeiros extremamente promissores, que o Google realizou mais uma atualização significativa de seu algoritmo de pesquisa, nomeada "Hummingbird". Seu nome teria sido inspirado na velocidade e precisão do beija-flor – pássaro que move-se rapidamente de flor em flor, pairando somente o tempo necessário para beber do néctar antes de seguir para a próxima fonte de alimento. A mudança foi anunciada em 26 de setembro de 2013, depois de já estar ativa para todos os usuário do Google havia um mês. O Hummingbird coloca maior ênfase em consultas de linguagem natural, considerando contexto e significado dos termos de busca ao invés de palavras-chave individuais. Ele também analisa mais profundamente o conteúdo de páginas individuais de um site, com capacidade aprimorada de levar os usuários diretamente à página mais apropriada, em vez de direcionar à página inicial de um site.

Amit Singhal, então chefe de busca do Google, disse à Search Engine Land que o Hummingbird foi a mudança mais dramática do algoritmo desde 2001, quando ele começou a trabalhar no Google (SEARCH ENGINE LAND, 2013). A política de rastreamento e cálculo de relevância mudaram com a introdução do Hummingbird. O algoritmo passa a considerar as relações entre os termos de pesquisa, com o objetivo de retornar páginas de resultados que correspondem ao significado total do termo sendo pesquisado, em vez de páginas que combinam apenas algumas palavras. Embora a palavras-chave ainda sejam

44

individualmente importantes, o Hummingbird adiciona mais força aos termos de pesquisa longos, como perguntas. O uso de sinônimos também foi otimizado – em vez de listar os resultados com frases ou palavras-chave exatas, o Google mostra mais resultados relacionados ao tema. Para tornar os resultados de pesquisa mais relevantes, o Hummingbird considera a autoridade de uma página (Ex. PageRank) e, em alguns casos, a autoridade do autor da página, para determinar a importância de um site.

Figura 8 - Reprodução de uma busca semântica

Fonte: Elaborado pelo autor, com base no exemplo do artigo de CALDEIRA (2015).

A inovação introduzida por esta atualização do algoritmo é baseada em web semântica, a chamada “busca semântica”. Para compreender o que é web semântica é preciso primeiro definir o que é a web atual, do ponto de vista da linguagem. Fátima Caldeira, pesquisadora da área de Letras da PUCRS, explica que a internet atual é definida como a Web Sintática, na qual os computadores meramente apresentam as informações, mas cujo processo de interpretação ainda fica sob a responsabilidade de seres humanos (CALDEIRA, 2015). A pesquisadora da PUCRS define web semântica como a tecnologia que interliga significados de diferentes palavras e consegue atribuir um sentido aos conteúdos publicados na internet (CALDEIRA, 2015). No ambiente informacional da web,

45

“otimizações” semânticas como estas tornadas possíveis pelo Hummingbird são sinônimo de “relevância” (MONTEIRO, FERNANDES, DICARLO, TREVISAN, 2017).

Ao buscar por “qual a idade do Guga?” no Google, é possível verificar rapidamente qual a funcionalidade real da otimização semântica trazida pelo Hummingbird. A página de resultados de busca não apenas apresenta uma resposta direta à pergunta acerca da idade de Guga (perceba-se que os resultados apresentam-no como Gustavo Kuerten – termo que não fazia parte da consulta), mas também uma caixa contendo vários outros dados acerca do ex-atleta (CALDEIRA, 2015).

Neste novo cenário, desenvolvedores especializados em SEO (Search Engine Optimization) foram incentivados a usar “linguagem natural” ao descrever sites, em vez de usarem palavras-chave. O Google os aconselhou a fazer uso efetivo dos recursos técnicos do site, como links de página, elementos na página, incluindo tags de título, endereços de URL e tags HTML, além de escrever conteúdo relevante e de alta qualidade sem duplicação.

Em 2013, a Comissão Europeia, órgão de fiscalização da União Europeia, considerou que o motor de buscas do Google favorecia os produtos do próprio Google no cálculo de relevância, em vez de oferecer aos consumidores o melhor resultado para suas necessidades. A Comissão Europeia enfatizou que cerca de 80% dos smartphones vendidos no mercado europeu usam o Android (sistema operacional para dispositivos móveis desenvolvido pelo Google) e, com suas ações, o Google viola a lei antitruste. Margrethe Vestager, Comissária Europeia para a Concorrência, afirmou em 2016 que acredita que o comportamento do Google nega aos consumidores uma escolha ampla de aplicativos e serviços móveis, além de impedir a inovação por parte de outros participantes, violando as regras antitruste da UE (DW, 2016).

O Google foi considerado culpado pela Comissão Europeia em 7 de junho de 2017 e recebeu uma multa recorde de US$ 2,7 bilhões. O veredito correspondia a dois casos antitruste da União Européia: um envolvendo seus produtos publicitários e outro relacionado à empresa de telefonia móvel e sistema operacional Android (comprada pelo Google em julho de 2005). Em ambos os casos, o Google foi considerado culpado de favorecer seus próprios 46

produtos e serviços em relação aos da concorrência. O Google negou as acusações da União Européia alegou que "seus serviços ajudaram a economia digital da região a crescer". Os US$ 2,7 bilhões de multa representaram pouco mais de 2,5% da receita do Google em 2016 (CNN, 2017).

A gerente de engenharia do Google, Rachel Potvin, revelou detalhes sobre o código de software do Google em uma conferência de engenharia de software em setembro de 2015 (WIRED, 2015). Ela disse que a base de código do Google, que abrange todos os seus serviços web12 (Google Search, , , Google+, , , YouTube, etc.), consiste em mais de 2 bilhões de linhas de código. Comparativamente, o Facebook inteiro tem 61 milhões de linhas de código, enquanto o sistema operacional Android tem aproximadamente 15 milhões de linhas de código e o Windows XP e Windows 7 atingem, cada um, a marca de pouco menos de 40 milhões de linhas de código (WIRED, 2015).

Todo esse código é armazenado em um repositório de código disponível para todos os 25.000 engenheiros do Google, e o código é copiado e atualizado regularmente em dez data centers do Google. Segundo a gerente de engenharia, desenvolvedores podem fazer uma única alteração de código e implantá-la em todos os serviços ao mesmo tempo. A única exceção ao acesso irrestrito para desenvolvedores é o algoritmo de resultados de pesquisa do PageRank (armazenado separadamente e acessado por apenas alguns funcionários específicos). Os códigos do sistema operacional Android e do navegador também seriam mantidos separados, mas não são serviços web e portanto não entram na conta do total de linhas de código feita pela funcionária do Google.

Com o aumento no número de usuário que realizam buscas por aparelhos móveis, como smartphones, e a subsequente captura de dados sobre localização destes usuários no momento em que realizam a interação com o

12 O Google atualmente é uma multiplicidade de serviços, muito além de apenas um sistema de buscas. Serviços incluem serviço de e-mail, serviços de localização, aplicativos online para produção de texto, apresentação e planilha, dentre muitos outros. 47

sistema, o Google viu uma nova oportunidade de personalização de resultados de busca. Lançada em julho de 2014, a atualização Pigeon teve como objetivo aumentar a classificação de relevância em resultados de busca de sites locais, ou seja, próximos da localização do usuário no momento da busca. As alterações também afetaram os resultados da pesquisa mostrados no Google Maps, juntamente com os resultados de pesquisa normais do Google.

Em outubro de 2015 o Google confirmou a existência e detalhou a utilidade de uma parte do algoritmo Hummingbird, chamada RankBrain, cuja atuação e impacto haviam sido especulados por anos. Esta parte do algoritmo Hummingbird realiza machine learning 13 , e tem como objetivo fornecer resultados de pesquisa mais relevantes para os usuários com base em web semântica. Em uma entrevista no mesmo ano, um funcionário do Google afirmou que o RankBrain era o terceiro fator mais importante no algoritmo de classificação, juntamente com links e conteúdo (ou seja, juntamente com o trabalho realizado pelo PageRank e conteúdo formatado de forma a “agradar” os crawlers) (BLOOMBERG, 2015). De acordo com este membro da corporação, o RankBrain produz entre 10% e 15% dos resultados de busca (SEARCH ENGINE LAND, 2016).

O RankBrain foi projetado para “entender” quais palavras tem significados semelhantes, frases e perguntas, considerando as relações entre as palavras inseridas no campo de busca. Cada consulta é classificada em vetores de palavras, também conhecidos como “representações distribuídas”, que são termos próximos uns dos outros em termos de similaridade linguística. Este algoritmo usa uma abordagem estatística para tentar mapear esta consulta em palavras (entidades) ou clusters de palavras que têm chance razoável de

13 Machine learning (aprendizado de máquina) é um termo usado simultaneamente para definir a área de estudo, técnicas e tecnologias de algoritmos que os sistemas de computador usam para realizar efetivamente uma tarefa específica sem usar instruções explícitas, confiando em padrões e inferência baseada em estatística. É considerado um subconjunto da inteligência artificial. Algoritmos de aprendizado de máquina constroem um modelo matemático com base em dados de uma amostra, conhecido como "dados de treinamento", para fazer predições ou decisões sem ser explicitamente programado para realizar a tarefa. O aprendizado de máquina está intimamente relacionado à estatística computacional, que se concentra em fazer previsões usando computadores. 48

combinarem. Portanto, em uma simplificação, poderia-se dizer que o RankBrain tenta adivinhar o que as pessoas querem dizer e registra os resultados.

Quando offline, o RankBrain recebe lotes de pesquisas anteriores e aprende, correspondendo aos resultados da pesquisa. Estudos mostraram como o RankBrain interpretou melhor as relações entre as palavras. Isso pode incluir o uso de palavras que antes eram desconsideras em em uma consulta de pesquisa por serem muito comuns ("o", "e", “sem”, etc.) – palavras que foram historicamente ignoradas anteriormente pelo Google, mas que às vezes são de grande importância para entender completamente o significado ou a intenção subjacente da consulta de pesquisa. Também é possível analisar padrões entre pesquisas que aparentemente não estão conectadas, para entender como essas pesquisas são semelhantes entre si. Uma vez que os resultados do RankBrain são verificados pela equipe do Google, o sistema é atualizado e entra em operação novamente.

O RankBrain ajudou o Hummingbird a fornecer resultados mais precisos, pois pode aprender palavras e frases que talvez não conheça. Além disso, também os aprende especificamente para o país, bem como para o idioma, no qual é feita uma consulta. Então, se um usuário pesquisar uma consulta com a palavra "boot" dentro dos Estados Unidos, receberá informações sobre calçados. No entanto, se a consulta vier através do Reino Unido, então as informações também podem ser relativas a espaços de armazenamento de carros ou a uma rede de lojas de cosméticos.

Usuários do Google continuaram a realizar buscas por dispositivos móveis, como smartphones e tablets, ao ponto em que há mais buscas por celulares e outros aparelhos semelhantes do que por computadores desktop e notebooks em 2016 (GOOGLE WEBMASTERS CENTRAL BLOG, 2016). Pesquisas por dispositivos móveis incluem não apenas aquelas realizadas em navegadores móveis, mas também por voz, como pelo Google Assistant e Google Home. Por conta desta mudança de comportamento, o Google anunciou naquele ano que o algoritmo do mecanismo de busca seria alterado para ter dois índices de páginas – um índice primário dedicado a dispositivos móveis e um índice secundário, atualizado menos frequentemente, para uso em computadores. Essa alteração

49

começou a ser implementada em dezembro de 2017, de forma gradual (TECH CRUNCH, 2017).

Uma das mais recentes atualizações do algoritmo do motor de buscas do Google com grande impacto é de agosto de 2018, apelidada de “Medic”. Foi desenvolvida para medir com mais precisão a relevância de sites tipo YMYL (Your money or Your Life), e reduzir a presença de sites que a companhia julga não oferecerem informações relevantes ao usuário (SEARCH ENGINE NATION, 2018). O Google mantém atualizado um documento chamado Search Quality Evaluator Guidelines, onde define o que ele considera como relevante em uma página da web, e portanto quais são os critérios para que uma página seja considerada relevante. O documento define que páginas do tipo YMYL são aquelas que podem potencialmente impactar a felicidade futura, saúde, estabilidade financeira e segurança de usuários14. Isso inclui, portanto, páginas de compras e transações financeiras, páginas de informações sobre finanças, sobre informações médicas e de saúde, sobre aconselhamento legal e jurídico, e outras diversas como sobre adoção de crianças e segurança no trânsito. O Google diz que sua prioridade na atualização “Medic” é prover aos usuários informações corretas e factuais, portanto estaria tentando reduzir a relevância de páginas que julga ferirem este princípio (GOOGLE USER CONTENT, 2018).

A divisão proposta anteriormente de fasear a operação dos algoritmos dos sistemas de busca em três grandes processos (crawling, indexing searching) resumem as ações de: procurar por sites na web e capturar informações sobre eles, organiza-las em bancos de dados, classificar os dados coletados, calcular relevância dos dados de acordo com o input do usuário, formas de “entendimento” do input do usuário e funcionalidades para “facilitar” a busca pelo usuário. Assim, é possível classificar as atualizações e transformações que o motor de buscas do Google sofreu ao longo do tempo da seguinte forma:

14 Exemplos de páginas do tipo YMYL que foram impactadas negativamente pela atualização “Medic”: MyProtein.com, OrganicFacts.net, KetoBootstrap.com (CAN I RANK, 2018). 50

Quadro 1 - Processos de sistemas de busca x atualizações do algoritmo do Google

Atualizações do Google

Processos --- Crawling Indexing Searching

PageRank X X

Autocomplete X X

Universal Search X X

Caffeine X X

Personalized Search X X

Panda X X

Knowledge Graph X X X

Penguin X X

HummingBird X X X

Pigeon X

RankBrain X X

Mobile Index X

"Medic" X Fonte: Elaborado pelo autor.

Esta visualização indica que o Google, ao longo de sua trajetória, comunicou mais atualizações no processo indexing, que compreende tanto a organização do banco de dados quanto as operações realizadas neste banco de dados para determinar relevância. Este, portanto, seria o processo mais importante para que o Google se mantenha na liderança do mercado de buscadores.

1.4. BUSCA PREDITIVA E FILTRO-BOLHA Em uma possível indicação da direção futura do Google para seu algoritmo de busca, , então diretor executivo do Google, disse em uma entrevista ao Financial Times em 2007: "o objetivo é permitir que os usuários do Google façam perguntas como ‘o que eu devo fazer amanhã?’ e 'Qual trabalho 51

devo aceitar?'". Schmidt reafirmou isso durante uma entrevista de 2010 com o Wall Street Journal: "Eu realmente acho que a maioria das pessoas não quer que o Google responda às suas perguntas, eles querem que o Google diga a eles o que eles devem fazer em seguida".

Figura 9 - Autocomplete do Google em 2004

Fonte: Wordstream – Predictive Search, 2013

O Google, dentre outros sistemas de busca, pretende prever de alguma forma o que o usuário quer dizer e, principalmente, o que o usuário pretende com a busca. Isso é conhecido como busca preditiva, e tem por objetivo retornar ao usuário resultamos mais acurados. Desde 2004 o Google aplica uma forma de busca preditiva em seu motor de buscas, popularmente conhecida como “autocomplete”. A medida que o usuário digita os termos de busca, o buscador sugere termos de busca semelhantes utilizados anteriormente por outros usuários. A primeira vista, o “autocomplete” pode parecer uma ferramenta simples para abreviar o trabalho de digitação, mas é fato conhecido que normalmente as pessoas digitam mais lentamente do que leem, e a pesquisa preditiva do Google economiza tempo, mas também, de certa forma, direciona a busca sendo realizada para outras semelhantes realizadas anteriormente por outros usuários. O Google afirma que uma pesquisa típica leva mais de 9 52

segundos para ser digitada, com algumas pesquisas demorando de 30 a 90 segundos para ser digitada completamente. Com o “autocomplete”, a empresa esperava reduzir o tempo gasto mundialmente digitando termos de busca em 3,5 bilhões de segundos a cada dia, o que equivale a 11 horas salvas a cada segundo (WORDSTREAM, 2013). Esse cálculo de economia de tempo é baseado, evidentemente, na premissa de que o “autocomplete” exibiria preditivamente a busca que o usuário estava digitando.

O Grafo de Conhecimento (Knowledge Graph) lançado em 2012 pode ser considerado mais um passo do Google em direção à busca preditiva. O algoritmo retorna uma quantidade de informação sobre o termo de pesquisa em escopo mais ampla do que a que o usuário procurou, e gera automaticamente conteúdo específico relacionado ao assunto.

Provavelmente o maior exemplo atual (2019) de busca preditiva são os assistentes virtuais desenvolvidos pela Apple (Siri), Microsoft (Cortana), Amazon (Alexa) e Google (Google Assistant, anteriormente Google Now). Um assistente virtual é um software que pode executar tarefas ou serviços para um indivíduo com base em comandos verbais ou inseridos por digitação. Todos os assistentes virtuais supracitados são capazes de interpretar a fala humana e responder através de vozes sintetizadas. Os usuários podem fazer perguntas aos seus assistentes, controlar dispositivos de automação residencial, solicitar reprodução de mídia via voz e gerenciar outras tarefas básicas, como e-mail, listas de tarefas e calendários com comandos verbais. Desde 2017 as capacidades e o uso de assistentes virtuais estão se expandindo rapidamente, com novos produtos entrando no mercado e uma forte ênfase nas interfaces de usuário de voz.

O Google Assistant pode pesquisar na Internet, agendar eventos e alarmes, ajustar configurações de hardware no dispositivo do usuário e mostrar informações da conta do Google do usuário. O assistente pode se envolver em um diálogo com o usuário, usando o algoritmo de processamento de linguagem natural do Google. Os resultados da pesquisa são apresentados em um formato de cartão que os usuários podem tocar para abrir a página. Em 2017 o Google anunciou que os usuários do Google Home poderiam comprar produtos via voz por meio do serviço de compras , com produtos disponíveis no

53

Whole Foods Market, Costco, Walgreens, PetSmart e Bed Bath & Beyond no lançamento. A partir do mesmo ano, o assistente virtual também teria suporte a um teclado para respostas digitadas e visuais, suporte a identificação de objetos e coleta de informações visuais através da câmera do dispositivo e suporte à compra de produtos e transferência de dinheiro. Também tornou-se possível identificar músicas que estão sendo reproduzidas no momento, perguntando ao Assistente.

Figura 10 - Google Assistant

Fonte: Wikipedia, Google Assistant, 2019

Em maio de 2018, o Google revelou o Duplex, uma extensão do Google Assistant que permite realizar conversas naturais ao imitar a voz humana. O assistente pode concluir tarefas autonomamente, como ligar para um salão de cabeleireiro para marcar uma consulta, agendar uma reserva de restaurante ou ligar para as empresas para verificar o horário das lojas para o fim de ano. Embora o Duplex possa concluir a maioria de suas tarefas de maneira totalmente autônoma, ele é capaz de reconhecer situações que não consegue concluir e

54

pode sinalizar um operador humano para concluir a tarefa. O Duplex foi criado para falar em uma voz e linguagem mais natural, incorporando disfluências de fala, como palavras de preenchimento como "hmm" e “uh", e usando frases comuns e gírias, além de uma entonação humana e latência de resposta. O Duplex está atualmente em desenvolvimento e teve um lançamento limitado no final de 2018 para usuários do Google (smartphone oficial do Google).

Figura 11 - Cards do Google Now

Fonte: The Verge, 2012

O Google Assistant e o Duplex, dentre outros, destacam-se não apenas pelas capacidades surpreendentes, mas porque trabalham ativamente com busca preditiva – projetados para fornecerem automaticamente as “informações certas no momento certo”, em vez de fazer com que os usuários as pesquisem. Estes sistemas extraem informações do histórico de pesquisa, do Gmail e usam vários sinais, como, por exemplo, lembretes relacionados à localização ou tempo, para apresentarem cartões informativos com probabilidade de interesse do usuário. Esses cartões podem conter informações sobre restaurantes locais, dados de tráfego ou lembretes gerados automaticamente de compromissos marcados via email. Assim, se o usuário criar uma lista de compras, o Google Assistant provavelmente vai lembrá-lo do que precisa comprar quando ele

55

passar perto de um supermercado ou mercearia de bairro. Se houver um concerto de uma banda do interesse do usuário, o dispositivo irá avisa-lo.

Esses recursos fazem parte dos esforços crescentes do Google para fornecer resultados relevantes com base nos dados acumulados e processados sobre cada usuário. "É claro que o Google vai acessar mais do que apenas as informações públicas na Web", diz Scott Huffman, Diretor de Engenharia de Qualidade de Pesquisa do Google. "O Google saberá o horário do meu voo, se minha encomenda já chegou aqui e onde minha esposa está e quanto tempo vai levar para ela chegar em casa esta tarde”. De acordo com ele, o Google já sabe de tudo isso. A questão é se o usuário está ou não disposto a permitir que o Google saiba muito sobre ele. “Isso exige que você confie bastante no Google, mas a empresa espera que sua confiança seja recompensada”, afirma Huffman (VERGE, 2012).

Iniciativas como o Google Assistant e o Google Personalized Search evocam uma série de preocupações acerca de privacidade, segurança da informação e controle informacional. Eli Pariser, webativista e autor do best-seller “O Filtro Invisível: O que a internet está escondendo de você”, explica que a fórmula dos gigantes da internet para a estratégia de personalização e controle informacional é simples: quanto mais personalizadas forem as ofertas de informação a cada pessoa, mais anúncios essas corporações conseguirão vender e maior será a chance de que os produtos oferecidos sejam comprados (PARISER, 2012. p.13).

A personalização se baseia em uma barganha. Em troca do serviço de filtragem, damos às grandes empresas uma enorme quantidade de dados sobre nossa vida diária – dados que muitas vezes não dividiríamos com nossos amigos. Essas empresas estão ficando cada vez melhores no uso desses dados para traçar suas estratégias. No entanto, muitas vezes acreditamos excessivamente que essas empresas irão cuidar bem dessas informações, e, quando nossos dados são usados para tomar decisões que nos afetam negativamente, em geral não ficamos sabendo (PARISER, 2012. p.20). Pariser acredita que o Google, assim como outros serviços da web que buscam sinais para personalizar cada vez mais suas ofertas informacionais, quando unidos, acabam por criar um universo de informações exclusivo para cada usuário – o que ele chamou de filtro-bolha (filter bubble). Essa filtragem

56

personalizada de informação teria a capacidade de alterar fundamentalmente o modo como cada pessoa se depara com ideias e informações. (PARISER, 2012. p.14).

57

2. CONTROLE E LÓGICA OPERATIVA DOS ALGORITMOS DE

SERVIÇOS DA WEB

2.1. ALGORITMOS E A ESTRUTURAÇÃO DO MODO DE USO DA INTERNET Em meados dos anos 2000, os mecanismos de pesquisa haviam reorganizado a Web, tornando-a estruturada a partir deles. No final dos anos 90, Jacques Altaber, um funcionário do CERN (Conselho Europeu para Pesquisa Nuclear), a organização que primeiro apoiou a World Wide Web, sugeriu que a web se tornaria um novo tipo de sistema operacional, a plataforma na qual maior proporção de nossas tarefas de comunicação e informação seria realizada. De acordo com Alexander Halavais, professor associado de tecnologias sociais da Universidade Estadual do Arizona e ex-presidente da Associação de Pesquisadores da Internet, ao longo dos anos os buscadores de fato tornaram- se centrais para esse “sistema operacional”, passando de uma ferramenta útil para um ponto focal de atenção coletiva (HALAVAIS, 2017, p.34).

Embora o Google tenha uma operação lucrativa em uma ampla variedade de áreas, incluindo venda de hardware, a maior parte de sua renda tem origem na venda de propaganda em seus próprios sites e em sites parceiros. Neste aspecto, o buscador não é totalmente diferente da televisão aberta, cuja lucratividade do negócio está em vender audiência aos anunciantes (“sell eyeballs to advertisers”) (HALAVAIS, 2017, p.34). Como outras empresas proprietárias de motores de busca, o Google posiciona publicidade “adjacente” aos resultados orgânicos de pesquisa. O modelo de leilão reverso de palavras- chave, junto a coleta e uso de informações sobre usuários, permite segmentar e direcionar publicidade. Há uma motivação econômica significativa para que o Google atraia o maior número possível de usuários para seus sites e anúncios, e mecanismos de busca tem sido uma maneira eficiente de fazer isso (HALAVAIS, 2017, p.34).

Sites de busca passaram a atrair muito tráfego e gerar lucro com o modelo de negócio inaugurado pelo Google, o que motivou a competição neste setor. No entanto, menos óbvio é o poder que estes mecanismo de busca tem de moldar o tráfego: não apenas atraem usuários, mas os direcionam para partes 58

específicas da web. Os mecanismos de busca têm o poder de fomentar fortunas e retirá-las – é como se fossem construtoras de estradas, semáforos e portas de entrada para todos os negócios on-line (HALAVAIS, 2017, p.34).

USO SOCIAL DE BUSCADORES De acordo com Halavais, pesquisar algo em sites de busca é um processo interativo e raramente linear. A maioria das pessoas que insere uma consulta em um mecanismo de pesquisa faz o acompanhamento com outra consulta ou duas, modificando seus termos de busca para obter um resultado mais relevante. Em muitos desses casos, o usuário está simplesmente re-digitando a consulta ou ajustando a ortografia. Em outros, eles percebem que precisam alterar os termos de busca para restringir os resultados que receberam (HALAVAIS, 2017, p.48). Em outras palavras, é provável que a estratégia de consulta e pesquisa mude à medida que mais informações se tornem disponíveis. É improvável que essa informação venha de uma única fonte “vencedora”, mas sim um resultado da coleta, avaliação e comparação de informações de diversas fontes.

Ao longo do processo de pesquisa, o usuário provavelmente estará avaliando os resultados, permitindo que a natureza da pesquisa evolua à medida que mais informações forem localizadas. A estratégia precisa difere de acordo com cada buscador e cada usuário, mas como a maioria dos mecanismos de busca fornece alguma forma de página de resultados, a avaliação começa aí. Ironicamente, parte dessa avaliação decorre da confiança no próprio mecanismo de busca. O simples fato de um mecanismo de pesquisa sugerir um site lhe dá credibilidade (HALAVAIS, 2017, p.51). Essa confiança se estende aos próprios sites, e se um mecanismo de pesquisa direcionar um usuário a uma página que não é relevante, muitos usuários – especialmente usuários inexperientes – continuarão navegando nesse site, supondo que eles tenham sido enviados para lá por algum motivo.

Segundo a pesquisadora Fátima Hassan Caldeira, doutora e docente em ciências da linguagem na Universidade do Sul de Santa Catarina (UNISUL), o Google não é apenas um motor de busca, mas também, sob a perspectiva da teoria da relevância, usado como um mecanismo de avaliação epistêmica. Ele

59

representaria, sob a forma de uma lista ordenada, os valores epistêmicos relativos dos documentos da Web encontrados na pesquisa. “Quanto maior a classificação de um documento, mais provável é conter as informações relevantes e confiáveis”. De acordo com ela, dados da Pew Internet (2012) demonstram que a grande maioria dos usuários de mecanismos de busca confia nessas ferramentas, acreditando que são justas e imparciais, e também que os resultados que elas geram são precisos e confiáveis (CALDEIRA, 2015, p.98).

Além disso, a web nos diz como fazer muitas das tarefas e ações cotidianas, e os mecanismos de busca são os meios principais pelos quais é possível procurar e encontrar soluções. Quando pessoas de todas as idades têm uma “necessidade de saber algo no momento”, 87% primeiro procuram por seus smartphones (HALAVAIS, 2017, p.58).

Analisando estes modos de uso e confrontando com os número de acesso diário destes sites de busca, é possível afirmar que motores de busca são ferramentas consideradas úteis por uma grande parte da população. Mais do que isso, buscadores são uma das principais fontes de pesquisa de informações, e provavelmente a principal destas fontes no meio digital.

Por fim, a interação entre usuário e o sistema não é um processo apenas de inserção de termo e recuperação de dados, mas um loop no qual o usuário altera o termo de busca para ajustar a resposta que o sistema lhe dá. Neste ciclo, o usuário acaba por alterar não apenas o termo de busca, mas provavelmente até o que estava buscando originalmente, à medida em que descobre novas informações. A própria ferramenta impõe uma forma de uso.

ANEXO PREFERENCIAL Com bilhões de páginas na web e outras milhares sendo criadas diariamente, motores de busca optaram por não apresentar todo o conteúdo igualmente. Sistemas de busca são tecnologias de filtragem de conteúdo. De um ponto de vista técnico, o conteúdo ignorado pela ferramenta é tão importante quanto o que é exibido ao usuário. Os buscadores contribuem para a seleção dos sites mais proeminentes e, por sua vez, são influenciados por eles (HALAVAIS, 2017, p.101). 60

Como vimos anteriormente na descrição do funcionamento do algoritmo PageRank, links são uma maneira eficiente de estabelecer o “peso” de cada página da web em relação a relevância. Porém, uma vez que grupos de páginas com alto índice no PageRank ou clusters de sites são estabelecidos, eles tendem a se reforçar (HALAVAIS, 2017, p.102). Afinal, um site considerado relevante pelo Google irá aparecer mais vezes na página de resultados, e portanto terá uma chance maior de ser acessado, o que abre mais oportunidades para ser referenciado novamente e ter seu índice PageRank aumentado ainda mais.

Segundo Halavais, um vínculo muito forte a um pequeno número de sites seria uma tendência natural dos algoritmos de motores de busca: “A web escolhe vencedores” (HALAVAIS, 2017, p.102). Esta tendência da estrutura da web é chamada de “preferential attachment” (anexo preferencial) (HALAVAIS, 2017, p.105). A distribuição de sites nos resultados de cada pesquisa encoraja sua própria reprodução, fornecendo um caminho fácil e convencional para o conteúdo que o buscador “considera” mais interessante com base nos inputs e características do usuário.

O anexo preferencial ocorre em grande parte porque se supõe que os usuários e webmasters que criam hiperlinks (e que serão usado como medida de relevância pelo PageRank) localizam as “melhores páginas de conteúdo” navegando na web. Entretanto, grande parte do processo de busca e navegação ocorre dentro dos mecanismos de busca e plataformas de redes sociais, ou seja, a partir de uma amostragem de sites já filtrada de acordo com relevância. Para que um site chegue à primeira página de resultados no Google, primeiro ele precisa ter um grande número de links para ele. No entanto, sem estar na primeira página de resultados, poucos autores do site saberão que ele existe e será capaz de se vincular a ele. Cada autor é então confrontado com a questão de como chamar bastante atenção para as páginas para permitir que sejam vistas por grandes públicos. O PageRank e os algoritmos de busca relacionados à melhoria de estima aumentam claramente o atual desequilíbrio, calcificando as redes existentes de popularidade (HALAVAIS, 2017, p.110).

Fora do ambiente virtual, nas ruas das cidades, grande parte do sucesso de um comércio é determinada por sua localização física – estar em uma avenida

61

de grande movimento ou em um shopping center, por exemplo, proporciona visibilidade e público. Na web, isso não é tão diferente – em ambos os casos, a visibilidade determina a quantidade de visitantes, e portanto quantas vendas são possíveis (HALAVAIS, 2017, p.110). O anexo preferencial estabelece uma lógica conservadora, na qual os mais bem posicionados continuam a ser cada vez mais visíveis, e os de menor visibilidade tem sua exposição cada vez mais diminuída. Este fenômeno é válido para páginas de quaisquer tipos de conteúdo, desde comércios e mercados a páginas de notícias, blogs, redes sociais, etc.

ATENÇÃO, RECURSO FINITO Caldeira, em seu artigo “O mecanismo de busca do Google e a relevância na relação sistema-usuário”, afirma que várias pesquisas realizadas ao longo do séc. XX apontam que o ser humano não consegue operar em um ambiente de grande volume informacional sem utilizar um sistema de filtragem. A abertura de acesso à informação proporcionada pela web, a velocidade das mídias digitais, o que ela chama de “explosão informacional”, fez com que houvesse a necessidade de uma mediação tecnológica capaz de filtrar e validar a informação, “e, também, para aliviar a angústia gerada no ser humano pela dificuldade de encontrar aquilo de que precisa” (CALDEIRA, 2015, p.94). Essa mediação tecnológica a que Caldeira se refere seriam os mecanismos de busca.

A demanda por mecanismos de busca são, em grande parte, determinadas pela finitude de nossa capacidade de atenção. Na área das Ciências da Informação, isso é muitas vezes referido como o "princípio do menor esforço", parte do título de um livro de 1949 de George Zipf15. De acordo com Halavais, o argumento de Zipf é que, quando confrontados com uma tarefa de busca, e a maioria das tarefas cognitivas são tarefas de busca em certa medida, as pessoas geralmente tentam usar apenas a quantidade mínima de tempo e esforço necessários para realizar sua busca de informação a um nível satisfatório (HALAVAIS, 2017, p.112). Ou, em outras palavras, as pessoas desejam ganhar algo com o menor esforço possível. Este princípio cognitivo do menor esforço é

15 ZIPF, George. Human behavior and the principle of least effort, 1949. 62

chamado de “satisficing” (junção das palavras satisfy e suffice – em português, satisfação e suficiente, respectivamente).

Halavais argumenta que seria “tentador julgar a falta de vontade de buscar correspondências ideais em uma pesquisa como preguiça ou veleidade”, mas seria uma função natural na cognição humana (HALAVAIS, 2017, p.112). A web aumenta a quantidade de informação disponível para a pessoa, mas não aumenta a capacidade de consumir essa informação.

A mudança mais significativa trazida pela web está em como a atenção é distribuída. Mesmo que a web esteja longe de ser plana, igualitária ou democrática, ela oferece um número muito maior de opções do que o controle remoto da televisão ou a banca de jornal. Uma riqueza de informações cria uma pobreza de atenção, e assim surge a necessidade de distribuir essa atenção eficientemente na superabundância de fontes de informação que poderiam consumi-la (idem, p.113).

A atenção humana pode ser pensada como algo com valor comercializável, e assim fornecer uma outra perspectiva sobre como a mídia é consumida (ou ainda, como os públicos de mídia são consumidos pelas mensagens e fontes de informação). Se a atenção é algo com valor comercializável, então o internauta não é apenas um alvo de várias mensagens persuasivas (sejam elas publicidade, notícias, ou qualquer outro tipo de conteúdo), mas sim alguém que está fornecendo atenção em troca de informações. Essa atenção, portanto, é uma mercadoria valiosa. Em uma economia de atenção, o mecanismo de busca é o agregador final dessa riqueza, e os anunciantes são a fonte mais clara de receita (idem, p.114). Como outros mecanismos de busca, o Google troca a atenção de seus usuários pela receita de anunciantes que colocam anúncios em seu site.

Existem limites reais para a quantidade de atenção que cada pessoa pode despender. Biologicamente, a atenção é limitada pela habilidade de concentração do indivíduo, sua capacidade de permanecer focado em determinada tarefa e sua capacidade de processar as informações que recebe sem perturbar o que está fazendo. Há também um limite temporal para a atenção – não é possível permanecer atento a tudo por tempo indeterminado. A escassez 63

de atenção não é artificial. Porém o mercado de atenção é um constructo que permite que a ideologia do mercado acesse novas áreas. Essa mercantilização da atenção ocorre de maneira praticamente invisível. Os mecanismos de busca extraem valor através do trabalho gratuito de milhões de pessoas e, reconfigurando-o, usam-no para chamar a atenção para si mesmos. (idem, P.125). Essa atenção é então vendida aos produtores que desejam anunciar seus produtos.

A internet é plataforma de comunicação com potencial, enquanto tecnologia, democrático e aberto. Mas a tecnologia é cooptada pelos valores culturais, sociais e econômicos nos quais está inserida. Os interesses de lucro que fundamentam os valores capitalistas não removem o potencial para a criação de trabalhos cooperativos extraordinariamente articulados, como a Wikipédia ou o desenvolvimento do sistema operacional Linux, mas tendem a restringir estes esforços a determinados nichos, além de exigirem que iniciativas colaborativas negociem dentro de um sistema de atenção e troca que se tornou altamente mercantilizado (idem, p.125).

2.2. RELAÇÕES ENTRE DATA MINING E MODULAÇÃO DE RESULTADOS COMO

LÓGICA TÉCNICA QUE PERMITE O CONTROLE A mineração de dados (data mining) é o processo de descobrir padrões em grandes conjuntos de dados envolvendo métodos de machine learning, estatística e sistemas de banco de dados. Esta técnica consiste em coletar dados sobre algo, organiza-los em um sistema de banco de dados, e usa-lo para reconhecer padrões. A mineração de dados é usada em larga escala por sites de busca, com o objetivo de aprimorar os resultados de busca para cada termo.

Ao realizar uma busca em um site como o Google, cada input é gravado em logs (registros) de transação. Estes registros guardam as ações realizadas pelo usuário de forma imperceptível para ele. Segundo Halavais, a maioria dos mecanismos de pesquisa agora controla quais links o usuário clica, permitindo que eles vinculem consultas aos resultados que o usuário considera mais interessantes. Esse tipo de acompanhamento de decisões implícitas é particularmente importante para os mecanismos de pesquisa, pois é possível

64

inferir a relevância dos resultados produzidos, verificando quais itens o usuário clica (HALAVAIS, 2017, p.57). O uso de cookies oferece ainda mais oportunidades para rastrear o que os usuários estão fazendo quando pesquisam.

O Google deve seu sucesso e grande parte de sua receita devido a capacidade de extrair com eficiência a mais-valia das informações que coleta de seus usuários (idem, p.198). O Google fornece um login federado para todos os seus serviços16, o que significa que ele pode rastrear o comportamento do usuário em cada uma das páginas e aplicativos online. Um grande número de websites usa o , um pacote gratuito de análise da web, além de publicidade no Google AdWords, que supostamente fornece ao Google ainda mais informações sobre o que os usuários estão fazendo, mesmo quando não estão visitando sites da marca Google. No momento, o comportamento do usuário é analisado de perto por várias plataformas on-line e geralmente é combinado entre as plataformas para criar um dossiê surpreendentemente detalhado dos hábitos on-line dos indivíduos.

Embora as informações de logs do lado do servidor que rastreiam a atividade do usuário, incluindo sites visualizados, pressionamentos de teclas, posicionamento do mouse ou uso de aplicativos diferentes do navegador da Web possam ser imparciais e objetivas (usuário X clicou no link Y, por exemplo), elas podem ser um tanto difusas e exigem muita inferência para identificar as intenções do usuário.

Mecanismos de busca personalizam em alguma medida os resultados de busca para cada usuário, com base nas informações coletadas neste processo de data mining. Mais do que isso, a personalização realizada por buscadores é uma combinação dos “sinais” específicos do usuário (localização inferida pelo IP, idioma configurado no navegador ou conta Google, histórico de buscas, etc.) com inferências realizadas a partir da análise das ações de milhões de outros

16 Uma conta de usuário em qualquer serviço do Google está interconectada com todos os outros serviços da empresa. Portanto, se um usuário criar uma conta no Gmail, por exemplo, estará na verdade criando uma conta com acesso a todos os serviços do Google (Youtube, Google Search, Keep, Forms, etc.). Isso é verdadeiro para a criação de qualquer conta de usuário em qualquer serviço do ecossistema do Google. 65

usuários em ações semelhantes. Quando um usuário insere o termo de busca “Qual a idade do Guga?”, como visto no capítulo anterior, o buscador não está apenas buscando as informações pessoais do usuário para elaborar uma resposta adequada. Está também buscando referências em seu sistema das buscas anteriores realizadas por outros usuários e, baseado em quais links foram clicados, infere o que seria a resposta “correta”.

Oscar Gandy escreveu em 1993: um indivíduo é definido, em parte, pelo que ele faz ou não faz. Informações pessoais são produzidas por um observador na apreensão e interpretação do comportamento do outro. Podemos considerar o comportamento como gerando dados brutos e a interpretação desse comportamento como um processo de valor agregado, no qual informações adicionais são produzidas à medida que o comportamento é avaliado. Essa avaliação, como outras atividades produtivas, pode incluir o uso de outras informações que foram armazenadas a partir de experiências passadas ou que foram adquiridas de outras fontes (HALAVAIS, 2017. p.198). O Google registra as ações que usuários realizam online, em cada uma de suas páginas da web. E ao coletar e analisar as ações de milhões de usuário, traduzidas em números em bancos de dados, constrói uma “base de dados de intenções” (idem, p.211). Afinal, é através do Google que boa parte da população mundial procura coisas que espera conhecer, fazer ou o que espera se tornar. É um enorme banco de dados de desejos coletivos e individuais. Ao observar as pesquisas que estão se tornando mais populares, o Google é capaz de avaliar diretamente a consciência global. Se dezenas de milhares de pessoas repentinamente procuram no Google o mesmo assunto, pessoa ou acontecimento, é um bom indicador de que existe um consenso de que as palavras-chave descrevem algo interessante. “Não lhe diz por que eles estão interessados, mas mapear a atenção por si só é poderoso” (idem, p.211).

O Google mantém uma lista de pesquisas anteriores feitas por um usuário com base em um cookie na máquina do usuário ou um login em um produto do Google. Os usuários podem excluir seu próprio histórico, mas não está claro se isso é excluído apenas da visualização do usuário ou de todos os registros do Google. E isso não está restrito às pesquisas na Web: como o Google inova em novas áreas ou adquire serviços existentes, novas fontes de informações comportamentais são criadas, de dados de localização a dados de uso móvel, e

66

até mesmo em coisas como registro de saúde e horários diários. A lista de aplicativos e serviços oferecidos pelo Google hoje é abrangente, e seria perfeitamente possível comunicar e conduzir todos os seus negócios online sem sair do ecossistema Google.

A personalização de pesquisa representa uma das áreas de pesquisa mais ativas mas, como na pesquisa em geral, ao privilegiar determinadas fontes em detrimento de outras, há o perigo de que um pesquisador fique preso ao próprio histórico de pesquisa (idem, p.65). Pariser, argumenta que a personalização excessiva da web (por buscadores, redes sociais, sites de notícia, etc.) criam uma bolha cultural e informacional distorcida da realidade social na qual o usuário está inserido, isolando-o. Apesar de haver muitas razões pelas quais a personalização de pesquisa pode ser útil para encontrar e redescobrir informação, tende a restringir nosso universo informacional a nossos interesses anteriores, em vez de agir como uma força cosmopolita para a descoberta. Existem evidências de que a busca personalizada não seja tão restritiva quanto o que Pariser afirma ser (veremos detalhes no próximo capítulo), porém é inegável que essas modulações da busca para um retorno ao que está mais próximo do usuário torna muito mais fácil encontrar fontes familiares em vez de explorar novas fontes.

MODULAÇÃO DE RESULTADOS DE BUSCA E EXERCÍCIO DE PODER A personalização de resultados de busca é a modulação da informação disponível baseada em informações do usuário e de outros usuários que fizeram pesquisas semelhantes no passado. Como vimos anteriormente, a justificativa técnica e funcional para isso ocorrer é distribuir a atenção, que é um recurso finito, de forma eficiente. Há também aspectos estruturais da própria rede que afetam essa modulação, como a tendência do PageRank a estabelecer resultados de busca com anexo preferencial (sites que já tem boa reputação tendem a continuar visíveis, enquanto sites que não tem boa reputação tendem a nunca atingir-la). Entretanto, a modulação dos resultados de busca não é regida apenas por fatores técnicos ou internos do sistema de pesquisa.

67

A modulação dos resultados dos mecanismos de busca é moldada por três tipos de políticas: os algoritmos construídos pelas empresas de mecanismos de pesquisa, as políticas dos governos nacionais e a cultura da sociedade na qual está inserido. A filtragem realizada pelos mecanismos de busca não é facilmente manipulável por indivíduos, mas permanece sujeita àqueles que tradicionalmente detêm o poder social.

Particularmente, quando pensamos sobre o "viés" do mecanismo de pesquisa, o viés mais premente é a sopa social na qual o mecanismo de pesquisa nada. Cada parte do mecanismo de pesquisa depende de relações sociais, expectativas e popularidade. Os mecanismos de pesquisa destilam os comportamentos sociais de seus usuários, a estrutura socialmente definida da World Wide Web e nossa criação coletiva de conhecimento para atender a outras necessidades sociais. A ideia de que a pesquisa pode ser tudo menos social é absurda (HALAVAIS, 2017, p.73). Portanto, enquanto pessoas que usam mecanismos de busca e outras tecnologias forem elas mesmas sociais, a busca continuará a ser social. Existe um contexto social que se estende além das interações com o sistema de busca – visões de mundo, contexto social e cultural internalizados – de modo que duas pessoas que recebem e processam os mesmos resultados de pesquisa poderão chegar a conclusões diferentes, que talvez resultem até mesmo em comportamentos diferentes.

Estas influências sociais na busca já são consideradas pela maioria dos mecanismos de busca, ainda que implicitamente. O PageRank infere a qualidade de um site com base em julgamentos sociais – não questiona diretamente usuários sobre a qualidade das páginas da web, mas infere que mais hiperlinks significam mais relevância, codificando um julgamento humano latente (idem, p.85). A política de rastreamento do Google, que define o que deve ou não ser indexado, também parte de premissas sociais implícitas semelhantes para identificar aquilo que é relevante ou não em um site, e se este “merece” fazer parte do banco de dados de pesquisa.

O Google exerce poder de forma consciente, e a face mais visível deste “governo da web” são as políticas para rastreamento, indexação e relevância. Sites que não estão de acordo com essas políticas podem ser retirados dos

68

rankings do buscador, o que, em termos práticos, significa pena de morte. Mas há também a possibilidade de restrição ao Google AdWords e demonetização de canais do YouTube, permitindo a listagem do conteúdo, mas retirando as chances de impulsionar o acesso ou de ganhar dinheiro com ele. Exemplos deste tipo de censura são abundantes. Em alguns casos, eles o fazem por motivos que parecem estar relacionados à proteção de seus usuários. Em 2016, por exemplo, o Google anunciou que havia rejeitado anúncios de quase 800 milhões de golpes de perda de peso (idem, p.180). Mais tarde, naquele mesmo ano, anunciou que deixaria de aceitar publicidade para “empréstimos em dia de pagamento”, uma indústria que o Google considera predatória.

Entretanto, o motivo mais comum para remoção de sites do índice do Google é a percepção de que eles tentaram elevar sua posição na página de resultados de maneiras que afrontam as políticas de indexação e relevância determinadas pelo Google. Em cada caso, o Google sozinho tomou a decisão e, embora haja vias de recurso, nem todo mundo sabe onde encontrá-los ou como esses recursos são tratados.

Mais grave, no entanto, é a face oculta do poder que o Google exerce sobre seus usuários e a sobre a web – e nem sempre exercido de forma consciente ou intencional. O Google é uma multinacional estadounidense, cujo idioma principal é o inglês norte-americano. Apesar do Google ter trabalhado ao longo dos últimos anos para melhorar sua indexação entre idiomas, ainda há dificuldade de realizar cálculos de relevância de sites em idiomas que fazem uso de alfabetos não-romanos (árabe, japonês, mandarim, grego, russo, etc.). Isso também significa que há uma relativa falta de análise semântica dos termos de busca nestes idiomas, levando a pesquisas menos precisas. Geralmente, buscadores locais desenvolvidos especificamente para buscas nestes idiomas retornam resultados mais precisos. Devido a esses déficits, muitos optam por pesquisar em inglês, e não em sua primeira língua. Em um estudo com estudantes árabes, quase 75% preferiram concluir suas pesquisas em inglês e não em árabe (idem, p.138).

Foi constatado também uma tendência no Google e outros mecanismos de pesquisa nativos dos EUA de vincularem a seus bancos de dados (e portanto

69

potencialmente exibirem nos resultados de busca) uma proporção maior do total de websites deste país do que de qualquer outro. Halavais argumenta que isso não parece ser uma questão de idioma, e nem uma forma disfarçada de xenofobia. De acordo com ele, para o PageRank, os sites dos EUA tem mais autoridade simplesmente porque mais links levam a eles. Isso pode ter ocorrido porque o crescimento inicial da internet foi nos EUA, e isso dá aos sites de lá uma certa vantagem em relação a sites de outros países (idem, p.139). Se aproximarmos este fato ao argumento da seção anterior, sobre anexo preferencial, através do qual sites que já tem boa reputação tendem a crescer, o domínio americano do banco de dados do Google fica ainda mais evidente. Os mecanismos de busca não apenas refletem uma suposta autoridade de um país em relação a outro, mas também ajudam a reproduzi-la.

Seria possível argumentar que esta multiplicação de poder de determinados países está em linha com o que deveria acontecer em um mercado de atenção. Afinal, se as fontes de informação dos EUA conseguem atrair mais tráfego (e mais hiperlinks), isso representaria a utilidade deste conteúdo. A falha neste argumento está no fato de que usuários não são capazes de selecionar livremente uma opção dentre a totalidade de opções. O sistema de busca pode não ser intencionalmente tendencioso, e esta estrutura baseada na “opinião” (agregada através de links de entrada e saída) poderia até representar um tipo de democracia – cada usuário votando com cliques do mouse. Mas, como não permite a deliberação e a discussão nos níveis locais, isso nos torna uma multidão global, facilmente liderada por aqueles que estão no centro deste mercado de atenção. A suposição de que um mercado de atenção com vencedores e perdedores escolhidos pelas forças do mercado seria a configuração "ideal" para um buscador é profundamente ideológica (idem, p.140). Enquanto tecnologia, sistemas de busca não são sempre homogeneizantes ou autoritários, mas implementações que reproduzem a autoridade vigente são de natureza conservadora.

O próprio conceito de relevância conforme entendido pelo algoritmo do Google sempre tem um viés, re-inscrevendo as diferenças de poder e controle existentes na sociedade em grande escala através do ordenamento dos

70

resultados de busca. No verão de 2016, um estudante do ensino médio chamado Kaber Alli enviou um vídeo no Twitter mostrando os resultados de pesquisa do para “três adolescentes brancos” e para “três adolescentes negros”; os primeiros geralmente mostravam modelos em sites de imagens de ações, sendo os últimos, principalmente, fotos de prisões. O tweet foi compartilhado mais de 80.000 vezes e provocou uma discussão sobre se o Google era racialmente tendencioso. Alli, em um tweet subseqüente, indicou que não sentia que esse era o caso. O Google insistiu que seu mecanismo de busca era neutro e refletia os preconceitos existentes da sociedade, em vez de introduzir qualquer um deles, e geralmente o consenso era que os algoritmos neutros simplesmente destacavam o viés existente em imagens de pessoas negras on-line.

Figura 12 - Imagem publicada por Kaber Alli

Fonte: Twitter, Sam White, @samwhiteout, 10:38 PM - 30 Mar 2016

Os resultados de pesquisa do Google, ao apresentarem conteúdos que circulam no imaginário midiático, reproduzem desequilíbrios de poder social, e quando o fazem, os amplificam, naturalizam, justificam e fortalecem. Quando uma pesquisa de imagens sobre “três adolescentes negros” retorna imagens 71

relacionadas a criminalidade, não está apenas reproduzindo preconceitos sociais existentes. Está reforçando, naturalizando e fortalecendo estes preconceitos, pois apresenta como resultado de busca “neutro” uma perspectiva enviesada que não representa a totalidade do significado que o termo de busca possui, mas apenas um recorte específico determinado pelos desequilíbrios de poder social.

2.3. DISPOSITIVO DA SOCIEDADE DE CONTROLE O Google é uma ferramenta estruturante da interação de usuários com a web e, ao realizar esta estruturação, inscreve uma relação de poder – aplica um filtro personalizado aos resultados de pesquisa, exibindo ou não conteúdos com base em uma lógica opaca; determina o que é relevante com base em políticas próprias; coopera com governos para estabelecer censura; reproduz aspectos culturais em suas ferramentas, dentre outros aspectos e ações que vimos anteriormente. Giorgio Agamben, filósofo italiano, dando continuidade ao que Michel Foucault denominou dispositivo, propõe que este seja entendido como “qualquer coisa que tenha de algum modo a capacidade de capturar, orientar, determinar, interceptar, modelar, controlar e assegurar os gestos, as condutas, as opiniões e os discursos dos seres viventes” (AGAMBEN, 2016. p.39).

Um dispositivo é uma instituição, como família, escola, empresa ou hospital, que produz subjetividade – que regula as condutas, opiniões e discursos dos seres viventes. Assim, o dispositivo regula multiplicidades, e as faz convergir. Maurizio Lazzarato, filósofo italiano, salienta a importância da noção de multiplicidade segundo Deleuze. Em suas palavras, “uma das mais importantes inovações teóricas de Deleuze diz respeito à questão da multiplicidade: os indivíduos e as classes nada mais são do que a captura, a integração e a diferenciação da multiplicidade” (LAZZARATO, 2006. p.61). De acordo com ele, as sociedades se configuram de forma a controlar e limitar as multiplicidades, para criar grupos relativamente homogêneos imbuídos de propósito. As técnicas de controle reforçadas pelos dispositivos impõem tarefas ou condutas para viabilizar a produção dos bens necessários, sob a condição de que a multiplicidade seja pouco numerosa e atue em um espaço bem definido e limitado (a escola, a fábrica, o hospital, etc.). (idem, p.64). 72

As técnicas disciplinares são acompanhadas das técnicas biopolíticas (saúde pública, políticas familiares, sexualidade, etc.), que são exercidas como gestão da vida de uma multiplicidade, seja qual for. Assim, através dos dispositivos disciplinares (escola, prisão, hospital, fábrica) e dos dispositivos biopolíticos (estado de bem-estar social, saúde pública, definição social de família), multiplicidades humanas são integradas e homogeneizadas, formalizadas dentro das estruturas existentes.

O conjunto de dispositivos disciplinares e biopolíticos, e os indivíduos a eles sujeitados, compõe o que Lazzarato define como sociedade disciplinar (baseando-se nas contribuições de Foucault e Deleuze).

É preciso refletir com cuidado se, e de que maneira, o Google é um dispositivo de controle disciplinar e biopolítico. Apesar de capturar, orientar, determinar, interceptar, modelar e controlar multiplicidades, direcionando condutas, opiniões e discursos, o Google não opera da mesma maneira que dispositivos disciplinares tradicionais como a escola e a família. O buscador atua de forma menos evidente, modulando a oferta de informações de acordo com o perfil de usuário. É um tipo de controle que, ao menos em sua forma, parece diferente daqueles outros que buscam oprimir, reprimir ou recriminar diretamente certos comportamentos e condutas.

Conforme entendida por Foucault, Deleuze e Lazzarato, a sociedade de controle se superpõe à sociedade disciplinar, que surge como passo seguinte nas formas de organização das multiplicidades:

Como tanto o fora [os devires possíveis, as multiplicidades] e a potência de proliferação da diferença rompem o regime de encerramento, essas forças podem apenas ser moduladas. Não se trata, portanto, de discipliná-las em um espaço fechado [como na sociedade disciplinar], mas de modulá-las em um espaço aberto. O controle se superpõe, dessa maneira, à disciplina (LAZZARATO, 2006, P.72). Nas sociedades disciplinares, os diferentes meios de confinamento (dispositivos) pelos quais passa o indivíduo são variáveis independentes: supõe- se que a cada vez ele recomece do zero, e a linguagem comum a todos esses meios existe, mas é analógica. Nas sociedades de controle, a disciplina permanece, porém enquanto os confinamentos disciplinares são moldes 73

distintos, os controles são uma modulação – uma moldagem auto-deformante que muda continuamente (DELEUZE, 2013. p.225).

O Google, enquanto dispositivo da sociedade de controle, produz olhares – faz enxergar e ignorar. Porém faz isso não segundo uma lógica disciplinar, de censura explícita. Ele modula os resultados de acordo com cada perfil de usuário, e também de acordo com o contexto social no qual está inserido. É uma modulação fluida e sempre em fluxo.

É uma causa que se atualiza em seu efeito, que se integra em seu efeito, que se diferencia em seu efeito. Ou melhor, a causa imanente é aquela cujo efeito a atualiza, integra e diferencia. Por isso, nela há correlação, pressuposição recíproca entre a causa e o efeito, entre máquina abstrata e os agenciamentos concretos (é a esses que Foucault reserva mais frequentemente o nome de “dispositivos”) (DELEUZE, 2013. P.46). A cada vez que um usuário faz uma nova busca, as condições de controle são atualizadas, pois o Google é abastecido com novas informações, permitindo assim a atualização dos parâmetros de seleção de resultados. O Google, munido de novas informações, pode filtrar de forma ainda mais personalizada os resultados de busca, exercendo controle de forma cada vez mais eficiente.

SUBJETIVAÇÃO E SEMIÓTICA A-SIGNIFICANTE Os motores de busca da web são dispositivos da sociedade de controle, e portanto têm influência na “condução das condutas”. Mas como, exatamente? De acordo com Maurizio Lazzarato, a produção de subjetividade no capitalismo opera de duas maneiras, que Deleuze e Guattari denominam dispositivos de sujeição social e servidão maquínica (LAZZARATO, 2014, p.17). Os processos de sujeição social dotam os indivíduos de uma subjetividade, atribuindo uma identidade, sexo, corpo, profissão e nacionalidade. Operam através de dispositivos disciplinares e de controle, e através da linguagem, em uma camada semiótica significante e representativa, para produzir um “sujeito individuado”. Por outro lado, na servidão maquínica, o indivíduo não é mais instituído como um “sujeito individuado”. Ao invés disso, ele é considerado uma engrenagem intercambiável, uma peça, “um componente do agenciamento ‘empresa’, do agenciamento ‘sistema financeiro’, do agenciamento mídia, do agenciamento 74

‘Estado de bem-estar social’ e de seus ‘equipamentos coletivos’ (escolas, hospitais, museus, teatros, televisão, internet, etc.)”. (idem, p.28). É na interseção da sujeição social e servidão maquínica que Lazzarato julga operar a produção de riqueza (e produção, pura e simplesmente) do capitalismo: A sujeição produz e sujeita indivíduos, enquanto na servidão, [in]divíduos se tornam ‘dividuais’, e as massas se tornam amostras, dados, mercados ou ‘bancos’. O dividual ‘funciona’ na servidão da mesma maneira que os componentes ‘não humanos’ das máquinas técnicas, como procedimentos organizacionais, semióticas e assim por diante (LAZZARATO, 2014, P.29). A sujeição fabrica um “sujeito individuado” vinculado a um objeto externo (uma máquina, um dispositivo de comunicação, o algoritmo do Google ou Facebook) de que o sujeito faz uso e com o qual ele age. A máquina-objeto- algoritmo funciona como “meio” ou mediação de sua ação ou uso. “Em contrapartida, a servidão maquínica não se constrange com os dualismos sujeito/objeto, palavras/coisas ou natureza/cultura. O dividual não se opõe às máquinas, nem faz uso de um objeto externo; ele é adjacente às máquinas” (LAZZARATO, 2014, p.29). Juntos, sujeição social e servidão maquínica constituem dispositivos “homens-máquinas”, nos quais homens e máquinas são meras partes recorrentes e intercambiáveis de um processo de produção, comunicação, consumo, etc. O dividual é mais do que uma peça conectada ao agenciamento maquínico – os componentes da subjetividade do “sujeito individuado” são despedaçados, fragmentados para e pelos acoplamentos às máquinas. “Inteligência, afetos, sensações, cognição, memória e força física são agora componentes cuja síntese não reside mais na pessoa, mas, sim, no agenciamento ou no processo (empresa, mídia, serviços públicos, educação escolar, etc.)”. (idem, P.30). Ao coletar dados de cada usuário, categorizando-os e organizando-os em fragmentos (data mining), o Google pode usá-los para modular os resultados de pesquisa de forma personalizada. O usuário é parte da máquina, um agente de fornecimento de dados e inputs, um componente. Lazzarato argumenta que desde o início do século XX a governamentalidade, no sentido de Foucault, significa cada vez mais o “governo dos dividuais”. Dispositivos como o Google e Facebook (mas também antes deles, a televisão e a propaganda moderna) produzem e/ou baseiam-se em bancos de dados que 75

reúnem, selecionam e vendem milhões de dados sobre o comportamento, aquisições, hábitos, gostos e preferências dos indivíduos. Essas informações concernem os ‘dividuais’, cujos perfis, compostos pelo cruzamento desses dados, são meros relés de entradas e saídas, de input e output nas máquinas de produção- consumo (LAZZARATO, 2014, p.37). (...). De uma perspectiva semiótica, a servidão maquínica e a sujeição social implicam regimes distintos de signos. A sujeição mobiliza semióticas significantes, em particular a linguagem que, destinada à consciência, mobiliza representações com vistas a constituir um sujeito individuado (“capital humano”). A servidão maquínica, por sua vez, funciona baseada em semióticas a-significantes (índices do mercado de ações, moeda, equações matemáticas, diagramas, linguagens de computador, contas nacionais e de corporações, etc.) que não envolvem a consciência e as representações e não têm o sujeito como referente (LAZZARATO, 2014, p.39).

Enquanto a sujeição social opera em uma camada semiótica significante e representativa, a servidão maquínica emprega técnicas de modelização e de modulação que assumem o controle dos seres humanos “por dentro”, no nível pré-pessoal (no nível pré-cognitivo e pré-verbal), e “por fora”, no nível suprapessoal, ao atribuir a eles certos modos de percepção e sensibilidade e fabricar o inconsciente. A formatação exercida pela servidão maquínica (através de semióticas a-significantes) intervém no funcionamento básico do comportamento perceptivo, sensitivo, afetivo, cognitivo e linguístico. Lazzarato resume a distinção de diferentes tipos de semióticas realizada por Guattari ao longo de sua obra, que não são medidas ou hierarquizadas segundo a linguagem humana: codificações a-semióticas “naturais” (sistemas cristalinos e DNA, por exemplo), semiologias significantes, incluindo semiologias simbólicas (ou pré-significantes, gestuais, rituais, produtivas, corporais, musicais, etc.), semiologias de significação e, finalmente, semióticas a-significantes (ou pós- significantes). Semióticas a-significantes não são prisioneiras das significações e dos sujeitos individuados que as carregam. Elas deslizam em vez de produzir significações ou representações (LAZZARATO, 2014, p.72). É a linguagem das máquinas, dos diagramas, das contas e equações matemáticas, cujas representações não têm o sujeito como referente. Seus signos funcionam como input e output da máquina, sem passar pela denotação, representação e significação. Esses fluxos de signos a-significantes mobilizam fluxos reais, 76

produzem mudanças de condições e permitem às máquinas “falarem” e “se expressarem” com o humano, com outras máquinas e com fenômenos reais. Ao modular o que será exibido para cada usuário, o Google modula a percepção do “sujeito individuado” e modeliza sua sensibilidade. Como demonstrado anteriormente, estes serviços da web são dispositivos da sociedade de controle, mas operam nessa dimensão não-discursiva, a- significante e não-representantiva.

MEMÓRIA, DESEJO E IDENTIDADE Mas quais implicações trazem a modelização e a modulação da percepção e sensibilidade do “sujeito individuado” realizada pela lógica do algoritmo do Google? Implica em uma captura do desejo e, consequentemente, no condicionamento de possíveis.

Lazzarato argumenta que o desejo na sociedade capitalista contemporânea não é uma expressão da subjetividade humana – ele emerge do agenciamento de fluxos humanos e não humanos, de uma multiplicidade de máquinas técnicas e sociais. “O desejo desterritorializado nada sabe de ‘pulsões’ e de ‘conatus’. Em vez disso, ele deve ser relacionado ao possível, à criação de novas potências, à emergência do que parece ser impossível dentro do quadro da dominação capitalista” (LAZZARATO, 2014, p.49).

O desejo não é uma força natural ou espontânea, mas é artificial e maquínico (DELEUZE e GUATTARI, 1997). O desejo não vem de dentro do sujeito. Ele emana de um fora, de um encontro, de um acoplamento, de um agenciamento. Nunca se deseja apenas uma pessoa ou uma coisa, mas também os mundos e os possíveis que se sentem neles. Assim, o desejo é, antes de tudo, coletivo.

Para avançar na reflexão sobre os processos de produção de desejo do Google, precisamos retomar resumidamente o que já se viu anteriormente sobre como os filtros de personalização de resultados de busca funcionam. O sistema de construção de perfil do usuário do Google opera através da captura de diversos dados, que são processados e usados para modular multiplicidades. O perfil do usuário, conforme entendido pelo algoritmo, “molda” os resultados que

77

o Google irá apresentar. No entanto, é preciso também apontar o óbvio contido nesta afirmação – o inverso – ou seja, o Google também “molda” o usuário.

Ao fazer uso de um objeto ou tecnologia, o sujeito não está apenas interagindo com ele em sua dimensão instrumental, mas também está em acoplamento com sua dimensão social e maquínica. Ao pegar uma chave de fenda para apertar um parafuso, o sujeito está fazendo uso do instrumento para um objetivo particular, mas há também modos de uso determinados pelo objeto, tanto no sentido físico quanto social – não se pode usar uma chave de fenda para pegar comida, somente a mão humana acopla com a chave de fenda, e o instrumento encaixa em determinados objetos e não em outros. Entender uma mídia como um instrumento de mão única, a ser “usado” por alguém, faz prevalecer seu aspecto maquínico em detrimento do seu aspecto de aparato, no sentido desenvolvido por Flusser:

A análise desta oposição parte da concepção de instrumento como um objeto produzido para um determinado propósito, ou, nas palavras de Flusser, um objeto ‘bom para algo’. Este ‘algo’, motivo e propósito do instrumento, a um só tempo, faz parte e dá forma ao instrumento de modo a formatar tudo que pode ser gerado por meio dele (BAIO, 2013. p.09 apud Flusser, 1994, p.189). A concepção de funcionário de Vilém Flusser é que um usuário que acredita “usar” o aparato como instrumento de seu propósito não percebe que o resultado de sua ação está condicionado às virtualidades das formas previamente programadas no aparato. “Na tentativa de objetificar o aparato, o funcionário acaba sendo usado pelos modelos de conhecimento, poder e estética que estão inscritos na máquina, sendo assim incorporado ao seu programa” (BAIO, 2013. p.9).

A máquina ou, em nosso caso específico, o sistema lógico que está inscrito no algoritmo do Google, é um agenciamento digital e semiótico que, antes de ser técnico, é diagramático – ou seja, embutido por diagramas, planos e equações. Deleuze define diagrama como uma máquina abstrata, quase muda e cega, mas que faz ver e falar. “Todo diagrama é intersocial, e em devir. Ele nunca age para representar um mundo preexistente, ele produz um novo tipo de realidade, um

78

novo modelo de verdade” (DELEUZE, 2013. p.45). As funções diagramáticas fazem inscrições que são operacionais antes de serem representativas.

Interagir com um aparato técnico consiste, portanto, em ser sujeitado àquelas outras dimensões não instrumentais inscritas na máquina. “Em um mundo maquinocêntrico, para falar, ver, cheirar e agir, fazemos corpo com as máquinas e as semióticas a-significantes. É nesse sentido que as semióticas a- significantes constituem focos de enunciação e vetores de subjetivação.” (LAZZARATO, 2014, P.78 – grifo nosso).

Ao modular os resultados de buscas e restringir as linhas de fuga e os devires possíveis, o dispositivo ultrapassa sua dimensão instrumental de trazer à vista aquilo que o usuário procura. Ele também define quais devires estão à disposição. Quais possíveis são possíveis. Ao “fazer uso” do Google, o “sujeito individuado” incorpora a dimensão diagramática lá inscrita. É um acoplamento, que captura desejos e condiciona os possíveis.

A web não é somente um meio de informação que transmite aquilo que é no presente ou que está por vir no futuro imediato, como faça talvez um jornal diário, que tem uma conexão causal com o passado. A web mantém vivo em arquivo aquilo que está no passado – ao buscar uma informação na web, não se está procurando apenas o presente, mas também o passado, aquilo que já foi. É nesta perspectiva que o filtro personalizado de buscas captura e estabelece estratos visíveis (e invisíveis) de presente e também de passado, propondo um tipo de “memória algoritmizada”.

O funcionamento do algoritmo de seleção de resultados, sua lógica, foi criada para gerar repetição, em alguma medida, daquilo que o usuário já conhece ou se interessa. Desenvolvido pensando usuários como consumidores ao invés de cidadãos, o algoritmo promove um eterno retorno ao já conhecido. É bastante claro que este modus operandi afeta o equilíbrio cognitivo entre o fortalecimento de ideias existentes e a aquisição de novas ideias.

O filtro-bolha tem a tendência de cercar o usuário de ideias com as quais já há familiaridade, reforçando aquilo que já se conhece em detrimento de um desconhecido, de um fora. Existe uma tendência humana a acreditar no que

79

reforça noções preexistentes, fazendo enxergar o que se quer ver, chamada viés de confirmação. Jean Piaget, uma das principais figuras da psicologia do desenvolvimento, descreve o aprendizado como um processo de assimilação e acomodação. O filtro personalizado de resultados de busca tende a amplificar drasticamente o viés da confirmação – de certa forma, é este seu objetivo ao modular multiplicidades da web e faze-las convergir com aquilo que o usuário espera.

Se o aprendizado é, na definição de Piaget, um encontro com o que não se conhece, com narrativas, discursos e ideias que nos são estranhas, o tipo de filtro que o Google interpõe entre quem faz uma busca na internet e os resultados dessa busca dificulta o usuário de ter esses encontros. Ao afastar conteúdos que estão fora da esfera do conhecido pelo usuário, o Google dificulta o encontro com o outro – com a alteridade em si. A personalização de resultados de busca é a construção de um ambiente composto inteiramente do desconhecido adjacente – trazendo à vista somente aquilo que não pode abalar o que já se conhece, mas que parece ser nova informação. Neste contexto, Pariser cita uma frase magistral de Pablo Picasso quanto às máquinas de computação de seu tempo, que com a personalização de resultados de busca ganha um novo significado: “Os computadores são inúteis. Eles só nos dão respostas”.

Esta é mais uma das formas pelas quais os filtros personalizados podem interferir na nossa capacidade de compreender adequadamente o mundo: eles alteram a noção que temos de mapa. Ainda mais perturbador é o fato de removerem suas áreas em branco, transformando os deconhecidos conhecidos em desconhecidos desconhecidos (PARISER, 2012. p.96). Portanto, pode-se dizer que a lógica de funcionamento do algoritmo do Google, como dispositivo, limita o acesso a discursos desconhecidos, e opera uma subjetivação que reforça os discursos e narrativas com que o usuário já tem familiaridade. Mais do que isso, a lógica de funcionamento do algoritmo do Google promove um tipo de sensibilidade e de percepção que reforça o que é familiar e afasta a alteridade.

Robert Putnam, professor de Políticas Públicas da John F. Kennedy School of Government da Harvard University, identifica em seu livro “Bowling Alone: The Collapse and Revival of American Community”, dois tipos de capital social: o 80

capital de “ligação”, orientado para o interior de grupos já formados e criados, que fortalece laços já existentes, agindo como uma força centrípeta e unificando ainda mais aquele grupo; e o capital social de tipo “ponte”, que é gerado quando há integração entre diferentes grupos sociais, agindo como uma força centrífuga que conecta o grupo ou indivíduo a outros grupos e outros indivíduos que são diferentes e diversos do primeiro (PUTNAM, 2000, p.23).

A internet, enquanto tecnologia, permite a interação entre usuários de qualquer localização geográfica e qualquer matiz cultural que esteja conectado à rede. No entanto, no espaço virtual, serviços da web que fazem uso de filtros personalizados, como já vimos anteriormente, limitam as linhas de fuga e fazem convergir os conteúdos ao que é familiar. Esta lógica de operação conecta com mais facilidade usuários com discursos, narrativas e idéias semelhantes do que usuários que pensam de forma diversa. Assim, a rede estabelece um mecanismo no qual a conexão entre usuários que pensam de forma semelhante ficam ligados mais facilmente, independentemente de localização geográfica, e refratando usuários diferentes. É um modus operandi que favorece capital social de ligação, e desfavorece capital social do tipo ponte.

Há apenas alguns anos, parte da esquerda afirmava que a mídia tradicional não podia mais controlar a política face às “novas mídias”. A nova esfera pública seria baseada em mídias sociais, com conteúdo gerado por usuários e sem liderança. De acordo com Angela Nagle, doutura na Escola de Comunicações da Dublin City University e especialista em sub-culturas online, essa rede se materializou, mas ajudou a levar a direita, não a esquerda, ao poder. “Aqueles da esquerda que fetichizaram a rede espontânea centrada na Internet e sem líderes, declarando antiquadas todas as outras formas de fazer política, falharam em perceber que a forma sem líder realmente nos dizia pouco sobre o conteúdo filosófico, moral ou conceitual dos movimentos envolvidos” (NAGLE, 2017, p.27).

Redes sociais (Facebook, Twitter, etc.) que constituiriam essa “nova esfera pública”, assim como o Google, fazem uso de algoritmos personalizados para filtrar o conteúdo. Agora que são águas passadas, é evidente como a mera potencialidade democrática da internet enquanto tecnologia nada significa se o

81

modus operandi desta, na prática, é centralizador e intensificador de laços identitários (em detrimento de relações de alteridade).

Há muitas explicações possíveis para o surgimento de uma nova sensibilidade de direita, especialmente nas gerações mais jovens, e que mudou rapidamente o discurso político mais para a direita do que qualquer um poderia imaginar. É inegável, no entanto, que ao menos nos EUA, a “nova direita” surgiu a partir da internet. A “alt-right” se desenvolveu em oposição à cultura on-line inimiga de esquerda, que fazia território especialmente nas lutas identitárias de raça e gênero. A esquerda on-line tornava a retórica “cada vez mais anti- masculina, anti-brancos, anti-heterosexual, anti-cisgênero” (NAGLE, 2017. p.68). Segundo a autora, todas as novas identidades, da esquerda e da direita, podem ser entendidas como uma resposta a uma resposta a uma resposta, cada um respondendo com raiva à existência do outro (NAGLE, 2017. p.7).

A esquerda on-line estadunidense – e, certamente, a esquerda brasileira que se deixa conduzir por discursos de países centrais, em especial a esquerda universitária de classe média – fez valer nas redes sociais uma obscura cultura de acusação e censura, que emana das políticas de identidade, nas quais “desde comer macarrão até ler Shakespeare foi declarado ‘problemático’, e até os atos mais mundanos ‘misóginos’ ou ‘supremacistas brancos’” (NAGLE, 2017. p.8). A direita on-line estadunidense se organizou em oposição aos avanços desta esquerda identitária, que tornou as plataformas de mídia social um tipo de panóptico no qual os “menos progressistas” viviam com medo de ofenderem alguém e se tornarem alvo público de expiação: “As encarnações particulares da esquerda e da direita on-line que existem hoje são, sem dúvida, um produto desse estranho período de ultra-puritanismo. Esses obscuros inícios políticos on- line tornaram-se formativos para toda uma geração e impactaram as sensibilidades e até a linguagem mainstream” (NAGLE, 2017. p.8).

82

3. ESTUDO DE CASO – GOOGLEBOT

3.1. PESQUISAS ANTERIORES SOBRE PERSONALIZAÇÃO DE RESULTADOS DE

BUSCA NA WEB A personalização de resultados de busca na web levantou preocupações crescentes sobre a possibilidade dos usuários estarem recebendo apenas os resultados favoráveis ou em conformidade com seus interesses e visões de mundo (enquanto outros resultados potencialmente importantes permaneceriam ocultos), efeito conhecido como filtro-bolha. Eli Pariser demonstrou durante sua apresentação em uma conferência TED em 2011 que, durante a Revolução Egípcia, alguns usuários que pesquisavam “Tahrir Square” (em tradução livre, Praça Tahrir, principal local de concentração de manifestações políticas contra o governo da época) haviam recebido links para notícias sobre protestos, enquanto outros recebiam links para agências de viagens. Demonstrações como esta levaram à popularização do conceito de filtro-bolha e impulsionaram o crescimento de mecanismos de busca alternativos que não personalizam resultados, como o DuckDuckGo. Entretanto, naquele momento (HANNAK et al., 2013, p.1). ainda havia pouca quantificação científica da extensão da personalização de resultados de busca.

Foi neste contexto que alguns grupos de pesquisa começaram a trabalhar para tentar mensurar a personalização de resultados de busca por serviços da web como o Google, sendo o mais proeminente sediado na Northeastern University, na cidade de Boston (EUA), em conjunto com pesquisadores da Technical University of Denmark, Brown University e do AT&T Labs–Research. O primeiro experimento do grupo sediado na Northeastern University consistiu na realização de consultas controladas no Google para identificar quais recursos (sinais, características, dados) do usuário acionam a personalização de resultados.

Cada um dos experimentos realizados pelo grupo segue um padrão semelhante, que consiste na execução dos seguintes procedimentos: (1) criação de um determinado número de contas do Google; (2) execução de um determinado número de consultas idênticas no Google em cada conta, uma vez

83

por dia, por um determinado número de dias, salvando cada um dos resultados; (3) comparação dos resultados das consultas para determinar se os mesmos resultados estão sendo exibidos na mesma ordem para cada conta. Se os resultados variarem entre as contas, as alterações podem ser atribuídas à personalização vinculada ao sinal ou recurso experimental em teste. Em alguns dos tratamentos experimentais também foram realizadas consultas sem conta do Google, para simular usuários sem cadastro no buscador (HANNAK et al., 2013, p.3).

MENSURANDO PERSONALIZAÇÃO EM PESQUISAS NA WEB O objetivo da pesquisa do grupo da Northeastern University foi identificar quanto os algoritmos de personalização de resultados efetivamente alteram os resultados para cada usuário. “Se o delta entre os resultados ‘normais’ e ‘personalizados’ for pequeno, as preocupações com o efeito filtro-bolha poderiam estar equivocadas” (HANNAK et al., 2013, p.3).

Apesar da metodologia de pesquisa deste grupo ser relativamente simples, houve a necessidade de identificar e controlar várias fontes de ruído que poderiam prejudicar a confiabilidade e reprodutibilidade dos resultados analisados. Estas fontes de ruído são (HANNAK et al., 2013, p.4):

• Atualizações do índice de pesquisa: buscadores atualizam seus índices constantemente, portanto consultas realizadas em momentos diferentes do mesmo dia podem retornar resultados diferentes sem influência de personalização de busca. Para contornar essa fonte de ruído, o experimento buscou uma solução técnica para realizar todas as consultas simultaneamente.

• Infraestrutura distribuída: serviços de pesquisa em larga escala possuem vários datacenters (centrais de bancos de dados). Diferentes datacenters podem gerar resultados diferentes para as mesmas perguntas. Essas diferenças podem ser atribuídas a inconsistências na pesquisa de dados de cada datacenter. Para eliminar esta fonte de ruído, os pesquisadores direcionaram todo o

84

tráfego de consulta para um endereço IP do Google específico. Isso elimina erros decorrentes de diferenças entre datacenters.

• Geolocalização: serviços de busca inferem a localização do usuário através de seu endereço IP e podem usar esta informação para personalização de resultados. Para medir apenas a personalização de resultados decorrente dos sinais não geográficos do usuário, todas as consultas foram enviadas a partir da mesma rede.

• Teste A/B: Por vezes, os serviços de pesquisa na web realizam testes A/B, onde determinadas funcionalidades são disponibilizadas para alguns usuários e não para outros, de forma que estas empresas possam medir quais configurações do serviço provocam mais cliques. Não foi encontrada solução definitiva para esta questão. Para efeitos de comparação, em todos os testes também foram medidos os resultados de pesquisa de consultas sem cadastro no Google.

• Efeito de transferência (carry-over effect): buscadores consideram pesquisas imediatamente anteriores àquela sendo realizada para personalizar resultados, pois compreendem que usuários realizam pesquisas sequenciais para refinar resultados de busca. Portanto, se um usuário realizar a consulta A e em seguida a consulta B, os resultados de B poderão ser influenciados pela pesquisa anterior A. Os pesquisadores da Northeaster University nomearam este fenômeno de carry-over effect, ou efeito de transferência. De acordo com os pesquisadores, as páginas de resultados têm, em média, 70% de resultados comuns quando o intervalo entre consultas é inferior a 10 minutos. Após este intervalo, o efeito de transferência cessa. Todas as consultas nos experimentos realizados pelo grupo foram realizados com ao menos 11 minutos de intervalo, evitando assim o efeito de transferência (HANNAK et al., 2013, p.4).

O grupo de pesquisadores da Northeastern University realizou os seguintes experimentos para identificar quais recursos do usuário acionam personalização,

85

(resultado positivo equivale a identificação de personalização, enquanto resultado negativo significa ausência de personalização):

Quadro 2 - Resultados do experimento realizado pelo grupo da Northeastern University

Sinal analisado Resultado Observações

Usuário logado vs não logado Positivo Resultados iguais, porém com ordenação diferente (2 resultados

reordenados)

Rastreamento por cookies Positivo Resultados iguais, porém com ordenação diferente (2 resultados

reordenados)

Navegador Negativo

Sistema operacional Negativo

Atributos da conta do usuário Negativo

Localização por IP Positivo Ao menos 1 resultado diferente por consulta, 2 reordenações de

resultados em média.

Fonte: Elaborado pelo autor com base nas informações do artigo “Measuring personalization of web search”, 2013, de autoria dos pesquisadores da Northeastern University.

Ao comparar páginas de resultados de pesquisa para a mesma consulta, é possível observar dois aspectos principais: resultados e ordenação. Resultados são os links sugeridos pelo buscador, enquanto a ordenação se limita à posição de um resultado na página. Os experimentos iniciais deste grupo demonstraram que há personalização nos resultados de pesquisa, entretanto ela afetaria mais a ordenação do conteúdo na página do que os resultados propriamente ditos.

86

Em seguida, o grupo da Northeaster examinou se o histórico de atividades de uma conta aciona a personalização de resultados de busca. Eles consideraram três tipos diferentes de histórico: pesquisas anteriores sem clicar em resultados, pesquisas anteriores em que o usuário clicou em um dos resultados e histórico de navegação na web. Em todos os casos, tomaram os cuidados descritos anteriormente para evitar o efeito de transferência (HANNAK et al., 2013, p.7). Não foi observada pelo grupo qualquer personalização dos resultados de pesquisa baseada em histórico, tanto nos resultados quanto em sua ordenação:

Ficamos surpresos que os testes baseados em histórico não revelaram personalização na pesquisa do Google. Uma explicação para essa descoberta é que o histórico da conta pode impactar apenas os resultados da pesquisa por um breve período de tempo, ou seja, o efeito de transferência é a extensão da personalização orientada pelo histórico na pesquisa do Google (HANNAK et al., 2013. p.8). O resultado negativo poderia ter ainda outras causas além desta levantada pelos pesquisadores (de que a personalização estaria limitada ao efeito de transferência). O algoritmo de cálculo de relevância do Google considera centenas de sinais do usuário, e apesar de ser bastante provável que determinados sinais tenham mais “peso” do que outros na composição da página de resultados, é possível que apenas um deles não seja suficiente para ativar a personalização de resultados de forma observável em laboratório. O experimento tinha a intenção de verificar quais sinais ativam a personalização, no entanto, o mais provável é que os sinais sejam considerados em conjunto, em rede, o que impediria que a personalização fosse detectada facilmente em experimento controlado e, especialmente, ao isolar em cada experimento um determinado sinal para verificação de personalização.

Esta contestação quanto à validade dos resultados obtidos pela estratégia metodológica de isolamento dos sinais é reforçada por outra descoberta realizada pelo mesmo grupo, no mesmo conjunto de experimentos. Os pesquisadores coletaram dados reais de resultados de pesquisa de usuários

87

através do AMT 17 (Amazon’s Mechanical Turk), onde foi oferecida uma recompensa de US$2 por participação no estudo. Foram recrutados 200 participantes através do AMT, com idades auto declaradas entre 12 e 48 anos. Os usuários foram instruídos a configurarem seus navegadores para usar um proxy HTTP controlado pelos pesquisadores e, em seguida, foram direcionados para uma página da web que realizava automaticamente 80 buscas no Google. Os dados coletados pelos dos usuários foram comparados aos dados coletados em laboratório, e foi possível observar ampla personalização. Resultados dos usuários tiveram uma probabilidade de 11,7% maior de diferirem uns dos outros do que os resultados obtidos em testes controlados (HANNAK et al., 2013, p.5).

Além dessa diferença entre os resultados obtidos em testes controlados e de usuários reais, foi observado que alguns termos ativam mais personalização do que outros. Consultas relacionadas a negócios locais e política (por exemplo, “Grécia”, “direitos humanos” ou “loja de ferragens”) são mais personalizadas do que consultas ao estilo “o que é X?” (por exemplo, “o que é lupus?”, “ipad 2”, “fatos sobre o monstro de gila”). Aproximadamente 82% dos resultados para consultas "o que é X?" são idênticos, enquanto apenas 43% dos resultados para "gadgets" são idênticos. “No geral, ‘política’ é a categoria de consulta mais personalizada, seguida por ‘lugares’ e ‘gadgets’” (HANNAK et al., 2013, p.8).

O experimento também demonstrou que há diferença na volatilidade (alteração do resultado ou sua ordenação) de acordo com sua posição. Resultados exibidos no topo da página são menos voláteis, porém podem mudar de lugar na ordenação. Cerca de 73% dos resultados na posição 1 (topo da página) que foram diferentes para usuários vieram da posição 2, e 58% dos resultados na posição 1 que foram alterados passaram para a posição 2. O

17 O é uma ferramenta que permite que indivíduos e empresas (conhecidos como solicitantes) coordenem trabalho humano para executar tarefas que os computadores atualmente não conseguem realizar. Os solicitantes publicam trabalhos conhecidos como Human Intelligence Tasks (HITs), como identificar conteúdo específico em uma imagem ou vídeo, redigir descrições de produtos ou responder a perguntas, entre outros. Os trabalhadores, coloquialmente conhecidos como Turkers ou crowdworkers, navegam entre tarefas existentes e os completam em troca de uma taxa definida pelo solicitante. 88

resultado na 7ª posição é o mais volátil (33% de alteração) (HANNAK et al., 2013, p.9).

IMPACTO DA GEOLOCALIZAÇÃO NA PERSONALIZAÇÃO DE BUSCA NA WEB A relação entre geolocalização e personalização não havia sido detalhada no primeiro experimento do grupo de pesquisadores da Northeastern University, então o grupo realizou um segundo experimento dedicado a esta questão. O experimento levou em consideração todos os ruídos identificados anteriormente e aplicou as mesmas soluções, exceto para o ruído causado pela geolocalização a partir do IP do usuário, que é central neste segundo estudo. A metodologia básica consiste no envio de consultas idênticas ao Google, no mesmo momento, a partir de locais diferentes (HANNAK et al., 2015, p.02).

Foram escolhidos 66 locais para o estudo, distribuídos em 3 granularidades:

• Nacional: 22 estados dos EUA.

• Estadual: 22 condados do estado de Ohio, EUA (cada condado é separado por aproximadamente 100 milhas).

• Distrital: 15 distritos eleitorais no condado de Cuyahoga, o mais populoso de Ohio (separados, em média, por 1 milha).

Os termos de pesquisa selecionados foram categorizados em 3 níveis, sendo 33 consultas locais (“banco”, “hospital”, “KFC”), 87 consultas controversas (“aquecimento global é verdade?”, “autismo causado por vacinas”, “casamento gay”), e 120 nomes de políticos (membros do legislativo local, estadual e federal, bem como o presidente e vice presidente na época do estudo, Barack Obama e Joe Biden).

Os pesquisadores realizaram consultas controversas idênticas com a mesma coordenada de GPS em 50 máquinas diferentes do Planet Lab nos EUA e observaram que 94% dos resultados da pesquisa recebidos são idênticos. Isso confirmaria que a pesquisa do Google personaliza os resultados da pesquisa em grande parte com base nas coordenadas de GPS fornecidas, em vez do endereço IP. Em vista desta constatação, ao contrário do experimento anterior,

89

este experimento foi realizado apenas em smartphones. Todos os tratamentos experimentais foram repetidos por 5 dias para verificar a consistência ao longo do tempo (HANNAK et al., 2015, p.03).

Os resultados obtidos indicaram que consultas locais são muito mais personalizadas do que as consultas controversas e políticas. Os resultados exibidos variam entre 18% e 34% com base na localização para consultas locais, enquanto 6 a 10 dos resultados exibidos são apresentados em ordem diferente. As consultas controversas e políticas exibem pequenas diferenças de acordo com a localização, mas as quantidades de alteração de resultados e de reordenações ficaram muito próximas dos níveis de ruído, dificultando a afirmação de que essas alterações se devem à personalização.

A segunda constatação do estudo é que a personalização aumenta com a distância. A alteração nos resultados é especialmente alta entre os níveis de distrito e estado, com 2 resultados de pesquisa adicionais alterados e 4 reordenados. No geral, a personalização baseada em localização varia drasticamente por consulta. O número de resultados da pesquisa que são alterados varia entre 5 e 17 (17 é o total de resultados de uma página de pesquisa). Como era de se esperar, termos gerais como “escola” ou “correio” são mais personalizados por localização do que nomes de marca como “Starbucks” ou “KFC” (HANNAK et al., 2015, p.05).

Assim como no experimento anterior, o grupo de pesquisadores optou por isolar a maior quantidade de variáveis possíveis e verificar a variação dos resultados de busca com base apenas na localização e termos de busca. Neste contexto, é preciso esclarecer que os resultados de busca referentes às consultas de termos controversos e políticos não apresentaram variação relevante apenas em relação à localização – ou seja, a localização enquanto fator isolado não leva à personalização de termos controversos e políticos. Permanece necessário demonstrar como a personalização de resultados de pesquisa realizada pelo Google ocorre quando levados em conta todos os sinais, em rede.

90

AUDITORIA DA PERSONALIZAÇÃO DE PÁGINAS DE RESULTADOS DE MECANISMOS

DE PESQUISA RELACIONADAS A POLÍTICA Com o objetivo de verificar empiricamente se o Google personaliza resultados de busca em consultas de termos relacionadas a política, o mesmo grupo de pesquisadores da Northeaster University realizou um terceiro experimento. Durante a semana de posse do mandato do presidente estadunidense Donald Trump e nas quatro semanas seguintes, os pesquisadores analisaram resultados de busca nos computadores de 187 pessoas (entre 14 e 46 pessoas por semana). Os participantes foram recrutados através das ferramentas CrowdFlower e Prolific Academic, semelhantes ao AMT, utilizando em pesquisa anterior para os mesmos fins (LAZER et al., 2018, p.02).

A análise foi baseada em dados coletados por uma extensão desenvolvida pelos pesquisadores, instalada nos navegadores Chrome dos participantes da pesquisa. A extensão realizou automaticamente a consulta de 21 nomes de pessoas, locais e países ou grupos potencialmente relacionados com a posse de Trump, recuperou todas as consultas realizadas no Google e suas respectivas páginas de resultados, bem como as sugestões de preenchimento automático fornecidas pelo buscador (LAZER et al., 2018, p.03). Essa abordagem permitiu utilizar os navegadores de indivíduos – com seus cookies, logins e histórico de pesquisa intactos – como um proxy para coletar dados de pesquisa personalizadas reais.

Os pesquisadores constataram que usuários que relataram fazer uso de vários serviços do Google (ou Alphabet, a empresa que agrega Google, Youtube e demais unidades de negócio) e estavam cadastrados às suas contas Google tinham personalização de páginas de resultado 19,3% maior do que outros usuários. Encontraram também diferenças significativas entre as páginas de resultados de pesquisa de usuários que se declaravam a favor e contra Donald Trump. As consultas apresentaram páginas de resultados com volatilidade de 14% para usuários a favor daquele presidente, e 19% de volatilidade para usuários que se declaravam contrários – sendo volatilidade definida neste experimento como diferenças de resultados e também de ordenação de links (LAZER et al., 2018, p.07).

91

Este estudo demonstrou que a personalização em buscas no Google politicamente relacionadas é, para os autores da pesquisa, “relativamente baixa” (até 20% dos resultados da página), e varia de acordo com o termo de busca (LAZER et al., 2018, p.07).

EXPANSÃO DA MENSURAÇÃO DE PERSONALIZAÇÃO EM PESQUISAS NA WEB Os pesquisadores da Northeastern University refizeram os experimentos de 2013, atualizando seus resultados e examinando não apenas o Google, mas também o buscador Bing e o DuckDuckGo (que diz não personalizar resultados de busca). Os resultados desta atualização de pesquisa foram apresentados em 2017, e todos os resultados anteriores foram confirmados. As mesmas fontes de ruído foram identificadas e as soluções adotadas anteriormente foram consideradas suficientes.

Nesta repetição do experimento anterior, testaram uma nova forma de verificar personalização relacionada a histórico. Considerando que naquela pesquisa anterior não encontraram indícios de personalização que considerasse o histórico de navegação ou de pesquisa, optaram por um método que denominaram “Targeted Domain Clicking” (Cliques em domínios específicos). Esta variação do método anterior consistiu na criação de 10 contas, cada uma das quais direcionada a um site de notícias bem conhecido. Um sistema automatizado logado em cada conta executou 6 consultas relacionadas a notícias, 4 vezes por dia (portanto, 24 pesquisas por dia, uniformemente espaçadas ao longo do dia). Depois de cada consulta o sistema automatizado clica no link do site de notícias atribuído àquela conta. Por exemplo, uma conta foi atribuída a www.foxnews.com; 24 vezes por dia, essa conta executava consultas relacionadas a notícias e sempre clicava em resultados apontando para www.foxnews.com (se eles aparecessem nos 10 melhores resultados) (HANNAK et al., 2017, p.20). Para os autores desta pesquisa, isso criaria um sinal forte de personalização a ser seguido pelo buscador, pois o sistema de busca conseguiria identificar com clareza que o usuário favorece determinado site.

92

Mais uma vez os resultados surpreenderam o grupo de pesquisa, que não encontrou praticamente nenhuma diferença entre as páginas de resultados, independentemente de terem sido clicados. Este experimento foi realizado tanto no Google quanto no Bing. Concluíram, portanto, que clicar em determinados domínios, isoladamente, não eleva a classificação deste domínio para o sistema de busca e portanto não afeta a personalização de resultados de busca (HANNAK et al., 2017, p.20).

Por fim, este experimento demonstrou que o Google incorpora seus próprios serviços na personalização da página de resultados cerca 9% das vezes, muitas vezes em posições de alta relevância (15% dos casos na primeira posição). Aproximadamente 12% dos links em páginas personalizadas apontam para serviços, contra 8% em páginas não personalizadas. Essa tendência é relativamente uniforme em todos os níveis do Google (HANNAK et al., 2017, p.25). Isso demonstra que a personalização aumenta o número de serviços da própria empresa vistos pelos usuários da pesquisa do Google, e parece ter relação com a constatação da pesquisa de 2018, onde foi identificado que usuários que fazem uso de mais serviços do Google tem suas páginas de resultados de pesquisa mais personalizadas.

3.2. METODOLOGIA DO ESTUDO DE CASO O algoritmo de relevância do sistema de pesquisa do Google calcula, a partir de dezenas de parâmetros (ao menos “57 sinais”, como visto anteriormente), quais resultados de busca são exibidos para o usuário a cada consulta. O objetivo primeiro da presente pesquisa de mestrado é compreender a lógica do filtro de resultados de busca do Google, mapeando de que forma e em qual medida o algoritmo personaliza resultados de pesquisa para cada usuário.

Para atingir este objetivo, foi considerada a abordagem de análise técnica do código do sistema. Entretanto, o algoritmo do Google é um segredo comercial, então dissecar seu modo de funcionamento pelo código, levantando os critérios técnicos que estabelecem o que deve ser filtrado não é viável. Foi também considerada a possibilidade de recrutar usuários reais para que realizassem determinadas consultas, para posterior análise. Esta metodologia permitiria a

93

verificação empírica da hipótese do Google personalizar resultados, porém impossibilitaria o isolamento de uma série de variáveis – sistema operacional, navegador, histórico de navegação, histórico de pesquisa no Google, etc.

Considerando estas limitações, optamos pela seguinte metodologia de pesquisa:

1. Criação de 5 contas no Google com atributos pessoais variados: cada uma das contas foi configurada como se fosse de um usuário real (ver anexo 1). A quantidade de contas é suficiente para análise qualitativa dos dados, uma vez que a análise não requer que os dados sejam representativos de grandes populações para atingir o objetivo esperado.

2. Criação de histórico de pesquisa para cada uma das contas: as contas Google foram populadas com histórico de pesquisa real, baseado em dados disponíveis na web (mais detalhes sobre este tópico adiante). Assim, esperava-se que cada uma das contas Google pudesse simular adequadamente um usuário frequente da web.

3. Execução de um determinado número de consultas idênticas em cada conta, salvando as páginas de resultados de pesquisa.

4. Comparação dos resultados das consultas para determinar se os mesmos links são exibidos na mesma ordem nas páginas de resultados de cada conta.

5. Análise dos resultados em conformidade com os conceitos apresentados no capítulo anterior, em especial verificando a possibilidade de modulação de resultados a partir da noção de sociedade de controle (Foucault / Deleuze/ Lazzarato).

Caso os resultados de pesquisa para consultas iguais sejam significativamente diferentes entre contas, será possível afirmar que houve personalização com base no perfil do usuário (atributos da conta Google e histórico de pesquisa).

94

CONTROLE DE FONTES DE RUÍDO Conforme explicitado em estudos anteriores, para que os resultados do experimento sejam confiáveis e capazes de serem reproduzidos, é necessário identificar e controlar as fontes de ruído. Entretanto, uma possível falha metodológica constatada nos estudos anteriores decorre especificamente do controle excessivo destas fontes de ruído, a ponto de isolar variáveis e manter o sistema sem contexto suficiente para ativar a personalização de resultados de forma semelhante à experiência real de um usuário. Sendo assim, optou-se pela seguinte abordagem quanto às fontes de ruído:

• Atualização do índice de pesquisa: buscadores atualizam seus índices de pesquisa regularmente. Para não eliminar completamente esta variável, mas ao mesmo tempo manter os resultados de consultas com contas diferentes consistentes, as consultas para construção de histórico de pesquisa foram realizadas com intervalos de 11 minutos. As consultas cujos objetos são alvo de análise também foram espaçadas em 11 minutos, para evitar o efeito de transferência (exceto nos experimentos onde houve intenção de medir influência do efeito de transferência).

• Infraestrutura distribuída: diferenças nos resultados de pesquisa em decorrência de inconsistências no banco de dados de cada datacenter não são desejáveis porque não são resultados de personalização, mas de erro. Todas as consultas foram realizadas a partir do mesmo endereço IP, o que não elimina a possibilidade de consultas diferentes terem sido direcionadas para datacenters diferentes, porém reduz sensivelmente a possibilidade disso ocorrer. O usuário normalmente é direcionado para o datacenter com menor latência possível e, apesar da localização ser um dos fatores, não é o único (outras variáveis que afetam latência: volume de tráfego, volume de processamento do datacenter e basicamente qualquer coisa que afete a capacidade de determinado datacenter responder com rapidez à solicitação de consulta).

95

• Geolocalização: todas as consultas foram realizadas a partir do mesmo endereço IP, portanto a geolocalização capturada pelo sistema foi sempre a mesma, efetivamente eliminando esta variável como razão para personalização de resultados de pesquisa entre as contas do experimento.

• Teste A/B: não foi encontrada solução metodológica para esta questão.

• Efeito de transferência: realizar a mesma consulta várias vezes, refinando os resultados obtidos, é uma prática comum entre usuários. O experimento realiza tanto consultas únicas (um único termo de busca, e posterior análise da página de resultados) quanto consultas sequenciais (3 consultas de variações do mesmo termo, e posterior análise da página de resultados). Quando realizadas consultas únicas, houve espera de 11 minutos entre consultas (inclusive consultas de usuários diferentes) na mesma rede para não haver efeito de transferência. O mesmo cuidado foi tomado para captura de resultados de consulta que consideram efeito de transferência.

• Rastreamento por cookies: ao realizar uma pesquisa no Google, o sistema cria cookies para identificação de cada conta e também cookies que são compartilhados entre sessões (todos os usuários do Google daquela máquina). Todos os cookies da máquina onde o experimento foi realizado foram apagados antes do experimento. Todos os cookies após o início do experimento foram mantidos. Esta abordagem tem por objetivo fornecer ao Google todas as informações necessárias para ativar a personalização de resultados de busca, porém somente aquelas que foram inseridas de forma controlada durante o experimento.

• Navegador: experimentos do grupo da Northeastern University demonstraram que o navegador, isoladamente, não tem relação com personalização de resultados de busca. O navegador utilizado na composição dos históricos de pesquisa de cada conta Google foi o

96

Mozilla Firefox 3.6.24, única versão compatível com o GoogleBot elaborado para este experimento (mais detalhes sobre o bot adiante). Entretanto, todas as consultas que foram objeto de análise foram realizadas manualmente em um navegador Chrome atualizado.

• Sistema operacional: experimentos do grupo da Northeastern University demonstraram que o sistema operacional, isoladamente, não tem relação com personalização de resultados de busca. O sistema operacional da máquina onde o experimento foi realizado é Windows 10 Pro versão 1803 de 64 bits.

• Login na conta Google: experimentos anteriores demonstraram que estar logado na conta Google tem impacto na personalização de resultados de pesquisa. Todas as consultas foram realizadas com uma das contas logada na conta Google.

As opções de controle de ruído foram eleitas com o objetivo de que o experimento pudesse simular adequadamente o comportamento real de um usuário no sistema de pesquisa do Google, ao mesmo tempo que certas variáveis importantes para o mapeamento da personalização de resultados permanecessem estáveis, em especial geolocalização, navegador, sistema operacional, rastreamento por cookies, login na conta Google e efeito de carga.

CRIAÇÃO DE HISTÓRICO DE PESQUISA Em agosto de 2006 a AOL (conhecida na época como America Online) publicou na internet registros detalhados de pesquisa de um grande número de usuários que fizeram consultas em seu buscador, o AOL Search. A publicação tinha o objetivo de contribuir para pesquisas acadêmicas na área de sistemas de busca. Os registros foram publicados em um arquivo de texto compactado contendo 20 milhões de palavras-chave de pesquisa para mais de 658 mil usuários durante um período de 3 meses. Os dados de pesquisa estavam anonimizados, identificando cada um dos usuários apenas pelo número de registro (e possibilitando, assim, que pesquisadores verificassem o que um usuário único pesquisou no período de cobertura dos dados).

97

Apesar dos dados serem destinados apenas ao meio acadêmico, foram publicados na internet com livre acesso público. A opção por anonimizar os dados mantendo os número de registro de cada usuário permitiu a identificação de alguns usuário através de suas consultas de pesquisa (algumas consultas continham informações pessoais). O New York Times, na época, vasculhou alguns dos termos de pesquisa e descobriu a identidade do usuário 4417749. Suas consultas no buscador incluíam "casas vendidas na subdivisão do Shadow Lake e Condado Gwinnett na Georgia", juntamente com várias pessoas cujo sobrenome era Arnold. Isso foi suficiente para realizar cruzamentos com listas telefônicas e identificar o usuário 4417749 como Thelma Arnold, uma mulher de 62 anos que morava na Geórgia. Este fato levou a AOL a reconhecer que a publicação destes dados teve consequências imprevistas, e os retirou de seu site. No entanto, uma vez publicados os dados, permaneceram disponíveis na web ao serem replicados por diversos outros sites.

Os dados publicados pela AOL em 2006 até hoje são o maior e mais detalhado conjunto de informações de usuários reais e suas pesquisas em um sistema de buscas da web. É preciso reconhecer que o uso destes dados para pesquisa pode levantar questões éticas, já que os usuários cujos dados foram publicados não foram consultados e não deram seu consentimento para tanto. Por outro lado, os dados estão anonimizados o suficiente para que a imensa maioria dos usuário não fosse identificada (até hoje há pouco mais de 100 usuários identificados, em uma base de 658 mil, ou seja, menos de 0,02% do total).

Os históricos de pesquisa de cada uma das 5 contas elaboradas para este experimento foram inspirados em recortes dos registros de pesquisa da AOL dos seguintes usuários:

• Usuário 1 (baseado no usuário 98280 da AOL): Foram realizadas 545 consultas para compor o histórico de pesquisa deste usuário. Os temas das consultas são gravidez, vício em cocaína, convívio com cônjuge abusivo, móveis, dietas e cristianismo (Bíblia, Jesus, orações para diversas finalidades). O Google classificou estas consultas nas seguintes categorias: Calendário Chinês, Conhecimento Bíblico,

98

Relacionamento Intimo, Saúde, Mobiliário, Ator, Personalidade, Co- dependência.

• Usuário 2 (baseado no usuário 329019 da AOL): Foram realizadas 201 consultas para compor o histórico de pesquisa deste usuário. Os temas das consultas são principalmente passagens bíblicas e dietas. O Google classificou estas consultas nas seguintes categorias: Peso, Portal da Bíblia, Conhecimento Bíblico, Mulheres, Youtube, Professor, Comida, Saúde.

• Usuário 3 (baseado no usuário 1296531 da AOL): Foram realizadas 162 consultas para compor o histórico de pesquisa deste usuário. Os temas das consultas são herpes no nariz, lipoaspiração de papada, comportamento de bebês, produtos para piscina e doenças felinas. O Google classificou estas consultas nas seguintes categorias: Gatos, Piscinas, Crianças, Saúde, Notícias médicas, Bochechas, Nariz.

• Usuário 4 (baseado no usuário 3371143 da AOL): Foram realizadas 171 consultas para compor o histórico de pesquisa deste usuário. Os temas das consultas são emuladores de jogos, instalação de peças de computadores, jardins internos, maconha e crossdressing. O Google classificou estas consultas nas seguintes categorias: Cannabis, Youtube, Emuladores, Jardinagem, Roupas, Sistemas operacionais.

• Usuário 5 (baseado no usuário 4485885 da AOL): Foram realizadas 153 consultas para compor o histórico de pesquisa deste usuário. Os temas das consultas são auto-defesa feminina, defesa contra estupro, mulheres batendo em homens, aeróbica e musculação. O Google classificou estas consultas nas seguintes categorias: Artes marciais, Auto-defesa, Mulheres, Negócios, Soco, Exercícios, MMA.

Os termos de pesquisa utilizados para composição do histórico de cada perfil estão no Anexo 2. A opção por fazer uso destes dados para popular o histórico de pesquisa de cada conta teve como objetivo simular com a maior precisão possível quais termos são buscados por uma variedade de usuários comuns. 99

Como argumentado no início do capítulo 2, o uso da web é social, e os termos de busca inseridos por cada usuário guardam uma relação muito próxima à vida pessoal de cada um. Perfis de pesquisa criados artificialmente, especificamente para o experimento, não poderiam refletir a variedade de interesses de pesquisa de cada usuário sem incorrer em arbitrariedades ou suposições dos modos de busca, e portanto, não simulariam adequadamente o comportamento de usuários reais. Uma fonte possível de dados seria recuperar históricos de pesquisa de usuários reais, entretanto, seria necessário convencer usuários a abrirem seus históricos de pesquisa para estudo – o que revelaria muito de sua vida privada e interesses pessoais. Assim, os dados de usuários da AOL se mostraram a opção mais viável para compor um extenso histórico de pesquisa para vários usuários, replicando suas consultas e mantendo uma diversidade de interesses e preocupações que pôde ser aproveitada durante a análise de resultados de busca.

EXECUÇÃO DAS CONSULTAS - GOOGLEBOT As consultas realizadas no presente experimento para composição de histórico de pesquisa de cada conta foram executadas por um programa chamado GoogleBot, criado especificamente para esta pesquisa.

O programa é um robô (a partir de agora referido apenas como bot ou GoogleBot) que usa uma extensão chamada WatiN. WatiN significa “Web Application Testing in .NET” e é derivado de WaTiR, que significa “Aplicação de Teste da Web em Ruby”. O WatiN é uma extensão que permite testes automatizados em navegadores. O procedimento realizado pelo bot é: (1) abre o navegador indicado; (2) navega até a URL indicada (www.google.com.br); (3) digita a palavra-chave a partir de uma lista de palavras-chave; (4) aguarda o carregamento da lista de resultados de pesquisa; (5) captura o HTML da lista de resultados de pesquisa; (6) clica em um link aleatório da página de resultados; (7) aguarda o link clicado abrir; (8) fecha o navegador. Um usuário que está logado no Google permanece logado mesmo quando o navegador é fechado e aberto novamente, portanto o funcionamento do bot deve, em teoria, fazer o Google considerar normalmente que o usuário permaneceu logado.

100

O bot opera desta forma para que todos os dados de cada consulta sejam devidamente registrados no Google como uma pesquisa válida, que resultou em um clique. Em experimentos anteriores, estas ações (consulta seguida de clique), quando isolada de outras variáveis, não ativou personalização. Entretanto, este experimento pretende replicar mais comportamentos do usuário do que experimentos anteriores (e controlar menos variáveis). Dentre as opções possíveis – não clicar em nenhum link, clicar em um link específico ou clicar em um link aleatório – a última alternativa foi escolhida por ter mais correspondência com o comportamento de usuários reais e assegura que o Google registrará o acesso.

Durante a execução do bot, o Google detectou a automação e, por vezes, bloqueou a conexão, fazendo com que fosse necessário esperar o desbloqueio (entre 5 e 10 minutos) para continuar. Isso ocorreu durante as consultas automatizadas para compor histórico de pesquisa de todas as contas Google. Já nas consultas que são objeto de análise, idênticas em cada conta Google e em mais um perfil de controle sem conta, não houve bloqueio algum. Elas foram realizadas manualmente.

3.3. APRESENTAÇÃO GERAL DOS RESULTADOS COLETADOS Foram realizados 6 experimentos com consultas simples e 3 experimentos considerando o efeito de transferência. Os termos de pesquisa selecionados para cada consulta, em geral (veremos caso a caso), já haviam sido consultados por um dos perfis. Ou seja, um dos perfis de usuário já contém uma consulta do termo de pesquisa a ser analisado em cada experimento. Em seguida, todas as páginas de resultados de pesquisa de cada uma das 5 contas Google foram comparadas.

A análise consistiu na formatação das páginas de resultados de busca em planilha, a descaracterização de cada um dos links, de forma que cada um deles fosse representado por uma letra do alfabeto. Assim, durante a análise, cada um dos links teria analisada sua posição na página com mais facilidade, além de permitir destacar a singularidade de cada link (se é único ou há repetições).

101

Posteriormente, quando encontradas diferenças entre as páginas de resultados de cada perfil, os links ou alterações de posição são analisadas qualitativamente.

Como as contas criadas para este experimento foram baseadas em históricos de pesquisa na língua inglesa, todos os experimentos foram realizados com consultas neste mesmo idioma.

EXPERIMENTO 1 – “PREGNANCY MENTAL DISORDER” Quadro 3 - Análise do experimento 1

Fonte: Elaborado pelo autor. Marcações em azul significam links únicos, não encontrados em nenhum outro perfil, enquanto marcações em amarelo significam links em ordenação diferente dos outros perfis.

Este experimento consistiu na realização da consulta “pregnancy mental disorder” (gravidez distúrbio mental) em todas as 5 contas do Google. Esta consulta já havia sido realizada pelo perfil 1, e com este item no histórico de 102

pesquisa desta conta seria possível verificar se houve personalização dos resultados de busca quando comparadas às páginas de resultado de outros perfis.

Verificou-se que os resultados de busca foram, em sua maioria, idênticos, o que está alinhado com os achados de pesquisas anteriores – consultas do tipo “o que é” ou que buscam por definições acerca de um tema conhecido produzem pouca personalização (HANNAK et al., 2013, p.8). Entretanto, houve uma inversão de posição de dois links no usuário 5, sendo melhor classificado um link sobre saúde mental da mãe no período pós-parto do que outro link sobre mães com problemas mentais planejando gravidez futura. Este usuário tem em seu histórico várias buscas sobre defesa contra estupro e treinamento para autodefesa de mulheres. Neste contexto vale questionar se o Google considera de alguma forma que, para o usuário 5, é mais relevante a saúde da mulher do que buscas sobre mulheres com distúrbios mentais.

Na seção “Pessoas também perguntam” (People also ask), houve uma sugestão diferente de todas as outras para o usuário 2. Este usuário tem em seu histórico de buscas consultas relacionadas à religião (Bíblia, Jesus, salmos, etc.) e dietas, especialmente dietas com uso de medicamentos. A sugestão do Google para este usuário, diferente de todas as outras, foi “Can you take antipsychotics while pregnant?” (Você pode tomar antipsicóticos enquanto grávida?). É possível inferir que o Google relacionou as buscas anteriores deste usuário com a consulta atual, efetivamente personalizando as sugestões de buscas futuras.

EXPERIMENTO 2 – “ANSWERING THE CALL OF GOD” Este experimento consistiu na realização da consulta “answering the call of god” (respondendo ao chamado de deus) em todas as 5 contas do Google. Esta consulta já havia sido realizada pelo perfil 2, e com este item no histórico de pesquisa seria possível verificar se houve personalização dos resultados de busca quando comparadas as páginas de resultado de outros perfis.

103

Quadro 4 - Análise do experimento 2

Fonte: Elaborado pelo autor. Marcações em azul significam links únicos, não encontrados em nenhum outro perfil, enquanto marcações em amarelo significam links em ordenação diferente dos outros perfis.

Todas as páginas de resultados foram diferentes umas das outras, ao contrário do experimento anterior. As páginas de resultados dos usuários 1 e 4 apresentaram apenas 1 link no topo da página antes das outras seções de conteúdo, enquanto a página do usuário 2 tinha 5 links, dos usuários 3 e 5 tinham 3 links. Foram retornados 3 vídeos como resultados para cada usuário, entretanto o terceiro resultado de vídeo para o usuário 2 foi encontrado apenas na página do usuário 5. Os links da web tinham ordenação bastante diferente para cada usuário, e vários usuários receberam links que outros não receberam:

• Usuário 1 não recebeu os links T, U e V.

104

• Usuário 2 não recebeu os links D e K.

• Usuário 3 não recebeu os links T e U.

• Usuário 4 não recebeu os links K, T e V.

• Usuário 5 não recebeu os links D, U e V.

Os links U e V foram os menos presentes em páginas de resultados de pesquisa (ambos foram exibidos para o usuário 2, e outros usuários receberam apenas um deles ou nenhum), e são os únicos que correspondem a links de compra – links orgânicos para o site da Amazon indicando um livro cujo título tem incorporado o termo de pesquisa “answering the call of god”.

Além disso, todos os usuários receberam 20 links na página de resultados (contando imagens como um único link, e cada video e cada pesquisa relacionada como link além dos resultados da web), exceto o usuário 5, que recebeu apenas 19 links.

Foi possível constatar que houve personalização dos resultados de busca, e que esta personalização consiste majoritariamente na reordenação dos links na página de resultados de busca. Entretanto, não foi possível deduzir a lógica seguida pelo sistema de busca para retornar cada um dos resultados. Houve, em média, 2,6 links diferentes para cada usuário em relação a outro (12,5% de diferença de links entre páginas). Este resultado está em linha com pesquisas anteriores, que indicam entre 10% e 15% de personalização da página de resultados para cada usuário (sem considerar links reordenados) (HANNAK et al., 2013, p.5). Além disso, a variação foi menor em links com posições mais altas na classificação da página de resultados, indicando que o Google tende a personalizar mais os resultados que estão com classificações menores (confirmando, mais uma vez, resultados de pesquisas anteriores).

Houve relativa semelhança entre os resultados obtidos pelos usuários 3 e 5 (2 reordenações e 2 links diferentes) e usuários 1 e 4 (1 link diferente apenas). O usuário 2 foi o mais diferente dos demais, o que evidencia o efeito do histórico de pesquisa deste usuário na composição de sua página de resultados de busca.

105

EXPERIMENTO 3 – EFEITO DE TRANSFERÊNCIA RESULTANDO EM “DETERMINED

TO SEE JESUS” Este experimento consistiu na realização da consulta “answering the call of god” (respondendo ao chamado de deus) em todas as 5 contas do Google, seguido imediatamente por “seeking Jesus” (procurando Jesus) e, por fim, “determined to see Jesus” (determinado a ver Jesus).

Quadro 5 - Análise do experimento 3

Fonte: Elaborado pelo autor. Marcações em azul significam links únicos, não encontrados em nenhum outro perfil, enquanto marcações em amarelo significam links em ordenação diferente dos outros perfis.

A pesquisa foi realizada desta forma, com 3 consultas subsequentes, para verificar se há personalização significativa quando considerado o efeito de transferência (que leva em conta pesquisas realizadas nos últimos minutos para

106

retornar resultados relacionados às páginas recentes). Cada uma destas consultas já havia sido realizada pelo perfil 2.

Houve menos personalização quando o experimento foi realizado considerando o efeito de transferência. Todos os usuários receberam os mesmos links da web e de vídeos, porém não receberam os mesmos links de pesquisas relacionadas. Houve também menor quantidade de reordenações.

• Usuário 1 não recebeu o link V (“what did Jesus say to the man who climbed on a tree to see him?”).

• Usuário 2 não recebeu o link U (“nehemiah determination”).

• Usuário 3 não recebeu o link U (“nehemiah determination”).

• Usuário 4 não recebeu o link Q (“Bible verse about hard work and determination”).

• Usuário 5 não recebeu o link V (“what did Jesus say to the man who climbed on a tree to see him?”).

É possível constatar que o Google altera menos os resultados em classificações mais altas na página de resultados, assim como nos experimentos anteriores. Além disso, foi possível identificar que, ao menos neste experimento, o efeito de transferência contribuiu para páginas de resultados mais uniformes e menos personalizadas, entretanto as sugestões de pesquisas relacionadas ainda guardam personalização baseada no perfil de cada usuário.

EXPERIMENTO 4 – “TRICKED HER PARTNER” Este experimento consistiu na realização da consulta “tricked her partner” (ela enganou seu parceiro) em todas as 5 contas do Google. Esta consulta já havia sido realizada pelo perfil 3, e com este item no histórico de pesquisa desta conta seria possível verificar se houve personalização dos resultados de busca quando comparadas às páginas de resultado de outros perfis.

107

Quadro 6 - Análise do experimento 4

Fonte: Elaborado pelo autor. Marcações em azul significam links únicos, não encontrados em nenhum outro perfil, enquanto marcações em amarelo significam links em ordenação diferente dos outros perfis.

Como constatado anteriormente, houve poucas alterações entre páginas de resultados nos itens com classificação mais alta. A maioria das alterações são ordenações, com os usuário 3 e 5 recebendo na 6ª posição um link único que nenhum outro usuário obteve como resultado.

• Usuário 1 não recebeu os links H, I e K.

• Usuário 2 não recebeu os links H, I e L.

• Usuário 3 não recebeu os links I e L.

• Usuário 4 não recebeu os links H, I e K.

• Usuário 5 não recebeu os links H, K e L.

É notável que o link H, recebido apenas pelo usuário 3, e cujo histórico de pesquisa já continha o termo pesquisado, seja o único dentre todos que instrui sobre a possibilidade acusar de estupro uma parceira que teria enganado um homem para ter relações sexuais. O outro link único (I), presente apenas na página de resultados do usuário 5 (e cujo histórico de pesquisa está relacionado a auto-defesa de mulheres e proteção contra estupro) é sobre mulheres que se sentem culpadas por terem enganado homens. A partir destes indicadores, é possível inferir que o Google personalizou os resultados de busca para cada

108

usuário seguindo os mesmos padrões verificados anteriormente (menos personalização nos links do topo da página, mais reordenações do que links novos, proporção de aproximadamente 10% a 15% de personalização na página). Entretanto, parece haver uma relação tênue entre as seleções de links novos e o histórico de pesquisa de cada usuário.

EXPERIMENTO 5 – EFEITO DE TRANSFERÊNCIA RESULTANDO EM “TRICKED

BOYFRIEND INTO BECOMING A FATHER” Este experimento consistiu na realização da consulta “tricked her partner” (ela enganou seu parceiro) em todas as 5 contas do Google, seguido imediatamente por “tricked into fatherhood” (enganado para ser pai) e por fim, “tricked boyfriend into becoming a father” (enganou o namorado para que ele se tornasse pai). A pesquisa foi realizada desta forma, com 3 consultas subsequentes, para verificar se há personalização significativa quando considerado o efeito de transferência (que considera pesquisas realizadas nos últimos minutos para retornar resultados relacionados às páginas recentes). Cada uma destas consultas já havia sido realizada pelo perfil 3.

Ao contrário do experimento 3, que também considerou efeito de transferência, este resultado implica manutenção da quantidade de personalização de resultados de busca. Houve grande quantidade de reordenações e de um link único para o usuário 2 nos resultados da web, além de resultados únicos para os usuários 3 e 5 nas pesquisas relacionadas.

O usuário com maior conformidade com o termo buscado (usuário 3) e com maior repulsa pelo assunto (usuário 5, em vista de suas pesquisas anteriores por defesa pessoal de mulheres e demais correlatos) foram aqueles com maior personalização. Para o usuário 3, a sugestão de pesquisa única foi “father’s rights unwanted pregnancy” (direitos do pai gravidez indesejada) e para o usuário 5 foi “my boyfriend made me get pregnant” (meu namorado me fez engravidar). Isso indica que o Google realiza seu cálculo de relevância levando em conta o histórico de pesquisa de cada usuário e pondera que determinados interesses anteriores podem estar relacionados com pontos de vista diferentes, mesmo que a consulta sendo realizada seja a mesma.

109

• Usuário 1 não recebeu os links H, J, L, U e V.

• Usuário 2 não recebeu os links G, H, K, U e V.

• Usuário 3 não recebeu os links J, K, L, S, T e V.

• Usuário 4 não recebeu os links I, K, L, U e V.

• Usuário 5 não recebeu os links H, J, L, S e U.

Quadro 7 - Análise do experimento 5

Fonte: Elaborado pelo autor. Marcações em azul significam links únicos, não encontrados em nenhum outro perfil, enquanto marcações em amarelo significam links em ordenação diferente dos outros perfis.

O usuário 3 teve a pesquisa mais personalizada do que todos os outros, com 6 links ausentes em sua página de resultados (mais do que todos os outros, com 5 links ausentes). Isso poderia indicar que usuários que fizeram uma busca por 110

um assunto e a refazem mais vezes recebem páginas progressivamente mais personalizadas do que usuários que estão pesquisando determinado assunto pela primeira vez.

O usuário 2 recebeu um link único e não exibido para nenhum outro (L), que é de um site de mães cristãs falando sobre como nunca é aceitável enganar um homem para que ele se torne pai (“It Is Never OK to Trick a Man Into Fatherhood | CafeMom”). Esta personalização dos resultados de busca está alinhada com seu histórico de pesquisa particular, relacionado à religião.

EXPERIMENTOS 6 E 7 – “RAPE INSTRUCTOR” E EFEITO DE TRANSFERÊNCIA

RESULTANDO EM “BECOME A CERTIFIED RAPE PREVENTION INSTRUCTOR” O experimento 6 consistiu na realização da consulta “rape instructor” (instrutor estupro) em todas as 5 contas do Google. Esta consulta já havia sido realizada pelo perfil 5, e com este item no histórico de pesquisa desta conta seria possível verificar se houve personalização dos resultados de busca quando comparadas às páginas de resultado de outros perfis. Entretanto, ao comparar todas as páginas de resultado, constatou-se que todas estavam idênticas.

Quadro 8 - Análise do experimento 6

Fonte: Elaborado pelo autor. Marcações em azul significam links únicos, não encontrados em nenhum outro perfil, enquanto marcações em amarelo significam links em ordenação diferente dos outros perfis.

Um segundo experimento (7) foi realizado, desta vez levando em conta o efeito de transferência, em que a consulta inicial foi seguida das consultas 111

“become a certified rape instructor” (tornar-se um instrutor estupro certificado) e “become a certified rape prevention instructor” (tornar-se um instrutor de prevenção de estupro certificado).

Em ambos os experimentos (6 e 7), as páginas de resultados de todos os usuários foram idênticas.

Quadro 9 - Análise do experimento 7

Fonte: Elaborado pelo autor. Marcações em azul significam links únicos, não encontrados em nenhum outro perfil, enquanto marcações em amarelo significam links em ordenação diferente dos outros perfis.

Considerados os resultados de experimentos anteriores, onde houve ao menos uma quantidade mínima de variação, é possível imaginar que o Google não personaliza determinados tipos de pesquisa (entretanto, não é possível afirmar quais seriam estes tipos de pesquisa que não são personalizados). O tema da consulta permite inferir que rape (estupro) pode ser uma palavra que impede a personalização de resultados.

EXPERIMENTO 8 – “FLAT EARTH” Este experimento consistiu na realização da consulta “flat Earth” (Terra plana) em todas as 5 contas do Google. Esta consulta não havia sido realizada por nenhum dos perfis, e o objetivo era verificar se uma pesquisa não relacionada com o histórico de pesquisa dos usuários resultaria em personalização dos resultados de busca.

112

Quadro 10 - Análise do experimento 8

Fonte: Elaborado pelo autor. Marcações em azul significam links únicos, não encontrados em nenhum outro perfil, enquanto marcações em amarelo significam links em ordenação diferente dos outros perfis.

Apesar de todas as páginas de resultados terem sido idênticas, uma delas (usuário 1) apresentou um único link publicitário no final. Este link tem o título “God proves Earth is flat”, e leva a uma página em que se relacionam passagens bíblicas e a famigerada teoria da Terra plana. Ainda que não tenha havido personalização direta pelo cálculo de relevância do Google, houve exibição de uma publicidade personalizada com base nos critérios e sinais disponíveis no sistema de busca do Google. Assim, é possível inferir que, mesmo páginas de resultados idênticas entre usuários (ou seja, que provavelmente tiveram sua personalização de alguma forma impedida ou impossibilitada), ainda exibem anúncios personalizados com base no histórico de pesquisa.

EXPERIMENTO 9 – EFEITO DE TRANSFERÊNCIA RESULTANDO EM “PROVES

EARTH IS FLAT” Este experimento consistiu na realização da consulta “flat Earth” (Terra plana) em todas as 5 contas do Google, seguido imediatamente por “is Earth flat” (a Terra é plana?) e por fim, “proves Earth is flat” (provas que a Terra é plana).

113

Quadro 11 - Análise do experimento 9

Fonte: Elaborado pelo autor. Marcações em azul significam links únicos, não encontrados em nenhum outro perfil, enquanto marcações em amarelo significam links em ordenação diferente dos outros perfis.

A pesquisa no Google foi realizada com 3 consultas subsequentes para verificar se há personalização significativa quando considerado o efeito de transferência (que considera pesquisas realizadas nos últimos minutos para retornar resultados relacionados às páginas recentes). Nenhuma destas consultas haviam sido feitas anteriormente em nenhum dos perfis.

Os resultados foram semelhantes ao experimento anterior (8), em que não houve personalização das páginas de resultados de pesquisa, porém houve exibição de publicidade personalizada ao final da página de resultados de pesquisa dos usuários 1, 2 e 5. O link publicitário sempre foi o mesmo, e era o mesmo encontrado na pesquisa anterior (“God proves Earth is flat”). É possível verificar que o link publicitário foi exibido nas páginas dos usuários que tinham histórico de pesquisa ligado a religião, sendo o usuário 5 a única exceção. Não foi possível constatar a razão do usuário 5 ter recebido a publicidade.

Assim como nos experimentos 6 e 7, parece haver algum tipo de impedimento à personalização de páginas de resultados de certos assuntos (mas que não impõe limites à publicidade). Isso pode ser inferido a partir da

114

resposta padrão do Google quando realizada a 2ª consulta neste experimento de efeito de transferência (“is Earth flat”).

Figura 13 - Reprodução da tela de resultados de busca da consulta “is Earth flat”

Fonte: Reprodução da tela de resultados de busca do Google durante um dos experimentos, quando realizada a consulta “is Earth flat”. Em tradução livre, o Google responde “Não, a terra é uma esfera”.

3.4. CONCLUSÕES DOS RESULTADOS EXPERIMENTAIS O buscador Google rastreia a web seguindo critérios próprios para abastecer um banco de dados, no qual realiza cálculos de relevância para classificar as páginas de acordo com sua conformidade com determinados termos de busca. A personalização de resultados de busca foi visível na maior parte dos experimentos, e consiste principalmente de reordenação de links na página. Entretanto, entre 10% e 15% dos links podem não ser exibidos para todos os usuários quando estes realizam consultas idênticas. A personalização de resultados de busca pôde ser comprovada de forma empírica nesta pesquisa, porém foi também possível verificar que esta modulação tem escopo limitado. Considerada a dimensão social do uso dos buscadores na contemporaneidade, a personalização de resultados é significativa, entretanto, parece não representar a prisão que Pariser nomeou filtro-bolha. Vale lembrar que Pariser apresentou o conceito de filtro-bolha como resultado da interação de um sujeito com múltiplas plataformas que realizam personalização e, neste contexto, seria possível afirmar que o Google contribui em alguma medida para manter um usuário da web dentro de um território conhecido e confortável, mais favorável a seus próprios interesses e opiniões.

115

A partir dos experimentos verificamos que consultas do tipo “o que é X?” ou similares, cujo objetivo é buscar a definição de determinado termo, são menos personalizadas do que outros tipos de consulta. Foi também possível constatar que o Google personaliza toda a página de resultados de busca, inclusive as seções “Pessoas também perguntam”, videos e “Pesquisas relacionadas”. Entretanto, a personalização destas categorias não é equivalente – a personalização afeta menos os links com classificação mais alta, que ficam posicionados no topo das páginas de resultados. A menor personalização de links com classificações mais altas pode sinalizar que o Google realmente reforça o fenômeno conhecido como anexo preferencial, onde a distribuição de sites nos resultados de cada pesquisa encoraja sua própria reprodução, fornecendo um caminho fácil para o conteúdo que o buscador “considera” mais interessante (ver capítulo 2 para mais detalhes sobre essa questão).

Quando realiza personalização de resultados de pesquisa, o Google parece ponderar que determinados interesses (revelados através do histórico de pesquisa do usuário) podem estar relacionados com pontos de vista diferentes acerca do assunto sendo pesquisado. O Google, desta forma, modula os resultados de pesquisa para trazer links em conformidade com os interesses anteriores de cada usuário. Adicionalmente a estas características, foi possível observar que as buscas mais personalizadas eram aquelas de usuários que já haviam realizado anteriormente consultas semelhantes ou idênticas ao termo de busca de cada experimento. Estes resultados estão alinhados com a teoria de que o Google realiza data mining, coletando e analisando as ações de milhões de usuário, o que culmina em uma “base de dados de intenções” (HALAVAIS, 2017, p.211).

Os experimentos demonstraram que o Google personaliza resultados de pesquisa mesmo após buscas consecutivas, apesar de haver uma sensível redução na quantidade de reordenações e links novos a cada consulta subsequente.

Por fim, os resultados dos experimentos 6, 7, 8 e 9 nos levam a crer que o Google não personaliza determinados tipos de pesquisa (entretanto, não é possível afirmar quais seriam estes tipos de pesquisa que não são

116

personalizados). Os termos de pesquisa rape (estupro) e flat Earth (Terra plana) podem ser palavras que impedem a personalização de resultados. No entanto, mesmo que a página de resultados de busca não tenha apresentado personalização, não parece haver limites quanto a publicidade a ser exibida.

Ao modular o que será exibido para cada usuário, o Google modula a percepção do sujeito e condiciona sua sensibilidade, ainda que de forma tênue. Este buscador é um dispositivo da sociedade de controle e opera em uma dimensão não-discursiva, a-significante e não-representativa – não diz nada ao usuário de forma direta, mas através de seu modo de funcionamento restringe as linhas de fuga e estabelece quais são os devires possíveis, ultrapassando sua dimensão instrumental de trazer ou exibir aquilo que o usuário procura.

117

4. CONSIDERAÇÕES FINAIS A lógica do filtro de resultados de busca do Google pôde ser compreendida e mapeada ao percorrermos dois caminhos distintos nesta pesquisa: mapeamento do desenvolvimento do algoritmo ao longos dos anos através das divulgações de atualização do algoritmo, buscando no discurso da empresa, nas justificativas dos aprimoramentos técnicos, e na imprensa, as evidências de personalização e de seu modo de funcionamento; e análise empírica dos resultados da personalização de resultados de busca operada pelo buscador, no experimento com automação de busca detalhado no último capítulo.

A metodologia de pesquisa possibilitou demonstrar que o buscador tem a intenção de personalizar em alguma medida os resultados de busca para cada usuário, por compreender que esta é uma forma de retornar resultados mais relevantes para estes, e que é bem-sucedido neste aspecto. Entre 10% e 15% dos resultados de pesquisa eram diferentes para cada usuário em consultas idênticas, além da extensiva reordenação de resultados com base no histórico de pesquisas. Mais do que retornar links diferentes para cada usuário a partir de uma mesma consulta, o buscador pôde ponderar que determinados interesses (revelados através do histórico de pesquisa do usuário) podem estar relacionados com pontos de vista diferentes acerca do assunto sendo pesquisado.

Com a compreensão da lógica do filtro de buscas do Google, foi possível constatar que o buscador inscreve relações de poder ao determinar o que deve ser indexado e, principalmente, ao realizar um cálculo de relevância do conteúdo seguindo políticas próprias. É evidente que o sucesso do serviço se deve à sua inegável utilidade para encontrar conteúdo na web, entretanto, por trás desta dimensão instrumental, há também uma dimensão política que demanda mais investigação.

Um exemplo desta dimensão política é a determinação de quais termos ativam personalização, e quais não ativam. Os experimentos indicaram que existe a possibilidade do Google não personalizar pesquisas cujos termos de pesquisa são especialmente polêmicos, como “estupro” e “Terra plana”. Se isso ocorre de fato, é devido a uma política interna do sistema, que não é transparente 118

para o usuário. Entretanto, este bloqueio parece não afetar publicidade ligada a estes termos de pesquisa. Uma pesquisa futura poderia apontar com mais clareza quais termos o Google não personaliza, se a empresa de alguma forma divulga quais termos não ativam personalização e as razões pelas quais a publicidade personalizada ligada a estes termos permanece ativa.

Ainda sobre as dimensões políticas do Google, é fato conhecido que o buscador exibe páginas com classificação mais alta mais frequentemente, e que isso reforça um ciclo no qual as páginas mais bem pontuadas no PageRank ganham cada vez mais links, concentrando atenção nestes conteúdos (anexo preferencial). Para o Google, atenção é um recurso comercializável, como se fosse uma commodity a ser negociada em um mercado – sites competem por atenção, e os que recebem mais atenção são exibidos a mais usuários. O Google calcula relevância a partir desta premissa, o que sugere um entendimento de que o mercado de atenção é o modelo ideal para definir quais conteúdos devem ser exibidos. Esta é uma definição claramente ideológica, cuja política parece anterior à implementação técnica.

O próprio conceito de relevância aplicado pelo algoritmo do Google tem um viés, re-inscrevendo as diferenças de poder e controle existentes na sociedade ao replicar e amplificar comportamentos sociais comuns. Ao considerar mais relevante o que tem mais chances de ser clicado pelo usuário, o Google reproduz o que seus usuários já pensam.

O percurso teórico e conceitual desta pesquisa indicou que os processos de filtragem utilizados pelo sistema de busca do Google, por si só, não favorecem ou desfavorecem discursos ou narrativas específicas. Ao invés disso, a própria lógica do sistema, através de seu modo de uso e da forma como retorna resultados, favorece estratos de visibilidade que tem mais chance de serem clicados pelo usuário, retornando mais resultados dentro do universo conhecido dele e afastando em alguma medida o contato com a alteridade.

Uma questão para futuras pesquisas seria compreender a fundo como sistemas com esta lógica operativa de retornar resultados com mais chances de serem clicados e mais alinhados com os interesses de cada usuário afetam o modo de pensar e agir de milhões de pessoas que os usam diariamente. 119

Ao longo desta pesquisa, foram encontradas formas de aprimorar a metodologia de pesquisa, que poderão ser aplicadas em uma eventual continuidade deste projeto. Um dos caminhos possíveis é analisar patentes do Google, verificando as potencialidades técnicas dentre as propriedades intelectuais da corporação Google, e relacionando-as às atualizações do algoritmo. Esta estratégia tem por vantagem agarrar-se às definições técnicas do sistema, analisando o modus operandi do sistema a partir de seu potencial enquanto tecnologia. Outra possibilidade metodológica inexplorada nesta pesquisa é a realização de experimento com usuários reais, que proporcionaria um conjunto de dados supostamente mais confiáveis, pois nem todas as variáveis consideradas pelo sistema de busca podem ser emuladas realisticamente através de simulação ou automação.

Os processos de modulação de resultados de busca compreendidos a partir da noção de sociedade de controle funcionam em rede, inseridos em um contexto técnico, social, econômico e político, que ultrapassa o escopo desta pesquisa. Se a sociedade de controle, enquanto técnica de controle, funciona em rede, a continuidade desta pesquisa deverá estar atrelada ao estudo de outros serviços da web acessados massivamente, como redes sociais (Facebook, Twitter, LinkedIn), agregadores de conteúdo (Pinterest, Tumblr, YouTube), dentre outros, e como seus respectivos algoritmos operam, levando à compreensão de suas respectivas dimensões políticas, processos de subjetivação e modulação. Seria possível expandir o assunto desta pesquisa levando em conta as contribuições de Antonio Negri e Michael Hardt, em especial relacionadas ao que eles denominam Império, situando o Google e outros dispositivos da sociedade de controle em uma teoria mais abrangente do capitalismo contemporâneo.

Ao longo desta pesquisa identificamos que o acoplamento maquínico entre buscador do Google e usuário implica uma modulação da sensibilidade do sujeito individuado, impondo modos de ver e pensar. Apesar de termos tocado brevemente na questão da memória algoritmizada, há ainda muito o que explorar, e uma série de questões permanecem sem resposta – como vários algoritmos em conjunto atuam sobre a memória individual e coletiva? Se a web

120

tem se tornado um repositório de experiências e de conhecimento coletivo, como a organização de desta informação por algoritmos afeta as capacidades de cognição e memória dos sujeitos? Quais as consequências deste modo de organização e acesso à informação via algoritmos para a democracia representativa ocidental?

A pesquisa realizada pode também dar pistas sobre fenômenos que emergem no ciberespaço, como o que se passou a chamar de “fake news”. É possível pensar que a lógica do Google, ao favorecer o que o usuário tem mais chance de clicar, ao retornar resultados que tendem a se alinhar ao histórico de pesquisa do usuário em alguma medida, poderia impulsionar ou propagar, ao menos em teoria, conteúdo que favorece as visões particulares de cada usuário. Assim, esta lógica algorítmica poderia estar contribuindo para a divulgação de “fake news”.

A lógica de filtragem de conteúdo do algoritmo do Google poderia ainda ser um dos fatores que contribuem para o notável aumento da polarização política no ocidente ao favorecer conteúdos mais alinhados com os interesses do usuário. Ainda que a relação do Google com este fenômeno possa ser tênue à primeira vista, a quantidade de informação diferente exibida a cada usuário (em decorrência de reordenação e também de links não exibidos para todos os usuário para uma mesma consulta) é bastante significativa, ainda mais se considerarmos que cada pessoa potencialmente realiza várias consultas diárias no buscador – cada uma delas, personalizada.

121

5. REFERÊNCIAS BIBLIOGRÁFICAS

AGAMBEN, Giorgio. O Amigo & O que é um dispositivo?. 1ª edição. Chapecó: Argos, 2016.

______. O Aberto – O homem e o animal. 1ª edição. Rio de Janeiro: Editora Civilização Brasileira, 2013.

BAIO, Cesar. O filósofo que gostava de jogar: o pensamento dialógico de Vilém Flusser e a sua busca pela liberdade. Flusser Studies, n. 15m p. 1-11, 2013.

CALDEIRA, Fátima Hassan. O mecanismo de busca do Google e a relevância na relação sistema-usuário. Letrônica, Revista Digital do Programa de Pós- graduação em Letras da PUCRS, Porto Alegre, v. 8, n. 1, p. 91-106, 2015.

DELEUZE, Gilles. Conversações. 3ª edição. São Paulo: Editora 34, 2013.

______. Foucault. 1ª edição. São Paulo: Brasiliense, 2013.

DELEUZE, Gilles e GUATTARI, Félix. Mil Platôs: capitalismo e esquizofrenia 2, vol. 1. 2ª edição. São Paulo: Editora 34, 2011.

______. Mil Platôs: capitalismo e esquizofrenia Vol. 5. 2ª edição. Rio de Janeiro: Editora 34, 1997.

FLUSSER, Vilém. Más allá de las máquinas. Los gestos. Barcelona: Herder, 1994.

GALLOWAY, Alex. Protocol, or, how control exists after decentralization. Rethinking Marxism, v. 13, n. 3-4, p. 81-88, 2001.

HALAVAIS, Alexander. Search Engine Society. 1ª edição. Arizona: Polity, 2017.

Hannak, Lazer, et al. “Measuring Personalization of Web Search.” New York: Proceedings of the 22nd international conference on World Wide Web, 2013. 527-538.

122

Hannak, Lazer, et al. “Measuring personalization of web search”. https://arxiv.org/abs/1706.05011, 2017.

Hannak, Kliman-Silver, et al. “Location, Location, Location: The Impact of Geolocation on Web Search Personalization”. In Proceedings of the 2015 Internet Measurement Conference (IMC ’15). ACM, New York, NY, USA, p. 121– 127.

HARDT, Michael. A sociedade mundial de controle. In: ALLIEZ, E. (Org.). Gilles Deleuze: uma vida filosófica. São Paulo: Ed. 34, 2000.

HJARVARD, Stig. A midiatização da cultura e da sociedade. 1ª edição. São Leopoldo: Ed. UNISINOS, 2014.

LEÃO, Lucia. O Labirinto da Hipermídia – Arquitetura e navegação no ciberespaço. 3ª edição. São Paulo: Iluminuras, 2005.

Lazer, Robertson, et al. “Auditing the Personalization and Composition of Politically-Related Search Engine Results Pages”, Proceedings of the International World Wide Web Conference Committee, 2018.

LAZZARATO, Maurizio. As revoluções do capitalismo. 1ª edição. Rio de Janeiro: Editora Civilização Brasileira, 2006.

______. Signos, Máquinas, Subjetividades. 1ª edição. São Paulo: N-1 edições, 2014.

MONTEIRO, Silvana Drumond – Os mecanismos de busca: à guisa de uma tipologia das múltiplas sintaxes . In TOMAÉL, Maria Inês<< Fontes de informação na internet>> Londrina: EDUEL, 2008. ISBN 978-85-2716-493-1 p. 97- 122.

MONTEIRO, Silvana Drumond et al. As categorias dos mecanismos de busca: objeto em construção e em permanente modificação. SEMINÁRIO EM CIÊNCIA DA INFORMAÇÃO, III, 2009, Londrina. Anais... Londrina: Dep. Ciência da Informação, 2009. p. 1-20.

123

MONTEIRO, Silvana Drumond. As múltiplas sintaxes dos mecanismos de busca no ciberespaço. Informação & Informação, v. 14, p. 68-102, 2009.

MONTEIRO, Silvana Drumond; FERNANDES, Rogério P. Muller; DICARLO, Gian Carlo; TREVISAN, Gustavo Lunardelli. Sistemas de recuperação da informação e o conceito de relevância nos mecanismos de busca: semântica e significação. Encontros Bibli. Florianópolis, v. 22, n. 50, p. 161- 175, 2017.

NAGLE, Angela. KILL ALL NORMIES – Online culture wars from 4chan and Tumblr to Trump and the alt-right. 1ª edição. New York: Zero Books, 2017.

PARISER, Eli. O Filtro Invisível - o Que a Internet Está Escondendo de Você. 1ª edição. São Paulo: Ed. Zahar, 2012.

PUTNAM, Robert D. Bowling Alone: The Collapse and Revival of American Community. 1ª edição. Nova Iorque: Simon & Schuster, 2000.

SUNSTEIN, Cass R. #Republic – Divided Democracy in the Age of Social Media. 1ª edição. Princeton: Princeton University Press, 2017.

DADOS, INFORMAÇÕES E NOTÍCIAS CONSULTADAS ON-LINE

CLARK, Jack. Google Turning Its Lucrative Web Search Over to AI Machines. In: BLOOMBERG. 26 de Outubro de 2015. Disponível em: < https://www.bloomberg.com/news/articles/2015-10-26/google-turning-its- lucrative-web-search-over-to-ai-machines >. Acesso em: 20 set. 2018.

ELGIN, Ben. Google: Whiz Kids or Naughty Boys?. In: BUSINESSWEEK. 19 de Agosto de 2004. Disponível em: < https://www.webcitation.org/5hT7Hw63l?url=http://www.businessweek.com/tech nology/content/aug2004/tc20040819_6843_tc120.htm >. Acesso em: 20 set. 2018.

124

BENTLEY, Matt. 100+ Sites Impacted By Google Medic Update Analyzed. In: CAN I RANK. 22 de Agosto de 2018. Disponível em: < http://www.canirank.com/blog/google-medic-update-data/ >. Acesso em: 20 set. 2018.

OLSEN, Stefanie. Google, Yahoo bury the legal hatchet. In: CNET. 09 de Agosto de 2004. Disponível em: < https://www.cnet.com/news/google-yahoo- bury-the-legal-hatchet/ >. Acesso em: 20 set. 2018.

MCCULLAGH, Declan. Testing Google's Panda algorithm: CNET analysis. In: CNET. 18 de Abril de 2011. Disponível em: < https://www.cnet.com/news/testing- googles-panda-algorithm-cnet-analysis/ >. Acesso em: 20 set. 2018.

KOTTASOVÁ, Ivana. EU slaps Google with record $2.7 billion fine. In: CNN. 27 de Junho de 2017. Disponível em: < https://money.cnn.com/2017/06/27/technology/business/google-eu-antitrust- fine/index.html >. Acesso em: 20 set. 2018.

Desconhecido. EU charges Google with violation of competition rules. In: DW. 20 de Abril de 2016. Disponível em: < https://www.dw.com/en/eu-charges- google-with-violation-of-competition-rules/a-19200814 >. Acesso em: 20 set. 2018.

DANIEL, Caroline; PALMER, Maija. Google’s goal: to organise your daily life. In: FINANCIAL TIMES. 22 de Maio de 2007. Disponível em: < https://www.ft.com/content/c3e49548-088e-11dc-b11e-000b5df10621 >. Acesso em: 20 set. 2018.

GOOGLE. Technology Overview. Disponível em: < https://web.archive.org/web/20110412200014/http://www.google.com/corporate/ tech.html>. Acesso em: 20 set. 2018.

GOOGLE. Webmaster Guidelines. Disponível em: < https://support.google.com/webmasters/answer/35769?hl=en>. Acesso em: 20 set. 2018.

125

GOOGLE. Your business information in the knowledge panel. Disponível em: < https://support.google.com/business/answer/6331288>. Acesso em: 20 set. 2018.

CUTTS, Matt. Another step to reward high-quality sites. In: GOOGLE OFFICIAL BLOG. 24 de Abril de 2012. Disponível em: < https://search.googleblog.com/2012/04/another-step-to-reward-high-quality.html >. Acesso em: 20 set. 2018.

SINGHAL, Amit. More guidance on building high-quality sites. In: GOOGLE OFFICIAL BLOG. 06 de Maio de 2011. Disponível em: < https://webmasters.googleblog.com/2011/05/more-guidance-on-building-high- quality.html >. Acesso em: 20 set. 2018.

HORLING, Bryan; KULICK, Matthew. Personalized Search for everyone. In: GOOGLE OFFICIAL BLOG. 04 de Dezembro de 2009. Disponível em: < https://googleblog.blogspot.com/2009/12/personalized-search-for-everyone.html >. Acesso em: 20 set. 2018.

MAYER, Marissa. Universal Search: The best answer is still the best answer. In: GOOGLE OFFICIAL BLOG. 16 de Maio de 2007. Disponível em: < https://googleblog.blogspot.com/2007/05/universal-search-best-answer-is- still.html >. Acesso em: 20 set. 2018.

GOOGLE USER CONTENT. General Guidelines. Disponível em: < https://static.googleusercontent.com/media/www.google.com/en//insidesearch/h owsearchworks/assets/searchqualityevaluatorguidelines.pdf >. Acesso em: 20 set. 2018.

PHAN, Doantam. Mobile First Indexing. In: GOOGLE WEBMASTERS CENTRAL BLOG. 04 de Novembro de 2016. Disponível em: < https://webmasters.googleblog.com/2016/11/mobile-first-indexing.html >. Acesso em: 20 set. 2018.

Desconhecido. Google earnings up 12% in third quarter even as Motorola losses deepen. In: THE GUARDIAN. 17 de Outubro de 2013. Disponível em: < https://web.archive.org/web/20131017221536/http://www.theguardian.com/tech

126

nology/2013/oct/17/google-q3-revenue-earnings-report >. Acesso em: 20 set. 2018.

INTERBRAND. Best Global Brands 2016. Disponível em: < https://www.interbrand.com/best-brands/best-global- brands/2016/ranking/#?listFormat=ls>. Acesso em: 20 set. 2018.

INTERNET LIVE STATS. Total number of websites. Disponível em: < http://www.internetlivestats.com/total-number-of-websites/>. Acesso em: 20 set. 2018.

INTERNET WORLD STATS. Internet Users in the World. Disponível em: < https://www.internetworldstats.com/stats.htm>. Acesso em: 20 set. 2018.

SULLIVAN, Danny. All About The New Google “Hummingbird” Algorithm. In: SEARCH ENGINE LAND. 26 de Setembro de 2013. Disponível em: < https://searchengineland.com/google-hummingbird-172816 >. Acesso em: 20 set. 2018.

SULLIVAN, Danny. Google Launches “Universal Search” & Blended Results. In: SEARCH ENGINE LAND. 16 de Maio de 2007. Disponível em: < https://searchengineland.com/google-20-google-universal-search-11232 >. Acesso em: 20 set. 2018.

SULLIVAN, Danny. Google uses RankBrain for every search, impacts rankings of “lots” of them. In: SEARCH ENGINE LAND. 23 de Junho de 2016. Disponível em: < https://searchengineland.com/google-loves-rankbrain-uses-for- every-search-252526 >. Acesso em: 20 set. 2018.

BAKER, Loren. Yahoo! Visual Timeline 1996-2006. In: SEARCH ENGINE JOURNAL. 21 de Abril de 2006. Disponível em: < https://www.searchenginejournal.com/yahoo-visual-timeline-1996-2006/3306/ >. Acesso em: 20 set. 2018.

Desconhecido. YMYL Google Core Updates – All You Need to Know. In: SEARCH ENGINE NATION. 25 de Agosto de 2018. Disponível em: < http://searchenginenation.com/ymyl-google-core-updates/ >. Acesso em: 20 set. 2018. 127

YOUNG, Rob. Who Uses Search Engines? 92% of Adult U.S. Internet Users. In: SEARCH ENGINE WATCH. 11 de Agosto de 2011. Disponível em: < https://searchenginewatch.com/sew/study/2101282/search-engines-92-adult- internet-users-study >. Acesso em: 20 set. 2018.

DOMINGUEZ, Trace. How Much of the Internet Is Hidden?. In: SEEKER. 02 de Setembro de 2015. Disponível em: < https://www.seeker.com/how-much-of- the-internet-is-hidden-1792697912.html >. Acesso em: 20 set. 2018.

HANLEY, Rachel. From Googol to Google. In: THE STANFORD DAILY. 12 de Fevereiro de 2003. Disponível em: < https://web.archive.org/web/20100327141327/http://www.stanforddaily.com/200 3/02/12/from-googol-to-google >. Acesso em: 20 set. 2018.

PEREZ, Sarah. Google’s mobile-first search index has rolled out to a handful of sites. In: TECH CRUNCH. 20 de Dezembro de 2017. Disponível em: < https://techcrunch.com/2017/12/20/googles-mobile-first-search-index-has- rolled-out-to-a-handful-of-sites/ >. Acesso em: 20 set. 2018.

PARISER, Eli. “Beware online ‘filter bubbles’”. In: TED Talks. 2011. Disponível em: < https://www.ted.com/talks/eli_pariser_beware_online_filter_bubbles/transcript?l anguage=en >. Acesso em: 26 set. 2018.

ROSEN., J.J. The Internet you can’t Google. In: TENNESSEAN. 02 de Maio de 2014. Disponível em: < https://www.tennessean.com/story/money/tech/2014/05/02/jj-rosen-popular- search-engines-skim-surface/8636081/ >. Acesso em: 20 set. 2018.

BOHN., Dieter. Google Now: behind the predictive future of search. In: THE VERGE. 29 de Outubro de 2012. Disponível em: < https://www.theverge.com/2012/10/29/3569684/google-now-android-4-2- knowledge-graph-neural-networks >. Acesso em: 20 set. 2018.

JENKINS JR., Holman. Google and the Search for the Future. In: WALL STREET JOURNAL. 14 de Agosto de 2010. Disponível em: <

128

https://www.wsj.com/articles/SB10001424052748704901104575423294099527 212 >. Acesso em: 20 set. 2018.

VISE, David. Online Ads give Google huge gain in profits. In: WASHINGTON POST. 21 de Outubro de 2005. Disponível em: < https://www.washingtonpost.com/wp- dyn/content/article/2005/10/20/AR2005102002058.html >. Acesso em: 20 set. 2018.

DEWEY, Caitlin. You probably haven’t even noticed Google’s sketchy quest to control the world’s knowledge. In: WASHINGTON POST. 11 de Maio de 2016. Disponível em: < https://www.washingtonpost.com/news/the- intersect/wp/2016/05/11/you-probably-havent-even-noticed-googles-sketchy- quest-to-control-the-worlds- knowledge/?noredirect=on&utm_term=.affc2a5a89b8 >. Acesso em: 20 set. 2018.

WIKIPEDIA. List of search engines. Disponível em: < https://en.wikipedia.org/wiki/List_of_search_engines >. Acesso em: 20 set. 2018.

METZ, Cade. Google is 2 Billion lines of code — and it’s all in one place. In: WIRED. 16 de Setembro de 2015. Disponível em: < https://www.wired.com/2015/09/google-2-billion-lines-codeand-one-place/ >. Acesso em: 20 set. 2018.

LEVY, Steven. How Google’s Algorithm Rules the Web. In: WIRED. 22 de Fevereiro de 2010. Disponível em: < https://web.archive.org/web/20110417034921/http://www.wired.com/magazine/ 2010/02/ff_google_algorithm/all/1 >. Acesso em: 20 set. 2018.

MARRS, Megan. Predictive Search: Is This the Future or the End of Search?. In: WORDSTREAM. 3 de Abril de 2015. Disponível em: < https://www.wordstream.com/blog/ws/2013/06/24/predictive-search >. Acesso em: 20 set. 2018.

129

ANEXOS

CONFIGURAÇÃO DE DADOS PESSOAIS DAS CONTAS GOOGLE UTILIZADAS NOS

EXPERIMENTOS DETALHADOS NO CAPÍTULO 3

USUÁRIO 1 Nome: Mary

Sobrenome: Smith

Data de nascimento: 10/01/1992

Sexo: Feminino

Número de telefone (obrigatório para confirmação de cadastro): 11 95320-2696

E-mail: [email protected]

USUÁRIO 2 Nome: John

Sobrenome: Smith

Data de nascimento: 15/04/1975

Sexo: Masculino

Número de telefone (obrigatório para confirmação de cadastro): 11 99988-4153

E-mail: [email protected]

USUÁRIO 3 Nome: Stephen

Sobrenome: O’Neil

Data de nascimento: 22/07/1995

Sexo: Masculino

130

Número de telefone (obrigatório para confirmação de cadastro): 11 99729-4574

E-mail: [email protected]

USUÁRIO 4 Nome: Randall

Sobrenome: Prestley

Data de nascimento: 28/09/1985

Sexo: Masculino

Número de telefone (obrigatório para confirmação de cadastro): 11 97494-5261

E-mail: [email protected]

USUÁRIO 5 Nome: Chelsea

Sobrenome: Mann

Data de nascimento: 01/10/2000

Sexo: Feminino

Número de telefone (obrigatório para confirmação de cadastro): 11 96196-7947

E-mail: [email protected]

131

TERMOS DE PESQUISA PARA COMPOSIÇÃO DE HISTÓRIO DAS CONTAS GOOGLE

UTILIZADAS NOS EXPERIMENTOS DETALHADOS NO CAPÍTULO 3

Abaixo estão listados todos os termos de pesquisa consultados para compor o histórico de pesquisa de cada usuário. Os termos em destaque foram analisados em experimentos detalhados no capítulo 3.

USUÁRIO 1 Foram realizadas 545 consultas para compor o histórico de pesquisa do Usuário 1.

aol concert tickets www.aoltickets.com chinese gender calendar aol concert tickets www.aoltickets.com www.chinesefortunecalendar.com ticket master outlets www.ticketmaster.com chinese gender calendar www.tryingtoconceive.com residential pages in houston tx www.switchboard.com chinese gender calendar www.immihelp.com public search for person www.firstgov.gov chinese gender calendar chinesefood.about.com measurement conversion table chinese gender predictor www.thelaboroflove.com www.onlineconversion.com chinese gender predictor www.obfocus.com victoria's secret pregnancy weeks calculator pregnancy.about.com fila bible scriptures concerning prayers of faith premier cinemas in baytown tx www.pccmovies.com www.religioustolerance.org black girls bible scriptures concerning prayers of faith www.his- black girls www.blackglamors.com net.com girls how to open a grocery store and gas station girls how to open a grocery store and gas station in texas nude girls www.purescans.com grocery store gas station franchises shoes pregnancy weeks calculator shoes pregnancy calculator shoes chinese gender calendar girl gone wild www.bodsforthemods.com commercial acreage for sale in dayton tx fine black girls www.efmalliance.org commercial acreage on hwy. for sale in tx fine black girls www.sustainableag.net commercial land for sale in dayton tx shoes commercial land for sale in dayton tx fine black girls commercial land for sale in dayton tx fine black girls www.photographysites.com full moon for april fine black girls www.themiraclemaker.com november birthstone www.jewelryformother.com fine black girls www.clockworksgames.com november birthstone www.bernardine.com ovulation calculator www.woman.gov november birthstone www.bernardine.com ovulation calculator www.babycenter.com ksbj www.ksbj.org premier cinema www.pccmovies.com healing prayers www.amazon.com fine black girls healing prayers www.fourgates.com fine black girls www.photographysites.com bible scriptures for healing www.alighthouse.com fine black girls www.themiraclemaker.com bible scriptures for healing www.healingscriptures.com fine black girls www.clockworksgames.com bible scriptures for healing www.prayingscriptures.com ovulation calculator www.woman.gov healing for bipolar disorders www.mcmanweb.com ovulation calculator www.babycenter.com healing for bipolar disorders www.ofspirit.com premier cinema www.pccmovies.com healing scriptures for mental illness fine black girls outofmind.blogspot.com fine black girls healing scriptures for mental illness shoes www.wholepersonconcepts.org fila pregnancy calculator pregnancy.about.com pregnancy calculator pregnancy.about.com is spiritual fasting okay for pregnant women pregnancy calculator parenting.ivillage.com www.bennyhinn.org pregnancy calculators www.myparentime.com is spiritual fasting okay for pregnant women pregnancy calculators www.glendaleadventist.com www.usccb.org pregnancy calculator and pictures of fetus is fasting safe for pregnant women www.paternityangel.com www.stonyfield.com pregnancy calendar and fetus growth pictures criss-cross reference phone numbers www.pregnancy.org www.reversephonedirectory.com pregnancy calendar and fetus growth pictures area code www.thedirectory.org www.homeandfamilynetwork.com bible scriptures for defeating the enemy www.bible- pregnancy calculator pregnancy.about.com knowledge.com 132

first trimester of pregnancy www.woman.gov bible scriptures for defeating the enemy www.bible- http www. clickhouston.com knowledge.com clickhouston www.clickhouston.com bible scriptures concerning praying in agreement criss-cross phone number reference pregnancy calculator pregnancy.about.com www.internetpeoplesearch.com will drinking caffeine hurt my unborn baby babyfit.com criss-cross phone number reference pencil test pregnancy accuracy www.pregnancy- www.reversephonedirectory.com info.net criss-cross phone number reference pencil test pregnancy accuracy www.everything.com phone prefix of www.thedirectory.org pencil test pregnancy accuracy www.everything.com a drug with slang name of ice www.kci.org accuracy of chinese calendar gender test information on methamphetamines www.pregnancystore.com www.thebeachcomberrehabilitation.com accuracy of chinese calendar gender test residential listings www.switchboard.com www.childbirth.org pregnancy calculator pregnancy.about.com risk of having multiple births after age family poems www.netpoets.com www.marchofdimes.com poems about cousins www.scrapbook.com risk of having multiple births after age poems about cousins www.poemsforfree.com www.fertilitext.org poems about cousins risk of having multiple births after age poems about cousins www.fertilitext.org poems about cousins adcc poems about cousins toll free numbers for adcc poems about cousins bible scripture concerning speakl it out as if it were family poems www.netpoets.com bible scripture saying to speak out your miracle as if it family poems www.poemhunter.com were here www.bible-knowledge.com ksbj www.ksbj.org bible scripture saying to speak out your miracle as if it st. jude's shrine www.stjudeshrine.org were here www.bible-knowledge.com jdm ministries www.jdm.org bible scripture saying to speak out your miracle as if it symptoms of cocaine addiction nickscape.net were here www.elroy.net symptoms of cocaine addiction www.cocaine- bible scriptures concerning the miracle in our mouth effects.com chinese gender calculator www.obfocus.com symptoms of cocaine addiction www.cocaine- summer maternity clothing clothing.listings.ebay.com effects.com summer maternity clothing www.mimimaternity.com symptoms of cocaine addiction summer maternity clothing www.maternityapparel.com www.friendsofnarconon.org format for a formal apology letter symptoms of cocaine addiction www.addictionca.com www.writeexpress.com symptoms of cocaine addiction www.diagnose-me.com format for a formal apology letter symptoms of cocaine addiction www.drugabuse.gov www.letterwritingguide.com affects of cocaine use if you are diabetic format for a formal apology letter www.nccaom.org diabetic's use of cocaine format for a formal apology letter www.tamiu.edu i am diabetic and use cocaine www.realitycheck.org.au format for a formal apology letter www.bcs.org i am diabetic and use cocaine forums.studentdoctor.net form letter for a formal apology to co-worker gastrointestinal problems associated with cocaine use archives.thedaily.washington.edu www.focusas.com form letter for a formal apology to co-worker gastrointestinal problems associated with cocaine use thomashawk.com www.jrsm.org form letter for a formal apology to co-worker gastrointestinal problems associated with cocaine use www.uq.edu.au www.rochester.edu apology letter formats www.writeexpress.com gastrointestinal problems associated with cocaine use apology letter formats www.letterwritingguide.com www.ncbi.nlm.nih.gov apology letter formats www.letterrep.com gastrointestinal problems associated with cocaine use apology letter formats www.letterrep.com www.goaskalice.columbia.edu apology letter formats www.evidyarthi.com gastrointestinal problems associated with cocaine use apology letter formats writing-business-letters.com www.drug-rehab.com apology letter for misconduct to employer format co-dependency www.allaboutcounseling.com www.letterrep.com co-dependency www.recoveryresources.org apology letter for misconduct to employer format co-dependency www.recoveryresources.org www.letterrep.com co-dependency www.recovery-man.com apology letter for misconduct to employer format co-dependency skepdic.com www.chron.com is bipolar disorder hereditary www.bipolarworld.net apology letter for misconduct to employer format is bipolar disorder hereditary www.familyaware.org https://magnusoft.com/letterrep/letter_list.cfm?catid= is bipolar disorder hereditary www.bipolar.com apology letter for misconduct to employer format is bipolar disorder hereditary www.bipolar.com https://magnusoft.com/letterrep/letter_list.cfm?catid= are people with bipolar disorder prone to use drugs and apology letter for misconduct to employer format alcohol www.nimh.nih.gov how to write a letter saying your sorry are people with bipolar disorder prone to use drugs and www.writeexpress.com alcohol concernedcounseling.com apology letters for professionals www.letterrep.com are people with bipolar disorder prone to use drugs and apology letters for professionals alcohol www.aamft.org officetime.thespeciousreport.com are people with bipolar disorder prone to use drugs and apology letters for professionals www.writinghelp- alcohol www.dbsalliance.org central.com www.joelosteen.org apology letters for professionals joel osteen www.joelosteen.com www.savvychicks.com joel osteen www.joelosteen.com apology letters for professionals ezinearticles.com pregnancy calculator pregnancy.about.com apology letters for professionals www.clickz.com continental airlines www.continental.com pregnancy calculator pregnancy.about.com 133

crosby tx real estate for sale www.homes.com maternity clothing www.duematernity.com acreage for sale in crosby tx bonniebutler.homes.com maternity clothing www.thelaboroflove.com eva mendez information www.celebritywonder.com construction industry cfr code book spanish translation eva mendez information www.celebritywonder.com www.bookworkz.com bio on eva mendes www.fulllatin.com construction industry cfr code book spanish translation is there an illness disorder associated with a person teexweb.tamu.edu wanting to have numerous pets construction industry cfr code book spanish translation disorders with people owning numerous dogs www.abc.org psychological disorders construction industry cfr code book spanish translation is it a disorder to want to own violent dogs www.bookworkz.com faculty.ncwc.edu construction industry cfr code book spanish translation is it a disorder to want to own violent dogs www.bookworkz.com www.americansdeserveprivacy.com hispanic safety publications inc. is it a disorder to want to own violent dogs www.mental- www.hispanicsafetypubs.com health-today.com construction industry cfr code book spanish translation symptoms of narcissism www.toddlertime.com www.bookworkz.com symptoms of narcissism www.angelfire.com construction industry cfr code book spanish translation symptoms of narcissism it.stlawu.edu convenience store franchises in texas dmoz.org personality disorders www.degreez.com convenience store franchises in texas personality disorders www.businessnation.com personalitydisorders.mentalhelp.net how to start your own gasoline convenience store personality disorders www.focusas.com business personality disorders furlow programs stormie omartian www.stormieomartian.com definition for furlough program www.english-test.net stormie omartian stormieomartian.com olga lidia hernandez in houston tx stormie omartian's bio olga contreras massage therapist in houston tx stormie omartian's mother's mental illness www.dshs.state.tx.us www.christianitytoday.com olga hernandez stormie omartian's mother's mental illness phone for olga contreras www.secondfederal.com www.christianitytoday.com white pages for houston tx www.hellohouston.com dealing with abuse from a spouse with mental disorder motherhood maternity www.helpguide.org how to kill lice in hair www.astdhpphe.org dealing with abuse from a spouse with mental disorder how to kill lice in hair www.walgreens.com mentalhelp.net pregnancy calculator pregnancy.about.com dealing with abuse from a spouse with mental disorder dictionary definition for varmit www.campchase.com dealing with abuse from a spouse with mental disorder dictionary definition for varmit venus.soci.niu.edu incestabuse.about.com dictionary definition for varmit www.dailykos.com dealing with abuse from a spouse with mental disorder dictionary definition for varmit www.texans-r-us.com pages.zdnet.com how many mpg do you get in a dodge intrepid dealing with spouse that has bipolar disorder www.theautochannel.com christianblogs.christianet.com premier cinemas www.pccmovies.com dealing with spouse that has bipolar disorder pregnancy calculator pregnancy.about.com www.bipolarworld.net full moon date for may www.almanac.com dealing with spouse that has bipolar disorder full moon dates for central time sunearth.gsfc.nasa.gov spouse is cruel to everyone in family including animals full moon dates for central time www.hugs-edu.org coping with abusive spouses full moon dates for central time www.seasky.org divorcesupport.about.com full moon dates for central time www.psychic- coping with abusive spouses corner.com coping with abusive spouses full moon dates for central time sunearth.gsfc.nasa.gov coping with spouse who has personality disorder www.psychic-corner.com dealing with abusive spouse shoes www.shoes.com www.covenantkeepers.org beyonce pictures www.eforu.com dealing with abusive spouse beyonce pictures www.weirdspot.com coping with spouse who has personality disorder beyonce pictures www.tombraideru.com spouse is cruel to everyone in family including animals beyonce pictures www.beyonce-knowles.com coping with abusive spouses pregnancy calculator pregnancy.about.com divorcesupport.about.com www.verizonwireless. personality disorders sloths personality disorders sloths dealing with verbally abusive spouse www.drirene.com sloths sloths.org dealing with verbally abusive spouse sloths www.museum.state.il.us dealing with a spouse with personality disorder beyonce dealing with a spouse with personality disorder beyonce pictures www.beyonce-knowles.com symptoms of a personality disorder beyonce naked pictures www.acmegirls.com symptoms of a personality disorder beyonce naked pictures www.lifestyle.com symptoms of an abusive spouse www.helpguide.org sloths symptoms of an abusive spouse open-mind.org sloths www.geocities.com chinese baby predictor sloths www.geocities.com www.chinesefortunecalendar.com sloths www.q-net.net.au chinese baby predictor www.thelaboroflove.com sloths www.crystalinks.com chinese baby predictor www.obfocus.com sloths residential pages - houston tx www.switchboard.com sloths pregnancy mental disorder www.gentryschhol.com nina amada mia novela www.alma-latina.net www.baytownschooldistrict.com nina amada mia novela foro.telenovela-world.com www.gccisdschholdistrict.com 134

karyme lozano www.alma-latina.net gccisd www.gccisd.net karyme lozano www.alma-latina.net bape www.pickyourshoes.com karyme lozano www.fulllatin.com bape www.brandchannel.com nina amada mia novela tdmymas.tripod.com bape www.nicekicks.com nina amada mia novela tdmymas.tripod.com www.verizonwireless.co nina amada mia novela www..com derivative citizenship information nina amada mia novela www.moviesunlimited.com canberra.usembassy.gov nina amada mia novela foro.telenovela-world.com derivative citizenship information immlaw.com karyme lozano hairstyles showhappy.info derivative citizenship information karyme lozano hairstyles perso.wanadoo.es derivative citizenship requirements in the us isabela soriano hairstyles immigration.about.com karyme lozano hairstyles showhappy.info stories of miracles www.blessedcause.org karyme lozano hairstyles mayeumagic.com stories of miracles www.creativespirit.net karyme lozano hairstyles www.matrix.com stories of miracles adventist.tv karyme lozano hairstyles perso.wanadoo.es stories of miracles www.hypernews.org karyme lozano hairstyles ... stories of miracles www.geocities.com karyme lozano hairstyles jesse duplantis karyme lozano pictures www.alma-latina.net jesse duplantis during his rock band days karyme lozano pictures www.alma-latina.net jesse duplantis www.jdm.org karyme lozano pictures www.netglimse.com .lyrimania.com karyme lozano pictures www.netglimse.com .lyricmania.com www.lyricmania.com karyme lozano pictures allactors.co.uk .lyricmania.com www.lyricmania.com karyme lozano pictures www.celebritywizard.com .lyricmania.com music.jdmag.net karyme lozano pictures www.celebritywizard.com .lyricmania.com music.jdmag.net karyme lozano pictures www.serials.ru girls www.desktopgirls.com karyme lozano girls www.desktopgirls.com karyme lozano girls karyme lozano girls karyme lozano www.alma-latina.net supermodels www.supermodelsunlimited.com karyme lozano www.alma-latina.net supermodels www.mxdpi.com karyme lozano www.starfool.com bible scriptures defeating the enemy karyme lozano www.celebritywizard.com www.victorious.org karyme lozano babeinvasion.com bible scriptures defeating the enemy karyme lozano babeinvasion.com www.victorious.org prolean supplements www.bodyactive-online.co.uk bible scriptures defeating the enemy prolean supplements www.proimageteam.com www.victorious.org prolean supplements bible scriptures defeating the enemy ebay www.victorious.org diet pills with ephedra rdenya.no.sapo.pt bible scriptures defeating the enemy www.bible- pro lean diet supplements knowledge.com pro lean www.iwr.com remedies for burns from dry ice pro lean www.proimageteam.com what to do for a dryice burn www.painenterprises.com pro lean www.proimageteam.com bible scriptures for defeating the enemy www.bible- pro lean www.proimagenutrition.com knowledge.com pro lean www.sncdirect.com bible scriptures for defeating the enemy www.bible- pro lean knowledge.com pro image supplements www.proimageteam.com bible scriptures for defeating the enemy www.prayer- pro image supplements www.tryprovitamin.com warriors.org pro image supplements www.tryprovitamin.com bible scriptures for defeating the enemy www.bible- pro image supplements www.tryprovitamin.com knowledge.com fiesta days in sanantonio tx www.fiesta-sa.org bible scriptures for defeating the enemy what do i need to do to become an actress intercessory prayers www.spirithome.com www.kidlink.org intercessory prayers www.rockies.net what do i need to do to become an actress intercessory prayers www.beliefnet.com www.things.com intercessory prayers christianity.about.com what do i need to do to become an actress bible scriptures for healing from mental disorders www.ehow.com www.religioustolerance.org what do i need to do to become an actress bible scriptures for healing from mental disorders experts.about.com www.gotquestions.org how do i get auditions for acting gigs bible scriptures for healing from mental disorders experts.about.com www.walking-wounded.net how do i get an agent for acting jobs bible scriptures for healing from mental disorders www.theatrgroup.com www.amen.org.uk how do i get an agent for acting jobs bible scriptures for healing from mental disorders grills bible scriptures for healing from mental disorders grillz www.lyricsmania.com healing prayers for people with bipolar disorder how to make grillz www.xanga.com www.beliefnet.com how to make grillz www.xanga.com bible scriptures concerning worshiping the lord how to make grillz www.stereogum.com www.annieshomepage.com how to make grillz bible scriptures concerning worshiping the lord www.howtomakegrillz.com spiritual warfare through worship grillz www.gangstagrillz.com www.brandonweb.com grill starter kit www.mrbling.com bible scriptures defeating enemy success rate to . chain letters www.breakthechain.org www.theherbsplace.com religious fasting tips www.allaboutprayer.org bible scriptures defeating enemy 135

religious fasting tips mommyconnie.blogstream.com bible scriptures defeating enemy www.khouse.org religious fasting tips www.morningstarministries.com bible scriptures defeating enemy www.bible- furniture outlets in north carolina knowledge.com www.ncfurnitureonline.com bible scriptures for healing www.alighthouse.com furniture outlets in north carolina www.boyles.com bible scriptures for healing www.mswm.org furniture outlets in north carolina ncnet.com bible scriptures for healing www.religioustolerance.org furniture outlets in north carolina north- bible scriptures for healing www.healingscriptures.com carolina.uscity.net bible scriptures for healing www.prayingscriptures.com furniture outlets in north carolina bible scriptures for healing living room sets for wholesale prices www.nextag.com bible scriptures for defeating the enemy www.bible- living room sets for wholesale prices whispy.com knowledge.com living room sets for wholesale prices www.gowfb.com prayers for pleading the blood of jesus as an ksbj www.ksbj.org intercessor big screen televisions www.askmen.com prayers for pleading the blood of jesus wal mart www.walmart.com pleading the blood of jesus against mental disorder zss omni loveseat www.bible-knowledge.com foley's furniture pleading the blood of jesus against mental disorder foley's furniture warehouse spiritualwarfare.jesuswork.org living room sets www.hoobly.com pleading the blood of jesus against mental disorder living room sets www.bizrate.com spiritualwarfare.jesuswork.org living room sets www.thefurniturewarehouse.net pleading the blood of jesus against mental disorder living room sets www.barnfurnituremart.com www.issuesetc.org living room sets www.losangelesfurniture.com pleading the blood of jesus www.bible-knowledge.com living room sets www.peoplesfurniture.net pleading the blood of jesus www.cybertime.net living room sets www.overstock.com pleading the blood of jesus www.believers.org living room sets pleading the blood of jesus www.wordlibrary.co.uk living room sets pleading the blood of jesus www.yourgoingtohell.com pictures of living room sets for sale shopping.msn.com pleading the blood of jesus pictures of living room sets for sale christianblogs.christianet.com jerusalem.craigslist.org intercessory prayers for healing www.spirithome.com pictures of living room sets for sale intercessory prayers for healing www.centralpc.org www.sanjosefurniture.com intercessory prayers for healing www.prayerlinks.net fila www.fila.com joel osteen-- www.joelosteen.com fila prayers for relationship problems www.silvertomakeagrill.com www.divorcehope.com silver to make a grill prayers for relationship problems pregnancy calculator pregnancy.about.com www.selfhealingexpressions.com beige colored fabric livingroom sets www.dealtime.com prayers for relationship problems www.bible.com beige colored fabric livingroom sets prayers to break curses www.withoneaccord.org www.mysimon.com prayers to break curses www.demonbuster.com beige colored fabric livingroom sets prayers to break curses www.demonbuster.com www.feldmanfurniture.com prayers to break curses www.yourgoingtohell.com beige colored fabric livingroom sets www.sortprice.com prayers for cleansing www.porn-free.org beige colored fabric livingroom sets www.sortprice.com prayers for defeating enemy www.faithfulhope.com beige colored fabric livingroom sets bible scriptures for defeating the enemy www.bible- shopping.yahoo.com knowledge.com beige colored fabric livingroom sets quality- prayers to plead the blood of jesus against problems furniture.com www.bible-knowledge.com beige colored fabric livingroom sets prayers to plead the blood of jesus against problems www.feldmanfurniture.com www.bible-knowledge.com discount living room furniture prayers to plead the blood of jesus against problems www.thefurniturewarehouse.net www.christianblog.com discount living room furniture www.classifiedtoday.com how does a male's cocaine use affect a fetus discount living room furniture www.directlyhome.com www.fasalaska.com discount living room furniture how does a male's cocaine use affect a fetus www.furnitureontheweb.com https://my.inova.com/public/healthresearch/content discount living room furniture www.kelleyfurniture.com birth defects caused by father's cocaine use discount living room furniture www.furniturebuzz.com otispregnancy.org discount living room furniture www.furniturebuzz.com birth defects caused by father's cocaine use discount living room furniture www.tripdatabase.com www.furnitureesuperstore.com are chainletter scams ever successful discount living room furniture are chainletter scams ever successful www.peoplesfurniture.net marketing.mcdar.net premier cinemas www.premierecinemas.net are chainletter scams ever successful premier cinemas www.pccmovies.com . mailing list fee letter scams www.breakthechain.org pregnancy calculator pregnancy.about.com pregnancy calculator pregnancy.about.com spiritual beliefs on abortion area code www.thedirectory.org www.safehavenministries.com area code - spiritual beliefs on abortion www.beliefnet.com government grants for women owned businesses pregnancy calculator healthlink.mcw.edu www.proposalwriter.com pregnancy calculator pregnancy.about.com government grants for women owned businesses ksbj www.ksbj.org www.womanowned.com lakewood church www.joelosteen.com chinese pregnancy calendar www.holodeck.com lakewood church www.lakewood.cc chinese pregnancy calendar www.holodeck.com ksbj www.ksbj.org chinese pregnancy calendar www.thelaboroflove.com 136

ksbj www.ksbj.org chinese pregnancy calendar www.baby-parenting.com prayers for healing from serious diseases chinese gender calendar www.webwomb.com www.lyricmania www.lyricmania.com chinese gender calendar joel osteen www.joelosteen.com www.chinesefortunecalendar.com suvrail chinese gender calendar www.obfocus.com paul shepherd chinese gender calendar paul sheppard www.enduringtruth.org www.chinesefortunecalendar.com worleyparsons www.worleyparsons.com chinese gender calendar www.obfocus.com worley parsons - houston tx office www.worley.com.au

USUÁRIO 2 Foram realizadas 201 consultas para compor o histórico de pesquisa do Usuário 2.

valentines day e-cards http://www.superlaugh.com women determined to seek jesus not your mommas banana women determined to see jesus pudding http://www.northpole.com women determined to see the king paul and silas in jail http://www.ainglkiss.com christian women determined to see the king crosswalk.com http://www.crosswalk.com christian women determined to see the king 3 -6 mafia biblical women determined to see jesus 3-6 mafia stay fly http://www.lyricsandsongs.com woman with the alabaster box http://bible.cc photographs http://www.newseum.org woman with the alabaster box http://bible.cc family photographs woman with the alabaster box http://www.savior-of- handicap photographs http://www.fotosearch.com all.com photographs of the woman with the alabaster box http://www.arvopart.org handicapped http://www.fotosearch.com woman with the alabaster box http://www.amazon.com handicap photographs http://www.imdb.com woman with the alabaster family photo gallery http://www.american-pictures.com box http://www.gospelflava.com you can shout at midnight woman with the alabaster deliverance at midnight box http://www.tentmaker.org god delivers at midnight http://www.amazon.com stop watering what doesn't belong to you deliverance at midnight determined to see god paul and silas delivered at luke http://bible.cc midnight http://www.amazingchange.org luke http://www.godrules.net paul and silas delivered at luke http://www.biblegateway.com midnight http://www.allaboutturkey.com capitol school district http://www.k.de.us biblegateway http://www.biblegateway.com house rentals in dover delaware your midnight experience house rentals in dover delaware god delivers at midnight family court state of paul and silas delivered at delaware http://www.delcode.state.de.us midnight http://www.amazingchange.org family court state of paul and silas delivered at midnight http://biblia.com delaware http://www.divorcesource.com acts http://www.godrules.net family court state of delaware http://www.state.de.us bible commentaries http://eword.gospelcom.net family court state of bodybuilder clip art http://www.acclaimimages.com delaware http://www.completecase.com march sunday school family court state of delaware http://www.ilrg.com lesson http://www.christianstandard.com determined to see king jesus psalm http://www.usccb.org i am determined to seek psalm god knows all ... jesus http://miracleprayers.blogspot.com http://www.barclaychurch.org.uk women determined to see jesus http://www.woman.ch state of maryland pension withdrawl http://www.twin- bible commentaries http://bible.crosswalk.com music.com lap band directorate of civilian personnel operations surgery http://www.obesitylapbandsurgery.com civilian employment lap band surgery http://ww.khou.com directorate of civilian personnel operation delaware lap band surgery http://womenshealth.about.com duel action cleanse http://www.thecoloncleanser.com delaware lap band duel action cleanse surgeons http://www.locateadoc.com duel action cleanse http://www.thecoloncleanser.com delaware lap band duel action cleanse http://www.thecoloncleanser.com surgeons http://www.locateadoc.com duel action delaware lap band cleanse http://duelactionclnsfrsmpl.ianomalynews.info surgeons http://www.healthgrades.com natural laxatives http://www.nativeremedies.com state of delaware internal revenue home remedy laxatives http://www.fatfreekitchen.com delaware division of revenue http://www.state.de.us isca.idiana.edu delaware division of revenue http://www.online- liquid protein diets http://www.annecollins.com taxes.com liquid protein diets http://www.atkinsexposed.org ezee pass lap band surgeons in delaware ezee pass delaware http://www.obesityhelp.com applying for e-z pass lap band surgeons in applying for delaware e-z delaware http://www.readyachange.com pass http://www.ezpassde.com

137

lap band surgeons in delaware http://www.bariatric- i am determined to see jesus http://www.sofnet.com surgery.info biblical women determined to see constructive criticism classroom jesus http://www.continuetolearn.uiowa.edu activities http://www.foundationcoalition.org luke 7-37 http://www.bible.org constructive criticism classroom luke 7-37 http://www.rc.net activities http://www.foundationcoalition.org luke 7-37 http://www.wcg.org constructive criticism classroom luke 7-37 http://home.austarnet.com.au activities http://www.aec.asef.org luke 7-37 constructive criticism classroom luke 7-37 activities http://www.psychologicalscience.org luke 7-37 constructive criticism classroom sinners determined to see jesus http://www.wiu.edu activities http://www.eklavya.org harlot determined to see jesus constructive criticism classroom activities seeking jesus occupational oulook handbook -- http://www.ndcrn.com determined to see jesus sex -- determined to seek jesus http://www.regnumchristi.org intercourse -- mapquest intercourse -- are you determined to see jesus http://www.nd.edu sucks -- [/url] are you determined to see purpose and destiny in jesus http://www.whosoever.org christ http://www.calgaryworship.com the harlot determined to see jesus my purpose in christ seeking jesus http://www.covchurch.org not your mammas banana determined to seek jesus pudding http://www.amazon.ca women seeking jesus http://r.webring.com not your mammas banana he that comes to god must believe that he pudding http://www.recipezaar.com is http://www.blueletterbible.org jiffy corny bread http://recipes.egullet.org steps to seeking jesus http://lurasbookcase.com jiffy corny bread http://www.heb.com steps to seeing design a cereal box http://teacher.scholastic.com jesus http://culturalsavage.wordpress.com design a cereal box http://mtl.math.uiuc.edu sin prevents us from seeing jesus design a cereal box http://www.cynical-c.com clearly http://www.hollywoodjesus.com design a cereal box http://www.uen.org sin prevents us from seeing jesus design a cereal box http://www.flickr.com clearly http://www.bridges-across.org design a cereal box http://www.painstick.com what does it mean to see jesus hair weaving motives for seeing jesus hair weaving the 10 virgins seek jesus hair weaving techniques women with issue of blood seeks jesus full head preparing to see jesus weaving a full head of hair preparing to see jesus weaving a full head of hair preparing to meet jesus bible commentaries http://bible.crosswalk.com soul train line http://video.google.com bible commentaries http://eword.gospelcom.net soul train line http://media.putfile.com bible commentaries http://eword.gospelcom.net soul train line http://www.jumptheshark.com bible commentaries http://eword.gospelcom.net soul train line http://www.dailymotion.com answering the call of god http://www.mark-shea.com la weight loss menus http://www.changingshape.com answering the call of god http://www.intouch.org la weight loss menus http://www.dwlz.com answering the call of la weight loss menus http://www.dietbites.com god http://www.exchangedlife.com la weight loss menus http://www.dietbites.com answering the call of la weight loss menus http://www.dietbites.com god http://www.trinitybiblecollege.edu la weight loss menus http://www.dietbites.com answering the call of god http://www.frtommylane.com la weight loss menus http://www.dietbites.com answering the call of god http://www.all-creatures.org pounds in days http://slimming.onemorebite.com created for a purpose http://www.thelastdays.net 9 pounds in 11 days http://www.things.com created for a purpose http://www.deeperdevotion.com 9 pounds in 11 days http://diet.com primates and monkeys http://anthro.palomar.edu apes http://www.enchantedlearning.com created for a purpose http://www.berean.com the alabaster box http://www.lyricsdownload.com the alabaster box http://www.amazon.com the alabaster box http://bible.cc

USUÁRIO 3 Foram realizadas 162 consultas para compor o histórico de pesquisa do Usuário 3.

symptoms of childhood leukemia 2006-05-11 what is an asymmetrical mean when used with breast 1 http://www.cancer.org lumps http://www.goaskalice-cms.org is it normal to have no sexual drive 5 months after son's what is an asymmetrical mean when used with breast birth http://parents.berkeley.edu lumps is it normal to have no sexual drive 5 months after son's baby in position at 32 weeks birth device that beeps when child is out of range

138

is it normal to have no sexual drive 5 months after son's what kind of effects are there on children during birth hurricanes http://www.nola.com what are the symptoms of postpartum hyperthyroid what kind of effects are there on children during http://www.thyroid.org.au hurricanes http://www.apa.org sores and itching up your nose how to make a stuffed animal with light inside sores and touching up your nose simple science inventions sores and touching up your nose at what tempature does water boil sores and touching up your nose at what temperature does water boil sores and touching up your nose can you test positve for majuanna from second hand can you get herpes in your nose http://kidshealth.org smoke can you get herpes in your nose can you test positive for marijuana from second hand can you get herpes in your nose smoke http://www.goaskalice.columbia.edu can you get herpes in your nose can you test positive for marijuana from second hand can you get herpes in your nose smoke http://www.goaskalice.columbia.edu can you get herpes in your nose can you test positive for marijuana from second hand can you get herpes in your nose smoke http://my.marijuana.com can you get herpes in your nose my.marijuana.com can you get herpes in your nose 4th grade science project http://www.isd77.k12.mn.us is inducing my pregnancy bad 5-month old infants head is flat in the back of the do paternal grandparents always get the shaft head http://www.gillettechildrens.org do paternal grandparents always get the shaft 5-month old infants head is flat in the back of the do paternal grandparents always get the shaft head http://filipowskirace.typepad.com do paternal grandparents always get the shaft 5-month old infants head is flat in the back of the what gets rid of jowls head http://www.plagiocephaly.org what gets rid of jowls what causes plagiocephaly http://www.babycenter.com what gets rid of jowls intex pool 18x48 http://www.shopzilla.com what gets rid of jowls how many gallons of water does an in ground pool does liposuction get rid of take http://texas.sierraclub.org jowls http://www.washingtonian.com how many gallons of water does an in ground pool take does liposuction get rid of jowls http://www.patiostore.com does liposuction get rid of jowls how many gallons of water does an in ground pool take does liposuction get rid of jowls http://texas.sierraclub.org tricked her partner intex pools health risks http://www.llnl.gov scraping the lining of he uterus to stop menstrual cycle book titled the little girl of terror http://www.amazon.com having lining of uterus scrped to stop mentrual cycle permenant chlorine for pools having lining of uterus scraped to stop menstrual cycle permanent chlorine for pools if girlfriend was on birth control and tricked me am i permanent chlorine for pools responsible for pregnancy http://www.metafilter.com permanent chlorine for pools if girlfriend was on birth control and tricked me am i decorative outdoor fountains responsible for pregnancy http://www.stormfront.org rain and wind gauges http://www.kbvrtv.org if girlfriend was on birth control and tricked me am i tennessee made fountains http://www.tnloghomes.com responsible for pregnancy http://www.stormfront.org rodbenders restaurant in miami florida if girlfriend was on birth control and tricked me am i cat bleeding from mouth http://www.zzcat.com responsible for pregnancy cat bleeding from mouth http://www.zzcat.com http://beautyversusthebeast.blogspot.com feline leukemia http://www.felineleukemia.org if girlfriend was on birth control and tricked me am i can a cat with feline leukemia test negative and still be responsible for pregnancy positive http://www.vetinfo.com if girlfriend was on birth control and tricked me am i what is an ink file responsible for pregnancy kate berlin http://cgi.ebay.com if girlfriend was on birth control and tricked me am i stanley home cleaner http://www.stanleyhomecare.com responsible for pregnancy http://www.hoinews.com key west resorts http://www.oceankey.com how to clean bionaire air filter .ups.com merena iud birth co watkins cleaning products http://www.vanillaone.com tricked into fatherhood how to change the driver side mirror on the ford Tricked boyfriend into becoming a father expediton what is an asymmetrical mean when used with breast miami-dade county school board lumps http://www.hopkinsmedicine.org website http://www.dadeschools.net medmore insurance

USUÁRIO 4 Foram realizadas 171 consultas para compor o histórico de pesquisa do Usuário 4.

ardi http://www.ardi.com www.gardenpower.com basilisk system http://www.everything.com www.gardenpower.com basilisk build an indoor greenhouse http://www.nleindex.com beos emulator http://sisbe.sourceforge.net build an indoor greenhouse http://www.nleindex.com beos . download http://downloads-zdnet.com.com build an indoor grow room beos http://www.beforever.com indoor garden http://www.webterrace.com 139

beos . on athlon http://www.bedrivers.com indoor garden http://www.helpfulgardener.com beos . on athlon http://slashdot.org indoor vegetable garden http://gardengal.net betips.net http://www.betips.net indoor vegetable garden http://mtmt.essortment.com beos pesonal into pro indoor vegetable garden http://www.ext.vt.edu beos personal into pro http://www.bootmanager.com indoor vegetable garden http://www.ext.vt.edu beos software download http://www.xsall.nl indoor vegetable garden beos software download http://www.bebits.com http://www.helpfulgardener.com men wearing panties sizes http://www.brieftales.com indoor vegetable garden http://www.megagro.com men wearing panties sizes indoor vegetable garden http://www.ext.colostate.edu men wearing panties sizes florescent light indoor vegetable garden beos http://www.bebits.com fluorescent light indoor vegetable garden beos athlon xp http://www.bebits.com http://members.optusnet.com.au beos athlon xp patch http://www.bebits.com fluorescent light indoor vegetable garden install beos athlon xp http://www.megagro.com beos personal install on athlon xp fluorescent light indoor vegetable garden http://www.bebits.com http://www.oldhouseweb.com beos personal install on athlon xp new bright rockrawler mods http://www.bebits.com new bright rockcrawler mods http://www.rcboards.com beos personal install on athlon xp greenhouse equipment http://www.windowsmarketplace.com home greenhouse http://www.greenhousekit.com beos personal install on athlon xp home greenhouse http://www.agnr.umd.edu http://www.computing.net home greenhouse http://www.greenhouses-etc.net beos athlon xp patch http://www.begroovy.com home greenhouse beos athlon xp patch http://www.osnews.com heating a pvc greenhouse http://www.wvu.edu beos pe max download http://www.osnews.com heating a pvc greenhouse http://sdnew.net beos pe max download http://www.computing.net heating a pvc greenhouse http://davesgarden.com beos pe max download http://freshmeat.net heating a pvc greenhouse http://sdnew.net beos pe max download http://sourceforge.net heating a pvc greenhouse beos pe max download http://www.linux-proshop.de http://forums.gardenweb.com breeding parakeets http://www.lisashea.com heating a pvc greenhouse breeding parakeets http://www.lisashea.com http://cecalaveras.ucdavis.edu windows emulators garden zones http://www.blossomswap.com emulators http://www.emulator-zone.com garden zones http://www.thegardenhelper.com emulators http://www.emulators.com indoor vegetables http://mtmt.essortment.com amiga downloads http://free-game- indoor garden http://www.webterrace.com downloads.mosw.com artficial light garden amiga downloads http://www.amigaforever.com artficial light garden amiga downloads http://www.cebl.auckland.ac.nz plant lights http://retirees.uwaterloo.ca winuae http://www.winuae.net n controller http://www.stuffo.com winuae setup http://www.mameworld.net indoor greenhouse http://www.gardenpower.com amiga rom file download http://www.rom-world.com indoor greenhouse http://dansgardenshop.com amiga rom file download http://www.amigaforever.com www.gardenpower.com amiga rom file download http://www.tweakguides.com n roms http://www.nroms.org amiga rom file download n roms http://www.dgemu.com http://www.theoldcomputer.com n roms http://httpd.chello.nl amiga rom download http://www.rom-world.com n roms http://www.snesheaven.org men in thongs n roms http://www.nemu.net exposed thong http://www.bostonphoenix.com neo geo http://home.swipnet.se exposed thong neo geo http://thedump.classicgaming.gamespy.com show your thong http://mythong.textamerica.com rom utilities show your thong http://www.nzgirl.co.nz rom utilities http://www.emuconnect.com show your thong http://www.writtenroad.com neogeo emulator http://www.emuconnect.com my humps free download http://www.empworld.com neogeo emulator http://home.swipnet.se my humps free download http://www.mp-center.org mame neogeo http://www.arcadeathome.com my humps free download http://www.artistdirect.com mame neogeo http://www.geoshock.com getting a thong that fits winvice http://www.download-full-games.com getting a thong that fits http://www.epinions.com winvice http://www.download-full-games.com mame roms http://www.romnation.net winvice http://www.download-full-games.com nintendo roms http://www.freeroms.com c downloads http://lastninja.lemon.com nintendo roms http://www.coolrom.com c downloads http://www.cgg.com project plugins http://www.zophar.net c downloads http://www.c.com project plugins http://www.ngemu.com seed catalog http://www.parkseed.com victorias secret http://www.victoriassecret.com seed catalog http://www.territorial-seed.com what size hip waist seed catalog http://www.johnnyseeds.com help what size jeans hip waist garden catalog http://www.gardenlist.com http://www.danangstore.com badger care http://www.dhfs.state.wi.us help what size jeans hip waist fucking determined lyrics http://www.sing.com help what size jeans hip waist fucking determined tab http://www.ultimate-guitar.com help what size jeans hip mudvayne http://www.mudvayne.com walmart thongs http://www.usatoday.com mudvayne http://www.mudvayne.com walmart thongs growing pot http://www.allpotseeds.com skirtini white persian seed what is a skirtini http://mothergeckobotanicals.com.whsites.net what is a skirtini white persian poppy http://opioids.com guys who wear thongs http://groups.teenhelp.org dove feeder http://www.hurleybyrd.com 140

guys who wear thongs http://www.weeklygripe.co.uk mourning dove feeder http://forums.gardenweb.com guys who wear thongs mourning dove feeder http://www.enature.com racine crossdressers parakeet red nostrils http://animal-world.com http://www.milwaukeetransgendered.com parakeet red nostrils http://en.wikipedia.org racine crossdressers http://upscaleescorts.net parakeet red nostrils http://en.wikipedia.org racine crossdress parakeet red cere http://en.wikipedia.org www.jennasdollhouse.com parakeet red cere http://www.avianweb.com racine sluts home depot http://www.homedepot.com build a greenhouse http://www.wvu.edu tobacco seeds http://www.coffinails.com build a greenhouse http://www.plumeria.com tobacco seeds http://www.victoryseeds.com build a hydroponic garden http://wiki.ehow.com jeep cherokee sunroof build a hydroponic garden http://www.hydroponics.net jeep cherokee power sunroof will not close build a grow chamber how to fix jeep cherokee power sunroof http://www.marijuanamagazines.com http://www.faqfarm.com build a grow chamber http://www.indoor-gardening- jeep power sunroof guide.com jeep power sunroof trouble build a grow room http://www.cannabisculture.com jeep power sunroof trouble build a grow room http://www.sgs-hydroponic.com how to clone plants indoor greenhouse http://www.klimagro.com how to clone pot plants http://cannabisculture.com indoor greenhouse http://www.gardenpower.com how to clone pot plants indoor greenhouse http://dansgardenshop.com http://www.marijuanapassion.com indoor greenhouse http://www.gardenpower.com punk rock girl tab -- http://www.tabcrawler.com www.gardenpower.com seed starting jiffy strips build an indoor greenhouse http://www.omnisterra.com seed starting using jiffy strips build an indoor greenhouse http://www.selectedplants.com http://www.gardenpower.com build an indoor greenhouse http://www.michaelholigan.com

USUÁRIO 5 Foram realizadas 153 consultas para compor o histórico de pesquisa do Usuário 5.

weapon disarming technique a fighting chance self defense black martial arts magazine escape proof self defense how many people obtain the rank of black belt in the stay safe self defense martial arts i want to pick a name for my business self defense i want to become a rape escape instructor self defense systems become a certified rape instructor self defense academy become a certified rape prevention instructor commerical fitness equipment a woman beating up a man commerical fitness curcuit training equipment a woman fighting a man 360 self defense self defense training full circle self defense ppct mangement street smart self defense i want to be a ppct management certified instructor hardcore self defense ground fighting self defense techique military terms what martial art do wesley snipes practice animals names what new in self defense krav maga mcdonalds shift managers job description reality based self defense i am we todd it i am sofa king fighting i am sofa king we todd did slowly small business opportunities brazilian jui jitsu knee strikes bruce lee blocks with punches rape instructor

141