Metadados Como Atributos Da Informação Estruturada Em Bases De Dados Jornalísticas Na Web

UNIVERSIDADE METODISTA DE SÃO PAULO ESCOLA DE COMUNICAÇÃO, EDUCAÇÃO E HUMANIDADES Programa de Pós-Graduação em Comunicação Social

ANDRÉ ROSA DE OLIVEIRA

METADADOS COMO ATRIBUTOS DA INFORMAÇÃO ESTRUTURADA EM BASES DE DADOS JORNALÍSTICAS NA WEB

São Bernardo do Campo-SP, 2016

UNIVERSIDADE METODISTA DE SÃO PAULO ESCOLA DE COMUNICAÇÃO, EDUCAÇÃO E HUMANIDADES Programa de Pós-Graduação em Comunicação Social

ANDRÉ ROSA DE OLIVEIRA

METADADOS COMO ATRIBUTOS DA INFORMAÇÃO ESTRUTURADA EM BASES DE DADOS JORNALÍSTICAS NA WEB

Tese apresentada em cumprimento parcial às exigências do Programa de Pós-Graduação em Comunicação Social da Universidade Metodista de São Paulo (UMESP) para obtenção do grau de Doutor. Orientadora: Profa. Marli dos Santos Co-orientador: Prof. Walter Teixeira Lima Júnior

São Bernardo do Campo-SP, 2016

FICHA CATALOGRÁFICA

Ol4m Oliveira, André Rosa de Metadados como atributos da informação estruturada em bases de dados jornalísticas na web / André Rosa de Oliveira. 2016. 163 p.

Tese (doutorado em Comunicação Social) --Escola de Comunicação, Educação e Humanidades da Universidade Metodista de São Paulo, São Bernardo do Campo, 2016. Orientação: Marli dos Santos. Co-orientação: Walter Teixeira Lima Júnior.

1. Jornalismo 2. Internet 3. Metadados 4. Interdisciplinaridade I. Título. CDD 302.2

FOLHA DE APROVAÇÃO

A tese Metadados como atributos da informação estruturada em bases de dados jornalísticas na Web, elaborada por André Rosa de Oliveira, foi defendida e aprovada em 19 de setembro de 2016, perante a banca examinadora composta pelos professores Marli dos Santos, Walter Teixeira Lima Júnior, Ronaldo Cristiano Prati, Leandro Key Higuchi Yanaze e Roberto Joaquim de Oliveira.

Declaro que o autor incorporou as modificações sugeridas pela banca examinadora, sob a minha anuência enquanto orientadora, nos termos do Art.34 do Regulamento dos Cursos de Pós-Graduação.

São Bernardo do Campo, 19 de novembro de 2016.

______Assinatura do orientador (Profa. Dra. Marli dos Santos)

______Visto do Coordenador do Programa de Pós-Graduação

Programa: Pós-Graduação em Comunicação Social Área de concentração: Processos Comunicacionais Linha de pesquisa: Inovações Tecnológicas na Comunicação Contemporânea

“Papai, é sério que vocês perdiam tempo escrevendo sobre a necessidade de cruzar campos do conhecimento para avançar cientificamente? Caramba, vocês eram muito antiquados!”

Para Joana, a menina que vai perceber o óbvio: vivemos num tempo em que é preciso parar de chamar ruído de informação.

“Olho o mapa da cidade Como quem examinasse A anatomia de um corpo...

(E nem que fosse o meu corpo!)

Sinto uma dor infinita Das ruas de Porto Alegre Onde jamais passarei...

Há tanta esquina esquisita, Tanta nuança de paredes, Há tanta moça bonita Nas ruas que não andei (E há uma rua encantada Que nem em sonhos sonhei...)

Quando eu for, um dia desses, Poeira ou folha levada No vento da madrugada, Serei um pouco do nada Invisível, delicioso

Que faz com que o teu ar Pareça mais um olhar, Suave mistério amoroso, Cidade de meu andar (Deste já tão longo andar!)

E talvez de meu repouso...”

Mário Quintana

“A map is not the territory”.

Alfred Korzybski

AGRADECIMENTOS

Entre os nomes imprescindíveis, esta lista precisa começar com o nome da Kátia Bizan. Não fosse por sua disponibilidade e agilidade, ouso dizer, nenhum mestrando ou doutorando do PósCom da Metodista conseguiria seu título. Ao Walter “Waiãpi” Lima, pesquisador que quero ser quando crescer e fonte de inspiração e admiração há dez anos. Por sua seriedade, estímulo e paciência. À Marli dos Santos, por compartilhar sua paixão pelo Jornalismo e, especialmente, pela confiança ao acolher este trabalho. Ao Fábio Josgrilberg e à Pró-Reitoria de Pós-Graduação e Pesquisa da UMESP, pelo apoio e concessão de benefício por meio do Programa de Suporte à Pós-Graduação de Instituições de Ensino Particulares (PROSUP), financiado pela Coordenação de Aperfeiçoamento de Pessoas de Nível Superior (CAPES). Ao Ronaldo Prati, por suas observações na etapa de qualificação (e por ter apresentado o GATE!). E, antecipadamente, aos membros da banca examinadora. Aos meus colegas de disciplinas, professores e membros multidisciplinares dos grupos de pesquisa Tecccog e Human Data, personificados na figura realizadora e guerreira da Amanda Luiza. À Iara Mola e à Aline Veingartner, pelo dedicado e meticuloso trabalho de lanternagem e polimento destas páginas. À Patrícia Rangel, incentivadora desta e de muitas outras jornadas, e aos colegas das Faculdades Rio Branco, pela troca de pensamentos. Aos meus alunos. Na prática, meus companheiros de viagem. No futuro, minhas referências bibliográficas. A cada interlocutor que perguntava “sobre o que é sua tese?” ou “o que você tem na cabeça?”, em especial a amigos como o Cassio Politi, pela oportunidade de organizar ideias ao tentar explicá-las – não sem antes questionar: “quanto tempo você tem?”. Ao Seu Rui, à Dona Helena, ao Dani e à Claudinha, professores da minha vida. E à Dona Eugênia (que foi professora de verdade), pelas orações. Por último, mas não menos importante, à Rina, minha garotinha ruiva, mãe da Jojô, companheira de aventuras, redatora e editora dos nossos melhores momentos, por tudo o que somos e seremos.

LISTA DE QUADROS

Quadro 2.1 – Exemplos de marcação semântica de localidade ...... 68 Quadro 4.1 – Etapas para a construção de um instrumento de observação ...... 111 Quadro 4.2 – Diretrizes iniciais para coleta de dados ...... 114 Quadro 5.1 – Metadados em bases de dados jornalísticas do El País ...... 122 Quadro 5.2 – Metadados em bases de dados jornalísticas da Globo.com ...... 125 Quadro 5.3 – Metadados em bases de dados jornalísticas do The Washington Post ...... 127 Quadro 5.4 – Metadados em bases de dados jornalísticas do The New York Times ...... 130 Quadro 5.5 – Metadados em bases de dados jornalísticas do The Guardian ...... 134 Quadro 5.6 – Metadados em bases de dados jornalísticas da BBC ...... 138 Quadro 5.7 – Adoção de metadados em bases de dados jornalísticas: proposta para análise 140

LISTA DE FIGURAS

Figura 0.1 – Estrutura da tese ...... 29 Figura 1.1 – Componentes da informação jornalística na web ...... 43 Figura 2.1 – Ciclo de um objeto de informação ...... 53 Figura 2.2 – Conexões interdisciplinares em torno de metadados ...... 54 Figura 2.3 – Classificação proposta para níveis de detalhamento e relacionamento de metadados...... 61 Figura 2.4 – Representação simples de um esquema de triplas ...... 71 Figura 2.5 – Modelo possível de ontologia para notícias ...... 72 Figura 2.6 – Diagrama do projeto Linking Open Data ...... 73 Figura 2.7 – Pilha da web semântica...... 75 Figura 3.1 – Relação entre as tecnologias computacionais e os objetivos jornalísticos ...... 92 Figura 3.2 – Cadeia de valor por meio de linked data ...... 100 Figura 4.1 – Processo para condução de um estudo de caso ...... 116 Figura 5.1 – Código-fonte de uma notícia do site El País ...... 121 Figura 5.2 – Esquema simplificado do Sistema de Dados Esportivos da Globo.com ...... 124 Figura 5.3 – Arquitetura do sistema de gerenciamento de notícias do The Guardian...... 134 Figura 5.4 – Exemplo de ontologia da BBC para um evento dos Jogos Olímpicos de 2012 . 136

SUMÁRIO

INTRODUÇÃO ...... 25 Capítulo I – COMUNICAÇÃO E TECNOLOGIA ...... 33 1.1 Inquietação histórica por interdisciplinaridade ...... 34 1.2 Relação entre Jornalismo e bases de dados na Web ...... 40 1.3 Jornalismo e bases de dados: uma linha do tempo ...... 46 Capítulo II – METADADOS ...... 51 2.1 Apresentação de um conceito: além dos “dados sobre dados” ...... 52 2.2 Conexões interdisciplinares dos metadados ...... 55 2.3 Objetos de informação rotulados na Web: uma classificação ...... 60 Capítulo III – INOVAÇÃO JORNALÍSTICA ...... 79 3.1 Inovação e mídia: para fugir das “buzzwords” ...... 80 3.2 Jornalismo Computacional para “hackear” processos ...... 88 3.3 Relação entre Jornalismo Computacional e metadados ...... 98 Capítulo IV – MÉTODO PARA ANÁLISE...... 103 4.1 Discussões preliminares sobre o uso de casos ...... 104 4.2 Exemplos de casos em estudos de Jornalismo na Web ...... 107 4.3 Elaboração de um instrumento de observação ...... 111 Capítulo V – OBSERVAÇÃO E DISCUSSÃO ...... 119 5.1 Apresentação e observação de veículos jornalísticos ...... 120 5.2 Apontamentos sobre o uso de metadados no Jornalismo ...... 139 CONCLUSÃO ...... 145 REFERÊNCIAS ...... 151

RESUMO

OLIVEIRA, A. R. Metadados como atributos da informação estruturada em bases de dados jornalísticas na web. 2016. 163 p. Tese (Doutorado em Comunicação Social) – Universidade Metodista de São Paulo, São Bernardo do Campo.

Bases de dados abastecidas com notícias produzidas para a Web representam um repositório de informação com potencial tecnológico de ser reutilizado de inúmeras formas e por outras plataformas digitais conectadas via redes. No processo de produção jornalística, esta é uma das transformações provocadas pela evolução tecnológica que exigem novas habilidades ‒ entre elas, a necessidade de organizar, recuperar e reutilizar esse material. Diante disso, este trabalho pretende mostrar de que forma a adoção de estruturas baseadas em metadados contribui para o desenvolvimento da informação jornalística produzida e armazenada nessas bases. Para tanto, ele se apoia no conceito de pensamento computacional para encorajar o cruzamento de conhecimentos entre a Comunicação e as Ciências da Computação e da Informação, além de investigar o impacto dessas relações nas rotinas de produção e elaboração de produtos de mídia. Impulsionado pela importância da memória para a produção jornalística e pelas discussões em torno da Web de Dados e de padrões semânticos abertos, discute ainda a possibilidade de veículos noticiosos se tornarem plataformas, estimulando a obtenção de relações invisíveis entre temas e contextos, bem como a intersecção entre jornalistas e desenvolvedores. Com base em um estudo exploratório envolvendo cinco organizações de mídia, na identificação de atributos que caracterizem diferentes níveis de estruturação e na proposição de um instrumento de análise baseado em funcionalidades adotadas por esses veículos, defende-se que a adoção de marcações, esquemas com vocabulários controlados, ontologias formais ou outras estruturas são indispensáveis para a adaptação do Jornalismo diante de um cenário em constante mudança.

Palavras-chave: Jornalismo. Internet. Metadados. Interdisciplinaridade.

RESUMEN

Bases de datos alimentadas con noticias producidas por la Web representan un repositorio de información con potencial tecnológico para ser reutilizado en varias formas y por otras plataformas digitales conectados por medio de redes. Este es uno de los cambios producidos por los avances tecnológicos en el proceso de producción de periódicos, que requieren nuevas habilidades incluyendo la necesidad de organizar, recuperar y reutilizar este material. Por este motivo, este trabajo tiene como objetivo mostrar cómo la adopción de estructuras basadas en los metadatos contribuye con el desarrollo de la información periodística producida y almacenada en estas bases de datos. Por consiguiente, se basa en el concepto de pensamiento computacional para estimular la interacción de conocimientos entre la Comunicación y Ciencias de la Computación e Información, además de investigar el impacto de estas relaciones en las rutinas de producción y desarrollo de productos informativos. Impulsado por la importancia de la memoria para la producción periodística y los debates en torno a la Web de datos y estándares semánticos abiertos, también se discute la posibilidad de que los medios de convertirse en plataforma, animando para encontrar relaciones invisibles entre temas y contextos, así como la intersección entre periodistas y programadores. Con base en un estudio exploratorio que incluía cinco medios de comunicación, en la identificación de atributos que caracterizan a los diferentes niveles de estructuración y en una propuesta de instrumento de análisis basado en las características adoptadas por estos vehículos, se argumenta que la adopción de marcas, esquemas de vocabulario controlado, ontologías formales u otras estructuras son indispensables en la adaptación del periodismo ante escenarios en cambio constante.

Palabras clave: Periodismo. Internet. Metadatos. Interdisciplinariedad.

ABSTRACT

Databases fed with news produced for the Web represent an information repository with technological potential to be reused in a number of ways and by other digital platforms connected via networks. This is one of the transformations in the journalistic production process, induced by the technological evolution which demand new abililites. Among them, the need to organise, recover and reuse this material. For this reason, this work intends to show how the adoption of structures based in metadata contributes to the development of news information produced and stored in these databases. Therefore, it relies on the concept of computational thinking to encourage the intersection of knowledges between Communications, Information and Computer Science, in addition to investigate the impact of this relationships in the routines of production and creation of media products. Propelled by the importance of the memory for the journalistic production and the discussions around the Web of Data and open semantic standards, the discussions also goes on the possibility of news channels to become platforms, encouraging to have invisible relationships between themes and contexts, the intersection between journalists and Web developers. Based on an exploratory study involving five media organisations, in the identification of attributes that characterize different levels of structuration and an analytical tool proposition based on features adopted by these vehicles, it is argued that the adoption of markups, controlled vocabulary schemas, formal onthologies or other schemas are crucial for journalism adaptation facing a new and constantly changing scenery.

Keywords: Journalism. Internet. Metadata. Interdisciplinarity.

INTRODUÇÃO

O Jornalismo está em crise. As evidências são claras: em linhas gerais, o que circula a partir de portais de notícias está baseado em informações superficiais, binárias (são boas ou ruins, sem contexto) e banais. Elas são emotivas, espetaculares, coloridas, perseguem sentimentos do leitor com objetivos comerciais. Têm medo de ousar ou transgredir. Favorecem o narcisismo e a busca pela notoriedade, extrapolando arquétipos culturais e comerciais. Trata-se de captar a atenção a qualquer preço. A visão é do pesquisador espanhol Ramón Reig (2015, p. 46), que propõe uma “teoria estrutural do Jornalismo” para compreendermos as relações políticas e econômicas nas quais a profissão do jornalista está alicerçada, culminando com questões relevantes desde a formação de novos profissionais até a constituição e práticas de organizações noticiosas. Em sua visão, o avanço da tecnologia é apenas uma das variáveis que afetam as redações, ao lado de outras de caráter mercadológico: mesmo a informação baseada em dados obtidos por mecanismos computacionais, mas fora de contexto, sem interpretação ou atendendo a algum direcionamento da empresa informativa, não serve para nada (REIG, 2015, p. 84). O debate a respeito das transformações do jornalismo sob prismas distintos ‒ como a função social do jornalismo (sintetizada na expressão watchdog), discussões éticas, organização das redações e pressões mercadológicas, entre outras práticas profissionais ‒, foi potencializado graças a fenômenos relacionados, entre outras variáveis, à evolução tecnológica e à consequente “era da convergência” (JENKINS, 2009), a partir do impacto provocado pela comunicação mediada por computador e conectado em rede a partir dos anos 1970 (HILTZ; TUROFF, 1993). Esse direcionamento pode trazer reflexões futuristas, relacionando modelos de jornal adaptados ao gosto e preferências do leitor (NEGROPONTE, 1995) a uma geração influenciada por dispositivos conectados à internet, carregados de aplicações úteis “para aliviar as tensões de nossa existência diária” (TURKLE, 2011, p. 160). Nesse contexto, surgem novas plataformas midiáticas, capazes de acelerar o consumo, a 26 produção e a distribuição de conteúdos informativos. Para tanto, já estão em curso modificações em estruturas tradicionais ‒ o que inclui, entre outras possibilidades, uma reconfiguração dos meios e da prática jornalística como objeto de estudo (LIMA JUNIOR, 2012) segundo formatos e linguagens das narrativas digitais, incluindo-se aí signos textuais e audiovisuais (RAMOS, 2011). Além disso, sua evolução também se verifica por meio do uso de softwares ou algoritmos (CORRÊA; BERTOCCHI, 2012b), tendo-se também como base a convergência física das redações e o papel polivalente dos profissionais que as ocupam (SALAVERRÍA; GARCÍA AVILÉS, 2008). Sejam quais forem as motivações das redações em publicar notícias num ambiente digital, David Caswell, pesquisador do Reynolds Journalism Institute, observa que, historicamente, a produção e exibição de informação no ambiente amigável da internet acessado por navegadores – a Web – se baseia nos mesmos princípios editoriais de qualquer produto: não levam em conta potenciais continuidades da história ou variações possíveis; só fazem sentido em suas próprias edições, sem levar em conta os recursos inerentes ao ambiente digital (CASWELL, 2015). Em um cenário amplo e cético pautado pela sombra da crise, ele oferece outra interpretação para a expressão “jornalismo estruturado”. Seu experimento, denominado Structured Stories1 ‒ um protótipo que coleta fragmentos de notícias relacionados a eventos específicos e que, a partir de uma codificação prévia desses elementos, oferece ao usuário narrativas maiores ‒, valida um fenômeno que já acontece: o consumo de textos únicos ou isolados vem dando lugar a streamings digitais reunidos e apresentados a partir de modelos matemáticos traduzidos em algoritmos (CASWELL, 2015). A ideia de David Caswell se fundamenta em um conceito descrito e desenvolvido desde os anos 1970, denominado “bases de dados relacionais” ‒ uma estrutura ubíqua para reunir dados em tabelas separadas e relacionadas entre si, de forma que novos dados e estruturas possam ser adicionados, removidos ou cruzados. Com a digitalização de conteúdos, a popularização de dispositivos computacionais e a interconexão destes em redes telemáticas, há grande quantidade de dados sendo armazenada nessas bases, o que representa um desafio para qualquer área do conhecimento ‒ inclusive para as Ciências Humanas ‒ no que diz respeito a transformá- los em algo potencialmente útil e, ao mesmo tempo, reutilizável (GITELMAN, 2013, p. 3).

1 Disponível em: . Acesso em: 29 dez. 2015. 27

O termo “jornalismo estruturado”, focado em sua relação com bases de dados, surgiu pela primeira vez numa proposta do editor de inovação e dados da Thomson Reuters, Reginald Chua 2 . Em essência, ele propõe a fragmentação de narrativas jornalísticas em partes reunidas e relacionadas entre si. Chava Gourarie, do Columbia Journalism Review, aponta o artigo Why the Islamic State leaves tech companies torn between free speech and security, do The Washington Post3, como um protótipo de jornalismo estruturado4. E tanto essas iniciativas quanto o projeto Structured Stories permitem uma definição preliminar:

Jornalismo estruturado é uma nova forma de jornalismo baseada em reportagens como componentes estruturados em uma base de dados, e posterior recuperação destes componentes estruturados para gerar produtos informativos. A abordagem ainda é incipiente, mas lida diretamente com diversos problemas sistêmicos enfrentados por produtores e consumidores de notícias em um ecossistema de mídia digital, e pode potencialmente facilitar o rearranjo do Jornalismo em redes, bem como a criação de produtos informativos controlados pelo consumidor num contexto que se estende além do artigo (CASWELL; RUSSELL; ADAIR, 2015, tradução nossa)5.

Longe de defender a premissa de que termos emergentes e baseados em protótipos (como “jornalismo estruturado” ou equivalentes) representam o “santo graal” do Jornalismo, este trabalho pretende amarrar uma palavra-chave ao processo de coletar dados, organizá-los, dar-lhes sentido, apresentá-los e permitir seu compartilhamento (sequência elementar de elaboração da informação jornalística), bem como reforçar, a partir de uma visão interdisciplinar, a expectativa por trás da proposta sugerida por Caswell, entendendo-se que, quanto à interdisciplinaridade:

Dada uma disciplina científica, existe uma interdisciplina que a vincula a outra. Esta máxima metodológica convida a ultrapassar as fronteiras das disciplinas – algo fértil, mas irrefutável. Além disso, ajuda a distinguir a

2 Disponível em: . Acesso em: 6 nov. 2015. 3 Disponível em: html>. Acesso em: 6 nov. 2015. 4 “‘Structured journalism’ offers readers a different kind of story experience”. Disponível em: . Acesso em: 6 nov. 2015. 5 Versão original: “Structured Journalism is a new form of journalism based on reporting news as structured components into a database, and subsequent retrieval of those structured components to generate news products. The approach is still nascent but it directly addresses several systemic problems facing news producers and news consumers in the digital media ecosystem, and it may potentially facilitate the rebundling of journalism as networks and the creation of consumer-controlled news products with context that extends beyond the article”. 28

ciência da pseudociência, que normalmente está isolada (BUNGE, 2007, p. 114, tradução nossa)6.

A palavra-chave deste trabalho é metadados. Pretende-se aqui verificar a sua importância num processo imaginado por David Weinberger, conhecido autor do Manifesto Cluetrain. Ele publicou sua “teoria unificada da Web”, que, na prática, resume-se no título de seu livro: Small pieces loosely joined (em uma tradução livre, “Fragmentos unidos livremente”). Em linhas gerais, as nossas conexões na Web e os diálogos resultantes delas funcionam como documentos ligados, que seriam equivalentes a “livros construídos individualmente” (WEINBERGER, 2002). Podemos aplicar esse mesmo princípio a bases de dados com conteúdo jornalístico armazenado, nas quais os metadados funcionam como um tipo de “cola” entre fragmentos. Ou, usando outra metáfora, é isso o que diferencia uma “sala cheia de livros” de uma “biblioteca”. Assim como outros trabalhos que procuram relacionar Jornalismo, bases de dados, computação e suas consequências (ANDREW, 2008; STAVELIN, 2013), este também se propõe a observar a informação jornalística sob a perspectiva de áreas como as Ciências da Computação e da Informação ‒ mais especificamente, por meio dos metadados. Estruturada a partir da ilustração da Figura 0.1, esta tese parte da premissa segundo a qual, a partir de um conceito indispensável para qualquer nível de recuperação da informação, caminhos interdisciplinares oferecem relações entre aspectos teóricos, tecnológicos e sociais capazes de responder à seguinte questão: de que forma o uso de metadados contribui na estruturação e no desenvolvimento da informação jornalística produzida e armazenada em bases de dados? Presume-se que esta relação possa influenciar não apenas produtos informativos, mas os processos para sua elaboração – entre eles sistemas capazes de personalizar recomendações, individualizando decisões como critérios editoriais ou de noticiabilidade.

Os conhecidos critérios de noticiabilidade não preveem como o jornalista deva guardar um certo dado em um banco de dados e como ele poderá recuperá-lo mais tarde, extraindo pautas ou gerando visualizações de dados... Será preciso um novo estudo para observar as novas práticas sistêmicas e delas assumir quais novos critérios de noticiabilidade dialogam com dados e metadados (BERTOCCHI, 2014, p. 12).

6 Versão original: “Dada una disciplina científica existe una interdisciplina que la vincula a otra disciplina científica. Esta máxima metodológica invita a traspasar las fronteras de las disciplinas, lo cual resulta fecundo aunque irrefutable. Además, ayuda a distinguir la ciencia de la seudociencia, que típicamente está aislada”. 29

Figura 0.1 – Estrutura da tese

Fonte: Produzida pelo autor.

Ainda no que tange à estruturação deste trabalho, o Capítulo I destaca a trajetória interdisciplinar marcada pela influência tecnológica no Jornalismo – interdisciplinaridade esta que ocorre desde o Império Romano (PAVLIK, 2000), mas que ganhou corpo somente no final dos anos 1960 com o desenvolvimento do Jornalismo de Precisão e obteve um novo sentido diante de uma virada computacional na postura dos pesquisadores das Ciências Humanas (BERRY, 2011). Apesar de necessárias, as conexões entre as disciplinas não são simples: fatores culturais, sociais e relações de poder estão ligados à dificuldade de serem realizadas pesquisas envolvendo outras áreas do conhecimento. Conexões entre a Comunicação e a Filosofia da Mente ou a Neurociência, por exemplo, são muito distantes do imaginário da maioria dos pesquisadores na área (LIMA JUNIOR, 2014). Além disso, o Capítulo I contextualiza a apropriação do termo “memória” pelo Jornalismo e introduz uma proposta elaborada pelo W3C, consórcio criado por Tim Berners-Lee (inventor da Web) e responsável pela elaboração de padrões para mantê-la em crescimento organizado. Na visão dele, a Web pode saltar do patamar de repositório de documentos ‒ ainda que estes sejam gerados dinamicamente, possibilitando aos computadores interpretarem e estabelecerem inferências e relações entre esses dados, 30 automação, integração e o reuso em sistemas diferentes (BERNERS-LEE; HENDLER; LASSILA, 2001). Essa proposta catapultou expectativas envolvendo agentes inteligentes e relações invisíveis entre temas e contextos obtidas por eles em uma “Web Semântica” – uma ideia intrincada, já que vamos “começar a falar sobre semântica, que quer dizer ‘o que as coisas significam?’. E, claro, todo mundo tem uma opinião diferente sobre isso, de modo que as conversas podem ser infinitas” (HEY; TANSLEY; TOLLE, 2009, p. xxix, tradução nossa)7. Aproveitar a informação jornalística a partir da lógica da Web de Dados significa elaborar modelos de estrutura e formalizar relações para que elas possam ser aplicadas em outros datasets – conjuntos externos de bases de dados. É o que se discute no Capítulo II, no qual a palavra-chave do trabalho é examinada. Para que a notícia possa ser rotulada e categorizada por metadados, de maneira a descrevê-la ou indicar a sua natureza ou propriedades (inclusive com dados que auxiliaram o jornalista a construí-la), torna-se pertinente compreender técnicas envolvendo iniciativas já propostas para relacionar elementos e gerar conexões significativas para usuários. Essas práticas foram organizadas a partir de uma escala: marcações (níveis de utilização mais elementares), esquemas e ontologias (níveis mais sofisticados) e interconexão (disponibilidade e compreensão por máquinas). Assim, reforça-se novamente a relevância (e a complexidade) de uma abordagem interdisciplinar:

Desde o fim dos anos 1990 centenas – se não milhares – de físicos, cientistas da computação, matemáticos e outros pesquisadores do núcleo duro da ciência interessaram-se por questões que tradicionalmente eram pertencentes às ciências sociais... Bancos de dados de proporções imensas foram analisados, inúmeros novos modelos teóricos foram propostos e milhares de artigos foram publicados... Quão próximo estão de responder às grandes questões das ciências sociais, como o desenvolvimento econômico das nações, a globalização da economia ou a relação entre imigração, desigualdade e intolerância? Peguem um jornal e julguem vocês mesmos, mas eu diria que não muito (WATTS, 2011, p. 10).

Talvez Watts não tenha se dado conta, mas o fato de não ter encontrado o que procura em jornais pode ter outra razão, e não estamos falando na potencial frustração com os resultados diante dos limites da recuperação de informação via Web. Em um ambiente de mídia social conectada, a informação jornalística passa a ser um bem

7 Versão original: “[...] you’re going to start talking about semantics, which is to say, ‘What do things mean?’ And of course everybody has a different opinion of what things mean, so the conversations can be endless”. 31 comum, não mais uma exclusividade do veículo. Mais do que um potencial para aproximar as empresas de mídia do seu público, ou mesmo para conquistar uma vantagem competitiva em um cenário de constante evolução, o Jornalismo tenta encontrar meios e formatos para se reinventar e sobreviver nesse ambiente. A apropriação de tecnologias ‒ que inclui a estruturação de bases de dados em um sistema complexo como a internet e remete ao histórico movimento refratário dos profissionais envolvidos (DAGIRAL; PARASIE, 2011) ‒ se coaduna ao foco do Capítulo III: a palavra em latim da qual surgiram os verbos “mudar” e “renovar” ‒ innovare. Inovação é uma proposição ampla e heterogênea o suficiente para que, num contexto acadêmico, aceite incontáveis apropriações. É inegável, no entanto, que a associação entre inovação e Jornalismo represente “percepções heterogêneas e interdisciplinares, experiências e conhecimentos sintetizados em novas formas de ver, compreender e apresentar questões sociais” (GYNNILD, 2014, tradução nossa)8. Desta associação, emerge uma linha de pensamento: a de que é possível otimizar processos de produção da notícia como um programador faria ao depurar um software. Essa é a essência do Jornalismo Computacional (COHEN; HAMILTON; TURNER, 2011). Daniela Bertocchi (2014) sugere novas experimentações e oportunidades tendo como pano de fundo o aspecto computacional na produção de notícias. Mais do que isso, defende que a informação jornalística comporta-se como um sistema aberto e complexo, cuja sobrevivência depende da adaptabilidade em relação aos sistemas com os quais interage. A inclusão de metadados em bases de dados noticiosas pode representar novos modelos de uso e reaproveitamento desse material. Com base nisso, como estruturar o conteúdo jornalístico armazenado em bases de dados por meio de metadados? Quais as possibilidades de diálogo entre essas estruturas e os objetivos jornalísticos? Quais os desafios para a adoção dessas práticas e suas implicações nas rotinas produtivas das redações? Em torno dessas perguntas, uma investigação exploratória qualitativa, detalhada nos Capítulos IV e V, conduz uma observação a cinco veículos cujas práticas são reconhecidamente inovadoras: Globo.com, The Washington Post, The New York Times, The Guardian e BBC. Os processos que envolvem o uso de metadados nessas

8 Versão original: “In processes of journalism innovation, heterogeneous and cross-disciplinary insights, experiences and knowledge are synthesized into new ways of seeing, understanding and presenting societal issues”. 32 organizações, listados e categorizados de acordo com os níveis de utilização propostos, demonstram o esforço desses grupos de mídia voltado ao enriquecimento do material jornalístico produzido ‒ otimizando o trabalho de armazenamento, recuperação, relacionamento, distribuição de notícias. O estudo dessas práticas auxiliam na compreensão de processos produtivos e de distribuição ou difusão e no levantamento de hipóteses, ajudando igualmente no desenvolvimento de um instrumento de análise (EISENHARDT, 1989; YIN, 2009) para futuras investigações sobre práticas de jornalismo estruturado em dados. Além da justificativa em relação aos procedimentos de investigação, ainda são discutidos os limites e cuidados para a elaboração de estudos baseados em casos. A combinação de variáveis humanas (na produção de conteúdo e na construção de esquemas de metadados) e computacionais (algoritmos e sistemas que culminam em produtos automatizados) contribui para que o Jornalismo possa fortalecer a notícia, identificando objetivos jornalísticos (qualidade, clareza, profundidade, precisão, formas de organização). Enquadrar essas etapas a partir de uma lógica computacional representa uma série de barreiras que exige uma visão crítica, desejada neste trabalho.

Capítulo I – COMUNICAÇÃO E TECNOLOGIA

“Em poucos anos, homens poderão se comunicar mais efetivamente, face a face, com uma máquina”. Assim começa o texto The Computer as a Communication Device, de Joseph Carl Robnett Licklider, um dos nomes mais importantes da história na Ciência da Computação. Ele defendia que a comunicação poderia compreender um processo ativo envolvendo a relação entre máquinas e a informação. Mais do que isso: poderia existir algo não trivial nessa relação, indo além do que estamos acostumados, por exemplo, entre livros e bibliotecas. Isto porque sistemas envolvendo computadores representam áreas a serem exploradas: mais informação pode ser utilizada para responder a questões de relevância. Sistemas capazes de se relacionar com dados são, portanto, cruciais (LICKLIDER; TAYLOR, 1968). A proposição do autor pode parecer uma obviedade nos dias de hoje, em que usuários comuns se relacionam com a informação por meio de múltiplas telas e sistemas. Conforme a referência acima, o texto de Licklider é do final dos anos 1960 ‒ o que revela a proximidade das Ciências da Computação e a Comunicação. Esta aproximação, defendida aqui como necessária mas ao mesmo tempo difícil de fazer, é o assunto deste capítulo.

1.1 Inquietação histórica por interdisciplinaridade

O pensamento de Licklider disfarça uma questão inicial: com qual conceito de comunicação, entre as 249 teorias distintas relacionadas ao tema (CRAIG, 1999) ele trabalha? A associação entre máquinas e informações sugere, como explica Robert T. Craig, uma atitude prática e que valoriza a complexidade de seus problemas seguindo a lógica de seu processamento humano e não humano, derivada do trabalho de pensadores como Shannon, Wiener, von Neumann, e Turing – a cibernética. Durante as conferências de Macy, entre os anos 1940 e 1950, os cibernéticos procuravam criar ligações entre pesquisadores da engenharia, biologia, psicologia e outras ciências sociais, entre eles o sociólogo Paul Lazarsfeld (LIMA JÚNIOR, 2014). A origem das modernas teorias da comunicação é tão distante quanto os obstáculos para estas ligações. Em maio de 1959, Charles Percy Snow compartilhou com a sua audiência, em Cambridge, uma preocupação oriunda da sua convivência com intelectuais da ciência e das humanidades: trata-se de dois grupos que observam os mesmos fenômenos, mas que não se compreendem entre si. Mais do que isso: suas atitudes e visões constroem uma polarização capaz de criar duas culturas. Segundo Snow (1959, tradução nossa), as razões dessa separação são profundas e complexas, enraizadas na história do homem. E ele mesmo já apontava a dificuldade em se criarem pontes entre essas duas culturas:

Todas as setas apontam para o mesmo caminho. Fechar a lacuna entre nossas culturas é uma necessidade, tanto no sentido intelectual mais abstrato quanto no mais prático. Enquanto estes dois sensos crescerem separados, então a sociedade não será capaz de pensar com sabedoria9.

A necessidade premente em criar pontes entre a visão científica pautada pela evolução tecnológica e as humanidades ‒ o que inclui a comunicação ‒ é o pano de fundo deste trabalho. Mais de cinquenta anos se passaram da observação feita por Snow e o debate permanece. Um dado contrastante foi obtido em uma pesquisa10 realizada entre 2008 e 2010 pelo Observatório Ibero-americano de Ciência, Tecnologia e

9 Versão original: “All the arrows point the same way. Closing the gap between our cultures is a necessity in the most abstract intellectual sense, as well as in the most practical. When those two senses have grown apart, then no society is going to be able to think with wisdom”. 10 Reportagem da Revista Pesquisa FAPESP, fevereiro de 2012. Disponível em: . Acesso em: 16 set. 2012. 35

Sociedade (Ryct/Cyted) com jovens entre 15 e 19 anos em sete capitais: Assunção, São Paulo, Buenos Aires, Lima, Montevidéu, Bogotá e Madri. Essa geração, imersa em tecnologia, espera se profissionalizar na área das Ciências Sociais (resposta de 56% dos entrevistados). Menos de 3%, no entanto, vislumbram atuar nas áreas das Ciências Exatas ou Naturais. O levantamento questionou a escolha dos estudantes: a maioria acredita que essa área é “chata” ou “muito difícil”. A visão dos jovens que chegarão ao mercado de trabalho nos próximos anos é aparentemente paradoxal, mas se revela como um reforço ao pensamento de Snow. Por um lado, o imediatismo gerado pelas novas tecnologias estrutura a sua presença em praticamente todos os aspectos de suas vidas; por outro, a ideia (simplista) de que é possível se desenvolver com pouco esforço, a partir de uns poucos comandos ou cliques, provoca um sinal de alerta sobre como a sociedade do futuro irá compreender seu universo. Nota-se que os obstáculos a serem percorridos estão além da complexidade das tecnologias, abrangendo também uma cultura fortemente arraigada e visível aos olhos de quem enxerga o campo da comunicação ao longe: a de que os necessários caminhos que passam pelo cruzamento de campos do conhecimento não são tão fáceis quanto simplesmente dizer “interdisciplinaridade”. Tal como ocorre com outras definições, essa relação gera intermináveis discordâncias acadêmicas. Afinal, se as definições podem representar amarras fortes na análise de um fenômeno, também podem representar armadilhas. Diante da experiência com estudantes de Filosofia e Ciências Naturais, o filósofo da tecnologia Val Dusek (2006, p. 26) observa “duelos de definições pautados por impaciência e arbitrariedade”. Essas definições são frequentemente chamadas de “meramente semânticas” ou talvez pareçam exageradamente detalhistas. De início, o termo “interdisciplinaridade” ganha força diante da necessidade de compreender fenômenos a partir de uma visão plural. No caso da Comunicação,

Entende-se que há necessidade de o pesquisador da área de comunicação digital e em redes compreender que a evolução da ciência, e, por consequência, da tecnologia, é um processo humano natural. O pesquisador deve dominar os conceitos e se ambientar no campo de produção de tecnologias voltadas para a comunicação social (LIMA JUNIOR, 2007, p. 124).

Na vida diária, preocupamo-nos pouco com as definições precisas, com as descrições exatas ou com as medições afinadas, como exige o conhecimento dito científico (BUNGE, 1987). Por outro lado, a própria fragilidade inerente ao homem – que, por sua vez, é transferida para a ciência – faz com que a construção desse conhecimento, sustentado a partir de definições que procurem aguçar as fronteiras da sua aplicabilidade, transforme-se em algo desafiador, independentemente da área do conhecimento que se pretende observar. Para Martino e Boaventura (2013), essa construção exige um esforço muito maior que o trabalho especializado (já bastante difícil), e corre o risco de sofrer apropriações e usos indevidos de conceitos de diferentes ciências, assimilando a produção de conhecimento ao trabalho de lidar com informação. Conexões entre disciplinas, portanto, seria um mito. Será mesmo? Tradicionalmente, as humanidades enxergam a realidade a partir do pensamento e da reflexão mais abstratos, tendo como prisma uma ou mais disciplinas – de acordo com o que se estabeleceu nos Estados Unidos pelo ato National Foundation on the Arts and the Humanities, em 1965:

O termo ‘humanidades’ inclui, mas não se limita, ao estudo e interpretação de: linguagem, tanto moderna e clássica; linguística; literatura; história; jurisprudência; filosofia; arqueologia; religião comparada; ética; história, crítica e teoria das artes; aspectos das ciências sociais que empregam conteúdo humanístico e empregam métodos humanistas; e o estudo e aplicação das humanidades para o ambiente humano, com particular atenção ao reflexo de nosso patrimônio diversificado, tradições e história; e para a relevância das humanidades com as exigências atuais da vida nacional (tradução nossa)11.

E onde entra a tecnologia nesse cenário? Para Bunge (1987), “a tecnologia moderna se alimenta da ciência, e a ciência moderna depende de equipamentos e estímulos provenientes de uma indústria altamente tecnificada”. Assim, da mesma forma que a tecnologia permeia a sociedade diante de um irreversível processo de digitalização da informação, da constituição de infraestrutura tecnológica, ferramentas

11 Versão original: “The term ‘humanities’ includes, but is not limited to, the study and interpretation of the following: language, both modern and classical; linguistics; literature; history; jurisprudence; philosophy; archaeology; comparative religion; ethics; the history, criticism and theory of the arts; those aspects of social sciences which have humanistic content and employ humanistic methods; and the study and application of the humanities to the human environment with particular attention to reflecting our diverse heritage, traditions, and history and to the relevance of the humanities to the current conditions of national life”. Disponível em: . Acesso em: 22 out. 2014. 37 digitais e condições para seu uso, o pensamento que norteia as Ciências da Computação passou a ser entendido como uma lógica necessária a outras áreas do conhecimento. Diante da necessidade de resolver problemas, Wing (2006) propõe o conceito de “pensamento computacional”. A ideia é recorrer a conceitos da Ciência da Computação, abstrair questões que podem ser solucionadas por sistemas – não se trata de entender códigos e programar – e encontrar modelos eficientes para buscar respostas. Ao propor o conceito e observar a sua influência em outros campos do conhecimento (como a Estatística), a autora reforça o caráter interdisciplinar dos conceitos da Ciência da Computação, ao afirmar que “o pensamento computacional é uma habilidade fundamental para qualquer um, não apenas para cientistas da computação” (WING, 2006, p. 33). Novas metodologias baseadas em sistemas computacionais, bem como ambientes colaborativos entre diferentes perfis interdisciplinares, fizeram emergir um campo de estudo (ou, sob um ponto de vista crítico, um “guarda-chuva acadêmico”) pautado no objetivo de fortalecer o pensamento, sem perder de vista a compreensão humanística sobre esses fenômenos: o campo das digital humanities12, ou “humanidades digitais” (SCHREIBMAN; SIEMENS; UNSWORTH, 2004). Os autores enxergam dois momentos no desenvolvimento das Digital Humanities: o primeiro, quantitativo, ressaltando tanto a infraestrutura quanto a capacidade em recuperar dados em largas bases e em digitalizar projetos; o segundo, qualitativo, fortalece os métodos das humanidades, incluindo metodologias híbridas. Pesquisador e professor sênior da Swansea University, David M. Berry (2011) sugere um terceiro momento, denominado “virada computacional”, no qual é preciso “encontrar o código-fonte” correspondente a cada projeto, o significado de conceitos após eles terem sido “softwerizados”:

Se o código e o software tornaram-se objetos de pesquisa para as Ciências Humanas e Sociais, incluindo a Filosofia, precisamos compreender as dimensões ôntica e ontológica dos códigos de computador. De modo geral, sugerimos uma abordagem filosófica para o código e o software, prestando atenção aos seus aspectos mais amplos e conectando-os à materialidade deste crescente mundo digital. Com isso em mente, a questão do código torna-se fundamental para a compreensão das digital humanities, e serve como condição para uma possibilidade das muitas formas computacionais

12 Como não há uma expressão consensual equivalente em português (a tradução remete a um grupo de pesquisa da USP que trata do tema), optou-se por manter o termo original. 38

que mediam a experiência da cultura e sociedade contemporâneas (BERRY, 2011, p. 17, tradução nossa)13.

Ao lembrar que a tecnologia ignora filtros ao permitir acesso a distintas bases de dados de conhecimento a partir de qualquer lugar, o autor afirma que essa virada computacional nas disciplinas humanas, na qual o código-fonte faz parte do contexto, poderia representar o começo de um movimento de “ciência revolucionária”, bem como o aparecimento da constelação de uma nova “ciência normal”, sob o prisma das revoluções científicas de Thomas Kuhn. Tal ponto de vista remete a uma percepção de Snow (1959): as humanidades (ou os “não cientistas”) costumam definir cientistas como otimistas, desconhecendo a condição humana; por outro lado, os cientistas acreditam que os “intelectuais da literatura” são totalmente imprecisos. Natural, portanto, considerar a percepção de Berry com cautela. A tensão entre o homem, a tecnologia e os seus valores reforçam o binômio entre as humanidades e a tecnologia, pautado por encantamento e conflito. Ao buscar compreensão sobre a tecnologia, Andrew Feenberg (2001), filósofo e um dos pioneiros no estudo da comunicação mediada por computador, recupera a origem grega da palavra techné: os gregos associam a produção de artefatos à natureza, de acordo com propósitos bem definidos. Num contexto moderno, no entanto, ela aparece em uma abordagem instrumental, na qual a tecnologia é isenta de valores, sem qualquer essência. Desta forma, no decorrer dos séculos, a tecnologia pode ser definida ao longo de dois eixos. O primeiro diz respeito ao que a tecnologia é ou não: neutra ou carregada de valores, como os gregos acreditavam. O segundo permite enxergar a tecnologia como autônoma, isto é, que possui as suas próprias leis ou se são humanamente controláveis, se temos liberdade em decidir como ela será desenvolvida – e isso se aplica à internet, criada para fins militares, desenvolvida pelas universidades e explorada pelos mais diversos segmentos.

A internet suporta uma visão de convivência harmoniosa entre os seres humanos e suas máquinas. Mas suas aplicações políticas a posicionam para outra dimensão da sociedade tecnológica moderna. A tecnologia é um

13 Versão original: “If code and software are to become objects of research for the humanities and social sciences, including philosophy, we will need to grasp both the ontic and ontological dimensions of computer code. Broadly speaking, then, this paper suggests that we take a philosophical approach to the subject of computer code, paying attention to the wider aspects of code and software, and connecting them to the materiality of this growing digital world. With this in mind, the question of code becomes central to understanding in the digital humanities, and serves as a condition of possibility for the many computational forms that mediate out experience of contemporary culture and society”. 39

fenômeno de dois lados: em uma das mãos há o operador; em outra, o objeto. Num lugar onde tanto o operador quanto o objeto são humanos, a ação técnica é um exercício de poder. Além disso, onde a sociedade é organizada em torno da tecnologia, o poder tecnológico é a principal forma de poder na sociedade. Este é seu potencial distópico (FEENBERG, 2001, tradução nossa)14.

A Web, entendida como a janela amigável da internet, começou a se popularizar nos anos 1990, quando experimentou um crescimento exponencial graças às suas características de auto-organização: pessoas e empresas das mais variadas áreas (inclusive jornalísticas) passaram a criar páginas HTML e a relacioná-las com outras. Cientistas que estudam sistemas complexos verificaram que a rede tem propriedades inesperadas em função da sua estrutura global, da forma como informações se propagam em suas conexões e do comportamento de motores de busca. Tais propriedades conduzem a algo que pode ser chamado de um “comportamento adaptativo”, definindo a Web como um sistema complexo:

Um sistema em que grandes redes de componentes sem controle central e com regras simples de operação dá origem a um comportamento coletivo complexo, a um sofisticado processamento de informação e a adaptação por meio de aprendizagem ou evolução (MITCHELL, 2009, p. 13, tradução nossa)15.

A partir de um debate profundo entre a existência de valores intrínsecos em artefatos tecnológicos e o envolvimento humano com esses instrumentos, Feenberg (2001) nos lembra de que não se trata de uma simples relação de meios e fins. Escolhemos usar máquinas e, diante das múltiplas alternativas oferecidas por um sistema complexo (como é o caso da Web e dos seus dispositivos conectados), fazemos usos e apropriações rotineiras ainda norteadas por variáveis políticas e econômicas.

14 Versão original: “The Internet supports a vision of harmonious coexistence between humans and their machines. But these political applications of the Internet point to another dimension of modern technological society. Technology is a two-sided phenomenon: on the one hand there is the operator, on the other the object. Where both operator and object are human beings, technical action is an exercise of power. Where, further, society is organized around technology, technological power is the principle form of power in the society. This is its dystopian potential”. 15 Versão original: “a system in which large networks of components with no central control and simple rules of operation give rise to complex collective behavior, sophisticated information processing, and adaptation via learning or evolution”. 40

1.2 Relação entre Jornalismo e bases de dados na Web

Desde janeiro de 1994, quando o semanário Palo Alto Weekly16 reproduziu na Web parte do material de sua edição impressa, o Jornalismo busca as melhores alternativas para compartilhar e armazenar informação nesse ambiente, que é composto por documentos codificados em marcação hipertextual e relacionados entre si, acessados por meio de softwares específicos (navegadores). E aqui cabe pontuar, ainda que de forma primária, uma definição de informação no contexto da Web:

Informação, como estritamente definido por Shannon, diz respeito à previsibilidade de uma fonte de mensagem. No mundo real, no entanto, informação é algo analisado por seu significado, que é lembrado e combinado com outras informações, produzindo resultados ou ações. Em suma, a informação é processada através de computação (MITCHELL, 2009, p. 57, tradução nossa)17.

Matéria-prima para o Jornalismo, a informação é um labirinto conceitual. Em linhas gerais, podemos definir informação em termos de dados e significado. A informação é feita com dados organizados a partir de uma sintaxe predefinida – um código ou linguagem (FLORIDI, 2010, p. 21). Informação, como nos lembra Melanie Mitchell (2009), é um conceito que a Comunicação tomou emprestado do matemático Claude Shannon, entre outros autores. Ele adaptou ideias da termodinâmica, associadas à concentração de energia e entropia, desenvolvidas em nível molecular por Ludwig Boltzmann no século XIX, para abstrair a comunicação entre telefones. Em essência, o volume de informação tem relação com a entropia da mensagem de origem ‒ não tem relação alguma com o significado da mensagem, mas sim com a qualidade do sinal. Intrigado com esse problema, Shannon publicou, em 1948, um artigo de 79 páginas no The Bell System Technical Journal, dividido nas edições de julho e outubro, denominado A Mathematical Theory of Communication. Conhecido entre os pesquisadores da área graças ao seu esquema “emissor-receptor”, ele apresentou ainda um neologismo: bit, derivado de binary digits, uma unidade para medir informação (SHANNON, 1948). Aos olhos da ciência, o termo “informação” só passou a fazer

16 “Palo Alto Weekly becomes the first newspaper to publish its entire editorial content to the internet”. Disponível em: . Acesso em: 28 mar. 2015. 17 Versão original: “Information, as narrowly defined by Shannon, concerns the predictability of a message source. In the real world, however, information is something that is analyzed for meaning, that is remembered and combined with other information, and that produces results or actions. In short, information is processed via computation”. 41 sentido quando deixou de ser vago, abstrato, impreciso ‒ como a ideia de movimento antes das Leis de Newton. Portanto, um “rito de purificação” se tornou necessário. Só assim podemos entender “informação” como algo que corre por todo o mundo: o sangue e o combustível, o princípio vital (GLEICK, 2011, p. 3). Já na Computação, o termo possui significados diversos a partir do seu uso (recuperação ou armazenamento de informação), sendo que, neste sentido, os dados são binários, capazes de ser processados por computadores. Entretanto, o desejo humano de extrair conhecimento por meio do relacionamento de dados e informações provenientes de diversas fontes é anterior ao advento das tecnologias digitais conectadas. Ele existe desde as formulações do filósofo e cientista Gottfried Wilhelm von Leibniz (Biblioteca Universal) e do dispositivo modulado por Vannevar Bush ‒ capaz de armazenar e recuperar informação (Memex) ‒, passando pela cooperação entre homem e máquina imaginada por Licklider (Libraries of future). Depois, ele chega ao processamento da informação por máquinas computacionais, bem como à construção e à formalização de uma rede de informações que culminou com hiperlinks criados por Tim Berners-Lee (Web), até alcançar a formatação de estrutura para colaboração e para obtenção de conhecimento implantada por Jimmy Wales (Wikipedia). E o Jornalismo convive e se apropria de recursos oriundos dos Sistemas da Informação nessa nada breve linha do tempo, mais especialmente a partir dos anos 1970, quando as bases de dados passam a integrar as suas rotinas produtivas (RIBAS, 2007). Um exemplo de plataforma de mídia nesse contexto é o Google News18, no qual usuários que visitam a sua primeira página identificam as suas manchetes (as top stories) e editorias como em um jornal tradicional. A diferença, porém, está na composição da página: a edição é feita automaticamente, por meio de um algoritmo que classifica notícias provenientes de múltiplas fontes.

Se um usuário estiver conectado ao Google e permitir explicitamente a função ‘Histórico da Web’, o sistema irá registrar seu histórico de navegação e gerar uma seção personalizada, denominada ‘Recomendado para [conta]’, contendo sugestões de links baseados em seus cliques. A gravação desse registro é totalmente anônima e é mantida em segurança, de acordo com as políticas de privacidade do Google (LIU; DOLAN; PEDERSEN, 2010, tradução nossa)19.

18 Disponível em: . Acesso em: 22 out. 2014. 19 Versão original: “If a user signs in to her Google Account and explicitly enables Web History, the system will record her click history and generate a personalized section for her, named ‘Recommended 42

Antes de ser um exemplo de ferramenta baseado em algoritmos, o Google News está na Web, um sistema de documentos codificados em marcação hipertextual e relacionados entre si, acessados por meio de softwares específicos (navegadores). Criada pelo físico britânico Tim Berners-Lee em 1989, a Web se transformou em um ambiente amigável de navegação, permitindo o desenvolvimento de ferramentas para a produção e o compartilhamento de conteúdos com facilidade. Entendendo a Web como um espaço de mudanças significativas tanto na comunicação quanto em atividades como pesquisa científica, Berners-Lee observa um considerável volume de disciplinas interessado em desenvolvê-la em seu potencial. No entanto, essas disciplinas não a identificam claramente como seu principal foco de atenção. Apesar do interesse espalhado em Ciências Humanas e em estudos ligados à Computação, é comum encontrar essas discussões restritas em silos disciplinares. Susan Halford, Cathy Pope e Leslie Carr, da Universidade de Southampton, valorizam a interdisciplinaridade e a abertura de informações como forma de estudar e compreender a Web como um fenômeno humano, além de projetar seu crescimento e capacidades futuras. É delas o “manifesto por uma ciência da Web” (HALFORD; POPE; CARR, 2010). Apesar do claro interesse da Matemática e da Ciência da Computação, o lado social da Web precisa ser melhor entendido a partir de disciplinas como Geografia, Psicologia, etc. No Jornalismo, a Web é reconhecida como um poderoso repositório de informação, fortalecendo o uso de bases de dados (BARBOSA; TORRES, 2013). A Figura 1.1 apresenta uma relação entre os atributos da informação nesse ambiente.

for [account]’, containing stories recommended based on her click history in Google News. The recorded click histories were fully anonymized and kept secure according to the Google Privacy Policy”. 43

Figura 1.1 – Componentes da informação jornalística na web

Fonte: Produzida pelo autor.

No Jornalismo, por exemplo, bases informacionais seriam compostas tanto por bancos de dados com matérias de veículos diversos (históricos) quanto por dados oriundos de fontes externas – os datasets. Em ambos, o desafio proposto há dezenas de anos permanece: de que forma recuperá-los diante de potenciais inconsistências, redundâncias e ruídos? Um dos pesquisadores mais interessados na questão da memória jornalística no Brasil, o professor Marcos Palacios, sintetiza esse modelo: a construção da realidade pelo Jornalismo se baseia em um universo de significados disputados conflitivamente, ocupando um lugar de memória ao lado de outros documentos – uma espécie de “rascunho histórico” à espera de que um historiador consolide o texto final (PALACIOS, 2010, p. 41). O autor aponta, no entanto, que o acervo de um veículo informativo não se limita a esse olhar externo: para a produção jornalística de qualidade, a consulta e a apropriação de informações em bases de dados internas e externas ao veículo é evidente (PALACIOS, 2008). O seu acionamento é comum para produção de conteúdos relacionados a efemérides e retrospectivas. Ele também aparece de maneira recorrente em comparações e analogias para contribuir com a construção de um retrato do presente. Por fim, há a relação entre os veículos e seu público – público este que passa a dispor de recursos para investigar aspectos históricos em torno do material que lhe é oferecido. O usuário se torna cada vez mais presente a partir da popularização de 44 ferramentas sociais conectadas em rede. Parte do discurso formulado nessa relação acaba incorporado aos produtos jornalísticos contemporâneos. Se é fato que nem toda informação é jornalismo e que a atividade jornalística não se confunde com o simples testemunho, é igualmente fato que a comunicação rizomática e a liberação do polo emissor multiplicaram – a perder de vista – os lugares de memória em rede (PALACIOS, 2010, p. 45). Palacios usa, portanto, o termo “lugar de memória” para definir um local onde as lembranças são externalizadas – arquivos, repositórios de documentos nos quais o jornalismo se insere. A esse propósito, a palavra “memória” (do latim memor oris, “que se lembra”) também aparece na Biologia: refere-se a um grupo de habilidades de aprendizado e à retenção de experiências que humanos e outros animais possuem. A mesma analogia serviu de inspiração para o matemático John Von Neumann elaborar a arquitetura de computadores: eles se tornariam mais rápidos se as instruções elementares fossem armazenadas em sua memória. O modelo proposto por Neumann ainda é seguido pela maioria dos computadores atuais (LIMA JUNIOR, 2013a, p. 110). A visão de que a memória tem sua importância, como se não houvesse necessidade de comprovação, pode fazer sentido dentro dos limites da comunicação social, como se não houvesse necessidade de comprovação. Mas ela exige contextualização num cenário de apropriação, pelo Jornalismo, das técnicas oriundas de outras áreas, associadas à tecnologia, como as Ciências da Computação – incluindo processos de armazenamento e recuperação da informação, englobando “aspectos intelectuais da descrição de informações e suas especificidades para a busca, além de quaisquer sistemas, técnicas ou máquinas empregados para o desempenho da operação” (MOOERS, 1951, apud SARACEVIC, 1996, p. 44).

As tecnologias online não são uma panaceia que magicamente transformará as notícias, carregando-as com alto teor de relevância social. Como ferramenta de auxílio à profissão, a pesquisa em fontes digitais facilita o trabalho do jornalista na tarefa de localização da informação. Um profissional não bem preparado para usar esse tipo de processo encontrará problemas na verificação dos dados (LIMA JUNIOR, 2006, p. 122).

Marcos Palacios (2010) observa que os textos jornalísticos precisam caminhar para uma efetiva incorporação de elementos relacionados à memória em sua estruturação. Um dos modelos teóricos preocupados com essa relação é o Paradigma do Jornalismo Digital em Bases de Dados (JDBD), considerado lugar de inovação 45 continuada para esse campo em função de sua flexibilidade e, sobretudo, pelo seu potencial de reinvenção – como ocorre, por exemplo, com a aproximação do data- driven journalism (BARBOSA; TORRES, 2013). Para os autores, as bases de dados não desempenham apenas uma função documental e auxiliar: hoje, elas têm o caráter estruturante, proporcionando maneiras diferenciadas para o tratamento das informações jornalísticas.

[O JDBD é] o modelo que tem as bases de dados como definidoras da estrutura e da organização, bem como da apresentação dos conteúdos de natureza jornalística, de acordo com funcionalidades e categorias específicas, que vão permitir a criação, a manutenção, a atualização, a disponibilização e a circulação de produtos jornalísticos digitais dinâmicos (BARBOSA; TORRES, 2013, p. 154).

Dentro desta visão, algumas funcionalidades já foram sistematizadas, com destaque para quatro delas, que se relacionam com este trabalho: “estocar o material produzido e preservar os arquivos (memória), assegurando o processo de recuperação das informações”, “garantir a flexibilidade combinatória e o relacionamento entre os conteúdos”, “permitir usos e concepções diferenciadas para o material de arquivo” e “armazenar anotações semânticas sobre os conteúdos inseridos”. Assim como a “importância da memória” nos convida a um fortalecimento dos conceitos, as funcionalidades como conectar, recuperar e reutilizar conteúdos associadas a termos como “garantia assegurada” exigem questionamentos, notadamente dentro da Web. Isto porque, mesmo com atributos simples (URLs conectadas por meio de uma rica experiência hipertextual), o ambiente cresceu de forma descentralizada e, de certa forma, sem regras. Explorar o conjunto de bases na Web por meio de ferramentas de busca por palavras-chave revela-se um problema.

Bases de dados são continuamente produzidas por diferentes grupos e empresas, sem que conheçam o trabalho um do outro. Raramente alguém para o processo e tenta definir um termo globalmente consistente para cada uma das colunas nas tabelas dessas bases. Quando pudermos ligar termos, mesmo muitos anos depois, um computador será capaz de compreender que, quando uma companhia chama ‘mean-diurnal-temperature’, é o mesmo que outra empresa chamando de ‘daily average-temp’ (BERNERS-LEE, 2000, p. 186, tradução nossa) 20.

20 Versão original: “Databases are continually produced by different groups and companies, without knowledge of each other. Rarely does anyone stop the process to try define globally consistent term for each of the columns in the database tables. When we can link terms, even many years later, a computer will be able to understand that what one company calls ‘mean-diurnal-temperature’ is the same as what another company calls ‘daily average-temp’”. 46

1.3 Jornalismo e bases de dados: uma linha do tempo

Entre processos rotineiros de produção noticiosa, o Jornalismo procura denunciar pessoas, instituições ou empresas cujas atividades atentam contra o interesse público, utilizando-se, para isso, de ferramentas de investigação (QUESADA, 2004, p. 125). “Investigar” significa contrastar toda a informação que se manuseie – como fontes documentais –, verificar todos e cada um dos dados e, especialmente, trabalhar sustentando uma sólida ética profissional (QUESADA, 2004, p. 127). Nesse cenário, é fácil identificar que a relação entre informação jornalística e tecnologias de armazenamento não é nova. Há registro de o jornal britânico The Guardian ter apontado o número de alunos matriculados nas escolas de Manchester, relacionando-o com os custos totais, sendo possível identificar quantos recebiam educação gratuita. Isso foi em 1821 (GRAY; BOUNEGRU; CHAMBERS, 2012). Ainda que seja bem próxima, a relação entre os processos de investigação jornalística e a manipulação de dados por meio de computadores não é direta: nem toda investigação jornalística que resulta em reportagens do gênero aplica metodologias e conhecimentos das Ciências Sociais. Tanto que o método se fortaleceu nos Estados Unidos ao final do século XIX, mais de cem anos antes de um computador ter sido usado para apoiar uma cobertura – o ano era 1952, quando a CBS previu os resultados das eleições presidenciais. A partir daí, no entanto, máquinas passaram a auxiliar o jornalista a simplificar, tornar mais rápido ou expandir seu trabalho. A proximidade entre processamento rápido de dados e ferramentas computacionais se fortaleceu, a ponto de se tornar uma combinação essencial. Da mesma forma, a imprensa que se consolida nos EUA, cuja influência chega ao Brasil, assume a sua função social de fiscalização (watchdog), respaldada por esse tipo de notícia. Contudo, ao perpassar o jornalismo, a palavra “informação” adquire contornos a partir da forma como é fabricada: na visão de Adelmo Genro Filho (1987), além de “zeros e uns” contextualizados, existem procedimentos, com vistas a objetivos específicos, pautados por relações sociais produzidas pelo advento do capitalismo e dos meios industriais de difundir informações. Mesmo em reportagens mais elaboradas, essa variável não pode ser desprezada.

A notícia jornalística não pode ser considerada como uma modalidade da informação em geral. Não foi a transmissão genérica da experiência – o que sempre ocorreu em sociedade –, e sim a transmissão sistemática, por 47

determinados meios técnicos, de um tipo de informação necessária à integração e universalização da sociedade, a partir da emergência do capitalismo, que deu origem à notícia jornalística (GENRO FILHO, 1987).

Por conta das práticas rotineiras atendendo aos interesses fundamentais do veículo e do imediatismo da informação como ponto de chegada – e não como partida, como ocorre na ciência –, o método científico pouco tem a ver com o jornalístico. Todavia, é por meio das técnicas de investigação que eles se aproximam. O uso de métodos de pesquisa social para relatar temas sociais objetivamente, juntando fatos aparentemente desconexos e revelando os seus antecedentes, impulsionou a Reportagem Assistida por Computador a partir do que se convencionou chamar de “Jornalismo de Precisão” – do inglês Precision Journalism. Antes de começar a usar computadores para investigar histórias e se tornar pioneiro desse método, o jornalista Philip Meyer, ainda um jovem repórter do Miami Herald, usou lápis e papel para criar uma base de dados, relacionando companhias de seguros e candidatos à presidência do conselho de funcionários de escolas na comunidade. O ano era 1959. Treze anos depois, em 1972, ele lançou seu livro sobre o uso de práticas científicas próprias das Ciências Sociais (GALINDO ARRANZ, 2004). Foi o professor Everette Dennis que, diante dos seus alunos da Universidade de Oregon, empregou o termo Precision Journalism pela primeira vez, em 1971, sendo que o mesmo termo foi adotado por Meyer logo depois. O surgimento do método coincidiu com o caso Watergate, um escândalo político descoberto pelo The Washington Post e sinônimo de investigação jornalística, além de também ter coincidido com o surgimento de uma fundação denominada Investigative Reporters and Editors – IRE21 –, que deu origem ao National Institute for Computer Assisted Reporting (NICAR), responsável pelo treinamento de profissionais.

Inicialmente, o Jornalismo de Precisão se entende como outra forma de jornalismo investigativo, uma forma em que as novas tecnologias desempenham um papel decisivo. Surgiu como uma tentativa de se trazer rigor científico ao jornalismo investigativo, desenvolvido principalmente para o uso de bancos de dados e de processamento por computador (GALINDO ARRANZ, 2004, p. 99, tradução nossa)22.

21 Disponível em: . Acesso em: 22 out. 2014. 22 Versão original: “Inicialmente, el periodismo de precisión se entiende como otra forma de hacer periodismo de investigación, una forma en la que las nuevas tecnologías juegan un papel decisivo. Surgido como un intento de aportar rigor científico al periodismo de investigación, se desarrolla fundamentalmente con el uso de los bancos de datos y su tratamiento informatizado”. 48

Mesmo tendo completado 40 anos, o Jornalismo de Precisão não se trata de uma prática popular no Brasil. Uma explicação para essa percepção, corroborada por Galindo Arranz (2004, p. 102), pode estar nas palavras do pesquisador alemão Michael Kunczik. Ele toma emprestada a visão de Meyer, segundo a qual o jornalista precisa gerenciar, processar, analisar e interpretar bancos de dados, e isso requer treinamento intensivo nas técnicas. Existe um grande perigo em produzir informação incorreta em função da má interpretação. Assim, das duas, uma: ou a investigação sociocientífica não pode ser tarefa do Jornalismo, ou é preciso melhorar de forma geral o nível básico de conhecimentos sociocientífico dos jornalistas (KUNCZIK, 1997, p. 104). Outra explicação, observada por Lima Junior (2012, p. 209), está no atraso das adoções tecnológicas nas redações brasileiras. Enquanto os jornais norte-americanos como o USA Today, The Washington Post, Los Angeles Times e The New York Times desenvolveram departamentos internos com especialistas em informática e estatística, atuaram em conjunto com profissionais e tiveram suas reportagens premiadas com o Prêmio Pulitzer entre os anos 1970 e 1980, a Folha de S. Paulo foi o primeiro jornal brasileiro a introduzir terminais na redação, já em 1983. Atualmente, como lembra o pesquisador, houve um barateamento das máquinas computacionais e de outros dispositivos tecnológicos, ainda que o atraso persista. Mais do que isso, o atual ambiente computacional conectado posiciona o Jornalismo no cenário semelhante ao identificado pelas Digital Humanities, fazendo emergir novas possibilidades no tratamento de informações e dados.

A produção jornalística, acostumada a um modelo anacrônico e cuja nostalgia ainda se mantém presente, não absorveu as evoluções tecnológicas de maneira significativa. O resultado disso é que a maioria dos profissionais de jornalismo acredita que somente a utilização do computador de modo doméstico (uso de aplicativos como e-mail, mensageiros instantâneos, redes sociais, entre outros) já é suficiente para executar o modelo de Jornalismo baseado na era da escassez da informação (LIMA JUNIOR, 2011, p. 48).

Parece evidente pensar que, diante das mesmas questões, é tarefa importante usar a maior quantidade possível de lentes para tentar compreendê-la. Da mesma forma, por mais que o discurso acadêmico pautado pela interdisciplinaridade faça sentido, os obstáculos para que esses enlaces aconteçam são fortes. Berry (2011, p. 2) vai além, ao observar que as informações de que dispomos para construir nossa realidade nesse meio 49 precisam, necessariamente, se transformar em um grid de dados capaz de ser armazenado em computadores e transformado por algoritmos. Nessa escolha, descartamos outras representações pertinentes. A forma de escapar desse limite, pautado por conhecimentos produzidos por uma mediação puramente tecnológica, é reforçar a interdisciplinaridade. Sem perder de vista o fato de que a pesquisa acadêmica em Jornalismo Computacional pode de fato ser útil, é preciso relacionar outras áreas do conhecimento, especialmente as que tradicionalmente sustentam a pesquisa em comunicação – como a Filosofia, por exemplo. Desse debate, algumas lições podem ser pinçadas. Uma das mais importantes: ainda que seja possível apostar num enraizamento profundo das tecnologias que nos exigem um olhar rigoroso – e por mais que a onipresença das conexões somadas à digitalização da realidade, potencializadas pela internet, tenham impactado em nossa vida –, não é possível afirmar que estamos diante de uma revolução impulsionada por elas. A tecnologia não é boa, ruim ou neutra per se: são os valores humanos que lhe oferecem uma visão crítica. Como nos lembra Andrew Feenberg (2001, tradução nossa),

A questão não é se a internet vai nos libertar, como se uma tecnologia tivesse esse poder, mas sim quais as sutis mudanças nas condições de organização e nas atividades públicas que serão introduzidas pela rede. Essa mudança já havia começado antes da ascensão do novo meio, mas de um jeito intermitente e com muito trabalho. A internet promete melhorar a capacidade da população em intervir nas decisões técnicas vitais em uma sociedade como a nossa. Isso tem a ver com mudanças fundamentais na estrutura da democracia em condições de avanço tecnológico23.

Novamente, não é difícil enxergar – seja de uma forma otimista ou apocalíptica – um futuro no qual o pensamento computacional será parte intrínseca das disciplinas tradicionais, tornando o termo digital humanities obsoleto. Não à toa, profissionais como Nicholas Diakopoulos24 e Jonathan Stray25 – que ministram cursos ou disciplinas de Jornalismo Computacional na City University of New York e na Columbia Journalism School, respectivamente – identificam as perspectivas do Jornalismo

23 Versão original: “The issue is not whether the Internet will liberate us, as though a technology had that power, but rather the subtle change in the conditions of public organization and activity introduced by networking. This change had already begun before the rise of the new medium, but intermittently and laboriously. The Internet promises to enhance the ability of the population to intervene in the technical decisions so vital in a society like ours. This has to do with fundamental changes in the structure of democracy under conditions of technological advance”. 24 Site pessoal. Disponível em: . Acesso em: 22 out. 2014. 25 Site pessoal. Disponível em: . Acesso em: 22 out. 2014. 50

Computacional (que será discutido no Capítulo III), aproximando ainda mais os profissionais da Comunicação e da Tecnologia, demonstrando que o caminho do diálogo entre as duas culturas apontadas por Snow é possível e necessário. Para tal, tomando as palavras do pesquisador Lev Manovich, um dos dois lados precisa fazer algum esforço para ver o outro. Que venham, portanto, os representantes da Comunicação interessados em fazê-lo.

O modelo de pesquisa big data humanities que existe agora é o da colaboração entre humanistas e cientistas da computação. É o jeito certo de começar a ‘mergulhar nos dados’. Entretanto, se cada projeto intensivo de dados feito nas humanidades tiver que ser apoiado por uma concessão que permitiria tal colaboração, nosso progresso será muito lento. Precisamos de humanistas capazes de usar a análise de dados e software de visualização em seu trabalho diário, para que eles possam combinar abordagens quantitativas e qualitativas em todo o seu trabalho. Como fazer com que isso aconteça é uma das questões chave para as ‘digital humanities’ (MANOVICH, 2011, tradução nossa)26.

Neste capítulo, a importância do diálogo estruturado entre áreas do conhecimento como um caminho possível para a compreensão de fenômenos contemporâneos no Jornalismo é reforçada. A Comunicação vivencia desafios epistemológicos para ser reconhecida e fortalecida como ciência, ao passo que sua relação com a Tecnologia amplia suas fronteiras com outras áreas do conhecimento e, consequentemente, seu horizonte científico (PEREIRA, 2014). Não deixa de ser um caminho parecido com o da Ciência da Informação, que começou quando, a partir de 1951, Calvin Mooers debruçou-se sobre o tema “recuperação de informação”. Ele elaborou três perguntas que carregam o espírito das conexões interdisciplinares e que permanecem atuais: como descrever intelectualmente a informação? Como especificar intelectualmente a busca por ela? Quais sistemas, técnicas ou máquinas devem ser utilizados para isso? O próximo capítulo trata dessas relações, além de dar ênfase ao principal elemento deste trabalho.

26 Versão original: “The model of big data humanities research that exists now is that of collaboration between humanists and computer scientists. It is the right way to start ‘digging into data’. However, if each data-intensive project done in humanities would have to be supported by a research grant which would allow such collaboration, our progress will be very slow. We want humanists to be able to use data analysis and visualization software in their daily work, so they can combine quantitative and qualitative approaches in all their work. How to make this happen is one of the key questions for ‘digital humanities’”. 51

Capítulo II – METADADOS

Em agosto de 2015, o diário australiano ABC fez uma experiência: compartilhou com seus leitores uma base de dados com informações pessoais do repórter Will Ockenden27, todas elas coletadas do seu telefone celular – um ano de informações como chamadas, mensagens SMS, registros de dados, informações geolocais, enfim. A ideia era confrontar o discurso oriundo das agências de vigilância, como a norte-americana NSA, que não armazenam “conversas inteiras” dos cidadãos, apenas seus metadados. A conclusão da reportagem? Muitos usuários, mesmo quem jamais tinha lidado com uma base de dados parecida, fez inferências assustadoramente corretas sobre a rotina do jornalista, incluindo detalhes de sua vida pessoal. Esse teste agrega novos elementos para um debate atual sobre a palavra-chave que movimenta este trabalho, discutida neste capítulo.

27 “What reporter Will Ockenden's metadata reveals about his life”. Disponível em: . Acesso em: 29 dez. 2015. 52

2.1 Apresentação de um conceito: além dos “dados sobre dados”

Desde as revelações de Edward Snowden, em junho de 2013, sobre práticas de monitoramento da Agência de Segurança Nacional norte-americana 28, os metadados ficaram em evidência e a palavra entrou na agenda de conversa dos norte-americanos. O mundo se deu conta de que estamos cercados por dados sobre dados, inclusive aqueles produzidos por nossos próprios dispositivos móveis conectados.

Metadados são um tema onipresente e uma parte integrante da nossa infraestrutura de informação digital. Educação, artes, ciência, indústria, governo e as muitas atividades humanísticas, científicas e sociais que compõem o nosso mundo se uniram para desenvolver, implementar e aderir a alguma forma de prática de metadados. Há ampla evidência mostrando que os metadados tocaram praticamente todas as disciplinas e setores sociais que entram em contato com a informação digital (GREENBERG, 2009, tradução nossa)29.

Em busca de uma definição ampla, podemos dizer que metadados são informações que permitem rotular, catalogar e descrever dados para serem estruturados de modo a serem compreendidos tanto por humanos quanto por máquinas. São fundamentais para a criação, descrição, organização, atualização, reutilização, validação, recuperação, preservação e recontextualização de objetos de informação. Eles representam o que pode ser descrito a respeito desses objetos em qualquer nível. Nesse contexto, os objetos de informação podem ser entendidos como qualquer coisa passível de ser endereçada e manipulada por um ser humano ou um sistema – num processo contínuo desde sua criação até sua disponibilização nesses sistemas – e que estão relacionados com bases de dados – confirme ilustra a Figura 2.1. Um objeto corresponde a um item isolado, a vários itens juntos ou a uma base de dados inteira (BACA, 2008).

28 O jornal britânico The Guardian foi o primeiro a publicar as revelações. Cobertura disponível em . Acesso em: 29 dez. 2015. 29 Versão original: “Metadata is an ubiquitous topic and an integral part of our digital information infrastructure. Education, the arts, science, industry, government, and the many humanistic, scientific, and social pursuits that comprise our world have rallied to develop, implement, and adhere to some form of metadata practice. There is ample evidence showing that metadata has touched nearly every discipline and societal sector coming into contact with digital information”. 53

Figura 2.1 – Ciclo de um objeto de informação

Fonte: BACA, 2008.

Os metadados podem ser descritivos (voltados à descoberta e à identificação de objetos), contextuais (como as informações técnicas registradas por uma câmera digital em uma foto, bem como metadados administrativos que indicam a origem das informações e direitos de uso) ou estruturais (que definem relações entre esses objetos). Dificilmente os metadados são utilizados isoladamente: esquemas de metadados podem especificar o significado de um item, regras de armazenamento, preservação e sintaxe. Jeffrey Pomerantz, cientista da informação e entusiasta do termo, oferece uma contribuição importante para essa definição: metadados são afirmações a respeito de um objeto potencialmente informativo (POMERANTZ, 2015, p. 35). Por trás desta ideia reside a dureza ao se construí-la a partir da profundidade de cada palavra: o que quer dizer “descrição” ou “afirmação”? Ou mesmo “dados”, normalmente entendidos como algo em “estado bruto”? E mais: um “assunto” ou “tópico” são rótulos costumeiramente subjetivos. A etimologia do termo remete ao prefixo grego “meta” (superior, em nível mais alto) e à palavra latina “data” (plural de datum, ou seja, “pedaços de informação”). Metadados seriam, portanto, dados sobre dados. Contudo, a ideia por trás da palavra é 54 bem mais antiga: começa com Aristóteles, que discutia “o ser enquanto ser”, isto é, o que está por trás dele, dando origem ao conceito de “metafísica”, por volta de 350 a.C. (POMERANTZ, 2015). Mas a definição do termo vem sendo influenciada tanto pelos objetos que o utilizam quanto pelas suas múltiplas aplicações. A Figura 2.2 sintetiza as relações entre áreas do conhecimento que se interessam pelo termo, aproximando-as da Comunicação e, consequentemente, do Jornalismo.

Figura 2.2 – Conexões interdisciplinares em torno de metadados

Fonte: Produzida pelo autor.

2.2 Conexões interdisciplinares dos metadados

Como vimos, os problemas que envolvem a informação e a comunicação, suas manifestações, o comportamento informativo humano e os problemas aplicados ligados ao “tornar mais acessível um acervo crescente de conhecimento”, incluindo as tentativas de ajustes tecnológicos, não podem ser resolvidos no âmbito de uma única disciplina (SARACEVIC, 1996) – o que reforça o interesse do campo das Ciências Sociais por pesquisas interdisciplinares: sozinha, a área não dá conta das relações estabelecidas entre a sociedade e as mídias (LOPES, 2002). A propósito das bases de dados, escopo deste trabalho, Dodgson e Gann (2010) lembram que, no contexto do pós-guerra norte-americano, um dos maiores incentivadores da relação entre pesquisa científica e inovação foi o engenheiro e cientista do Massachusetts Institute of Technology (MIT) Vannevar Bush, considerado um dos precursores da Ciência da Informação durante sua proximidade com o governo norte-americano nos anos 1940. Os conceitos por trás do MEMEX, ideia abstrata compartilhada em 1945 diante da questão da explosão informacional e de seus registros, deram origem à problematização da recuperação de informação (SARACEVIC, 1996), advindo daí a Ciência da Informação. A Comunicação é mencionada como uma das quatro áreas do conhecimento, ao lado das Ciências Cognitivas, como fundamentais para a definição de suas fronteiras. No que se refere ao caminho percorrido pelos metadados, outras duas merecem destaque: a Biblioteconomia e a Ciência da Computação. Dos caminhos percorridos por essas áreas, o mais antigo é, seguramente, o da Biblioteconomia: são três mil anos desenvolvendo ferramentas e técnicas para classificar e descrever a informação, organizando-a e preservando-a como forma de garantir a permanência de verdadeiros patrimônios culturais, sendo que a mesma lógica pode ser estendida a outras instituições que lidam com memória, como os museus. Apesar de sua atividade milenar, o problema da informação se tornou mais complexo. Enquanto a Biblioteconomia direcionou seus estudos para processos de documentação e sua preservação, emergia a Ciência da Computação, derivada da Matemática a partir de pensamentos pioneiros como os de Alan Turing, que em 1936 imaginou um controlador capaz de ler, escrever e mover uma fita infinita, inscrita com números. A partir de sua máquina abstrata, foi possível imaginar: tudo o que pudesse 56 ser traduzido a partir de instruções sequenciais seria realizado, potencialmente, por uma máquina como essa (WILSON; KEIL, 1999). A abstração de problemas por meio do pensamento computacional provocou estímulos em todas as áreas do conhecimento. De fato, a essência do pensamento de Turing mudou quase tudo sobre a forma como a ciência é feita, bem como nossas vidas acontecem à medida que as máquinas computacionais evoluem (MITCHELL, 2009, p. 69) – assim como os meios eletrônicos de armazenamento de informações traduzidas nos binary digits imaginados por Claude Shannon.

Com o advento dos bancos de dados, tornou-se possível criar e armazenar dados estruturados sobre qualquer coisa, não apenas metadados descritivos sobre recursos em coleções de bibliotecas. Claro que empresas e governos, em particular, têm sempre recolhidos e armazenados dados estruturados para fins que vão além da descrição: contabilidade de lucros e perdas, inventários, documentos fiscais, censos, etc. existem no papel – e em tecnologias ainda mais antigas – por milênios (POMERANTZ, 2015, p. 14, tradução nossa)30.

Para sistematizar o conhecimento por meio de uma relação entre processos e declarações formais, a Ciência da Computação preocupou-se mais em definir e especificar metadados (CAPLAN, 2003), possibilitando que as máquinas computacionais realizem conexões entre eles e desenvolvam pesquisas relacionadas a agentes de Inteligência Artificial, Processamento de Linguagem Natural, entre outras ferramentas relacionadas ao armazenamento, recuperação e reutilização de informações em bases de dados – e, a esse respeito, talvez a mais conhecida solução tenha sido desenvolvida por dois alunos de Stanford no final do século passado (BRIN; PAGE, 2012). Derivada da Ciência da Computação, a Engenharia de Software pode aplicar essas ferramentas e tecnologias na construção de modelos – a linguagem UML (Unified Modeling Language) é usada para especificar os requisitos e funções para a construção de sistemas de software por meio de diagramas, antes de sua execução. Pode parecer distante de qualquer pesquisa em Comunicação, mas esta linguagem já dialoga com problemas do Jornalismo (LIMA JUNIOR, 2006a; RAMOS, 2011). De forma menos intrincada, o termo que define a sequência de instruções imaginada por Alan Turing tornou-se altamente persuasivo: algoritmo.

30 Versão original: “With the advent of the database, it became possible to create and store structured data about anything, not just descriptive metadata about resources in library collections. Of course, business and governments, in particular, have always collected and stored structured data for more than descriptive purposes: ledger of profit and loss, inventories, tax documents, censuses, and the like, have existed on paper – and even earlier technologies – for millenia”. 57

Trata-se de um passo-a-passo computacional, um código de programação, executado numa dada periodicidade e com um esforço definido. O conceito de algoritmo permite pensá-lo como um procedimento que pode ser executado não apenas por máquinas, mas também por homens, ampliando seu potencial de acuidade associada à personalização. Deste modo, desenhar um algoritmo é elaborar uma série de instruções com a finalidade de resolver um problema (CORRÊA; BERTOCCHI, 2012b, p. 7).

Mesmo sendo uma sequência de instruções codificadas em softwares, os algoritmos já foram capazes de escrever sinfonias tão comoventes quanto as de Beethoven; de transitar por meio de decisões jurídicas e diagnósticos clínicos; de controlar o tráfego em vias movimentadas; e, por fim, de escrever uma reportagem com mão tão suave quanto a de um jornalista experiente (STEINER, 2012). De um lado, um algoritmo pode ser visto como uma ferramenta capaz de realizar uma tarefa mais rápida – se possível, automaticamente; de outro, está a imagem negativa de que sistemas inteligentes prejudicam aspectos culturais na tentativa de equacionarem problemas financeiros. Não à toa é que, para Steiner (2012), as pessoas que conseguem criar códigos capazes de correr em oceanos de dados e de executar tarefas que pareciam impossíveis há poucos anos estão em ascensão social.

Está claro que esses dois pontos de vista são defasados. E provavelmente ambos estão errados, ou melhor, estão nitidamente incompletos. Trata-se de um medo histórico da autonomia das máquinas aplicado a uma profissão que sofre e não aproveita a total incerteza que atravessa e que poderia contar a seu favor. Entender os algoritmos de outra maneira, menos reducionista, é uma grande missão intelectual para repensar o que fazemos nesta indústria onde, supostamente, nada podia ser automatizado (MANCINI, 2011, p. 46, tradução nossa)31.

Com a consolidação da Web como meio de comunicação a partir dos anos 1990, as preocupações se tornaram mais complexas. O fato de ela “desaparecer” aos poucos – isto é, de uma “enorme quantidade de conhecimento inestimável sumir” – representa desafios que motivaram, entre outras iniciativas, a criação de uma comunidade internacional de arquivamento da Web, o International Internet Preservation

31 Versão original: “Está claro que esas dos miradas atrasan. Y que probablemente las dos estén equivocadas o, mejor dicho, sean marcadamente incompletas. Se trata del miedo histórico a la autonomía de las máquinas aplicado a una profesión que padece y no aprovecha la plena alza de incertidumbre que atraviesa y podría contar a su favor. Entender a los algoritmos de otra manera, menos reduccionista, es una misión intelectual mayúscula para repensar lo que hacemos en esta industria donde, se suponía, nada podía ser automatizado”. 58

Consortium32 (XIE et al., 2013), bem como o mais popular serviço de arquivamento da Web, o Internet Archive33. O crescente volume de dados disponíveis e acessíveis por navegadores, sejam eles publicadas originalmente na Web ou digitalizados para posterior recuperação, também trouxe às bibliotecas preocupações quanto à descrição de informações em níveis cada vez mais granulares, que funcionem a níveis mais específicos e em partes pequenas, definindo novos esquemas e relacionando atributos entre objetos (HAN, 2012).

No início da Web, muitas pessoas, especialmente a emergente comunidade de bibliotecas digitais, viram nos metadados a solução a longo prazo para o problema da descoberta de recursos na Web. O raciocínio por trás disso era muito lógico e remonta ao exemplo clássico de metadados: catálogos da biblioteca provaram sua eficácia ao fornecerem tanto o acesso quanto o controle de grandes coleções bibliográficas. Então por que a Web seria diferente? (BACA, 2008, tradução nossa)34.

Paralelamente, a face mais amigável da internet e sua facilidade de acesso e inserção de conteúdos (LIMA JUNIOR, 2013b) permitem que a elaboração de estruturas, contextos ou de outras formas de organização de informações no ambiente Web não seja feita, especificamente, por profissionais da Biblioteconomia, da Ciência da Computação, da Comunicação ou, em sua “confluência”, da Ciência da Informação. A proliferação de aplicações de relacionamento e disseminação de informações revelou novos problemas acerca de sua preservação e recuperação – o que pode ser demonstrado por meio de trabalhos que calculam a quantidade de recursos compartilhados pela Web em mídias sociais que desaparecem em um ano, nos quais o número chega a 11% (SALAHELDEEN; NELSON, 2012). A relação entre as bibliotecas e o Jornalismo reside, por exemplo, no interesse histórico em digitalizar e recuperar arquivos históricos de jornais. Nesse contexto, os metadados precisam dar conta de descrever e estruturar grandes volumes de informação baseados em antigas páginas impressas (ALLEN; SCHALOW, 1999). Um exemplo no qual há convergência entre as áreas de interesse por metadados e o Jornalismo pode ser encontrado no projeto NDNP (National Digital Newspaper Program), promovido pela

32 Disponível em: . Acesso em: 15 dez. 2015. 33 Disponível em: . Acesso em: 15 dez. 2015. 34 Versão original: “In the early days of the Web, many people, particularly in the emerging digital library community, saw metadata as the long-term solution to the problem of resource discovery on the Web. The reasoning behind this was very logical and goes back to the classical example of metadata: Library catalogs had proved their efficacy in providing both access to and control of large bibliographic collections, so why should the Web be different?”. 59

Biblioteca do Congresso norte-americano para criar e manter uma base de dados de jornais históricos digitalizados. O resultado do projeto é o site Chronicling America35, que disponibiliza, inclusive, uma API para consultas (YARASAVAGE; BUTTERHOF; EHRMAN, 2012). Ao mesmo tempo que a Web cresce por conta da facilidade em publicar conteúdos, há uma expectativa diante de uma etapa avançada de desenvolvimento desse ambiente. Ao lado de outros pesquisadores, seu criador, Tim Berners-Lee, debruça-se sobre o desafio da Web de Dados (ou, ainda, da Web Semântica36).

A Web Semântica vai trazer estrutura para um conteúdo significativo das páginas web, criadas em um ambiente onde agentes de software possam passear entre as páginas e prontamente executar tarefas muito complexas para os usuários... A Web Semântica não é uma Web separada, mas uma extensão da atual, em que a informação é dada com um significado bem definido, permitindo que os computadores e as pessoas trabalhem em cooperação (BERNERS-LEE; HENDLER; LASSILA, 2001, tradução nossa)37.

Resumidamente, a Web de Dados refere-se à capacidade de os computadores reconhecerem dados, em oposição ao paradigma da “web de documentos”. Uma organização pode criar, por exemplo, uma base denominada mean-diurnal-temperature (temperatura diária média), enquanto outra faz o mesmo, denominando-a daily average- temp – é a mesma informação, com nomes diferentes. Trata-se de um problema enorme: continuamente, as bases de dados são produzidas e disponibilizadas em rede por diferentes grupos e empresas com as mais variadas intenções. Ainda nas palavras do físico britânico, o poder dessa Web de Dados será visível “quando as pessoas criarem muitos programas que coletam conteúdo da Web a partir de diversas fontes, processarem a informação e fizerem o intercâmbio dos resultados”, de modo que “muitas coisas antes impossíveis pareçam óbvias” (BERNERS-LEE, 2000, p. 198). Com a emergência da Web como uma plataforma de produção e criação de conteúdo (inclusive jornalístico), bem como ante seu objetivo de tornar seus conteúdos interoperáveis a partir dessa visão, a importância dos metadados ganhou força.

35 Disponível em: . Acesso em: 15 dez. 2015. 36 O conceito original de Tim Berners-Lee pode ser explorado em: . Acesso em: 15 dez. 2015. 37 Versão original: “The Semantic Web will bring structure to the meaningful content of Web pages, creating an environment where software agents roaming from page to page can readily carry out sophisticated tasks for users... The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning, better enabling computers and people to work in cooperation”. 60

2.3 Objetos de informação rotulados na Web: uma classificação

Como vimos, Berners-Lee (2000) elaborou uma teia descentralizada, na qual fragmentos de texto seriam conectados num sistema universal, abrangente, flexível e colaborativo. Enquanto trabalhava na Organização Europeia para a Pesquisa Nuclear (em francês, CERN) e sentia a necessidade de organizar informações que eram perdidas em função da rotatividade de pesquisadores, ele escreveu os primeiros programas que funcionariam numa infraestrutura de comunicações baseada em computadores conectados e definiu os parâmetros associados aos acrônimos URL (identificadores universais de recursos), HTTP (protocolo de transferência de hipertexto) e HTML (linguagem para marcação de hipertexto). Essas são as únicas premissas da World Wide Web. Modelos de metadados correspondem a uma estratégia para organização de conteúdos para a Web (HALVORSON; RACH, 2012, p. 32). No Jornalismo, a criação, a administração e o arquivamento desses recursos podem ser realizados a partir de sistemas de publicação e gerenciamento de conteúdos, “dispositivos tecnológicos que envolvem processos relacionais, ou seja, dependem do meio associado, do contexto no qual estão inseridos, interconectando bancos de dados”, já são identificados como ferramentas responsáveis pela gestão de blocos de informações a partir de “determinada lógica, disponíveis ou não para outros aplicativos” (SCHWINGEL; CORREA, 2013). A relação entre os metadados e as áreas do conhecimento preocupadas com a descrição, recuperação e interoperabilidade de informações influenciou na criação de modelos de processamento e relacionamento entre essas informações. Todavia, a aplicação desses princípios em blocos de informações elaborados por sistemas de gerenciamento é pouco explorada no paradigma do Jornalismo Digital em Bases de Dados. Normalmente, ao lidar com o potencial aproveitamento de sistemas para gerenciamento de conteúdo, a preocupação reside essencialmente em processos amigáveis de publicação de conteúdos, resultando na melhor forma de apresentá-los em uma página Web. Na prática, esses processos correspondem ao “negrito na assinatura do autor, links manuais em nomes de cidades para as páginas relacionadas a elas, listas com marcadores destacando empresas ao final de um artigo...” (WACHTER- BOETTCHER, 2012, p. 68). A partir da visão centrada em documentos – originária da Biblioteconomia – até a formalização e representação da informação por algoritmos – desenvolvidas pela 61

Computação –, percebe-se uma progressão entre tecnologias e padrões de metadados possíveis para bases digitais na Web. Essa classificação começa em um nível mais simples e desordenado, chegando a práticas de compartilhamento que potencialmente alicerçam a Web de Dados. É importante ressaltar que, num contexto como páginas Web, não se trata apenas de um acréscimo do código HTML, comum em processos de otimização de páginas Web, mas sim da descrição de objetos e de suas relações com outros conceitos, alcançando um grau de uniformidade na descrição por meio de funções e esquemas (SICILIA; LYTRAS, 2009). Em outras palavras: trata-se de metadados descritivos, administrativos ou que definem estruturas que podem ter maior ou menor nível de detalhamento e relacionamento. A Figura 2.3 sintetiza esses níveis, apresentando alguns conceitos e tecnologias associados a cada um. É importante ressaltar que, quanto mais sofisticados o modelo, a classificação, os critérios e os padrões tecnológicos usados, mais complexos eles são – porém, também mais interessantes e promissores.

Figura 2.3 – Classificação proposta para níveis de detalhamento e relacionamento de metadados

Fonte: Produzida pelo autor.

Marcações

Mesmo no processo elementar de transposição de um “jornal on-line” para esse ambiente no qual cada texto está relacionado a uma seção ou canal, é fácil identificar rótulos que tanto sejam descritivos quanto estruturais. O primeiro caso é mais evidente – por exemplo, uma página identificada com a editoria “Cidades”; o segundo diz respeito à linguagem de marcação, componente elementar de qualquer página visualizada por um navegador. Grosso modo, as tags HTML podem servir para descrever estruturas de texto em uma página. Tanto um usuário quanto um sistema podem reconhecer que o título de um documento é exatamente o conjunto de dados posicionado entre as marcações e , por exemplo. Opcionalmente, palavras-chave e descrições podem ser publicadas em marcações próprias para metadados descritivos para a Web – as tags . Ou, ainda, por meio de links, podem indicar conteúdos relacionados. No entanto, não há nenhuma regra de uso ou escolha para desenvolvedores ou produtores de conteúdo rotularem dados em páginas Web: a escolha de uma palavra ou expressão para servir de âncora a um link segue o mesmo critério de definição para se nomear uma editoria de “Cidades”, “Geral”, “Cotidiano”, enfim. Da mesma forma, qualquer indivíduo familiarizado com ambientes amigáveis da Web (ou, em outra ponta, qualquer algoritmo programado para tal) utiliza sistemas em sites de relacionamento ou outras ferramentas de publicação para compartilhar fragmentos de informação pela rede. Nesses termos, a complexidade da rede se torna evidente: seja de um usuário ou de um código de programação, não há como exigir algum esforço no sentido de se preocupar com critérios que rotulem essas informações. Assim, nessa proposta de classificação, a marcação corresponde à adoção de metadados sem levar em conta algum critério ou padrão de escolha. Entre essas práticas, o termo folksonomia ganhou fôlego. Folksonomia é o acúmulo de termos e palavras que resultam de processos baseados em etiquetagem social (BACA, 2008), representando uma coleção de dados úteis sobre interesses coletivos. Corrêa e Bertocchi (2012a, p. 127) reforçam que a folksonomia pode se tornar rica em jargões, expressões populares e termos corriqueiros que passam a ganhar as características da linguagem natural: o multilinguismo, a ambiguidade, a inventividade. Por trás de ferramentas de compartilhamento populares, como, por exemplo, o YouTube (para vídeos) e o Flickr (para fotos), a lógica das social tags é evidente: 63 enquanto disponibilizam conteúdos, os usuários podem marcá-los (se desejarem) com palavras-chave. Mas sua importância ficou evidente a partir de 2007, com a popularização do Twitter38. Por se tratar de uma ferramenta para compartilhamento de um fragmento de texto com apenas 140 caracteres, nunca houve espaço nativo para o uso de tags. Até que o desenvolvedor Chris Messina deu uma sugestão para reduzir o ruído na troca de mensagens: rotulá-las por meio de uma tag precedida do sinal # (em inglês, hash). Não é preciso ir longe para reconhecer que esse estilo de marcação, batizada de hashtag, foi muito além do próprio Twitter: está presente em outros sites de relacionamento e fora dele – como na identificação de programas de tevê, por exemplo. Para a pesquisadora Luciana Moherdaui, a lógica por trás das marcações sociais por meio de tags e sua consequente reutilização em nuvens de comunicação (ideia por trás da folksonomia) representam uma bagunça com organização própria, marcada especialmente pela diversidade cultural. Além disso, “são a chave para a constituição temporária e cambiante de projetos artísticos na rede ou para engajar pessoas em torno de algo”, sendo possível aplicar o mesmo raciocínio à composição de notícias (MOHERDAUI, 2011). Ainda envolvendo o Jornalismo como objeto de pesquisa, Bahareh Heravi, pesquisadora do Digital Enterprise Research Institute 39 , investiga maneiras para o Jornalismo aproveitar marcações desestruturadas elaboradas por usuários por meio de tecnologias semânticas – é o que ela define como Social Semantic Journalism (HERAVI; BORAN; BRESLIN, 2012). Marcações desestruturadas correspondem a um enorme desafio para quem lida com metadados. Alguém poderia rotular uma notícia bizarra (no jargão jornalístico, fait divers) com a tag “mundoidão”, termo inexistente em qualquer dicionário da Língua Portuguesa, mas de fácil interpretação. Ainda assim, diante de processos computacionais, o que a tag “mundoidão” representa? Quais as suas conexões?

O fato de a internet ser em grande parte não controlada torna o solo rico para o vocabulário descontrolado. Enquanto um vocabulário controlado proporciona um conjunto finito de termos que podem ser utilizados como valores para um elemento particular em um esquema de metadados, um vocabulário não controlado permite que qualquer termo possa ser usado. E qualquer termo significa realmente isso: não se trata apenas do completo

38 A primeira menção ao termo “hashtag” é atribuída ao blog do pesquisador Stowe Boyd, em “Hash Tags = Twitter Groupings”. Disponível em: . Acesso em: 10 abr. 2016. 39 Disponível em: . Acesso em: 10 abr. 2016. 64

léxico da língua escolhida, como também da existência de termos inventados (POMERANTZ, 2015, p. 49, tradução nossa)40.

Tal cenário estimula esforços para criar padrões ou esquemas controlados envolvendo metadados, sendo que, à medida que esse controle aumenta, maior o nível de uso e estruturação. Mas, como veremos a seguir, “padrões são como escovas de dentes: todo mundo concorda que a ideia é boa, mas ninguém gosta de compartilhar”41.

Esquemas

Existe caminho possível no que tange à definição de critérios para a utilização de metadados? Em um artigo provocativo, o jornalista e escritor canadense Cory Doctorow (2001) sintetizou o que denominou metacrap, isto é, qualquer tentativa humana de estabelecer algum padrão. Em sua visão, as pessoas são preguiçosas demais para assumir algum padrão – ou mentem, como em um e-mail cujo assunto é “informação importante para você”. Além disso, há muitas formas de descrever a mesma coisa, tornando o ato dos “guardiões da epistemologia sentarem e racionalmente mapearem uma hierarquia de ideias” uma meta-utopia (DOCTOROW, 2001). Embora seu texto seja intencionalmente ficcional e bem-humorado, ele aponta para dificuldades reais. Para exemplificar, vejamos o que houve em março de 1995. A National Center for Supercomputing Applications (NCSA, centro responsável pelo lançamento do primeiro navegador Web, o Mosaic) e a Online Computer Library Center (OCLC) organizaram um workshop para discutir padrões de metadados para a Web. O consenso desse encontro, que reuniu cientistas da informação e da computação, permanece atual: para que mecanismos de busca na Web sejam de fato úteis, as informações compartilhadas nesse ambiente deveriam ser descritas de maneira adequada. Desse encontro nasceu a iniciativa Dublin Core Metadata Element Set42.

40 Versão original: “The fact that the internet is largely uncontrolled, makes it rich soil for the uncontrolled vocabulary. Where a controlled vocabulary provides a finite set of terms that may used as values for a particular element in a metadata schema, an uncontrolled vocabulary allows any term to be used. And any term really does mean any: not only is the entire range of words in your chosen language fair game, but an uncontrolled vocabulary allows terms to be invented on the spot”. 41 Em inglês, a frase original é: “Standards are like toothbrushes, a good idea but no one wants to use anyone elses”. No livro Metadata (POMERANZ, 2015), a expressão é atribuída à pesquisadora Murtha Bacca. 42 Disponível em: . Acesso em: 15 dez. 2015. 65

O padrão Dublin Core para descrição de elementos permite relacionar 15 elementos de metadados para cada objeto, sem contar a possibilidade de aumentar sua especificidade por meio de orientações sobre a codificação e o processamento desses objetos. Ele é um dos mais populares exemplos de esquema, ou seja, tal padrão estabelece algum relacionamento entre objetos de informação por meio de critérios designados previamente. Paralelamente, outros projetos procuram esquematizar informações jornalísticas. Um dos mais audaciosos é o Global Database of Events, Language, and Tone (GDELT), plataforma que monitora a mídia e acumula informações relacionadas a política e conflitos datadas de 1979, baseando-se em agências de notícia e em alguns jornais norte-americanos. Em 2013, o set de dados registrava mais de 200 milhões de eventos – são 100.000 novos eventos de todo o planeta adicionados diariamente a partir de fontes como Associated Press, France Presse e a chinesa Xinhua –, codificados e estruturados por meio de uma codificação automática de locais, personagens e eventos políticos. O código foi batizado de Conflict and Mediation Event Observations – ou simplesmente CAMEO (LEETARU; SCHRODT, 2013). O GDELT conecta pessoas, organizações, localizações e temas43, permitindo, entre outras possibilidades, a predição de eventos por meio de variáveis como abrangência global, densidade, codificação geográfica, precisão e disponibilidade de acesso futuro. É possível, por exemplo, prever níveis de violência no Afeganistão (YONAMINE, 2013). Esquemas de metadados presumem, portanto, padrões de relacionamento (é o caso do Dublin Core e do CAMEO), bem como termos e vocabulários controlados. Em bases de dados estruturadas, o esquema mais elementar são os nomes atribuídos às tabelas e suas colunas. Outra forma comum de nomear um sistema de classificações e envolver termos e seus conceitos é denominada “taxonomia”. A prática relacionada ao termo vem do século XVIII, quando o botânico e zoólogo Carl von Linné desenvolveu a classificação de seres vivos por meio de uma hierarquia (WACHTER-BOETTCHER, 2012, p. 55). Dicionários de sinônimos (thesaurus) são exemplos de vocabulários controlados que podem compor taxonomias. O W3C, consórcio que estabelece boas práticas para a Web, recomenda especificações baseadas em eXtensible Markup Language (XML). Trata-se da mais

43 Disponível em: . Acesso em: 22 out. 2014. 66 comum entre as formas de descrever esquemas de metadados na Web44. Isso é possível porque, ao contrário do HTML, o XML permite definir seus próprios rótulos, dando ênfase à descrição dos conteúdos e permitindo o acréscimo de rótulos de acordo com a necessidade. Porém, uma linguagem flexível não é suficiente: para compartilhar um significado, é necessário que um esquema de compartilhamento seja "consensual e inteligível de forma não ambígua entre todos os participantes de uma comunidade" (SOUZA; ALVARENGA, 2004, p. 135). De acordo com seus objetivos, comunidades distintas definem padrões e vocabulários relacionados a estrutura, conteúdo e sintaxe para organizar suas informações utilizando metadados. É o caso do programa nacional de digitalização de jornais 45 proposto pela Biblioteca do Congresso dos Estados Unidos em 2004, que desenvolveu a combinação de padrões de metadados estruturais – Metadata Encoding and Transmission Standard (METS) e Technical Metadata for Optical Character Recognition (ALTO). Ambos são usados em projetos de digitalização de acervos jornalísticos históricos. Além do padrão Dublin Core, já mencionado, existem outros esquemas: DITA, FOAF, SIOC, SKOS, DOAP, vCard e OAI-ORE (BIZER; HEATH; BERNERS-LEE, 2009). As organizações de mídia também possuem padrões de codificação próprios, como os definidos pelo International Press Telecommunications Council46. Os recursos disponíveis pelo IPTC (entre eles, EventsML-G2, NewsML-G2, SportsML-G2, rNews, IIM, NewsML 1, IPTC 7901 e NITF) permitem acrescentar metadados a objetos como textos, fotografias, áudios e vídeos (TRONCY, 2008). Mesmo sendo uma iniciativa conhecida e adotada por grandes jornais e agências de notícias, o pesquisador Tassilo Pellegrini (2012, p. 126, tradução nossa) identifica um obstáculo em sua utilização:

A adoção prática dos códigos do IPTC na indústria de notícias e seu uso em sistemas de gerenciamento de conteúdo editorial e aplicativos é limitada a uma pequena fração do vocabulário existente, o que por um lado é um forte indicador de especificações em excesso e, por outro, da falta de uma elaborada ‘cultura de metadados’ na gestão da informação dentro dos fluxos de trabalho editoriais47.

44 Uma descrição detalhada dos padrões XML está disponível em: . Acesso em: 22 out. 2014. 45 Disponível em: . Acesso em: 22 out. 2014. 46 Disponível em: . Acesso em: 10 abr. 2016. 47 Versão original: “The practical uptake of the IPTC codes among the news industry and its usage in editorial content management systems and applications is limited to a small fraction of the existing vocabulary which is a strong indicator for over-specification on the one side and a lack of an elaborated ‘metadata culture’ in the management of information within editorial workflows on the other”. 67

Além de questões culturais ou do número extenso de propostas, Jeffrey Pomerantz (2015) apresenta outro fator para explicar os custos de adoção a qualquer um desses esquemas: a ausência de simplicidade. Para elucidar o que entende por complexidade, ele cita o sociólogo Everett Rogers, autor do livro Diffusion of Innovations (POMERANTZ, 2015, p. 69, tradução nossa):

Para que seja adotada, uma inovação deve ser percebida como de uso simples. Ou, para dizer de outra forma: se aqueles que talvez achem uma inovação útil perceberem que ela é muito complexa, então os usuários potenciais nunca se tornarão usuários de fato48.

Foi o discurso da simplicidade que provocou a criação de alternativas entre os desenvolvedores Web. É o caso dos microformatos, um tipo simples de marcação usado com frequência para a marcação de eventos, especificações de pessoas ou organizações. Ou, ainda, os microdados se utilizam de vocabulários para descrever itens – tal como o Schema.org, criado em conjunto por três empresas do ramo das buscas: Bing, Google e Yahoo! (RONALLO, 2014). Os microdados se apresentam como uma alternativa a outro padrão do W3C: o Resource Description Framework (RDF) e sua evolução, o RDFa, sendo que a diferença provocada pelo “a” ao fim da sigla diz respeito aos atributos que podem ser definidos no próprio conteúdo, já que o RDF necessita de um arquivo separado. Ronallo (2014, tradução nossa) observa que “com todo esse poder expressivo vem alguma dificuldade, e a implementação do RDFa provou ser excessivamente complexa para a maioria dos desenvolvedores Web”49. O Quadro 2.1 ilustra exemplos valendo-se de microformatos, microdados e RDFa. Contudo, antes de compreender o significado de RDF, é preciso avançar mais um degrau na utilização de metadados como elemento para descrição e estruturação de bases de dados, observando a existência de sistemas inteligentes que “se baseiem mais em ontologias do que em taxonomias” (CORRÊA; BERTOCCHI, 2012b).

48 Versão original: “In order to be adopted, an innovation must be perceived as being simple to use. Or, to state this in reverse: if those who might find an innovation useful perceive it as being too complex, then those potential users will never become actual users”. 49 Versão original: “With all that expressive power comes some difficulty, and implementing RDFa has proven to be overly complex for most Web developers”. 68

Quadro 2.1 – Exemplos de marcação semântica de localidade HTML simples

L'Amourita Pizza Localizado em rua Main St 123, Albuquerque, Novo México. Telefone: 206-555-1234 http://pizza.example.com

Microformatos

L'Amourita Pizza Localizado em

Main St 123, Albuquerque, Novo México.

Telefone: 206-555-1234 http://pizza.example.com

RDFa

L'Amourita Pizza Localizado em

Main St 123, Albuquerque, Novo México.

Telefone: 206-555-1234 http://pizza.example.com

Microdados

L’Amourita Pizza Localizado em 123 Main St, Albuquerque, Novo México. Telefone: 206-555-1234. http://pizza.example.com.

Fonte: Adaptado de GOUVÊA; LOH, 2012, p. 8050.

50 As informações desta tabela foram extraídas do suporte oficial do Google disponível em: . Acesso em: 22 out 2014. 69

Ontologias

Até aqui, vimos que o nível de detalhamento das descrições e o controle de vocabulários é um aspecto crucial na adoção de metadados. Do contrário, abordagens que não especificam com clareza a forma como a representação dos elementos acontecem resultam em relações ambíguas ou imprecisas. A representação da informação é uma questão importante: de que forma é possível expressar dados e regras em uma linguagem capaz de permitir o relacionamento entre os dados de forma mais estruturada? O W3C entende que o potencial caminho para a compreensão entre os computadores passa pela adoção de padrões e de vocabulários definidos em grau de detalhamento mais elevado. Níveis granulares de descrição exigem esquemas que definem elementos, atributos, entidades, formas de codificação e relações entre eles, regras de armazenamento e sintaxe. Os esquemas também podem especificar melhor as restrições sobre quais os tipos de dados que um elemento pode conter, validando registros de metadados ou garantindo sua extensibilidade no caso de modificações ou ajustes (HAN, 2012). Em Ciência da Computação, enquanto as relações taxonômicas buscam o desenvolvimento de categorias para facilitar a inserção e a recuperação da informação, há uma lógica relacionada à formalização mais estruturada de conceitos, fazendo referência a um vocabulário comum dentro de um contexto definido e sem ambiguidades. São as ontologias, entendidas como um aprimoramento, uma transição entre classificações e esquemas e uma representação mais próxima do ponto de vista semântico. Portanto, as ontologias são necessárias para que os computadores façam inferências sobre o significado dos termos (CAPLAN, 2003, p. 52). “Ontologia” deriva do grego onto (“ser”) e logia (“discurso escrito ou falado”). Na Filosofia, refere-se ao estudo de conceitos, de características gerais da realidade, de propriedades dos seres e das coisas (BUNGE, 2007, p. 155). Num contexto computacional, as representações do conhecimento expressas pelas linguagens de marcação oferecem estrutura semântica. Pesquisadores ligados à Inteligência Artificial e à Web também se apropriaram do termo, definindo ontologias simplesmente como documentos que detalham relações entre conceitos (BERNERS-LEE; HENDLER; LASSILA, 2001), ou, mais especificamente, como vocabulário de representação voltado 70 para um domínio compartilhado, que pode incluir definições de classes, relações, funções e outros objetos (KASHYAP; BUSSLER; MORAN, 2008, p. 31). As ontologias representam, portanto, mais um exemplo de relação interdisciplinar entre as áreas da Ciência da Informação e da Computação – e, até por conta disso, um exemplo de relação que requer ainda mais esforço (CAMPOS, 2004). Quanto maior o nível de granularidade, detalhamento e preocupação com a descrição e os relacionamentos, maior seu poder computacional. Consequentemente, igualmente maior seu custo de desenvolvimento, manutenção e compreensão.

Definir ontologias é tarefa complicada, pois prevê um conjunto de métodos e técnicas automáticas ou semiautomáticas para aquisição de conhecimento utilizando textos, dados estruturados e semiestruturados, esquemas relacionais e outras bases do conhecimento. (LAURENTIZ, 2010, p. 18).

Na prática, ontologias são compostas por listas de termos que fazem referência a conceitos e seus sinônimos (os vocabulários), regras de nomenclatura e codificação, compondo um modelo de representação (KASHYAP; BUSSLER; MORAN, 2008, p. 80). O padrão RDF, mencionado anteriormente, é um dos métodos mais comuns para descrever conceitos e fundamentar ontologias. Mais especificamente, ele utiliza três elementos para formar uma relação entre eles – sendo que essa declaração é capaz de ser compreendida por máquinas: um sujeito, um predicado e um objeto, conforme exemplificado na Figura 2.4. Essas “triplas”, como são conhecidas, formam uma teia de relações. As ontologias, portanto, preocupam-se com estrutura e significado de seus termos. É possível construir relações ainda mais detalhadas por meio da Web Ontology Language (OWL)51, também definida como padrão pelo W3C, um esquema de triplas RDF escrito em XML.

51 Mais detalhes sobre o padrão OWL em: . Acesso em: 20 abr. 2016. 71

Figura 2.4 – Representação simples de um esquema de triplas

Fonte: Produzida pelo autor.

Sistemas automáticos para extração e criação de links RDF podem ser utilizados para identificar metadados em acervos desestruturados (HEATH; BIZER, 2011, p. 67). Também são comuns técnicas de anotações semânticas capazes de, de forma amigável, associar metadados e ontologias a um conteúdo publicado em plataformas Web, inclusive naquelas voltadas para o Jornalismo. O PundIt, por exemplo, é uma ferramenta desenvolvida para que qualquer usuário possa criar uma estrutura de dados semânticos em conteúdos Web (GRASSI et al., 2013). Já a ferramenta Hermes foi pensada especificamente para ser um framework (modelo) capaz de personalizar notícias a partir de uma combinação de técnicas (FRASINCAR; BORSJE; LEVERING, 2009). Por fim, há os criadores do Loomp, um software que torna intuitivo o processo de anotações em conteúdos (LUCZAK-RÖSCH; HEESE, 2009). Anotações baseadas em termos controlados são formas interessantes para criar mapas entre múltiplos esquemas e ontologias (KASHYAP; BUSSLER; MORAN, 2008, p. 19). Como resultado, caso estabelecesse um método para analisar conteúdo e decidisse como relacionar os metadados desse material a partir de um modelo com identificação e lógica próprias, um veículo poderia construir um modelo de representação de notícias. Dias (2014) baseou-se em um destes modelos, construído pela BBC (que também é objeto de análise deste trabalho), para a reutilização dos metadados em coberturas jornalísticas, de forma que foi dado ao jornalista descobrir outras informações em datasets internos ou externos. Um exemplo genérico proposto pela autora pode ser visto na Figura 2.5. A modelagem sugerida considera entidades (objetos que podem ser identificados, como nomes, locais ou organizações), eventos datados e desdobramentos para coberturas mais extensas. É preciso que um grupo pequeno de usuários, conduzido por um editor de 72 dados, concorde com as definições de cada item e o significado de seus relacionamentos. O editor de dados é o profissional responsável por manter as bases de dados atualizadas ao longo do tempo (PENA, 2012).

Figura 2.5 – Modelo possível de ontologia para notícias

Fonte: DIAS, 2014, p. 41.

A expectativa da construção de uma Web legível por máquinas aumenta na mesma medida em que novas camadas de metadados, encadeados de forma lógica, são construídas e disponibilizadas em bases de dados na Web. Mas, além de lidar com a informação a partir da perspectiva baseada em dados e em suas relações, há outro atributo necessário: “destrancar” essas informações, possibilitando referências entre si. É o que indica o último nível da classificação proposta.

Figura 2.6 – Diagrama do projeto Linking Open Data52

52 Linking Open Data cloud diagram 2014, por Max Schmachtenberg, Christian Bizer, Anja Jentzsch e Richard Cyganiak. Disponível em: . Acesso em: 22 out. 2014. 74

Intercâmbio

A relação entre informações envolvendo sujeitos e eventos, entre outros episódios, implica a existência de dados estruturados dialogando entre si. A intervenção de tecnologias e a adoção de modelos de metadados nessas bases potencializa seu uso – bem como a atuação de usuários e sistemas –, conectando-as com outras bases. Foi a partir dessa necessidade que surgiram as interfaces para programação de aplicações – em inglês, APIs. Elas permitem que dados e funcionalidades sejam abertos para outros desenvolvedores, negócios ou mesmo entre departamentos da mesma organização (LANE, 2013). Ao analisar o impacto de sua adoção no The New York Times e no The Guardian, Pietoso (2009) destaca a autonomia técnica em criar e reutilizar aplicações, mesmo para não desenvolvedores. Isso abre caminho para novas formas de interação com públicos a partir da construção de novos produtos e serviços – o que pode encorajar o envolvimento de uma audiência mais ampla, composta por entusiastas interessados em transformações no contexto jornalístico. A adoção de APIs na Web é uma forma eficiente de intercâmbio das informações nesse ambiente por meio de linguagens como XML ou JSON53 – que, como vimos, são facilmente relacionadas com outras linguagens. Dentro da perspectiva aberta da Web, no entanto, existem limitações.

Embora os benefícios do acesso a dados estruturados por meio de programação sejam indiscutíveis, a existência de uma API especializada para cada conjunto de dados cria uma paisagem na qual é necessário um esforço significativo para integrar cada novo dataset. Todo programador deve compreender os métodos disponíveis para recuperar os dados de cada API e escrever o código personalizado para acessar os dados de cada fonte (HEATH; BIZER, 2011, p. 3, tradução nossa)54.

A falta de padronização representa, portanto, uma barreira para o acesso a dados de sites e serviços externos. Com as distintas preferências e vocabulários para a

53 Formatação de dados a partir da linguagem JavaScript. Mais em: . Acesso em: 20 abr. 2016. 54 Versão original: “While the benefits of programmatic access to structured data are indisputable, the existence of a specialized API for each data set creates a landscape where significant effort is required to integrate each novel data set into an application. Every programmer must understand the methods available to retrieve data from each API, and write custom code for accessing data from each data source”. 75 distribuição e a publicação de dados, o W3C reforça seu papel propagador ao considerar o RDF (e suas variantes) por meio do protocolo HTTP como mecanismo padrão para acesso e reutilização de dados – acredita-se que ele é um modelo mais simples e menos heterogêneo do que as APIs. As tecnologias que compõem a Web de Dados proposta por Tim Berners-Lee podem ser identificadas em um modelo em camadas, conhecido como “bolo de noiva” ou “pirâmide da Web Semântica”. A Figura 2.7 relaciona essa descrição com a proposta de classificação apresentada neste capítulo. Ressalte-se que é possível o intercâmbio de dados mesmo em níveis de esquemas. É o que acontece, por exemplo, no compartilhamento de informações estruturadas para download por meio de arquivos separados por vírgulas (CSV).

Figura 2.7 – Pilha da web semântica

Fonte: Adaptado de HEBELER et al., 2009, p. 26.

O ato de conectar dados previamente impossíveis é o que movimenta o conceito de linked data55, também liderado por Tim Berners-Lee. A ideia é criar uma rede de sites e serviços que utilizam tecnologias semânticas padronizadas pela W3C, estimulando a abertura, a vinculação e o compartilhamento de seus dados, abrindo as portas dos silos informativos e habilitando os efeitos da rede a partir de novas aplicações.

55 Mais em: . Acesso em: 15 dez. 2015. 76

Tecnicamente, linked data refere-se a dados publicados na Web que sejam legíveis por máquinas. Seu significado é explicitamente definido, e eles estão ligados a outros conjuntos de dados externos que, por sua vez, podem ser ligados a partir de conjuntos de dados externos (BIZER; HEATH; BERNERS-LEE, 2009, tradução nossa) 56.

Iniciativas para relacionar dados abertos representam um primeiro passo para a Web de Dados. Especificamente, Tim Berners-Lee identifica uma passagem entre a publicação de dados na Web usando qualquer formato ao uso de conexões por meio de recursos com URIs próprias – é o que define como “classificação de cinco estrelas” 57 . A Figura 2.6 mostra datasets publicados no formato linked data por organizações (governos, publicações, mídia) e indivíduos (conteúdo gerado pelo usuário, sites de relacionamento). Dados armazenados em triplas disponíveis em iniciativas como DBpedia – projeto que visa a extrair conteúdo estruturado das informações da Wikipedia58 –, podem ser utilizados como metadados por qualquer objeto de informação. Existem ainda softwares especializados em analisar conteúdos não estruturados para extrair seus conceitos de forma automatizada. Para ilustrar essa técnica, podemos citar o Open Calais59, serviço lançado pela Thomson Reuters. Contudo, apesar do entusiasmo da comunidade envolvida – em especial, do Linked Data Open project 60 –, para Polleres et al. (2010) existem poucos dados estruturados em meio à grande quantidade de bases disponíveis. Isto sem contar outro volume de datasets inconsistentes ou fora das especificações, sendo que a existência de formatos distintos contribui para essa prática. No contexto das bibliotecas e museus, a iniciativa mais ousada é a da Europeana61, uma biblioteca virtual desenvolvida pelos países da União Europeia que se baseia na troca de informações entre objetos a partir de linked data. O enriquecimento das informações se dá a partir de um padrão estabelecido – o

56 Versão original: “Technically, Linked Data refers to data published on the Web in such a way that it is machine-readable, its meaning is explicitly defined, it is linked to other external data sets, and can in turn be linked to from external data sets”. 57 Disponível em: . Acesso em: 10 jun. 2016. 58 Mais em: . Acesso em: 20 abr. 2016. 59 Disponível em: . Acesso em: 20 abr. 2016. 60 Mais informações em: . Acesso em: 10 jun. 2013. 61 Disponível em: . Acesso em: 15 dez. 2015. 77

Europeana Data Model62, composto por vocabulários específicos (MARCONDES, 2012). Já no enquadramento deste trabalho, que dialoga com a evolução tecnológica do Jornalismo a partir da adoção estruturada de metadados, os trabalhos de Beatriz Ribas (voltados ao Jornalismo) e de Silvia Laurentiz (com foco na arte) denotam a necessária interdisciplinaridade entre a Comunicação e outras áreas do conhecimento. Da mesma forma, a relação entre metadados e a Web Semântica foi objeto de estudo de Lammel e Mielniczuk (2012). Este capítulo procura reforçar o discurso apresentado anteriormente: a partir de conexões interdisciplinares, é preciso compreender de que forma é possível estabelecer marcações semânticas por meio de metadados na Web. Só assim é possível ir além da sugestão de que informações estruturadas por meio de sistemas de gerenciamento de dados possam adicionar valor ao lide informativo, proporcionando um tipo de “jornalismo semântico” (GOUVÊA; LOH, 2012). É possível identificar um potencial acúmulo de valor para a informação jornalística estruturada por metadados, ainda que nem sempre a prática jornalística, conduzida por questões de mercado ou motivações alimentadas pelo senso de “inovação”, baseie-se em necessidades informativas. É o que vamos tratar no capítulo seguinte.

62 Disponível em: . Acesso em: 15 dez. 2015. 78

Capítulo III – INOVAÇÃO JORNALÍSTICA

Jornalistas não resistem a um fetiche tecnológico – e, aqui, “fetiche” tem o mesmo peso do título usado em 2000 por Sylvia Moretzsohn em sua dissertação de mestrado sobre o discurso do “tempo real” nos primórdios da Web brasileira. Enquanto este trabalho está sendo preparado, a ideia de “velocidade” se relaciona com mais força a duas iniciativas propostas pelos gigantes Google e Facebook, respectivamente: Accelerated Mobile Pages 63 e Instant Articles 64 – projetos que prometem melhorar o acesso de conteúdo jornalístico em dispositivos móveis. Algumas outras iniciativas inovadoras, envolvendo análise ou extração automática de conteúdos por meio de algoritmos, são financiadas pelo Google por meio de um projeto europeu, o The Digital News Initiative65. Todavia, é preciso vigília permanente para que a última novidade, logo datada, seja compreendida de forma adequada. Para isso, é necessário cuidado com um termo frequentemente associado a qualquer conexão envolvendo Comunicação e Tecnologia, inclusive tendo metadados como contexto. Trata-se da “inovação”, cuja relação com os processos de produção e distribuição de notícias é objeto de discussão neste capítulo.

63 Mais em: . Acesso em: 20 abr. 2016. 64 Mais em: . Acesso em: 20 abr. 2016. 65 Mais em: . Acesso em: 15 dez. 2015. 80

3.1 Inovação e mídia: para fugir das “buzzwords”

Organizações, inclusive de mídia, reconhecem a importância do conteúdo – produzido e distribuído por meio de canais digitais –, mas correm o risco de “caírem em armadilhas”, caso esse material seja armazenado em silos. Este é o discurso dos profissionais em estratégia de conteúdo Ann Rockley e Charles Cooper, que desenvolveram uma solução mercadológica baseada em metadados, capaz de tornar esse material digital “estruturalmente rico e semanticamente categorizado, permitindo formas automatizadas de descobri-lo, reutilizá-lo, reconfigurá-lo e adaptá-lo” (ROCKLEY; COOPER, 2012, p. 16). A esse processo, deram o nome de “conteúdo inteligente”. Colega da dupla na área de estratégia de conteúdo, Michael Andrews 66 publicou um artigo na área de Inteligência do Content Marketing Institute no qual se refere aos metadados como “algo invisível, como um tempero que funciona mesmo sem saber que ele está ali” 67 . Ao tomarmos a trajetória interdisciplinar entre metadados e suas áreas de conhecimento, não é surpresa encontrar orientações pragmáticas em publicações do gênero.

OWL, RDF, DITA, blá, blá, blá. Todas essas linguagens de marcação podem ser difíceis de acompanhar, especialmente se seu trabalho é mais sobre como e por que usar seu conteúdo do que determinar as melhores linguagens baseadas em XML para mashups orientados a APIs ou o que seja. Em vez de se perder em todas as siglas, é provavelmente melhor apenas compreender que existem abordagens diferentes, ter uma compreensão básica do que elas significam e estar pronto para mergulhar em detalhes sobre a implicação na estrutura do seu conteúdo mais tarde, quando ou se a necessidade surgir (WACHTER-BOETTCHER, 2012, p. 102, tradução nossa)68.

Parece tentador construir um raciocínio a partir de termos como “conteúdo inteligente”, “jornalismo semântico” ou “jornalismo estruturado”; no entanto, essa

66 Artigos e perfil pessoal disponível em: . Acesso em: 22 out. 2014. 67 “Robust Metadata: The Secret Sauce of Relevance”. Disponível em: . Acesso em: 8 maio 2015. 68 Versão original: “OWL, RDF, DITA, blah blah blah. All these markup languages can be hard to keep track of, especially if your job is more about the how and why of content than determining the best XML-based languages for API-driven mash-ups or whatever. Rather than getting lost in all the acronyms, it’s probably best to just understand that these different approaches exist, have a basic understanding of what they mean, and be ready to delve into specifics about their implication for your content’s structure later, when or if the need arises”. 81 ideia esconde o fato dessas organizações experimentarem ferramentas – e não necessariamente pensadas para o mesmo objetivo – enquanto procuram encontrar ou consolidar modelos de negócio. A experimentação pura e simples pode funcionar num contexto mercadológico, mas o exagero das promessas, o uso de metáforas e analogias não dão conta dos desafios inerentes à utilização de uma nova tecnologia e de suas consequências, podendo levar o campo da Comunicação Social para lugares incipientes. As transformações computacionais que começaram com Phillip Meyer anos antes demonstram que o Jornalismo se movimenta por caminhos delineados pela evolução tecnológica, fazendo proliferar visões nas quais o futuro está nas mãos de quem se dispõe a entender como essas tecnologias funcionam e a aplicá-las. A preocupação em embasar reflexões em contraponto ao volume de palavras, expressões, chavões ou traduções de ideias pinçadas do imediatismo financeiro é fundamental para que se possa fugir de um cenário polissêmico.

A pesquisa sobre Jornalismo On-Line é inundada por uma série de conceitos que são permutáveis ou interpretados de formas diferentes por diferentes pesquisadores. Conceitos como interatividade, hipertextualidade e multimidialidade são compreendidos de maneiras diferentes, e outros conceitos, como gênero e inovação, são geralmente usados sem qualquer discussão teórica sobre o que eles representam e como eles podem informar a pesquisa sobre o Jornalismo On-Line. É, portanto, necessária uma maior ênfase na conceituação (STEENSEN, 2011, p. 321, tradução nossa)69.

O autor pontua ainda que a pesquisa em torno do Jornalismo em meios digitais está permeada por um “discurso de inovação tecnológica” cercado por utopias, segundo o qual o Jornalismo “poderia acabar ou se transformar em algo positivo” diante de abordagens inovadoras relacionadas a “interatividade, hipertextualidade e multimidialidade”, ao passo que as organizações de mídia vivem períodos de experimentação, procurando ainda encontrar e consolidar modelos de negócio. Nesse cenário, tais empresas pavimentam caminhos diferentes. Então, todos os exemplos

69 Versão original: “The research on online journalism is flooded by a range of theoretical concepts that are either interchangeable or are interpreted differently by different researchers. Concepts like interactivity, hypertext and multimedia are understood in different ways, and other concepts, like genre and innovation are generally used without any theoretical discussion on what they represent and how they might inform the research on online journalism. A stronger emphasis on conceptualization is therefore needed”. 82 acima poderiam ser caracterizados como tal, bem como qualquer “experimentação” num contexto informativo? Tal discurso ganhou fôlego com os primórdios da Web, em meados dos anos 1990, quando veículos de mídia apresentavam seus conteúdos de modo a praticamente reproduzirem as mesmas palavras (e algumas imagens) da edição impressa. Essa transposição de conteúdos pautou praticamente seus primeiros dez anos, demonstrando timidez no que se refere a criatividade e inovação (ALVES, 2006). Nessa ótica, faz sentido afirmar que o The New York Times é um exemplo de organização jornalística que flerta com a inovação: ele levou “a narrativa multimídia em uma direção excitante, com um novo projeto que merece todos os elogios”. Foi assim que Jeff Sonderman, do Poynter Institute 70, apresentou a reportagem Snow Fall 71 , uma celebrada combinação de texto, vídeos e infográficos que relatam histórias de esquiadores e snowboarders surpreendidos por avalanches na Cordilheira das Cascatas, nos Estados Unidos. A repercussão desse trabalho (que inclui um prêmio Pulitzer) representa uma maneira de mostrar o esforço do veículo em combinar técnicas variadas para contar boas histórias – o que inclui a abertura de APIs e datasets específicos. Em linhas gerais, inovação é um conceito que representa um desafio às organizações a fim de que elas possam se expandir para prosperar ou mesmo sobreviver. Não bastasse não ser nada confortável, esse desafio é ainda mais do que isso: pauta-se tanto por acertos quanto por erros. Ao discutir o conceito, o professor de Harvard, Clayton M. Christensen (2012), oferece uma razão para que isso ocorra: “a mãe da invenção é a necessidade”.

Em última análise, todo o progresso econômico e social depende de novas ideias que contestam a introspecção e a inércia do status quo, com possibilidades de mudança e melhoria. A inovação é o que acontece quando um novo pensamento é introduzido com sucesso em organizações e valorizado por elas. É a arena onde a criação e a aplicação de novas ideias é formalmente organizada e gerida. A inovação envolve preparativos deliberados, objetivos e benefícios previstos para novas ideias que precisam ser realizadas e implementadas na prática. É o teatro onde a emoção da experimentação e do aprendizado se encontra com a

70 “How The New York Times’ ‘Snow Fall’ project unifies text, multimedia”. Poynter.org, 20. dez. 2012. Disponível em: . Acesso em: 22 out. 2014. 71 Disponível em: . Acesso em: 22 out. 2014. 83

realidade organizacional com orçamentos limitados, rotinas estabelecidas, disputa de prioridades e imaginação limitada (DODGSON; GANN, 2010, p. 12, tradução nossa) 72.

Inovação é um conceito cuja importância se fortaleceu no contexto atual, marcado por mudanças aceleradas nos mercados, nas tecnologias e nas formas organizacionais; em contrapartida, conhecimentos cruciais que deveriam se tornar apropriáveis permanecem enraizados nas pessoas e em locais específicos, apesar da disseminação de novas tecnologias de comunicação (LEMOS, 1999). Tanto Cristina Lemos (1999) quanto Clayton Christensen (2012) destacam, de forma geral, dois tipos de inovação: a incremental e a radical. A primeira pode ser entendida como a introdução de qualquer tipo de melhoria em um produto, processo ou organização da produção, sem alteração na estrutura. A segunda, mais complexa, trata do desenvolvimento e da introdução de um novo produto, processo ou forma de organização da produção inteiramente nova. Entre a visão incremental e a radical (ou “disruptiva”, como também é chamada), o professor e diretor executivo no Center for Open Innovation em Berkeley, Henry Chesbrough, cunhou o termo “inovação aberta” (CHESBROUGH; VANHAVERBEKE; WEST, 2006, p. 2, tradução nossa), entendido como

o uso intencional dos fluxos internos e externos de conhecimento para acelerar a inovação interna e aumentar os mercados para uso externo das inovações, respectivamente. Inovação aberta é um paradigma que assume que as empresas podem e devem usar tanto ideias externas quanto internas, além de caminhos internos e externos para alcançar o mercado, enquanto elas desenvolvem suas tecnologias73.

Ao contrário do que se reconhece como um modelo tradicional, envolvendo uma estrutura vertical de pesquisa e atividades de desenvolvimento interno, Chesbrough parte da premissa de que é impossível obter conhecimento útil sem se

72 Versão original: “All economic and social progress ultimately depends on new ideas that contest the introspection and inertia of the status quo with possibilities for change and improvement. Innovation is what happens when new thinking is successfully introduced in and valued by organizations. It is the arena where the creation and application of new ideas are formally organized and managed. Innovation involves deliberate preparations, objectives, and planned benefits for new ideas that have to be realized and implemented in practice. It is the theatre where the excitement of experimentation and learning meets the organizational realities of limited budgets, established routines, disputed priorities and constrained imagination”. 73 Versão original: “the use of purposive inflows and outflows of knowledge to accelerate internal innovation, and expand the markets for external use of innovation, respectively. Open innovation is a paradigm that assumes that firms can and should use external ideas as well as internal ideas, and internal and external paths to market, as they look to advance their technology”. 84 conectar e dialogar com fontes externas, exigindo ações com múltiplos atores em um ambiente muito mais distribuído. Existe uma proximidade entre essa lógica e a visão do hacker pioneiro Eric S. Raymond em um ensaio denominado “A Catedral e o Bazar”, de 1999. Basicamente, trata-se de uma metáfora em que “catedral” indica o modelo fechado, hierárquico, enquanto “bazar” é aberto e distribuído. Pode-se dizer que, em seus primeiros dez anos, a adoção da Web pelos veículos de mídia reflete a cautela intrínseca ao conceito de inovação incremental. Nesse período, conforme lembra Christensen (2012), a própria Web fez com que investidores “derramassem” bilhões de dólares em cima do potencial disruptivo da rede. E eles falharam, pois a internet representou um lugar para inovações incrementais em relação a distintos modelos de negócios. Na visão de Dogruel (2014), é preciso ter em vista algumas características específicas para entender a inovação em veículos de mídia, tomada como mudanças nos produtos e nos processos de produção. No que diz respeito à adoção de tecnologias, há forte relação entre a inovação e a necessidade contínua por novidade, combinada com o alto risco de o desenvolvimento e a produção demandarem um investimento que não necessariamente é sinônimo de sucesso. Ela também se relaciona a um processo cíclico de interação envolvendo apropriações, feedback e adoção de outros veículos já estabelecidos – algo que requer longo período de tempo. Aqui é importante retomar a discussão referente à evolução tecnológica. O ambiente digital conectado, normalmente identificado como uma “revolução” (ALVES, 2006), obriga-nos a uma reflexão. Um computador, por exemplo, representa o desenvolvimento de ferramentas que incluem calculadoras mecânicas, transistores e circuitos integrados, etc. Sozinhas, essas máquinas não encontram soluções para problemas, mas, diante de sua apropriação, “elas podem ser capazes de fazer a maior parte do trabalho braçal necessário, auxiliando nossas mentes a, intuitivamente, encontrarem maneiras por meio do labirinto” (BERNERS-LEE, 2000, p. 5). O mesmo se aplica à rede que conecta esses computadores.

A internet certamente terá um impacto na sociedade, mas não revolucionará tudo. É ridículo compará-la com a Revolução Industrial, que tirou quase todos da fazenda e os pousou em um ambiente urbano radicalmente diferente. Minha “migração” para o espaço virtual pelos últimos 20 anos dificilmente pode ser comparada com a migração que meus antepassados realizaram do campo para a cidade. A menos que algo muito mais inovador do que a internet se anuncie, o século XXI será 85

contínuo com o nosso mundo, e não uma ruptura radical e disruptiva. O significado real da internet não está na inauguração de uma nova era, mas no que ela revela sobre a mudança social e tecnológica no nível atual de progresso (FEENBERG, 2001, tradução nossa) 74.

Em um universo modificado pelas novas tecnologias, onde o usuário da informação pode acessar apenas o que lhe interessar (e por meio de qualquer dispositivo habilitado para tanto), o Jornalismo se vê obrigado a inovar. Por outro lado, o ritmo acelerado das evoluções tecnológicas também é considerado uma ameaça ao modelo de negócio da mídia. Como se não bastasse, ainda existem obstáculos de caráter econômico, resultando em redações mais enxutas ou com preocupações difusas, apresentadas como “movimentos inovadores”: ao observar a evolução dos processos de trabalho no jornal O Globo, que busca priorizar a informação publicada na Web, Moretzsohn (2014) assinala que a informatização das redações imprimiu aceleração ao ritmo de trabalho das redações, além de uma preocupação com o volume de tráfego – oriundo tanto dos destaques em homes do principal portal horizontal do grupo quanto de perfis em sites de relacionamento. Questões que não se relacionam com processos de inovação, postura estratégica e com uma perspectiva social e técnica mais ampla, que atenda à relação entre jornalistas, tecnologias, executivos e público (WESTLUND; LEWIS, 2014). Dessa forma, mais importante do que estimular inovações rompedoras no Jornalismo é refletir a respeito de sua necessidade. A Columbia Journalism School, por meio do Tow Center for Digital Journalism, apresentou um amplo relatório sobre o cenário atual do jornalismo norte-americano. O documento, definido como uma mistura de pesquisa com manifesto (ANDERSON; BELL; SHIRKY, 2014), sugere recomendações neste momento denominado “pós-industrial”. Com a nova relação entre o Jornalismo e seu público, capaz de provocar “mudanças tectônicas” e um cenário de incerteza, as rotinas e os modelos de negócios precisam ser repensados, bem como novas habilidades precisam ser aprendidas constantemente pelos profissionais para garantir sua sobrevivência.

74 Versão original: “The Internet will certainly have an impact on society, but it will not revolutionize everything. It is ludicrous to compare it with the industrial revolution, which pulled nearly everyone off the farm and landed them in a radically different urban environment. My ‘migration’ to virtual space over the last 20 years can hardly be compared with my ancestors’ migration from the country to the city. Unless something far more innovative than the Internet comes along, the Twenty-first Century will be continuous with our world, not a radical and disruptive break. The real significance of the Internet lies not in the inauguration of a new era, but in what it reveals about social and technological change at the current level of advance”. 86

A divulgação do relatório provocou respostas. Em artigo publicado pelo The Guardian 75 , a professora Eugenia Siapera vai além da visão dos professores de Columbia: em vez de táticas de sobrevivência, o Jornalismo precisa de uma estratégia mais radical para permanecer socialmente relevante. Ainda que a tecnologia possa ser entendida como um vetor determinante nessa mudança, ela não é o único.

A inovação técnica normalmente é baseada em decisões econômicas, e tanto os demais profissionais quanto os jornalistas usam novas ferramentas para contemplar suas próprias expectativas, habilidades e práticas. Assim, a convergência das redações será discutida não como um processo dirigido pela tecnologia, mas como um processo que usa a inovação tecnológica para atingir objetivos específicos em configurações singulares, e é por isso que cada projeto de convergência tem resultados diferentes (GARCÍA AVILÉS; CARVAJAL, 2008, tradução nossa)76.

Tomando o The New York Times novamente como referência, a pesquisadora Cindy Royal visitou a redação em junho de 2009 com o intuito de conhecer a área de Interactive News Technology. Seu diálogo com os profissionais – entre eles, o então editor Aron Pilhofer – revelou que os membros da equipe entendem que a combinação de habilidades de texto e programação é rara; porém, tendo a perspectiva jornalística como pré-requisito, acreditam que seja possível desenvolvê-la, especialmente a partir da autoaprendizagem dentro do ambiente de trabalho. Além disso, o departamento foi criado de modo a flexibilizar a criação e o desenvolvimento de projetos, construindo uma filosofia pautada pela criatividade e inovação próprias da cultura open-source (ROYAL, 2010). A produção rotineira de notícias é constituída para que se torne produto de consumo instantâneo. Se, no impresso, a ideia de que o jornal do dia seguinte se torna “papel para embrulhar peixe”, na rede também é fato que essa premissa permanece. Segundo Cohen, Hamilton e Turner (2011, p. 68), é nesse ponto que o pensamento computacional (WING, 2006) pode ajudar. O encontro das Ciências da Computação e do Jornalismo com profissionais do texto e do código compartilhando espaços em

75 “From post-industrial to post-journalism”. Media Network, The Guardian, 14 fev. 2013. Disponível em: . Acesso em: 22 out. 2014. 76 Versão original: “Technical innovation is usually based on professional and economic decisions and journalists use new tools in order to fit their own expectations, skills and practices. Therefore, newsroom convergence will be discussed not as a technology-driven process, but as a process that uses technological innovation to achieve specific goals in particular settings and that is why each convergence project might have a different outcome”. 87 redações resulta em processos e produtos como visualizações de dados, algoritmos, entre outros softwares em desenvolvimento.

Em linha, o conteúdo jornalístico pode ser produzido, adicionado, alterado e reutilizado sempre. Para tirar proveito disso, o fluxo de trabalho precisa ser alterado a fim de dar suporte a essas novas capacidades tecnológicas e culturais. Criar um fluxo de trabalho que reflita a produção de conteúdos digitais mais flexíveis redundará em uma consequência secundária: tornar rotinas rígidas de redação mais “hackeáveis” (ANDERSON; BELL; SHIRKY, 2012, p. 71, tradução nossa)77.

77 Versão original: “Online, journalistic content can be produced, added to, altered and reused forever. To take advantage of this change, workflow will have to be altered to support these new technological and cultural affordances. Creating a workflow that reflects the more flexible production of digital content will have the secondary consequence of making rigid newsroom routines more ‘hackable’”. 88

3.2 Jornalismo Computacional para “hackear” processos

Em suas entrelinhas, a pesquisa da Ryct/Cyted, mencionada no princípio deste trabalho (na qual menos de 3% dos entrevistados esperam atuar nas áreas das Ciências Exatas ou Naturais78), revela uma percepção acerca de uma pretensa “facilidade” das Ciências Sociais. Não é muito diferente do que se vê, por exemplo, no ensino e na prática do Jornalismo, em que o entendimento sobre o funcionamento dos sistemas tecnológicos que suportam a mídia é relegado a um plano secundário. Não é novidade que, desde os primórdios da evolução tecnológica, a atividade jornalística tem sido impactada constantemente pelas introduções de novas formas de produção e distribuição de conteúdo de relevância social. Contudo, no campo do Jornalismo, somente agora existe uma percepção da importância de entender como as tecnologias modificam ou modificarão os modos do fazer e consumir jornalismo (LIMA JUNIOR, 2011, p. 47). O “agora” citado pelo pesquisador diz respeito ao resultado de uma ideia implantada ao final dos anos 1990 pelo físico britânico Tim Berners-Lee. Assim, uma vez que alguém, em qualquer lugar, disponibilizasse um documento, este poderia ser acessível a qualquer pessoa, em qualquer tipo de computador, sendo possível ainda fazer uma referência – um link – a esse item para que outros pudessem encontrá-lo. Ainda que tenha sido implantada por uma única pessoa, a gênese da Web envolve muitas mentes com sonhos em comum. O britânico bebeu das ideias de Vannevar Bush, bem como das ideias de Ted Nelson – que criou a expressão “hipertexto” em 1965 –, de Paul Baran – idealizador do modelo de rede distribuída que deu origem à internet – e de Vint Cerf – que programou o protocolo TCP/IP, permitindo a qualquer dispositivo computacional, outrora incompatível, conectar-se a essa rede (BERNERS-LEE, 2000). Mesmo carregada de expectativa a partir da lógica da Web de Dados – cujas contribuições remetem ainda à Teoria dos Grafos, a descrições lógicas, inteligência artificial e outras tecnologias e filosofias fundamentais (HEBELER et al., 2009, p. 25), sua construção permanece coletiva, baseada em regras e códigos simples, mas que adquiriram ares de complexidade diante das múltiplas apropriações. Esse conjunto de dados acumulados a cada instante por serviços públicos, portais de transparência governamentais, sites de relacionamento (como o Facebook ou Twitter)

78 Ver nota de rodapé número 10. 89 ou mesmo repositórios documentais controversos como o WikiLeaks compõe um lugar cujo tamanho vai além da habilidade comum em capturar, gerenciar e analisar, dando origem a um fenômeno denominado por cientistas e engenheiros da computação como Big Data (LIMA JUNIOR, 2012, p. 211). A esse volume de dados soma-se a popularização da Web, bem como o desenvolvimento de interfaces e ferramentas mais amigáveis. Num contexto bem diferente daquele vivenciado por Philip Meyer, aplicações como OpenRefine79 – que permite limpar os dados antes de avançar para análises – ou como o Google Fusion Tables 80 – plataforma para visualização de grandes conjuntos de dados – fazem emergir novos métodos, fontes e caminhos para descobrir, apresentar, personalizar, agregar e arquivar histórias, conectando comunidades com a informação da qual elas precisam. Há casos como o próprio The Guardian, que nos últimos anos se tornou uma plataforma aberta, encorajando o uso e reuso de seus recursos (DANIEL; FLEW, 2010). Usher e Lewis (2013), que enxergam a prática jornalística com a mesma lente dos códigos-fonte abertos, identificam a inovação sob o prisma da aproximação tecnológica, como a capacidade de repensar ferramentas, culturas e modelos. Os autores propõem uma “reinicialização” (reboot) com alterações nessas estruturas para “produzir notícias de um jeito estruturalmente diferente”. De fato, nos últimos anos, profissionais e pesquisadores se debruçam sobre as novas possibilidades de potencializar os processos jornalísticos, praticamente entendendo-os como um sistema narrativo (BERTOCCHI, 2014). As dificuldades encontradas pelos adeptos da Reportagem Assistida por Computador, que já exercitavam sua habilidade computacional nos primórdios, tornaram-se oportunidades para que eles potencializem suas técnicas ao longo dos anos a partir da facilidade de acesso a esses e outros softwares apropriados para a mineração e filtragem de dados. Associadas ao uso de técnicas de computação nas redações desde a coleta de dados, à sua curadoria e, finalmente, à sua visualização, tais práticas podem ser sintetizadas no conceito de Jornalismo Computacional:

79 Disponível em: . Acesso em: 22 out. 2014. 80 Disponível em: . Acesso em: 22 out. 2014. 90

ferramentas livres e de código aberto, vai nivelar o campo de jogo entre interesses poderosos e o interesse público, ajudando a descobrir ligações e evidências que podem desencadear investigações. Essas mesmas ferramentas também podem ser usadas por grupos de interesse público e cidadãos preocupados (COHEN; HAMILTON; TURNER, 2011, p. 71, tradução nossa) 81.

O que mais pode ser dito sobre Jornalismo Computacional? “Em última análise, as interações entre os jornalistas, desenvolvedores de software, cientistas da computação e outros estudiosos terão que responder a essa pergunta ao longo dos próximos anos” (TURNER; HAMILTON, 2009, p. 4). Diante desses processos de mudança, cabem ao modelo jornalístico – ou, melhor dizendo, aos profissionais envolvidos – intervenções que apontem novas soluções, modificações, reconfigurações ou reprogramações. Tal mescla entre a prática profissional do jornalista e a cultura do código aberto, com ênfase em fluxos de trabalho em rede para a abordagem complexa de tarefas, faz com que objetos de informação possam ser abstraídos em escala granular – algo sem precedente em um jornalismo pré- computadores (CODDINGTON, 2015). Metaforicamente – e tomando a mesma lógica observada na digitalização das Ciências Humanas –, é como se os veículos de mídia pudessem ser entendidos como softwares. Desta forma, seguindo a lógica do “bazar” em oposição à “catedral”, “hackeá-los” e “abrir seu código-fonte” permitiriam inovações ainda pouco exploradas (MANCINI, 2011, p. 16).

Um novo fenômeno, crucial para essa intersecção entre Jornalismo e Tecnologia, ainda precisa ser examinado substancialmente: a união entre Ciência da Computação e Jornalismo, com programadores assumindo cada vez mais um papel central nas redações e contribuindo para o crescimento de visualização de dados e para o desenvolvimento de softwares, algoritmos de notícias e outros projetos baseados em códigos. Fora dessa mistura, emerge uma nova categoria de profissional: o chamado jornalista- programador – ou “jornalista hacker” (USHER; LEWIS, 2013, p. 603, tradução nossa)82.

81 Versão original: “With a suite of reporting tools, a journalist will be able to scan, transcribe, analyze, and visualize the patterns in these documents. Adaptation of algorithms and technology, rolled into free and open source tools, will level the playing field between powerful interests and the public by helping uncover leads and evidence that can trigger investigations by reporters. These same tools can also be used by public-interest groups and concerned citizens”. 82 Versão original: “A new phenomenon, crucial to this intersection of journalism and technology, has yet to be examined substantially: the fusion of computer science and journalism, as programmers take an increasingly central role in newsrooms and contribute to the growth of data visualizations, software development, news algorithms, and other coding-based projects. Out of this mixing has emerged a new category of journalist: the so-called programmer-journalist, or hacker journalist”. 91

Assim, um braço do Jornalismo Computacional começou a ser delineado a partir de setembro de 2006, quando Adrian Holovaty publicou em seu blog o texto A fundamental way newspaper sites need to change83. Lima Junior (2011, p. 51) lembra que o antigo editor de inovações do Washington Post e criador do projeto Chicago Crime salientou que os jornais precisam mudar sua postura em relação aos dados armazenados. Ele argumentava que, além da narrativa, a informação jornalística deveria contar com outros dados estruturados, capazes de serem compreendidos por máquinas. Ao apresentar sua proposta para alguns de seus pares, no entanto, o autor encontrava uma postura refratária: a de que, em vez de compartilhar outros dados, os “jornalistas devem escrever reportagens para ajudar pessoas”. Mais tarde, em 2009, o The Guardian publicou documentos que contemplavam as despesas de parlamentares britânicos, em resposta ao escândalo revelado pelo concorrente The Daily Telegraph. O diário contou com a ajuda dos leitores para identificar os gastos com dinheiro público, num caso que se revelou uma oportunidade para o Jornalismo Digital (DANIEL; FLEW, 2010). A partir desses e de outros casos, os profissionais participaram de uma conferência, em agosto de 2010, organizada pelo European Journalism Centre, a partir da ação da pesquisadora Liliana Bounegru. O encontro, realizado em Amsterdã, ratificou a expressão Data Journalism, da qual deriva a expressão Data-driven Journalis 84 (DDJ) (GRAY; BOUNEGRU; CHAMBERS, 2012), traduzida para o português como “Jornalismo Guiado por Dados” (TRÄSEL, 2013). A expressão descreve um conjunto de práticas que usa dados para melhorar as notícias, desde o tratamento, cruzamento e recuperação de dados até a geração de visualizações e infográficos atraentes, independentemente da plataforma a ser publicada. Num cenário em que sistemas computacionais coexistem com usuários, há a possibilidade de combinar criatividade, conhecimento e tecnologias existentes para inovar produtos ou processos. Diakopoulos (2012) acredita que, quando se trata de inovação jornalística por meio da computação, existem oportunidades negligenciadas. Ele considera que, para estruturar um caminho inovador pautado pelo pensamento computacional, é necessário considerar: (1) quais inovações são necessárias para resolver problemas, atender às necessidades dos usuários a partir de novas

83 Disponível em: . Acesso em: 22 out. 2014. 84 Mais em: . Acesso em: 22 out. 2014. 92 experiências ou aumentar a eficiência de processos; (2) se a inovação é viável tecnicamente e como fazê-la funcionar; (3) se a solução é compatível, ou seja, se ela se encaixa com os valores dos usuários pretendidos para ser adotada. O pesquisador mapeou oportunidades e lacunas na relação entre o Jornalismo e o pensamento computacional, elaborando uma matriz. No eixo vertical, apresentou dimensões relevantes da computação e da tecnologia. Já no eixo horizontal, elencou necessidades dos consumidores de notícias, objetivos jornalísticos e processos informativos de valor agregado. O resultado, sintetizado na matriz reproduzida na Figura 3.1, revela maior atenção em pesquisa por mineração de dados, visualização e inteligência artificial – incluindo transformar dados desestruturados em repositórios úteis e de interesse público. Isso revela um dos problemas que mais tomam tempo do jornalista: documentos e fontes manuscritas ou escaneadas como imagens – material do qual costumam emergir as melhores reportagens.

Figura 3.1 – Relação entre as tecnologias computacionais e os objetivos jornalísticos

Fonte: DIAKOPOULOS, 2012, p. 20.

A matriz apresenta, no entanto, outras oportunidades envolvendo tecnologias pouco exploradas e que podem inspirar inovações na personalização, agregação, visualização e construção de sentido. Entre elas, segundo Cohen, Hamilton e Turner (2011), estão a combinação de variadas fontes digitais; extração, pesquisa e agrupamento de informação; indexação e análise de vídeos e áudios; e a identificação dos assuntos no topo da agenda. Tanto o Jornalismo quanto a Ciência da Informação se debruçam diante da relação do homem com a informação, bem como diante de sua qualidade e confiabilidade. Diakopoulos (2012, p. 8) cita Robert S. Taylor ao tratar do valor da informação a partir de quatro variáveis: facilidade de uso, redução de ruído, adaptabilidade e qualidade. A inovação pode ser empregada por quem produz notícias para aumentar a eficiência de suas práticas e adicionar valor a essa informação. Paralelamente, instituições e veículos – como o The New York Times, The Washington Post, Huffington Post e ProPublica – congregam jornalistas e programadores, em busca de novas alternativas para o Jornalismo. Mesmo que esse caminho se apresente como uma chance para estabelecer pontes entre as ciências duras e as humanidades, não há como fugir de uma certa “inércia histórica”. Após uma visita ao Chicago Tribune, com acesso a uma variedade de práticas experimentais e inovadoras, os pesquisadores franceses Éric Dagiral e Sylvain Parasie reforçam o distanciamento. “Historicamente, tem sido difícil – ou mesmo impossível – para um jornalista mostrar habilidades técnicas. A conexão entre jornalistas e programadores, questionando as fronteiras entre as duas habilidades, não é tão evidente quanto parece” (DAGIRAL; PARASIE, 2011, p. 145, tradução nossa)85. O potencial do Jornalismo Computacional pode ser explorado com o aperfeiçoamento de processos de produção e distribuição de notícias, além da busca pela ubiquidade e poder do software – esta última, observada pela mudança no consumo de notícias no mundo digital. A customização de conteúdos de qualidade, por exemplo, é um atributo que atrai potenciais novos leitores (FLEW; SPURGEON; DANIEL, 2011). Outros serviços auxiliam os jornalistas a lidarem com a análise e

85 Versão original: “Une telle démarche ne va pourtant pas de soi si l’on suit l’idée qu’il a été historiquement difficile, sinon impossible, pour un journaliste de mettre en avant ses compétences techniques”. 94 apresentação de dados estruturados (como o ManyEyes86) ou agrupam documentos públicos como anotações (como o DocumentCloud 87 – este, inclusive, criado e mantido por jornalistas do The New York Times e ProPublica). A popularização de formatos de mídia social conectada, capaz de criar conexões sociais colaborativas (tais como mensagens em blogs ou em sites de relacionamento como o Twitter e o Facebook), também representa bases de dados potencialmente analisáveis (COHEN; HAMILTON; TURNER, 2011). Diante dessas possibilidades, a imaginação poderia resultar em um neologismo como “charticles”, artigos que combinem texto, imagem, vídeo e aplicações computacionais em um formato interativo em rede (BERRY, 2011, p. 15).

Com um conjunto de ferramentas para reportagem, um jornalista terá capacidade para digitalizar, transcrever, analisar e visualizar padrões em documentos. A adaptação de algoritmos e de tecnologia combinada com ferramentas livres e de código aberto nivelará o campo de jogo entre interesses poderosos e o interesse público, ajudando a descobrir ligações e evidências que podem desencadear investigações. Essas mesmas ferramentas também podem ser usadas por grupos de interesse público e cidadãos preocupados (COHEN; HAMILTON; TURNER, 2011, p. 71, tradução nosa)88.

Todos os exemplos acima apresentam algum sistema que demanda grande quantidade de dados digitalizados e em volume cada vez maior. Esse fenômeno faz com que cientistas e engenheiros da computação reforcem o discurso: vivemos a “era do Big Data”. Ao citar um exemplo de dados gerados – o site WikiLeaks (já mencionado), que se popularizou ao liberar cerca de 400 mil documentos militares contendo informações sobre a guerra do Iraque e outras conversas diplomáticas –, Lima Junior (2011, p. 50) lembra que essa quantidade de documentos só é representativa se puder ser transformada em informação estruturada e de valor, seja para criar transparência de órgãos governamentais ou até para inovar modelos de negócio.

86 Serviço da IBM que permite organizar e gerar visualizações de dados. Disponível em: . Acesso em: 22 out. 2014. 87 Serviço para indexação e inserção de metadados em documentos. Disponível em: . Acesso em: 22 out. 2014. 88 Versão original: “With a suite of reporting tools, a journalist will be able to scan, transcribe, analyze, and visualize the patterns in these documents. Adaptation of algorithms and technology, rolled into free and open source tools, will level the playing field between powerful interests and the public by helping uncover leads and evidence that can trigger investigations by reporters. These same tools can also be used by public-interest groups and concerned citizens”. 95

Ainda nessa relação entre linguagem e código-fonte, é possível pensar em produção de informação jornalística da mesma forma que os softwares caracterizados pela filosofia open-source? Usher e Lewis (2013) traçam esse paralelo, lembrando que a postura participativa no desenvolvimento de programas possibilitou reflexões para essa prática. Christopher W. Anderson (2012), jornalista e pesquisador, é um dos autores que procuram equilíbrio diante dessas possibilidades. Ele observa que o uso cada vez maior de sistemas em redações é tratado por muitas instituições educacionais como “o futuro do jornalismo” – observação esta que merece uma visão crítica. Afinal,

o que a tecnologia tira, a tecnologia devolve – apenas diferente, e talvez melhor que antes. Ao menos esta é a história de esperança do Jornalismo Computacional. E os poucos artigos escritos sobre o tema fazem eco a este arco narrativo (ANDERSON, 2012, p. 6, tradução nossa)89.

Para o autor, adotar uma postura meramente internalista no propósito de desenvolver projetos e buscar uma saída para a crise da área pode, de fato, ser útil para a indústria do Jornalismo; em contrapartida, reduz a presença das esferas Política, Economia e Cultural no debate – áreas estas que estão enraizadas nos estudos da Comunicação há décadas e que devem ser adaptadas a essa nova agenda acadêmica. Como nos estudos de Jornalismo em geral, as pesquisas têm se preocupado principalmente em “construir coisas”:

Em primeiro lugar, essa pesquisa em Jornalismo Computacional tem se preocupado principalmente em compreender a dinâmica das práticas contemporâneas de notícias; em segundo lugar, em projetar ferramentas digitais que podem complementar, criar rotinas ou, algoritmicamente, ampliar o alcance dessas práticas tradicionais (ANDERSON, 2012, p. 4, tradução nossa)90.

89 Versão original: “What technology taketh away, technology giveth – only differently, and perhaps even better than before. Such, at least, is the hopeful story of computational journalism. And the few scholarly articles that have thus far been written about computational journalism generally echo this narrative arc.” 90 Versão original: “The research has, like journalism scholarship in general, been primarily concerned with ‘building things’. This computational journalism research has primarily concerned itself with, first, understanding the dynamics of contemporary news practices and, second, designing digital tools that can supplement, routinize, or algorithmically expand the scope of these traditional practices”. 96

Dentro desse contexto, o fenômeno do Big Data ocupa uma posição de destaque: em busca de respostas para suas questões, diversos grupos pertencentes a áreas do conhecimento distintas procuram padrões em grandes quantidades de dados. Empresas dos mais variados segmentos se preocupam não apenas em obter mais bases de dados ou em ter capacidade de filtrá-las, mas esperam contar com profissionais capazes de identificar objetivos claros, de elaborar as perguntas certas e enquadrá-las nos melhores indicadores. Não à toa, o posto de Big Data Scientist é considerado “o mais sexy do século XXI”91. Até por conta dessa amplitude, o termo Big Data merece reflexão. Boyd e Crawford (2012), por exemplo, questionam: qual o limite do “big”, tendo em vista as demonstrações relacionadas a bancos de dados analisados sem a demanda de um supercomputador? Além das questões tecnológicas, as autoras observam um atributo mitológico: “a crença generalizada de que grandes conjuntos de dados oferecem uma forma superior de inteligência e conhecimentos que podem gerar insights impossíveis previamente, com a aura de verdade, objetividade e precisão”. O questionamento das pesquisadoras (BOYD; CRAWFORD, 2012) é concentrado em seis questionamentos-chave. Será que o Big Data mudará mesmo as definições do conhecimento sem que sua complexidade seja compreendida? As afirmações resultantes da interpretação dos dados não são fruto de um engano metodológico? Até que ponto é vantajoso obter muitos dados – eles são capazes de revelar o que se deseja? Ao reduzir tabelas para fazê-las caberem em um modelo matemático, estaríamos tirando dados do contexto e distorcendo seu significado? Sob o ponto de vista ético, é correto acessar uma base de dados pelo simples fato de ela estar aberta? Por outro lado, restringir o acesso a esses dados significaria criar novas barreiras? Ainda que a “era do Big Data” esteja apenas começando, as autoras consideram importante questionar seus pressupostos, valores e tendências por meio de observações que compreendem como “óbvias para cientistas sociais, mas que costumam surpreender pesquisadores de outras disciplinas” (BOYD; CRAWFORD, 2012, p. 664, tradução nossa) 92 . Ou, como parece ser há mais de 50 anos, pesquisadores de “culturas diferentes”. De toda forma, além de ser a “buzzword do

91 Reportagem da revista Harvard Business Review, outubro de 2012. 92 Versão original: “The questions that we ask are hard ones without easy answers, although we also describe different pitfalls that may seem obvious to social scientists but are often surprising to those from different disciplines.” 97 momento”, Big Data pode ser um bom exemplo para discutir, dentro e fora das organizações, como o Jornalismo se altera sob o viés epistemológico (a ciência do “o que é”) da expertise econômica e ética. Em outras palavras: “a indústria da mídia precisa se confrontar com a pergunta: o que fazer com isso?” (LEWIS; WESTLUND, 2014).

3.3 Relação entre Jornalismo Computacional e metadados

Como vimos, a inovação é “frequentemente percebida como um atalho de desenvolvimento, o que a torna supervalorizada” (SEELOS; MAIR, 2012). No contexto do Jornalismo, é o resultado de uma equação complexa, na qual as variáveis de origem organizacional (que incluem pressões de ordem econômica) colidem com processos de evolução tecnológica e iniciativas pautadas por processos que remetem à lógica do código aberto. Essas variáveis são independentes entre si e refletem resultados positivos e negativos. Dentro de sua própria lógica, cada veículo jornalístico dialoga com essas dimensões a partir de interlocutores internos e – cada vez mais – externos. Neste ponto do trabalho, os capítulos apresentados até aqui se encontram. Partimos de uma discussão inicial enfatizando a necessidade de conexões interdisciplinares entre a Comunicação e as áreas do conhecimento relacionadas à Tecnologia, como a Ciência da Computação – a mesma interlocução que permitiu o enraizamento dos metadados, oriundos da Biblioteconomia, em bases de dados na Web utilizadas, entre outras aplicações, pelo Jornalismo. As apropriações tecnológicas estimuladas pela busca por inovação culminaram com um elo promissor entre esses dois mundos, num movimento definido por alguns autores como “Jornalismo Computacional”. Coloca-se, desta forma, um caminho claro para a investigação das habilidades comuns a essa intersecção, tendo os metadados como fio condutor. A essa altura, é possível interpretar a reutilização de conteúdos num ambiente digital conectado, cuja evolução tecnológica altera as dinâmicas de produção, distribuição e consumo de informação jornalística a partir de uma “visão hacker”. Ela pede um esforço interdisciplinar capaz de culminar em processos de inovação – com toda a dureza e complexidade das quais esses esforços necessitam. O tamanho dessa força pode ser identificado na iniciativa de Tim Berners-Lee e na do consórcio W3C, que desde 2001 planeja a evolução da teia de documentos conectados por meio de links para a Web de Dados. Ao publicar informações diárias e digitalizar acervos, disponibilizando esse conteúdo na rede, os veículos jornalísticos contribuem para a expansão do volume de informação na Web. Esse material é disponibilizado por meio de sistemas de informação e publicação elaborados a partir de aspectos gerenciais de cada 99 organização e de escolhas tecnológicas (SCHWINGEL; CORREA, 2013). Por meio de um navegador (browser), já é possível seguir por links e encontrar informação por meio de páginas, documentos. Isso já indica a universalização da Web concebida por Berners-Lee, mas não é tudo. Basicamente, a proposta é adotar sistemas de metadados que permitam conteúdos autodescritivos e contextualizados nos códigos-fonte, de modo a possibilitar sua interpretação por máquinas. Souza e Alvarenga (2004) resgatam o conceito de linked data, que pretende criar e implantar padrões tecnológicos que viabilizem a troca de informações e a atuação de agentes inteligentes por meio da infraestrutura de dados da Web. Pode-se verificar, no entanto, que há um abismo entre as possibilidades técnicas e sua aplicação.

Atualmente, os metadados para notícias são bastante heterogêneos e difíceis de serem enriquecidos ou detalhados o suficiente para cobrir todo o conhecimento que esses documentos contêm. Anotações manuais são impraticáveis e infindáveis. As ferramentas de marcação automáticas permanecem muito pouco desenvolvidas. Portanto, os serviços informativos especializados exigem ferramentas que possam pesquisar e extrair informação específica diretamente de textos não estruturados na Web. Essas ferramentas podem ser guiadas por uma ontologia que determinaria qual tipo de informação seria extraído (KALLIPOLITIS; KARPIS; KARALI, 2012, p. 38, tradução nossa)93.

O reflexo desses obstáculos pode ser representado pelo projeto Neptuno94, desenvolvido pelo Information Retrieval Group, ligado à escola politécnica da Universidade Autónoma de Madrid. Ele propôs a construção e gestão do acervo digital do jornal Diari SEGRE, preocupando-se com a ontologia adequada, a semântica das palavras-chave, a arquitetura e as formas de navegação e visualização. Além da redação e de duas instituições (Universidad Autónoma de Madrid e Universitat de Lleida), o projeto envolveu ainda uma empresa provedora de tecnologia. Como resultados, além de algumas respostas, surgiram mais perguntas.

93 Versão original: “Metadata for news items are currently quite heterogeneous and it is difficult to be rich or detailed enough to cover all the knowledge that these documents contain. Manual annotation is impractical and unscalable and automatic annotation tools remain largely undeveloped. Therefore, specialized knowledge services require tools that can search and extract specific knowledge directly from unstructured text on the Web. These tools could be guided by an ontology that would determine what type of knowledge to harvest”. 94 Disponível em: . Acesso em: 15 fev. 2015. 100

O tamanho e a complexidade das informações armazenadas, bem como as limitações de tempo ao catalogar, descrever e ordenar informações de entrada, fazem dos acervos digitais um corpus relativamente desorganizado e difícil de gerenciar. Nesse sentido, eles compartilham as características e os problemas da Web, sendo que as soluções propostas para a Web Semântica são pertinentes aqui (CASTELLS et al., 2004, tradução nossa)95.

Pellegrini (2012), que identifica tanto a pluralidade de formatos quanto a ausência de uma “cultura de metadados” como obstáculos, menciona Michael Porter, professor de Harvard e referência no universo de economia e negócios, para adaptar o conceito de “cadeia de valor” à produção de notícias e relacioná-lo ao conceito de linked data – conceito associado à Web de Dados e que permite o intercâmbio de informação nesse ambiente. Seguindo uma lógica de produção, cada etapa pode ser reforçada por metadados. A Figura 3.2 ilustra as potenciais contribuições de valor nessas etapas do processo de produção e distribuição de conteúdo.

Figura 3.2 – Cadeia de valor por meio de linked data

Fonte: PELLEGRINI, 2012, p. 127.

95 Versão original: “The size and complexity of the stored information, and the time limitations for cataloguing, describing and ordering the incoming information, make newspaper archives a relatively disorganised and difficult to manage corpus. In this sense, they share many of the characteristics and problems of the WWW, and therefore the solutions proposed in the Semantic Web vision are pertinent here”. 101

O universo de dados estruturados disponíveis (como a DBPedia) representa uma oportunidade para o processo de aquisição de conteúdos, no qual os profissionais coletam, armazenam e relacionam os itens que se tornarão notícia. Mas é no processo de edição de conteúdo, por meio de técnicas de anotação semântica, que a informação pode ser enriquecida. Nessa etapa, a discussão dos processos editoriais se torna imprescindível. A terceira etapa diz respeito à contextualização e à personalização de conteúdos, o que inclui modelos de metadados relacionados ao comportamento do usuário. Na etapa de distribuição, ocorre o diálogo com as máquinas, especialmente por meio de APIs. Finalmente, no consumo de conteúdos, os usuários interagem da forma mais agradável possível. O aumento na disponibilidade de dados estruturados como parte da estratégia de governos, organizações ou iniciativas colaborativas faz surgir uma questão: de que forma a indústria da mídia pode se beneficiar com esse processo? Em 2010, o boletim do IPTC (MIRROR, 2010, p. 3) repercutiu a seguinte questão entre seus leitores: a mídia consegue utilizar linked data por um futuro mais forte? “Responder à pergunta ‘linked data pode funcionar’ é apenas o começo: ‘existe um business case para ele’ é o complemento dessa questão”, observa o texto (tradução nossa) 96 . Segundo Pellegrini (2012), um olhar mais detalhado em redações revela um descompasso entre os debates científicos e a utilização de metadados semânticos na indústria da mídia.

A experiência mostra que, devido a aversão ao risco, falta de recursos financeiros e atores experientes, a indústria da mídia tende a se comportar com muita cautela quando se trata da adoção de novas tecnologias e metodologias de criação de conteúdo e reutilização, especialmente quando elas carregam um forte potencial disruptivo e afetam seu core business, a competência ou a cultura corporativa (PELLEGRINI, 2012, p. 125, tradução nossa) 97.

Está claro que “a Web e as bases de dados são consideradas plataformas tecnológicas fundamentais para o desenvolvimento do jornalismo contemporâneo em redes digitais” (LAMMEL; MIELNICZUK, 2012, p. 180). A notícia é revalorizada ao

96 Versão original: “Answering the question ‘Can Linked Data work?’ is just the beginning. ‘Is there a business case for it?’ is the rest of the question.” 97 Versão original: “Experience shows that due to risk aversion, lack of financial resources and expertise actors in the media industry tend to behave very cautiously when it comes to the adoption of new technologies and methodologies of content creation and reuse, especially when they carry a strong disruptive potential and affect their core business, competencies or corporate culture”. 102 ser classificada e ter novas relações por meio de metadados, tornando-as mais bem descritas e compreendidas por computadores. A utilização de padrões semânticos na Web e a adoção dos princípios do linked data representam um trajeto árduo – mas possível – para estimular as práticas interdisciplinares e buscar práticas inovadoras em redações. Esse trajeto começa a partir da mudança de postura diante da publicação de objetos informativos em rede, associando metadados estruturais, descritivos ou administrativos, estabelecendo modelos e práticas adequadas. No Jornalismo, área na qual esses termos são tidos como “existentes” e só, o impasse é ainda maior.

Implantar um sistema de informação, que precisa ser atualizado de acordo com as exigências de seus usuários, ainda custa caro. E a informação, considerada um bem inatingível e de difícil mensuração, parece ser valorizada para a maioria dos meios apenas como um produto que pode ser vendido no dia, na semana e no mês seguinte. Não mais que isso (QUADROS, 2005, p. 415).

Nem sempre a prática jornalística, conduzida por questões de mercado, se baseia em necessidades informativas. De toda forma, é possível identificar a preocupação com a informação jornalística estruturada por metadados. O próximo capítulo deste trabalho discute ferramentas metodológicas capazes de gerar contribuições e reflexões sobre essas práticas.

103

Capítulo IV – MÉTODO PARA ANÁLISE

As discussões apresentadas até aqui acerca da evolução das estruturas de metadados e de inovações tecnológicas no Jornalismo procurou delinear suas fronteiras interdisciplinares. Sobre as escolhas metodológicas que reforçam esse debate, justificadas neste capítulo, recai um estigma fortalecido por práticas de mercado: ao contratar uma agência ou um profissional de comunicação, as organizações costumam mensurar sua competência anterior questionando-os a partir da apresentação de algum “case de sucesso”. Ainda que tal prática resulte em elementos que favoreçam uma tomada de decisão, é como se o processo envolvendo o desenvolvimento de um trabalho só fizesse sentido a partir de exemplos anteriores. Evidentemente, o grau de persuasão do especialista não se relaciona, necessariamente, aos “resultados comprovados” na visão de seu potencial cliente. De todo modo, como lidar com casos para estudo sem se contaminar com a “busca pelos cases de sucesso”? Em suas primeiras linhas, este capítulo apresenta preocupações metodológicas para conciliar as forças e fraquezas da escolha dos procedimentos de pesquisa neste trabalho e se afastar, na medida do possível, de afirmações inconsistentes ou prescritas.

104

4.1 Discussões preliminares sobre o uso de casos

Não é preciso levantar justificativas rigorosas para reconhecer as lacunas diante de escolhas pautadas apenas por uma, digamos, “caseficação” de competências e habilidades. De um lado, isolar variáveis e desprezar contextos diferentes na tentativa de “replicar possibilidades” podem representar um erro grosseiro; de outro, ignorar diferentes caminhos pouco explorados e seguir por “trilhas seguras” nos afastam da serendipidade – um termo de origem inglesa frequentemente associado à inovação e que, segundo Mario Bunge (2007, p. 192, tradução nossa), é um “descobrimento acidental, boa sorte em termos cognitivos”, ainda que a importância dada a esse tipo de acaso não deva “ser exagerada, pois provavelmente um investigador que não está preparado não vai notar o excepcional”98. Pode parecer uma visão simplória e pouco relevante, mas o fato é que, se, quando confrontada, a visão corporativa que valoriza exemplos chamativos carece de argumentos, o que deve ser considerado em uma pesquisa baseada em casos, mesmo sendo um instrumento construído e aprimorado a cada nova utilização? Especialmente no contexto das apropriações tecnológicas no Jornalismo, onde o que se vê na Web “não é exatamente o que se esperava” no final dos anos 1990: enquanto pesquisadores apresentam novas questões, “os ativos das novas tecnologias são, em grande parte, ignorados ou pelo menos implementados em um ritmo muito mais lento do que tinha sido anteriormente sugerido em redações” (STEENSEN, 2009, p. 1, tradução nossa)99. Uma das principais referências no método, o cientista social Robert K. Yin (2009) acredita que essa visão pode estar na confusão entre “estudo de caso como ensino e pesquisa”. Ao contrário da ação de um professor em sala de aula (ou em prospectos de um profissional de comunicação), na qual os casos podem ser deliberadamente alterados para demonstrarem um ponto particular, “todo pesquisador que adota estudos de caso deve trabalhar duro para relatar todas as evidências adequadamente” (YIN, 2009). O trabalho pioneiro de Kathleen M. Eisenhardt (1989), em consonância com o de Robert K. Yin, apresenta uma outra justificativa plausível para a elaboração de

98 Versão original: “Serendipia: descubrimiento accidental; buena suerte en temas cognitivos. Su importancia no debe exagerarse, pues probablemente un investigador que no esté preparado no advertirá lo excepcional”. 99 Versão original: “The assets of new technology are for a large part ignored or at least implemented at a much slower rate than had been earlier suggested in online newsrooms”. 105 inferências a partir de uma seleção consistente de ocorrências – ações em torno de uma ideia que pode ser definida como “caso”:

Há momentos em que pouco se sabe sobre um fenômeno e nos quais as perspectivas atuais parecem inadequadas, pois ou há pouca comprovação empírica, ou uma entra em conflito com a outra ou com o senso comum. Às vezes, serendipidades em um estudo teórico sugerem a necessidade de uma nova perspectiva. Nessas situações, a construção de teoria a partir de um estudo de caso é particularmente apropriada, pois ela não se baseia em literatura anterior ou em evidências empíricas anteriores (EISENHARDT, 1989, p. 548, tradução nossa)100.

A visão da autora se encaixa com a problemática envolvendo a indexação e a recuperação de informação jornalística em bases de dados estruturadas por metadados, o que bastaria para justificar essa escolha. Seu artigo, no entanto, faz referência a pesquisas voltadas à compreensão de organizações. Até por conta disso, dentro das Ciências Sociais Aplicadas, a área de Administração utiliza estudos de caso para a elaboração e discussão de teorias. Também é nessa área que as críticas ao método são mais frequentes. Um estudo conduzido por pesquisadores europeus em bases de artigos publicados em dez revistas influentes na área (GIBBERT; RUIGROK; WICKI, 2008) revelou inquietação com o volume de estudos preocupado com a validação de seus próprios conceitos e processos metodológicos, em detrimento a questões externas e generalizações. Em uma abordagem parecida, pesquisadoras do Rio Grande do Sul avaliaram especificamente trabalhos publicados nos anais do Encontro da Associação Nacional de Pós-Graduação e Pesquisa em Administração (OLIVEIRA; MAÇADA; GOLDONI, 2009). Elas evidenciaram a inexistência de elementos capazes de indicar rigor na realização dos estudos, notadamente lacunas entre coleta e resultados, entre outras lacunas que subentendem ausência de entendimento em relação aos conceitos básicos do método. Tal preocupação é semelhante à de Martins (2008, p. 10), que enumerou deficiências consideradas sérias em um grande número de pesquisas orientadas por esse método: “análises intuitivas, primitivas e impressionistas, não

100 Versão original: “There are times when little is known about a phenomenon, current perspectives seem inadequate because they have little empirical substantiation, or they conflict with each other or common sense. Or, sometimes, serendipitous findings in a theory-testing study suggest the need for a new perspective. In these situations, theory building from case study research is particularly appropriate because theory building from case studies does not rely on previous literature or prior empirical evidence”. 106 conseguindo transcender a simples relatos históricos, obviamente muito afastados do que se espera de um trabalho científico”. Campomar (1991, p. 97) observava o aumento (e as fraquezas) de trabalhos calcados com esse método na Administração – na mesma medida em que estimulava sua utilização “sem se intimidar por possíveis preconceitos” –, bem como identificava sua presença na área da Educação. Nesse contexto, a confusão entre o uso de casos para ilustrar afirmações ou a coleta e validação de dados sem sistematizações claras aumentam a quantidade de “não estudos de caso”. Não seria incorreto afirmar que as razões de sua escolha possam ser fundamentadas por limitações de recursos, dificuldade de acesso aos objetos de pesquisa, custos e tempo de duração da investigação. Também podem ser influenciadas por uma falácia: a do “método ser mais fácil, próprio para iniciantes”. Além de menosprezar o rigor que o método exige, o descuido nesse processo representa um problema ainda mais grave para uma proposta de pesquisa: o isolamento.

Ao não situar seu estudo na discussão acadêmica mais ampla, o pesquisador reduz a questão estudada ao recorte de sua própria pesquisa, restringindo a possibilidade de aplicação de suas conclusões a outros contextos, pouco contribuindo para o avanço do conhecimento e a construção de teorias. Tal atitude frequentemente resulta em estudos que só têm interesse para os que dele participaram, ficando à margem do debate acadêmico (ALVES-MAZZOTTI, 2006, p. 639).

Na visão de Meyer (2001), tais críticas exigem que o pesquisador evidencie a justificativa para a escolha do método, bem como seus processos de condução – ou seja, que torne explícitas as balizas usadas para a coleta e análise de dados. Mesmo distante dos problemas de pesquisa comuns à Administração, o mesmo cuidado se aplica ao Jornalismo, ainda mais se lembrarmos da “universalidade do fenômeno, a complexidade das teorias, a multiplicidade dos autores e a diversidade de metodologias” (MACHADO, 2010, p. 22).

107

4.2 Exemplos de casos em estudos de Jornalismo na Web

Não cabe aqui questionar se a quantidade de ferramentas metodológicas é exagerada ou se isso representa alguma fragilidade aos estudos do Jornalismo. Ao comparar publicações que se apresentam como guias ou manuais metodológicos dedicados aos fenômenos jornalísticos, o pesquisador Elias Machado (2010, p. 22) exemplifica a questão principal, tomando como base os conceitos de valor, notícia e rotinas produtivas: “em vez de utilizar a realidade para colocar à prova os conceitos, em geral o pesquisador ajustava a realidade aos limites destes conceitos, constituindo um círculo vicioso em que, quanto mais se pesquisava, menos se sabia sobre o objeto estudado”. É possível interpretar a necessidade de “colocar a realidade à prova” a partir das linhas de investigação conduzidas pelo pesquisador em conjunto com Marcos Palacios por meio do Grupo de Pesquisa em Jornalismo On-Line (GJOL), do Programa de Pós-Graduação em Comunicação da UFBA. Tal sistemática, interessada em fenômenos contemporâneos envolvendo inovação e tecnologias nos produtos e processos jornalísticos, é a que mais se aproxima dos elementos que compõem este trabalho. Da mesma forma, como os próprios autores apontam, merece ainda uma revisão crítica permanente. Desenvolvida desde 1997, a estratégia de pesquisa se apoia em um método híbrido, mas essencialmente calcado em uma densa revisão bibliográfica e na delimitação de objetos de estudo considerados referenciais ou que tenham caráter inovador ou experimental, somado a uma investigação de caráter exploratório baseada em um protocolo de estudo de caso. A partir da experiência acumulada, isso permite a possibilidade de apresentar uma ideia geral do objeto estudado por meio de situações particulares, além de realizar estudos dessa natureza em períodos curtos e com resultados passíveis de confirmação por outras investigações. Desta forma, é elaborada a relação entre o referencial teórico e as características próprias do caso (MACHADO; PALACIOS, 2007). Além da validação dessa construção – feita pela combinação de revisão bibliográfica e coleta de dados –, estudos dessa natureza exigem replicabilidade. Em outras palavras: o estudo pode ser repetido pelo mesmo investigador, a partir das mesmas fontes de análise, e chegar a resultados similares? Da mesma forma, ele pode ser conduzido por outro pesquisador e chegar ao mesmo lugar (MEYER, 2001)? Por 108 conta disso, o protocolo é indispensável, dado se tratar de um roteiro para que o pesquisador tenha controle do seu objeto analisado, além de garantir mecanismos suficientes para replicá-lo em situações semelhantes. Em um dos desdobramentos desse posicionamento, universidades do Brasil e da Espanha compararam e discutiram métodos de pesquisa específicos, propondo a observação de práticas e a construção de instrumentos para a avaliação de produtos no propósito de responder a uma questão complexa: o que é qualidade em Jornalismo (SHAPIRO, 2010)? Em seu primeiro ano de vigência, 30 pesquisadores, de sete universidades brasileiras e nove universidades espanholas, integraram o projeto. O sumo desse trabalho está sintetizado em um toolkit para pesquisadores em Jornalismo avaliarem parâmetros de qualidade em veículos de notícia a partir de uma lista de parâmetros básicos para a análise das características de um site, que permitiria um panorama comparativo (PALACIOS; DÍAZ NOCI, 2009). Para fugir do “círculo vicioso”, porém, a proposta demanda uma vigília permanente por conta de seu raciocínio essencialmente indutivo – isto é, que parte de dados particulares para chegar a conceitos gerais por meio de observações singulares e operações cognitivas (podemos tirar, se achar melhor). Assim, é fundamental recuperar a visão do filósofo da ciência Karl Popper, cuja preocupação com o rigor científico rebaixa saberes que se centram na confirmação indutiva.

Quero apenas que todo enunciado científico se mostre capaz de ser submetido a teste. Em outras palavras, recuso-me a aceitar a concepção de que, em ciência, existam enunciados que devamos resignadamente aceitar como verdadeiros, simplesmente pela circunstância de não parecer possível, devido a razões lógicas, submetê-los a teste (POPPER, 2008, p. 50).

Ao apresentar o toolkit (PALACIOS, 2011), o autor valoriza seu caráter útil ao mesmo tempo em que reconhece, diante da própria metamorfose permanente que é o meio digital, que sua “caixa de ferramentas” precisa ser “testada, aperfeiçoada ou descartada”, se for o caso. Isso já acontece, por exemplo, ao serem verificados os atributos de uma “ferramenta para análise de design” (p. 131). Mesmo distante do escopo deste trabalho, é evidente notar que propriedades como as dimensões das páginas e a organização em colunas, como proposto nesse instrumento para avaliação de casos, estão datadas diante da multiplicidade de telas e grids responsivos. É um 109 exemplo no qual o método baseado em casos corre o risco de apenas descrever uma realidade, sem promover avanços. No que toca este trabalho, o toolkit apresenta tanto uma ferramenta específica para avaliação de bases de dados (PALACIOS, 2011, p. 167) quanto outra para identificar a memória (PALACIOS, 2011, p. 183), que inclui o uso e a natureza dos links – observação bem próxima a outro parâmetro indicado pelos autores, a hipertextualidade, “um conceito escorregadio que é usado para descrever vários processos relacionados à comunicação em geral e a práticas como o jornalismo digital em particular” (STEENSEN, 2011, p. 315, tradução nossa)101. Entre as propriedades sugeridas como parâmetros de avaliação, observam-se as quantidades de bases de dados de um veículo, a origem das plataformas de gerenciamento (proprietária, produzida internamente ou de código aberto), a integração de sistemas em grupos de mídia com múltiplas plataformas de distribuição (mencionando RSS) e a distinção de templates (modelos prontos) de publicação. A relação entre essas tecnologias e o uso de metadados para a estruturação de conteúdos se restringe a uma pergunta: “os conteúdos inseridos na plataforma do cibermeio seguem alguma norma para sua documentação? Se sim, a documentação segue que tipo de protocolo?” (PALACIOS, 2011, p. 180). Questiona ainda se o veículo observado “utiliza as bases de dados existentes para mineração de dados e proposição de pautas” (PALACIOS, 2011, p. 177), isto é, se explora suas informações e as suas relações para, a partir disso, gerar pautas. Por fim, se “usa bases de dados inteligentes na recuperação da memória” (PALACIOS, 2011, p. 182), sem detalhar os pormenores dessas duas perguntas. Nesse contexto, o “convite ao diálogo e a uma colaboração mais ampla” já acontece. Debruçados nas questões relacionadas à memória de periódicos disponíveis na Web, pesquisadores da Universidade de Barcelona propuseram um método de avaliação de atributos em hemerotecas digitais, baseado em parâmetros associados a bases de dados na Web e a outros recursos. Como referência, trouxeram estudos em Comunicação relacionados ao tema (incluindo o toolkit mencionado acima), distinguindo-os entre os que declaravam uma intenção puramente descritiva dos que apresentavam uma orientação avaliadora (GUALLAR; ABADAL; CODINA, 2013). Em meio a aspectos gerais, disponibilização de conteúdos e funcionalidades para

101 Versão original: “a slippery concept that is used to describe numerous processes related to communication in general and practices like online journalism in particular”. 110 apresentação e compartilhamento de resultados, aparece a propriedade “utilização de tesauros (sinônimos) e outros vocabulários controlados”, característica relacionada à gestão de metadados. Mesmo associado a um embasamento considerado consistente, há pouca relação entre os objetivos do Jornalismo e as contribuições possíveis a partir de um pensamento computacional. O sistema de análise descrito acima, bem como qualquer outro enraizado em um procedimento baseado em casos particulares potencialmente replicáveis em outros estudos, precisa ser questionado. Como vimos, com a apropriação de tecnologias digitais pelo Jornalismo, há a necessidade de dominá-las com maior aprofundamento, indo além de seu uso doméstico, subindo o patamar de utilização (LIMA JUNIOR, 2012). Assim, não faz sentido avaliar um “mecanismo interno de busca e do tipo de material que pode ser recuperado através dele a partir dos parâmetros oferecidos ao usuário” (PALACIOS, 2011, p. 183), a “articulação com edições impressas e existência de uma hemeroteca histórica, de acesso livre ou pago” (PALACIOS, 2011, p. 189) ou a “presença de nuvem de tags associada ao seu uso em matérias” (PALACIOS, 2011, p. 188) sem levar em consideração uma compreensão significativa de suas possibilidades tecnológicas. Não se trata de acertar sempre, mas sim de prever eventos e variáveis não esperadas em qualquer modelo estabelecido – ainda mais num ambiente de evidente complexidade, que massacra qualquer ideia envolvendo gerações e modelos.

111

4.3 Elaboração de um instrumento de observação

Diante das considerações apresentadas até aqui, a utilização de casos para a elaboração de um estudo – aos moldes da trilha oferecida pelo GJOL – é adequada em situações nas quais se pretende compreender melhor a natureza de um objeto de pesquisa. Para reforçar essa abordagem metodológica e levando em consideração os objetivos deste trabalho, algumas questões precisam ser valorizadas, em especial no que diz respeito aos processos de validação (interna e externa) e comparação com outros estudos.

Quadro 4.1 – Etapas para a construção de um instrumento de observação Etapa Ações Planejar  Estruturar fundamentação teórica consistente  Definir uma questão de pesquisa apropriada Desenhar  Selecionar casos para estudo  Categorizar elementos observados Preparar  Elaborar protocolo de pesquisa  Testar, reforçar ou descartar estudo Fonte: Adaptado de YIN, 2009; EISENHARDT, 1989.

O planejamento de um estudo baseado em casos é uma etapa que não deve ser desprezada (YIN, 2009). Ela deve começar por uma pergunta adequada de pesquisa (que responda a um “como” ou a um “por que”), enraizada na revisão conceitual em torno do objeto, que deverá conduzir a investigação. A partir do exposto na fundamentação teórica, temos: num cenário de estímulo a práticas interdisciplinares e inovadoras em redações, como estruturar o conteúdo jornalístico armazenado em bases de dados por meio de metadados? Uma questão seguinte, que deriva dessa, é: o que se entende por estruturação de informação jornalística por metadados? Outro aspecto importante diz respeito às justificativas para a abordagem metodológica. Por se tratar de um tema envolvendo bases de dados, seria possível considerar um enfoque quantitativo. Inspirados em trabalhos da Ciência da Computação – que utilizam softwares para reconhecer padrões de código, identificar e caracterizar milhões de triplas RDF ou conjuntos de esquemas OWL, mapear a extensão da Web de Dados e analisar esse conjunto por meio de indicadores estatísticos (DING; FININ, 2006; WANG; PARSIA; HENDLER, 2006) –, já é possível construir ferramentas sofisticadas para desfragmentar textos jornalísticos e enriquecer tradicionais processos de análise de conteúdo (GUNTHER; QUANDT, 112

2016), bem como algoritmos capazes de extrair metadados de artigos noticiosos, de relacioná-los a ontologias e propor leituras relevantes a partir dessa relação (KALLIPOLITIS; KARPIS; KARALI, 2012). A mesma lógica envolvendo ferramentas computacionais pode dialogar com plataformas de dados e suas APIs, como o já mencionado GDELT 102 ou o Media Cloud 103 , parceria entre as universidades Harvard e MIT. Tais escolhas se revelam apropriadas quando se pretende verificar a extensão de um fenômeno. Pelo prisma da Comunicação, no entanto, a relação entre metadados e bases jornalísticas está em estágio inicial de entendimento, o que demanda uma articulação interdisciplinar consistente e um enfoque qualitativo. Nesse sentido, a partir de um volume de observações e da relação entre semelhanças e diferenças entre elas, infere-se algo possível de ser aplicado a um conjunto mais amplo de casos – processo mental baseado em indução a partir de uma abordagem exploratória.

São investigações de pesquisa empírica cujo objetivo é a formulação de questões ou de um problema, com tripla finalidade: desenvolver hipóteses, aumentar a familiaridade do pesquisador com um ambiente, fato ou fenômeno, para a realização de uma pesquisa futura mais precisa ou modificar e clarificar conceitos. Empregam-se geralmente procedimentos sistemáticos ou para a obtenção de observações empíricas ou para as análises de dados – ou ambas, simultaneamente (LAKATOS; MARCONI, 2003, p. 188).

Por fim, um ponto-chave do método de pesquisa baseado em estudo de casos está na parametrização de seu protocolo de análise. É dessa forma que a pertinência dos argumentos teóricos, bem como as hipóteses construídas a partir das inferências, podem ser testadas, aprimoradas ou questionadas em outras investigações. A validação desse esquema de observação é obtida por meio da triangulação dos dados a partir da observação de uma ou mais fontes que corroboram um conjunto de fatos bastante próximo. O que leva a outra decisão no planejamento de investigação: selecionar um ou mais casos para observação.

A seleção de uma unidade de análise apropriada começa quando se especifica precisamente questões de pesquisa primárias. Se suas questões não conduzirem ao favorecimento de uma unidade de análise em relação a outra, suas questões provavelmente estão muito vagas ou numerosas

102 Disponível em: . Acesso em: 12 mar. 2015. 103 Disponível em: . Acesso em: 12 mar. 2015. 113

demais – e seu estudo de caso terá um problema (YIN, 2009, tradução nossa)104.

Há situações em que um único caso pode ser considerado para a elaboração desse esquema. Como a investigação do fluxo de produção e armazenamento de informação nos sistemas de indexação que compõem o serviço público de rádio e televisão belga (VRT), incluindo o processo de produção de notícias e o modelo de integração das informações por meio de metadados (DEBEVERE et al., 2010). Ou a complexa gestão de metadados e a abertura de linked data pela Wolters Kluwer Deutschland (WKD), agência especializada em informações de finanças e legislação (DIRSCHL et al., 2014). E, finalmente, a investigação de Matt Carlson (2015), que explorou como redações podem usar sistemas de narrativas automatizadas, além de procurar entender de que forma as práticas e relações de trabalho são alteradas. Ele elaborou num estudo de caso único, a empresa Narrative Science105, que desde 2010 cria processos para a produção de notícias por meio de algoritmos. Resumidamente, seu trabalho reforça a necessidade de novos questionamentos críticos para pesquisas futuras – algo que se pretende neste trabalho, inclusive. A escolha de casos que dialoguem com as questões propostas e que sejam representativos o suficiente para que se possa construir um instrumento de observação sistemática de forma legítima tem impacto com a construção de uma amostra – e, na internet, temos um “universo de investigação particularmente difícil de recortar, em função de sua escala, heterogeneidade e dinamismo” (FRAGOSO; RECUERO; AMARAL, 2011), que colocam em xeque qualquer estratégia de escolha. Entre os critérios para seleção de amostra sugeridos pelas autoras, a escolha de casos extremos dirigida a exemplos com “excesso de peculiaridades relevantes para o problema de pesquisa” (FRAGOSO; RECUERO; AMARAL, 2011, p. 78) revela-se indicada para esta proposta. Escolha semelhante fez Carolina Pietoso (2009), ao relacionar o impacto de APIs abertas no Jornalismo a partir de uma investigação exploratória baseada no The New York Times e no The Guardian. Aqui, além dessas duas organizações, outras três foram escolhidas deliberadamente por conta da frequência com que, durante a revisão bibliográfica, foram associadas ao pioneirismo

104 Versão original: “Selection of the appropriate unit of analysis will start to occur when you accurately specify your primary research questions. If your questions do not lead to the favoring of one unit of analysis over another, your questions are probably either too vague or too numerous – and you may have trouble doing a case study”. 105 Disponível em: . Acesso em: 20 abr. 2016. 114 em ações consideradas inovadoras envolvendo Computação e Jornalismo. São elas: Globo.com, The Washington Post e BBC. Ressalta-se ainda que nessas organizações foram observadas propostas e intenções compartilhadas por laboratórios de pesquisa e desenvolvimento internos. Resumindo os critérios de seleção, trata-se de uma amostra intencional na qual se considerou peculiaridades de usos de metadados em bases jornalísticas em projetos de organizações de grande porte e reconhecida reputação no âmbito do jornalismo, além da frequência de indicações em outros estudos detectada na pesquisa bibliográfica feita para esta tese. No caso do uso de metadados em bases jornalísticas como forma de aumentar a competitividade, muitos desses sistemas estão sendo desenvolvidos e funcionando internamente, não permitindo aos pesquisadores o acesso a seu funcionamento e modelagem. Mesmo as configurações tecnológicas que permitem identificar as consequências das relações entre datasets são imperceptíveis ao usuário por meio de uma interface Web. Por conta disso, o limite desta investigação exploratória consiste na coleta de dados a partir da combinação de observação transversal em iniciativas publicadas com fontes de natureza bibliográfica: desde material divulgado pelos canais das próprias organizações até artigos publicados em periódicos ou anais de congressos, teses e dissertações – como na articulação entre metadados e ontologias em Silva e Souza (2014). O Quadro 4.2 apresenta demarcações previamente estabelecidas para uma exploração aberta de aplicações e experimentações desenvolvidas pelos grupos de mídia selecionados e sua relação com a classificação de tecnologias e padrões de metadados possíveis: marcações, esquemas, ontologias e intercâmbio. Com a coleta de dados, pretende-se reconhecer funcionalidades envolvendo a adoção de metadados por veículos de referência, sendo esse o primeiro passo para gerar hipóteses e atribuir maior objetividade às variáveis, sistematizando novas investigações.

Quadro 4.2 – Diretrizes iniciais para coleta de dados Níveis Possíveis evidências Marcações Associações entre informação jornalística e termos não controlados, como rótulos elementares de identificação em páginas HTML, categorização de notícias por meio de canais/editorias e nuvem de tags (folksonomias). Esquemas Associações entre informação jornalística e termos a partir de alguma construção prévia, tais como escolha por vocabulários controlados (taxonomia), adoção de metadados embutidos no código HTML 115

utilizando sistemas como Dublin Core ou Schema.org, vinculação de produções a tabelas com dados estruturados. Ontologias Associações entre informação jornalística e termos que se relacionam a partir de especificações formais dentro de um domínio específico, utilizando triplas (como a notação RDF) ou mecanismos de anotação semântica. Intercâmbio Refere-se a abertura de dados, metadados e suas relações que possibilitem sua reutilização, desde a publicação de arquivos em formatos estruturados para download até sua conexão com dados publicados em outros datasets por meio de APIs ou padrões definidos pelo W3C. Fonte: Produzida pelo autor.

Parte-se para essa observação a partir das expectativas e dos conhecimentos estabelecidos previamente pelo respaldo teórico. Esse procedimento remete à teoria fundamentada em dados, que tem em Barney Glaser e Anselm Strauss seus precursores (FRAGOSO; RECUERO; AMARAL, 2011, p. 84). A premissa principal está na valorização e na sistemática observação, comparação, classificação e identificação de similaridades e contrastes entre ocorrências — quando, por que e em quais condições elas aparecem. Assim, um dos elementos mais importantes da coleta de dados é a organização desses dados, que passa por um processo denominado “codificação”. Essa codificação já é em si uma forma de análise, e consiste numa sistematização dos dados coletados, de forma a reconhecer padrões e elementos relevantes para a análise e para o problema (FRAGOSO; RECUERO; AMARAL, 2011, p. 92). Em maior ou menor grau, a identificação desses procedimentos técnicos, que permitem estruturar a informação jornalística na Web, contribuirá para uma análise mais adequada de veículos que experimentam essas práticas, culminando com a expectativa de uma produção de notícias orientada a software, encaminhando-a para o patamar de sistema. Procedimentos técnicos adotados por veículos de mídia funcionam como variáveis que se relacionam com a estrutura do objeto analisado, delineando o instrumento de observação. É o que Juan Samaja (2004) define como “matriz de dados”, uma articulação fundamental em qualquer tipo de investigação científica. Na visão do autor, um esquema exploratório tem como função identificar unidades e variáveis em uma matriz capaz de ser adotada em fases posteriores de investigação, relacionadas com a validação externa e a falseabilidade do estudo, resultando em descrições, processamento analítico e interpretação dessas matrizes. 116

O ciclo metodológico de um estudo de caso está representado na Figura 4.1. As etapas de coleta e análise indicam o passo seguinte à elaboração de um instrumento de pesquisa capaz de ser reproduzido e reutilizado, marcado pelas etapas de planejamento, design (projeto) e preparação para aplicação (protocolo de pesquisa). Este trabalho, portanto, preocupa-se com essa construção, seguindo as etapas propostas no Quadro 4.1.

Figura 4.1 – Processo para condução de um estudo de caso

Fonte: Adaptado de YIN, 2009.

Da mesma forma, por estarmos diante de um fenômeno de natureza complexa, toda inferência apontada por meio de observação e análise de casos representativos precisa ser reproduzida e discutida em outras frentes, bem como ser apoiada por outras abordagens de pesquisa aplicada. Por mais que se procure confirmar teorias – e seja qual for o volume de informações coletadas para tal –, é diante de evidências que “falsifiquem” teorias que o progresso científico é aprimorado. Consequentemente, a Comunicação, na qual a pesquisa em Jornalismo se insere, também se fortalece como ciência. 117

Essas ressalvas estão longe de inviabilizar este ou outro trabalho, mas reforçam o posicionamento (talvez evidente) de que esta é apenas parte de um percurso – cujo detalhamento está nas páginas seguintes.

118

119

Capítulo V – OBSERVAÇÃO E DISCUSSÃO

Além dos conteúdos publicados originalmente na Web a partir dos anos 1990, a digitalização de acervos jornalísticos também representa objetos de informação indexáveis. Em 2002, o projeto ProQuest Historical Newspapers 106 anunciou a digitalização completa do acervo de periódicos norte-americanos, incluindo o The New York Times e outros títulos descontinuados, porém históricos. No Brasil, apesar de grandes veículos contarem com acervo disponível para consultas, a transformação do processo manual para o informatizado é lento. O exemplo mais eficiente é o do Acervo Estadão107, que disponibiliza as edições impressas do periódico desde 1875, incluindo períodos censurados durante a ditadura. A recuperação da informação, no entanto, é limitada ao uso de palavras-chave simples. Contudo, em contraste a iniciativas como essas – ou mesmo ao grande volume de notícias publicado na Web por organizações dos mais variados portes –, não é tarefa simples reconhecer veículos que avançaram na estruturação de objetos com metadados e uso de ferramentas computacionais – o que inclui posicionamento ao redor de padrões abertos (linked data) – e que demonstram preocupação com a organização, com a recuperação e o reaproveitamento de suas informações. Nesta etapa do trabalho, serão identificados atributos em veículos de mídia com essas características, o que será útil em investigações futuras.

106 Disponível em: . Acesso em: 25 mar. 2015. 107 Disponível em: . Acesso em: 12 mar. 2015. 120

5.1 Apresentação e observação de veículos jornalísticos

Antes de desembarcar no Brasil por meio de sua versão digital em português108 em novembro de 2013, o diário espanhol El País já apresentava formatos que procuravam aproveitar o ambiente Web, notadamente o uso de infográficos animados (RAMOS, 2011). No contexto da gestão de conteúdos por meio de metadados, chama atenção o sistema colabulário, aglutinação dos termos “colaboração” e “vocabulário” (RUBIO LACOBA, 2012). Trata-se do sistema de gestão da informação do periódico, lançado em 2012 como parte da reestruturação da redação promovida naquele ano109. A autora Maria Rubio Lacoba (2012), que em seu artigo valoriza o trabalho dos responsáveis pela documentação, define o projeto como um protocolo de etiquetas que incorpora palavras obtidas a partir de relatórios de acesso – basicamente, uma seleção de termos pesquisados por usuários em mecanismos de busca – a vocabulários controlados. O acesso à lista de termos é feito por meio do sistema de gerenciamentos: o redator seleciona os termos mais adequados, tornando a rotina documental dos jornalistas mais organizada, ágil e intuitiva. Segundo Rubio Lacoba, em outubro de 2012, o vocabulário controlado do El País contava com 74 mil termos, entre temas, personagens, organizações, lugares e eventos. Pelo volume de termos empregados, a iniciativa se torna flexível, bem próxima ao que se vê no uso de folksonomias, assimilando-se a um nível de marcação.

108 Disponível em: . Acesso em: 20 abr. 2016. 109 Alguns detalhes desse processo estão no texto “Bienvenido a la Revolución”, disponível em: . Acesso em: 20 abr. 2016. 121

Figura 5.1 – Código-fonte de uma notícia do site El País

Fonte: MENÁRGUEZ, 2015.

A Figura 5.1 reproduz algumas linhas de código HTML de uma notícia do portal. Logo nas primeiras linhas é possível encontrar etiquetas com informações de identificação. Em algumas delas, aparecem alguns atributos: “DC” (da especificação Dublin Core) e “og” (referente ao padrão Open Graph, adotado pelo Facebook). Nas linhas seguintes, links referentes a seções do portal e tags adotadas para a matéria são acompanhados dos atributos “itemprop”, “itemtype” e “itemscope”, indicativos do padrão de microdados Schema.org. A presença desses metadados também pode ser identificada por meio da ferramenta de análise de dados estruturados do Google110. Combinada com outras iniciativas comuns à maior parte dos veículos jornalísticos na Web, temos o uso mais frequente de metadados em uma estrutura informativa – até por conta disso, tais evidências não se repetirão nos veículos jornalísticos digitais escolhidos como unidade de análise, visto que devem apresentar níveis de utilização mais sofisticados.

110 Disponível em: . Acesso em: 20 abr. 2016. 122

Quadro 5.1 – Metadados em bases de dados jornalísticas do El País Nível Característica Evidência Marcações Utilização de marcações HTML elementares na Identificação visual a partir do área de identificação da página Web código-fonte da página (""), normalmente etiquetadas por meio do atributo Identificação visual de campos como título, Identificação visual por meio autor, data de publicação e/ou modificação e do navegador corpo do texto Organização de conteúdos em nível primário Identificação visual por meio por meio de editorias, categorias ou termo do navegador similar Utilização de tags ou palavras-chave para Projeto Colabulário relacionar conteúdos em nível primário (folksonomias) Esquemas Utilização de marcações HTML controladas na Identificação visual a partir do página Web, como Dublin Core, microformatos, código-fonte da página microdados ou RDFa Fonte: Produzida pelo autor.

Globo.com (Brasil)

O maior conglomerado de mídia no Brasil realiza, eventualmente, um hackaton111. Em essência, times formados por desenvolvedores, jornalistas, designers e outros profissionais são “confinados” por um dia e meio na mesma casa-estúdio do programa Big Brother Brasil. Os participantes dispõem de conexão à internet e acesso a informações privilegiadas para desenvolver projetos inovadores ligados à produção e distribuição de conteúdo. É uma iniciativa de inovação aberta rara em veículos de mídia no Brasil. Ressalta-se, a partir de um dos tópicos do regulamento, que “abertura” não significa “livre”.

A Globo, como uma empresa de grande porte e com grande viés na área de tecnologia, está sempre desenvolvendo projetos na área de Tecnologia de Produção, envolvendo os mais diversos temas, inclusive os temas que poderão ser desenvolvidos e apresentados no decorrer do Evento. Em virtude disso, a Globo poderá implementar, por coincidência, a qualquer momento, eventuais projetos que possam conter ideias e conceitos idênticos ou semelhantes àqueles desenvolvidos na Hackathon, sem que isso signifique dizer que seja devido ao participante qualquer remuneração ou compensação neste sentido, salvo no caso de comprovação cabal e inequívoca de que se trata de projeto de sua autoria, o que somente deverá ocorrer através dos meios judiciais cabíveis112.

111 Informações sobre edições atualizadas podem ser obtidas em: . Acesso em: 20 abr. 2016. 112 Por ser uma camada oculta dentro da página de abertura, o acesso ao texto se dá por meio do link. “regulamento” a partir de . Acesso em: 20 abr. 2016. 123

Apesar da postura de valorização estratégica de seus produtos, que preserva suas funcionalidades e avanços ao público interno, a atuação de seus programadores 113 e pesquisadores 114 não esconde a postura da organização: seu conteúdo é entendido como software. Assim, times editoriais trabalham em conjunto com equipes de desenvolvimento – tanto nos pilares da infraestrutura tecnológica quanto na concepção de produtos diferenciados. Não é comum, por exemplo, uma empresa de mídia no Brasil recrutar um cientista de dados capaz de usar “conhecimentos de áreas como modelagem estatística, aprendizado de máquina, processamento de linguagem natural e recuperação da informação” com objetivos, entre outros, de “gerar recomendação de conteúdo relevante para o usuário de modo a melhorar a sua experiência nos sites”115. Entre os profissionais que atuam próximos aos times editoriais, há o responsável pela alimentação dos dados do SDE, Sistema de Dados Esportivos, coração do site Globoesporte.com. Este editor mantém atualizado ao longo do tempo um esquema de campeonatos e jogos, elencos dos clubes, resultados e estatísticas de partidas, entre outras informações (PENA, 2012). A alimentação do SDE pode ser feita manualmente ou por processos automatizados. Há ainda uma API, restrita aos profissionais do site. A Figura 5.1 sintetiza a importância desse esquema informativo: ao mesmo tempo que repórteres, redatores e setoristas (profissionais responsáveis pela cobertura intensiva de clubes de futebol) podem produzir conteúdo baseado nas informações do SDE, a mesma base é útil em conteúdos alternativos, como o Futpedia116, repositório organizado de fichas de jogos, e o Cartola FC 117 , fantasy game baseado no desempenho individual de clubes, jogadores e técnicos do Campeonato Brasileiro da Série A.

113 Ver o blog dos desenvolvedores da Globo.com, disponível em: , bem como seu repositório aberto de projetos, em: . Acesso em: 20 abr. 2016. 114 Ver: . Acesso em: 20 abr. 2016. 115 Atributos pinçados de anúncio disponível em: . Acesso em: 20 abr. 2016. 116 Disponível em: . Acesso em: 20 abr. 2016. 117 Disponível em: . Acesso em: 20 abr. 2016. 124

Figura 5.2 – Esquema simplificado do Sistema de Dados Esportivos da Globo.com

Fonte: PENA, 2012, p. 39.

O trabalho de Rafael Pena (2012) sugere um modelo semântico semiautomático para a produção de notícias de futebol, que faria, essencialmente, uma conexão entre o SDE e duas bases semânticas, descritas por meio de uma ontologia, capaz ainda de dialogar com bases externas a partir de padrões de linked data. Trata-se de um protótipo apresentado em um trabalho acadêmico, mas que reforça uma preocupação dos desenvolvedores da empresa manifestada em outras situações118. Em 2011 119 já se identificava a profusão de conteúdos capazes de gerar potencial ruído nos resultados de uma busca. As três áreas que compõem o portal (notícias, esportes e entretenimento) possuem, muitas vezes, assuntos semelhantes com pontos de vista diferentes: Romário, por exemplo, pode ser entendido como ex- jogador pelo Globoesporte.com, senador da República pelo G1 e celebridade pelo Gshow. A saída, que motivou um projeto a partir de janeiro de 2009, baseia-se em uma ferramenta de anotação semântica integrada ao sistema de publicação de conteúdos, adaptada a ontologias projetadas e adequadas para cada domínio informativo. Profissionais do time de desenvolvimento ainda perseguem esse objetivo. Um novo protótipo, que leva em conta matérias que se relacionam entre si a

118 Alguns exemplos destas implementações podem ser encontradas no portfólio de Renan Oliveira: . Acesso em: 12 mar. 2015. 119 Material disponível em: . Acesso em: 12 mar. 2015. 125 partir do modelo de ontologia Storyline, da BBC 120 , também foi construído e experimentado a partir da base de dados do Globoesporte.com (DIAS, 2014).

Quadro 5.2 – Metadados em bases de dados jornalísticas da Globo.com Nível Característica Evidência Esquemas Incorporação de dados estruturados externos Sistema de Dados Esportivos para enriquecer suas próprias bases

Codificação manual de fragmentos de Projetos e protótipos internos informação, a partir do CMS, utilizando anotações semânticas Ontologias Relacionamento de conceitos (sujeitos, objetos Projetos e protótipos internos ou lugares) em ontologias por meio de triplas usando tecnologias como RDF Intercâmbio Abertura de conteúdos por meio de API, API do Sistema de Dados permitindo a criação e a interoperabilidade de Esportivos (apenas para uso dados para múltiplos dispositivos e plataformas interno ou autorizado) Conexão de conceitos com dados externos Projetos e protótipos internos (datasets) por meio de tecnologias semânticas padronizadas pelo W3C Fonte: Produzida pelo autor.

The Washington Post (EUA)

Mesmo antes de ser comprado por Jeff Bezos, em 2013, o jornal norte- americano era lembrado pela sua aproximação entre Jornalismo e Computação graças a Adrian Holovaty. Anos após ter recebido US$ 1 milhão do Knight News Challenge para lançar o EveryBlock.com, site pioneiro em informação hiperlocal, ele fez uma provocação em seu blog: afinal, dados podem se tornar jornalismo? É jornalismo disponibilizar um banco de dados na rede? “Aqui, enfim, minha resposta definitiva, em duas partes: 1. Quem se importa? 2. Espero que meus concorrentes percam o maior tempo possível discutindo isso” (HOLOVATY, 2009, tradução nossa) 121 , escreveu o ex-editor de inovação do The Washington Post que, em sua carreira, enxergou a relação entre computação e jornalismo como uma oportunidade. No mesmo ano da aquisição pelo fundador da Amazon, surge um protótipo chamado Truth Teller – uma combinação de algoritmos para processamento de linguagem natural e cruzamento de dados com o intuito de verificar, em tempo real,

120 Disponível em: . Acesso em: 20 abr. 2016. 121 Versão original: “It’s a hot topic among journalists right now: Is data journalism? Is it journalism to publish a raw database? Here, at last, is the definitive, two-part answer: 1. Who cares? 2. I hope my competitors waste their time arguing about this as long as possible”. 126 informações declaradas por políticos em vídeos122. Não é possível saber seu grau de sucesso, mas este “cativante, para não dizer excessivamente otimista exemplo de Jornalismo Computacional, mostra que a comunidade do jornalismo tem problemas que eles gostariam de resolver usando computadores” (STAVELIN, 2013, p. 42, tradução nossa)123. O executivo impulsionou o direcionamento do jornal norte-americano como uma “empresa de tecnologia”: o time de engenheiros triplicou entre 2014 e 2016, espalhado em meio a equipes editoriais e comerciais. Entre os resultados da sinergia entre esses profissionais está a base de dados sobre policiais mortos nos EUA – foram 990 em 2015. Os dados, transformados em reportagens e visualizações124, renderam ao The Washington Post o prêmio Pulitzer. Construída em detalhes por Julie Tate, Jennifer Jenkins e Steven Rich, a referida tabela reúne minuciosas informações de fontes oficiais e não oficiais (inclusive por meio de vídeos enviados pelo público) – entre elas, o local do incidente, gênero, idade e etnia da vítima, arma utilizada e as circunstâncias da ocorrência. Essa base de dados foi disponibilizada para download no GitHub125, um repositório para compartilhamento de informações normalmente usado para a colaboração de desenvolvedores. Ou seja: qualquer usuário pode reutilizar os mesmos dados em outros projetos. Outro resultado da visão que estabelece o “jornal como software” é a plataforma de gerenciamento de conteúdo Arc126, que flexibiliza a apresentação de textos, além de favorecer a geração de relatórios com métricas e funcionalidades de marketing. Além de incorporar novas funcionalidades de acordo com as demandas da redação, o sistema também se tornou um produto. Em 2015, uma nova funcionalidade do Arc foi testada: chamava-se Knowledge Map. Um exemplo de sua utilização é o artigo (mencionado na introdução deste

122 O lançamento da iniciativa pode ser lido em “Announcing Truth Teller beta, a better way to watch political speech”. Disponível em: . Acesso em: 20 abr. 2016. 123 Versão original: “A captivating, if not to say overly optimistic, example of computational journalism [...]. How successful Truth Teller was is so far unanswered, but the idea shows that the journalism community has problems they would like to solve using computers”. 124 Disponível em: . Acesso em: 20 abr. 2016. 125 Disponível em: . Acesso em: 20 abr. 2016. 126 Mais em: . Acesso em: 20 abr. 2016. 127 trabalho) Why the Islamic State leaves tech companies torn between free speech and security127. O texto discute questões de privacidade e segurança a partir da utilização de comunicadores on-line e de redes sociais pelo Estado Islâmico. Durante a leitura, as expressões e questões são acompanhadas pelo sinal (+) e identificadas (ou sublinhadas) por uma cor de destaque. Um clique nesses elementos revela uma janela com informações adicionais de contexto. Diferentemente de um link para outra URL, esse conteúdo relacionado é integrado à visualização. Ao contrário do trabalho de coleta, filtragem e compartilhamento de dados sobre policiais assassinados, a relação entre informações e metadados no exemplo do Knowledge Map é inversa: as próprias reportagens, e não tabelas, produzem as conexões que resultam em novas histórias. Na prática, a base de dados informativa compõe um dataset, com termos associados a blocos de texto que se conectam em um esquema controlado. Ao apresentar o conceito, o diretor de Engenharia para Data Science, Sam Han, apresenta outras técnicas por trás dessa construção.

Esta interação dá margem para o uso de técnicas de mineração de dados para identificar e apresentar conteúdo textual aos nossos leitores. Também estamos trabalhando em aplicações paralelas para impulsionar o engajamento com o nosso conteúdo de publicidade nativa. Nosso objetivo final é minerar grandes quantidades de dados e apresentar informações personalizadas e contextualizadas tanto para o jornalismo quanto anúncios. (THE WASHINGTON POST TESTS NEW KNOWLEDGE MAP FEATURE, 2015, tradução nossa)128.

Quadro 5.3 – Metadados em bases de dados jornalísticas do The Washington Post Nível Característica Evidência Esquemas Incorporação de dados estruturados externos Dados sobre policiais mortos para enriquecer suas próprias bases nos EUA em 2015

Construção de conteúdos baseados em termos Projeto Knowledge Map controlados por meio de fragmentos de texto reutilizáveis Intercâmbio Abertura de conteúdos por meio de uma Dados sobre policiais mortos plataforma de compartilhamento nos EUA em 2015

Desenvolvimento de agentes inteligentes, Projetos Knowledge Map e capazes de reconhecer e aproveitar suas próprias Truth Teller bases de dados

127 Disponível em: . Acesso em: 6 nov. 2015. 128 Versão original: “This iteration sets us up to use data mining techniques to identify and surface contextual content for our readers. We are also working on parallel applications to drive engagement with our native advertising content. Our ultimate goal is to mine big data to surface highly personalized and contextual data for both journalistic and native content”. 128

Fonte: Produzida pelo autor.

The New York Times (EUA)

“Somos uma empresa de notícias, não uma empresa de jornal”. A frase, pinçada de um memorando interno do jornal The New York Times enviado por Arthur Sulzberger e Janet Robinson, é lembrada como exemplo de compromisso com a informação, seja qual for a plataforma. Os projetos apresentados no seu portfólio de inovação 129 , bem como em seu Laboratório de Pesquisa e Desenvolvimento 130 , reforçam essa máxima. Um artigo de Alexis Lloyd, diretora criativa do Research & Development Group, revela que o Project Editor131, por exemplo, “analisa a forma como alguns fragmentos de informação granulares podem ser criados por meio de sistemas colaborativos que dependem fortemente de aprendizado de máquina, bem como inputs editoriais”132. Ainda que o processo de codificação de matérias seja valorizado, de acordo com o projeto seria possível contextualizar e recombinar blocos de conteúdo a partir da anotação desses componentes. Em suma, um processo traduzido em dois desafios: um são os algoritmos capazes de processar essa base de dados e de identificar entidades (pessoas, locais, organizações, eventos); o outro é o jornalista, que deve ser preciso ao realizar anotações manuais. De toda forma, ainda se trata de um protótipo: atualmente, as marcações são aplicadas ao artigo completo – o que não significa ausência de iniciativas nesse sentido. Em 2007, o então arquiteto de software do NYT, Jacob Harris, descrevia a importância dos metadados para a desambiguação, síntese da notícia, consistência das palavras-chave e categorização a partir de domínios específicos – segundo a taxonomia do jornal, um mesmo artigo pode ser rotulado como “aquecimento global” ou “poluição”133. Desta forma, a primeira preocupação está na definição de termos controlados. São 10 mil conceitos mapeados, entre pessoas, lugares, organizações e outras descrições. Há uma versão beta desses termos disponibilizada como linked

129 Disponível em: . Acesso em: 20 abr. 2016. 130 Disponível em: . Acesso em: 6 nov. 2015. 131 Mais informações em: . Acesso em: 6 nov. 2015. 132 “The Future of News is not an Article”. Disponível em: . Acesso em: 6 nov. 2015. 133 “Messing Around With Metadata.” Disponível em: . Acesso em: 12 mar. 2015. 129 open data para utilização em outras aplicações134. A área de desenvolvedores do jornal135 inclui ainda documentação para utilização de APIs específicas, nas quais é possível obter informações relacionadas ao acervo do jornal: busca por artigos e seus termos controlados, críticas de livros e filmes e informações geolocais. Esse mapeamento se refere a um volume de informação centenário. O jornal é pioneiro na digitalização e disponibilização de seu acervo desde sua primeira edição, em 1851 136. Pesquisadores e interessados em relacionar computação e linguagem podem obter, mediante pagamento, uma versão em XML contendo artigos publicados entre 1987 e 2007137. O experimento, batizado de “The New York Times Annotated Corpus”, reúne 1.8 milhões de artigos, sendo que 1.5 milhão possuem algum tipo de anotação estruturada. O fato de ele disponibilizar uma API ou um corpus para pesquisa permite que outras pessoas, fora do âmbito da redação, desenvolvam projetos e aplicações úteis. Exemplos de sistemas construídos a partir desse corpus podem ser encontrados como resultado do HCIR Challenge 2010, um desafio organizado durante a quarta edição do evento Human-Computer Interaction and Information Retrieval138. Em 2012, foi anunciada outra implementação envolvendo marcações estruturais: a adoção do rNews, um padrão de metadados proposto pelo International Press Telecommunications Council (IPTC) e absorvido pela iniciativa Schema.org, que popularizou a adoção de microdados por outras organizações 139 . Além de melhorar a qualidade de buscas em motores como o Google, a adoção desse esquema, nas palavras do diretor da área de Arquivamento e Semântica, Evan Sandhaus, potencializa resultados de recomendação a partir de algoritmos. Iniciativas nesse sentido não se restringem ao Laboratório de Pesquisa e Desenvolvimento. Durante os Jogos Olímpicos de 2012, o hotsite do evento 140 aproveitou dados oferecidos pelo Comitê Olímpico Internacional. Informações sobre

134 O anúncio foi feito em: . Acesso em: 12 mar. 2015. 135 Disponível em: . Acesso em: 12 mar. 2015. 136 Disponível em: . Acesso em: 6 nov. 2015. 137 O anúncio foi feito em: . Acesso em: 6 nov. 2015. 138 Site oficial: . Já os anais podem ser acessados em: . Acesso em: 6 nov. 2015. 139 “rNews is here. And this is what it means”. Disponível em: . Acesso em: 12 mar. 2015. 140 Disponível em: . Acesso em: 12 mar. 2015. 130 atletas e resultados de provas, codificadas em XML, eram relacionadas à cobertura factual141. Além disso, desde 2014, a seção The Upshot142 contextualiza informação política e cotidiana por meio de dados estruturados e visualizações produzidas colaborativamente por jornalistas e cientistas de dados. Mesmo em áreas cujo valor-notícia não é, necessariamente, prioridade, esse cuidado é visível. Relançado também em 2014, o site Cooking 143 ganhou funcionalidades de um aplicativo móvel. Mais do que isso: ele teve sua base de dados completamente reestruturada, com mais de 17 mil receitas com quantidades, medidas, tipo de ingrediente, modo de preparo e outras palavras-chave articuladas. Um único prato requer mais de 50 campos em uma tabela de dados. O script com instruções para separar e codificar quantidades e ingredientes de uma receita estão no GitHub144 – onde outras informações úteis para desenvolvedores são compartilhadas, como as especificações de sua API145. Entre as recomendações para enfrentar os desafios do Jornalismo por meio de uma postura digital inovadora, corroborada por um relatório interno 146, inclui-se a importância dos dados estruturados. Assim o The New York Times pode se comportar como um informativo diário e uma biblioteca ao mesmo tempo. “Expandir as nossas capacidades de dados estruturados nos obrigaria a abordar algumas questões de tecnologia e de fluxo de trabalho. Notavelmente, iria colocar maiores exigências sobre os nossos editores de texto, produtores Web e bibliotecários”147.

Quadro 5.4 – Metadados em bases de dados jornalísticas do The New York Times Nível Característica Evidência Esquemas Utilização de marcações HTML controladas na Adoção dos microformados página Web, como Dublin Core, microformatos, rNews microdados ou RDFa Incorporação de dados estruturados externos The Upshot, hotsite dos Jogos para enriquecer suas próprias bases Olímpicos de 2012

141 Disponível em: . Acesso em: 12 mar. 2015. 142 Disponível em: . Acesso em: 6 nov. 2015. 143 Disponível em: . Acesso em: 6 nov. 2015. 144 Disponível em: . Acesso em: 20 abr. 2016. 145 Disponível em: . Acesso em: 20 abr. 2016. 146 O relatório, restrito à circulação interna da redação, foi obtido e reproduzido, entre outras fontes, em “The Full New York Times Innovation Report”. Disponível em: . Acesso em: 12 mar. 2015. 147 Versão original: “Expanding our structured data capabilities would require us to address some technology and workflow issues. Notably, it would put greater demands on our copy editors, web producers and librarians”. 131

Codificação manual de fragmentos de Projeto Editor informação, a partir do CMS, utilizando anotações semânticas Análise (parsing) e codificação de fragmentos Scripts para análise (parsing) de informação (páginas, bases de dados) com de receitas, projeto Annotated metadados por meio de software (codificação Corpus automática) Construção de conteúdos baseados em termos Projeto Editor controlados por meio de fragmentos de texto reutilizáveis Intercâmbio Abertura de conteúdos por meio de uma Projeto Annotated Corpus plataforma de compartilhamento

Abertura de códigos para tratamento de dados Scripts para análise (parsing) por meio de uma plataforma de de receitas compartilhamento Abertura de conteúdos por meio de API, APIs disponibilizadas em permitindo a criação e a interoperabilidade de developer.nytimes.com dados para múltiplos dispositivos e plataformas Abertura de conteúdos por meio de tecnologias Vocabulários controlados em semânticas padronizadas pelo W3C data.nytimes.com

Fonte: Produzida pelo autor.

The Guardian (Reino Unido)

“Você é bom com planilhas, não é?” Assim um repórter abordou o jornalista Simon Rogers antes de começarem a destrinchar tabelas que resultariam em dados estruturados e visualizações sobre ações do exército norte-americano no Afeganistão148 (ROGERS, 2013). O “cara das planilhas” trabalhou no diário britânico entre 1998 e 2013 e criou o Data Store149, contribuindo profundamente para a cultura de dados e metadados do The Guardian e reforçando o lema cunhado por Charles Prestwich Scott em 1921: “o comentário é livre, mas os fatos são sagrados”150. O objetivo do Data Store, blog que funciona como um repositório de dados associados a reportagens publicadas, é torná-los acessíveis e fáceis de serem trabalhados por jornalistas. Isso envolve horas extraindo informações de arquivos PDF, formatando e padronizando nomes, lugares e outros eventos, mesclando datasets e disponibilizando para download. Com esse cuidado, “é possível combinar

148 Disponível em: . Acesso em: 10 abr. 2016. 149 Disponível em: . Acesso em: 10 abr. 2016. 150 Tradução de “Comment is free, but facts are sacred”, artigo disponível em: . Acesso em: 10 abr. 2016. A expressão “Facts are Sacred” também dá nome ao livro de Simon Rogers sobre práticas jornalísticas do The Guardian envolvendo dados. 132 dados de pobreza com emissão de carbono, ou criminalidade com crescimento econômico” (ROGERS, 2013, tradução nossa)151. A primeira entre as iniciativas relacionadas a jornalismo, computação e dados abertos foi o episódio envolvendo a análise de documentos ligados à despesa de parlamentares britânicos, em 2008. Foram 458 mil documentos divulgados num exercício de crowdsourcing: os leitores do jornal foram convidados a analisar as despesas e a apontar potenciais irregularidades (DANIEL; FLEW, 2010). Assim como o The New York Times, o The Guardian também produziu e disponibilizou informações sobre atletas, medalhas, entre outras, envolvendo os Jogos Olímpicos de Londres, em 2012. Enquanto os profissionais lamentavam o fato de não existirem “dados abertos” (isto é, fáceis de serem reutilizados) disponibilizados por fontes oficiais152, o The Guardian concluiu sua cobertura oferecendo tabelas com todos os medalhistas, recordes, lista de atletas, agenda e resultados153. Seguindo a premissa de “exibir e interrogar os dados como um jornalista e produzir resultados sobre algo diferente” (ROGERS, 2013), foi possível elaborar um quadro de medalhas alternativo154, relacionando informações socioeconômicas ao desempenho dos atletas nas Olimpíadas. A estreia do The Guardian no jornalismo de dados, em 2008, coincidiu com a abertura de um mecanismo que permite acesso a dados elaborados pelo The Guardian por aplicações desenvolvidas externamente: é a Open Platform155. Em seu módulo principal, a Content API, os artigos publicados no site desde 1999, bem como suas tags, podem ser consultados156. Em 2010, a equipe de desenvolvimento anunciou uma funcionalidade baseada em linked data: a possibilidade de consultar a API usando o ISBN de uma publicação ou o identificador de uma banda ou grupo musical do site

151 Versão original: “If a dataset is published as a spreadsheet it’s suddenly easier to use. If that data is properly formatted, i.e. country names have codes on them so you can tell the difference between ‘Burma’ and ‘Myanmar’, or Congo and Congo, Dem Rep – well, suddenly you can start mashing data together, combining poverty rates with carbon emissions or crime figures with economic growth, for instance”. 152 “London 2012: is this the first open data Olympics?”. Disponível em: . Acesso em: 10 abr. 2016. 153 A cobertura dos Jogos Olímpicos de 2012 sob o ponto de vista do uso de dados está disponível em: . Acesso em: 10 abr. 2016. 154 “The alternative Olympic medal table: the final winner? Russia”. Disponível em: . Acesso em: 10 abr. 2016. 155 Disponível em: . Acesso em: 10 abr. 2016. 156 Documentação disponível em: . Acesso em: 10 abr. 2016. 133

MusicBrainz157. Os resultados, associados a artistas ou livros, levam em conta os dados desses datasets externos158. A plataforma aberta do The Guardian mantém ainda a Politics API159, com dados relacionados a parlamentares, partidos políticos, eleições e candidatos, e o modelo MicroApps, que possibilita a integração de conteúdos externos 160 . Todas permitem a reutilização dos conteúdos disponibilizados pelo veículo. Entre as aplicações construídas por terceiros em função dessa iniciativa161, destaque-se o MP Data SPARQL Editor162, que retira informações dessas APIs e as converte em uma base de dados em triplas RDF (PELLEGRINI, 2012). A postura aberta do The Guardian não se limita ao editorial, mas se estende também em relação ao desenvolvimento do site e de seus produtos163. Muitos dos projetos164, inclusive o código-fonte do front-end do site (isto é, sua identificação visual), bem como uma variedade de bibliotecas de código, estão disponíveis em seu perfil no GitHub165. Peter Martin, responsável pelo gerenciamento das tags usadas nas matérias, e Martin Belam, arquiteto de informação, ainda explicam detalhadamente166, com ajuda do time de desenvolvedores, a opção pela folksonomia ao categorizarem os artigos publicados – o número de tags usadas chega a 50 mil.

157 Base de dados sobre músicos. Disponível em: . Acesso em: 10 abr. 2016. 158 Anúncio disponível em: . Acesso em: 10 abr. 2016. 159 Disponível em: . Acesso em: 10 abr. 2016. 160 Mais informações em: “What is the MicroApp framework?”, disponível em: . Acesso em: 10 abr. 2016. 161 Uma lista de aplicações pode ser obtida em: . Acesso em: 10 abr. 2016. 162 Mais informações em: . Acesso em: 10 abr. 2016. 163 Uma discussão sobre a postura aberta do The Guardian pode ser encontrada no artigo “Developing in the open”, do desenvolvedor Robert Rees, disponível em: . Acesso em: 10 abr. 2016. 164 Projetos ativos disponíveis em: . Acesso em: 10 abr. 2016. 165 Disponível em: . Acesso em: 10 abr. 2016. 166 Série de posts: “Tags are Magic”. Disponível em: . Acesso em: 10 abr. 2016. 134

Figura 5.3 – Arquitetura do sistema de gerenciamento de notícias do The Guardian

Fonte: WALL; SILVER, 2008.

Durante a elaboração do sistema, desenvolvedores, designers e redatores decidiram: para responder às preocupações editoriais, as tags poderiam ser relacionadas a séries (reportagens ou eventos específicos), tom (reviews, obituários, cartas dos leitores), colaborador (autores convidados) e, finalmente, a outras palavras- chave correspondentes ao artigo. Todas elas podem ser combinadas entre si, podendo gerar uma página dinâmica à escolha do usuário – é possível, por exemplo, gerar uma página dinâmica apresentando notícias que envolvam “tourada” e “vuvuzela”167.

Quadro 5.5 – Metadados em bases de dados jornalísticas do The Guardian Nível Característica Evidência Marcação Utilização de tags ou palavras-chave para Política de uso de tags relacionar conteúdos em nível primário (folksonomias) Esquemas Incorporação de dados estruturados externos Data Store para enriquecer suas próprias bases

Intercâmbio Abertura de conteúdos por meio de uma Data Store plataforma de compartilhamento

167 Parece um exemplo esdrúxulo, mas é exatamente no que Peter Martin e Martin Belam sugerem clicar: . Acesso em: 10 abr. 2016. 135

Abertura de dados brutos para análise e Projeto MPs’ expenses marcação colaborativa (crowdsourcing)

Abertura de conteúdos por meio de API, Open Platform permitindo a criação e a interoperabilidade de dados para múltiplos dispositivos e plataformas Conexão de conceitos com dados externos Diálogo entre Open Platform (datasets) por meio de tecnologias semânticas com ISBN e MusicBrainz padronizadas pelo W3C Fonte: Produzida pelo autor.

BBC (Reino Unido)

A BBC, British Broadcast Corporation, utiliza metadados associados a ferramentas semânticas desde 2009, sendo o primeiro grupo de mídia a fazê-lo. Não foi à toa: desde os anos 1920, a rede britânica mantém um departamento de pesquisa, o BBC Research & Development168, que apoia o desenvolvimento de seus produtos por meio de projetos inovadores. Já identificando uma grande quantidade de conteúdo on-line (incluindo notícias e entretenimento), mas que não dialogava entre si, ela iniciou projetos que, utilizando a DBPedia como vocabulário controlado, relacionavam internamente programas e músicas (KOBILAROV et al., 2009). No âmbito das notícias, a BBC também já enriquece informações utilizando metadados por meio de um sistema de publicação e gerenciamento de conteúdos – a começar com a organização do material relacionado à editoria “esporte” durante a Copa de 2010169. As 700 páginas agregadoras de entrada, incluindo informações sobre grupos, seleções e jogadores, eram criadas a partir das informações codificadas manualmente em cada notícia publicada no sistema, baseada em RDF e linked data. A experiência resultou na continuidade do processo nas notícias sobre futebol do site BBC Sports. Esforço ampliado durante os Jogos Olímpicos de 2012, em Londres170: um exemplo de como ontologias podem relacionar modalidades, atletas, data, local, resultados e outros atributos pode ser visto na Figura 5.4.

168 Disponível em: . Acesso em: 20 abr. 2016. 169 Disponível em: . Acesso em: 16 jan. 2015. 170 Disponível em: . Acesso em: 16 jan. 2015. 136

Figura 5.4 – Exemplo de ontologia da BBC para um evento dos Jogos Olímpicos de 2012

Fonte: BBC, [s. d.].

Outro exemplo pioneiro, o site BBC Wildlife 171 reúne informações sobre animais selvagens, plantas, entre outros dados do mundo natural. Para cada espécie, há uma página única, gerada dinamicamente, a partir de uma base de dados estruturada – que permite ainda a sugestão de conteúdos relacionados. Por meio de tecnologias semânticas, ele se tornou ainda um dos primeiros repositórios utilizados como complemento a outros produtos jornalísticos da BBC – isto é, sistemas que decidem como os conteúdos devem ser publicados a partir do processamento de metadados, enriquecendo o produto final (LAMMEL; MIELNICZUK, 2012). A cultura de metadados, adaptação e reutilização de conteúdos iniciada por esses projetos, tendo como premissa a identificação de cada item de interesse da BBC em uma URI específica, contribuiu para impulsionar a divisão BBC Future Media172, guarda-chuva das inovações associadas aos serviços digitais, criada em 2011. Um ano depois, em 2012, a divisão BBC Connected Studio lançou um projeto de inovação visando a explorar oportunidades para seus produtos noticiosos a partir de tecnologias

171 Disponível em: . Acesso em: 16 jan. 2015. 172 Disponível em: . Acesso em: 23 fev. 2015. 137 criativas: o BBC News Labs 173 . Trata-se das áreas mais envolvidas em desenvolvimento de aplicações que culminam com tecnologias de linked data. Um dos projetos desenvolvidos pela equipe do Labs, batizado de “The News Juicer”174, consistiu em um protótipo para extração de conceitos, seu relacionamento com a DBPedia e anotação automática nos arquivos da BBC. Em abril de 2014, a BBC Future Media apresentou a nova versão de suas ontologias175, base para sua plataforma de linked data. O site procurou organizar de maneira apropriada o resultado dos projetos e esquemas hospedados na organização desde suas primeiras experiências. Desta forma, ela se mantém inserida no ecossistema de Linked Open Data (LOD). Como resultado desse processo, o serviço BBC Things 176 , lançado em setembro de 2014, oferece acesso público a esses conceitos, permitindo a criação de aplicações a partir de seus dados – na prática, o site da BBC funciona como uma API. A expertise em arquitetura de dados estimula o desenvolvimento de novas ações, como a cobertura das eleições locais britânicas em maio de 2014 177. Para viabilizar as anotações semânticas no conteúdo, foi desenvolvida uma ontologia específica para a cobertura política: entre outras instâncias, candidatos e partidos precisam ter sua própria URI de acordo com os padrões do W3C, bem como relações estabelecidas entre objetos. Com essas amarrações e ferramentas, a equipe é capaz de descobrir quantas vezes um determinado partido foi mencionado durante a cobertura das eleições. Ou, ainda, quais expressões e personagens aparecem com mais frequência ao lado de cada um deles178. Por meio do laboratório, equipes interdisciplinares descobrem novos conceitos e tomam decisões a partir dos protótipos desenvolvidos, aprendendo sobre novas tecnologias e construindo um legado de informações estruturadas em suas bases de dados, o que inclui o desenvolvimento de algoritmos editoriais capazes de extrair e

173 Disponível em: . Acesso em: 23 fev. 2015. 174 Disponível em: . Acesso em: 23 fev. 2015. 175 Disponível em: . Acesso em: 23 fev. 2015. 176 Disponível em: . Acesso em: 23 fev. 2015. 177 Disponível em: . Acesso em: 23 fev. 2015. 178 Disponível em: . Acesso em: 23 fev. 2015. 138 reconhecer metadados de seu conteúdo179. O Datastringer é um dos exemplos mais recentes: é ele que permite ao jornalista monitorar com facilidade bases de dados externas a partir de critérios definidos por uma pauta (SHEARER; SIMON; GEIGER, 2014). Além de esse histórico revelar a capacidade de inovação da BBC, um manifesto ao jornalismo estruturado reforça a escolha desse veículo como referência no campo:

Acreditamos que o jornalismo estruturado tornará a BBC News mais inteligente, eficiente e envolvente. Acreditamos que o jornalismo estruturado permitirá nosso engajamento com o mundo em formas que reconhecem sua verdadeira complexidade. Finalmente, acreditamos que o jornalismo estruturado nos tornará melhores jornalistas – aqueles que têm o poder de mostrar seu trabalho, abrir seus dados, permitir que o público contribua significativamente e criar uma sociedade mais informada. (A MANIFESTO FOR STRUCTURED JOURNALISM, 2015, tradução nossa)180.

Quadro 5.6 – Metadados em bases de dados jornalísticas da BBC Nível Característica Evidência Esquemas Adoção de padrões de relacionamento entre Projeto BBC Wildlife artigos publicados por meio de vocabulários controlados (taxonomias) Aproveitamento de dados externos com Relação de músicas e informações sobre conceitos (sujeitos, objetos programas por meio da ou lugares) para enriquecer suas próprias bases DBPedia Ontologias Codificação de fragmentos de informação Anotações manuais do canal manualmente, a partir do CMS, utilizando BBC Sports na Copa de 2010 e anotações semânticas nos Jogos Olímpicos de 2012 Análise (parsing) e codificação de fragmentos Projeto The News Juicer do de informação (páginas, bases de dados) com BBC News Labs metadados por meio de software (codificação automática) Relacionamento de conceitos (sujeitos, objetos Ontologia específica para ou lugares) por meio de triplas usando cobertura das Eleições 2014 tecnologias como RDF Intercâmbio Abertura de conteúdos por meio de tecnologias Projeto BBC Things semânticas padronizadas pelo W3C Desenvolvimento de agentes inteligentes Algoritmo Datastringer capazes de reconhecer e aproveitar suas próprias bases de dados Fonte: Produzida pelo autor.

179 Disponível em: . Acesso em: 20 abr. 2016. 180 Versão original: “We believe that structured journalism will make BBC News smarter, more efficient, and more engaging. We believe that structured journalism will allow us all to engage with the world in ways that acknowledges its true complexity. And, finally, we believe structured journalism will make better journalists – ones who are empowered to show their work, open their data, allow the public to meaningfully contribute, and create a more informed society”. 139

5.2 Apontamentos sobre o uso de metadados no Jornalismo

“Jornalismo é oposição. O resto é armazém de secos e molhados”. A frase, atribuída a Millôr Fernandes 181 , normalmente usada para debater o poder e a influência da imprensa brasileira (para o bem ou para o mal), perde o sentido a partir dos apontamentos deste trabalho: independentemente do sentido da narrativa (oposição, situação ou a “mitológica” neutralidade), o Jornalismo – entendido como produzido e armazenado em bases na Web que são estruturadas por metadados – também pode ser comparado, no sentido negativo, a um armazém: arquivar páginas estáticas ou bases de dados capazes de gerá-las dinamicamente e, ao mesmo tempo, ignorar a combinação de conceitos relacionados aos metadados seria o equivalente ao amontoar produtos em corredores estreitos e desorganizados. Em contrapartida, diante das alternativas observadas nos grupos de mídia – e sintetizadas no Quadro 5.7 –, que salientam uma visão segundo a qual a notícia é “orientada a software”, o Jornalismo se aproxima das lojas de ferramentas, decoração e construção ao estilo “faça você mesmo”, com materiais e instrumentos ao dispor de qualquer um que souber aproveitá-los. Em síntese, todos os veículos observados apresentam relações entre a notícia – entendida como um objeto de informação estruturado por metadados – e o desenvolvimento de sistemas que permitem sua formalização semântica, recuperação e reutilização para aplicações variadas. Eles representam, acima de tudo, um ganho de informação obtido a partir de um necessário esforço interdisciplinar, dentro e fora do ambiente da organização – especialmente se dados e ferramentas se apresentam de forma aberta. Para Robert K. Yin (2009), além das questões que norteiam a pesquisa, um protocolo para estudo de caso deve ter uma agenda com apontamentos específicos para um investigador ter em mente durante a coleta de dados. Além de apontar para novas oportunidades de elaboração jornalística, a síntese dos procedimentos técnicos descritos, derivados de experimentações ou incrementos rotineiros e equalizados de acordo com a classificação proposta em níveis (marcações, esquemas, ontologias e intercâmbio), é baliza para abordagens específicas sobre investigações envolvendo metadados e bases de dados na Web como apoio a essas possibilidades.

181 A frase era publicada na capa do semanário O Pasquim, em 1975. 140 Quadro 5.7 – Adoção de metadados em bases de dados jornalísticas: proposta para análise Nível de uso Características a serem observadas Globo.com The New York The Washington The Guardian BBC Times Post Marcações Utilização de marcações HTML elementares na área de identificação da página Web (""), normalmente etiquetadas por meio do atributo Identificação visual de campos como título, autor, data de publicação e/ou Comum a todos os veículos modificação e corpo do texto Organização de conteúdos em nível primário por meio de editorias, categorias ou termo similar Utilização de tags ou palavras-chave para relacionar conteúdos em nível Política para uso de primário (folksonomias) tags Esquemas Utilização de marcações HTML controladas na página Web, como Dublin Adoção dos Core, microformatos, microdados ou RDFa microformatos rNews Adoção de padrões de relacionamento entre artigos publicados por meio de Projeto BBC vocabulários controlados (taxonomias) Wildlife Incorporação de dados externos estruturados para enriquecer suas próprias Sistema de Dados The Upshot, hotsite Policiais mortos nos Data Store bases Esportivos dos Jogos de 2012 EUA em 2015 Aproveitamento de dados externos com informações sobre conceitos (sujeitos, Relação entre objetos ou lugares) para enriquecer suas próprias bases músicas com a DBPedia Análise (parsing) e codificação de fragmentos de informação (páginas, bases Parsing de receitas, The News Juicer de dados) com metadados por meio de software (codificação automática) Annotated Corpus Construção de conteúdos baseados em termos controlados por meio de Projeto Editor Knowledge Map fragmentos de texto reutilizáveis Ontologias Codificação de fragmentos de informação manualmente, a partir do CMS, Projetos e protótipos Projeto Editor BBC Sports na Copa utilizando anotações semânticas internos de 2010 e nos Jogos de 2012 Relacionamento de conceitos (sujeitos, objetos ou lugares) em ontologias por Projetos e protótipos Ontologia para meio de triplas usando tecnologias como RDF internos Eleições 2014 Intercâmbio Abertura de dados brutos para análise e marcação colaborativa Projeto MPs’ (crowdsourcing) expenses Abertura de conteúdos por meio de uma plataforma de compartilhamento Projeto Annotated Policiais mortos nos Data Store Corpus EUA em 2015 Abertura de ferramentas ou códigos para tratamento de dados por meio de Scripts para parsing uma plataforma de compartilhamento de receitas Abertura de conteúdos por meio de API, permitindo a criação e a Sistema de Dados developer .nytimes Open Platform interoperabilidade de dados para múltiplos dispositivos e plataformas Esportivos .com Abertura de conteúdos por meio de tecnologias semânticas padronizadas pelo data.nytimes.com BBC Things W3C Conexão de conceitos com dados externos (datasets) por meio de tecnologias Projetos e protótipos Open Platform e semânticas padronizadas pelo W3C internos MusicBrainz Desenvolvimento de agentes inteligentes capazes de reconhecer e aproveitar Knowledge Map e Datastringer suas próprias bases de dados Truth Teller

Fonte: Produzida pelo autor. 141

A visão pioneira de John V. Pavlik dispensa metáforas envolvendo armazéns ou megalojas. Há mais de uma década, ele analisa a influência das novas tecnologias no Jornalismo a partir de quatro esferas: a forma como os jornalistas produzem seu trabalho, o conteúdo da informação jornalística, a estrutura de uma redação e a relação entre organizações de mídia e seus interlocutores (PAVLIK, 2000). Em sua participação no II Encontro Internacional de Tecnologia, Comunicação e Ciência Cognitiva182, o professor da Rutgers University atualizou seu modelo de observação, considerando três tecnologias computacionais como forças contemporâneas capazes de influenciar essas quatro áreas: algoritmos, big data e inteligência artificial – nas três, os metadados são elementos basilares. É possível cruzar essas dimensões – que se diluem na cadeia que envolve a produção e distribuição de conteúdos (PELLEGRINI, 2012) – para propor algumas inferências. A questão central deste trabalho gira em torno da estrutura do conteúdo jornalístico, partindo da premissa de que essa informação pode ser entendida como um sistema e, portanto, formalizada como códigos por trás de um software. Ao mesmo tempo, os computadores se tornaram uma ferramenta indispensável para apuração, produção e distribuição de notícias, conforme evidenciam os processos técnicos listados. As escolhas para essa formalização indicam ainda uma amplitude de processos possíveis: cada veículo que utiliza datasets externos para enriquecer suas próprias bases e produzir conteúdo a partir deles, utiliza estratégias próprias de coleta, filtragem e compartilhamento de dados e esquemas relacionados a eles. O esforço acadêmico em estabelecer linhas de investigação a partir de conceitos, entre outros, como “Jornalismo de Precisão” (sistematização seminal envolvendo ferramentas das Ciências Sociais), “Jornalismo de Dados” (potencialização dessas práticas por meio de bases computacionais) e “Jornalismo Computacional” (centrado na resolução de problemas por meio de uma visão sistêmica), revela intersecções entre esses caminhos. É nessa área comum que reside a importância dos metadados, que representa a síntese do argumento principal desta tese: qualquer abordagem envolvendo o uso de dados para a produção e distribuição de conteúdos jornalísticos, incluindo suas formas de reaproveitamento especialmente por meio de algoritmos, não pode ignorar os processos de estruturação, seja por meio de marcações ou de esquemas mais complexos.

182 O II EITCCC foi realizado entre os dias 3 e 4 de dezembro de 2015 no campus Rudge Ramos da Universidade Metodista de São Paulo (São Bernardo do Campo, SP). 142

A multiplicidade de escolhas apresenta, num primeiro momento, níveis de complexidade – desde marcações elementares em páginas HTML até modelagem e relacionamento entre conceitos por meio de padrões semânticos. Entre esses dois pontos estão o controle na quantidade de termos descritivos, a fragmentação de células informativas, visualizações baseadas em dados armazenados em datasets externos e a disponibilização de material bruto para novas apropriações. Constata-se que, além do potencial de interoperabilidade das informações em ambiente digital, a combinação de escolhas se baseia, essencialmente, em propósitos claros: afinal, o que se quer com esses blocos de informação e as ferramentas para encaixá-los? De fato, a sofisticação a partir de um relacionamento matemático entre blocos informativos, baseados em ontologias, e a disponibilização dessa base de dados enriquecida para compor uma nuvem trançada por algoritmos e outras bases na Web são algo promissor. Mas há outros objetivos não menos nobres que também exigem estruturas de metadados, como construir reportagens baseadas em datasets ou mesmo oferecer suporte para a decisão do jornalista ao selecionar ou hierarquizar uma informação (LIMA JUNIOR, 2009). A definição de propósitos dialoga com os métodos de produção da informação jornalística, bem como com o perfil profissional na redação. Nesse aspecto, há um entendimento de que esse ambiente é menos hostil com quem se dispõe a entender como as tecnologias funcionam. Cabe reconhecer ainda a interdisciplinaridade como fator primordial, impulsionado pelo pensamento computacional. Não se trata de exigir um viés tecnicista do redator que alimenta bases de dados, menos ainda de questionar o responsável por soluções de engenharia por critérios de noticiabilidade. No entanto, ao aproximá-los em equipes cujo objetivo é modelar um sistema capaz de solucionar um problema (obviamente o mesmo para jornalistas e desenvolvedores), pode haver um estímulo em cada uma das partes em explorar, contestar ideias e, consequentemente, desenvolver novas habilidades. Paralelamente, o quadro de possibilidades técnicas sugere que funcionalidades mais sofisticadas são restritas a poucas iniciativas – no caso das organizações observadas, a BBC demonstra familiaridade com a lógica e a cultura de tecnologias semânticas abertas, enquanto outras estão sendo testadas. Essa percepção está em consonância com o ponto de vista de Everett Rogers (apud POMERANTZ, 2015), de que funcionalidades como ontologias, triplas e padrões de linked data serão adotadas caso sejam percebidas como simples ou de utilidade evidente – algo que já acontece 143 com folksonomias (MOHERDAUI, 2011) e esquemas de microdados (RONALLO, 2014). Os propósitos podem estar relacionados a atividades estratégicas, como: a análise de comportamento de usuários e a personalização de conteúdos por meio de dados de navegação; a arquitetura e a organização dos conteúdos, determinando a coerência dos termos e as relações ou a seleção de datasets externos confiáveis; a distribuição de conteúdos em diversas plataformas digitais tendo como base um mesmo sistema tecnológico; ou a trabalhos rotineiros de produção e edição cujos métodos automáticos (ou semiautomáticos) consumiriam menos tempo ou recursos. A relação entre os objetivos e sua complexidade tecnológica implica equipes formadas, entre outros, por cientista de dados, editor de metadados ou especialista em taxonomia e desenvolvedores Web familiarizados com linguagens de marcação como XML e padrões do W3C como RDF – enfim, grupos capazes de delinear fluxos de trabalho e identificar os obstáculos em toda a cadeia produtiva. Trata-se, no entanto, de um cenário ideal – comparável à expectativa em torno da popularização e adoção de padrões semânticos capazes de traçar a Web de Dados, ideia que vem sendo gestada e executada desde 2001. Se, mesmo na Ciência da Computação, as discussões sobre ferramentas estão longe de ser amadurecidas, no Jornalismo a distância aumenta na medida em que profissionais identificam uma erosão de seus valores diante das necessidades diárias de produzir (PHILLIPS et al., 2009) ou procurar diferenciais em relação ao ecossistema informativo – o que também acaba sendo entendido como “inovação” (WESTLUND; LEWIS, 2014). Ainda sobre a postura das organizações de mídia, suas escolhas e relacionamento com o público, os veículos observados neste trabalho historicamente apresentam visão estratégica, lideram iniciativas envolvendo tecnologia (o que inclui laboratórios de pesquisa e desenvolvimento) e constroem seus produtos, demonstrando capacidade de influenciar outros grupos de mídia. Mas, se em uma ponta reside uma expectativa por um ambiente onde a informação possa ser reaproveitada de diversas formas, com veículos de mídia sendo considerados datasets, em outra encontram-se estruturas tradicionais, cuja filosofia comercial reconhece produtos valiosos tanto em seus conteúdos quanto na forma como eles são estruturados. Desta forma, iniciativas desenvolvidas internamente, marcadas por opacidade de processos, exclusividade de acesso e hierarquia, colidem com formatos não proprietários, princípios de acessibilidade e colaboração por meio de conexões 144 rizomáticas em rede. As duas vias se confundem em arranjos flexíveis como nos princípios de inovação aberta (CHESBROUGH; VANHAVERBEKE; WEST, 2006) e estão misturadas às propriedades que cercam esse conceito, tais como experimentação, otimização de processos e competitividade. Ainda que seja um ponto crucial, não cabe aqui um mergulho extenso em questões ligadas à cultura organizacional, da qual proliferam discussões emaranhadas, que vão da propriedade intelectual à obrigatoriedade do diploma para jornalistas. No entanto, uma potencial variável – que pode regular quais conteúdos podem ser compartilhados – está na prestação de contas, atributo intrínseco ao Jornalismo. Da mesma forma que outras organizações que geram dados de relevância social, “abrir o código” (como na disponibilização de planilhas ou APIs) amplifica não apenas a reutilização dos dados em outras aplicações (como se espera com a Web de Dados), mas também a checagem de informações. É a mesma razão, segundo Stavelin (2013), que deve ser levada em conta quando se utilizam algoritmos para construir uma reportagem: deve haver um equilíbrio entre a estratégia de negócios e a transparência sobre a origem e o método de processamento. Seja qual for a escala, a teoria e a prática do Jornalismo são capazes de se fortalecer, caso a adoção de tecnologias associadas a esquemas de metadados que favoreçam a interoperabilidade da informação não seja entendida como “inovação no jornalismo”, mas sim como um “jornalismo inovador”. Em outras palavras, não existiriam casos para um estudo se não houvesse uma visão segundo a qual as conexões interdisciplinares entre as áreas do conhecimento comuns à Comunicação e à Tecnologia são capazes de produzir inovação, e não apropriações que conduzem produtos e processos aos becos sem saída das experimentações. Como essa e outras conjecturas fogem das inferências possíveis a partir das observações apresentadas, o trabalho abre caminho para sua parte final.

145

CONCLUSÃO

Antes de reforçar a pertinência dos metadados na estruturação do Jornalismo na Web e encaminhar inquietações para novas investigações, um adendo: apesar de seguir uma sequência estabelecida no Manual de Normas Técnicas para apresentação de teses elaborado pela instituição183, o termo “introdução” poderia ser substituído por “considerações de andamento”, pois as ideias reunidas ali já foram introduzidas, em outro momento. Da mesma forma, soa pretensioso apresentar uma “conclusão” diante de uma jornada incompleta, na qual ainda há muito a percorrer. Seria bem mais adequado nominar este encerramento como “considerações de encaminhamento”184. Enfim, durante o processo de pesquisa e construção deste trabalho, as primeiras iniciativas de transposição de conteúdos jornalísticos para a Web completaram 20 anos. Neste espaço onde veículos que procuram aproveitar o máximo de recursos coexistem com outros que, no jargão grosseiro dos desenvolvedores, podem ser batizados de “shovelware” (conhecidos pelo seu exagero de funcionalidades, e não pela utilidade deles), foram percebidas iniciativas tão interessantes quanto o Structured Stories ou tão audaciosas quanto o GDELT (ambas já mencionadas), que contemplam o escopo do jornalismo estruturado por metadados. O WordLift185 se apresenta como um editor de anotações semânticas voltado para usuários do popular sistema de gerenciamento WordPress, que combina as informações publicadas com as ligações possíveis por meio de linked data. Desenvolvedores de Sevilha, na Espanha, lançaram um sistema de gerenciamento de conteúdos em código aberto voltado para tecnologias semânticas abertas: é a

183 Elaborado pela professora Cicilia Peruzzo, disponível em: . Acesso em: 4 nov. 2014. 184 Adendo similar ao usado na dissertação de mestrado do autor. A sugestão foi emprestada de Clóvis de Barros Filho e Arthur Meucci, que usaram palavras semelhantes no livro A vida que vale a pena ser vivida (Petrópolis: Vozes, 2010). 185 Disponível em: . Acesso em: 25 maio 2016. 146 plataforma Ximdex 186 . Já os holandeses da Xillio 187 conceberam um projeto denominado Content ETL, sigla para “Extract, Transform, and Load”, que diz respeito ao processo de unificar dados de diferentes repositórios – traduzindo, é um sistema proprietário que auxilia na integração de datasets, eliminando silos informativos. No Brasil, o algoritmo WarRoom, desenvolvido pela Stilingue188, baseia-se em processamento de linguagem natural, mineração de dados e outros algoritmos para extrair relações de dados não estruturados, como sites, blogs, comentários em portais... Milhares deles, em língua portuguesa e em tempo real. Criada por profissionais da Ciência da Computação, a ferramenta é voltada para a inteligência de mercado. Por fim, a búlgara Ontotext 189 , que oferece serviços de pesquisa e desenvolvimento em tecnologia semântica, desenvolveu um sistema chamado “Semantic Publishing Platform”, que combina funcionalidades de anotações semânticas e armazenamento de triplas. Uma demonstração do software pode ser vista no protótipo Now Ontotext190, uma amostra de tecnologias semânticas guiada por dados estruturados que conecta conceitos e gera uma publicação dinâmica. É possível navegar tanto por assuntos (editorias) quanto por links automáticos, produzindo experiências personalizadas e adaptadas ao usuário. Provavelmente outras empresas, sejam de grande porte ou startups, estão sendo criadas, enquanto outras interrompem atividades. Entre esses exemplos, apenas o plugin voltado para blogueiros e jornalistas – além da suíte oferecida pela Ontotext (também oferecida a bibliotecas, museus e ambientes virtuais de aprendizagem) – descreve com clareza as organizações de mídia como público possível. Ainda assim, tanto esse quanto os demais exemplos foram planejados e executados por profissionais sem nenhuma relação com a área de Comunicação. Mesmo que as ideias por trás de cada sistema possam se adaptar a qualquer tipo de conteúdo publicado na Web, elas não foram designadas para o Jornalismo, reforçando o argumento de que as inovações mais interessantes acontecem fora das organizações de mídia (GYNNILD, 2014). O Jornalismo vive momentos de incerteza, mas não dá para imaginar um futuro sem diálogo com aplicações, linguagens, técnicas e plataformas. Até porque, se

186 Disponível em: . Acesso em: 25 maio 2016. 187 Disponível em: . Acesso em: 10 jun. 2016. 188 Disponível em: . Acesso em: 25 maio 2016. 189 Disponível em: . Acesso em: 25 maio 2016. 190 Disponível em: . Acesso em: 25 maio 2016. 147 recuperarmos a teoria crítica oriunda da Filosofia da Tecnologia, quem conduz o processo de inovação não é quem o usa, mas sim quem o constrói. Uma outra situação pode ser usada para reforçar a necessidade de o Jornalismo construir suas próprias ferramentas. Considere um programa jornalístico televisivo com boletins de trânsito. Para apoiar sua informação, o apresentador se utiliza de uma visualização do Waze, sistema que faz o mapeamento e a localização de ruas e avenidas em cidades com o intuito de indicar os melhores trajetos com base em coleta de informações sobre tráfego191. Ao final do boletim, o âncora faz um convite ao telespectador: “as informações do Waze, você vê em detalhes no site de nossa emissora”. Independentemente da estranheza de chamar um software por meio de sua página, posicionando-se como um intermediário (evidente que existem questões comerciais que se sobrepõem aí), deve-se observar de que modo um sistema, apoiado por aplicativos instalados em dispositivos móveis conectados à internet durante a circulação de automóveis, faz com que boletins tradicionais, com repórteres em carros ou helicópteros, pareçam anacrônicos, obsoletos. Com o cruzamento de datasets com metadados que dialogam informações de trânsito a partir de máquinas, cada dispositivo conectado recebe um produto único, personalizado, adaptado às necessidades do usuário, apresentando qualidade informativa diferenciada. E onde está o jornalista nesse momento? Durante os anos 1990, redações buscavam adaptações com a introdução maciça de computadores pessoais, compreendidos nesse princípio como um “tipo avançado de máquina de escrever”. Da mesma forma que o potencial das máquinas computacionais vem sendo reconhecido nas últimas duas décadas, é preciso dialogar ainda mais com tecnologias digitais para extrair relevância de suas bases de dados. A proximidade entre os sistemas e os processos de produção de notícia demonstra a importância de ir além da pirâmide invertida: a informação jornalística deve ter atributos que não apenas ressoem diante dos olhos de quem as vê, mas que também facilitem ações como armazenamento, recuperação e seleção, bem como permitam sua visualização em qualquer dispositivo. A mesma ideia pode ser observada em outra perspectiva: não são as ferramentas tecnológicas que devem nortear esse processo, mas sim as pessoas. Nesse

191 Disponível em: . Acesso em: 12 maio 2015. 148 sentido, o trabalho conjunto entre jornalistas e desenvolvedores pode resultar na troca de habilidades entre esses profissionais. Isoladamente, os profissionais de mídia terão dificuldade em construir essas conexões. Mais do que isso: contribuições sistemáticas por meio do pensamento computacional contribuirão para a adaptação do Jornalismo diante de um cenário em constante mudança, no qual é impossível saber se as configurações tecnológicas que exibem o resultado das relações entre datasets em forma de notícia foram produzidas por um redator, um software ou ambos. As mesmas benesses trazidas por sistemas de personalização e adaptação de informação apontam para outro dilema relevante: a imprensa está habituada a associar o termo “metadados” a relatos de vigilância ostensiva por agências de inteligência, invasão e roubo de informações e outras violações de privacidade. Ainda que sistemas possam ser construídos para auxiliar o jornalista a checar afirmações, construir textos automatizados, desenrolar teias de relações e priorizar seu tempo, o fato de os dados estarem disponíveis não significa que possam ser usados sem permissão, ignorando práticas éticas (BOYD; CRAWFORD, 2012). Isso corrobora a necessidade de uma prestação de contas permanente, algo que nem toda organização de mídia está acostumada a fazer – especialmente quando reconhece um potencial negócio por trás de suas práticas. No outro extremo desse discurso reside a ética hacker – o acesso a computadores e a qualquer coisa que possa lhe ensinar algo sobre como o mundo funciona deveria ser ilimitado (LEVY, 1994). A ponte que liga a catedral com o bazar – ou seja, o equilíbrio entre visões estratégicas abertas e privadas – possibilita que repórteres, cientistas sociais, estatísticos, desenvolvedores ou usuários que participam de hackdays, cursos livres, fóruns e sites especializados se apropriem de dados e plataformas, discutam os melhores procedimentos e aplicações, apontem problemas ou obstáculos e ampliem a possibilidade de aplicações e, por consequência, a relevância desse conteúdo. Em síntese, esse cenário indica que o jornalista deve aprender a desenvolver habilidades como pensar em problemas de forma abstrata, atuar colaborativamente com times interdisciplinares, escolher (ou desenhar) os instrumentos adequados para lidar com eles e, não menos importante, refletir sobre a tensão entre o homem, as máquinas e seus valores, que reforça o binômio entre as humanidades e a tecnologia, pautado por encantamento e conflito. Parece formidável, mas o que fazer com as histórias contadas por diferentes organizações, pressionadas por novas demandas e resultados? Nesse contexto, “talvez o pior erro nesse período tão turbulento seja 149 assumir que qualquer organização de notícias tem encontrado um modelo universalmente direito de tomar a frente [...] e aqueles com o maior interesse em manter o status quo são os mais sensíveis” (PHILLIPS et al., 2009, p. 78, tradução nossa)192. Não há perspectiva fácil, mas algo pode ser apreendido das organizações que, em seu planejamento, priorizam investimento em laboratórios de pesquisa e desenvolvimento. Na contramão, as alterações curriculares no curso de Jornalismo, potencializadas pelas Novas Diretrizes Curriculares, ainda confundem a valorização de novas habilidades com abordagens instrumentais, bem como espaços incipientes para considerações sobre os impactos da evolução tecnológica (LIMA JUNIOR; OLIVEIRA, 2015). Em nível acadêmico, ferramentas tradicionais de investigação (como as utilizadas neste trabalho) são úteis para produzir registros exploratórios e descritivos, mas não se deve esquecer que o conhecimento humano é, em sua maior parte, hipotético (BUNGE, 2007, p. 96): seu rigor é mensurado a partir de sua capacidade de analisar fenômenos contemporâneos em uma perspectiva mais ampla, encadeando situações particulares de modo a construir teorias e conceitos consistentes. Exige, portanto, um constante embate científico. Sair do “anacronismo improcedente”, dar um “salto tecnológico e metodológico” e deixar de empregar “esquemas antigos para dar conta de fenômenos radicalmente novos” (SALAVERRÍA, 2015) implica replicar a lógica dos laboratórios de mídia nas universidades, inclusive por meio de parcerias, produzindo futuras investigações aplicadas, que conversem com as investigações teóricas e empíricas, mais comuns à área de Comunicação. Isso expandiria as fronteiras do Jornalismo, fortalecendo-as como ciência. Ou, nas palavras do filósofo e engenheiro polonês Alfred Korzybski, conhecido por ter desenvolvido a teoria da semântica geral, seria reconhecer que “um mapa não é o território”.

192 Versão original: “Perhaps the worst mistake at this stage of such a turbulent period would be to assume that any news organization has found a universally right model to take forward. [...] In any period of change, those with the greatest vested interest in the status quo are likely to feel unsettled”. 150

151

REFERÊNCIAS

A MANIFESTO FOR STRUCTURED JOURNALISM. BBC News Labs, Londres, 7 jul. 2015. Disponível em: . Acesso em: 6 nov. 2015.

ALLEN, R. B.; SCHALOW, J. Metadata and data structures for the historical newspaper digital library. In: PROCEEDINGS ACM CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT, 8., 1999, Missouri. Anais... Missouri: CKM Conference, 1999.

ALVES-MAZZOTTI, A. J. Usos e abusos dos estudos de caso. Cadernos de Pesquisa, São Paulo, v. 36, n. 129, p. 637-651, set./dez. 2006.

ALVES, R. C. Jornalismo digital: Dez anos de web… e a revolução continua. Comunicação & Sociedade, São Bernardo do Campo, v. 9-10, p. 93-102, 2006.

ANDERSON, C. W. Notes towards an analysis of computational journalism. HIIG Discussion Paper Series, [s. l.], v. 1, p. 1-22, out. 2012.

ANDERSON, C. W.; BELL, E.; SHIRKY, C. Post-industrial journalism: adapting to the present. Tow Center for Digital Journalism, New York, 3 dez. 2014. Disponível em: . Acesso em: 3 mar. 2013.

ANDREW, L. P. The missing links: an archaeology of digital journalism. [S. l.] Yale University, 2008.

BACA, M. Introduction to metadata. Los Angeles, CA: Getty Publications, 2008.

BARBOSA, S.; TORRES, V. O paradigma “jornalismo digital em base de dados”: modos de narrar, formatos e visualização para conteúdos. Revista Galáxia, São Paulo, n. 25, p. 152-164, jun. 2013.

BBC. Sport Ontology. Londres: BBC, [s. d.]. Disponível em: . Acesso em: 23 fev. 2015.

BERNERS-LEE, T. Weaving the web. New York: HarperCollins, 2000.

BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. The semantic web. Scientific American, [s. l.], p. 34-43, maio 2001.

152

BERRY, D. M. The computational turn: thinking about the digital humanities. Culture Machine, Coventry, v. 12, p. 1-22, 2011.

BERTOCCHI, D. Dos dados aos formatos: o sistema narrativo no jornalismo digital. In: ENCONTRO ANUAL DA COMPÓS, 23., 2014, Belém. Anais... Belém, PA: Compós, 2014.

BIZER, C.; HEATH, T.; BERNERS-LEE, T. Linked data: the story so far. International Journal on Semantic Web and Information Systems (IJSWIS), Hershey, p. 205-227, 2009.

BOYD, D.; CRAWFORD, K. Critical questions for big data. Information, Communication & Society, [s. l.], v. 15, n. 5, p. 662-679, 2012.

BRIN, S.; PAGE, L. Reprint of: The anatomy of a large-scale hypertextual web search engine. Computer Networks, [s. l.], v. 56, n. 18, p. 3825-3833, 2012.

BUNGE, M. La ciencia: su método y su filosofía. Buenos Aires: Siglo Veinte, 1987.

______. Diccionario de Filosofía. Buenos Aires: Siglo Veintiuno, 2007.

CAMPOMAR, M. C. Do uso de “estudo de caso” em pesquisas para dissertações e teses em administração. Revista de Administração, São Paulo, v. 26, n. 3, p. 95-97, 1991.

CAMPOS, M. L. D. A. Modelização de domínios de conhecimento: uma investigação de princípios fundamentais. Ciência da Informação, Brasília, v. 33, n. 1, p. 22-32, 2004.

CAPLAN, P. Metadata fundamentals for all librarians. Chicago: American Library Association, 2003.

CARLSON, M. The Robotic Reporter: automated journalism and the redefinition of labor, compositional forms and journalistic authority. Digital Journalism, [s. l.], v. 3, n. 3, p. 37-41, 2015.

CASTELLS, P. et al. Neptuno: semantic web technologies for a digital newspaper archive. In: The Semantic Web: Research and Applications. Athens: Springer Berlin Heidelberg, 2004. p. 445-458.

CASWELL, D. A. Structured narratives as a framework for journalism: a work in progress. In: INTERNATIONAL WORKSHOP ON COMPUTATIONAL MODELS OF NARRATIVE, 6., Atlanta, 2015. Anais... Atlanta, GA: [s. n.], 2015.

CASWELL, D. A.; RUSSELL, F.; ADAIR, B. Editorial aspects of reporting into structured narratives. In: COMPUTATION+JOURNALISM SYMPOSIUM, 2015, New York. Anais... New York: [s. n.], 2015.

CHESBROUGH, H.; VANHAVERBEKE, W.; WEST, J. Open innovation: researching a new paradigm. New York: Oxford University Press, 2006. 153

CHRISTENSEN, C. M. Disruptive Innovation. In: The Encyclopedia of Human- Computer Interaction. 2. ed. Aarhus: Interaction Design Foundation, [s. d.]. Disponível em: . Acesso em: 28 ago. 2012.

CODDINGTON, M. Clarifying journalism’s quantitative turn. Digital Journalism, [s. l.], v. 3, n. 3, p. 331-348, 2015.

COHEN, S.; HAMILTON, J. T.; TURNER, F. Computational journalism. Communications of the Association for Computing Machinery, New York, v. 54, n. 10, p. 66-71, 1 out. 2011.

CORRÊA, E. N. S.; BERTOCCHI, D. A cena cibercultural do jornalismo contemporâneo: web semântica, algoritmos, aplicativos e curadoria. Matrizes, São Paulo, v. 5, n. 2, p. 123-144, 2012a.

______. O algoritmo curador: o papel do comunicador num cenário de curadoria. In: ENCONTRO ANUAL DA COMPÓS, 21., 2012, Juiz de Fora. Anais... Juiz de Fora: Universidade Federal de Juiz de Fora, 2012b

CRAIG, R. T. Communication Theory as a Field. Communication Theory, v. 9, n. 2, p. 119–161, 1999.

DAGIRAL, É.; PARASIE, S. Portrait du journaliste en programmeur: l’émergence d’une figure du journaliste “hacker”. Les Cahiers du Journalisme, [s. l.], n. 22/23, p. 144-155, 2011.

DANIEL, A.; FLEW, T. The guardian reportage of the UK MP expenses scandal: a case study of computational journalism. Communications Policy and Research Forum, Sydney, v. 15-16, nov. 2010.

DEBEVERE, P. et al. Enabling Semantic Search in a News Production Environment. In: INTERNATIONAL CONFERENCE ON SEMANTIC AND DIGITAL MEDIA TECHNOLOGIES, 5., Berlim, 2010. Anais... Berlim: [s. n.], 2010

DIAKOPOULOS, N. Cultivating the landscape of innovation in computational journalism. New York: Cuny Graduate School of Journalism, 2012.

DIAS, C. P. Um modelo para cobertura de notícias na Web. Rio de Janeiro: PUC- Rio, 2014.

DING, L.; FININ, T. Characterizing the semantic web on the web. In: INTERNATIONAL SEMANTIC WEB CONFERENCE, 5., 2006, Athens. Anais... Athens: Springer Berlin Heidelberg, 2006. Disponível em: . Acesso em: 10 jun. 2016.

DIRSCHL, C. et al. LOD2 for Media and Publishing. In: AUER, S.; BRYL, V.; TRAMP, S. (Eds.). Linked open data: creating knowledge out of interlinked data. 154 lecture notes in computer science. [S. l.] Springer International Publishing, 2014. 8661. p. 133-154.

DOCTOROW, C. Metacrap: putting the torch to seven straw-men of the meta- utopia. California: Well, 2001. Disponível em: . Acesso em: 26 mai. 2016.

DODGSON, M.; GANN, D. Innovation: a very short introduction. New York: Oxford University Press, 2010.

DOGRUEL, L. What is so special about media innovations? A characterization of the field. The Journal of Media Innovations, Oslo, v. 1, n. 1, p. 52-69, 2014.

DUSEK, V. Philosophy of technology: an introduction. Malden, MA: Blackwell Publishing, 2006.

EISENHARDT, K. M. Building theories from case study research. Academy of Management Review, New York, v. 14, n. 4, p. 532-550, 1989.

FEENBERG, A. Looking backward, looking forward: reflections on the Twentieth Century. Hitotsubashi Journal of Social Studies, Tóquio, v. 33, p. 135-142, 2001.

FLEW, T.; SPURGEON, C.; DANIEL, A. The promise of computational journalism. In: MEDIA, DEMOCRACY AND CHANGE: REFEREED PROCEEDINGS OF THE AUSTRALIAN AND NEW ZEALAND COMMUNICATIONS ASSOCIATION ANNUAL CONFERENCE. Anais... Canberra: [s. n.], 2011. Disponível em: . Acesso em: 18 set. 2012.

FLORIDI, L. Information: a very short introduction. New York: Oxford University Press, 2010.

FRAGOSO, S.; RECUERO, R.; AMARAL, A. Métodos de pesquisa para internet. Porto Alegre: Sulina, 2011.

FRASINCAR, F.; BORSJE, J.; LEVERING, L. A semantic web-based approach for building personalized news services. International Journal of E-Business, Hershey, n. 2, 2009.

GALINDO ARRANZ, F. Propuesta de periodización histórica y evolución conceptual del Periodismo de Precisión. Estudios sobre el Mensaje Periodístico, Madrid, n. 10, p. 97-112, 2004.

GARCÍA AVILÉS, J. A.; CARVAJAL, M. Integrated and cross-media newsroom convergence: two models of multimedia news production: the cases of novotécnica and la verdad multimedia in Spain. Convergence: The International Journal of Research into New Media Technologies, [s. l.], v. 14, n. 2, p. 221–239, 1 maio 2008.

155

GENRO FILHO, A. O Segredo da Pirâmide: para uma teoria marxista do jornalismo. Porto Alegre: Tchê!, 1987.

GIBBERT, M.; RUIGROK, W.; WICKI, B. What passes as a rigorous case study? Strategic Management Journal, [s. l.], v. 29, p. 1465-1474, dez. 2008.

GITELMAN, L. “Raw Data” is an Oxymoron. Cambridge, MA: MIT Press, 2013.

GLEICK, J. The information: a history, a theory, a flood. New York: Pantheon Books, 2011.

GOUVÊA, C.; LOH, S. Jornalismo semântico: uma visão em direção ao futuro do jornalismo online. In: LONGHI, R.; D’ANDRÉA, C. (Eds.). Jornalismo convergente: reflexões, apropriações, experiências. Florianópolis: Insular, 2012.

GRASSI, M. et al. Pundit: augmenting web contents with semantics. Literary and Linguistic Computing, Oxford, v. 28, n. 4, p. 640-659, 18 set. 2013.

GRAY, J.; BOUNEGRU, L.; CHAMBERS, L. The data journalism handbook: how journalists can use data to improve the news. [S. l.]: The Open Knowledge Foundation, European Journalism Centre, 2012.

GREENBERG, J. Metadata and digital information. In: BATES, M. J.; MAACK, M. N.; DRAKE, M. (Eds.). Encyclopedia of library and information science. New York, NY: Marcel Dekker, 2009. p. 1-23.

GUALLAR, J.; ABADAL, E.; CODINA, L. Sistema de análisis de hemerotecas de prensa digital. Trípodos, Barcelona, n. 31, p. 37–64, 2013.

GUNTHER, E.; QUANDT, T. Word counts and topic models: automated text analysis methods for digital journalism research. Digital Journalism, [s. l.], v. 4, n. 1, p. 75-88, 2016.

GYNNILD, A. Journalism innovation leads to innovation journalism: The impact of computational exploration on changing mindsets. Journalism, v. 15, n. 6, p. 713-730, 2014.

HALFORD, S.; POPE, C.; CARR, L. A manifesto for Web Science. Journal Webscience, Raleigh, p. 1-6, abr. 2010.

HALVORSON, K.; RACH, M. Content strategy for the web. 2. ed. Berkeley, CA: New Riders, 2012.

HAN, M.-J. Metadata with levels of description: new challenges to catalogers and metadata librarians. In: WORLD LIBRARY AND INFORMATION CONGRESS, 78., 2012, Finlândia. Anais... Haia: Ifla, 2012. Disponível em: . Acesso em: 4 set. 2014

156

HEATH, T.; BIZER, C. Linked data: evolving the web into a global data space. [S. l.: s.n.], 2011.

HEBELER, J. et al. Semantic web programming. Indianápolis, IN: Wiley Publishing, Inc., 2009. v. 20

HERAVI, B. R.; BORAN, M.; BRESLIN, J. G. Towards social semantic journalism. [S. l.: s.n.]: 2012.

HEY, T.; TANSLEY, S.; TOLLE, K. The fourth paradigm: data-intensive scientific discovery. Redmond, WA: Microsoft Research, 2009.

HILTZ, S. R.; TUROFF, M. The network nation: human communication via computer. Massachusetts: MIT Press, 1993.

HOLOVATY, A. The definitive, two-part answer to “is data journalism?”. Holovaty, [s. l.], 21 maio 2009. Disponível em: < http://www.holovaty.com/writing/data-is- journalism/>. Acesso em: 5 jun. 2013.

JENKINS, H. Cultura da convergência. São Paulo: Aleph, 2009.

KALLIPOLITIS, L.; KARPIS, V.; KARALI, I. Semantic search in the World News domain using automatically extracted metadata files. Knowledge-Based Systems, [s. l.], v. 27, p. 38-50, mar. 2012.

KASHYAP, V.; BUSSLER, C.; MORAN, M. The semantic web: semantics for data and services on the web. Berlim: Springer-verlag Berlin Heidelberg, 2008.

KOBILAROV, G. et al. Media meets semantic web: how the BBC uses DBpedia and Linked Data to make connections. ESWC 2009, [s. l.], p. 723-737, 2009.

KORZYBSKI, A. Science and sanity. An introduction to non-Aristotelian systems and general semantics. Oxford, England: International Non-Aristotelian Library Science and sanity, 1933.

KUNCZIK, M. Conceitos de jornalismo: Norte e Sul. São Paulo: Edusp, 1997.

LAKATOS, E. M.; MARCONI, M. A. Fundamentos de metodologia científica. 5. ed. São Paulo: Atlas, 2003.

LAMMEL, I.; MIELNICZUK, L. Aplicação da Web Semântica no jornalismo. Estudos em Jornalismo e Mídia, Florianópolis, v. 9, n. 1, p. 180-195, 5 jul. 2012.

LANE, K. What is an API. [S. l.]: 3Scale, 2013. Disponível em: . Acesso em: 30 set. 2015.

LAURENTIZ, S. Tags e metatags? De Ted Nelson a Tim Berners-Lee. Revista Porto Arte, Porto Alegre, v. 17, n. 28, p. 17-33, 2010.

157

LEETARU, K.; SCHRODT, P. A. GDELT: Global Data on Events, Location and Tone, 1979-2012. Annual Meeting of the International Studies Association, San Francisco, EUA, p. 1979-2012, abr. 2013.

LEMOS, C. Inovação na era do conhecimento. In: Informação e globalização na era do conhecimento. [S. l.: s. n.], 1999. p. 122-144.

LEVY, S. Hackers: heroes of the computer revolution. [S. l. : s. n.], 1994.

LEWIS, S. C.; WESTLUND, O. Big Data and Journalism: epistemology, expertise, economics, and ethics. Digital Journalism, [s. l.], v. 3, n. 3, p. 447-466, 2014.

LICKLIDER, J. C. R.; TAYLOR, R. W. The Computer as a Communication Device. Science and Technology, [s. l.], 1968.

LIMA JUNIOR, W. T. Avanço qualitativo na pesquisa sobre tecnologias aplicadas ao jornalismo. Revista Líbero, São Paulo v. 10, n. 20, p. 123-130, 2007.

______. Big Data, Jornalismo Computacional e Data Journalism: estrutura, pensamento e prática profissional na Web de dados. Estudos em Comunicação, [s. l.], n. 12, p. 207-222, 2012.

______. Classificação das bases conceituais para elaboração de sistema digital de busca de fontes jornalísticas. Revista Galáxia, São Paulo, n. 12, p. 115-128, 2006a.

______. Considerações sobre interdisciplinariedade e o campo da Comunicação Social. Brazilian Journal of Technology, Communication, and Cognitive Science, [s. l.], v. 2, n. 1, 2014.

______. Intersecções possíveis: tecnologia, comunicação e ciência cognitiva. Comunicação & Sociedade, São Bernardo do Campo, v. 34, n. 2, p. 93-119, 2013a.

______. Jornalismo computacional em função da “Era do Big Data”. Revista Líbero, São Paulo, v. 14, n. 28, p. 45-52, 2011.

______. Jornalismo inteligente na era do data mining. Revista Líbero, São Paulo, n. 18, p. 119-126, 2006b.

______. O uso dos Sistemas de Suporte à Decisão (SSD) visando à melhora da qualidade do conteúdo jornalístico. Revista Famecos, Porto Alegre, v. 38, p. 79-85, 2009.

______. O surgimento da nova camada complexa da Web e a apropriação doméstica das tecnologias digitais conectadas. Comunicação & Inovação, São Caetano do Sul, v. 14, n. 27, p. 10-18, 2013b.

LIMA JUNIOR, W. T.; OLIVEIRA, A. R. DE. Habilidades tecnológicas e ensino superior em Jornalismo no Brasil: observação das exigências contemporâneas e seu contraste com as grades curriculares. E-Compós, [s. l.], v. 18, n. 2, p. 1-22, 2015.

158

LIU, J.; DOLAN, P.; PEDERSEN, E. R. Personalized news recommendation based on click behavior. In: INTERNATIONAL CONFERENCE ON INTELLIGENT USER INTERFACES, 15., New York, 2010. Anais... New York: ACM Press, 2010. Disponível em: . Acesso em:

LOPES, L. C. Artefatos de Memória e representações nas mídias. Ciberlegenda, Niterói, n. 7, 2002.

LUCZAK-RÖSCH, M.; HEESE, R. Linked data authoring for non-experts. In: WWW2009, 2009, Madrid. Anais... Madrid: [s. n.], 2009. Disponível em: . Acesso em: 15 set. 2014

MACHADO, E. Metodologias de pesquisa em jornalismo: uma revisão histórica e perspectivas para a produção de manuais de orientação. Brazilian Journalism Research, Brasília, v. 6, n. 1, p. 10-28, 2010.

MACHADO, E.; PALACIOS, M. Um modelo híbrido de pesquisa: a metodologia aplicada pelo GJOL. In: LAGO, C.; BENETTI, M. (Eds.). Metodologia de pesquisa em jornalismo. Petrópolis: Vozes, 2007. p. 199-222.

MANCINI, P. Hackear el periodismo: manual de laboratorio. Buenos Aires: La Crujía, 2011.

MANOVICH, L. Trending: the promises and the challenges of big social data. [S. l.: s. n.], 2011.

MARCONDES, C. H. “Linked Data” – dados interligados – e interoperabilidade entre arquivos, bibliotecas e museus na web. Encontros Bibli: Revista Eletrônica de Biblioteconomia e Ciência da Informação, Florianópolis, v. 17, n. 34, p. 171-192, 2012.

MARTINO, L. C.; BOAVENTURA, K. T. O Mito da Interdisciplinaridade: história e institucionalização de uma ideologia. Revista da Associação Nacional dos Programas de Pós-Graduação em Comunicação – E-Compós, [s. l.], v. 16, n. 1, p. 16, 2013.

MARTINS, G. A. Estudo de caso: uma reflexão sobre a aplicabilidade em pesquisas no Brasil. Revista de Contabilidade e Organizações, Ribeirão Preto, v. 2, p. 8-18, 2008.

MENÁRGUEZ, A. T. Não é preciso ser matemático para ser especialista em ‘big data’. El País, Madri, 16 fev. 2015. Disponível em: . 20 abr. 2016.

MEYER, C. B. A case in case study methodology. Field Methods, Flórida, v. 13, n. 4, p. 329-352, 2001.

MIRROR, I. Can news media use linked data for a stronger future? IPTC, London, n. 1, p. 2-7, fev. 2010. 159

MITCHELL, M. Complexity: a guided tour. New York: Oxford University Press, 2009.

MOHERDAUI, L. Jornalismo baseado em tags. Revista Nexi, São Paulo, p. 1-18, 2011.

MORETZSOHN, S. D. O “novo ritmo da redação” de O Globo: a prioridade ao jornalismo digital e seus reflexos nas condições de trabalho e produção da notícia. Revista Parágrafo, São Paulo, v. 2, n. 2, p. 59-79, 2014.

NEGROPONTE, N. A vida digital. Rio de Janeiro: Companhia das Letras, 1995.

OLIVEIRA, M.; MAÇADA, A. C. G.; GOLDONI, V. Forças e fraquezas na aplicação do estudo de caso na área de sistemas de informação. R ista st o, São Paulo, v. 16, n. 1, p. 33-49, 2009.

PALACIOS, M. A memória como critério de aferição de qualidade no ciberjornalismo: alguns apontamentos. Revista Famecos, Porto Alegre, v. 37, 2008.

PALACIOS, M. Convergência e memória: jornalismo, contexto e história. Matrizes, São Paulo, v. 4, n. 1, p. 37-50, 2010.

______. Ferramentas para análise de qualidade no ciberjornalismo. Covilhã, Portugal: LabCom Books, 2011. (Volume 1: Modelos).

PALACIOS, M.; DÍAZ NOCI, J. Ciberperiodismo: métodos de investigación. Bilbao: Servicio Editorial de la Universidad del País Vasco, 2009.

PAVLIK, J. V. The impact of technology on journalism. Journalism Studies, [s. l.], v. 1, n. 2, p. 229-237, 2000.

PELLEGRINI, T. Semantic metadata in the news production process: achievements and challenges. In: INTERNATIONAL ACADEMIC MINDTREK CONFERENCE, 12., 2012, Finlândia. Anais... Finlândia: Tampere, 2012

PENA, R. A. P. Suporte semântico à publicação de conteúdo jornalístico na Web. Rio de Janeiro: Pontifícia Universidade Católica do Rio de Janeiro, 2012.

PEREIRA, A. L. S. Tecnologia como atributo do delineamento do domínio da Comunicação Social. In: ENCONTRO INTERNACIONAL TECNOLOGIA, COMUNICAÇÃO E CIÊNCIA COGNITIVA, 1., 2014, São Bernardo do Campo. Anais... São Bernardo do Campo: Umesp, 2014.

PHILLIPS, A. et al. Implications of technological change for journalists tasks and skills. Journal of Media Business Studies, [s. l.], v. 6, n. 1, p. 61-85, 2009.

PIETOSO, C. R. Newspapers as platforms: how open apis can impact journalism. London, UKCity University, 2009.

160

POLLERES, A. et al. Can we ever catch up with the Web? IOS Press, Amsterdã, p. 1-5, 2010.

POMERANTZ, J. Metadata. Cambridge, MA: The MIT Press, 2015.

POPPER, K. R. A lógica da pesquisa científica. 16. ed. São Paulo: Cultrix, 2008.

QUADROS, C. I. Base de dados: a memória extensiva do jornalismo. Em Questão, Porto Alegre, v. 11, n. 2, p. 409-423, 2005.

QUESADA, M. Periodismo de investigación: una metodología para el periodismo especializado. In: FERNANDEZ DEL MORAL, J. (Ed.). Periodismo especializado. Barcelona: Ariel, 2004. p. 123-143.

QUINTANA, M. Poesia completa. Rio de Janeiro: Nova Aguilar, 2006.

RAMOS, D. O. Formato: condição para a escrita do jornalismo digital de base de dados. São Paulo: Universidade de São Paulo, 2011.

REIG, R. Crisis del sistema, crisis del periodismo: contexto estructural y deseos de cambio. Barcelona: Gedisa, 2015.

RIBAS, B. Web Semântica e produção de notícias: anotações para o estudo da aplicação da tecnologia ao campo do Jornalismo. In: ENCONTRO NACIONAL DE PESQUISADORES EM JORNALISMO, 5., 2007, Aracaju. Anais... Aracaju: Associação Brasileira de Pesquisadores em Jornalismo, 2007.

ROCKLEY, A.; COOPER, C. Managing enterprise content: a unified content strategy. Berkeley, CA: New Riders, 2012.

ROGERS, S. Facts are sacred. London: Guardian Books, 2013.

RONALLO, J. HTML5 Microdata and Schema.org. The Code4Lib Journal, [s. l.], n. 16, p. 1-17, 2014.

ROYAL, C. The journalist as programmer: a case study of The New York Times interactive news technology department. In: INTERNATIONAL SYMPOSIUM ON ONLINE JOURNALISM, 2010, Austin. Anais... Austin, TX: The University of Texas at Austin, 2010.

RUBIO LACOBA, M. Nuevas destrezas documentales para periodistas: el vocabulario colaborativo del diario El País. Trípodos, Barcelona, n. 31, p. 65-78, 2012.

SALAHELDEEN, H. M.; NELSON, M. L. Losing my revolution: how many resources shared on social media have been lost? In: Theory and Practice of Digital Libraries. Athens: Springer Berlin Heidelberg, 2012. p. 125-137.

SALAVERRÍA, R. Ideas para renovar la investigación sobre medios digitales. El Profesional de la Información, Barcelona, v. 24, n. 3, maio/jun. 2015. 161

SALAVERRÍA, R.; GARCÍA AVILÉS, J. A. La convergencia tecnológica en los medios de comunicación: retos para el periodismo. Trípodos, Barcelona, n. 23, 2008.

SAMAJA, J. A. Epistemología y metodología: elementos para una teoría de la investigación científica. Buenos Aires: Editorial Universitaria de Buenos Aires (Eudeba), 2004.

SARACEVIC, T. Ciência da informação: origem, evolução e relações. Perspectivas em Ciência da Informação, Belo Horizonte, v. 1, n. 1, p. 41-62, 1996.

SCHREIBMAN, S.; SIEMENS, R.; UNSWORTH, J. A companion to Digital Humanities. Malden, MA: Blackwell Publishing, 2004.

SCHWINGEL, C.; CORREA, B.-H. Dados, sistemas e circulação no ciberjornalismo: análise do fluxo de produção do jornalismo em bases de dados com preceitos da Teoria Sistêmica e Gestão da Informação. In: SIMPÓSIO NACIONAL DA ASSOCIAÇÃO BRASILEIRA DE PESQUISADORES EM CIBERCULTURA, 7., 2013, Curitiba. Anais... [S. l.]: Associação Brasileira de Pesquisadores em Cibercultura, 2013.

SEELOS, C.; MAIR, J. Innovation is not the holy grail. Stanford Social Innovation Review, Stanford, 2012. Disponível em: . Acesso em: 3 set. 2012.

SHANNON, C. E. A mathematical theory of communication. The Bell System Technical Journal, v. 27, p. 379–423, 1948.

SHAPIRO, I. Evaluating journalism. Journalism Practice, [s. l.], v. 4, n. 2, p. 143- 162, 2010.

SHEARER, M.; SIMON, B.; GEIGER, C. Datastringer: easy dataset monitoring for journalists. In: COMPUTATION+JOURNALISM SYMPOSIUM, 2014, New York. Anais... New York: Columbia Journalism Schools, 2014. Disponível em: . Acesso em: 8 mar. 2015.

SICILIA, M.-A.; LYTRAS, M. Metadata and Semantics. New York: Springer Science+Business Media, LLC, 2009.

SILVA, D. L.; SOUZA, R. R. Representação de documentos multimídia: dos metadados às anotações semânticas. Tendências da Pesquisa Brasileira em Ciência da Informação, Belo Horizonte, v. 7, n. 1, 2014.

SNOW, C. P. The two cultures and the scientific revolution. London: Cambridge University Press, 1959.

162

SOUZA, R. R.; ALVARENGA, L. A Web Semântica e suas contribuições para a ciência da informação. Ciência da Informação, Brasília, v. 33, n. 1, p. 132-141, 2004.

STAVELIN, E. Computational journalism: when journalism meets programming. Bergen: University of Bergen, 2013.

STEENSEN, S. Online journalism and the promises of new technology. Journalism Studies, [s. l.], v. 12, n. 3, p. 311-327, 2011.

______. What’s stopping them? Towards a grounded theory of innovation in online journalism. Journalism Studies, [s. l.], v. 10, n. 1, p. 821-836, 2009.

STEINER, C. Automate this: how algorithms came to rule the world. London: Portfolio; Penguin, 2012.

THE WASHINGTON POST TESTS NEW KNOWLEDGE MAP FEATURE. WashPost PR Blog, Washington (DC), 16 jul. 2015. Disponível em: . Acesso em: 6 nov. 2015.

TRÄSEL, M. Jornalismo guiado por dados: relações da cultura hacker com a cultura jornalística. In: ENCONTRO ANUAL DA COMPÓS, 22., 2013, Salvador. Anais... Salvador: Universidade Federal da Bahia, 2013.

TRONCY, R. Bringing the IPTC news architecture into the semantic web. In: INTERNATIONAL SEMANTIC WEB CONFERENCE, 7., 2008, Karlsruhe. Anais... ISWC: Karlsruhe, 2008.

TURKLE, S. Alone together. Philadelphia, PA: Basic Books, 2011.

TURNER, F.; HAMILTON, J. T. Accountability through algorithm: developing the field of computational journalism. Disponível em: . Acesso em: 18 set. 2012.

USHER, N.; LEWIS, S. C. Open source and journalism: toward new frameworks for imagining news innovation. Media, Culture & Society, [s. l.], v. 35, n. 5, p. 602-619, jul. 2013.

WACHTER-BOETTCHER, S. Content everywhere: strategy and structure for future-ready content. New York, NY: Rosenfeld Media, 2012. v. 53

WALL, M.; SILVER, N. Domain-Driven Design in an Evolving Architecture. InfoQ, [s. l.], 22 jul. 2008. Disponível em: < https://www.infoq.com/articles/ddd-evolving- architecture>. Acesso em: 10 abr. 2016.

WANG, T. D.; PARSIA, B.; HENDLER, J. A survey of the web ontology landscape. In: INTERNATIONAL SEMANTIC WEB CONFERENCE, 2006, Athens. Anais... Athens: Springer Berlin Heidelberg, 2006. 163

WATTS, D. Tudo é óbvio, desde que você saiba a resposta: como o senso comum nos engana. São Paulo: Paz e Terra, 2011.

WEINBERGER, D. Small Pieces Loosely Joined. Cambridge, MA: Perseus Books, 2002.

WESTLUND, O.; LEWIS, S. C. Agents of media innovations: actors, actants and audiences. The Journal of Media Innovations, Oslo, v. 1, n. 2, p. 10-35, 2014.

WILSON, R. A.; KEIL, F. C. The MIT Encyclopedia of the Cognitive Sciences (MITECS). Boston: Massachusetts Institute of Technology, 1999.

WING, J. M. Computational thinking. Communications of the Association for Computing Machinery, New York, v. 49, n. 3, p. 33-35, 1 mar. 2006.

XIE, Z. et al. Archiving the relaxed consistency web. In: ACM INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT, 22., 2013, São Francisco, EUA. Anais… São Francisco, EUA: ACM, 2013. p. 2119-2128.

YARASAVAGE, N.; BUTTERHOF, R.; EHRMAN, C. National Digital Newspaper Program: A Case Study in Sharing, Linking, and Using Data. In: ACM/IEEE-CS joint conference on Digital Libraries, 12., 2012, Washington, EUA. Anais... Washington, EUA: ACM, 2012

YIN, R. K. Case study research: design and methods. Oaks, CA: Sage Publications, 2009.

YONAMINE, J. E. Predicting Future Levels of Violence in Afghanistan Districts. In: ANNUAL MEETING OF THE EUROPEAN POLITICAL SCIENCE ASSOCIATION, 3., 2013, Barcelona. Anais… [S. l.]: EPSA, 2013. p. 1-32.