PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO
PUC-SP
Paulo Sérgio Rangel Garcia
Estudo sobre aplicação de web semântica e visualização em dados abertos.
Proposta de portal para transparência em séries históricas de indicadores sociais, econômicos e financeiros, públicos na web
MESTRADO EM TECNOLOGIAS DA INTELIGÊNCIA E DESIGN DIGITAL
SÃO PAULO
2011
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO
PUC-SP
Paulo Sérgio Rangel Garcia
Estudo sobre aplicação de web semântica e visualização em dados abertos
Proposta de portal para transparência em séries históricas de indicadores sociais, econômicos e financeiros, públicos na web
MESTRADO EM TECNOLOGIAS DA INTELIGÊNCIA E DESIGN DIGITAL
Dissertação apresentada à Banca Examinadora da Pontifícia Universidade Católica de São Paulo – PUC- SP, como exigência parcial para obtenção do título de MESTRE em Tecnologias da Inteligência e Design Digital - Processos Cognitivos e Ambientes Digitais, sob a orientação do Professor Doutor Demi Getschko.
SÃO PAULO
2011
Banca Examinadora:
------
------
------
Esta dissertação é dedicada a minha esposa, Vilma, por seu incentivo e apoio aos meus projetos e acima de tudo pelo que ela representa em minha vida.
AGRADECIMENTOS
Em primeiro lugar, aos meus pais, Floreal Garcia e Ana Teodora Rangel Garcia, por tudo o que fazem e fizeram na constituição de nossa família, por seus valores pessoais e pelas experiências de vida que compartilham com todos, apoiando a busca do conhecimento. A todos os professores que ao longo de nossas vidas nos beneficiam, compartilhando conhecimentos e experiências que nos permitem chegar cada vez mais longe, representados especialmente pelos professores, Sérgio Basbaum, Alexandre Campos, Ítalo Santiago Vega, Jorge de Albuquerque Vieira, Nélson Brissac e o meu orientador nesta Dissertação, Professor Demi Getschko. E também a todos os nossos amigos e colegas que de forma direta ou não nos apoiaram e incentivaram na superação dos desafios para a realização de trabalhos como este, especialmente representados por Edna Conti, sempre zelosa e prestativa com todos os alunos do TIDD.
Por vezes sentimos que aquilo que fazemos não é senão uma gota de água no mar. Mas o mar seria menor se lhe faltasse uma gota.
Madre Teresa de Calcutá, Agnes Gonxha Bojaxhiu
RESUMO
GARCIA, Paulo Sérgio Rangel. Estudo sobre aplicação de web semântica e visualização de dados abertos. 2011. 155f. Dissertação (Mestrado) – Pontifícia Universidade Católica de São Paulo – PUC-SP, São Paulo, 2011.
Este trabalho tem como objetivo discutir um modelo para a construção de portal que dê transparência a séries históricas de indicadores sociais, econômicos e financeiros, públicos e disponíveis na web. Para se chegar a esse objetivo, foram realizados estudos em autores como Manuel Castells, Tim Berners-Lee, Vinton Cerf, Karin K. Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização de dados. A partir do estudo da evolução histórica da Internet, buscou-se compreender como foi possível formar esse contexto de dinamismo não ordenado, com alta produção, criando condições para a alta disponibilidade de dados e informações que existem hoje. Abordando conceitos e tecnologias relacionadas à web semântica, ontologias, web services, agentes de software, visualização de dados e otimização dos mecanismos de buscas, discutiu-se técnicas e metodologias que viabilizem a sua construção de maneira a permitir que tais dados sejam coletados e que estejam disponíveis em formatos compreensíveis para seres humanos e integráveis a outros sistemas computacionais. Foi também analisado o e-Gov atual, especialmente no Brasil, avaliando suas características, tendências e oportunidades de evolução utilizando dados e estudos disponibilizados pelo NIC.BR e W3C BR. Assim, com base nesses estudos e na experiência do autor, esta dissertação tem o objetivo de propor um modelo de portal que permita a interatividade humana e integração com outros sistemas computacionais, das séries históricas públicas coletadas, formatando e disponibilizando-as de maneira estruturada para a sociedade. ` Por fim, é feita a indicação de pesquisas futuras, as quais venham contribuir para a discussão e o desenvolvimento de sites e serviços que apropriem dados abertos públicos.
Palavras-chave: web semântica, Ontologias, Metadados, Visualização de dados, Dados abertos.
ABSTRACT
GARCIA, Paulo Sérgio Rangel Garcia. Study on application of semantic web and viewing in open data. São Paulo, 2011. 2011. 155f. Dissertation (Masters) – Pontifícia Universidade Católica de São Paulo – PUC-SP, São Paulo, 2011.
This paper aims to discuss a model for constructing a transparent portal that contains historical trends of public social, economical and financial indicators, preferably if collected at e-Gov websites. In order to reach that objective, we researched extensively within Manuel Castells, Tim Berners-Lee, Vinton Cerf, Karin K. Breitman, Martha Gabriel and Fernanda Viegas’s work, amongst others, about semantic web, ontologies, search engine optimization and data visualization. Starting from a study of the historical evolution of internet, we try to understand how was possible to forge this context of highly productive disorganized dynamics that provided the conditions of the massive availability of information and data that we see today. By utilizing concepts and technologies such as metadata, ontologies, web services, software agents, data visualization and optimization of research mechanisms, we discuss techniques and methodologies that could make collecting data as fast as possible feasible, as well as putting it together in a way that either humans or other computer systems may easily understand. We also analyze the current e-Gov services provided by the Brazilian government by evaluating its characteristics, tendencies and possibilities for evolution and growth by utilizing data and research provided by NIC.BR and W3C BR. Thus, based on research and the author’s own experience, this dissertation will try to propose a model for a portal that allows human interaction and integration with other computer systems for historical trends collected via web and formats and provides this data to society in a structured way. Finally, we indicate future researches that may contribute to the discussion and development of websites and services that apropriate public open data.
Keywords: Semantic web, Ontologies, Metadata, Data visualization, Open data.
Lista de Figuras
Figura 1 - Linha do Tempo da Internet ...... 36 Figura 2 - Estrutura do ICANN ...... 37 Figura 3 - Estrutura organizacional do NIC.br e CGI.br ...... 41 Figura 4 - Framework de Warwick ...... 58 Figura 5 - Classificação de ontologias...... 66 Figura 6 - Estrutura interrelacionada de tecnologias da web semântica ...... 68 Figura 7 - Camadas da Linguagem OIL ...... 71 Figura 8 - Fluxo de trabalho de agente de software ...... 82 Figura 9 - Modelo de Chi para o fluxo de criação de visualizações ...... 101 Figura 10 - Exemplo de visualização de dados no Google Public Data Explorer ...... 104 Figura 11 - Exemplo de visualização de dados da Bovespa em 2009 ...... 105 Figura 12 - Visualização da distribuição de usuários do Facebook no mundo ...... 106 Figura 13 - Número máximo de serviços e-Gov utilizados ...... 120 Figura 14 - Fatores limitadores ao uso de serviços de e-Gov ...... 123 Figura 15 - Barreiras ao uso de serviços de e-Gov ...... 125 Figura 16 - Desenho esquemático da proposta do Portal de séries históricas ...... 136 Figura 17 - Representação gráfica do ciclo de vida da ontologia...... 142
LISTA DE TABELAS
Tabela 1 - Tipos e funções de metadados por Anne Gilliland-Swetland ...... 53 Tabela 2 - Classificação de Ontologias segundo seu espectro semântico ...... 65 Tabela 3 - Classificação de ontologias quanto à generalidade ...... 65 Tabela 4- Classificação de ontologias quanto ao tipo de informação que representam...... 66 Tabela 5- Classes / primitivas do RDF-schema ...... 69 Tabela 6 - Comparação entre as Linguagens OIL e DAML ...... 73 Tabela 7 - Metodologias, métodos e norma frente às categorias de análise predefinidas ...... 76 Tabela 8 - Tabela das principais ontologias ...... 77 Tabela 9 - Principais ferramentas para o desenvolvimento de ontologias...... 80 Tabela 10 - Tipos de agentes conforme a OMG Object Management Group ...... 83 Tabela 11 - Principais agentes ...... 83 Tabela 12 - Aplicações da web semântica ...... 84 Tabela 13 - Opções permitidas dentro do arquivo robots.txt ...... 96 Tabela 14 - Resumo das principais categorias de visualização de dados ...... 102 Tabela 15 - Uso do acesso web x presencial (cidadão) ...... 114 Tabela 16 - Uso do acesso tecnológico x presencial (Empresas) ...... 114 Tabela 17 - Quadro de propensão ao uso de e-Gov (cidadão) ...... 115 Tabela 18 - Nível de recomendação ao uso de e-Gov (cidadão) ...... 115 Tabela 19 - Formas de contato inicial com ofertas do e-Gov (cidadão) ...... 116 Tabela 20 - Nível de satisfação com os serviços e-Gov (cidadão)...... 116 Tabela 21 - Nível de confiança no governo (cidadão) ...... 117 Tabela 22 - Nível de satisfação com os serviços e-Gov (empresas) ...... 117 Tabela 23 - Avaliações positivas sobre a prestação de serviços do governo (cidadão) ...... 118 Tabela 24 - Problemas encontrados em sites do governo ...... 119 Tabela 25 - Uso de serviço e-Gov por categoria (Buscas e/ou transações) ...... 119 Tabela 26 - Influência percebida pelos cidadãos em questões de ordem pública ...... 127 Tabela 27 - Penetração das mídias sociais (ao menos um acesso nos últimos 3 meses) ...... 128 Tabela 28 - Lembrança das peças publicitárias do governo ...... 129
SUMÁRIO
CAPÍTULO 1 INTRODUÇÃO ...... 14 1.1 COMO CONTRIBUIR PARA MUDAR ESTE CENÁRIO? ...... 15 1.2 WEB SEMÂNTICA ...... 16 1.3 VISUALIZAÇÃO DE DADOS ...... 17 1.4 OTIMIZAÇÃO ON-PAGE (SEO) ...... 17 1.5 GUIA DO LEITOR ...... 18
CAPÍTULO 2 UM BREVE HISTÓRICO DA INTERNET ...... 20 2.1 O INÍCIO (1945 A 1972) ...... 22 2.2 REDE DE REDES (1972 - 1990) ...... 25 2.3 OUTRAS INFLUÊNCIAS NA FORMAÇÃO DA INTERNET ...... 27 2.4 WORLD WIDE WEB, O HIPERTEXTO E A INTERNET COMERCIAL (1990 - 1995) ...... 28 2.5 A FORMAÇÃO DA CULTURA DA INTERNET ...... 31 2.6 O ESTADO ATUAL E SEUS REFLEXOS ...... 33 2.7 A GOVERNANÇA DA INTERNET ...... 35 2.7.1 A governança da Internet no Brasil ...... 40 2.7.2 Princípios para a governança e uso da Internet ...... 42 2.7.3 Considerações sobre o futuro ...... 44
CAPÍTULO 3 CONCEITOS ESSENCIAIS ...... 45 3.1 A QUESTÃO DA WEB SEMÂNTICA ...... 48 3.1.1 Contraponto com a “inteligência artificial” ...... 50 3.1.2 Metadados ...... 51 3.1.2.1 Padrão Dublin Core ...... 54 3.1.2.2 Framework de Warwick ...... 57 3.1.2.3 Resource Description Framework (RDF) ...... 58 3.1.2.4 Restrições ao modelo de Metadados da web semântica ...... 60 3.1.3 Ontologias ...... 62 3.1.3.1 Classificações ...... 64 3.1.3.2 Linguagens para Representar Ontologias ...... 67 3.1.3.2.1 RDF e RDF-Schema ...... 68 3.1.3.2.2 SHOE ...... 70 3.1.3.2.3 OIL...... 70 3.1.3.2.4 DAML ...... 72 3.1.3.2.5 DAML + OIL ...... 73
3.1.3.2.6 OWL ...... 74 3.1.3.3 Principais metodologias de desenvolvimento de Ontologias...... 75 3.1.3.4 Principais Ontologias ...... 77 3.1.3.5 Ferramentas de apoio ao desenvolvimento de ontologias ...... 79 3.1.3.6 Agentes de software ...... 81 3.1.4 Aplicações da web semântica...... 84 3.2 A QUESTÃO DOS MECANISMOS DE BUSCAS ...... 85 3.2.1 Código da página...... 85 3.2.1.1 Endereço da página (URL) ...... 85 3.2.1.2 Metatags ...... 86 3.2.1.2.1 Metatag Keywords ...... 86 3.2.1.2.2 Metatag Description ...... 87 3.2.1.3 Tag Title
CAPÍTULO 4 O E-GOV E A PROPOSTA DO PORTAL ...... 107 4.1 O E-GOV ...... 107 4.2 E-GOV NO BRASIL ...... 110 4.2.1 Maneiras de acesso ao e-Gov ...... 113 4.2.2 Cenário para o futuro do e-Gov no Brasil ...... 114 4.2.3 Qualificação do uso do e-Gov...... 119 4.2.4 Limitadores ao uso do e-Gov ...... 120 4.2.5 Barreiras ao uso do e-Gov ...... 123 4.2.6 Desafios ao e-Gov ...... 125 4.2.7 Oportunidades de melhorias e novos serviços ...... 129 4.3 O PORTAL ...... 131 4.3.1 Ética, legalidade e respeito ...... 131 4.3.2 Proposta de Portal ...... 135 4.3.2.1 Detalhamento do Portal ...... 138 4.3.2.1.1 Captura ...... 138 4.3.2.1.1.1 Coleta ...... 138 4.3.2.1.1.2 "Robô de buscas" ...... 139 4.3.2.1.1.3 Interface de entrada de dados ...... 140 4.3.2.1.2 Semântica ...... 140 4.3.2.1.2.1 Ontologias ...... 140 4.3.2.1.2.2 Metadados ...... 142 4.3.2.1.2.3 Dados em formato RDF ...... 143 4.3.2.1.2.4 Banco de dados ...... 143 4.3.2.1.3 Entrega ...... 143 4.3.2.1.3.1 Webservices ...... 144 4.3.2.1.3.2 Interface de consultas...... 144 4.3.2.1.3.3 Visualização de dados ...... 144 4.3.2.1.4 SEO ...... 144 4.3.2.1.5 Road Map ...... 145 4.3.2.1.6 Social empowerment ...... 145
CAPÍTULO 5 CONSIDERAÇÕES FINAIS ...... 146 5.1. LIMITAÇÕES DO ESTUDO ...... 147 5.2. POSSÍVEIS CONTRIBUIÇÕES ...... 148 5.3. SUGESTÕES PARA ESTUDOS FUTUROS ...... 148
REFERÊNCIAS ...... 151
14
CAPÍTULO 1
INTRODUÇÃO
A razão desta dissertação surgiu de nossa percepção quanto às dificuldades na busca1 em obterem-se de forma objetiva e relevante as informações necessárias no ciberespaço.
Percebe-se que, em sua evolução histórica, a Internet criou condições para que um volume crescente e avassalador de dados, informações e conhecimento2 nos sejam disponibilizados, porém sem uma forma estruturada, implicando em que apenas humanos possam interpretar essa vastidão de conteúdo, requerendo um enorme esforço para avaliar, classificar e selecionar as informações de interesse.
Quando se fala em web, pode-se dividi-la da seguinte forma:
web indexada são as páginas3 que estão dentro dos bancos de dados dos buscadores4; web visível são as páginas que não estão, mas podem ser indexadas; web invisível, ou também chamada de web profunda, são as páginas não indexadas que não podem ser indexadas pelos buscadores.
Em 2001 estimava-se a web profunda em 500 bilhões de páginas (BERGMAN, 2001). Quanto à web indexada, estimava-se até o final de janeiro de 2005 em torno de 11,5 bilhões de páginas, com o Google sendo responsável por 76% dessa abrangência (GULLI et al.,2005).
Considerando Bergman e Gulli, percebe-se que os buscadores abrangem em torno de 2% das páginas existentes, o que é uma fração muito pequena do todo, ao contrário do que acredita a maior parte dos internautas que os considera verdadeiros oráculos, detentores de todo o saber da web.
1 Esta ação de busca pode ser definida como o processo pelo qual obtém-se informações relevantes no uso de critérios e filtros de seleção em grandes volumes de informação (GABRIEL, 2009, p. 21). 2 Dados são o produto da pesquisa, criação, coleta ou descoberta, mas estão em um estado bruto, inadequados para a comunicação, não podendo compor uma mensagem completa. Para terem valor precisam estar organizados, transformados e apresentados de forma lógica de maneira a terem significado e sentido para o interlocutor -- nesse momento os dados se transformam em Informação. Finalmente, o Conhecimento é a compreensão das informações, obtido pela experiência, podendo ser comunicado por meio de interações entre indivíduos, o que caracteriza o seu aspecto participativo (RIBEIRO, 2009, p. 24). 3 Website é o conjunto de páginas que o compõe. 4 São websites que pesquisam todos os documentos na rede, e a apresentação do resultado é aleatória, dependendo do ranking de acessos aos sites. As informações podem referir-se a qualquer tema. Google, Yahoo!, MSN são os buscadores mais acessados. 15
Entretanto vale registrar que o tamanho exato da web indexada e da web profunda é variável e impreciso, apesar de existirem mensurações atualizadas podendo ser obtidas em Worldwidewebsize (2011), que em 8 de janeiro de 2011 estimava em 13,75 bilhões de páginas indexadas na web.
Essa diferença entre a web indexada e a web profunda ocorre por alguns fatores, por exemplo:
sites em que é necessária a autenticação do usuário para acessar suas páginas, por exemplo, os sites de relacionamento e suas comunidades; critérios e filtros adotados pelos buscadores, supostamente bem intencionados; eles podem considerar páginas como inadequadas, por exemplo, pelo uso de mecanismos on-page considerados não éticos, e assim puni-las com a não inclusão em seus bancos de dados; estruturas de websites impedindo que os robots ou crawlers5 desses buscadores cheguem até a parte mais profunda de suas páginas, não as adicionando a seus bancos de dados, por exemplo, ausência do arquivo robots.txt que declara se podem ou não ser explorados por estes agentes dos buscadores; até mesmo por razões políticas, como no caso da Google na China.
1.1 COMO CONTRIBUIR PARA MUDAR ESSE CENÁRIO?
É consenso que não existe conhecimento sem informação, mas existiria aumento de conhecimento com o excesso de informações desorganizadas? Ou ainda, o excesso no contexto desorganizado não nos colocaria diante de estímulos frágeis, sem significado e que isso teria um efeito contrário ao aumento do conhecimento? São questões importantes e fica claro que impõem a necessidade de mudanças nesse cenário desordenado, mas também é certo que isso não se fará com ações isoladas ou com a adoção de uma tecnologia “mágica” que supra todas as deficiências e necessidades. Isso, provavelmente, se dará por um conjunto de ações (planejadas ou espontâneas) e tecnologias que de forma gradativa e integrada irão evoluir adicionando facilidades e funcionalidades ao ciberespaço.
5 Robots ou crawlers (robôs ou aranhas) são os agentes utilizados pelos buscadores para varrer a Internet buscando informações (keywords, metatags etc.) nas páginas para indexá-las em seus bancos de dados. 16
Em Tasic (2007, p. 13), o autor, citando Edmonson e Mcmanus, coloca que boas questões em pesquisas devem buscar um balanço entre a sua significância no mundo real e sua potencial contribuição para a Academia, com um equilíbrio, evitando que as questões sejam meramente filosóficas ou esotéricas, ou simplesmente pragmáticas ou mundanas. Seguindo nessa direção, acrescenta que a questão da pesquisa deve ser aquela em que a resposta não é conhecida completamente.
Nessa linha, por meio do estudo da evolução da Internet para compreensão do seu contexto de alta produção e disponibilidade desordenada de dados, pelo estudo de conceitos e tecnologias que se propõe a organizá-la e buscando entender o cenário do e-Gov no Brasil, esta dissertação tem a pretensão de propor uma resposta à seguinte questão:
Como dar transparência a séries históricas de indicadores sociais, econômicos e financeiros, públicos na web coletados em sites de e-Gov?
Com base nesses estudos, esta dissertação tem a ambição de propor um modelo de portal que permita a interatividade humana e integração com outros sistemas computacionais, das séries históricas públicas coletadas gratuitamente via web.
Quanto às tecnologias que serão abordadas, este trabalho focará web semântica, Visualização de Dados e Otimização on-page (SEO6).
1.2 WEB SEMÂNTICA
No mundo corporativo e acadêmico existem pesquisadores trabalhando no desenvolvimento e criação da web semântica. Nela as informações estarão organizadas de maneira estruturada, permitindo que máquinas processem e integrem seus recursos de forma inteligente, possibilitando buscas de informações mais rápidas, consistentes e relevantes, facilitando a comunicação entre dispositivos heterogêneos. Vale acrescentar que pela estruturação e conjuntos de regras de inferência, as informações poderão ser automaticamente deduzidas,
6 SEO - Search Engine Optimization engloba as técnicas envolvidas no tratamento de conteúdo, código e estruturas das páginas do website de forma tecnológica e ética para otimização no processo de indexação dos buscadores. 17
assim, ao contrário da web sintática7, a web semântica será processada também por computadores (BERNERS-LEE et al.,2001).
Também é relevante conceituar que a ideia da web semântica não envolve uma Internet desconectada da atual, mas um complemento ou sua extensão (FELICISSIMO, 2004, p. 15).
1.3 VISUALIZAÇÃO DE DADOS
A visualização de dados tem sido utilizada ao longo dos tempos de muitas formas, mas a partir da computação tem se destacado entre as possíveis maneiras de transmitir a informação, pois assim a comunicação visual se apresenta como poderosa expressão do conhecimento.
A visualização de dados tem o poder de fazer com que assuntos complexos se tornem concretos e acessíveis, relatando fatos e possibilitando a tomada de decisões baseando-se em dados.
Daí a importância da visualização de dados no século 21. Não só retrata os fatos da nossa época, mas motiva o debate. Visualizar dados governamentais, por exemplo, cria uma imagem do país, mostrando os avanços e atrasos, as conquistas e mazelas, indicando direções a seguir e desvios a serem corrigidos e evitados.
1.4 OTIMIZAÇÃO ON-PAGE (SEO)
Um campo que tem trabalhado intensamente com a questão da otimização em mecanismos de buscas na web é o do marketing, especificamente o marketing de busca.
Search Engine Marketing (SEM) ou Marketing de Otimização de Buscas (MOB) é o processo que utiliza os mecanismos de buscas para promover um website, aumentar seu tráfego e/ou fidelidade e prioritariamente aumentar o retorno sobre o investimento. SEM abrange todas as ações internas (on-page) e externas (off-page) ao site para atingir as metas pretendidas (GABRIEL, 2009, p. 44).
7 Web sintática é a web na sua forma atual em que apenas faz a apresentação do conteúdo ficando a sua interpretação a cargo dos seres humanos (BREITMAN, 2006, p. 2). 18
A parte do SEM que trata as técnicas de otimização internas ao site (on-page) recebe o nome de SEO (Search Engine Optimization), envolvendo conteúdo, código e estrutura do website tratados ética e tecnicamente, enquanto que a parte que trata as otimizações off-page envolvem ações de relações públicas, links patrocinados etc. (GABRIEL, 2009, p. 46)
Esta dissertação focará as técnicas de SEO por tratarem de aspectos on-page que se alinham à proposta de trabalho.
1.5 GUIA DO LEITOR
O capítulo 2 desta dissertação aborda a evolução histórica da Internet, buscando compreender como se chegou ao cenário atual, como ocorre a governança da Internet e quais entidades a organizam.
O capítulo 3 trata de conceitos essenciais. Inicia-se com a questão da web semântica, debatendo o contraponto entre a web semântica e a inteligência artificial, Metadados (Padrão Dublin Core, RDF e restrições a metadados), Ontologias e suas linguagens, principais metodologias de desenvolvimento, principais ontologias, ferramentas de apoio ao desenvolvimento e principais agentes e aplicações que utilizam web semântica.
Depois se tratará da questão da visualização de dados e por que utilizá-la, classificação de modelos e uma análise de contexto finalizando esse item com aplicações de visualização de dados existentes na web.
Finalmente será abordada a questão dos mecanismos de busca, detalhando o seu significado, técnicas e cuidados necessários encerrando com a indicação de algumas ferramentas SEO disponíveis.
No capítulo 4 será apresentado o estado atual do e-Gov no Brasil avaliando suas características, tendências e oportunidades de evolução.
Concluindo este capítulo, discorrer-se-á sobre o modelo para um portal focado na coleta e armazenamento sistêmicos de séries históricas públicas em sites de e-Gov, que permita, 19
gratuitamente, a interatividade dos seus usuários e a integração desses dados com outros sistemas computacionais por meio da web.
Finalmente, no capítulo 5, serão apresentadas as limitações deste estudo, considerações finais e contribuições, além de propostas para trabalhos futuros partindo do que foi abordado nesta dissertação.
20
CAPÍTULO 2
UM BREVE HISTÓRICO DA INTERNET
No final do século XX surgiu um cenário convergente em que três processos isolados se uniram criando uma estrutura social baseada em redes:
as demandas da economia por flexibilidade administrativa e pela globalização do capital, comércio e da produção; as exigências da sociedade sobre liberdade individual e a comunicação aberta e transparente; avanços tecnológicos na microeletrônica que alavancaram o desenvolvimento da computação e das telecomunicações.
Nessas condições, a Internet, uma tecnologia com pouca aplicação prática e restrita aos círculos dos cientistas e pesquisadores computacionais, dos hackers8 e das comunidades contraculturais, transformou-se na mola propulsora para o surgimento de uma nova estrutura social baseada em redes e com ela um novo modelo de economia (CASTELLS, 2003, p. 8).
Vive-se um momento de grandes transformações, onde tecnologias como redes de telefonia fixa e móvel, TV a cabo, distribuição de energia elétrica, redes wi-fi, equipamentos de processamento de informação cada vez menores, portáteis e baratos, convergem conectando tudo e todos, transformando e informatizando a sociedade e criando a grande rede global chamada Internet. (LEÃO, 2004, p. 18) afirma que se trata de transformações nas práticas sociais, na vivência do espaço urbano e na forma de produzir e consumir informação.
É preciso entender o que a Internet representa para a sociedade, cada vez mais permeada pela computação ubíqua9. Quanto ela atinge, envolve e modifica as pessoas? Como se chegou ao
8 De acordo com a RFC 1.392, da Internet Engineering Task Force (IETF), de 1993, hacker é “uma pessoa que sente prazer em ter uma compreensão profunda dos processos internos de um sistema, de um computador ou de uma rede informática em específico. O termo é frequentemente colocado em um contexto pejorativo, em que ‘cracker’ seria o nome correto”. Disponível em http://www.ietf.org/rfc/rfc1392.txt 9 Computação ubíqua tem como objetivo tornar a interação pessoa-máquina invisível, ou seja, integrar a informática com as ações e comportamentos naturais das pessoas. Não literalmente invisível, mas de uma forma que as pessoas não percebam que estão dando comandos a um computador, mas conversando com alguém. Além disso, os computadores teriam sistemas inteligentes que estariam conectados ou procurando conexão o tempo todo, dessa forma tornando-se onipresente. Também é conhecida pelos termos em língua inglesa de pervasive computing, calm technology, things that think e everyware, e denomina-se alternativamente de inteligência ambiental. 21
estágio atual e quais serão os próximos passos, enfim, o que esperar em relação ao desenvolvimento futuro dessas tecnologias, como isso poderá se dar?
Castells (2003) define a Internet como o tecido de nossas vidas, comparando a tecnologia da informação à eletricidade e a Internet à rede elétrica ou a um motor elétrico em face de sua capacidade de distribuir a força da informação por todos os domínios da atividade humana, completando que se a capacidade de gerar e distribuir energia viabilizaram as fábricas e as grandes corporações como os fundamentos da sociedade industrial, a Internet se tornou o alicerce tecnológico para o modelo organizacional da era da Informação: a rede.
Sobre o momento atual da Internet, David Weinberger coloca que:
Não estamos na era da informação. Não estamos na era da Internet. Nós estamos na era das conexões. Ser conectado está no cerne da nossa democracia e nossa economia. Quanto maior e melhor forem essas conexões, mais fortes serão nossos governos, negócios, ciência, cultura, educação... (LEÃO, 2004).
Quanto ao futuro, Leonard Kleinrock refere-se à computação nomádica e aos espaços inteligentes. Abordando a computação ubíqua a partir da disponibilidade de dispositivos de computação, pequenos e de pouco peso, baratos e essencialmente portáteis, assim a computação nomádica trata a tecnologia que permite aos usuários móveis terem acesso à Internet de modo transparente, sem importar para onde irão ou estejam, reforçando que o próximo passo será sair do ciberespaço e entrar no mundo físico dos espaços inteligentes. No ambiente, veículos, casas, relógios etc., de certa forma adquirem vida por meio de sensores, atuadores, câmeras, microfones, GPS. Essa tecnologia fornecerá os serviços IP de que se necessita, tornando a Internet um sistema nervoso de presença global (KUROSE et al.,2003, p. 54 e 55).
Ainda sobre o futuro, Tim Berners-Lee projeta que a Internet será um espaço muito mais criativo, onde qualquer um poderá criar e editar hipertextos como uma forma de expressão e de atividade colaborativa. Além disso, visualiza os computadores trocando dados de forma que viabilizem o relacionamento de significados em diferentes bancos de dados formando a web semântica (KUROSE et al.,2003, p. 128 e 129).
José Joaquin Garcia-Luna-Aceves, Professor de Engenharia da Computação na Universidade da Califórnia em Santa Cruz (UCSC), entende que no futuro a Internet terá plena penetração e 22
que se aprenderá a entendê-la como forma de comunicação e como o caminho que todos os computadores usam para se comunicar e ajudar as pessoas a interagir, e reforça citando que “a rede é o computador e o computador é a rede” (KUROSE et al., 2003, p. 294).
A visão de futuro de Philip Zimmermann, criador do PGP 10, é a de que todo ou a maior parte do tráfego da Internet será criptografado, e assim ela se tornará “opaca” para as agências de inteligência. Ele antevê esse cenário a partir da crença do desenvolvimento cada vez maior da tecnologia sem fio e do uso intensivo de celulares e smartphones para realização de transações comerciais e bancárias, forçando a evolução da criptografia para dar segurança aos protocolos IP (KUROSE et al.,2003, p. 487).
Percebe-se que cada uma das previsões acima mostra visões de futuro diferentes para a web, provavelmente influenciados pelos campos de pesquisas em que cada um atua, mas também é claro que nenhuma dessas visões são excludentes entre si e que podem em certa medida se concretizarem, complementando-se de forma integrada.
Dentro dessa abordagem, compreender como os fatos históricos e o contexto em que ocorreram ajudará a entender a sua cultura e evolução até se chegar ao contexto atual da web. A partir disso, poder-se-á compreender as visões de futuro prognosticadas por especialistas e supor nossas próprias alternativas de futuro.
2.1 O INÍCIO (1945 A 1972)
A história da Internet começou por volta de 1945, como demonstra o artigo publicado por Bush (1945), onde foi descrito o Memex, um dispositivo para ajudar a memória e guardar conhecimentos (daí o nome Memex: Memory Extension). A partir da ideia de que a soma dos conhecimentos aumentava em um ritmo maior que a evolução dos meios de armazenamento e acesso aos dados, e observando o funcionamento da mente humana, que, segundo o autor opera sempre por meio de associações, Bush imaginou e descreveu, de
10 PGP é um software de criptografia para e-mail desenvolvido para os grupos de direitos humanos e das liberdades civis. Hoje o PGP é usado como produto comercial. Do inglês Pretty Good Privacy (privacidade bastante boa), é um programa de computador que utiliza criptografia para proteger a privacidade do e-mail e dos arquivos guardados no computador do usuário. Pode ainda ser utilizado como um sistema à prova de falsificações de assinaturas digitais permitindo, dessa forma, a comprovação de que arquivos ou e-mails não foram modificados. 23
maneira detalhada, um dispositivo que poderia armazenar um grande volume de informações, de modo a serem alcançadas de forma rápida e fácil. Esse equipamento, concebido para suprir as “falhas da memória humana” por meio de recursos mecânicos pode ser considerado o precursor da ideia de hipertexto.
Ainda em 1945, Douglas Engelbart, após ler e ser influenciado pelo artigo de Vannevar Bush, trabalhou nos anos seguintes nessa linha de pesquisa e em 1963, dentro da ARPA, criou o Augmentation Research Center, apresentando em 1968 na “Fall Joint Computer Conference”, em São Francisco, o On-Line System (NLS), considerado o primeiro ambiente integrado de processamento de ideias. Ele utilizava novos recursos para a época, e que hoje estão completamente integrados no dia-a-dia, como o mouse para seleção na tela, teleconferência, links por hipertexto, processador de texto, sistemas de ajuda online e um ambiente gráfico com janelas. Foi o primeiro modelo funcional do que seriam os computadores de hoje.
Após esse início, o próximo marco foram os primeiros registros da descrição das interações sociais que poderiam ser realizadas por meio de redes, em uma série de memorandos escritos por Joseph Licklider, um psicólogo transformado em cientista da computação no Massachusetts Institute of Technology (MIT), em agosto de 1962, discutindo o conceito de “Galactic Network”. Ele imaginava um mundo interconectado por meio do qual todos pudessem acessar, rapidamente e de qualquer lugar, dados e programas. Antevisão muito próxima do que é a Internet atual (CERF et al).
Ainda nos anos 1960, surgiu a precursora da Internet como se conhece hoje: a Arpanet, que era uma rede de computadores criada pela Advanced Research Projects Agency (ARPA) em 1969. A ARPA nasceu em 1958 dentro do Departamento de Defesa dos Estados Unidos com a finalidade de mobilizar recursos de pesquisa, especialmente do mundo acadêmico, para buscar superioridade tecnológico-militar em relação à União Soviética, que lançara em 1957 o satélite Sputnik (CERF et al).
A Arpanet era então um pequeno projeto dentro de um dos departamentos da ARPA, o Information Processing Techniques Office (IPTO), fundado em 1962, que teve Licklider como primeiro Diretor (CERF et al).
Considerando a importância crescente e o alto custo envolvido dos computadores na década de 1960, além do advento dos computadores com multiprogramação (Time-sharing) 24
(KUROSE et al., 2003, p. 44), compreende-se o objetivo formal do IPTO definido por Licklider em estimular a pesquisa em computação interativa (CASTELLS, 2003).
Como parte desse trabalho, a criação da Arpanet foi justificada como uma forma de permitir que os centros de computadores e grupos de pesquisadores que trabalhavam para a agência pudessem compartilhar online o tempo de processamento desses computadores (CERF et al).
A ideia era estabelecer essa rede por meio de comutação de pacotes e não de comutação de circuitos, como operavam as redes telefônicas, então a rede de comunicação globalmente dominante. Segundo Kurose et al. (2003, p. 44), três grupos de pesquisa ao redor do mundo trabalhavam sobre comutação de pacotes sem que nenhum tivesse conhecimento do trabalho do outro. O primeiro trabalho publicado foi o de Leonard Kleinrock, na época Doutorando do MIT. Em 1964, Paul Baran iniciou investigações sobre comutação de pacotes no Rand Institute para segurança na transmissão de voz em redes militares, enquanto Donald Davies e Roger Scantlebury desenvolviam suas pesquisas em comutação de pacotes no British National Physical Laboratory. Considera-se que os trabalhos do MIT (1961-1967), Rand (1962-1965), BNPL (1964-1967) sejam o alicerce do que é hoje a Internet.
Após o refinamento das especificações da Arpanet, foi realizada uma seleção para o desenvolvimento de um dos principais componentes, o comutador de pacotes, chamado Interface Message Processors (IMP’s). Finalizada em dezembro de 1968, o vencedor foi o grupo dirigido por Frank Heart na Bolt Beranek and Newman (BBN).
Em setembro de 1969, os primeiros nós da rede foram instalados na Universidade da Califórnia em Los Angeles (UCLA), no Stanford Research Institute (SRI), na Universidade da Califórnia em Santa Bárbara e na Universidade de Utah.
Em outubro de 1972, Robert Kahn organizou uma grande e bem sucedida demonstração da ARPANET na Conferência Internacional de Comunicação de Computadores (ICCC). Essa foi a primeira demonstração pública da nova tecnologia de rede (NCP, ou network control protocol) para o público.
Também em 1972 foi introduzida a primeira aplicação. Tratava-se do primeiro programa de e- mail elaborado por Ray Tomlinson da BBN. Ele escreveu o software básico de envio e leitura de mensagens, motivado pela necessidade dos desenvolvedores da Arpanet em ter um mecanismo simples e fácil de comunicação e coordenação. Logo em seguida, Roberts 25
expandiu as funcionalidades para listar, ler seletivamente, arquivar, encaminhar e responder mensagens. O e-mail foi a principal aplicação de rede por mais de uma década. Esse foi o prenúncio do tipo de atividade que se vê na World Wide Web de hoje (CERF et al).
2.2 REDE DE REDES (1972 - 1990)
A Arpanet inicial era uma rede única e fechada, assim o passo seguinte seria conectá-la por meio de IMP’s com outras redes de comunicação, começando com as administradas pela ARPA: a PRNET e a SATNET, criando o conceito de rede de redes (CASTELLS, 2003, p. 15).
Em meados da década de 1970 surgiram outras redes de comutação de pacotes como a Alohanet, uma rede que conectava universidades das ilhas do Havaí por microondas, a Telnet, uma rede comercial da BBN, a Tymnet, e a Transpac, uma rede francesa de comutação de pacotes. Em 1973, Robert Metcalfe apresentou em sua tese de doutorado em ciência da computação em Harvad os princípios da Ethernet. O protocolo Ethernet levou ao enorme crescimento de LAN’s de curta distância (KUROSE et al.,2003, p. 45).
Em 1973, Robert Khan (ARPA) e Vinton Cerf (Stanford) escreveram artigo (A Protocol for Packet Network Intercommunication) traçando a arquitetura básica da Internet. Quatro regras foram críticas para os princípios da arquitetura de Kahn e Cerf, conforme (KUROSE et al., 2003, p. 46):
minimalismo, autonomia: cada rede distinta deveria ser independente e mudanças internas não deveriam ser requisitadas para conectá-las à Internet; serviço de melhor esforço: comunicações seriam na base do melhor esforço. Se um pacote não chegasse à sua destinação final, ele seria retransmitido da fonte; roteadores sem estado: caixas pretas seriam usadas para conectar as redes. Mais tarde elas seriam chamadas gateways e roteadores. Os gateways não reteriam informações sobre os fluxos de pacotes passantes. Isso assegurou que eles se mantivessem simples, evitando adaptações complicadas e recuperações de erros; controle descentralizado: não haveria controle global no nível operacional. 26
Para ser possível a conexão com outras redes de computadores era necessária a padronização dos protocolos de comunicação, o que foi obtido parcialmente em seminário em Stanford por um grupo liderado por Cerf, Gerard Lelann e Metcalfe com o projeto do Transmission Control Protocol (TCP). Em 1978, Cerf, Postel e Crocker dividem o TCP em duas partes acrescentando o protocolo intra-rede (IP), o que criou o protocolo TCP/IP, padrão utilizado até hoje na Internet (CASTELLS, 2003, p. 14 e 15).
Vale registrar que além dos esforços coordenados pela ARPA sobre interconexão de redes, uma série de empresas estava desenvolvendo arquiteturas de redes. A Digital Equipment Corporation (DEC) apresentou o DECnet em 1975 conectando dois computadores PDP-11, contribuindo sobremaneira no conjunto de protocolos do padrão OSI (Open Systems Interconnection) com as ideias pioneiras do DECnet. A IBM, com a arquitetura SNA, e a Xerox, com a arquitetura XNS, também contribuíram para a base de conhecimento que fundamentou os avanços das redes nas décadas de 1980 e 1990 (KUROSE et al.,2003, p. 46 e 47).
Em 1975, a Arpanet foi transferida para a Defense Communication Agency (DCA), a fim de permitir a comunicação por computador disponível para os diferentes ramos das forças armadas, criando uma conexão entre várias redes que controlava – estabelecendo assim a Defense Data Network, que operava no padrão TCP/IP. Em 1983, preocupado com possíveis falhas de segurança, o Departamento de Defesa Americano decidiu formar uma rede independente para fins militares específicos chamada MILNET. A partir disso a Arpanet passou a ser dedicada exclusivamente à pesquisa e tornou-se a Arpa-Internet. Em 1984, a National Science Foundation (NSF) criou a NSFNET, sua própria rede de computadores e em 1988 começou a usar a Arpa-Internet como seu backbone (CASTELLS, 2003, p. 15).
No início de 1990, já considerada obsoleta, a Arpanet foi tirada do ar. Com a Internet livre de sua vinculação militar, permitiu ao governo americano entregar sua administração à National Science Foundation, o que durou pouco. Com o domínio público da tecnologia de redes e as telecomunicações plenamente desreguladas, a NSF encaminhou a privatização da Internet. Na década de 1980, o Departamento de Defesa já havia decidido comercializar a tecnologia da Internet financiando fabricantes para incluir TCP/IP entre seus protocolos. Assim, na década de 1990, a maior parte dos computadores nos Estados Unidos poderia entrar em rede criando os alicerces para a interconexão de redes. Com a extinção da NSFnet, em 1995, abriu-se espaço para a operação privada da Internet (CASTELLS, 2003, p. 15). 27
2.3 OUTRAS INFLUÊNCIAS NA FORMAÇÃO DA INTERNET
A Internet, como se conhece hoje, não foi influenciada apenas pela Arpanet. A partir do programa desenvolvido em 1977 pelos estudantes de Chicago, Ward Christensen e Randy Suess, batizado de MODEM, foi possível a transferência de arquivos entre computadores pessoais. Em 1978, eles desenvolveram outro programa chamado Computer Bulletin Board System, que possibilitava aos computadores armazenar e transmitir mensagens. Ambos os programas foram liberados para o domínio público, o que contribuiu na constituição da cultura de formação de rede a partir dos Bulletin Board Systems (BBS), entre os quais se destacam a FIDOnet e a BITnet da IBM (CASTELLS, 2003, p. 16).
Outra rede que deve ser citada é o Projeto Minitel. Ele foi desenvolvido paralelamente à Arpanet pelo governo francês no início da década de 1980. Consistia em uma rede pública de comutação de pacotes (baseada no conjunto de protocolos X.25 que usava circuitos virtuais), servidores Minitel e terminais baratos com modems de baixa velocidade embutidos. Em 1984 o governo francês forneceu de graça um terminal Minitel a qualquer residência francesa que desejasse, transformando o projeto em um grande sucesso. Os sites do Minitel incluíam os de livre acesso como lista telefônica e outros onde se cobravam taxas pelo tempo de uso. No seu auge, em 1990, o Minitel tinha aproximadamente 20 mil serviços diferentes, era usado por 20% da população francesa, criando 10 mil empregos e gerando um movimento de um bilhão de dólares por ano. Assim, uma rede importante já estava nos lares franceses dez anos antes de a maioria dos americanos ouvir falar da Internet (KUROSE et al.,2003, p. 47 e 48). Contra ela pesa o fato de que foi baseada em um princípio de rede de computadores centralizada, controlada pelo governo (CASTELLS, 2003, p. 27).
No Brasil, um sistema bem-sucedido baseado no Minitel, chamado VideoTexto, foi iniciado em São Paulo, pela antiga estatal Telesp. Operou de 1982 até meados dos anos 1990; algumas poucas companhias telefônicas de outros estados instalaram sistemas similares, mas com bases de dados e serviços diferentes. O principal motivo para o sucesso do VideoTexto em São Paulo foi porque a Telesp oferecia apenas o serviço e o acesso à lista telefônica de assinantes, enquanto outras empresas – bancos, provedores de bancos de dados, jornais – ofereciam conteúdos e serviços adicionais. O sistema teve seu ápice em 1995, com cerca de 70 mil assinantes. 28
Outra influência importante nasceu nos Laboratórios Bell quando, em 1974, por exigência do governo dos EUA, cederam às universidades americanas os códigos fonte do UNIX com permissão para alterações, o que fez com que se tornasse um difusor dessa tecnologia. Em 1978, a Bell distribuiu seu programa UUCP (Unix-to-Unix CoPy), que permitia aos computadores copiarem arquivos entre si. Em 1979, baseado nessa tecnologia, quatro estudantes da Carolina do Norte projetaram um programa para comunicação entre computadores que permitiu a formação da rede de computadores USEnet fora do backbone da Arpanet. Em 1980, essa tecnologia foi aperfeiçoada por estudantes de pós-graduação da Universidade da Califórnia, em Berkeley, criando uma ponte entre a USEnet e a Arpanet, permitindo o mesmo para outras redes que passaram a comunicar-se entre si, sendo finalmente congregadas na forma da Internet.
Outra contribuição essencial na formação da Internet também veio da cultura dos usuários UNIX, por intermédio do “Movimento do Código Fonte Aberto”. Esse movimento ganhou força em 1984, quando a AT&T reivindicou direitos de propriedade sobre o Unix. Nessa ocasião, Richard Stallman, programador no Laboratório de Inteligência Artificial do MIT, lança a Free Software Foundation, propondo a adoção do Copyleft, de forma que quem usasse um software gratuito deveria em contrapartida distribuir pela Internet os códigos aperfeiçoados dele, em oposição aos direitos de Copyright. Também criando o GNU, um sistema operacional alternativo ao Unix sob o conceito do Copyleft.
Dentro dos princípios do Copyleft, em 1991, Linus Torvalds, estudante da Universidade de Helsinki, desenvolveu o Linux, baseado no Unix, e o resultado foi a elaboração de um sistema robusto e constantemente atualizado pelo esforço de milhares de hackers e milhões de usuários. Outros grupos de desenvolvimento cooperativo de software foram criados a partir da cultura dos usuários do Unix, como por exemplo o Apache (servidor web) e o PHP (linguagem de desenvolvimento web).
2.4 WORLD WIDE WEB, O HIPERTEXTO E A INTERNET COMERCIAL (1990 - 1995)
Além de Vannevar Bush e Douglas Engelbart, existiram outros precursores do hipertexto antes que Tim Berners-Lee fizesse o desenvolvimento da World Wide Web. 29
Em 1963, Ted Nelson, pensador independente e em certa medida radical, anteviu um hipertexto de informação interligada em seu manifesto de 1963, Computer Lib. Trabalhando desde então em um sistema, considerado utópico para alguns, chamado Xanadu, um hipertexto aberto, auto-evolutivo, destinado a vincular toda a informação passada, presente e futura do planeta (CASTELLS, 2003, p. 18). Apesar de a web dever muito de sua inspiração ao Xanadu, Ted Nelson é um critico da World Wide Web, o XML e todos os sistemas relacionados ao protocolo de Berners-Lee, lembrando que a web é uma simplificação grosseira das ideias contidas no Xanadu, afirmando que “HTML é precisamente o que tentávamos evitar: links quebrados, links unidirecionais, citações sem ligação com sua fonte, nenhum controle de versões publicadas, nenhum controle de direitos autorais” (NELSON, 1999).
Já na década de 1980, Bill Atkinson, membro do time de desenvolvimento do Apple Macintosh, projetou e implementou o HyperCard, considerado o primeiro sistema hipermídia popular. Também foi o criador de MacPaint, e desenvolveu e implementou QuickDraw, a toolbox de base que o Macintosh usava para gráficos. O desempenho de QuickDraw foi essencial para o sucesso da interface gráfica do Macintosh.
Sem ter consciência de que o seu trabalho continuava uma tradição de mais de 50 anos na busca de soluções para associar fontes de informação por meio da computação interativa, iniciadas por Bush, Engelbart, Nelson e Atkinson, o inglês Tim Berners-Lee, então um programador do CERN em Genebra (Laboratório Europeu para a Física de Partículas), começou a transformar em realidade esses anseios com o desenvolvimento do Enquire11 em 1980. O seu trabalho foi favorecido pela existência da Internet e pela capacidade computacional descentralizada. As utopias passaram a ser possíveis (CASTELLS, 2003, p. 18).
Bernes-Lee definiu e implementou o programa que possibilitava obter e acrescentar informação de e para qualquer computador conectado na Internet: HTTP, MTML e URI (depois URL). Junto com Robert Cailliau, desenvolveu o navegador/editor em dezembro de 1990, chamando-o de World Wide Web. Esse navegador foi disponibilizado pelo CERN na Internet em agosto de 1991. A partir desse trabalho, hackers do mundo inteiro tentaram
11 ENQUIRE foi um projeto usado para reconhecer e armazenar associações de informação, desenvolvido por Tim Berners- Lee no segundo semestre de 1980, enquanto ele trabalhava na CERN. Ao invés de um navegador da web, o ENQUIRE estava mais próximo a uma wiki. 30
desenvolver novos navegadores. A primeira versão veio em abril de 1992, no Instituto de Tecnologia de Helsinki, o Erwise. E logo em seguida, o ViolaWWW, desenvolvido por Pei- Yuan Wei na Universidade da Califórnia em Berkeley (CASTELLS, 2003).
Desse esforço de desenvolvimento de versões da www, surgiu o Mosaic, desenvolvido por Marc Andreessen e Eric Bina no National Center for Supercomputer Applications da Universidade de Illinois. Eles dotaram o Mosaic de uma avançada capacidade gráfica, possibilitando captar e distribuir imagens pela Internet, além de várias técnicas de interfaces já utilizadas no mundo da multimídia, divulgando o software na Usenet em janeiro de 1993. Mais tarde Andreessen foi procurado por Jim Clark, fundador e recém-saído da Silicon Graphics, e junto com Bina formaram a Mosaic Communications, mais tarde chamada de Netscape Communications, lançando o primeiro navegador comercial, o Netscape Navigator em outubro de 1994. Em 1995, lançaram o Navigator pela Internet, gratuitamente para fins educacionais e por US$ 39 para aplicações comerciais (CASTELLS, 2003).
A Microsoft percebeu a Internet somente depois do sucesso do Navigator e, ainda em 1995, lançou junto com o Windows 95 o seu navegador Internet Explorer, baseado em tecnologia desenvolvida pela Spyglass, empresa nascida de uma divisão da University of Illinois em Urbana-Champaign, para comercializar e dar apoio às tecnologias desenvolvidas pelo National Center for Supercomputing Applications (NCSA). O crescimento do Internet Explorer foi tal que, em reação a isso, em 1998 a Netscape liberou o código-fonte do Navigator na Internet. Ao longo do tempo outros navegadores surgiram como o Navipress da America On Line (AOL), o Mozilla Firefox, Opera e Safari e mais recentemente o Chrome do Google.
Também em 1995 a Sun Microsystems liberou gratuitamente na Internet o Java, linguagem de programação de miniaplicativos (applets). A tecnologia Java havia sido projetada para se mover por meio de redes de dispositivos heterogêneos como a Internet. Com ela, aplicações poderiam ser executadas dentro dos navegadores nos Applets Java e tudo seria disponibilizado pela Internet. Por meio do HTML embutidos nos navegadores foi possível alavancar a rápida disseminação do Java. A rapidez no desenrolar dos fatos seguintes foi enorme, o número de usuários cresceu velozmente, grandes companhias de tecnologia, como a IBM anunciaram suporte para a tecnologia Java solidificando o sucesso da linguagem. 31
Assim, o sonho nascido da imaginação dos cientistas da computação no início da década de 1960 de uma rede de comunicação congregando comunidades de hackers e pesquisadores, já por volta de 1970, começa a se tornar realidade. Entretanto, para a maior parte da sociedade foi apenas em 1995 que ela nasceu.
Isso ocorreu com a criação dos protocolos e ferramentas tecnológicas que permitiram a comunicação ampla, acessível e fácil entre qualquer rede e computador no mundo. A World Wide Web funcionava com software adequado e haviam vários navegadores, fáceis de serem utilizados. Em suma, passaram a existir as condições para que seu uso fosse disseminado entre a sociedade em geral.
Passados quinze anos, é instigante observar que foram criados, desenvolvidos e modificados tantos conceitos à volta da Internet e como isso tudo entrou na vida das pessoas gerando um grau de dependência tecnológica nunca antes imaginado. Como colocado por Bessa (2007/2008, p. 4), “Nada na história das invenções terá tido uma absorção tão rápida e tão intensa. Nunca a história precisou de tão pouco tempo para se fazer”.
Esse nascimento se deu com características e marcas relevantes quanto à cultura em que nasceu e a cultura que se formou a partir de então. Isso será discutido nos próximos tópicos.
2.5 A FORMAÇÃO DA CULTURA DA INTERNET
A abordagem no histórico da Internet descrito por Castells (2003) leva a algumas conclusões. A primeira é a de que a tensão crescente entre o bloco dos países Ocidentais liderados pelos EUA e os do bloco comunista liderados pela União Soviética após a Segunda Guerra Mundial, fez surgir a busca pela supremacia militar por meio de avanços em tecnologias bélicas. O lançamento do satélite Sputnik e uma aparente superioridade tecnológica Soviética influenciou a criação da ARPA, e a partir disso surge a Arpanet, considerada o embrião da Internet atual. Sem esse contexto não teriam existido a ARPA e a Arpanet, e certamente a Internet, se existisse, não seria igual aos moldes de hoje.
Outra conclusão é quanto ao gerenciamento e nível de delegação que a ARPA recebeu do Departamento de Defesa Americano. Fica nítido que houve inteligência organizacional por partes dos decisores, políticos ou militares, ao atribuírem à ARPA autonomia para moldar as 32
formas de estímulo às pesquisas tecnológicas em áreas vitais, sem abafar a criatividade e mantendo a independência dos cientistas.
Ter seus quadros formados por cientistas acadêmicos e seus alunos de pós-graduação deu à ARPA a compreensão de como as pesquisas se desenvolvem, o que a levou a conceder a autonomia necessária aos pesquisadores contratados ou financiados por ela. Isso permitiu atrair pesquisadores inovadores e talentosos para seus projetos. Em certa medida esse conjunto de pessoas criou um ambiente em que estiveram presentes boas intenções, valores morais e atitudes acadêmicas de transparência, inovação e cooperação na realização de seus desenvolvimentos e descobertas, o que muito contribuiu para o futuro da Internet.
Também vale concluir que apesar dos pesquisadores da ARPA não fazerem parte da contracultura, o resultado de seu trabalho criou a ponte necessária para a comunicação com o ambiente estudantil mais amplo, desenvolvidos em outras redes fora da Arpanet, como os BBS’s e a Usenet.
Essas comunidades alternativas à Arpanet, também formadas nos campi universitários, trouxeram e reforçaram os mesmos valores de transparência e cooperação, principalmente por meio da publicação de códigos fonte e pelo esforço conjunto de muitos voluntários que obtiveram avanços significativos em programas os quais alavancaram o desenvolvimento da Internet.
Foi dentro desse caldeirão, onde ingredientes tão díspares como a pesquisa militar, a contracultura e grandes projetos de pesquisa, que se formou a Internet e a sua cultura. Sobre isso, Castells (2003) diz que “antes de mais nada, a Internet nasceu da improvável interseção da big science, da pesquisa militar e da cultura libertária”. Disso percebe-se que nasceu influenciada por duas linhas de pensamento: a primeira voltada para os méritos científicos e para servir à Pátria e a segunda, rebelde e libertária, focada em conceitos de igualdade e cooperação.
Concluindo, convém considerar que, se a Internet conhecida hoje possui defeitos e falhas que podem comprometer de alguma forma conceitos como liberdade e privacidade, fica claro que não provêem das intenções ou do caráter de seus idealizadores e produtores iniciais, mas sim de defeitos surgidos no seu próprio crescimento e desenvolvimento.
33
2.6 O ESTADO ATUAL E SEUS REFLEXOS
Castells (2003) afirma que os sistemas tecnológicos são socialmente produzidos e que a produção social é estruturada culturalmente. Assim como se discutiu no tópico anterior, a Internet foi formada a partir de culturas que se consolidaram, chegando a uma forma em meados dos anos 1990, mas a partir desse ponto, essa cultura da Internet, em um processo contínuo, transforma-se por inserir em seu contexto “genético” outros grupos de usuários com traços culturais diferentes. Esses grupos produzem e consomem recursos da Internet modificando-a e a sua cultura.
Segundo Castells (2003), pode-se dividi-los entre Produtores e Consumidores, sendo que os usuários Produtores são aqueles que de alguma forma intervêm na produção e na construção do ambiente tecnológico, e os Consumidores são aqueles que somente consomem os recursos sem nenhuma ação de desenvolvimento. Apesar de Castells (2003, p. 34) focar na cultura do grupo dos Produtores, vale registrar que mesmo os Consumidores descobrem, pelas suas experiências, aplicações e usos não percebidos de antemão pelos Produtores, o que em certa dose altera o ambiente por meio de um efeito agregado na evolução do sistema tecnológico da Internet.
A divisão proposta por Castells (2003, p. 34) para a cultura dos Produtores é a seguinte:
Tecnoelites: Refere-se a uma cultura tecnomeritocrática estabelecida na academia e na ciência. Crê no progresso científico e tecnológico para o bem e progresso da humanidade e em valores de reputação, competência, exame dos pares, compartilhamento e cooperação. A Internet foi concebida nesse ambiente a partir de onde esses valores, hábitos e conhecimento se espalharam pela cultura hacker.
Hacker: Pode-se afirmar que é o gerador do ambiente fomentador de inovações tecnológicas vitais, mediante a cooperação e a comunicação livre; além disso, faz a ponte entre o conhecimento nascido nas Tecnoelites e os subprodutos empresariais que difundem a Internet na sociedade em geral. Vale conceituar o termo hacker. Segundo Bessa (2007/2008, p. 7), a comunidade hacker é
(...) composta por aqueles entusiastas da tecnologia, que bebem na fonte dos acadêmicos mas que, acima de tudo, se assumem como defensores do contrapoder, da liberdade e independência, caracterizando-se pela sua criatividade tecnológica e 34
pela forma diligente como compartilham toda a informação, aprendendo uns com os outros e fazendo da Internet a sua própria escola.
A visão divulgada nos meios de comunicação que seriam irresponsáveis viciados em computador empenhados em quebrar senhas e códigos, penetrar em sistemas ilegalmente, ou criar o caos no tráfego de computadores, na verdade se refere aos “crackers”.
Comunidades Virtuais: Pode-se afirmar que surgiram ainda na Arpanet com uma das primeiras listas temáticas, a SF-Lovers (para amantes da ficção científica), chegando hoje a comunidades em sites de relacionamentos como Orkut, Twitter, Facebook etc. Apesar de não formarem exatamente uma cultura em razão da multiplicidade de interesses e valores, com conhecimento técnico limitado habitam a Internet se relacionando, discutindo, publicando, levando assim suas inovações sociais e de forma dinâmica e interessante, contribuindo na reconfiguração e evolução da Internet e dos recursos da rede, de acordo com as necessidades surgidas para essas interações sociais.
Empreendedores: De acordo com Castells (2003, p. 51), em sua forma real o empresário da Internet é um ser simbiótico de duas cabeças. Isso em razão da necessidade da comunhão de interesses dos criadores/desenvolvedores com os capitalistas de riscos. Os empresários da Internet são uma composição de pessoas e organizações integradas por inventores, tecnólogos e capitalistas de riscos que percebem as potencialidades econômicas da Net e, por meio de suas habilidades, desenvolvem projetos economicamente viáveis, baseados na produção de software e hardware, contribuindo para o desenvolvimento da Internet, porém com uma abordagem capitalista, menos acessível e mais condicionante aos seus produtos. Enfim, a Cultural empresarial é, acima de tudo, uma cultural de dinheiro (muito) e do trabalho (compulsivo e incessante).
É nesse contexto que a Internet se desenvolve e cresce, e onde essas culturas interagem. Sobre isso Castells coloca da seguinte forma:
A cultura da Internet é uma cultura feita de uma crença tecnocrática no progresso dos seres humanos através da tecnologia livre e aberta, incrustada em redes virtuais que pretendem reinventar a sociedade, e materializada por empresários movidos a dinheiro nas engrenagens da nova economia (CASTELLS, 2003, p. 53). 35
A Internet no cenário atual é uma entidade que por sua constituição aberta e distribuída tem uma elasticidade que a torna um importante instrumento para o desenvolvimento da nova economia e até mesmo para o desenvolvimento do Terceiro Mundo, como menciona Castells (2003, p. 10). Porém, isso também a torna suscetível às apropriações para fins ilícitos e práticas criminosas das mais variadas formas – conhecidas e das que ainda serão percebidas.
Outro ponto relevante é quanto às facilidades atuais de geração de conteúdo. A cultura aberta e compartilhada da Net proporcionou o surgimento de ferramentas de desenvolvimento de conteúdos web fáceis de serem usadas, requerendo pouco ou quase nenhum conhecimento técnico dos novos Produtores. Nesse contexto podem ser citados os blogs, sites de relacionamentos, construtores de sites disponibilizados por provedores como UOL ou Google, transformando a Internet em um espaço criativo em que qualquer um pode criar e editar hipertextos como uma forma de expressão e de atividade colaborativa, favorecendo o crescimento exponencial de conteúdo, desestruturado, cada vez mais e em maior volume.
2.7 A GOVERNANÇA DA INTERNET
Nesse tópico será focalizado o gerenciamento das comunicações e das funções de coordenação da Internet, envolvendo desenvolvimento de protocolos compartilhados e acordos quanto aos padrões e atribuições de nomes e endereços na Internet. Acredita-se que estando equacionados esses pontos, considerando a estrutura descentralizada da Internet, o resto se desenvolveria naturalmente e que a forma na qual foi forjada essa coordenação foi decisiva para o desenvolvimento da Net e continua sendo para a sua evolução e crescimento, independentemente de qualquer controle central (CASTELLS, 2003).
Como se nota ao longo deste capítulo, a ARPA conduzia sua autoridade na rede de forma benevolente, considerando que buscava estimular a pesquisa tecnológica em áreas vitais sem tolher a criatividade e a independência de seus pesquisadores. Além disso, o Network Working Group produzia os padrões técnicos de forma consensual com a comunidade científica por meio das RFC’s (Request for comments), o que ditou a forma como se daria a coordenação, baseando-a na competência técnica, consulta à comunidade e decisões por consenso.
Com o início das operações da Arpanet nos anos 1970, o NWG foi dissolvido e seu papel passou a ser realizado dentro da ARPA em um programa comandado por Cerf e Kahn, quando 36
foi criado o Internet Configuration Control Board (ICCB), que coordenava junto à Comunidade o desenvolvimento dos Protocolos.
Em 1984, foi criado o Internet Activies Board (IAB), responsável pela supervisão técnica e da engenharia de desenvolvimento da Internet. No ano de 1989 foi dividida em Internet Engineering Task Force (IETF), responsável pelo desenvolvimento dos protocolos e outros aspectos técnicos, e a Internet Research Task Force (IRTF), dedicada ao planejamento de longo prazo.
Segundo Castells (2003, p. 30), em 1992, com a expansão da Internet e a intenção da NSF em privatizar a rede, fazia-se necessário tirá-la do controle direto do governo americano; dessa forma, foi criada em janeiro de 1992 a Internet Society (ISOC), englobando a IAB, IETF e IRTF, cuja direção foi entregue a Vinton Cerf e Robert Kahn pelo respeito técnico e moral que possuíam junto à comunidade científica da Internet dentro e fora dos EUA. Apesar ou por causa da internacionalização acentuada da Internet, a ambiguidade do seu gerenciamento, baseado na probidade e prestígio de seus fundadores mas, em última instância, ainda sob supervisão e controle do governo americano, passou a ser cada vez mais questionada por outros governos, especialmente dos países europeus.
A figura a seguir traz uma linha do tempo que demonstra a evolução da supervisão e gerenciamento da Internet desde a década de 1960 até meados dos anos 1990, mostrando os organismos do governo americano a que estavam submetidos, a evolução dos grupos de trabalhos e consultivos, os principais eventos da Internet e por fim o crescimento operacional.
Figura 1 - Linha do Tempo da Internet (Fonte: CERF et al.) 37
Quanto à atribuição de endereços da Internet, isso fora delegado pelo governo americano à Internet Assigned Numbers Autority (IANA), dirigida por Jon Postel da Universidade do Sul da Califórnia (USC). Segundo Castells (2003), sua administração era respeitada e considerada justa, consciente e neutra, atuando como árbitro para a atribuição de domínios na Internet. Porém, com sua morte em 1998, a confiança que detinha da comunidade da Internet não poderia ser transferida para uma instituição do governo. Como em 1997 a administração Clinton manifestou a intenção de privatizar a IANA e outras organizações gerenciadoras da Internet, Jon Postel, em sua última contribuição, em setembro de 1998, ofereceu ao governo dos EUA seu projeto de privatização. A organização proposta, a Internet Corporation for Assigned Names and Numbers (ICANN) foi aprovada no final de 1998 e completou sua fase formativa em 2000.
Castells (2003) afirma que suas normas incorporaram o espírito de abertura da comunidade da Internet, a descentralização, formação de consenso e a autonomia que caracterizaram o governo ad hoc da Internet desde sua formação, somando uma orientação global a sua composição. É uma entidade privada sem fins lucrativos que administra a alocação espacial de endereços IP, atribuição de parâmetros de protocolos, organização e administração do sistema de nomes de domínios e administração do sistema de servidores de raiz.
Atualmente a ICANN está organizada conforme a estrutura detalhada a seguir:
Figura 2 - Estrutura do ICANN (Fonte:
Para maiores detalhes sobre essa estrutura e o funcionamento de cada item desse modelo, recomenda-se o acesso ao site da ICANN (http://www.icann.org).
Como colocado por Castells (2003), a visão romântica de uma comunidade global da Internet se autorrepresentando por meio do voto eletrônico deve ser acrescida com a realidade de outros interesses representados por lobbies, das redes de apoio e reconhecimento de nomes de certos candidatos; também não faltariam críticas bem formuladas à democracia na ICANN. Além disso, os vínculos entre a ICANN e o Departamento de Comércio dos EUA não teriam sido rompidos. Alguns países, especialmente os europeus, são críticos do que chamam de “domínio americano” na ICANN. Dessa forma, a contradição entre as raízes históricas da Internet nos EUA e seu caráter global sugere a transformação final da ICANN numa instituição culturalmente mais ampla.
Por fim, dentro dos mesmos princípios e espírito da ICANN, outra organização foi formada para presidir os protocolos e o desenvolvimento da web, o World Wide Web Consortium, suportado nos EUA pelo MIT, na Europa pelo instituto francês INRIA, sendo dirigido por Tim Berners-Lee.
Ainda no âmbito internacional não se pode deixar de citar The World Summit on the Information Society12 (WSIS), duas conferências patrocinadas pela Organização das Nações Unidas sobre informação, comunicação e, em suma, a sociedade da informação.
A primeira ocorreu em Genebra, na Suíça, em 2003, e a segunda em Túnis, na Tunísia, em 2005, com a proposta de reduzir a distância que a divisão digital global gerou entre os países ricos e os países pobres, por meio da ampliação do acesso à Internet das populações dos países em desenvolvimento.
Em Genebra, com a presença de delegados de 175 países, foi aprovada uma Declaração de Princípios13, com 67 itens, formando um roteiro para a construção de uma sociedade de informação acessível a todos, baseada no conhecimento compartilhado. Um Plano de Ação14 foi definido com a meta de ter 50% da população mundial conectada na web até 2015, porém sem dar detalhes de como isso poderia acontecer. A Cúpula de Genebra também não resolveu questões controversas como a governança da Internet e o seu financiamento.
12 http://www.itu.int/wsis/index.html. 13 http://www.itu.int/wsis/docs/geneva/official/dop.html. 14 http://www.itu.int/wsis/docs/geneva/official/poa.html. 39
Sem a definição de um acordo sobre o futuro da governança da Internet, o Working Group on Internet Governance (WGIG) foi formado para elaborar propostas nesse sentido.
Na ocasião, delegados da Sociedade Civil (ONG’s) elaboraram o documento “Shaping Information Societies for Human Needs15”, que consolida um amplo leque de questões relacionadas aos direitos humanos e direitos de comunicação.
A segunda Cúpula aconteceu em 2005 em Túnis, e apenas às vésperas do evento a Association for Progressive Communications (APC)16 divulgou o seu padrão. A APC propôs ações específicas em cada uma das cinco áreas abaixo:
a criação do Internet Governance Forum (IGF)17; a transformação da ICANN em uma entidade de representação global, com plena autoridade sobre o gerenciamento de DNS, e uma forma apropriada de prestação de contas aos seus stakeholders no governo, setor privado e na sociedade civil; o início de uma convenção entre os vários interessados na governança da Internet e nos direitos humanos universais que codificam os direitos básicos aplicáveis à Internet, a ser juridicamente vinculada em direito internacional às cláusulas da declaração universal dos direitos humanos especialmente relevantes para a Internet, tais como os direitos à liberdade de expressão, liberdade de associação e de privacidade; garantir o acesso fácil e universal à Internet. A APC colocou que a Internet é um espaço público global, que deve ser aberto e acessível a todos, sem discriminação de qualquer espécie. A Internet deve ser vista como uma infraestrutura pública global, reconhecendo-se ser um bem público relacionado ao conceito de patrimônio comum da humanidade e o acesso a ele é de interesse público, e deve ser fornecido como um compromisso público global para a igualdade; medidas para promover a capacitação em “desenvolvimento” no que diz respeito ao aumento da participação dos países “em desenvolvimento” em fóruns globais de política pública sobre a governança da Internet.
15 http://www.itu.int/wsis/docs/geneva/civil-society-declaration.pdf. 16 Trata-se de uma rede internacional de organizações da sociedade civil cujo objetivo é capacitar e apoiar grupos e indivíduos que trabalham para a paz, direitos humanos, desenvolvimento e proteção do meio ambiente, pelo uso estratégico das tecnologias da informação e comunicação (TIC), incluindo a Internet. 17 http://www.intgovforum.org/cms/. 40
A Cúpula de Túnis contou com a participação de 1.500 pessoas de organizações internacionais, cerca de 6.200 pessoas de ONGs, por volta de 4.800 pessoas do setor privado, e 980 de meios de comunicação.
Um dos resultados concretos da WSIS foi a criação do Internet Governance Forum (IGF), cuja 6ª Reunião Anual será realizada em Nairóbi, no Quênia, em setembro de 2011, com o tema principal “Internet como um catalisador para a mudança: o acesso, desenvolvimento, liberdade e inovação”.
2.7.1 A governança da Internet no Brasil
No Brasil a governança da Internet é desempenhada pelo Comitê Gestor da Internet no Brasil (CGI.br) criado em maio de 1995 por meio da Portaria Interministerial nº 147 de 31/05/1995, alterada pelo Decreto Presidencial nº 4.829 de 03/09/2003, com a responsabilidade de coordenar e integrar os serviços de Internet no País. Possui um modelo multistakeholder formado por membros indicados pelo governo federal e por eleitos dos setores empresarial, terceiro setor e comunidade acadêmica, totalizando 21 membros, sendo nove representantes do governo, 11 da sociedade civil e um membro de notório saber em assuntos de Internet.
Como braço executivo do CGI.br, o Núcleo de Informação e Coordenação do Ponto BR (NIC.br) foi criado para implementar as decisões e projetos do CGI.br, tendo diretamente ligado a ele os departamentos administrativo, jurídico e de comunicação. Dentre suas atribuições destacam-se os seguintes pontos:
registro e manutenção dos nomes de domínios que usam o <.br> , e a distribuição de números de Sistema Autônomo (ASN) e endereços IPv4 e IPv6 no País, por meio do Registro.br18; tratamento e resposta a incidentes de segurança em computadores envolvendo redes conectadas à Internet brasileira, atividades do CERT.br19;
18 Registro.br - Registro de domínios “.br” 19 CERT.br – Centro de Estudos, Resposta e Tratamento de Incidentes de Segurança no Brasil. 41
projetos que apoiem ou aperfeiçoem a infraestrutura de redes no País, como a interconexão direta entre redes (PTT.br) e a distribuição da Hora Legal brasileira (NTP.br). Esses projetos estão a cargo do CEPTRO.br20; produção e divulgação de indicadores e estatísticas e informações estratégicas sobre o desenvolvimento da Internet brasileira, sob responsabilidade do CETIC.br21; promover estudos e recomendar procedimentos, normas e padrões técnicos e operacionais, para a segurança das redes e serviços de Internet, bem como para a sua crescente e adequada utilização pela sociedade, realizada pelo W3C.br22; suporte técnico e operacional ao LACNIC, Registro de Endereços da Internet para a América Latina e Caribe.
Figura 3 - Estrutura organizacional do NIC.br e CGI.br
Legenda dos setores representados pelos conselheiros do CGI.br:
Governo: o 1 – Ministério da Ciência e Tecnologia o 2 – Ministério das Comunicações o 3 - Casa Civil da Presidência da República o 4 – Ministério do Planejamento, Orçamento e Gestão o 5 – Ministério do Desenvolvimento, Indústria e Comércio Exterior
o 6 – Ministério da Defesa
o 7 – Agência Nacional de Telecomunicações
o 8 – Conselho Nacional de Desenvolvimento Científico e Tecnológico
20 CEPTRO.br – Centro de Estudos e Pesquisas em Tecnologia de Redes e Operações. 21 CETIC.br – Centro de Estudos sobre as Tecnologias da Informação e da Comunicação. 22 W3C Brasil l – Escritório brasileiro do W3C (World Wide Web Consortium). 42
o 9 – Conselho Nacional de Secretários Estaduais para Assuntos de Ciência e Tecnologia
o 10 – Notório Saber
Sociedade Civil:
o 11 – Provedores de acesso e conteúdo
o 12 – Provedores de infraestrutura de telecomunicações
o 13 – Indústria TICs (Tecnologia da Informação e Comunicação) e software
o 14 – Empresas usuárias
o 15, 16, 17 e 18 – Terceiro setor
o 19, 20 e 21 – Academia
2.7.2 Princípios para a governança e uso da Internet
Na terceira reunião ordinária de 2009, o CGI.br aprovou a resolução CGI.br/RES/2009/003/P, que estabelece os princípios fundamentais para a governança e uso da Internet no Brasil. Além de alinhar o Brasil às iniciativas internacionais no sentido de governança e bom uso da Internet, define a orientação e dá embasamento às ações e decisões do CGI.br, também deve ser algo a ser observado e respeitado pela sociedade como uma bússola a ser seguida, preservando os avanços alcançados, permitindo novas evoluções e por último e não menos importante, preservando a cultura do ciberespaço de abertura, compartilhamento, cooperação e aprendizado contínuo.
a) Liberdade, privacidade e direitos humanos O uso da Internet deve guiar-se pelos princípios de liberdade de expressão, de privacidade do indivíduo e de respeito aos direitos humanos, reconhecendo-os como fundamentais para a preservação de uma sociedade justa e democrática.
b) Governança democrática e colaborativa A governança da Internet deve ser exercida de forma transparente, multilateral e democrática, com a participação dos vários setores da sociedade, preservando e estimulando o seu caráter de criação coletiva.
43
c) Universalidade O acesso à Internet deve ser universal, a fim de que seja um meio para o desenvolvimento social e humano, contribuindo para a construção de uma sociedade inclusiva e não discriminatória em benefício de todos. d) Diversidade A diversidade cultural deve ser respeitada e preservada e sua expressão deve ser estimulada, sem a imposição de crenças, costumes ou valores. e) Inovação A governança da Internet deve promover a contínua evolução e ampla difusão de novas tecnologias e modelos de uso e acesso. f) Neutralidade da rede Filtragem ou privilégios de tráfego devem respeitar apenas critérios técnicos e éticos, não sendo admissíveis motivos políticos, comerciais, religiosos, culturais, ou qualquer outra forma de discriminação ou favorecimento. g) Inimputabilidade da rede O combate a ilícitos na rede deve atingir os responsáveis finais e não os meios de acesso e transporte, sempre preservando os princípios maiores de defesa da liberdade, da privacidade e do respeito aos direitos humanos. h) Funcionalidade, segurança e estabilidade A estabilidade, a segurança e a funcionalidade globais da rede devem ser preservadas de forma ativa por meio de medidas técnicas compatíveis com os padrões internacionais e estímulo ao uso das boas práticas. i) Padronização e interoperabilidade A Internet deve basear-se em padrões abertos que permitam a interoperabilidade e a participação de todos em seu desenvolvimento. j) Ambiente legal e regulatório O ambiente legal e regulatório deve preservar a dinâmica da Internet como espaço de colaboração.
44
2.7.3 Considerações sobre o futuro
Sem qualquer juízo de valor sobre as instituições que governam a Internet, esta Dissertação está alinhada com Castells (2003) quando ele coloca sua surpresa de que a Internet tenha sido gerenciada desde a sua concepção até hoje de forma estável, sem ceder à burocracia americana ou à desorganização que uma estrutura descentralizada como a sua poderia trazer, citando a importância das pessoas que desde o princípio criaram uma cultura de abertura, compartilhamento, cooperação e aprendizado contínuo.
Que isso tenha ocorrido foi a proeza desses cavalheiros da inovação tecnológica: Cerf, Kahn, Postel e Berners-Lee e muitos outros, que realmente buscaram manter a abertura da rede para seus pares como forma de aprender e compartilhar. Nessa abordagem comunitária à tecnologia, o patriciado meritocrático encontrou-se com a contracultura utópica na invenção da Internet e na preservação do espírito de liberdade que está na sua fonte. A Internet é, acima de tudo, uma criação cultural (CASTELLS, 2003, p. 32).
Acredita-se que uma das questões mais relevantes para o futuro da Internet não é apenas como a tecnologia vai mudar, mas também como os processos de mudança e evolução em si serão gerenciados. Como este trabalho descreve, a arquitetura da Internet tem sido impulsionada por um grupo de designers, mas também na forma como o grupo mudou e como o número de interessados tem crescido. Com o sucesso da Internet vem a proliferação das partes interessadas – stakeholders – agora com uma dimensão econômica, bem como um investimento intelectual na rede. Vê-se agora, no debate sobre o controle do espaço de nomes de domínio e a forma de os endereços IP de próxima geração, uma luta para encontrar a próxima estrutura social que vai orientar a Internet no futuro. A forma dessa estrutura será mais difícil de encontrar, dado o grande número de interessados. Ao mesmo tempo, a indústria se esforça por encontrar a justificação econômica ao grande investimento necessário para o crescimento futuro, por exemplo, atualizar o acesso residencial a uma tecnologia mais adequada.
Assim, estabelecer princípios para a governança e uso da Internet na linha da resolução aprovada pelo CGI.br e ações do WSIS e IGF, contribuem muito para o futuro, pois se a Internet tropeçar, não será porque faltará tecnologia, visão ou motivação. Será por não se poders definir uma direção e marchar coletivamente no futuro. 45
CAPÍTULO 3
CONCEITOS ESSENCIAIS
Quando se fala em conceitos essenciais, pretende-se discutir alguns pontos que para este trabalho são considerados relevantes, como a web semântica, Visualização de Dados e Mecanismos de Otimização de Buscas. Entretanto, vale registrar que existem pesquisas envolvendo outras abordagens convergentes ao objetivo de aumentar a qualidade e significância dos resultados de buscas na web, mas que não serão aplicadas na proposta de portal. Dentre elas podem ser citadas Visual Search, Social Search e Peer-to-peer web search engine, descrevendo-as resumidamente a seguir:
a) Visual Search é uma abordagem que permite que as buscas sejam realizadas sem utilização de palavras, escritas ou faladas, apenas com imagens. Na essência pretende- se, a partir de vários objetos da imagem, analisar cores, contornos e texturas do que está no arquivo e assim construir representações digitais individuais de cada objeto, o que permitiria a pesquisa por intermédio da comparação desses objetos – assim não seriam mais necessárias as tags ou legendas associadas às imagens para classificá-las. Hoje existem dificuldades que precisam ser equacionadas, como por exemplo, a necessidade de uma grande capacidade de processamento dos buscadores. Além disso, também existem aspectos éticos e legais como o reconhecimento facial e a invasão de privacidade que isso acarretaria. Hoje um dos principais produtos nessa linha, ainda que com imperfeições, é o Google Goggles. Funcionando a partir de smartphones que utilizam o Android ou do iPhone, a Google disponibiliza uma busca online, onde a câmera funciona como um scanner possibilitando, a partir da imagem fotografada, pesquisar uma obra de arte, uma marca comercial, um monumento e até mesmo fazer a tradução do texto de um menu de restaurante, oferecendo a possibilidade de encontrar qualquer coisa por meio de imagens. Vale registrar que a tecnologia adotada pela Google foi originalmente desenvolvida para reconhecimento de face e que essa função teria sido desabilitada para evitar processos judiciais por invasão de privacidade. Outras aplicações com a abordagem de reconhecimento visual estão em desenvolvimento comercial e podem ser destacadas a Superfish (superfish.com) e Evolution Robotics (evolution.com). 46
A Superfish é uma startup sediada no Vale do Silício que desenvolveu uma aplicação comercial, ainda em sua versão beta, que a partir de um aplicativo instalado no navegador do usuário (add-on), recebe a imagem do objeto que está sendo procurado e após uma pesquisa dessa imagem em seu banco de dados, oferece uma lista de itens similares em outras lojas com seus respectivos preços, simplificando o processo de busca daquele produto e de seus análogos. Essa aplicação, apesar de ser muito promissora e com certeza útil, ainda apresenta falhas. Por exemplo, em uma busca por um aparelho celular, são recebidas também ofertas de capas e outros acessórios, e em alguns momentos até de outros produtos completamente diferentes em termos de funcionalidade e aplicação, porém que possuem semelhança física com a imagem consultada. A Evolution Robotics é uma empresa que, entre suas linhas de pesquisa e desenvolvimento, atua com reconhecimento de padrões visuais. Ela desenvolveu software e hardware de baixo custo que podem ser integrados em produtos comerciais, atuando em parceria com as indústrias interessadas em aplicar essa tecnologia em seus produtos. Essas aplicações podem ser, por exemplo, buscadores visuais em telefones celulares, já adotado no Japão, ou em um dispositivo que analisa as gôndolas e prateleiras de um supermercado, informando às áreas competentes situações de falta de produtos e espaços vazios ou até mesmo de produtos distribuídos fora das posições em que deveriam estar. b) Social Search é uma busca que se baseia na preferência dos seus amigos em redes sociais e, a partir dessas preferências, propõe oferecer maior significância aos resultados das suas pesquisas. Crê-se que os posts e outras informações compartilhadas por pessoas conhecidas e de sua confiança permitirão maior relevância e credibilidade aos resultados das pesquisas. Por exemplo, se você deseja informações do Museu do Prado, em Madri, e alguém da sua rede de amigos já o tenha visitado, postando fotos e comentários, esse item aparecerá em destaque no resultado de sua pesquisa. Outra variante possível dessa abordagem está relacionada a posições geográficas. Em regiões como nos EUA, onde a distribuição de backbones das redes IP é organizada de maneira a propiciar a localização do internauta com maior precisão, se, por exemplo, alguém compartilhar um link de uma loja de roupas localizada na mesma região em que outro usuário realize uma busca semelhante, é provável que esse link seja exibido em uma posição mais destacada. 47
O Google lançou, em outubro de 2009, a versão experimental do Google Social Search, e esta prevista uma versão atualizada ainda para 2011. A proposta do Google Social Search é analisar as redes sociais nas quais o usuário esteja envolvido, entendendo as suas conexões de relacionamentos e negócios, e ao realizar uma consulta, retornar informações relevantes de pessoas que sejam, supostamente aos olhos do usuário, conhecidas e confiáveis. Na mesma linha segue o Bing, que em outubro de 2010, a partir de uma parceria com o Facebook, incluiu no retorno das buscas os posts de pessoas com as quais o usuário se relaciona na rede social. Esses são, sem dúvida, passos importantes para a personalização dos resultados das buscas. c) Peer-to-peer web search engine. É uma proposta de um web search engine universal baseado na tecnologia peer-to-peer, portanto, trabalhando de forma descentralizada. Nessa proposta, os usuários passam a ter o papel, não apenas de consumidor dos resultados das buscas, mas também em fornecer dados para os índices, bem como armazená-los em seus próprios computadores que passariam a ser nós dessa rede de busca. Dentro desse conceito, pretende-se que a busca seja mais rápida e a própria classificação de relevância das páginas poderá ser indicada pela frequência em que é visitada.
Os benefícios ou consequências da adoção dessa tecnologia seriam:
direitos civis e da privacidade – A censura torna-se quase impossível, além de não se poder estabelecer uma central de acompanhamento, avaliação e registro das pesquisas realizadas; ecológicos – Redução de consumo de energia pela eliminação de centros de dados para concentrar as informações, seu processamento e retorno aos usuários, pois para essa solução bastariam os computadores dos usuários; sociológicos – Todos os candidatos a nós teriam os mesmos direitos quanto à adição de novos conteúdos, correspondendo aos mesmos princípios adotados em Wikis, o que já se mostrou viável na web. Além disso, o conteúdo do Search Engine não seria influenciado por aspectos políticos e interesses comerciais do operador do portal de buscas. E por fim, a individualização da relevância, pois todos podem avaliar a qualidade e a importância das páginas web por suas próprias regras e ajustar a sua relevância pessoal como um método de classificação (popular e científico). 48
Nessa linha de pesquisa se pode citar a YaCy (yacy.com), Wowd (wowd.com), a Faroo (faroo.com) que já disponibilizam soluções operacionais.
3.1 A QUESTÃO DA WEB SEMÂNTICA
É notório o esforço que se faz nas pesquisas em buscadores como o Google ou Bing. É enorme a quantidade de dados recebidos que não possuem nenhum significado em relação ao que realmente se está buscando – na maioria das vezes se despende tempo e esforço de análise e, mesmo assim, invariavelmente, são dispensados dados que poderiam ser relevantes por absoluta falta de tempo para uma filtragem mais apurada. Em Berners-Lee et al.(2001), os autores definem e exemplificam de forma sucinta e clara o que seria a web semântica e como ela poderia auxiliar nesses filtros para assim obter dados relevantes e significativos nas buscas.
Neste artigo alguns pontos são enfatizados e devem ser discutidos a seguir para um melhor entendimento:
A web semântica não é uma web separada, mas uma extensão da atual, em que a informação é dada com significado bem definido, permitindo que os computadores e as pessoas trabalhem em cooperação. (BERNERS-LEE, HENDLER E LASSILA)
Constata-se que o mais interessante na cultura da web é a possibilidade de que qualquer pessoa no planeta, com pouco ou quase nenhum conhecimento técnico, possa fazer parte desse espaço criativo em que se transformou a web, onde qualquer um pode criar e editar hipertextos como uma forma de expressão e de atividade colaborativa, favorecendo o crescimento exponencial de conteúdo, desestruturado, cada vez mais e em maior volume, e assim, esse tipo de desenvolvimento, voltado para outras pessoas e criado por aqueles que não estarão preocupados com metadados, ontologias ou taxonomias, continue existindo compondo a web sintática, que conviverá com a web semântica – daí a afirmação de que a web semântica será uma extensão da web atual (sintática).
Quanto às pessoas e computadores trabalharem em cooperação, entende-se que a disponibilização de dados que possam ser integrados a outros sistemas computacionais com 49
suas interfaces homem-máquina específicas e o uso de agentes de software que nos entreguem resultados relevantes e significantes criam essa perspectiva de cooperação.
A web semântica permitirá que máquinas compreendam23 a semântica de documentos e dados, e não discursos e escritas humanas. (BERNERS-LEE, HENDLER E LASSILA)
Esse sem dúvida será um dos grandes ganhos que a web semântica poderá nos oferecer. A partir de agentes de software, serão realizadas as buscas e negociações entre computadores, como no exemplo apresentado por Berners-Lee et al. (2001). Será possível buscar consultas médicas estabelecendo critérios de distância da residência de quem procura, cobertura de plano médico, critérios de classificação de qualidade, composição com agendas de diversas pessoas etc., utilizando agentes de software que fariam automaticamente as buscas e negociações necessárias retornando as melhores possibilidades.
Adequadamente projetada, a web semântica pode acompanhar a evolução do conhecimento humano como um todo. (BERNERS-LEE, HENDLER E LASSILA)
A web semântica não é “apenas” uma ferramenta para a realização de tarefas e ações automatizadas já discutidas anteriormente. Se adequadamente projetada, a web semântica pode apoiar a evolução do conhecimento humano como um todo.
O esforço humano está entre a eficácia de pequenos grupos, agindo de forma independente, e a necessidade de se integrar a comunidade em geral. Um pequeno grupo pode inovar rápida e eficientemente, mas isso dá a esse grupo o entendimento a conceitos que nem sempre são compreendidos pelos que estão fora dele.
Por outro lado, a coordenação das ações por meio de um grupo maior, além de um processo lento, consome enorme quantidade de esforço e comunicação. De forma geral, o mundo funciona entre os extremos desse espectro, com tendências a começar pequeno, a partir das ideias individuais, e mover-se ao longo do tempo a um entendimento mais amplo da comunidade em geral.
23 Vale registrar que o entendimento de "que máquinas compreendam", considerando que a essência da programação contemporânea envolve apenas a manipulação de símbolos pelo dispositivo, está baseado na disponibilização de linguagens de codificação que permitam a publicação de ontologias em um formato que capacite os computadores a processá-las automaticamente. 50
Um processo essencial nesse contexto é a consolidação da cultura dos grupos menores formando um grupo maior, exigindo para isso uma linguagem comum entre eles.
Frequentemente, grupos independentes desenvolvem conceitos semelhantes – assim, estabelecer a relação entre eles nos trará grandes benefícios. Como um dicionário Português/Inglês e Inglês/Português, ou pesos e medidas com suas tabelas de conversão. Essas relações permitem a comunicação e colaboração, mesmo quando a uniformização dos conceitos e termos ainda não existem.
A web semântica permitirá a qualquer pessoa expressar com pouco esforço novos conceitos que sejam criados. Sua língua e lógica unificadora permitirá que os conceitos sejam progressivamente ligados em uma web universal. Essa estrutura abrirá o conhecimento e o funcionamento da humanidade para a análise por agentes de software, fornecendo uma nova classe de ferramentas com as quais se poderá viver, trabalhar e aprender coletivamente.
Dentro dessa linha, Pierre Lévy24, citado em Leme (2009, p. 25), define a web semântica como a ferramenta necessária para o desenvolvimento da inteligência coletiva, sendo a elaboração de um sistema de códigos, baseados em metadados, ontologias ou taxonomias, dispensando as pessoas de usarem uma nova linguagem, mantendo a sua própria, pois haverá um software que entenderá esses códigos e os traduzirá para uma forma compreensível a todos.
Nos próximos itens serão discutidos com mais detalhes os conceitos tecnológicos em que se apoia a web semântica.
3.1.1 Contraponto com a “inteligência artificial”
Como colocado em Berners-Lee et al. (2001), para se obter os benefícios da web semântica não será necessária uma “inteligência artificial” no nível de sofisticação de personagens da ficção como o computador HAL de 2001 – Uma Odisseia no Espaço, ou do robô C3PO de Star Wars.
24 Filósofo francês, professor da cadeira de Pesquisas sobre Inteligência Coletiva da Universidade de Ottawa (Canadá). 51
A web semântica tem uma proposta diferente da “inteligência artificial”. Ela pretende que, dentro do conceito de documentos codificados por humanos, estes se tornem compreensíveis pelas máquinas, e assim os computadores, programados para tal, passem a ter habilidades para a resolução de questões bem definidas por meio de operações que processem dados. Isso prescindirá do uso da “inteligência artificial” para os computadores compreenderem a linguagem humana, pois serão as pessoas que deverão codificar as informações numa forma de representação compreendida em um nível que permita às máquinas realizarem seu processamento automático, utilizando-se de metadados, ontologias etc.
Da mesma forma como colocado por Breitman (2006, p. 9), em que pese que técnicas e experiências da “inteligência artificial” sejam utilizadas na web semântica e face ao histórico de insucessos da “inteligência artificial”, ambas se diferenciam, pois a web semântica prescinde de uma inteligência superior como na proposta da “inteligência artificial”, pois ainda que um agente de software não alcance resultados próximos dos obtidos pela mente humana, mesmo assim contribuirá para uma Internet melhor. Deve-se considerar que mesmo soluções parciais irão contribuir para que os seres humanos realizem melhor suas atividades cotidianas na web.
O exposto acima pode ser condensado na seguinte definição colocada em Breitman (2006, p. 9):
Se o objetivo da IA é construir um agente de software que mostre inteligência no nível humano (e superior), o objetivo da web semântica é auxiliar humanos a realizarem suas tarefas diárias na rede. - Antoniou e Harmalen
3.1.2 Metadados
A definição de metadados, de uma maneira bem simples, pode ser colocada como dados sobre os dados. Entretanto, existem algumas definições formais de entidades reconhecidas destacadas a seguir:
A International Federation of Library Associations (IFLA) define da seguinte forma:
52
Metadados são dados sobre dados. O termo refere-se a qualquer dado utilizado para auxiliar na identificação, descrição e localização de recursos eletrônicos em rede. Existem muitos formatos diferentes de metadados, alguns muito simples em sua descrição, outros bem complexos e ricos. (IFLA, 2009)
O World Wide Web Consortium (W3C, 2001) define metadados como “informações para a web que podem ser compreendidas por computadores”. Ambas as definições apresentam uma abordagem voltada para web semântica.
Entretanto, essas definições limitam o seu escopo a um ambiente informatizado e na web. Em verdade, como colocado por Breitman (2006, p. 16), pode-se utilizar o termo a qualquer descrição de um dado; assim, o tradicional cartão de biblioteca é uma forma de metadado, da mesma maneira que um item de catálogo é representado por um código de produto.
Dentro desta linha, de acordo com Zorama Ercegovac, (apud ROSETTO et al., 2011, p. 4), entende-se por metadados como sendo um sumário de informações sobre a forma e o conteúdo de um recurso eletrônico, ou não, que pode ser um objeto bibliográfico (livros, seriados, mapas etc.), catálogo de registros bibliográficos, inventários e registros de arquivos, objetos geoespaciais (imagens de satélites etc.), recursos de museus e visuais, ou implementações de software.
Percebe-se que o assunto “metadados”, antes restrito ao âmbito dos museólogos e bibliotecários, em razão da sua aplicação na web semântica, passa a ter um papel de destaque entre os temas das pesquisas em Ciências da Computação.
O quadro a seguir apresenta uma classificação de metadados e suas definições, conforme proposto por Anne Gilliland-Swetland, da Universidade da Califórnia, Los Angeles, citado em Breitman (2006, p. 17).
53
Tipo Definição Exemplos Administrativo Metadados utilizados na gerência e Aquisição de informação na administração de recursos de Registro de direitos e reprodução informação Documentação dos requisitos legais de acesso Informação de localização Critérios de seleção para a digitalização Controle de versão Descritivo Metadados utilizados para descrever Registros de catalogação e identificar recursos de informação Auxílio para a procura de informação Indexes especializados Utilização de hiperlinks entre recursos Anotações Preservação Metadados relacionados ao Documentação sobre a condição gerenciamento dos recursos de física dos recursos informação Documentação sobre as ações tomadas de modo a preservar as versões físicas e digitais dos recursos, e.g., atualização e migração Técnica Metadados relacionados a Documentação sobre hardware e funcionalidades do sistema e como software seus metadados se comportam Informação relativa à digitação, e.g., formatos, compressão, rotinas de escalonamento Registro do tempo de resposta do sistema Autenticação de dados, e.g., senhas e criptografia Utilização Metadados relacionados ao nível e ao Registros de exibição tipo de utilização dos recursos Registro do uso e dos usuários dos recursos Reutilização do conteúdo e informação relativa ao multiversionamento
Tabela 1 - Tipos e Funções de metadados por Anne Gilliland-Swetland (BREITMAN, 2006, p. 17)
De acordo com Breitman (2006, p. 16), o uso universalizado de metadados obriga o uso de vocabulários controlados, algo relegado a um plano secundário durante anos pelos catalogadores. Para garantir a comunicação entre aplicações, novas habilidades e ferramentas serão necessárias para implementar os metadados na escala pretendida; assim, torna-se importante elucidar aspectos conceituais e de sua aplicação: 54
a) Metadados não são obrigatoriamente digitais. Profissionais de outras áreas o utilizam há bastante tempo para gerenciar suas coleções (Museus, Bibliotecas etc.), muito antes do advento dos recursos computacionais e digitais.
b) Metadados podem fornecer mais do que apenas dados sobre um objeto. Embora seu uso mais conhecido seja a classificação e catalogação de objetos, também são utilizados no processamento e preservação de objetos (vide tabela anterior).
c) Metadados podem ser obtidos de várias fontes. Podem ser fornecidos por seres humanos, de bases de dados ou gerados automaticamente.
d) Metadados evoluem de acordo com sua vida útil ou a do objeto que descrevem. São criados, alterados e até mesmo descartados ao longo da vida útil do objeto que descrevem.
Atualmente há uma grande variedade de formatos de metadados. Nos próximos tópicos serão destacados aqueles que apresentam maior relevância para a web semântica, o Dublin Core Resource Description (DC), a Framework de Warwick e o Resource Description Framework (RDF).
3.1.2.1 Padrão Dublin Core
Durante uma das primeiras conferências sobre a web realizada em outubro de 1994, foi colocada a necessidade de uma semântica para descrever recursos disponibilizados na Internet.
A primeira iniciativa nesse sentido ocorreu em um workshop realizado no ano de 1995, na cidade de Dublin, Ohio, EUA, reunindo bibliotecários, investigadores, especialistas e fornecedores de conteúdos, e também especialistas em informática, a fim de desenvolver uma norma para a pesquisa de recursos, nascendo o Dublin Core. Um padrão internacional para a descrição de recursos de informação, o nome “Dublin” deu-se devido ao nome da cidade onde nasceu, e “core”, porque os seus elementos são suficientemente amplos e genéricos para servirem na descrição de uma enorme variedade de recursos. 55
Em workshops posteriores surgiu o Dublin Core Metadata Element Set, formado por quinze elementos resultantes de um esforço interdisciplinar e de consenso internacional.
O Dublin Core está traduzido em vinte idiomas e foi adotado pelo CEN/ISSS (European Committee for Standardization / Information Society Standardization System), com presença oficial no W3C, estando representado nas normas internacionais abaixo:
ISO Standard 15836:2009, de fevereiro de 2009 (ISO 15836, 2009); ANSI/NISO Standard Z39.85-2007 de maio de 2007 (NISO Z39.85, 2007); IETF RFC 5013 de agosto de 2007 (KUNZE, et al., 2007).
Segundo Souza et al. (2000), existem projetos em países da América do Norte, Europa, Ásia e Austrália utilizando o padrão Dublin Core no desenvolvimento de ferramentas para a descrição de recursos eletrônicos, destacando-se os seguintes:
• Malvine – Manuscripts and Letters Via Integrated Networks in Europe – Um motor de buscas focado na pesquisa de manuscritos pós-medievais, localizado na Biblioteca Estadual de Berlim e mantido por um consórcio europeu de bibliotecas, arquivos e museus. MALVINE disponibiliza informação acerca da natureza e localização de manuscritos conservados num vasto número de instituições de patrimônio cultural. (MALVINE Project, 2003).
• Foundations Project Minnesota’s Gateway to Environmental Information – Projeto com financiamento e colaboração de Agências Ambientais do governo do Estado de Minnesota, EUA, com padrão baseado no Dublin Core, visando melhorar o acesso público aos dados e informações ambientais e de recursos naturais. (FOUNDATIONS Project, 2007)
No Brasil, podem ser citados os trabalhos utilizando elementos metadados do Dublin Core na definição do conjunto de informações para a descrição bibliográfica de documentos na Biblioteca Digital de Teses da USP (ROSETTO et al., 2011) e o que discorre sobre a implantação do tema metadados x Dublin Core na Embrapa, a partir da criação do Rural Mídia – Banco de Imagens –, sistema que possibilita a digitalização, tratamento e organização de imagens, via Web (SOUZA et al., 2000). 56
Os quinze elementos definidos no Dublin Core Metadata Element Set por, DCMI (2011) são os seguintes:
• Título – um título dado ao recurso;
• Criador – uma entidade principal responsável pela elaboração do conteúdo do recurso;
• Assunto – assunto referente ao conteúdo do recurso;
• Descrição – uma descrição sobre o conteúdo do recurso;
• Editor – a instituição responsável pela difusão do recurso;
• Contribuinte – uma entidade responsável pela contribuição ao conteúdo do recurso;
• Data – data associada com um evento no ciclo de vida do recurso;
• Tipo – a natureza ou gênero do conteúdo do recurso;
• Formato – manifestação física ou digital do recurso;
• Identificação – identificação não ambígua do recurso dentro de um dado contexto;
• Fonte – uma referência para outro recurso o qual o presente recurso é derivado;
• Idioma – idioma do conteúdo intelectual do recurso;
• Relação – uma referência a outro recurso que se relaciona com o recurso;
• Cobertura – a extensão ou cobertura espaço-temporal do conteúdo do recurso;
• Direitos – Informações sobre os direitos do recurso e seu uso.
Conforme Breitman (2006, p. 19), o Dublin Core, organizado pelo Dublin Core Metadata Initiative (DCMI, 2011), é um padrão simples e até certo ponto básico, sendo essa simplicidade o seu ponto forte por facilitar seu entendimento mesmo por quem não tenha a experiência de catalogadores, e assim propiciar sua adoção em larga escala. Porém, essa mesma simplicidade pode ser encarada como seu ponto fraco por não oferecer uma semântica 57
mais significativa. Em essência priorizou-se a facilidade e visibilidade em detrimento do poder de expressão semântica.
3.1.2.2 Framework de Warwick
Realizado em abril de 1996 em Warwick, Inglaterra, o Metadata II Workshop propôs ao seu final um framework com o objetivo de aumentar a interoperabilidade entre os fornecedores de conteúdo, catálogos e indexadores, e apoiar a descoberta automática de recursos e sistemas de descrição. Esse padrão se fez necessário para ampliar as possibilidades semânticas do padrão Dublin Core.
Proposto como uma arquitetura container (vide figura a seguir), ficou conhecido como Framework de Warwick. Forma um mecanismo que agrega lógica e, em alguns casos fisicamente, pacotes distintos de metadados. Essa modularização de metadados representou um aumento de novos elementos, que foram adicionados aos existentes no Dublin Core (LAGOZE, 1996):
descrições específicas do domínio do documento (objeto);
termos e condições de uso do documento;
rótulos e gradação do documento;
informações de segurança, autenticidade, assinaturas;
origem do fornecedor;
conjunto de containers para documentos compostos e ponteiros para todas as manifestações, instâncias ou versões do documento;
responsável por armazenar o documento;
conjunto de descritores do Dublin Core no documento; 58
Figura 4 - Framework de Warwick
Algumas dificuldades foram percebidas, pois, apesar de a arquitetura estar bem delineada, por exemplo, existe a questão da independência de sintaxe. Cada pacote pode fazer uso de sintaxes diferentes, o que dá flexibilidade ao modelo mas não garante que os pacotes se comuniquem. Outro problema está na semântica, já que não existe garantia de que os conjuntos de metadados não utilizem conceitos com significados diferentes ou dois conceitos com o mesmo significado. De fato, o Framework de Warwick não foi realmente utilizado pela comunidade, dando espaço ao surgimento de outro framework que corrigia as deficiências destacadas. Esse novo framework foi o Resource Description Framework – RDF – que será tratado no item a seguir.
3.1.2.3 Resource Description Framework (RDF)
O RDF é uma linguagem para a representação de informações na web por meio de metadados utilizando a linguagem XML (eXtensible Markup Language). Seu padrão, por intermédio do XML, fornece um modelo de dados e sintaxe para codificar, representar e transmitir dados de forma a permitir sua compreensão por computadores. 59
Permite também representar novas gramáticas (metalinguagens) descritas por elementos, atributos e regras de composição (NOLETO et al., 2004).
Segundo Breitman (2006, p. 20), trata-se de uma implementação do Framework de Warwick com correções de suas deficiências. Por exemplo, a questão da superposição semântica é obtida por meio das marcações de namespaces do XML, que definem um conjunto de nomes de elementos usando prefixos declarados no cabeçalho referenciando uma URI (Universal Resource Identifier). A URI pode ser um sujeito, objeto ou uma URL (Uniform Resource Locator), o que serve para determinar de maneira clara um recurso.
A tecnologia RDF tem sua definição detalhada em dois documentos:
Resource Description Framework (RDF) é uma linguagem de uso geral para representar as informações na web. Esse documento define uma sintaxe XML para RDF chamada RDF/XML em termos de namespaces em XML, o XML Information Set e XML Base (W3C, 2004); Resource Description Framework (RDF) Schema Specification, detalha como usar RDF para descrever vocabulários RDF. A especificação também define um vocabulário básico para isso, bem como possibilita a sua expansão para viabilizar adições futuras no RDF (W3C, 2000).
O modelo básico do RDF é formado por:
recurso (resource): qualquer entidade desde que tenha uma URI; propriedade (property): é um recurso que tem nome e pode ser usado para determinar outro recurso, por exemplo, criador e título; declaração ou valor (statement): corresponde a uma propriedade ou ao seu valor, relacionada a um recurso determinado.
De acordo com Breitman (2006, p. 22), em RDF frases são escritas com Recurso + Propriedade + Valor, podendo ser entendidas respectivamente como o sujeito, o predicado e o objeto de uma frase. Assim em RDF a informação, de uma forma simples, é representada por uma coleção de frases, todas com o mesmo formato, isto é, sujeito, predicado e objeto.
Por estar baseada na sobreposição de camadas em uma base XML, deseja-se que a cada camada se obtenha mais expressividade, por estarem em XML, garante-se que mesmo que o 60
computador que processe o arquivo não possa entender as camadas superiores (RDF, OWL), conseguirá ao menos processar a parte XML do arquivo.
3.1.2.4 Restrições ao modelo de Metadados da web semântica
Como todo grande projeto, a questão de metadados suscita críticas e restrições, e a web semântica e seu modelo de metadados não seria uma exceção. Boa parte dessas críticas estão registradas no documento Metacrap, assinado por Cory Doctorow (DOCTOROW, 2001), afirmando que “há pelo menos sete obstáculos intransponíveis entre o mundo como nós o conhecemos e a metautopia”.
Os sete obstáculos citados por Doctorow são:
as pessoas mentem – não se pode esperar que os sites que disponibilizem seus dados de modo semântico o façam com 100% de honestidade. Em um mundo competitivo, pode-se esperar que alguns sites tentem atrair mais consumidores manipulando e mentindo nas informações que disponibilizam. Basta observar os spams que chegam às caixas de e-mail; as pessoas são preguiçosas – existe um trabalho de grande responsabilidade de criar informação; entende-se a importância da criação e manutenção de metadados, ótimo para a informação. Mas e as pessoas que nem se dão ao trabalho de digitar o assunto em seus e-mails? Ou que armazenam em seu hard disk arquivos com os nomes sugeridos pelo seu editor de texto (doc1.txt)?; as pessoas não são cuidadosas – mesmo quando existem benefícios para a criação de metadados consistentes, as pessoas não têm cuidado com isso. Basta observar o eBay ou qualquer outro site de venda – todos os vendedores têm uma boa razão para verificar os erros ortográficos das suas listas, pois anúncios com erros não vão aparecer na pesquisa com a grafia correta e, consequentemente, terão menos ofertas e preços mais baixos de venda. Entretanto, ao pesquisar “Palm” e depois procurar por “Plam”,no eBay, surgirão muitos anúncios com a grafia incorreta; missão: impossível – conhecer a si mesmo – Tim Berners-Lee parte da premissa de que os usuários podem descrever de forma precisa suas atividades e seu domínio. Entretanto, a prática desmente essa premissa – pois é notório que as pessoas não 61
conseguem perceber de modo consistente seus próprios comportamentos. Isso vai desde a estimativa de tempo de um empreiteiro numa reforma passando por um programador para desenvolver uma rotina chegando a um usuário na descrição de uma atividade para que ela seja informatizada; os modelos não serão imparciais – imaginar que haverá neutralidade nos modelos de metadados é irreal. Sempre haverá algum tipo de influência na sua elaboração. Por exemplo, em um determinado subdomínio, “máquinas de lavar”, os especialistas concordam em sub-hierarquias, com classes para a confiabilidade, o consumo de energia, cor, tamanho etc. Isso pressupõe que há uma forma correta de categorização, e que as pessoas razoáveis, dado o tempo suficiente e incentivo necessário, aceitarão um modelo de hierarquia comum. Nada poderia ser mais incorreto. Qualquer hierarquia de ideias implica necessariamente a importância de alguns itens sobre os outros.
Um fabricante de pequeno porte de máquinas de lavar com consciência ambiental faria uma hierarquia parecida com a que segue:
Consumo de energia:
Consumo de água:
Tamanho:
Capacidade:
Confiabilidade:
Enquanto um fabricante que privilegia o design de seus produtos, iria querer algo da seguinte forma:
Cor:
Tamanho:
Programação:
Confiabilidade:
62
A ideia de que interesses divergentes em um ambiente competitivo podem chegar a acordo rápido sobre um vocabulário comum ignora os princípios de organização de mercado.
métricas influenciam os resultados – a definição de um padrão comum para medir as coisas importantes em qualquer domínio sofrerá a influência de quem as escolher. Os definidores tenderão a escolher aspectos que favoreçam seus produtos nas medições dessas métricas. Há casos envolvendo métricas de audiência, sempre muito discutidas sobre refletir ou não a realidade, pesquisas de intenção de votos ou de satisfação, que tendem a favorecer as organizações que as contrataram, benchmark de produtos eletrônicos etc. Cada player desse domínio tentará influir na escolha dessas métricas; há mais do que uma forma de descrever algo - isso é um fato, cada indivíduo interpretará o objeto a partir de sua experiência pessoal anterior, o que por si só já abre muitas possibilidades de entendimento. Mesmo que se busque um enfoque único e bem definido, existirão variações e deseja-se que os modeladores tenham o bom senso de considerar diferentes alternativas antes de se comprometer com a forma final dos dados.
É verdade que existem imperfeições, mas mesmo assim se deve considerar que:
a) os problemas colocados por Cory Doctorow já existem dentro das organizações, especialmente quando se fala de processos informatizados. Como no mundo corporativo, deve-se aprender a conviver com essas falhas e ao longo do tempo buscar reduzi-las a um nível que não comprometa o todo; b) como colocado por Breitman (2006, p. 28), não se pode pura e simplesmente jogar tudo fora. Os metadados são úteis e irão atingir os seus objetivos, mas não se pode considerá-los como uma solução mágica que irá resolver todos os problemas.
3.1.3 Ontologias
O termo “ontologia” se origina das palavras gregas ontos e logoi, que significam o “estudo da entidade”; sua aplicação original é na filosofia, com Aristóteles, e está relacionada ao estudo da existência. 63
Segundo Brandão et al. (2002, p. 3), o termo ontologia, dentro da comunidade de ciência da computação, especialmente na área de inteligência artificial, tem a sua primeira referência em 1991 pelo grupo de pesquisa DARPA Knowledge Sharing Effort. Iniciando da proposta de componentes reutilizáveis de conhecimento como uma maneira de favorecer a elaboração de sistemas baseados em conhecimento, chegando ao termo ontologia para descrever o que seriam tais componentes reutilizáveis.
Ainda no âmbito das ciências da computação e da informação, Gruber (2009) define ontologia como um conjunto de primitivas que representam um modelo de domínio do conhecimento ou do discurso. As primitivas de representação são tipicamente classes (ou conjuntos), atributos (ou propriedades), e das relações (ou relações entre os membros da classe). As definições das primitivas de representação incluem informações sobre o seu significado e as restrições à sua aplicação de forma lógica e consistente.
Como colocado por Breitman (2006, p. 30), o consórcio W3C define que ontologias devem atender descrições para os seguintes conceitos:
classes (ou “coisas”) nos seus domínios de interesse; relacionamentos entre tais “coisas”; propriedades ou atributos que essas “coisas” devem possuir.
Cita também a definição de Gruber que diz: “Ontologia é uma especificação formal e explícita de uma conceitualização compartilhada”, detalhando o significado das palavras chaves dentro dessa definição da seguinte forma:
conceitualização: representa um modelo abstrato de algum fenômeno que identifica os conceitos relevantes para o mesmo; explícita: demonstra que os elementos e suas restrições estão claramente definidos; formal: deixa claro que a ontologia deve ser passível de processamento automático; compartilhada: mostra a noção de que uma ontologia captura conhecimento consensual, aceito por um grupo.
A partir das definições colocadas, nota-se, em primeiro lugar, como mencionado por Viana et al. (2007), que surgiram muitas definições sobre ontologias sem que se tenha chegado a um consenso sobre esse termo dentro da ciência da computação. Em segundo lugar, fica clara a 64
importância das ontologias para a web semântica, dada a necessidade de busca ou a combinação e integração de dados oriundos de diversas comunidades, no caso da web, dos diversos sites.
Nessa linha, Brandão et al. (2002, p. 4) afirmam que as ontologias podem representar a semântica dos documentos e permitir que ela seja utilizada por aplicações web e por agentes de software, deixando as aplicações mais inteligentes no sentido de considerar uma capacidade maior de processamento de tarefas em um nível conceitual mais elevado, preenchendo o espaço entre a representação sintática da informação e sua conceitualização. Apesar de dito no contexto mais restrito da gestão de compras governamentais eletrônicas, pode-se generalizar a afirmação de Viana et al., quando dizem que:
(...) Conclui-se afirmando que a construção de ontologias é uma alternativa tecnológica para a interoperabilidade dos sistemas de informação, podendo favorecer a nova organização do trabalho colaborativo... (VIANA et al., 2007).
3.1.3.1 Classificações
De acordo com Breitman (2006), as ontologias podem ser classificadas de diversas formas: a) Conforme seu espectro semântico
Esta é uma proposta de Ora Lassila e Debora McGuines, baseada na estrutura interna e no conteúdo das ontologias, sendo dispostas da leve até a mais pesada, variando de catálogos de termos informais a sofisticadas ontologias que se alteram dependendo do nível de formalização e expressividade.
Vocabulários controlados Listas finitas de termos
Glossários Listas de termos cujo significado é descrito em (leves) linguagem natural. O formato de um glossário é próximo a um dicionário e os termos são organizados em ordem alfabética, seguidas pelas
Lightweight respectivas definições. 65
Tesauros Listas de termos e definições que padronizam palavras para indexação. Além de definições, um tesauro fornece também as relações entre os termos hierárquico, associativo, ou equivalência (sinônimos). Hierarquias tipo-de informais São hierarquias que usam relações de generalização (tipo de) em uma direção informal. Nesse tipo de hierarquia, conceitos relacionados podem ser agregados em categorias mesmo se eles não respeitam o relacionamento de generalização. Hierarquias tipo-de formais São hierarquias que respeitam plenamente o relacionamento de generalização. Frames São modelos que incluem classes e propriedades. As primitivas do modelo são classes (ou frames),
que apresentam propriedades (ou atributos). São (pesadas)
largamente usadas na modelagem do conhecimento. Ontologias que expressam restrição de São ontologias que fornecem construções para
valor restringirem os valores que suas classes podem Heavyweight assumir. Ontologias que expressam restrição lógica São ontologias que permitem restrições lógicas de primeira ordem para serem expressas.
Tabela 2 - Classificação de Ontologias segundo seu espectro semântico
b) Conforme sua generalidade
Guarino (1998, p. 7) propõe uma classificação a partir da generalidade da ontologia, identificando-as das seguintes formas:
Ontologia de nível superior Descrevem conceitos genéricos, tais como espaço, tempo e eventos. (top-level ontology) Em geral, independem do domínio e podem ser reutilizadas na construção de novas ontologias. Ontologias de domínio Descrevem vocabulário relacionado a domínio genérico, por meio das (domain ontology) especificações de conceitos definidos em ontologias de alto nível. 66
Ontologias de tarefas Descrevem vocabulário relacionado a uma tarefa ou a uma atividade (task ontology) genérica, por meio da especialização de conceitos definidos nas ontologias de alto nível. Ontologias de aplicação Descrevem vocabulário de uma aplicação específica. Esse tipo de (application ontology) ontologia especializa conceitos tanto das ontologias de domínio quanto de tarefas. Tabela 3 - Classificação de ontologias quanto à generalidade
Figura 5 - Classificação de ontologias (Fonte: GUARINO, 1998, p. 7)
c) Conforme o tipo de informação que representam
Assunción Gómez-Pérez, Mariano Fernández-López e Oscar Corcho, (apud BREITMAN, 2006, p. 40), propõem uma classificação a partir do tipo de informação representada por uma ontologia, identificando tipos conforme quadro abaixo:
Ontologias de representação do Modelagem de elementos primitivos dos modelos de conhecimento representação do conhecimento. Fornecem representações baseadas em classes, subclasses, atributos, axiomas. Ontologias genéricas e de uso comum Representam o conhecimento comum que pode ser utilizado em diferentes domínios. Em geral, incluem vocabulário que relaciona classes, eventos, espaço, entre outros conceitos. Super ontologias Descrevem conceitos gerais 67
Ontologias de domínio Fornecem conceitos que podem ser reutilizados dentro de um domínio específico (biológico, jurídico, entre outros). Ontologias de tarefas Detalham o vocabulário relacionado a uma tarefa ou atividade. Ontologias de domínio-tarefa Tratam-se de ontologias de tarefas que podem ser reutilizadas em um domínio específico, porém, não podem ser reutilizadas genericamente em domínio similares. Ontologias de métodos Fornecem definições para conceitos e relacionamentos relevantes para um processo. Ontologias de aplicação Contêm todos os conceitos necessários para modelar uma aplicação. É usada para especializar e estender ontologias de domínio ou de tarefa para uma aplicação específica. Tabela 4 - Classificação de ontologias quanto ao tipo de informação que representam.
3.1.3.2 Linguagens para representar ontologias
Ao longo dos últimos anos, uma série de linguagens foram desenvolvidas para a criação de ontologias, podendo citar o KIF (Knowledge Interchange Format) e a Ontolíngua, baseada em LISP e implementada como uma camada sobre o KIF. Com a expansão da Internet surgiram outras linguagens mais leves, do tipo mark-up como o HTML, XML e RDF. Em 2000, em Conferência de XML, Tim Berners-Lee propôs uma arquitetura visando construir gradativamente novas camadas sobre as já existentes, partindo da premissa de que seria mais fácil obter consenso em modificações menores do que em mudanças maiores ou radicais (figura 5). 68
Figura 6 - Estrutura interrelacionada de tecnologias da web semântica
Fonte: http://www.w3.org/2001/Talks/0228-tbl/slide5-0.html
Nesse modelo, a primeira camada é o HTML, criada para uso por seres humanos, complementada com o XML, usado para estruturar textos e troca de documentos na web por facilitar a interoperabilidade entre sistemas de informação.
A segunda camada é composta pelo RDF e RDF-Schema, que são hoje as fundações da web semântica. A partir delas, ao longo do tempo foram propostas outras linguagens para representar ontologias, como o SHOE, Oil, DAML, DAML+Oil e OWL.
3.1.3.2.1 RDF e RDF-Schema
O RDF (Resource Description Framework), apresentado no item 3.1.2.3, em sua estrutura oferece uma quantidade limitada de elementos pré-definidos. Assim, foi necessário ampliá-lo para permitir a expansão de seu vocabulário a fim de que novas classes e propriedades particulares ao seu domínio fossem desenvolvidas, surgindo o RDF-Schema (W3C, 2004).
Ele não provê exatamente as classes e propriedades, mas sim um framework onde é possível descrevê-las. 69
Classes essenciais do RDF-Schema rdfs:Resource A classe de todos os recursos rdfs:Class A classe de todas as classes rdfs:Literal A classe de todos os literais (cadeia de caracteres) rdfs:Property A classe de todas as propriedades rdfs: Statement A classe de todas as sentenças reificadas Para definir relacionamentos rdfs:subClassof Define um relacionamento de herança entre duas classes rdfs:subPropertyf Define um relacionamento de herança entre duas propriedades rdfs:type Define o relacionamento de um recurso a sua classe Para permitir que definições de vocabulários se encontrem em outros lugares na web rdfs:seeAlso Relaciona um recurso a outro que contém definição para o primeiro rdfs:isDefinedBy Subpropriedade de rdfs:seeAlso e relaciona um recurso a um local onde sua definição se encontra, em geral um RDF-Schema. Para permitir que a informação seja mais bem compreendida por leitores humanos rdfs:comment Comentários textuais associados a um recurso rdfs:label Atribui uma etiqueta ou nome a um recurso Para determinar restrições rdfs:domain Determina o domínio de uma propriedade rdfs:range Determina o alcance de uma propriedade Tabela 5 - Classes / primitivas do RDF-schema
O RDF-Schema é utilizado junto com o RDF, podendo ser considerado um tipo de dicionário legível por computadores. Ao uso conjunto das duas representações dá-se o nome de RDFS.
O RDFS recebe críticas como linguagem de ontologias por sua falta de expressividade, pois conceitos lógicos como negação, disjunção e conjunção não estão disponíveis em RDF. Para se conseguir a expressividade requerida pela web semântica foi preciso criar uma camada de ontologia sobre a camada RDFS. Nos itens seguintes são descritas resumidamente as propostas de linguagens para essa camada.
70
3.1.3.2.2 SHOE
O SHOE (Simple HTML Ontology Extension) (University of Maryland , 2010), um projeto da Universidade de Maryland em College Park, é uma extensão para HTML que permite aos autores de páginas web inserir em seus documentos, por meio de tags não exibidas pelos browsers, informações sobre o seu conteúdo para serem lidos por agentes de software possibilitando pesquisas semânticas.
É menos expressivo que o RDF, e além de apresentar dificuldades para sua manutenção, foi descontinuado, e seus pesquisadores adotaram as linguagens DAML+OIL e OWL. A página sobre essa linguagem é mantida ativa pela Universidade de Maryland e pode ser visitada em http://www.cs.umd.edu/projects/plus/SHOE (BREITMAN, 2006 p. 54).
3.1.3.2.3 OIL
A linguagem OIL (Ontology Inference Layer) nasceu sob os auspícios de um consórcio da Comunidade Europeia por meio do projeto On-to-Knowledge, em razão da necessidade de uma linguagem que possibilitasse a modelagem de ontologias na Web corrigindo deficiências do RDF.
Segundo Fensel et al., (2001, p. 8) a linguagem OIL se sobrepõe tecnologicamente às linguagens existentes até aquele momento por oferecer ao mesmo tempo:
sistemas baseados em Frame, fornecendo primitivas de modelagem epistemológicas; lógica de descrição, fornecendo semântica formal e suporte à inferência; padrões web: XML e RDF, sendo baseada nessas sintaxes.
Gómez-Pérez, citado em Breitman, define OIL como:
Uma linguagem baseada em frames que utilizam lógica de descrição para fornecer uma semântica clara, ao mesmo tempo em que permitem implementações eficientes de mecanismos de inferência que garantam a consistência da linguagem. (BREITMAN, 2006, p. 55) 71
Sendo estruturada em uma série de camadas onde cada camada adiciona funcionalidades e complexidade ao nível anterior, de tal forma que os agentes (humanos ou computadores) que conseguem processar uma camada inferior podem ao menos compreender parcialmente ontologias expressas em qualquer das camadas superiores. Uma primeira e importante aplicação desse princípio é a relação entre OIL e RDF-Schema, conforme mostrado na figura a seguir:
Figura 7 - Camadas da Linguagem OIL (Fonte: FENSEL, et al., 2001, p. 10)
A arquitetura em camadas de OIL possui três vantagens principais:
um aplicativo não precisa usar uma linguagem que oferece mais expressividade e complexidade do que o necessário; a aplicação que pode processar apenas um nível de menor complexidade ainda consegue capturar aspectos da ontologia; a aplicação que conseguem compreender um nível maior de complexidade também pode entender ontologias expressas em uma linguagem mais simples.
Fensel et al. (2001, p. 11) ilustram isso no exemplo abaixo, definindo herbívoro como uma classe, que é uma subclasse de animal, porém, separados de todos os carnívoros: 72
Uma aplicação limitada ao RDFS puro irá compreender apenas alguns aspectos dessa definição:
Muitos aspectos e características de OIL foram incorporados a OWL como se verá mais adiante.
3.1.3.2.4 DAML
Criada pelo Defense Advanced Research Projects Agency (DARPA), na mesma época em que a OIL era desenvolvida pelo Consórcio Europeu, a DAML (DARPA Agent Markup Language), extensão do RDF, objetiva permitir uma melhor interação de agentes de software. Em outubro de 2000, foi divulgada a primeira especificação dessa linguagem de ontologias chamada de DAML-ONT.
Herdando aspectos e características de OIL, pode-se afirmar que ambas apresentam funcionalidades relativamente similares. A tabela a seguir (BREITMAN, 2006, p. 58) resume as diferenças entre DAML e OIL.
73
Similaridades Diferenças Oferecem suporte a hierarquias de conceitos e A OIL oferece melhor compatibilidade RDF- propriedades, baseadas nos relacionamentos de Schema do que DAML. subclasse e subpropriedade. Permitem que conceitos sejam construídos a A OIL foi projetada de modo a permitir a partir de outros conceitos, utilizando inferência de modo completo e eficiente. combinações dos conectivos OR, AND e NOT. Algumas construções em DAML fazem com que a inferência se torne impossível. Permitem que sejam definidos o domínio, o Em OIL pode-se explicitar condições que sejam escopo e a cardinalidade das propriedades que suficientes ou necessárias e suficientes. A última vão compor as restrições dos conceitos. opção permite a classificação automática de conceitos. Oferecem propriedades transitivas e inversas DAML permite a especificação de valores Oferecem apoio a tipos de dados concretos default, ou seja, valores que serão inicializados (inteiros, cadeias, etc.) se nenhum outro for definido pelo modelador da ontologia. A OIL, no entanto, não permite a utilização de valores default, pois não existe uma semântica formal clara para tratá-los. Tabela 6 - Comparação entre as Linguagens OIL e DAML.
3.1.3.2.5 DAML + OIL
Criada em dezembro de 2000 a partir da combinação das linguagens DAML e OIL, substituiu a DAML ONT, sendo dividida em duas partes para permitir a implementação de mecanismos de inferência.
A primeira parte se refere ao domínio de objetos, consistindo nos objetos que são membros de classes definidas na ontologia DAML, e a segunda parte, domínio de tipos de dados, trata dos valores importados do modelo XML. DAML é composta por:
elementos de classe – associam uma classe a sua definição; expressões de classe – são as formas possíveis de referenciar uma classe; propriedades – associa uma propriedade a sua definição.
74
3.1.3.2.6 OWL
Conforme explicitado em W3C (2009), a linguagem OWL (Ontology Web Language) foi desenhada para ser usada por aplicações que precisem processar o conteúdo da informação e não apenas apresentá-las aos seres humanos, sendo uma revisão da DAML+OIL, incorporando melhorias necessárias a ela, sendo atualmente uma recomendação do W3C.
Pode ser utilizada para representar explicitamente o significado dos termos em vocabulários e os relacionamentos entre os termos, definindo uma ontologia. Além disso, possui mais facilidades do que o XML, RDF e RDF-S para expressar o significado e a semântica, possibilitando maior compreensão do conteúdo WEB pelos computadores, já que adiciona mais vocabulário para descrever propriedades e classes, tais como relações entre classes (e.g., disjointness), cardinalidade (e.g., exactly one), características de propriedades (e.g., simétrica).
Conforme Breitman (2006, p. 59), a OWL foi projetada para atender as necessidades das aplicações da web semântica, podendo ser resumidas da seguinte maneira:
Construção de ontologias: o criar uma ontologia; o explicitar conceitos fornecendo informações sobre os mesmos; o explicitar propriedades fornecendo informações sobre os mesmos. Explicitar fatos sobre um determinado domínio: o fornecer informações sobre indivíduos que fazem parte do domínio em questão; Racionalizar sobre ontologias e fatos: o determinar as consequências do que foi construído e explicitado.
Segundo Palazzi (2010, p. 14), a OWL disponibiliza três sublinguagens projetadas para uso por implementadores e usuários:
• OWL Lite: oferece suporte aos usuários que precisem de uma hierarquia de classificação e restrições simples. Por exemplo, enquanto o OWL Lite suporta restrições de cardinalidade, ele somente permite 0 ou 1 como valores de cardinalidade. Dessa forma, é mais simples criar ferramentas que suportam o OWL Lite do que em outras sublinguagens. Além disso, fornece um caminho mais curto de migração para o tesauro e outras taxonomias. 75
• OWL DL: oferece suporte aos usuários que necessitem do máximo de expressividade sem perder a completude computacional (todas as conclusões são garantidas de serem processadas) e capacidade de decisão (todos os processamentos serão finalizados em um tempo finito) dos sistemas de raciocínio. O OWL DL inclui todos os construtores da linguagem OWL com restrições como separação entre tipos (uma classe não pode ser ao mesmo tempo um indivíduo ou tipo, e uma propriedade não pode ser ao mesmo tempo um indivíduo ou uma classe). OWL DL tem esse nome devido a sua correspondência à Lógica de Descrição (Description Logic), um campo de pesquisa que tem estudado as lógicas que formam a base formal da OWL.
• OWL Full: é importante para os usuários que desejam o máximo de expressividade e a liberdade sintática do RDF, sem nenhuma garantia computacional. Por exemplo, em OWL Full, uma classe pode ser tratada simultaneamente como uma coleção de indivíduos ou, simplesmente, um indivíduo. O OWL Full permite uma ontologia aumentar o significado de um vocabulário predefinido (RDF ou OWL). É improvável que todo software de raciocínio seja capaz de suportar todas as características do OWL Full.
3.1.3.3 Principais metodologias de desenvolvimento de ontologias
Conforme Brandão et al. (2002, p. 5), com a Engenharia de Ontologias dando os seus passos iniciais, ainda não existem metodologias para desenvolvimento de ontologias que sejam mais usadas e aceitas de forma consensual pela comunidade científica, existindo sim, propostas de metodologias – algumas mais testadas que outras. Citando a primeira referência ao termo Engenharia de Ontologias por Mizoguchi e Ikeda, e ao desenvolvimento de propostas como a Enterprise Ontology, o projeto TOVE (TOronto Virtual Enterprise), projeto Esprit KACTUS (para o domínio de circuitos elétricos) e o Projeto METHONTOLOGY (um framework para construção de ontologias), concluem que apesar das várias tentativas em se criar metodologias, a prática demonstra que a maior parte dos grupos pesquisadores cria o seu próprio método de desenvolvimento, conforme as características da aplicação que pretende desenvolver usando a ontologia. Registra-se, porém, que em 2005 foi elaborada a norma ANSI/NISO Z39.19 – Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabularies, que contribui para o estabelecimento de consenso sobre a questão. 76
A seguir são comparadas as metodologias Cyc, Gruninger e Fox, Uschold e King, Kactus, Methontology, Método 101 e a norma ANSI/NISO Z39.19, a partir de quadro extraído de Silva et al. (2008, p. 4).
Tabela 7 - Metodologias, métodos e norma frente às categorias de análise predefinidas 77
3.1.3.4 Principais ontologias
Neste tópico são resumidas as principais ontologias públicas, iniciando pelas ontologias de topo ou upper ontologies, como a Sumo, KR e Cyc, passando por ontologias linguísticas como a WordNet, chegando às ontologias de domínio, considerando o contido em Breitman (2006):
Nome Origem / Projeto Principais Características SUMO (Suggested Upper Merged Proposta pelo Standard Upper Ontologia de Topo, que é uma Ontology) Ontology (SUO) Working Group da iniciativa de software livre e IEE e desenvolvida pela Teknowledge objetiva a construção de um Corporation padrão público a ser disponibilizado livremente pela Internet. Ontologia KR (Knowledge Proposta por John Sowa Ontologia de Topo, John Sowa se representation ontology) baseou nas distinções por alguns filósofos, em particular a semiótica de Peirce e as categorias de existência enumeradas por Whitehead. Cyc Desenvolvimento e propriedade Talvez seja o maior investimento Cycorp já realizado para a criação de uma ontologia de topo com a maior amplitude possível. Tem a intenção de acomodar todo o conhecimento humano. O Cyc ao contrário do SUMO é proprietário e de acesso limitado / restrito. WordNet Universidade de Princeton sob a É um banco de dados léxico que coordenação do pesquisador George possui os prováveis significados Miller. de mais de 120 mil palavras inglesas. Objetiva prover uma base léxica on line para ser utilizada por computadores. GUM (Generalized Upper Model) Information Sciences Institute (EUA), Ontologia linguística ligada à GMD (Alemanha) e CNR (Itália) semântica dos elementos da gramática. De maneira contrária ao WordNet, que provê a 78
semântica dos termos, a GUM descreve a semântica de construtos gramaticais do tipo frases. SENSUS Grupo ISI Ontologia de termos usados comumente em linguagem natural. Contém mais de 70 mil termos. A parte superior da ontologia contém cerca de 400 termos, referenciados como a Base da ontologia, tendo como fontes de sua construção, essencialmente em meio eletrônico, incluso o WordNet. EDR (Electronic Dictionary Electronic Dictionary Research and Projeto Japonês, com um Research) Development Group dicionário com mais de 400 mil http://www.edrdg.org/ conceitos para termos em inglês e japonês. Apesar da quantidade elevada, não fornece tantos detalhes para os conceitos individualmente. Euro WordNet The Global WordNet Association É uma base de dados com http://www.illc.uva.nl/EuroWordNet/ WordNets para várias línguas europeias, estruturadas da mesma forma que o WordNet da Universidade de Princeton. Está disponível para as línguas portuguesa, sueca, grega, dinamarquesa, basca, catalã, romena, lituana, russa, búlgara e eslovaca. Projeto Open Directory (ODP) Open Directory Project É um projeto público que adota o http://dmoz.org/ trabalho de voluntários do mundo todo e objetiva a construção de um enorme tesauro de termos codificados em RDF. Conta com mais de 8 mil termos cadastrados e tem como usuários muitos sites de busca, e.g., o Google. NAICS (North American Industry Census Office dos EUA em Classifica produtos e serviços de Classification System) colaboração com entidades do modo geral. Desenvolvido com 79
Canadá e México base na Standard Industrial Classification (SIC), sobre os setores: agricultura, mineração, construção, serviços de utilidade pública, atacado e varejo, acomodações e alimentação, finanças, imobiliário entre outros. GALEN OpenGALEN Representa uma terminologia clínica. Desenvolvida para especificar restrições usadas em domínios médicos. Busca atender as demandas de integração e re- uso de informações de pacientes, transmissão de dados e a padronização para atender a elaboração de estatísticas na área da saúde. FOAF (Friend Of A Friend) The Friend Of A Friend Project Busca compartilhar informação http://www.foaf-project.org/ pessoal e sobre pessoas conhecidas. Cada fato é descrito por meio de triplas em RDF.
Tabela 8 - Tabela das principais ontologias
3.1.3.5 Ferramentas de apoio ao desenvolvimento de ontologias
Atualmente existe uma série de ferramentas disponíveis no mercado aplicáveis à web semântica, que segundo Breitman (2006, p. 168) podem ser classificadas em três categorias principais: editores de ontologias, metadados e ferramentas de visualização ou mecanismos de inferência.
Os mecanismos de inferência podem derivar novos fatos ou associações a partir das informações disponíveis. Além disso, acredita-se que possam emular a forma como os humanos pensam e assim chegar a conclusões, implementando inteligência artificial, o que é incorreto, pois apenas usam estratégias conhecidas de processamento de dados. Outro ponto relevante é que as inferências serão tão boas quanto as informações disponíveis, o que no caso da web semântica será limitada apenas às classes e associações possíveis de serem descritas nos modelos OWL ou RDF. Como exemplo dessa categoria pode-se citar FaCT. 80
Apesar de existir um bom número de ferramentas, como o SAMBO – System for Aligning and Merging Bio-Ontologies (ABDULAHAD et al., 2004), Pellet (http://pellet.owldl.com) etc., segue abaixo tabela com resumo das ferramentas consideradas principais em Breitman (2006):
Nome Origem / Projeto Principais Características C&L Depto. de Informática da PUC-RJ Ferramenta de apoio à Engenharia de requisitos com o objetivo principal da edição de Cenários e LAL (Léxico Ampliado da Linguagem). Projeto desenvolvido com a filosofia de software livre. OilEd University of Manchester OilEd não pretende ser um ambiente completo para (Inglaterra) desenvolvimento de ontologias em larga escala. Ele é projetado para ser o “Bloco de Notas” dos editores *link conhecido estava inativo em de ontologia, mais adequado ao aprendizado, 08/03/2011. facilitando o uso e estimulando o interesse. Não disponibiliza um ambiente completo, não
suportando migração, integração, versionamento, argumentação, entre outras tarefas envolvidas no processo de construção de uma ontologia. OilEd - OilViz University of Manchester É um visualizador de hierarquias de classes que (Inglaterra) pode ser incorporado ao OilEd, como opção ao visualizador padrão do editor. Mostra a hierarquia em forma de árvore. FaCT University of Manchester É um mecanismo de inferência que verifica a (Inglaterra) consistência de ontologias elaboradas com OilEd por meio do mapeamento das ontologias para uma linguagem de lógica de descrição. Suas funcionalidades incluem detecção de inconsistências e identificação automática de relacionamentos taxonômicos. Protégé 2000 Stanford University É um ambiente para criação de ontologias e bases http://protege.stanford.edu/ de conhecimento. Desenvolvido em Java e no conceito de software livre, possibilita a criação de ontologias de domínio, formulários de entrada de dados e mecanismos de inserção de dados. Sua arquitetura aberta possibilita que sejam desenvolvidos livremente plugins que aumentam suas funcionalidades, estando disponíveis plugins para OWL e mecanismo de inferência RACER. OntoViz Stanford University É um dos plugins disponíveis para visualização de 81
http://protege.stanford.edu/ ontologias a partir do Protégé, possibilitando a visualização de partes especificas da ontologia de cada vez. Existem também a TGViz, Jambalaya e PROMPTViz. Editor de UKOLN É uma ferramenta que utiliza páginas como Metadados http://www.ukoln.ac.uk/metadata/dcdot/ marcação HTML como entrada, gerando uma DC.dot sugestão de marcação de Metadados descritos no padrão Dublin Core. Basicamente identifica informações sobre o autor, data de criação, assunto e linguagem do conteúdo da página
Tabela 9 - Principais ferramentas para o desenvolvimento de ontologias
3.1.3.6 Agentes de software
Agentes de software são porções de software responsáveis por coordenar tarefas de busca, comparação e negociação na web, encontrando alternativas possíveis para atender às necessidades dos usuários e então as oferecendo para que os usuários tomem suas decisões.
Em Breitman (2006, p. 154), são colocadas algumas definições convergentes sobre o tema que seguem abaixo: a) Segundo o Laboratório de Agentes de Software do MIT, os agentes são diferentes do software convencional, pois são:
semi-autônomos; proativos; adaptativos; duram mais; comportam-se mais como um assistente do que como uma ferramenta.
b) Grigori Antoniu e Frank Harmelen definem da seguinte forma:
Agentes são porções de software que trabalham de forma autônoma e proativa. Um Agente pessoal na web semântica vai receber uma lista de tarefas e preferências de uma pessoa, procurar recursos na rede, comunicar-se com outros agentes, comparar informações, selecionar algumas opções e apresentar uma lista de soluções para o usuário. 82
c) James Hendler em seu artigo “Agentes na web semântica”, compara agentes de software e agentes de viagens (humanos) da seguinte forma: “Em vez de fazer tudo para os usuários, os agentes (de software) vão achar maneiras possíveis de atender às suas necessidades, e então oferecer as opções ao usuário.” d) Conforme Berners-Lee (2001, p. 35 a 43), os agentes de software serão os responsáveis por coordenar tarefas de buscas, comparação e negociação na rede, reduzindo enormemente o esforço realizado pelos usuários. É importante ressaltar que os agentes da web semântica não agirão de forma autônoma, farão a parte mais “pesada” das investigações apresentando os resultados para que o usuário tome suas decisões. Em seu artigo de 2001 na Scientific American, exemplifica num caso hipotético em que a mãe de duas pessoas, Lucy e Pete, precisa realizar tratamento médico e, a partir da declaração dessa necessidade, o “agente” de Lucy busca alternativas considerando as premissas determinadas. A figura abaixo ilustra o fluxo de funcionamento de agentes de software e como interagiriam com outros sistemas de software e com seres humanos.
Figura 8 - Fluxo de trabalho de agente de software (Fonte: BERNERS-LEE et al., 2001) 83
Outro ponto ressaltado por Breitman (2006, p. 154) é quanto à combinação de características para determinar um agente de software, não sendo necessário que todas as características estejam presentes, afirmando também que o conjunto de propriedades do agente deve ser determinado em razão das tarefas que irá executar. A tabela abaixo mostra os tipos de agentes conforme a OMG – Object Management Group (http://www.omg.org/):
Tipo Descrição Autônomo Quando independe de controles externos. Vale registrar que essa autonomia é caracterizada por uma escala gradativa e não apenas por estar presente ou não. A autonomia é considerada pela FIPA (Foundation for Intelligent Physical Agents) e OMG como característica essencial de agentes. Interativos Quando podem se comunicar com o ambiente e outras entidades. Como a Autonomia, também é um atributo caracterizado por uma escala gradativa, sendo também considerado pela FIPA e OMG como característica essencial de agentes. Adaptativos Quando são capazes de responder a outros agentes e a seu ambiente em determinado grau. Também é considerado atributo essencial de agentes pela FIPA e OMG, no mínimo deve conseguir reagir a um estímulo simples. Formas mais avançadas envolvem o aprendizado e evolução. Móveis Quando conseguem transportar seu próprio código para outros computadores ao fim de sua execução. Justifica-se pelo ganho de desempenho que pode gerar ao estar mais próximo dos recursos que irá consumir. Não é uma característica essencial de agentes. Coordenados São capazes de cooperar com outros agentes para atingir objetivos. Atividades complexas, tais como a resolução de problemas, fornecimento de insumos e linhas de montagens são possíveis somente pela coordenação de múltiplas tarefas.
Tabela 10 - Tipos de agentes conforme a OMG Object Management Group
Os principais agentes e suas características estão listados na tabela que segue: Nome Origem / Projeto Principais Características CATO (Componente Departamento de Informática da Ferramenta para alinhamento de ontologias em para alinhamento PUC - RJ OWL. Desenvolvido a partir da visão que a WS Taxônomico de será composta por aplicações com ontologias ontologias) parciais e respectivas contextualizações. (FELICISSIMO, 2004) API Jena HP Labs Semantic É um framework Java para a construção de aplicações web semântica. Fornecendo um http://jena.sourceforge.net/ ambiente de programação para RDF, RDFS e OWL, SPARQL, inclui um engine de inferência. É open source e nasceu no HP Labs Semantic. Embora nem todos a considerem como um agente, pois sua aplicação mais usual é no desenvolvimento de agentes. Serviços Web Semantic Web Services Initiative Trata-se de estender a capacidade dos serviços semânticos (SWSI) web tradicionais por meio de descrições semânticas a fim de se obter uma maior http://www.swsi.org/ capacidade de expressão na sua definição, descoberta, seleção, monitoramento, interoperabilidade e acesso. Tabela 11 - Principais agentes 84
3.1.4 Aplicações da web semântica
Na tabela seguinte são apresentadas algumas aplicações que utilizam conceitos de web semântica, que já estão disponíveis na Internet mesmo que em estágio de protótipo.
Nome Origem / Projeto Principais Características Sandbox Correlator Yahoo Research Busca dentro dos documentos, nomes, datas e locais, localizando grupos de sentenças de interesse e as relaciona com uma “virtual Wikipedia page” criada “on the fly”, apresentando os resultados da pesquisa de uma maneira diferente dos outros buscadores, criando uma página resumida o que permite um melhor compreensão visual do resultado. Por exemplo, uma pesquisa “Jogos Olímpicos Tênis”. Percebe que é uma consulta que envolve dois conceitos “Jogos Olímpicos” e “Tênis” dando um resumo dos dois conceitos separadamente e depois apresenta os resultados dos dois conceitos combinados. PowerSet / Bing PowerSet Empresa com proposta de solução web semântica para motor de busca que foi comprada em 2008 pela Microsoft e incorporada como uma divisão do BING. Google Wave Google Não é uma aplicação especifica de processamento de arquivos nos modelos RDF, OWL ou RDFS, e sim uma ferramenta para disponibilizar informações em tempo real e possibilitar o compartilhamento de diversas mídias como fotos, mapas, texto, aplicações do tipo plugin, vídeos e interações com agentes. O lado poderoso dessa ferramenta é a possibilidade de criação de agentes que podem auxiliar no desenvolvimento de programas web semânticos. (FONTES, 2009, p. 78) Swoogle University of Motor de busca que descobre, analisa e indexa conhecimento Maryland, codificado em documentos de web semântica. Fornece acesso a Baltimore County esses dados que ajudam a humanos e computadores a achar documentos relevantes, termos, triplas. Prevê algoritmo http://swoogle.umbc inspirado no Google PageRank, porém adaptado a semântica e .edu/ padrões utilizados em documentos da web semântica. Tem sido utilizado em vários projetos para manter e gerenciar dados em RDF. Tabela 12 - Aplicações da web semântica
85
3.2 A QUESTÃO DOS MECANISMOS DE BUSCAS
Quando se aborda a questão de otimização para os sites de buscas neste trabalho, pretende-se com isso indicar caminhos para que o portal proposto tenha o melhor posicionamento possível junto aos buscadores e assim obtenha melhor visibilidade, alcançando o maior número possível de pessoas com ações de cunho técnico, dentro do escopo em discussão. Não serão abordadas ações off-page, que envolvem ações de relações públicas até links patrocinados, por estarem dentro de um escopo mais adequado ao estudo de questões de marketing e outras ciências humanas correlatas.
Isto posto, o foco será em SEO (Search Engine Optimization), por tratar das técnicas que considera aspectos de otimização on-page envolvendo conteúdos, códigos e estrutura do website.
Sobre otimizações on-page Gabriel (2009), considera pontos que seguem como principais, e eles serão o tema dos próximos itens:
código da página; conteúdos da página; estrutura da página e site.
3.2.1 Código da página
Dentro dos códigos HMTL, xHTML e linguagens de scripts que possam ter sido utilizadas, existem vários fatores que influem no posicionamento ou ranking obtidos nos resultados dos mecanismos de buscas.
3.2.1.1 Endereço da página (URL)
Observa-se se existem palavras-chaves no meio da URL da página; para os mecanismos de buscas isso aumenta a relevância da palavra-chave, oferecendo vantagens no retorno das 86
buscas. Por exemplo, a palavra chave “pesca” pode ter maior relevância para a URL www.pesca-submarina.com.br do que para www.clubesubmarino.com.br.
Outro ponto relevante é a profundidade da URL e o uso de parâmetros. Buscadores indexam até quatro níveis de profundidade e no máximo dois parâmetros. Uma boa URL pode ser: www.ibm.com.br/clientes/sp. Não possui parâmetros e tem apenas dois níveis de profundidade.
3.2.1.2 Metatags
Metatags declaradas em códigos HTML ou xHTML no início das páginas contendo informações sobre a página incluem tags como keywords e description.
Em razão do mau uso por editores e desenvolvedores25, essas tags estão perdendo importância no processo de ranking, porém ainda são utilizados por alguns mecanismos de buscas, algumas vezes combinando-as com outros conteúdos. Mas mesmo que não tenham o mesmo peso do passado, tê-las disponíveis corretamente ajudará caso sejam necessárias e não trará nenhum prejuízo se não forem utilizadas.
3.2.1.2.1 Metatag Keywords
Indicam aos mecanismos de buscas as palavras-chaves associadas à página. Apesar de alguns buscadores utilizarem outros critérios para estabelecer as palavras-chave, essa Tag deve estar disponível considerando as seguintes recomendações:
é inócuo um número excessivo de palavras-chave, pois a atribuição de valor a cada uma no posicionamento é inversamente proporcional ao número de palavras informadas. Utilize no máximo 10 palavras; cada página tem temas e objetivos diferentes, assim deve-se personalizar as palavras- chave para cada página;
25 Vide restrições de Cory Doctorow ao modelo de metadados da web semântica – As pessoas mentem. 87
deve-se procurar definir palavras-chave que são utilizadas no corpo da página garantindo a sintonia entre o conteúdo da página e as palavras-chave, do contrário a página perderá posições no ranking.
3.2.1.2.2 Metatag Description
Serve como a descrição da página que será exibida no resultado das buscas, do contrário utiliza-se o primeiro parágrafo do texto da página, o que nem sempre atende aos objetivos pretendidos; também é utilizado para estabelecer o posicionamento da página devendo observar as seguintes recomendações:
deve ser claro e ter o condão de estimular o público alvo a clicar e navegar pela página. Recomenda-se que tenha no máximo 150 caracteres; cada página tem temas e objetivos diferentes, assim deve-se personalizar as suas descrições; deve-se utilizar as palavras-chave no texto da descrição garantindo a sintonia entre a descrição da página e as palavras-chave, do contrário se perderão posições no ranking.
3.2.1.3 Tag Title
Considerado de grande importância por ser o primeiro item a ser visualizado, ser o título da página e normalmente informar o conteúdo da página.
Deve ser criado considerando as seguintes recomendações:
deve ser ou conter a palavra-chave mais importante da página; a palavra-chave deve estar posicionada o mais perto possível do início do texto; deve servir para responder a questão: Onde estou?; dever ser adequado para ser Bookmarked ou incluído entre os “favoritos” do browser; deve conter no máximo 70 caracteres.
88
3.2.1.4 Tag de subtítulo
Utilizado para breves descrições dos diferentes blocos de conteúdos da página, organizando e melhorando a sua legibilidade. Tem seu peso decrescendo de
(maior importância) até (menor importância). Devem ser criados observando os seguintes pontos:
palavras-chave devem ser incluídas nos textos das tags; as palavras-chave devem estar posicionadas o mais perto possível do início do texto.
3.2.1.5 Propriedade Alt na tag
O texto incluído na tag
alt=“Gráfico com evolução das séries históricas do IBGE” />
3.2.1.6 Topo de página
O topo das páginas é uma área importante para despertar o interesse do internauta em entrar e conhecê-la. Além disso, como comentado no item 3.2.1.2.2. – Metatag Description –, caso ela não seja definida, os buscadores exibem o primeiro parágrafo a partir do topo da página no retorno das buscas, assim recomenda-se que o primeiro parágrafo seja um breve resumo do seu conteúdo, incluindo as suas principais palavras-chave.
89
3.2.1.7 Links internos: âncoras e propriedades
A definição dos anchor texts (textos de âncora) para os links entre páginas do mesmo domínio devem observar algumas regras a fim de que sejam bem pontuados pelos buscadores.
procurar redigi-lo com palavra-chave importante da página destino. Isso aumenta a pontuação / reputação desse link; padronizar a forma de link para o mesmo domínio. Não usar http://osite.com e http://www.osite.com, pois os buscadores podem entender que se tratam de domínios distintos. Da mesma forma, se houver vários domínios apontando para o mesmo site, deve-se adotar um principal, e os demais devem ser tratados por redirecionamento no servidor para o domínio definido como o principal; utilizar substantivos na definição do texto âncora evitando verbos, não utilizando textos do tipo “clique aqui”. utilizar a propriedade title, pois os buscadores entendem o texto associado a essa propriedade como conteúdo normal da página. Exemplo:
o atributo nofollow deve ser utilizado sempre que houver link com página que não se deseja que os agentes dos buscadores sigam a partir desse link. Por exemplo, um site que não esteja diretamente relacionado ao assunto, ou que se esteja utilizando como exemplo ruim de algo que não deveria ser daquela forma; limitar a quantidade para até 100 links, pois os buscadores não indexam mais do que isso.
3.2.1.8 Frequência das palavras-chave na página
O uso de palavras-chave no texto da página faz com que ela tenha um posicionamento melhor junto aos buscadores. Entretanto, deve-se observar que o critério de avaliação da repetição das palavras-chave no texto da página (F) é obtido pela divisão das vezes em que aparece no texto (K) pelo total de palavras da página (T): F = K / T. 90
Apesar de o número ideal para essa relação não ser divulgado pelos buscadores, os especialistas consideram adequado entre 3% e 8%. Acima disso, além de trazer problemas de qualidade para o texto, os mecanismos de buscas podem entender que se trata de uma tentativa não ética de melhoria de posicionamento e assim penalizar a página reduzindo sua posição, ou até mesmo excluindo-a da indexação.
3.2.1.9 Scripts na página
O uso de porções de códigos de Scripts no topo das páginas pode fazer com que os buscadores indexem esses códigos como se fossem conteúdos, prejudicando a relevância do título e do primeiro parágrafo.
Quando se torne indispensável que sejam definidos no topo da página para que possam ser carregados previamente, é recomendado que sejam utilizados arquivos externos de scripts. Por exemplo, no caso do Javascript em arquivos com extensão.js, referenciado-o no código HTML / xHTML.
3.2.1.10 Menus de navegação
A questão dos menus é importante para o processo de indexação realizado pelos robots ou crawlers dos mecanismos de buscas, pois com eles podem-se associar as opções de navegação com seus respectivos links.
Quando os menus são desenvolvidos com recursos fora do HTML ou xHTML, como por exemplo Javascript ou Flash, isso pode impedir que os agentes de indexação enxerguem tais links de navegação, impossibilitando que sejam encontrados e indexados, reduzindo a profundidade de indexação e o nível de saturação do domínio26.
26 Nível de saturação do domínio ou Search Engine Saturation, é a relação entre as páginas indexadas e o total de páginas do site. Quanto maior a proporção de páginas indexadas, maior o nível de saturação do domínio e melhor a visibilidade que o site pode alcançar no mecanismo de buscas (GABRIEL, 2009, p. 76). 91
3.2.2 Conteúdo da página
O conteúdo é essencial, pois é o que atrairá as pessoas e os mecanismos de buscas ao site. Mas alguns aspectos precisam ser explicitados:
bom posicionamento nos buscadores depende essencialmente de bom conteúdo; bom conteúdo envolve boa redação, boa distribuição de palavras-chave, texto atualizado e relevante; páginas dinâmicas e arquivos Flash, não preparados para serem search engine friendly, podem não ser vistas e, como consequência, não serem indexadas pelos mecanismos de buscas; as páginas devem seguir os padrões do W3C, pois em geral tornam-se mais fáceis de serem tratadas pelos agentes dos buscadores. Pode-se usar o validador27 do W3C para verificar o nível de aderência das páginas ao padrão; em todas as tags de imagens, preencher o conteúdo da propriedade alt, que são entendidas pelos buscadores como conteúdo e que podem ajudar no aumento de ranking da página.
3.2.2.1 Conteúdo em Flash
Conteúdos em Flash podem ser entendidos pelos agentes dos mecanismos de buscas desde que observadas especificações para tornar isso possível. A Google28 e a Adobe29 disponibilizam documentação para permitir aos desenvolvedores criarem conteúdos em Flash que possam ser indexados, porém nem todos utilizam esse recurso gerando animações preparadas para SEO.
Apesar do esforço da Google e da Adobe em permitir essa adequação, deve-se considerar que conteúdos Flash não são nativamente amigáveis aos buscadores, e assim é muito importante que exista um planejamento para que eles sejam realmente desenvolvidos de forma adequada para SEO.
27 http://validator.w3.org. 28 http://googlewebmastercentral.blogspot.com/2008/06/improved-flash-indexing.html. 29 http://www.adobe.com/devnet/swf.html. 92
3.2.2.2 Conteúdos dinâmicos ou profundos
São páginas com conteúdos gerados a partir de bancos de dados. Dinâmicos, pois os dados dos bancos de dados podem mudar dinamicamente, e profundos, pois o dados estão disponíveis em uma camada abaixo das páginas (banco de dados).
O uso de conteúdos dinâmicos torna os sites mais eficientes e simplifica todo o processo de manutenção, o que faz com que se tornem uma tendência, porém isso afeta a classificação e ranking do site pela impossibilidade dos agentes dos mecanismos de buscas agirem dentro dos bancos de dados.
Para isso algumas soluções são possíveis. A primeira é tornar dinâmicos apenas os conteúdos em que isso for mandatório e assim reduzir o tamanho da parte profunda. Outra possibilidade seria adotar landing pages30, planejadas para dar visibilidade a palavras-chave específicas do site.
Outro problema em páginas dinâmicas é a questão dos links que são gerados com códigos e números e não com palavras, mas que pode ser contornado por meio de parametrizações nos servidores web. Por exemplo, no apache isso por ser ajustado com o comando RewriteEngine On, permitindo que um link seja digitado como www.osite.com/cursos/brasil e entendido como www.osite.com/pag.php?tipo=cursos?pais=brasil.
Ferramentas muito comuns em sites dinâmicos são os CMS (Content Management Systems), possuindo templates que permitem a padronização do seu visual e funcionalidades e possibilitam que toda a configuração do site fique armazenada em banco de dados. Eles podem ser de dois tipos. Os que geram as páginas dinamicamente, ou aqueles que compilam o conteúdo do banco de dados gerando páginas estáticas, sendo o segundo tipo mais amigável para os buscadores.
Pode-se citar como exemplos de CMS o Joomla, o Mambo, o WordPress, Alfresco e Drupal.
30 É a página que aparece para uma pessoa quando ela clica em um anúncio ou link de um resultado de busca (orgânica ou links patrocinados) (GABRIEL, 2009, p. 105). 93
3.2.2.3 Criação de conteúdos para SEO
A criação de conteúdos adequados para SEO não é tarefa simples. Conteúdos compostos por recursos sofisticados de som, vídeos, imagens e cores podem não surtir o efeito desejado. Mesmo um bom texto pode não obter os resultados esperados quanto a atrair e reter visitantes. Os agentes dos buscadores não se preocupam com a sofisticação tecnológica com a qual o site foi produzido, assim, alguns cuidados devem ser observados para a criação de bons conteúdos para otimização dos mecanismos de buscas:
procurar escolher apenas um tema por página, permitindo assim um foco maior, tornando o conteúdo mais atraente; após a escolha do tema, definir quantas e quais palavras-chave serão usadas; definir a frequência com que as palavras-chave devem aparecer; organizar bem a estrutura do texto: o definindo os tópicos que deve cobrir; o definindo como usar título e subtítulos (quebrando e organizando o documento, contendo as palavras-chave e/ou frases-chave).
Outra maneira de incluir bons conteúdos SEO é por meio da seção de comentários dos usuários ou pela criação de fóruns de discussão, sendo formas para obterem-se bons conteúdos sem custos adicionais, porém necessitam de mediação e monitoração para garantir que as mensagens postadas estão adequadas ao conteúdo/tema.
3.2.3 Estrutura: página e site
A estrutura da página e do site também são fatores importantes, que em conjunto com o código e conteúdo discutidos nos itens anteriores definem o seu posicionamento nos mecanismos de buscas.
94
3.2.3.1 Design e estrutura do website
Os problemas potenciais relacionados a design da página são:
navegação; frames; servidor; arquivo robots.txt.
Caso esses itens não estejam bem projetados, poderá ocorrer o bloqueio ou impedimento para que os robots ou crawlers dos buscadores entrem nessas páginas e façam sua indexação, deixando-a perdida no universo da web profunda.
Tais itens são discorridos nos tópicos a seguir.
3.2.3.1.1 Navegação
Falta de clareza nos menus impedem que os robots acessem as páginas internas a partir dos links definidos em cada opção de menu, reduzindo a quantidade de páginas indexadas do site e assim afetando o seu índice de saturação. As razões mais comuns para isso são o uso de scripts na construção da navegação ou o uso de Flash sem observar os cuidados para que seja amigável aos robots dos buscadores.
3.2.3.1.2 Frames
Frames são geradas a partir de comandos HTML, possibilitando que a página seja estruturada em partes independentes, formando um conjunto de páginas. O uso desse recurso de forma incorreta poderá impedir que os buscadores indexem essas páginas. O conteúdo dentro da tag